На сегодняшний день WordNet-подобные ресурсы созданы для многих языков, в том числе для малых языков и латыни.




Проекты EuroWordNet, GermaNet … …

А как же русский WordNet?

Русские проекты

Проект RussNet (СпбГУ, рук. И. В. Азарова). Ориентация на отражение лексической системы русского языка и различных семантических отношений внутри системы. Работа рассчитана на длительную перспективу. Текущий объем тезауруса небольшой.

Стратегия перевода WN на русский язык (ЗАО “Руссикон”, А. М. Сухоногов, С. А. Яблонский); группа Новосибирского университета (И. Г. Гельфенбейн, А. В. Гончарук и др.). Однако межъязыковые различия препятствуют наложению семантической структуры одного языка на лексику другого.

Тезаурус РуТез, разработанный в НИВЦ МГУ. Долгие годы остается закрытым ресурсом, доступным только его создателям.

Интерпретация проблем

Сложности связаны с трудоемкостью процесса накопления и редактирования лексических баз такого рода и ограниченностью человеческих ресурсов.

Традиционные методы создания таких ресурсов (ручной труд небольших замкнутых коллективов) затратны и не позволяют быстро получить результат приемлемого качества.

Тем не менее потребность в общедоступном тезаурусе русского языка только возрастает.

Проект YARN (Yet Another RussNet)

www.russianword.net

Особенность YARN состоит в том, что он открыт для всех, наполняется и редактируется по принципу Википедии и Русского Викисловаря (https://ru.wiktionary.org).

Проект YARN (Yet Another RussNet)

Единицей описания в тезаурусе является не отдельное слово, а синсет (ряд синонимов). В синсет могут входить как однословные, так и неоднословные синонимы, аббревиатуры: подводная лодка — подлодка — субмарина, программное обеспечение – ПО – софт.

В тезаурусе должны быть представлены все основные слова и составные наименования, поэтому синсет может состоять и из одного слова (выражения), но только если для соответствующего значения синонимов не существует (суффикс, стиральный порошок и т.п.).

Синонимы могут быть однокорневыми и разнокорневыми словами: интересный – небезынтересный – увлекательный; неинтересный – безынтересный – скучный.

Проект YARN (Yet Another RussNet)

Типы смысловых отношений между словами:

синонимия: интересный – любопытный, бортпроводница – стюардесса;

антонимия: горячий – холодный, плохо – хорошо;

гипо-гиперонимия: мебель – кровать, врач – терапевт;

меронимия/холонимия: лицо – нос, книга – страница.

лексическая деривация: стол – столик, лес – лесной, знать – знание.

Кроме того, в тезаурусе обнаруживаются отношения между словами, входящими в одну смысловую группу.

Проект YARN (Yet Another RussNet)

Сегодня наш тезаурус проходит стадию первичного тестирования, отладки и функционального расширения. Мы ждем от участников не только работы с контентом. Пожалуйста, суммируйте критические замечания и пожелания по работе редактора тезауруса.

Информационные технологии

Атрибуция текста

Введение. Термины-синонимы

атрибуция = авторизация = установление авторства анонимного текста (или текста с мистифицированным авторством)

В шир. смысле – приписывание тексту атрибутов (не только авторства, но и времени и места создания, жанра и проч.).

Результаты атрибуции

Текст принадлежит автору Х

Текст не принадлежит автору Х

Текст, вероятней всего, принадлежит автору Х

Текст может принадлежать автору Х

Проблема оценки вероятности

Наиболее актуальные аспекты проблемы

Текстологический

Криминалистический

Текстологические проблемы: филология и математика

Проблема малой формализованности гуманитарных моделей.

Проблема вульгарного использования статистических методов.

О статистике

Математическая статистика представляет собой лишь инструмент для изучения статистической зависимости в проблемной области. Даже верные статистические показатели могут создать картину, которая противоречит языковой действительности.

Вопрос о корректности моделирования.

Текстология: проблемы авторства литературных произведений

Древнерусские литературные памятники

литература XVII-XIX в. (например, некоторые стихотворения Пушкина и «Гавриилиада»

Ряд произведний ХХ в.

Проблемы авторства.
ХХ в.
«Тихий Дон»
и др. произведения М. А. Шолохова

Проблемы авторства. ХХ в., 1934 г.
«Роман с кокаином».
М. Агеев?
В. Набоков?
Марк Леви?

История вопроса

Этапы и методология атрибуции художественного текста

ХХ в.: развитие проблемы

Постановка проблемы: Н. А Морозов, «формальная» школа (Б. Томашевский, Ю. Тынянов, Б. Эйхенбаум)

«Объективно-исторический» подход (В. В. Виноградов, Д. С. Лихачев)

Современные направления (широкое использование квантитативно-лингвистических методов)

Приемы атрибуции



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-04-01 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: