Проекты EuroWordNet, GermaNet … …
А как же русский WordNet?
Русские проекты
Проект RussNet (СпбГУ, рук. И. В. Азарова). Ориентация на отражение лексической системы русского языка и различных семантических отношений внутри системы. Работа рассчитана на длительную перспективу. Текущий объем тезауруса небольшой.
Стратегия перевода WN на русский язык (ЗАО “Руссикон”, А. М. Сухоногов, С. А. Яблонский); группа Новосибирского университета (И. Г. Гельфенбейн, А. В. Гончарук и др.). Однако межъязыковые различия препятствуют наложению семантической структуры одного языка на лексику другого.
Тезаурус РуТез, разработанный в НИВЦ МГУ. Долгие годы остается закрытым ресурсом, доступным только его создателям.
Интерпретация проблем
Сложности связаны с трудоемкостью процесса накопления и редактирования лексических баз такого рода и ограниченностью человеческих ресурсов.
Традиционные методы создания таких ресурсов (ручной труд небольших замкнутых коллективов) затратны и не позволяют быстро получить результат приемлемого качества.
Тем не менее потребность в общедоступном тезаурусе русского языка только возрастает.
Проект YARN (Yet Another RussNet)
www.russianword.net
Особенность YARN состоит в том, что он открыт для всех, наполняется и редактируется по принципу Википедии и Русского Викисловаря (https://ru.wiktionary.org).
Проект YARN (Yet Another RussNet)
Единицей описания в тезаурусе является не отдельное слово, а синсет (ряд синонимов). В синсет могут входить как однословные, так и неоднословные синонимы, аббревиатуры: подводная лодка — подлодка — субмарина, программное обеспечение – ПО – софт.
В тезаурусе должны быть представлены все основные слова и составные наименования, поэтому синсет может состоять и из одного слова (выражения), но только если для соответствующего значения синонимов не существует (суффикс, стиральный порошок и т.п.).
Синонимы могут быть однокорневыми и разнокорневыми словами: интересный – небезынтересный – увлекательный; неинтересный – безынтересный – скучный.
Проект YARN (Yet Another RussNet)
Типы смысловых отношений между словами:
синонимия: интересный – любопытный, бортпроводница – стюардесса;
антонимия: горячий – холодный, плохо – хорошо;
гипо-гиперонимия: мебель – кровать, врач – терапевт;
меронимия/холонимия: лицо – нос, книга – страница.
лексическая деривация: стол – столик, лес – лесной, знать – знание.
Кроме того, в тезаурусе обнаруживаются отношения между словами, входящими в одну смысловую группу.
Проект YARN (Yet Another RussNet)
Сегодня наш тезаурус проходит стадию первичного тестирования, отладки и функционального расширения. Мы ждем от участников не только работы с контентом. Пожалуйста, суммируйте критические замечания и пожелания по работе редактора тезауруса.
Информационные технологии
Атрибуция текста
Введение. Термины-синонимы
атрибуция = авторизация = установление авторства анонимного текста (или текста с мистифицированным авторством)
В шир. смысле – приписывание тексту атрибутов (не только авторства, но и времени и места создания, жанра и проч.).
Результаты атрибуции
Текст принадлежит автору Х
Текст не принадлежит автору Х
Текст, вероятней всего, принадлежит автору Х
Текст может принадлежать автору Х
Проблема оценки вероятности
Наиболее актуальные аспекты проблемы
Текстологический
Криминалистический
Текстологические проблемы: филология и математика
Проблема малой формализованности гуманитарных моделей.
Проблема вульгарного использования статистических методов.
О статистике
Математическая статистика представляет собой лишь инструмент для изучения статистической зависимости в проблемной области. Даже верные статистические показатели могут создать картину, которая противоречит языковой действительности.
Вопрос о корректности моделирования.
Текстология: проблемы авторства литературных произведений
Древнерусские литературные памятники
литература XVII-XIX в. (например, некоторые стихотворения Пушкина и «Гавриилиада»
Ряд произведний ХХ в.
Проблемы авторства.
ХХ в.
«Тихий Дон»
и др. произведения М. А. Шолохова
Проблемы авторства. ХХ в., 1934 г.
«Роман с кокаином».
М. Агеев?
В. Набоков?
Марк Леви?
История вопроса
Этапы и методология атрибуции художественного текста
ХХ в.: развитие проблемы
Постановка проблемы: Н. А Морозов, «формальная» школа (Б. Томашевский, Ю. Тынянов, Б. Эйхенбаум)
«Объективно-исторический» подход (В. В. Виноградов, Д. С. Лихачев)
Современные направления (широкое использование квантитативно-лингвистических методов)
Приемы атрибуции