I. Введение
Некоторые источники
Баранов А.Н. Введение в прикладную лингвистику. М., 2001. Марчук Ю.Н. Основы компьютерной лингвистики. М., 2000.
Баевский В. С. Лингвистические, математические, семантические и компьютерные модели в истории и теории литературы. М., 2001.
www.dialog-21.ru www.aot.ru www.ruscorpora.ru и др.
Журнал «Literary and Linguistic Computing»
Пересечение дисциплин
ИТ/КТ [в гуманитарных сферах]
Компьютерная лингвистика
Прикладная лингвистика
Автоматическая обработка текста
Статистические методы в анализе текста: лингвистика, литературоведение и фольклористика
Названия направлений и дисциплин
квантитативная лингвистика
понятие «квантификация знания»
вычислительная лингвистика
компьютерная (computational) лингвистика
инженерная лингвистика
математическая лингвистика
прикладная (applied) лингвистика
корпусная лингвистика
Двоякое понимание ИТ/КТ в гуманитарных сферах
использование ИТ/КТ в собственно гуманитарных исследованиях
использование компьютеризованных гуманитарных моделей в разных сферах деятельности
Самый простой вариант
Компьютерные/информационые технологии нужны магистру для того, чтобы набрать текст своей диссертации.
Более сложный вариант
Компьютерные/информационые технологии нужны магистру для того, чтобы:
пользоваться возможностями базы данных (корпус, словарь и т.п.) или различных узкоспециальных программ (например, обработки звука) для своих исследований;
работать с информацией в сферах прикладной филологии (WEB-дизайн, редакционно-издательская и архивная деятельность.
Еще более сложный вариант
Компьютерные/информационые технологии нужны магистру для того, чтобы алгоритмизировать и отработать на огромном материале свои модели текста.
|
Совсем сложный вариант
Экстрафилологический вариант: компьютерные/информационые технологии нужны магистру для того, чтобы создать алгоритмы автоматической обработки языковой информации, которые могли бы применять нефилологи, нелингвисты.
В любом случае –
междисциплинарный характер обсуждаемых тем.
Традиционно прикладные направления
Транскрипция речи. Транслитерация.
Повышение скорости набора текста. Проверка грамотности.
Преподавание иностранных языков.
Логопедия, нейролингвистика и проч.
Систематизация терминологии. Построение терминосистем.
Лексикография. Словари и справочники.
Создание и изучение искусств. языков.
Моделирование текста (в том числе ХТ).
Текст как основная единица изучения филологии
автоматизация его обработки на разных уровнях, проблемы и решения
Практика применения АОТ
распознавание речи,
машинный перевод,
автоматическая классификация документов,
аннотирование текстов,
кодирование текстов,
информационный поиск
(полу)автоматический набор текста
и т.д.
Не собственно гуманитарные сферы пересечения интересов
социология
психология
политика
криминалистика и юриспруденция
библиотечное дело
информатика
искусственный интеллект
…
Кто наши работодатели?
Лингвистика — Гуманитарная сфера?
1. Особенности лингвистических объектов
2. Общие интересы наук:
лингвистика биология, физика
лингвистика социология, психология
лингвистика «математика, информатика
|
… … …
? лингвистика литературоведение
Методологические основы
Оптимизация языка. Моделирование.
Формализация языковых данных.
Словарь как традиционный пример формализованного описания.
Но и он делается для человека-читателя.
Словарное толкование (МАС)
ХИРУ́РГ, -а, м. Врач — специалист по хирургии.
ХИРУРГИ́Я, -и, ж. Раздел медицины, изучающий заболевания, основным методом лечения которых является оперативное вмешательство, и разрабатывающий приемы, методы и технику выполнения операций.
ВРАЧ… СПЕЦИАЛИСТ…
МЕДИЦИНА… ЗАБОЛЕВАНИЕ… ОПЕРАЦИЯ…
КОМПОНЕНТНЫЙ АНАЛИЗ
Многозначное слово (МАС)
ДЕ́ЛАТЬ, несов., перех. (сов. сделать).
1. Создавать обычно с помощью инструментов, специальных приспособлений, машин и т. п. различного рода предметы, вещи, изделия; изготовлять, производить. Делать станки.
2. Заниматься чем-л., работать, проявлять какую-л. деятельность. Я хотел приняться за работу — не мог; хотел ничего не делать и не думать …
3. Поступать, действовать каким-л. образом. Делать все по-своему.
4. из кого-чего. Обращать, превращать в кого-, что-л. Делать из кого-л. посмешище.
◊ Делать авансы кому см. аванс; Делать акцент на чем см. акцент; Делать вид см. вид1; Делать большие (или круглые) глаза см. глаз; Делать из мухи слона см. муха; Не делать секрета из чего см. секрет1; От нечего делать — от безделья, от скуки … …
Сколько единиц хранения?
Предпосылки развития ИТ:
Человек и информационная среда
проблема ввода, распознавания, обработки информации
изменчивость и разрастание информационного пространства
|
дефицит времени и денег
развитие и интеграция информационных устройств
Предпосылки:
Развитие научной базы
математика и информатика
психология, социология и т.д.
когнитивная лингвистика, теория представления знаний
! Скорость развития прикладной лингвистики и информационных технологий, гигантский скачок за последние 30 лет
Влияние ИТ на традиционные гуманитарные методологии
использование теор. данных
постановка новых теор. задач, новые требования к четкости определений, логичности классификаций
выявление нерешенных проблем
Статистика и гуманитарные науки
Конструкции из теор. работы
интересно также отметить и…
часто встречается у… (характерно для…)
С другой стороны:
Мат. методы (в том числе математическая статистика) – это лишь инструмент для работы. Представления и гипотезы о причинной связи должны быть привнесены из некоторой другой теории, которая позволяет содержательно объяснить изучаемое явление.
Иными словами, даже верные статистические показатели могут создать картину, которая противоречит языковой действительности.
ИТ: данные о языке…
(как грамматику, так и семантику)
можно представить формализованно
перевести в компьютерный алгоритм.
Различия в гуманитарной и естественнонаучной методологии
Филология vs. Математика
Лингвистика vs. Литературоведение
Специфика гуманитарных исследований
Неточность, расплывчатость понятий и определений.
Преобладание качественных характеристик их основных объектов.
Ограниченность возможностей проведения активного эксперимента.
Большой объем исходной информации.
Именно второй пункт крайне осложняет построение формализованных теорий в филологии.
Острота четвертого пункта в отношении текстового анализа постепенно снимается с развитием компьютерных систем и корпусных проектов.
Направления ИТ/языковых технологий
Автоматический анализ и синтез речи.
Современная лексикография. Создание лексических тезаурусов.
Корпусная лингвистика.
Информационный поиск.
Автоматическое аннотирование.
Кодирование/декодирование текста.
Компьютерная проверка правописания и грамматики. Упрощение ввода текста, системы «интеллектуального ввода».
Новые средства интерфейса электронных устройств.
Лингвистические аспекты борьбы с вирусами. Антиспам.
Автоматический перевод.
Атрибуция (определение авторства) текста.
Политическая и юридическая лингвистика.
Лингвистические экспертизы.
Проблемы ТЕСТологии.
Искусственный интеллект как лингвистическая проблема.
Структура курса
I. Введение.
II. Проблемы и квантитативно-лингвистические методы АОТ.
III. Информационные технологии – сферы приложения АОТ и лингвистических знаний.
IV. Практические задания.
ческой обработки текста (АОТ)
Уровни языка и речи: классические представления
Уровни автоматической обработки текста
Генеральные проблемы АОТ
сегментация речи
снятие омонимии (разрешение многозначности)
II. Блок “Проблемы и методы автоматической обработки текста»
Уровни АОТ: Словообразование
2. Словообразование
Главные проблемы АОТ
Сегментация и снятие омонимии
(на морфемном уровне)
лист-в-енн-иц-а
? лист-в-ен-ниц-а
? лист-в-е-нн-ица
? лист-венниц-а
… …
Проблема описания значений морфем
Определение инвентаря морфем
Принципы формализация подачи информации в словарях морфем и грамматиках
Проблема идиоматичности слова
Подснежник = предмет (-ник), находящийся ниже (под-) [снега].
Снег – мин. непроизводная единица.
Вопрос применимости для извлечения информации о лексическом значении
Проблема неуниверсальности СО-моделей
тигр + -иц- = тигрица
тигр + -енок = тигренок
Аналогично:
лев – левица – левенок (?)
бык – бычица – бычонок (?)
Проблема морфемного варьирования
ДРУГ
дру[г]а, дру[к], о дру[г’]е
ДРУЖОК
дру[ж]ок, дру[ш]ка
ДРУЗЬЯ
дру[з’]ья
музей – музея – музеи:
музе(j)-0 – музе(j)-а – музе(0)-и
СО-синтез. Частный пример лингвистической формализации
красный – краснота
гладкий – гладкость
синий – синева
желтый – желтизна
… …
Разветвленная модель, позволяющая на основании формальных и семантических (!) признаков определить, образуется или не образуется слово.
Преобладание форманта -ость
верный – верность краткий - краткость
Специфика активных словообразовательных моделей
Модели, позволяющие на основании формальных и семантических признаков определить, образуется или не образуется слово.
Разветвленность и громоздкость алгоритмов. Включенность неавтоматизированных элементов.
Сложность русского словообразования.
Выводы:
Словообразовательные структуры проще давать списком, гнездами, тем более что сегодня можно позволить себе затратность в плане компьютерных ресурсов.
С другой стороны, описание аффиксов может быть полезно в процедуре морфологического и семантического анализа слов, отсутствующих в БД:
* компьютерность (мышления)
компьютерн-ый + -ость.
Применимость СО-анализа
в практике обучения РКИ
в системах машинного перевода
как дополнение разных видов АОТ
Но!
Ограниченность использования из-за перечисленных проблем.
Уровни АОТ: Морфология
3. Морфология
Задачи
обобщение грамматических форм
(окно – окна – окне – окнами и т.п.)
в различных программах, связанных с АОТ
разведение форм, относящихся к разным парадигмам (disambiguation, снятие неоднозначностей):
после – 1) после (нар.), 2) после (предл.), 3) посол (сущ.)
Морфологическая классификация языков
изолирующие
отсутствие словоизменения, грамматическая значимость порядка слов, слабое противопоставление знаменательных и служебных слов.
агглютинирующие
развитая система словоизменения, единый тип склонения и спряжения, грамматическая однозначность аффиксов, отсутствие значимых чередований
инкорпорирующие
возможность включения в состав глагола-сказуемого других членов предложения, иногда с сопутствующим морфонологическим изменением основ
флективные – наверно, самые продуктивные и интересные для разработки моделей морфологического анализа
полифункциональность грамматических морфем, наличие фонетических явлений на их стыках, фонетически не обусловленные изменения корня, большое число фонетически и семантически не мотивированных типов склонения и спряжения.
Граматический словарь
А. А. Зализняка
Примеры словарных статей
1/бол<еть нсв нп 1a (_о живом существе_)
2/бол<еть нсв нп 5b (_о частях тела_)
б>олеутол<ение с 7a
б>олеутол<яющий п 4a
болив<ар м 1a (_шляпа_)
бол<ивар м 1a (_денежная единица_)
болив<иец мо 5*a
болив<ийка жо 3*a
болив<ийский п 3a!&
болигол<ов м 1a
бол<ид м 1a
Особенности именной парадигмы падежей
nom — именительный падеж (голова, сын, степь, сани, который)
gen — родительный падеж (головы, сына, степи, саней, которого)
dat — дательный падеж (голове, сыну, степи, саням, которому)
acc — винительный падеж (голову, сына, степь, сани, который/которого)
ins — творительный падеж (головой, сыном, степью, санями, которым)
loc — предложный падеж ([о] голове, сыне, степи, санях, котором)
gen2 — второй родительный падеж (чашка чаю)
acc2 — второй винительный падеж (постричься в монахи; по два человека)
loc2 — второй предложный падеж (в лесу, на оси́)
voc — звательная форма (Господи, Серёж, ребят)
adnum — счётная форма (два часа́, три шара́)
Особенности глагольной парадигмы
инфинитив
личные формы
причастия (грамматически прилагательные)
деепричастия
Итого около 150 форм + возвратные
(» 80)
Прочие проблемы
Чисто флективные классы:
стол – стола – столы
Словоизменение с чередованием:
потолок – потолока – потолоки (?)
Словоизменение с супплетивизмом:
человек – человека – человеки (?)
меня – меню – мень (?)
По словарю А. А. Зализняка
8 типов именного словоизменения (с подтипами)
16 типов глагольного словоизменения (с подтипами)
особые типы склоненичя местоимений, числительных и т.д.
наличие «изолированной» лексики, не подчиняющейся общим моделям (глаголы типа БЫТЬ)
«Многословные» слова, коллокации, фразеологизмы
Самый общий термин – неоднословные целостности:
В течение, в виде, без устали, на ощупь, до упаду
Крутиться (крутится, кручусь, крутилась…) как белка в колесе
Положить (положишь, положил…) зубы на полку
Черт с… (тобой, ним, этим, лекцией…)
Пример работы морфоанализатора
Исходный текст
Вывод программы (Mystem, Яндекс) https://company.yandex.ru/technologies/mystem/
Вывод программы (Mystem, Яндекс) https://company.yandex.ru/technologies/mystem/
Проблема грамматической омонимии
стекла – стечь
стекла – стекло
при – при (предлог)
при – переть (императив)
при – пря (напр. род. п. ед. ч.) = устар. ссора, спор, состязание; то же, что распря.
Формально-графический принцип анализа
Основа + флексия:
мыш-Ь
мыш-И
мыш-И
мыш-Ь
мыш-ЬЮ
мыш-И
Виды морфоанализа
со словарем основ
со словарем словоформ
методом логического умножения
без словаря, с помощью таблиц
Чистый стеммер малопродуктивен для РЯ:
* кровать – кроваю – кроваешь – по типу читать (?)
* кровать – кровлю – кровишь – по типу спать (?)
* кровать – крую – круешь – по типу сновать (?)
Требования к современному алгоритму
объем словаря (покрытие 98-99%)
словоизменительный алгоритм
эффективная гипотетическая обработка новых слов
обучаемость системы
технические характеристики
Использование морфоанализа
системы информационного поиска
лингвистические корпуса
машинный перевод
автоматизированная проверка грамотности
… … …
Самые известные свободно распространяемые программы русского морфологического анализа:
MyStem (Яндекс)
Диалинг, Dialing (АОТ.ру)
Снятие неоднозначностей: постморфология
частота употребления форм:
при – предлог, при – от устар. пря
а – союз, частица, междометие, существительное?
анализ ближайшего контекста, шаблоны:
Л. П. Быков, профессор, зав. кафедрой
учет повторных употреблений в тексте
Быков – Быкова – Быковым. В одном контексте (?):
* Быков пасет пастух Быков.
подробный синтаксический анализ:
функция в предложении, особенности согласования, управления и т.п.
подключение словарей оборотов:
в + течение = в_течение (предлог)
Общие проблемы морфоанализа
объем словаря (больше или меньше?)
развитие системы (пополнение и чистка базы)
Уровни АОТ: Синтаксис
4. Синтаксис
Цель анализа
получить при помощи алгоритмов синтаксическую структуру предложения:
определить члены предложения и отношения между ними
определить структурный тип предложения
Синтаксический анализатор (парсер, парсинг)
Интернациональные эквиваленты
parser
parsing engine
Синтаксис и морфология
Светит незнакомая звезда,
Снова мы оторваны от дома…
Форма слова и член предложения.
(Не)морфологизированный член предложения.
Синтаксис и семантика
Дороги размыли дожди.
Дожди вызвали аварии на дорогах.
Член предложения и лексическое значение (+ фоновые знания, пресуппозиции высказывания)
Синтаксис и пунктуация
Ветер по морю гуляет
И кораблик подгоняет.
Казнить__нельзя__помиловать.
Член предложения, типы предложений, их границы и знаки препинания
Синтаксическая омонимия
Делегация из Петербурга прибыла в Москву.
Обвиняемого в убийстве священника Адельгейма потребовали принудительно лечить…
Проблема порядка слов
Мой отец – хороший специалист.
(тире может и не быть…)
Хороший специалист мой отец.
Белеет парус одинокий
В тумане моря голубом.
* Одинокий парус белеет в голубом тумане моря.
Дистантное расположение
и эллипсис
Специалист мой отец хороший.
Прикладная лингвистика, как мне кажется, интересный предмет.
Шапочка знала, что, если дернуть за веревочку, дверь откроется.
Мне два до Москвы.
Я за свечку, свечка – в печку!
«Ты куда?» – «На лекцию».
1-й этап. Синтаксическая сегментация
Выделение предложений при анализе текста (абзаца). Формальные маркеры.
[Берлиоз] побледнел, вытер лоб платком, подумал: "Что это со мной? Этого никогда не было… сердце шалит… я переутомился. Пожалуй, пора бросить все к черту и в Кисловодск…“
Прокуратор дернул щекой и сказал тихо:
— Приведите обвиняемого.
Сегментация предложения
Минимальная синтаксическая единица.
С точки зрения теор. лингвистики – только словоформа.
С точки зрения прикладной лингвистики – словоформа или оператор (знак препинания или союз). Они вскрывают синтаксические отношения
Сегментация предложения
Построение дерева синтагм и дерева сегментов.
Дерево («граф» – что это такое?)
«Синтагма» в теоретической и прикладной лингвистике
Вчера выпал снег.
«Сегмент» = клауза (фрагмент предложения) в теоретической и прикладной лингвистике.
Выделение сегментов
Вчера выпал снег, заваливший всю область.
Вчера выпал снег, который завалил всю область.
2-й этап. Способы представления структур
Модель предложения можно представить (изобразить, формализовать) двумя традиционными способами:
грамматика зависимостей
грамматика составляющих
Грамматика зависимостей
Я иду в магазин за хлебом.
Я иду ® за хлебом
в
магазин
Бинарные отношения
Наличие корня (иду)
Грамматика составляющих
Предложение
Я иду
за хлебом
в магазин
Классификация парсеров
По способу движения:
Непрерывные
Циклические
По выявляемым отрезкам
Интегральные
Локальные
Языковые средства, применяемые при парсинге
Словоизменение +
Учет морфологических признаков =
МОРФОАНАЛИЗ
Классический пример Л.В.Щербы:
Глок-ая куздр-а штеко будланул-а бокр-а
и кудряч-ит бокрёнк-а.
Выбрал президента – выбрал «Президент» (сыр, шоколад, отель…)
Языковые средства, применяемые при парсинге
Языковые универсалии (члены предложения и проч.)
Служебные слова
Пунктуация
Порядок слов
Интонация (?)
Интонация как синтаксическое средство
Пример А. Е. Кибрика:
В этой гимназии учился впоследствии всемирно известный киноартист.
Полезные синтаксические ограничения
Порядок слов, «проективность» предложения
Сегодня мне приснился странный сон.
«Непроективное» предложение:
Странный мне приснился сон сегодня.
Полезные синтаксические ограничения
Зависимость любой синтаксической структуры от одной вершины.
люблю
вас
люблю и боюсь И
вас люблю боюсь
вас
Полезные синтаксические ограничения
Один субъект и один предикат в структуре сегмента, кроме случаев сочинительных отношений между субъектами и предикатами:
Арлекин и Пьеро прыгали и кричали.
Выводы: общие проблемы парсинга
Сложность языковой системы, свободный порядок слов во многих языках
Неуниверсальность синтаксических моделей в плане анализа разных языков
Коррекция результатов человеком («ручная» работа)
Вопрос о нужности анализа синтаксических структур при семантическом анализе.
Семантическая эквивалентность
Вчера выпал снег, заваливший всю область.
Вчера выпал снег, который завалил всю область.