II. Блок “Проблемы и методы автоматической обработки текста»




I. Введение

Некоторые источники

Баранов А.Н. Введение в прикладную лингвистику. М., 2001. Марчук Ю.Н. Основы компьютерной лингвистики. М., 2000.

Баевский В. С. Лингвистические, математические, семантические и компьютерные модели в истории и теории литературы. М., 2001.

www.dialog-21.ru www.aot.ru www.ruscorpora.ru и др.

Журнал «Literary and Linguistic Computing»

 

Пересечение дисциплин

ИТ/КТ [в гуманитарных сферах]

Компьютерная лингвистика

Прикладная лингвистика

Автоматическая обработка текста

Статистические методы в анализе текста: лингвистика, литературоведение и фольклористика

 

Названия направлений и дисциплин

квантитативная лингвистика

понятие «квантификация знания»

вычислительная лингвистика

компьютерная (computational) лингвистика

инженерная лингвистика

математическая лингвистика

прикладная (applied) лингвистика

корпусная лингвистика

 

Двоякое понимание ИТ/КТ в гуманитарных сферах

использование ИТ/КТ в собственно гуманитарных исследованиях

использование компьютеризованных гуманитарных моделей в разных сферах деятельности

 

Самый простой вариант

Компьютерные/информационые технологии нужны магистру для того, чтобы набрать текст своей диссертации.

 

Более сложный вариант

Компьютерные/информационые технологии нужны магистру для того, чтобы:

пользоваться возможностями базы данных (корпус, словарь и т.п.) или различных узкоспециальных программ (например, обработки звука) для своих исследований;

работать с информацией в сферах прикладной филологии (WEB-дизайн, редакционно-издательская и архивная деятельность.

 

Еще более сложный вариант

Компьютерные/информационые технологии нужны магистру для того, чтобы алгоритмизировать и отработать на огромном материале свои модели текста.

 

Совсем сложный вариант

Экстрафилологический вариант: компьютерные/информационые технологии нужны магистру для того, чтобы создать алгоритмы автоматической обработки языковой информации, которые могли бы применять нефилологи, нелингвисты.

В любом случае –

междисциплинарный характер обсуждаемых тем.

 

Традиционно прикладные направления

Транскрипция речи. Транслитерация.

Повышение скорости набора текста. Проверка грамотности.

Преподавание иностранных языков.

Логопедия, нейролингвистика и проч.

Систематизация терминологии. Построение терминосистем.

Лексикография. Словари и справочники.

Создание и изучение искусств. языков.

Моделирование текста (в том числе ХТ).

 

Текст как основная единица изучения филологии

автоматизация его обработки на разных уровнях, проблемы и решения

 

Практика применения АОТ

распознавание речи,

машинный перевод,

автоматическая классификация документов,

аннотирование текстов,

кодирование текстов,

информационный поиск

(полу)автоматический набор текста

и т.д.

 

Не собственно гуманитарные сферы пересечения интересов

социология

психология

политика

криминалистика и юриспруденция

библиотечное дело

информатика

искусственный интеллект

Кто наши работодатели?

 

Лингвистика — Гуманитарная сфера?

1. Особенности лингвистических объектов

2. Общие интересы наук:

лингвистика  биология, физика

лингвистика  социология, психология

лингвистика «математика, информатика

… … …

 

? лингвистика  литературоведение

 

Методологические основы

Оптимизация языка. Моделирование.

Формализация языковых данных.

 

Словарь как традиционный пример формализованного описания.

Но и он делается для человека-читателя.

Словарное толкование (МАС)

ХИРУ́РГ, -а, м. Врач — специалист по хирургии.

ХИРУРГИ́Я, -и, ж. Раздел медицины, изучающий заболевания, основным методом лечения которых является оперативное вмешательство, и разрабатывающий приемы, методы и технику выполнения операций.

ВРАЧ… СПЕЦИАЛИСТ…

МЕДИЦИНА… ЗАБОЛЕВАНИЕ… ОПЕРАЦИЯ…

КОМПОНЕНТНЫЙ АНАЛИЗ

 

Многозначное слово (МАС)

ДЕ́ЛАТЬ, несов., перех. (сов. сделать).

1. Создавать обычно с помощью инструментов, специальных приспособлений, машин и т. п. различного рода предметы, вещи, изделия; изготовлять, производить. Делать станки.

2. Заниматься чем-л., работать, проявлять какую-л. деятельность. Я хотел приняться за работу — не мог; хотел ничего не делать и не думать

3. Поступать, действовать каким-л. образом. Делать все по-своему.

4. из кого-чего. Обращать, превращать в кого-, что-л. Делать из кого-л. посмешище.

◊ Делать авансы кому см. аванс; Делать акцент на чем см. акцент; Делать вид см. вид1; Делать большие (или круглые) глаза см. глаз; Делать из мухи слона см. муха; Не делать секрета из чего см. секрет1; От нечего делать — от безделья, от скуки … …

Сколько единиц хранения?

 

Предпосылки развития ИТ:
Человек и информационная среда

проблема ввода, распознавания, обработки информации

изменчивость и разрастание информационного пространства

дефицит времени и денег

развитие и интеграция информационных устройств

Предпосылки:
Развитие научной базы

математика и информатика

психология, социология и т.д.

когнитивная лингвистика, теория представления знаний

! Скорость развития прикладной лингвистики и информационных технологий, гигантский скачок за последние 30 лет

 

Влияние ИТ на традиционные гуманитарные методологии

использование теор. данных

постановка новых теор. задач, новые требования к четкости определений, логичности классификаций

выявление нерешенных проблем

Статистика и гуманитарные науки
Конструкции из теор. работы

интересно также отметить и…

часто встречается у… (характерно для…)

С другой стороны:

Мат. методы (в том числе математическая статистика) – это лишь инструмент для работы. Представления и гипотезы о причинной связи должны быть привнесены из некоторой другой теории, которая позволяет содержательно объяснить изучаемое явление.

 

Иными словами, даже верные статистические показатели могут создать картину, которая противоречит языковой действительности.

 

ИТ: данные о языке…

(как грамматику, так и семантику)

можно представить формализованно

перевести в компьютерный алгоритм.

 

Различия в гуманитарной и естественнонаучной методологии

Филология vs. Математика

Лингвистика vs. Литературоведение

 

Специфика гуманитарных исследований

Неточность, расплывчатость понятий и определений.

Преобладание качественных характеристик их основных объектов.

Ограниченность возможностей проведения активного эксперимента.

Большой объем исходной информации.

Именно второй пункт крайне осложняет построение формализованных теорий в филологии.

Острота четвертого пункта в отношении текстового анализа постепенно снимается с развитием компьютерных систем и корпусных проектов.

Направления ИТ/языковых технологий

Автоматический анализ и синтез речи.

Современная лексикография. Создание лексических тезаурусов.

Корпусная лингвистика.

Информационный поиск.

Автоматическое аннотирование.

Кодирование/декодирование текста.

Компьютерная проверка правописания и грамматики. Упрощение ввода текста, системы «интеллектуального ввода».

 

Новые средства интерфейса электронных устройств.

Лингвистические аспекты борьбы с вирусами. Антиспам.

Автоматический перевод.

Атрибуция (определение авторства) текста.

Политическая и юридическая лингвистика.

Лингвистические экспертизы.

Проблемы ТЕСТологии.

Искусственный интеллект как лингвистическая проблема.

Структура курса

I. Введение.

II. Проблемы и квантитативно-лингвистические методы АОТ.

III. Информационные технологии – сферы приложения АОТ и лингвистических знаний.

IV. Практические задания.

 

 

ческой обработки текста (АОТ)

Уровни языка и речи: классические представления

Уровни автоматической обработки текста

Генеральные проблемы АОТ

сегментация речи

снятие омонимии (разрешение многозначности)

 

 

II. Блок “Проблемы и методы автоматической обработки текста»

 

Уровни АОТ: Словообразование

2. Словообразование

Главные проблемы АОТ

Сегментация и снятие омонимии

(на морфемном уровне)

 

лист-в-енн-иц-а

? лист-в-ен-ниц-а

? лист-в-е-нн-ица

? лист-венниц-а

… …

Проблема описания значений морфем

Определение инвентаря морфем

Принципы формализация подачи информации в словарях морфем и грамматиках

 

Проблема идиоматичности слова

Подснежник = предмет (-ник), находящийся ниже (под-) [снега].

 

Снег – мин. непроизводная единица.

Вопрос применимости для извлечения информации о лексическом значении

 

Проблема неуниверсальности СО-моделей

тигр + -иц- = тигрица

тигр + -енок = тигренок

 

Аналогично:

лев – левица – левенок (?)

бык – бычица – бычонок (?)

 

 

Проблема морфемного варьирования

ДРУГ

дру[г]а, дру[к], о дру[г’]е

ДРУЖОК

дру[ж]ок, дру[ш]ка

ДРУЗЬЯ

дру[з’]ья

 

музей – музея – музеи:

музе(j)-0 – музе(j)-а – музе(0)-и

 

 

СО-синтез. Частный пример лингвистической формализации

красный – краснота

гладкий – гладкость

синий – синева

желтый – желтизна

… …

Разветвленная модель, позволяющая на основании формальных и семантических (!) признаков определить, образуется или не образуется слово.

Преобладание форманта -ость

верный – верность краткий - краткость

Специфика активных словообразовательных моделей

Модели, позволяющие на основании формальных и семантических признаков определить, образуется или не образуется слово.

 

Разветвленность и громоздкость алгоритмов. Включенность неавтоматизированных элементов.

Сложность русского словообразования.

Выводы:

Словообразовательные структуры проще давать списком, гнездами, тем более что сегодня можно позволить себе затратность в плане компьютерных ресурсов.

С другой стороны, описание аффиксов может быть полезно в процедуре морфологического и семантического анализа слов, отсутствующих в БД:

* компьютерность (мышления)

компьютерн-ый + -ость.

Применимость СО-анализа

в практике обучения РКИ

в системах машинного перевода

как дополнение разных видов АОТ

 

Но!

Ограниченность использования из-за перечисленных проблем.

 

Уровни АОТ: Морфология

3. Морфология

Задачи

обобщение грамматических форм

(окно – окна – окне – окнами и т.п.)

в различных программах, связанных с АОТ

разведение форм, относящихся к разным парадигмам (disambiguation, снятие неоднозначностей):

после – 1) после (нар.), 2) после (предл.), 3) посол (сущ.)

 

 

Морфологическая классификация языков

изолирующие

отсутствие словоизменения, грамматическая значимость порядка слов, слабое противопоставление знаменательных и служебных слов.

агглютинирующие

развитая система словоизменения, единый тип склонения и спряжения, грамматическая однозначность аффиксов, отсутствие значимых чередований

инкорпорирующие

возможность включения в состав глагола-сказуемого других членов предложения, иногда с сопутствующим морфонологическим изменением основ

флективные – наверно, самые продуктивные и интересные для разработки моделей морфологического анализа

полифункциональность грамматических морфем, наличие фонетических явлений на их стыках, фонетически не обусловленные изменения корня, большое число фонетически и семантически не мотивированных типов склонения и спряжения.

Граматический словарь
А. А. Зализняка

Примеры словарных статей

1/бол<еть нсв нп 1a (_о живом существе_)

2/бол<еть нсв нп 5b (_о частях тела_)

б>олеутол<ение с 7a

б>олеутол<яющий п 4a

болив<ар м 1a (_шляпа_)

бол<ивар м 1a (_денежная единица_)

болив<иец мо 5*a

болив<ийка жо 3*a

болив<ийский п 3a!&

болигол<ов м 1a

бол<ид м 1a

 

Особенности именной парадигмы падежей

nom — именительный падеж (голова, сын, степь, сани, который)

gen — родительный падеж (головы, сына, степи, саней, которого)

dat — дательный падеж (голове, сыну, степи, саням, которому)

acc — винительный падеж (голову, сына, степь, сани, который/которого)

ins — творительный падеж (головой, сыном, степью, санями, которым)

loc — предложный падеж ([о] голове, сыне, степи, санях, котором)

gen2 — второй родительный падеж (чашка чаю)

acc2 — второй винительный падеж (постричься в монахи; по два человека)

loc2 — второй предложный падеж (в лесу, на оси́)

voc — звательная форма (Господи, Серёж, ребят)

adnum — счётная форма (два часа́, три шара́)

 

 

Особенности глагольной парадигмы

инфинитив

личные формы

причастия (грамматически прилагательные)

деепричастия

Итого около 150 форм + возвратные

(» 80)

Прочие проблемы

Чисто флективные классы:

стол – стола – столы

Словоизменение с чередованием:

потолок – потолока – потолоки (?)

Словоизменение с супплетивизмом:

человек – человека – человеки (?)

меня – меню – мень (?)

 

По словарю А. А. Зализняка

8 типов именного словоизменения (с подтипами)

16 типов глагольного словоизменения (с подтипами)

особые типы склоненичя местоимений, числительных и т.д.

наличие «изолированной» лексики, не подчиняющейся общим моделям (глаголы типа БЫТЬ)

 

«Многословные» слова, коллокации, фразеологизмы

Самый общий термин – неоднословные целостности:

 

В течение, в виде, без устали, на ощупь, до упаду

 

Крутиться (крутится, кручусь, крутилась…) как белка в колесе

Положить (положишь, положил…) зубы на полку

Черт с… (тобой, ним, этим, лекцией…)

Пример работы морфоанализатора
Исходный текст

Вывод программы (Mystem, Яндекс) https://company.yandex.ru/technologies/mystem/

Вывод программы (Mystem, Яндекс) https://company.yandex.ru/technologies/mystem/

Проблема грамматической омонимии

стекла – стечь

стекла – стекло

 

при – при (предлог)

при – переть (императив)

при – пря (напр. род. п. ед. ч.) = устар. ссора, спор, состязание; то же, что распря.

 

Формально-графический принцип анализа

Основа + флексия:

мыш-Ь

мыш-И

мыш-И

мыш-Ь

мыш-ЬЮ

мыш-И

Виды морфоанализа

со словарем основ

со словарем словоформ

методом логического умножения

без словаря, с помощью таблиц

Чистый стеммер малопродуктивен для РЯ:

* кровать – кроваю – кроваешь – по типу читать (?)

* кровать – кровлю – кровишь – по типу спать (?)

* кровать – крую – круешь – по типу сновать (?)

Требования к современному алгоритму

объем словаря (покрытие 98-99%)

словоизменительный алгоритм

эффективная гипотетическая обработка новых слов

обучаемость системы

технические характеристики

Использование морфоанализа

системы информационного поиска

лингвистические корпуса

машинный перевод

автоматизированная проверка грамотности

… … …

Самые известные свободно распространяемые программы русского морфологического анализа:

MyStem (Яндекс)

Диалинг, Dialing (АОТ.ру)

Снятие неоднозначностей: постморфология

частота употребления форм:

при – предлог, при – от устар. пря

а – союз, частица, междометие, существительное?

анализ ближайшего контекста, шаблоны:

Л. П. Быков, профессор, зав. кафедрой

учет повторных употреблений в тексте

Быков – Быкова – Быковым. В одном контексте (?):

* Быков пасет пастух Быков.

подробный синтаксический анализ:

функция в предложении, особенности согласования, управления и т.п.

подключение словарей оборотов:

в + течение = в_течение (предлог)

Общие проблемы морфоанализа

объем словаря (больше или меньше?)

развитие системы (пополнение и чистка базы)

 

 

Уровни АОТ: Синтаксис

4. Синтаксис

Цель анализа

получить при помощи алгоритмов синтаксическую структуру предложения:

определить члены предложения и отношения между ними

определить структурный тип предложения

Синтаксический анализатор (парсер, парсинг)

Интернациональные эквиваленты

parser

parsing engine

Синтаксис и морфология

Светит незнакомая звезда,

Снова мы оторваны от дома…

 

Форма слова и член предложения.

(Не)морфологизированный член предложения.

Синтаксис и семантика

Дороги размыли дожди.

Дожди вызвали аварии на дорогах.

 

 

Член предложения и лексическое значение (+ фоновые знания, пресуппозиции высказывания)

Синтаксис и пунктуация

Ветер по морю гуляет

И кораблик подгоняет.

Казнить__нельзя__помиловать.

 

Член предложения, типы предложений, их границы и знаки препинания

Синтаксическая омонимия

Делегация из Петербурга прибыла в Москву.

Обвиняемого в убийстве священника Адельгейма потребовали принудительно лечить…

Проблема порядка слов

Мой отец – хороший специалист.

(тире может и не быть…)

Хороший специалист мой отец.

Белеет парус одинокий

В тумане моря голубом.

* Одинокий парус белеет в голубом тумане моря.

Дистантное расположение
и эллипсис

Специалист мой отец хороший.

Прикладная лингвистика, как мне кажется, интересный предмет.

Шапочка знала, что, если дернуть за веревочку, дверь откроется.

 

Мне два до Москвы.

Я за свечку, свечка – в печку!

«Ты куда?» – «На лекцию».

1-й этап. Синтаксическая сегментация

Выделение предложений при анализе текста (абзаца). Формальные маркеры.

[Берлиоз] побледнел, вытер лоб платком, подумал: "Что это со мной? Этого никогда не было… сердце шалит… я переутомился. Пожалуй, пора бросить все к черту и в Кисловодск…“

 

Прокуратор дернул щекой и сказал тихо:

— Приведите обвиняемого.

Сегментация предложения

Минимальная синтаксическая единица.

С точки зрения теор. лингвистики – только словоформа.

С точки зрения прикладной лингвистики – словоформа или оператор (знак препинания или союз). Они вскрывают синтаксические отношения

Сегментация предложения

Построение дерева синтагм и дерева сегментов.

Дерево («граф» – что это такое?)

«Синтагма» в теоретической и прикладной лингвистике

Вчера выпал снег.

«Сегмент» = клауза (фрагмент предложения) в теоретической и прикладной лингвистике.

Выделение сегментов

Вчера выпал снег, заваливший всю область.

Вчера выпал снег, который завалил всю область.

2-й этап. Способы представления структур

Модель предложения можно представить (изобразить, формализовать) двумя традиционными способами:

 

грамматика зависимостей

грамматика составляющих

Грамматика зависимостей

Я иду в магазин за хлебом.

Я иду ® за  хлебом

в

магазин

Бинарные отношения

Наличие корня (иду)

Грамматика составляющих

Предложение

Я иду

 

за хлебом

 

в магазин

Классификация парсеров

По способу движения:

Непрерывные

Циклические

 

По выявляемым отрезкам

Интегральные

Локальные

Языковые средства, применяемые при парсинге

Словоизменение +

Учет морфологических признаков =

МОРФОАНАЛИЗ

Классический пример Л.В.Щербы:

Глок-ая куздр-а штеко будланул-а бокр-а

и кудряч-ит бокрёнк-а.

Выбрал президента – выбрал «Президент» (сыр, шоколад, отель…)

 

Языковые средства, применяемые при парсинге

Языковые универсалии (члены предложения и проч.)

Служебные слова

Пунктуация

Порядок слов

 

Интонация (?)

Интонация как синтаксическое средство

Пример А. Е. Кибрика:

В этой гимназии учился впоследствии всемирно известный киноартист.

Полезные синтаксические ограничения

Порядок слов, «проективность» предложения

 

Сегодня мне приснился странный сон.

 

«Непроективное» предложение:

 

Странный мне приснился сон сегодня.

Полезные синтаксические ограничения

Зависимость любой синтаксической структуры от одной вершины.

люблю

вас

 

люблю и боюсь И

вас люблю боюсь

вас

Полезные синтаксические ограничения

Один субъект и один предикат в структуре сегмента, кроме случаев сочинительных отношений между субъектами и предикатами:

 

Арлекин и Пьеро прыгали и кричали.

Выводы: общие проблемы парсинга

Сложность языковой системы, свободный порядок слов во многих языках

Неуниверсальность синтаксических моделей в плане анализа разных языков

Коррекция результатов человеком («ручная» работа)

Вопрос о нужности анализа синтаксических структур при семантическом анализе.

Семантическая эквивалентность

Вчера выпал снег, заваливший всю область.

Вчера выпал снег, который завалил всю область.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-04-01 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: