Морфологическая разметка

В иностранной терминологии употребляется термин part-of-speech tagging (POS-tagging), дословно –частеречная разметка. В действительности морфологические метки включают не только признак части речи, но и лемму, а также признаки грамматических категорий, свойственных данной части речи.

Автоматический морфологический анализ - специальный модуль автоматического анализа языка, обеспечивающий анализ словоформ на морфологическом уровне.

Это основной тип разметки: во-первых, большинство крупных корпусов являются как раз морфологически размеченными корпусами, во-вторых, морфологический анализ рассматривается как основа для дальнейших форм анализа – синтаксического и семантического, и, в-третьих, успехи в компьютерной морфологии позволяют автоматически с большой степенью правильности размечать корпусы больших размеров.

Одной из главных составляющих корректного разбора слов являются базы морфем. При запуске программы происходит загрузка словарей и оптимизация поиска по ним.

Любой разбор слова производится от его начала к концу. Программа «пытается» подобрать последовательность морфем, принадлежащих определенной части речи. Так, например, исходя из базы морфем, после глагольного суффикса
«-л-» (изъявительное наклонение, прошедшее время) могут следовать такие окончания, как: «-а-», «-о-», «-и-», или нулевое окончание. Разбор считается завершенным успешно, если всё слово было разобрано на морфемы, в соответствии с правилами русского языка, и не осталось не разобранных букв.

Программа накапливает все возможные варианты разбора и выбирает из них оптимальный. Для этого используется система весов морфем: каждой морфеме или группе морфем присваивается некоторый вес. Вариант разбора, набравший наибольший вес, считается оптимальным.

Так, междометия имеют более высокий вес, нежели существительные, это делается во избежание выбора оптимальным заведомо ложного варианта разбора междометия как существительного («охрана» имеет корень хран, а не ох). Вес варианта разбора может уменьшиться в случае, если в нем встречается много корней (т.к. удельный вес многокоренных слов в рус яз ниже, чем однокоренных). Если же морфема состоит из большого количества символов, то её вес увеличится (достопримечательность: чтобы система дальше не стала выделять приставку до, корни сто, меч).

После разбора программа формирует файл отчета, в который заносятся все слова с вариантами их разбора, где наглядно демонстрируются морфемы слова. Помимо этого производится подсчет статистики по введенному тексту. Так, например, программа выдаёт как часто и какие корни встречались в тексте.

Анализ, осуществяемый морфологическим модулем автоматической обработки естественного языка, может заключаться в следующем:

1. нормализация словоформ (лемматизация), т.е. сведение различных словоформ к некоторому единому представлению - к исходной форме, или лемме);

2. стемминг - другой вид нормализации, когда разные словоформы приводятся к одной основе, точнее "пседвооснове" (для некоторых задач, включая поиск в интернете, достаточно приведения к одной основе различных дериватов; например, прилагательного фотографический и существительного фотография, так как пользовательскому запросу будут удовлетворять и документы со словосочетанием фотографический портрет и со словосочетанием портретная фотография)

3. частеречный тэгинг (pos-tagging), т.е. указание части речи для каждой словоформы в тексте)

4. полный морфологический анализ - приписывание грамматических характеристик словоформе

В 1980 году появилась размеченная версия Брауновского корпуса, в которой была проведена лемматизация словоформ, маркировка их поверхностно-синтаксических функций и т.д.

Морфологическая разметка Брауновского корпуса выглядит следующим образом:

the_AT jury_NN further_RB said_VBD in_IN term-end_NN presentments_NNS that_CS the_AT *city_NP *executive_NP *committee_NP,_, which_WDT had_HVD over-all_JJ charge_NN of_IN the_AT election_NN,_, deserves_VBZ the_AT praise_NN and_CC thanks_NNS of_IN the_AT *city_NP of_NP *atlanta_NP for_IN the_AT manner_NN in_IN which_WDT the_AT election_NN was_BEDZ conducted_VBN |

Приведем пример морфологической разметки фрагмента текста на русском языке «Звонили к вечерне. Торжественный гул колоколов » в XML-формате на основе разметчика АОТ (рис. 1).

В представленной записи использованы тэги <text> – текст, <p> – абзац, <s> – предложение, <w> – словоупотребление, <pun> – знак пунктуации. Тэг <w> содержит вложенный тэг <ana> с атрибутами <lemma> – лемма, <pos> – часть речи, <gram> – набор граммем. Значения граммем приводятся в Приложении 3.

Синтаксическая разметка

Синтаксическая разметка является результатом парсинга, выполняемого на основе данных морфологического анализа. Этот вид разметки описывает синтаксические связи между лексическими единицами и различные синтаксические конструкции (например, придаточное предложение, глагольное словосочетание и т.д.).

<?xml version="1.0" encoding="windows-1251"?> <text> <p> <s> <w>Звонили<ana lemma="ЗВОНИТЬ" pos="Г" gram="мн,нс,нп,дст,прш," /></w> <w>к<ana lemma="К" pos="ПРЕДЛ" gram="" /></w> <w>вечерне <ana lemma="ВЕЧЕРНЯ" pos="С" gram="жр,ед,дт,пр,но," /> <ana lemma="ВЕЧЕРНИЙ" pos="П" gram="ср,ед,кр," /></w> <pun>.</pun> </s> <s><w>Торжественный<ana lemma="ТОРЖЕСТВЕННЫЙ" pos="П" gram="мр,ед,им,вн," /></w> <w>гул<ana lemma="ГУЛ" pos="С" gram="мр,ед,им,вн,но," /></w> <w>колоколов <ana lemma="КОЛОКОЛ" pos="С" gram="мр,мн,рд,но," /> <ana lemma="КОЛОКОЛОВ" pos="С" gram="мр,фам,ед,им,од," /></w> ……………………..<pun>.</pun> </s></p></text>

Рис. 1. Пример морфологической разметки текста на русском языке

(список граммем см. Приложение 3)

В отличие от морфологии, способы представления синтаксической структуры и синтаксических отношений не столь унифицированы. Наблюдается разнообразие синтаксических теорий и формализмов:

· грамматика зависимостей;

· грамматика непосредственно составляющих;

· грамматика структурных схем;

· традиционные синтаксические учения о членах предложения;

· функциональная грамматика;

· семантический синтаксис и др.

Синтаксический анализ для русского языка чаще всего представлен структурами зависимостей. На рисунке 2 представлен пример визуализации дерева зависимостей.

Long ago, in the city of Babylon, the people began to build a huge tower which seemed to reach the heavens soon.

Рис. 2. Пример синтаксического разбора

(грамматика зависимостей, система ЭТАП-3)

Семантическая разметка

Семантические тэги чаще всего обозначают семантические категории, к которым относится данное слово или словосочетание, и более узкие подкатегории, специфицирующие его значение. Семантическая разметка корпусов предусматривает спецификацию значения слов, разрешение омонимии и синонимии, категоризацию слов (разряды), выделение тематических классов, признаков каузативности, оценочных и деривационных характеристик и т.д.

Свой вариант семантической разметки предлагает НКРЯ. В этом корпусе каждой словоформе приписываются пометы трех типов.

1) разряд (имя собственное, возвратное местоимение и т.д.);

2) лексико-семантические характеристики (тематический класс лексемы, признаки каузативности, оценки и т.д.);

3) деривационные характеристики («диминутив», «отадъективное наречие» и т.д.).

Собственно лексико-семантические тэги сгруппированы по следующим полям:

• таксономия (тематический класс лексемы) – для имен существительных, прилагательных, глаголов и наречий;

• мереология (указание на отношения «часть – целое», «элемент – множество») – для предметных и непредметных имен;

• топология (топологический статус обозначаемого объекта) – для предметных имен;

• каузация – для глаголов;

• служебный статус – для глаголов;

• оценка – для предметных и непредметных имен, прилагательных и наречий.

Словообразовательные характеристики включают несколько типов:

• морфо-семантические словообразовательные признаки (например, «каритив», «семельфактив»);

• разряд производящего слова (например, отглагольное существительное или отадъективное наречие);

• лексико-семантический (таксономический) тип производящего слова (например, наречие, образованное от прилагательного размера);

• морфологический тип словообразования (субстантивация, сложное слово) (более подробно см. https://ruscorpora.ru, раздел «Семантика»).

Существуют и другие типы разметки, в частности:

· анафорическая разметка. Она фиксирует референтные связи, например, местоименные;

· просодическая разметка. В просодических корпусах применяются тэги, обозначающие ударение и интонацию. В корпусах устной разговорной речи просодическая разметка часто сопровождается так называемой дискурсной разметкой, которая служит для обозначения пауз, повторов, оговорок и т.д.

Морфологическая разметка

Поиск по сайту