Морфологический анализ словоформы




Алгоритм морфологического анализа (МА) в решающей степени зависит от принятого в системе способа хранения информации. Существуют два основных метода: декларативный и процедурный.

При декларативном методе реализации МА в словаре хранятся все возможные словоформы каждого слова с приписанной им МИ. По сути, в декларативном МА нет собственно морфологического анализа; задача алгоритма состоит только в поиске словоформы в словаре и переписывании из словаря соответствующего ей комплекса МИ. Таким образом, декларативный МА работает быстрее, чем процедурный. Однако велика трудоемкость построения словаря, а также требуются значительные затраты памяти ЭВМ.

При процедурном методе в словаре системы хранятся основы слов. Процедурный МА выполняет следующие функции: выделя­ет в словоформе основу, идентифицирует ее (найдя в словаре основ и заменив на код, используемый этапами синтаксиса и се­мантики) и конструирует для данной словоформы комплекс МИ.

Рассмотрим один из методов морфологического анализа словоформ русского языка, который называется обратным методом. Его алгоритм состоит из пяти блоков.

1. Поиск словоформы в словаре готовых форм. В русском языке существует небольшое коли­чество неизменяемых слов и слов с нерегулярными формами из­менения. Для этих слов МА не требуется вообще или не укладывается в стандартные правила. Примерами таких слов являются предлоги, наречия, неизменяемые существительные (пальто), знаки препинания, цифры, некоторые формы глаголов (идтишел) и т.п. Указанные слова хранятся в сло­варе готовых форм (СГФ) и задача первого блока МА состоит в том, чтобы определить, не встречается ли в нем очередная словоформа вход­ного текста. Если да, то вся необходимая МИ переписывается из СГФ и анализ слово­формы заканчивается.

2. Выделение основы. Работа второго блока МА сводится к последовательным проверкам возможностей вложения в анализируемую словоформу справа налево окончаний и суффиксов. При этом для ускорения прове­рок вкладываются (отсекаются) аффиксы с большим числом букв, а информация о вкладывающихся в них меньших аффик­сах получается не поиском, а за счет отсылок.

Соотношение по вложенности аффиксов таково: аффиксы полных прилагательных включают аффиксы существительных, аффиксы глаголов включа­ют аффиксы существительных и кратких прилагательных, а аф­фиксы существительных — аффиксы кратких прилагательных. Например, у аффикса -ей (часть речи — прилагательное, напри­мер, «средней») записано четыре МИ: 1) род., ед., ж., о; 2) дат., ед., ж., б; 3) тв., ед., ж., 6; 4) пр., ед., ж., о.— и указана отсылка на аффикс -ей (часть речи — существительное, например, «мат­рицей») с МИ: тв., ед., ж..

В результате вложения всех возможных аффиксов словофор­ме сопоставляется одна или несколько гипотетических основ (ГО) и для каждой основы — одна или несколько МИ.

3. Поиск основы в словаре основ. В случае нахождения ГО в словаре основ и совпаде­ния части речи ГО с частью речи словарной основы (СО) (а для существительных при совпадении также типов основ, одушевленности, рода и числа) данная ГО и ее МИ (одна или несколько) при­знаются правильными. В противном случае ГО признается оши­бочной и отбрасывается.

Сравнение МИ, полученных по таблицам аффиксов, с информацией из словаря служит для разрешения лексической омонимии основ существительных. Такое сравнение позволяет в большинстве слу­чаев отсеять омонимичные основы, оставляя неразрешенной только полную омонимию, т. е. когда омонимичны и основы и аффиксы.

Для глагольных основ, подобная система разрешения омонимии возможна, но менее эффективна. Дело в том, что у существительных морфологиче­ские типы служат не столько для разрешения омонимии основ, сколько для разрешения омонимии аффиксов. При анализе гла­голов, у которых омонимичных аффиксов нет, встречаются затруднения. Во-первых, по разным аффиксам может вос­станавливаться один и тот же номер морфологического типа (так, суффиксы - ива - и - ыва - свойственны глаголам одного типа, но уб-ива-ть и уб-ыва-ть). Во-вторых, по некоторым аффиксам нельзя однозначно восстановить морфологический тип (суффикс - а - в бежать: бежит — и в вешать: вешает, т. е. может выступать показателем разных типов глаголов). Наиболее разумным подходом к этой проблеме является хранение в словаре основ с приписанными им аффиксами. При необходимости разрешать омонимию основ они сравниваются с аффиксом, который следует за основой в обрабатываемой словоформе. Например, в словаре хранятся две основы уб. Одна с аффиксом - ива - (от убивать), а дру­гая с аффиксом - ыва - (от убывать). Если в обрабаты­ваемом тексте встретилось слово убывал, то при анализе будет выбрана вторая основа уб.

Данная проблема может быть решена и прин­ципиально иным способом. При возникновении омонимии при анализе словоформы А включается этап синтеза, который по основам и их МИ (выделенным на анализе) строит словоформы. Правильными считаются те из выделенных основ и МИ, по ко­торым будет построена словоформа А. Данный путь отличается наибольшим изяществом и отсутствием дополнений и поправок к словарю, хотя требует существенных машинных затрат. Подобный метод проверки «анализа через синтез» широко используется в системах понимания речевых сигналов.

В задачу третьего блока входит также корректировка множества МИ, сопоставленных данной слово­форме, полученного на основе таблиц аффиксов. Так, в зависимости от наличия возвратной частицы и типа активности гла­гола может корректироваться ха­рактеристика «залог». Особое место занимает определение «ви­да» глагола.

Поясним детали работы МА на примере словоформ решает и решится. В основном словаре для основы -реш- записана следующая морфологическая информация: часть речи — «глагол», основа имеет активную и пассивную формы (а/п), основа относится к «виду» нсв/сов (например: «решать (нсв) — решить (сов)»). В связи с тем, что в СГФ указанные словоформы не будут найдены, начнет работу второй блок МА. Сначала будет вложена возвратная частица - ся (для первой словоформы) и окончание - ет (- ит). В таблице аффиксов окончанию - ет (- ит) соответствует МИ: глаг., наст., ед., р., акт. Данные окончания содержат отсылку на вкладывающиеся в них пустые окончания -0- для существительных типа «теодолит» (сущ., им., ед., м., о; сущ., вин., ед,. м., неод.), и типа «бит» — единица информации (сущ., род., мн., о; сущ., вин., мн., о.).

Для глаголов будет произведено вложение суффиксов - а - (для первой словоформы) и -и- (для второй). Итак, будут сфор­мированы следующие гипотетические основы (ГО): 1) для пер­вой словоформы будет получено две основы: -решает- с МИ для существительного и -реш- с МИ для глагола; 2) для второй сло­воформы («решится») — одна основа -реш- с МП для глагола (существительное не будет рассматриваться в связи с частицей - ся). Основа -решает- в словаре не будет найдена и признается ошибочной. Основа - реш - признается правильной, так как части речи ГО и СО совпадают. В связи с тем, что основа имеет форму а/п и в «решится» вложена частица - ся, в МИ второй словоформы акт. заменяется на пасс. Основа -реш- относится к типу нсв/сов, т.е. информация о «виде» определяет­ся по правилу, связанному с основой. Применение соответствующего правила к первой основе дает «нсв», а ко второй — «сов». В связи с тем, что у второй словоформы «вид» = «сов» и «время» = «настоящее», «время» изменяется на «будущее». Итак, словоформе «решает» соответствует МИ: «глаг., наст., ед., р, акт., нсв», а для «решится» — «глаг., буд., ед., р, пасс, сов».

4. Обработка словосочетаний. Задача четвертого блока состоит в том, чтобы преобразовать некоторые словоформы, отделенные друг от друга пробелами или другими словоформами, к одной основе (операция «склеивание»). Данная операция выполняется для упрощения синтаксического и семантического анализов. Операция «склеивание» выполняется для словосочетаний и «аналитических форм» глаголов (напри­мер, «будет строить», «была построена» и т. п.).

Словоформы, образующие аналитическую форму глагола, заменяются на «но­вую» основу с МИ, приписанной на основе информации о глаго­ле «быть» и информации инфинитива (или краткого прилага­тельного).

Так, например, в случае аналитической формы («быть» в будущем времени + инфинитив, например: будет строиться), выражающей будущее время глагола, стоящего в форме инфинитива, совершаются следующие преобразования. «Новой» основе приписывается словарный номер инфинитива «строить» с МИ: глаг. (по части речи «будет»), пассивность (по инфинитиву «строиться»), а время, род и число — по глаголу «будет». В данном случае «будет строиться» заменится на «строить» с МИ: глаг., пасс, буд., р., ед. (т. е. аналог «по­строиться»).

Словосо­четанием назовем жестко закрепленную последовательность сло­воформ, рассматриваемую на уровне семантики как единое по­нятие. В словаре системы у основы (X), хранится следующая информация обо всех сло­восочетаниях, начинающихся с X: а) перечень основ, образую­щих словосочетания, с указанием (при необходимости) для каж­дой основы части речи, рода, числа и падежа; б) главное слово словосочетания (т. е. слово, по которому словосочетанию припи­сывается МИ). Словарной статье собственно словосочетания при­писана такая же информация, как и любой обычной основе. «Склеивание» словосочетаний протекает следующим образом. Сначала обрабатываются отдельные слово­формы. Затем по словоформе (X), с которой может начинаться словосочетание (информация об этом указана в словаре), опре­деляется, удовлетворяют ли следующие за X словоформы (по части речи, роду, числу, падежу и т. п.) перечню словосочетаний, начинающихся с X. Если совпадение обнаружено, то информа­ция о возможности (по не обязательности) данного словосочета­ния приписывается первому слову предполагаемого словосочета­ния и передается на синтаксический анализ. Отсутствие совпа­дения указывает на отсутствие данного словосочетания в пред­ложении. Этот алгоритм в общем случае усложняется из-за того, что слова, образующие словосочетания, могут идти не подряд.

5. Предсинтаксис. В задачу данного блока входит подготовка данных, упрощающая работу синтаксического анализа: 1) формируются номера уров­ней словоформ входного предложения; 2) помечаются слова, воз­можно обусловленные предыдущими словами; 3) используются предварительные синтаксические фильтры, устраняющие избы­точную морфологическую информацию.

Первая из перечисленных задач состоит в выделении (по возможности) уровня каждой словоформы. При этом словоформы основного предложения образуют нулевой уровень, а словоформы придаточных предложений и вложенных друг в друга оборотов (причастных, деепричастных) имеют более высокие уровни по числу вложенности. Это позволяет ускорить обработку на этапе син­таксического анализа за счет устранения взаимосвязи слов между разными уровнями.

Вторая из задач состоит в том, чтобы пометить словоформы, идущие за количественными числительными как словоформы, подозрительные на обусловленность, запомнить наличие (отсутствие) частицы «не», обуслов­ливающей синтаксическое отношение ПРЕД (т. е. изменяющей падеж с именительного на родительный), и т. п.

В завершение работы МА на основе синтаксических фильт­ров (например, согласование прилагательных со следующим за ними существительным по падежу, роду и числу и т. п.) осу­ществить отбрасывание избыточной морфологической информа­ции.

Так, словоформе территории будет приписано пять МИ (род., ед., ж.; дат., ед., ж.; пр., ед., ж.; им., ив.; вин., мн., неод.). Однако если перед данной словофор­мой стоит предлог «на» (требующий винительного и дательного падежей), то три из этих МИ будут устранены. Оставшаяся омо­нимия («нападал на территории пяти государств» и «на терри­тории района») будет разрешена с помощью синтаксиса и семантики.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-02-12 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: