Структура лексико-семантической информации




Лексико-семантическая информация, приписываемая произвольному слову в тексте, состоит из трех групп помет:

разряд (например, имя собственное, возвратное местоимение);

собственно лексико-семантические характеристики (например, тематический класс лексемы, признаки каузативности, оценки);

деривационные (словообразовательные) характеристики (например, «диминутив», «отадъективное наречие»).

Лексико-семантическая информация имеет различную структуру для разных частей речи. Кроме того, каждый из разрядов существительных - имена предметные, непредметные и собственные - имеет свою структуру помет.

Собственно лексико-семантические пометы сгруппированы по следующим полям:

-таксономия (тематический класс лексемы) — для имен существительных, прилагательных, глаголов и наречий;

-мереология (указание на отношения «часть — целое», «элемент — множество») — для предметных и непредметных имен;

-топология (топологический статус обозначаемого объекта) — для предметных имен;

-каузация — для глаголов;

-служебный статус — для глаголов;

-оценка — для предметных и непредметных имен, прилагательных и наречий.

Словообразовательные характеристики включают несколько типов:

-морфо-семантические словообразовательные признаки (например, «диминутив», «каритив», «семельфактив»);

разряд производящего слова (например, отглагольное существительное или отадъективное наречие);

-лексико-семантический (таксономический) тип производящего слова (например, наречие, образованное от прилагательного размера);

-морфологический тип словообразования (субстантивация, сложное слово).

В основу метаязыка лексико-семантических помет, ввиду предполагаемой широкой международной аудитории пользователей Корпуса, положена система сокращенных помет («тегов») на основе англоязычной нотации. В то же время предусмотрена возможность использования при поиске традиционных названий категорий на русском языке (в форме «семантические признаки»). Ниже приводится инвентарь всех доступных в настоящее время для поиска в Корпусе семантических помет. Для пояснения в скобках даются примеры.

Основные этапы развития машинного перевода и его современное состояние.

Начало

История машинного перевода берет начало в XVII веке, когда такими философами, как Лейбниц и Декарт было выдвинуто предположение о существовании некоего кода, соединяющего между собой слова разных языков. Все предположения носили гипотетический характер, и никому не удавалось в действительности создать машину для перевода.

Первые заявления на получение патента на «переводческую машину» были поданы в середине 30-х годов ХХ века. Одно заявление было подано французским изобретателем Ж. Арцруни, просто создавшим автоматический двуязычный словарь на перфоленте. Другое было сделано советским ученым Петром Троянским, чье изобретение было более детальным. Оно включало в себя, как двуязычный словарь, так и способы работы с грамматическими ролями между двумя языками на основе Эсперанто. Данная система представляла собой три этапа: первый заключался в следующем – редактор, носитель языка, должен был связать слова исходного языка (ИЯ) в логические формы в соответствии с синтаксическими функциями; на втором этапе машина должна была «перевести» все эти формы на язык перевода (ПЯ); а на третьем этапе носитель языка перевода занимался редактированием полученного результата. Его схема оставалась неизвестной до конца 50-х годов, когда появились ЭВМ.

Ранние годы

Первый план по созданию машин для перевода на базе компьютеров был предложен Уорреном Уивером, исследователем Фонда Рокфеллера, в его меморандуме от июля 1949года. Данные предложения базировались на теории информации, получившей успех во время Второй Мировой войны в связи с криптографией и распространения идеи об универсальных принципах естественных языков.

Несколько лет спустя, во всех университетах США началась исследовательская деятельность, связанная с машинным переводом. 7 января 1954 года фирма IBM совместно с Джорджтаунским университетом (США) успешно осуществили первую демонстрацию новой системы машинного перевода, которая проходила в Нью-Йорке в головном офисе IBM. Результаты демонстрации были освещены в печати и привлекли большой общественный интерес. Система сама по себе была не более чем, по сегодняшним меркам, игрушечной, поскольку она использовала словарь из 250 слов и осуществила перевод с русского на английский 49 заранее отобранных предложений, имеющих химическую тематику. Однако демонстрация стимулировала распространение идеи о неотвратимости появления машинного перевода, а в частности привлечение финансирования в исследовательские институты не только на территории США, но и по всему миру.

Ранние системы использовали большие двуязычные словари и запрограммированные вручную правила, по выстраиванию на выходе слов в правильном порядке. В конечном итоге, такой способ был признан ограниченным, и развитие лингвистических наук, например, генеративной лингвистики или трансформационной грамматики, было нацелено на улучшение качества перевода.

В это время устанавливались операционные системы. Военно-воздушные силы США пользовались программой, разработанной компанией IBM и Вашингтонским университетом, в то время как комиссия по атомной энергии США и Евроатом в Италии пользовались системой, разработанной Джорджтаунским университетом. И хотя качество выхода было низким, система пользовалась популярностью среди потребителей, в связи с увеличением скорости перевода.

В конце 50-х годов, Й.Бар-Хиллелом по просьбе Американского правительства были приведены доказательства невозможности предоставления машинным переводом «Полностью Автоматического Высококачественного Перевода». Доказательство основывалось на двусмысленности высказываний. Рассмотрим следующее предложение:

Little John was looking for his toy box. Finally he found it. The box was in the pen.

Слово pen может иметь 2 значения: первое – нечто, чем мы пользуемся для письма, второе – помещение определенного рода. Человеку смысл очевиден, но исследователь заявил, что без «универсального справочника» машина не сможет решить поставленную задачу. Сейчас, такой вид семантической неточности может быть решен с помощью написания исходного текста для машинного перевода на контролируемом языке, который включает в себя слова, имеющие только одно точное значение.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-02-12 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: