АОТ с 40-х годов XX века по 1965 г.

Образцы механических переводчиков языков существовали еще до изобретения компьютера. Первой работой, которую можно было бы отнести к нашей области, была система поиска по словарю, разработанная в колледже Беркбек в Лондоне в 1948 году.

Первые интерес в США к этой теме обычно датируют выходом в 1949 году меморандума Уоррена Уивера. Во время второй мировой войны Уивер был вовлечен в работы по расшифровке шифров. Его идея была проста: все люди одинаковы (несмотря на то, что говорят на разных языках), поэтому текст любого языка можно рассматривать как некую шифровку или код. Если этот код разгадан, становится возможным вывести любой документ на другом языке. С его точки зрения немецкий язык – это зашифрованный английский.

Исследователи быстро ухватили эту идею. Ее пытались развить в исследовательских группах США, Великобритании, Франции и Советского Союза. Ранние американские системы концентрировали свое внимание на переводе с немецкого на английский, так как после войны осталось много потенциально полезной немецкой технической документации. Со временем интерес переместился на перевод с русского на французский и английский и с французского и английского на русский. Таким образом Холодная война оказала влияние и на машинный перевод.

Ранние системы машинного перевода были явно неудачными. Хуже того, они в конечном итоге привели к враждебности власть имущих и тех, от кого зависело финансирование исследований, к разработчикам этих систем. Меморандум Уоррена Уивера 1949 года вдохновил разработчиков многих проектов, многим из которых пришлось теперь спуститься с небес на землю: в АОТ не было получено никакой теоретической базы и никаких знаний о методиках, которые можно было бы в дальнейшем применять и развивать. Первые исследователи были зачастую математиками, а их усилия во многом сводились к борьбе с примитивностью современных им ЭВМ. Немногие разработчики были двуязычными. В основном это были немцы, иммигрировавшие в США. Ожидалось, что их знания по крайней мере помогут получать удовлетворительный перевод технических текстов. Однако скоро стало очевидным, что задачу они поставили перед собой чрезвычайно трудную. Язык оказался гораздо более сложным явлением, чем они себе представляли.

Кроме того знания двух языков было недостаточно: нужно было умение кодировать свои знания в виде компьютерной программы.

Вопрос, который стоял перед компьютерной лингвистикой накануне когнитивной революции, был: может ли наука о языке быть основана на дедуктивной системе, подобной физике. Индуктивный анализ обеспечивается только посредством данных. Возможности компьютеров на тот момент были очень ограниченными. Кроме того возможности развития индуктивного подхода были ограничены недостатком алгоритмических моделей.

Как разработать систему для обработки естественного языка, которая пройдет тест Тьюринга? Представим большую таблицу, содержащую соответствия между предложениями и их смыслом или предложениями на одном языке и предложениями на другом языке. Это похоже на обман и не передает сути процесса понимания или перевода с одного языка на другой. Таблица должна быть бесконечно большой, так как количество возможных сочетаний слов неограниченно. Значит, такой подход не решает проблему и нужно достигать цели за счет алгоритмических решений.

Типичными крайностями были развитие теорий, в которых не уделялось должного внимания данным (подход «сверху-вниз»), и запоминание данных без включения логического подхода (подход «снизу-вверх»). История исследований машинного перевода в дальнейшем – это, во многом, борьба между этими двумя подходами.

Сначала очевидным казалось обратиться за помощью к лингвистике. Литература 50-х годов свидетельствует о растущей осведомленности лингвистов в проблематике машинного перевода. Для молодых исследователей в области языкознания тема машинного перевода становится достаточно популярной. Хотя можно было бы поприветствовать стремление смежных дисциплин внести вклад в решение проблемы, но до некоторых пор оставалось непонятным в чем этот вклад состоит, так как подходящей для цели машинного перевода теории в языкознании не существовало.

Используемый в это время вариант подхода «снизу-вверх» был частью общенаучного течения, называемого структурализмом. Структурализм в случае АОТ – это попытка преобразования спекулятивной лингвистики в науку о языке. Невозможно покрыть все аспекты живой речи. Но лингвисты восприняли эту невозможную задачу как вызов для себя.

Они фокусируются на специфических феноменах и производят выводы, основанные на любых языковых феноменах, о которых они когда-либо слышали. Создаются массивные базы данных образцов предложений, которые лингвисты хранят и организовывают для своих нужд.

Неудачи подводят исследователей этого периода к выводу: субъективные спекуляции полученные из наблюдений над данными не могут прояснить природу языка.

Ситуация изменилась в 1957 году с публикации работы молодого американского лингвиста Ноама Хомского «Синтаксические структуры». Положения, развитые в этой статье до сих пор являются в АОТ доминирующими. Хомский сделал революции в лингвистике и, вероятно, сделал это без посторонней помощи. Он представил идею порождающих (генеративных) грамматик. основанные на правилах описания синтаксических структур. Хотя многие не приняли идею Хомского о продуцировании альтернативных лингвистических формализмов и его метода извлечения лингвистических данных, почти все работы в области АОТ с 1957 года были отмечены его влиянием.

Хомский считал способность к языковому общению заложенной в человека генетически, врожденной, поэтому поддержал идею возможного открытия природы языка через исследование способности человека к языковому общению. Очевидно, область исследований ограничивается бессознательным представлениями о грамматике(синтаксисе), а семантика исключалась из рассмотрения.

Работы Хомского послужили началом рационалистического направления в компьютерной лингвистике. Исходная точка рационализма - компьютерные модели, независимые от языка. Модели лучше всего принимаются, когда они настолько просты, насколько это возможно. Здесь можно провести параллель с идеей Соссюра отделить язык от реального мира.

С самого начала этот подход не дал хороших результатов, но поскольку работы в этом направлении упорно продолжались, результаты стали несколько лучше, чем у систем, исповедовавших подход «снизу-вверх». Теория универсальной грамматики Хомского давало схему, независимую от индивидуальных особенностей конкретного языка. Синтаксис лучше всего соответствовал моделям независимых языков, в которых только языки принимались в расчет.

Ранние исследователи машинного перевода поняли, что машина не может перевести введенный текст без дополнительной помощи. Учитывая нехватку лингвистических теорий, особенно до 1957 года, кое-кто предлагал предварительно редактировать тексты таким образом, чтобы отмечать в них трудности, например, чтобы разрешить омонимию. А поскольку системы машинного перевода не могли производить правильный результат, текст на целевом языке должен был быть отредактирован, чтобы стать понятным.

Идея предварительного и последующего редактирования текста породила идею, что компьютер может быть использован для оказания помощи человеку в областях, с которыми компьютер не в состоянии пока справляться своими силами. В области машинного перевода компьютер может действовать как память-хранилище, освобождая человека от необходимости знать огромное количество слов. Бар-Гиллель рассмотрел область исследований и пришел к выводу, что Полностью Автоматический Высококачественный Перевод (FAHQT – Full-Automatic High-QualityTranslation) не возможен без знаний. Он также пришел к выводу, что многочисленные проекты, в которых перевод сводился главным образом к попарной замене слов одного языка на слова другого, были изначально обречены на провал даже с учетом многочисленных заплаток и расширений. Причина проста: переводчик-человек добавляет свое понимание документа, который нужно перевести, к своим знаниям о структурах языка, с которым он работает. Там остаются некоторые конструкции, которые требуют понимания документа или пути, по которому представления о мире и предметной области могут быть представлены. Во многих языках трудно понять, что имеет в виду говорящий предложение типа:

«Она надела красные туфли и чулки».

Были ли чулки тоже красными? Во многих случаях это не имеет значения, но если система, например, анализирует свидетельские показания, значение таких деталей может существенно возрастать.

Комментарии Бар-Гиллеля оказали долговременное влияние на восприятие практичности АОТ и машинного перевода, в частности. Другим обличающим фактором были размеры продаж систем. Исследовательские проекты должны были иметь постоянное и долгосрочное финансирование, чтобы удерживать членов групп разработчиков вместе. В ситуации, когда есть много групп, работающих в одной и той же базовой области, крайне важно уметь показывать, что был достигнут значительный прогресс. Спонсоры хотели видеть четкую практическую демонстрацию результатов от их финансирования. Продажи систем машинного перевода были убыточными до середины 1960-х годов. Этому не способствовало даже наивное стремление некоторых представителей прессы подать с блеском некоторые разработки. Одним из примеров этого была организация презентации Джорджтаунской системы 7 января 1955 года. Сейчас, спустя полвека после этого, система представляется невероятно сырой, для которой не было никакой надежды когда-либо воплотиться в какое-то проявление практического машинного перевода.

В США финансирование машинного перевода в середине 1960-х годов достигало 20 миллионов долларов. Консультативный Комитет по автоматической обработке языка (ALPAC – AutomaticLanguage Processing Advisory Commitee) выпустил отчет о результатах финансирования в котором сделал вывод, что «машинный перевод общенаучного текста не получен и нет перспектив его получения в близком будущем».

Финансирование машинного перевода в США было остановлено, что в конечном итоге привело и к остановке разработок в АОТ, не связанных с машинным переводом. Это также послужило толчком к остановке финансирования разработок в других странах и развитие АОТ вступило в неактивную фазу.

АОТ с 1966 по 1980 год

Некоторые историки свидетельствуют о том, что АОТ практически исчезла со сцены после доклада ALPAC. Это не в полной мере соответствует действительности. Безусловно верно и то, что разработок стало значительно меньше, а работы по машинному переводу были практически свернуты больше чем на 10 лет. Тем не менее, в течении 15 лет после доклада ALPAC произошел ряд значительных событий, некоторые из которых повлияли и на сегодняшнее положение дел в этой области науки.

Ключевыми идеями, появившимися в этот период, были Расширенная Сеть Переходов, Грамматика Падежей и процедурная семантика.

Расширенная Сеть Переходов (ATN – Augmented Transition Network).

Расширенная Сеть Переходов представляет собой образец программного обеспечения, продемонстрировавшего возможность использования достаточно мощных грамматических средств для обработки синтаксиса. Неправильно думать о ней только как о средстве обработки синтаксиса, потому что это нечто большее, чем просто реализация поискового алгоритма. Она представила формализм для выражения знаний о предметной области (знания записывались в виде расширенной сети переходов). Был также представлен способ использования этих сетей для поиска путей решения проблем. Применительно к АОТ речь шла о знаниях синтаксиса английских предложений, а проблемой, которую система должна была решать, был синтаксический разбор этих предложений.

Грамматика Падежей (Case Grammar).

Грамматика падежей привлекательна с точки зрения семантики. Многие языки, например английский (русский в меньшей степени), выражают отношения между глаголами и существительными главным образом посредством связующих предлогов. Рассмотрим следующее предложение:

John bought a ticket for Mary in the Symphony Hall Booking Office.

(Джон купил билет для Марии в кассе заказов симфонического зала)

Мы знаем из позиции слов John и ticket, что Джон является агентом, производящим действие, а билет является объектом (или пациентом) этого действия. Мы знаем также, что Мэри является бенефициаром (тем, кто извлекает пользу) действия, так как перед ее именем употреблен предлог for. Местом действия является касса заказов симфонического зала, на что указывает предлог in.

Чарльз Филмор (Fillmore) заметил, что некоторые языки не имеют предлогов, но и в них существительные отвечают тем же ролевым классам. В разных языках используются различные способы выражения той же самой информации. Например, это может быть достигнуто посредством использования окончаний или жесткого порядка слов в предложении. (В русском языке для выражения семантической роли в разной степени служат и предлоги и окончания и положение слова в предложении). Филмор предположил, что существует очень небольшое число глубинных падежей (deepcases), которые выражают возможные отношения между глаголом и существительным в предложении. Разные языки выражают эти глубинные роли разными способами, такими как порядок слов, местоимения, словоизменение (например, изменение окончаний слов).

Значение этого предположения для АОТ в том, что оно позволяло достаточно легко создать теорию о том, как собирать семантическую информацию. Разработка грамматики падежей также привело к развитию одной из сложных проблем машинного перевода: перевода предлогов.

Концептуальная зависимость и процедурная семантика.

В этот период было несколько значительных разработок в обработке семантики. Шэнк (Shank) и его коллеги предложили понятие Концептуальной Зависимости и связанный с ним метод выражения языка посредством семантических примитивов (процедурная семантика). Система была создана так, что в ней в принципе отсутствовала синтаксическая обработка. Килиан (Quillian) разрабатывал идею семантической сети, которая была в различных формах использована в дальнейшем во многих системах. Уильям Вудс (Woods) использовал идею процедурной семантики для описания промежуточного представления, используемого во взаимодействии системы обработки текста с базой данных.

Ключевыми разработками в этом периоде были SHRDLU, LUNAR и LIFER/LADDER.

SHRDLU.

Система SHRDLU Терри Винограда (Terry Winograd) имитировала поведение робота, манипулировавшего блоками на поверхности стола. Она могла управляться инструкциями, такими как “ Pick upthe red pyramid ”(«Возьми красную пирамиду»)и отвечать на вопросы типа “ What does the blue box contain? ”(«Что содержит голубой блок?»). Появление SHRDLU имело большое значение, так как оно показало, что синтаксис, семантика и порождение выводов о мире могут быть скомбинированы так, чтобы создать систему, которая понимает естественный язык. Это была очень ограниченная система: она могла управляться только очень небольшим числом предложений. Более того, она могла понимать язык, касающийся только настоящего момента и очень небольшой части реального мира: мира блоков. Эффект, который она производила, мог быть достигнут только в весьма ограниченной области и попытка расширить систему неизбежно привела бы к снижению эффективности.

LUNAR.

LUNAR был естественно-языковым интерфейсом к базе данных, использовавшим и Расширенную Сеть Переходов и процедурную семантику Вудса. Система унаследовало свое имя от базы данных, содержавшей информацию об образцах лунных скальных пород. Система была продемонстрирована на Научной Конференции по Луне в 1971 году. Ее эффективность казалась весьма впечатляющей: она сумела справиться с 78% запросов без ошибок, причем эта цифра возросла до 90% после исправления ошибок. Впрочем цифры эти не должны были вводить в заблуждение, ведь не случайно система не стала предметом интенсивной эксплуатации: ученый, попытавшийся бы использовать систему для своих повседневных рабочих нужд, быстро обнаружил бы, что ему нужны запросы, выходящие за пределы возможности системы.

LIFER/LADDER.

LIFER/LADDER была одной из наиболее впечатляющих систем АОТ. Она была сконструирована как естественно-языковой интерфейс к базе данных кораблей ВМС США. Она использовала семантическую грамматику, в которой использовались метки типа «КОРАБЛЬ» или «ХАРАКТЕРИСТИКА» вместо синтаксических меток типа «существительное» или «глагол». Это означало, что система, как и SHRDLU, была тесно привязана к области для которой была сконструирована. Тем не менее, использование разработчиками семантической грамматики дало ряд преимуществ в разработке дружественного к пользователю интерфейса по сравнению с SHRDLU. Например, в систему была включена возможность определения новых словарей, определения парафразов (например, чтобы сделать возможным быстрый доступ), возможность обработки незаконченного или неполного ввода. Эти свойства сами по себе были очень впечатляющими, но исследовательская группа приступила к программе строгой оценки и опубликовала доклад, ставший настоящим сокровищем для тех, кто стремился глубоко изучать АОТ. Одним из выводов доклада было то, что люди быстро подстраивались под машину и пытались использовать очень неполные предложения, заменяя нормальный естественный язык подобием неформального языка запросов.

Было рассмотрено небольшое количество систем. Тем не менее они отражают все основные достижения этого периода. Если можно сделать какой-то вывод из этого этапа развития АОТ, то он в следующем: необходимо вовлекать в работу систем семантические знания в таком большом количестве, чтобы сделать разработки практически полезными. Несмотря на это ряд разработок и с 1980 года может являлся попыткам обойтись небольшим количеством семантической информации.

АОТ в 80-е и 90-е годы.

Узкоспециализированные системы 1970-х годов, такие как SHRDLU и LIFER/LADDER не могли быть в действительности расширены до практически полезных приложений. Реакцией на этот факт в сообществе АОТ стала попытка взглянуть на разработку посредством формализмов дающих более точные и полные описания, эффективно реализуемые на компьютере.

Грамматические формализмы.

Семантические системы 1970-х совершенно сознательно избегали использования синтаксической обработки, некоторые пытались вообще очистить от синтаксической информации свои системы. Синтаксис всегда рассматривался большинством лингвистов-теоретиков как основополагающая часть человеческого языка. Инженеры же увидели в синтаксисе полезный способ разрешения омонимии с относительно небольшим объемом необходимых знаний (по крайней мере, по сравнению с объемом знаний, требуемым для этой цели семантической обработкой). Теоретические лингвисты также выступали критически против всеобщего признания Трансформационной/Порождающей грамматики Хомского.

Результатом стали грамматики, оперирующие более детализированными синтаксическими характеристиками объектов информации (например, часть речи -существительное, лицо - третье, время - прошедшее, число - множественное и т.д.), а не одноатомные категории (глагол, существительное, прилагательное и т.д.). Эти грамматики могли дать гораздо более точный анализ предложения, но за это нужно было заплатить определенную цену. Для детализированных характеристик необходимы гораздо более сложные методы сопоставления в поисковых алгоритмах, отсюда такие грамматики получили название унификационных, так как сопоставление характеристик могло быть достигнуто посредством метода унификации.

Есть несколько грамматик, которые используют унификацию как главную операцию для комбинирования информации. Из них Грамматика Обобщенной Фразовой Структуры (GPSG – GeneralisezPhrase Structure Grammar), была одно время очень популярной, но, видимо, самым широко используемым формализмом стала Грамматика Лексических Функционалов (LFG – Lexical FunctionalGrammar).

Расширенные лексиконы.

Лексикон (или словарь) использовался до сих пор для хранения очень простой информации. Использование унификационных грамматик с их детализированными характеристиками привело к значительному усложению лексиконов. Сейчас он является первичным источником информации о свойствах слов и эта информация используется во время разбора(использующего унификацию) для создания конечного дерева разбора, представляющего структуру анализируемого предложения.

Логика для семантики.

Раз синтаксическая информация должна широко использоваться, значит нужен способ передачи этой информации в семантическую обработку на более поздней стадии, чтобы максимально разрешить омонимию. Подходом, который позволил достичь прогресса, стало использование использование логики предикатов для представления семантической информации. Семантическая информация может комбинироваться посредством унификации почти так же, как синтакическая. Методы исчисления логики могут быть использованы для вывода и получения более подробной информации из входных предложений. Такая логика не должна быть классической (то есть не сводиться к вычислению истинности или ложности высказываний), в ней должна быть возможность обработки альтернативных суждений, возможность выражать пространственные и временные отношения.

Порождение текста.

Приложение, которое должно выводить некий результат, можно попробовать заставить делать это на естественном языке, тем самым делая его более удобным для пользователя. Одно из направлений разработки состояло в создании систем автоматического реферирования.

Многоязычные приложения.

Рост многоязычных сообществ означает спрос на переводы, особенно деловых и технических текстов, переводить которые профессиональным переводчикам скучно или невыгодно. Поскольку полный высококачественный машинный перевод в этом периоде больше не рассматривался как краткосрочная или даже среднесрочная цель, это пространство было предназначено для ограниченных систем машинного перевода (например, канадские метеосистемы, автоматически преобразующие сводки о погоде с английского на французский) и средств, используемых переводчиками-людьми. Другим направлением была разработка генерации текста на нескольких языках.

Мобильность.

Одним из недостатков таких впечатляющих систем, как LIFER/LADDER была трудность переноса системы из одной проблемной области в другую (например из области описания кораблей ВМС США в область кадрового учета). В этот период совершаются попытки создания систем, применимых к разным проблемным областям. Развитие унификационных грамматик и логики для семантики усилили тенденцию обобщения разных систем, что привело к прогрессу в решении проблемы мобильности систем.

80-е годы. Формирование фундамента современного машинного перевода.

В 80-е годы в большой мере формируется фундамент современного подхода к структуре машинного перевода.

Переход от языка А к языку Б можно представить в виде следующей схемы. Предполагается, что на каждом уровне соответствия может быть создан список преобразований структуры языка А в структуру языка Б даже если этот список окажется очень длинным.

По мере продвижения по схеме снизу вверх, размеры структур увеличиваются.

Описанная выше схема опирается на положении формальной семантики, что смысл целого определяется комбинацией смыслов составляющих. Но пары слов в языках А и Б могут иметь больше одного значения (омонимия), некоторые грамматические характеристики и функции слов могут существовать только в одном из этих языков. Несмотря на все это, детальный список преобразований может быть полезным для обработки ситуации.

Самым серьезным итогом работ, связанных с таким подходом в эти годы, было введение понятия контекстной зависимости смысла. Чтобы преобразовать существительное из языка А, где они не имеют единственного и множественного числа, в язык Б, в котором они присутствуют, необходимо понимание контекста. Однако, вариаций контекстов может быть неограниченно много. По умолчанию все существительные обрабатываются как относящиеся к единственному числу и преобразовываются в форму множественного при наличии указывающего на него контекста.

Значение (смысл) слова выражается посредством сегментированных значений терминов:

Убить=Быть_причиной(Некто(Живой->Мертвый))

Одним из главных направлений дальнейшего поиска станет как раз ответ на вопрос: какие базовые элементы необходимы для адекватного выражения смысла.

Благодаря росту производительности и развитию возможностей компьютеров, разработка систем машинного перевода стала реальностью. Разработка первых систем была основана на лингвистических знаниях. Но лингвистике не удалось покрыть широкий диапазон актуальных феноменов использования языка. Анализ производился для ограниченных случаев. В 80-е годы ученые инициировали разработки в области описания грамматик. Грамматики, основанные на формальных, правильно написанных текстах, не имели полной практической ценности. Только про 60% грамматических правил, выработанных лингвистами, можно было сказать, что они работают на практике. В реальности, различные варианты в языке были слишком многочисленны.

90-е годы. Разрешение омонимии. Возрождение подхода «снизу-вверх»: эмпирицизм.

Подход к разрешение омонимии смысла термина основывается на выявлении слов, в контексте которых он находится. На большом корпусе текстов (например, «Нью-Йорк Таймс» за 20 месяцев) достигается 90%-ная точность в разрешении неоднозначности слова «capital», которое может означать в английском языке и финансовый капитал и столицу. В настоящее время предлагается подход, в котором перевод ранее незнакомых слов может быть оценен согласно сходству терминов, в контексте окружения которых находится это слово.

Эмпирицизм, новый вариант подхода «снизу-вверх», предлагает архитектуру, более радикальную, чем старые подходы, ориентированные на данные. В начале 90-х годов IBM выпускает систему статистического машинного перевода (SMT-statistical machine translation). Система обнаруживает ряд английских и французских выражений, которые не могли бы быть распознаны вручную, посредством «чистой» методологии машинной трансляции. Используются статистические алгоритмы (EM, Виттерби и др). Система требует большой объем памяти и высокую производительность компьютеров, большой объем качественных пар слов для перевода (обучающие данные).

Как мы можем получить достаточно большой набор реальных лингвистических данных, чтобы произвести внятный анализ или автоматически построить грамматику – именно такой вопрос встал перед компьютерной лингвистикой с 90-х годов, когда основным направлением стала статистическая обработка текстов.

АОТ с 40-х годов XX века по 1965 г.

Поиск по сайту