История компьютерной лингвистики в СССР и России.

3.1. До теории «Смысл↔Текст».

Компьютерная лингвистика родилась в январе 1954 года, когда в Джорджтаунском университете (США) был проведен первый в мире публичный эксперимент по машинному переводу. В те же времена под руководством крупнейшего математика и кибернетика Алексея Ляпунова начались активные работы по машинному переводу и в Москве. В созданную Ляпуновым группу вошли, в частности, тогдашние студенты и аспиранты, будущие «родители» отечественной компьютерной лингвистики Игорь Мельчук и Ольга Кулагина.

Впрочем, основа для успехов отечественных ученых закладывалась намного раньше. В 1920-х годах в России велись интенсивные исследования по семиотике текста, в то время как широкомасштабное изучение семиотики во всем мире относится только к началу 1960-х годов (что в значительной мере связано с работами эмигрировавшего из России в 1920 году создателя структурной лингвистики Романа Якобсона). Стремительный прогресс семиотики стал основой для сближения лингвистики и математики на почве популярного в 1950-60-е годы математического структурализма, в духе предельно формализованных математических структур Бурбаки. Идеи семиотики объединяли крупнейших ученых, среди которых математик Владимир Успенский и лингвист Вячеслав Иванов.)Успехи формального подхода к описанию языка наглядно продемонстрировали возможность превращения чисто гуманитарной науки в логически строгую дисциплину.

Работы по кибернетике и, в частности, по структурной лингвистике, развернутые в конце 50-х годов под руководством академика Акселя Берга и члена-корреспондента АН СССР Алексея Ляпунова, вывели отечественную науку на передовые позиции. Уже в начале 1956 года в Институте прикладной математики (ИПМ) им. М. В. Келдыша заработала первая отечественная система машинного перевода с французского на русский язык. Система ФР-I давала перевод явно более высокого качества, чем у американцев. Интересно, что математики рассматривали алгоритмы машинного перевода как частные случаи изучаемых в кибернетике алгоритмов перекодирования.

Огромное значение имело выработанное Алексеем Ляпуновым и Ольгой Кулагиной теоретико-множественное представление грамматических категорий языка. Эти результаты были получены независимо от работ Ноама Хомского (Noam Chomsky), считающегося создателем теории формальных грамматик. Большую роль сыграли работы Игоря Мельчука по автоматическому грамматическому анализу. Обобщения и систематизация результатов математической лингвистики позволили создать стройную теорию формальных языков. Проблема заключалась в одном: аппарат теории формальных языков был очень хорош для искусственных языков, в частности для языков программирования, но не давал приемлемых результатов для анализа естественного языка и построения адекватной системы машинного перевода.

Впоследствии сам Мельчук признал, что работы по автоматическому синтаксическому анализу русского языка были «абсолютно тупиковые». А могло ли быть иначе? Искусственные языки специально создаются так, чтобы было удобно манипулировать формальными конструкциями, описывающими «прозрачную» семантику, которая сводится, как правило, к конкретным действиям. Таковы алгоритмические языки в программировании. В естественном языке есть нечто большее - буквальная семантика, с которой и связано понимание человеком текста. Понимание это может быть не таким уж простым даже для носителя языка и связано с мыслительными процессами, а не с формальными правилами описания самого языка. Поэтому для автоматического перевода надо уметь описывать смысл фразы, а не ее формальную запись.

Очевидные сегодня идеи были выстраданы и обнародованы несколько десятилетий назад Игорем Мельчуком и Александром Жолковским. Разработка ими лексических функций, создание теории «Смысл<->Текст» явились колоссальным скачком в построении строгой концептуальной системы, применимой для анализа естественного языка.

3.2. Теория «Смысл<->Текст».

По замыслу её создателей, ТСТ является универсальной теорией, то есть может быть применима к любому языку. На практике основным материалом для неё служил русский язык; в 1980-е и последующие годы теория разрабатывалась применительно к данным английского и французского языков. Фрагменты морфологических описаний, выполненных в рамках идеологии ТСТ, имеются для более значительного числа типологически разнородных языков.

Теория «Смысл ↔ Текст» представляет собой описание естественного языка, понимаемого как устройство («система правил»), обеспечивающее человеку переход от смысла к тексту («говорение», или построение текста) и от текста к смыслу («понимание», или интерпретация текста); отсюда символ двунаправленной стрелки в названии теории. При этом приоритет в исследовании языка отдаётся переходу от смысла к тексту: считается, что описание процесса интерпретации текста может быть получено на основе описания процесса построения текста. Теория постулирует многоуровневую модель языка, то есть такую, в которой построение текста на основе заданного смысла происходит не непосредственно, а с помощью серии переходов от одного уровня представления к другому. Помимо двух «крайних» уровней — фонологического (уровня текста) и семантического (уровня смысла), выделяются поверхностно-морфологический, глубинно-морфологический, поверхностно-синтаксический и глубинно-синтаксический уровни. Каждый уровень характеризуется набором собственных единиц и правил представления, а также набором правил перехода от данного уровня представления к соседним. На каждом уровне мы имеем дело, таким образом, с особыми представлениями текста — например, глубинно-морфологическим, поверхностно-синтаксическим и т. п.

Семантическое представление является неупорядоченным графом («сетью»), синтаксические представления являются графическим деревом («деревом зависимостей»), морфологическое и фонологическое представления линейны.

Наиболее оригинальными чертами ТСТ является её синтаксическая теория, теория лексических функций и семантический компонент — Толково-комбинаторный словарь.

Синтаксический компонент ТСТ предусматривает существование двух синтаксических уровней — поверхностного и глубинного. Для описания синтаксических отношений используется аппарат синтаксиса зависимостей (восходящий к Л. Теньеру); большое значение имеет (также восходящее к Теньеру) противопоставление актантов и сирконстантов. Выделяется большое число (несколько десятков) так называемых поверхностно-синтаксических отношений и небольшое число глубинно-синтаксических. Синтаксис ТСТ в большой степени проникнут семантикой (в глазах критиков это его очень существенный недостаток, в глазах сторонников — напротив, одно из главных достоинств); он во многом выводится из структуры толкования, в которой задается модель управления лексемы и перечисляются её сочетаемостные свойства.

В целом можно сказать, что синтаксическая теория в рамках ТСТ — это прежде всего описание устройства предикатной группы, то есть особенностей глагольного управления. Именно этим объясняется тесная связь с лексической семантикой: как хорошо известно, классификация глаголов по синтаксическим свойствам часто имеет семантические корреляты. Такого рода исследований в европейской и американской лингвистике во время создания ТСТ было относительно немного; важность семантической классификации лексики стала осознаваться позднее. С другой стороны, те области, которые в основном исследовались западными синтаксистами (и теми российскими синтаксистами, которые работали в иных теоретических рамках), в ТСТ почти не были отражены: это, например, синтаксис полипредикатных конструкций (как финитных, так и нефинитных) и так наз. синтаксические процессы (анафора, рефлексивизация, эллипсис и т. п.).

Толково-комбинаторный словарь — одно из главных теоретических изобретений Мельчука. В каком-то смысле можно сказать, что языковая модель по Мельчуку вообще имеет тенденцию представлять язык как совокупность словарных статей с огромным количеством разнообразной информации; грамматические правила при таком словаре играют скорее второстепенную роль. В то время, когда создавалась ТСТ, такой подход был новым, семантическая (и тем более лексикографическая) информация не считалась важной для построения грамматических описаний.

В Толково-комбинаторный словарь входило толкование слова и его модель управления. Толкование представляло собой запись на формализованном метаязыке; семантически более сложные элементы объяснялись через более простые. Предполагалось (как и в теории А. Вежбицкой), что существуют элементарные смыслы, далее неразложимые — семантические примитивы; но, в отличие от опытов А. Вежбицкой, в ТСТ семантические примитивы практически не использовались. Также в отличие от А. Вежбицкой, признавались искусственные элементы семантического метаязыка (например, для выражения общего значения каузации использовался искусственный глагол каузировать).

Модель управления содержала информацию обо всех семантических и синтаксических актантах слова и о способах их морфологического и синтаксического выражения. Большую часть словарной статьи занимало описание лексических функций — понятие, придуманное Жолковским и Мельчуком для описания того, что они называли «нестандартной сочетаемостью». Так, считалось, что в выражениях круглый дурак и проливной дождь прилагательное имеет одно и то же значение, выражая одну и ту же «лексическую функцию» (в ТСТ она называлась Magn). Было выделено несколько десятков лексических функций, подлежащих описанию в Толково-комбинаторном словаре.

Теория «Смысл ↔ Текст» с самого начала создавалась с сильным акцентом на прикладной проблематике автоматического («машинного») перевода — по замыслу Мельчука, с её помощью, в отличие от традиционных нестрогих теорий, следовало обеспечить построение «действующей» модели языка. Само возникновение этой теории было связано с началом работы Мельчука над машинным переводом (в Лаборатории машинного перевода при МГПИИЯ под руководством В. Ю. Розенцвейга) и его неудовлетворённостью существующими теориями; с другой стороны, предполагалось, что программы машинного перевода будут на эту теорию опираться. ТСТ действительно была использована в некоторых системах машинного перевода, разработанных в России — прежде всего, в системе англо-русского автоматического перевода ЭТАП, созданной уже после эмиграции Мельчука группой под руководством Ю. Д. Апресяна. Некоторые элементы идеологии ТСТ были также использованы в ряде других систем машинного перевода, создававшихся в 1960—1970-е гг. во Всесоюзном центре переводов под руководством Н. Н. Леонтьевой, Ю. С. Мартемьянова, З. М. Шаляпиной и др. Все эти системы относятся к числу экспериментальных, то есть их промышленное использование не представляется возможным.

Значение ТСТ в истории лингвистики оценить непросто. Её последователей в настоящее время мало, и интерес к этой теории со стороны молодого поколения лингвистов крайне незначителен. На Западе эта теория известна плохо за пределами узкой группы ближайших учеников и сотрудников Мельчука; даже доброжелательные рецензенты называют Мельчука «великим аутсайдером». В России с критикой этой теории выступают многие синтаксисты, ориентирующиеся на генеративную идеологию (как, например, Я. Г. Тестелец). С их точки зрения, ТСТ вообще не является лингвистической теорией, поскольку не содержит «правил» и «обобщений» в духе последних построений Хомского, а содержит только эмпирические правила, не мотивированные никакими соображениями «универсальной грамматики».

В то же время, с не менее острой критикой ТСТ выступают и те российские лингвисты, кто (как, например, А. Е. Кибрик) придерживается функционального и когнитивного подхода. Критики этого направления указывают на слишком жёсткую и механистическую идеологию ТСТ, не признающую континуальности в языке, не стремящуюся к поиску объяснений наблюдаемых фактов, не учитывающую дискурсивных и когнитивных механизмов функционирования языка.

Если в ряде важных идеологических отношений ТСТ представляется нынешнему поколению лингвистов в целом устаревшей, то роль Мельчука и его теории в истории отечественной лингвистики вряд ли может быть преуменьшена. В момент создания это была по существу первая после долгого перерыва российская теория языка, находившаяся на уровне мировых достижений, и в этом смысле Мельчук может считаться прямым продолжателем традиции Якобсона и Трубецкого. Личная роль Мельчука — бесспорного неформального лидера отечественной лингвистики 1960—1970-х гг. — в изменении научного климата в СССР также очень велика. И если ТСТ в том виде, как она была создана Мельчуком, и сходит со сцены, то косвенное влияние её на российскую лингвистику следует всё же считать значительным. По-видимому, наиболее плодотворным воплощением этой теории в начале XXI в. является Московская семантическая школа, привнёсшая целый ряд радикальных новшеств в лексикографическую теорию и практику.

Питерским математиком Виталием Тузовым недавно была создана модель естественного языка, использующая упрощенный вариант идей Мельчука. В модели Тузова сделана попытка свести задачу извлечения информации из текста к задаче преобразования текста на формальном семантическом языке во внутреннее представление базы знаний.

Путь идей к признанию иногда очень долог и труден. Потребовалось более тридцати лет, чтобы перейти к реальным разработкам на основе созданной Валентином Турчиным теории суперкомпиляции. Сменилась элементная база, появились совершенно новые технологии программирования, и то, что раньше многие причисляли к нереализуемым теоретическим изыскам, становится востребованным. Возможно, такой же путь ждет и теорию Мельчука. Наверное, неслучайно похожи судьбы этих ученых.

Компьютерная лингвистика стремительно развивалась в СССР в 1960-е годы. Однако в следующем десятилетии работы в области машинного перевода оказались под жестким государственным контролем. В отличие от атомного проекта (время уже было другое), этот контроль не сконцентрировал силы отечественных ученых, а наоборот, способствовал прекращению или замедлению многих работ. Явная «нелюбовь» властей того времени к одному из ярчайших представителей отечественной лингвистики Юрию Апресяну на долгие годы затормозила самый интересный из отечественных проектов. Исследования по машинному переводу в ИПМ им. М. В. Келдыша тоже практически прекратились…

Е-80-е годы.

С середины семидесятых годов во всем мире наблюдается устойчивое возрастание интереса к машинному переводу. В Москве в 1974 в институте ИНФОРМ-ЭЛЕКТРО начались работы по созданию системы франко-русского перевода (ЭТАП-1) и системы англо-русского перевода (ЭТАП-2). В том же году создается Всесоюзный центр переводов (ВЦП), в котором ряд научных коллективов работает над системами машинного перевода – АМПАР (англо-русский перевод), НЕРПА (немецко-русский перевод) и ФРАП (французско-русский перевод). С этого времени промышленные системы машинного перевода разрабатываются и широко используются в США, Европе и Японии.

Системы семейства ЭТАП работали в режиме качественного перевода на основе полного синтаксического анализа и в режиме пословного перевода, в процессе которого привлекался только морфологический анализ. Второй вариант использовался в тех случаях, когда возникали проблемы с синтаксическим анализом фразы. По архитектуре системы семейства ЭТАП относятся к системам машинного перевода с трансфером: анализ-преобразование (трансфер)-синтез. Однако в идеологии их построения имеются важные концептуальные особенности: в качестве теоретической основы положены постулаты модели «Смысл↔Текст», предполагающей независимое лингвистическое описание от алгоритмов программы, отказ от привязки синтаксиса и морфологии к конкретной проблемной сфере (разумеется, словаря это касается в меньшей степени). В СМП ЭТАП-1 перевод происходит через поверхностно-синтаксическую структуру, а в СМП ЭТАП-2 перевод осуществляется на уровне нормализованных синтаксических структур, которые занимают промежуточное положение между поверхностно-синтаксической и глубинно-синтаксической структурами.

Начало работ над системой ФРАП относится к 1975 г. В этом году во Всесоюзном центре переводов начала работать группа исследователей под руководством Н.Н. Леонтьевой. В техническом задании к системе указывалось, что СМП должна обеспечивать перевод небольшого количества документов, не имеющих жестких тематических ограничений. Такая постановка задачи существенно осложнила разработку системы, поскольку большинство имеющихся реально работающих СМП привязаны к конкретной проблемной области. Было реализовано две экспериментальные версии системы (полная версия – в 1980 г., вторая – в 1985 г.). Архитектура СМП ФРАП основывалась на стратегии перевода через язык-посредник семантического типа. Синтаксический анализ в системе не обязательно должен всегда давать правильные синтаксические структуры, однако на этапе работы семантического блока даже неправильные и неполные синтаксические структуры получают семантическую интерпретацию, которая далее преобразуется в текст на выходном языке. Иными словами, выбранная стратегия оказывается «помехоустойчивой». Синтаксический компонент системы не зависим от конкретной проблемной области; роль связующего мостика между разными тематическими областями выполняет семантический компонент. В существующем варианте системы реализована лишь часть модели, выполняющая следующие функции: построение посрочника, грамматический режим, неполный семантический режим.

Теоретическая особенность СМП ФРАП заключается в том, что в процессе работы системы текст входного языка интерпретируется не только на семантическом, но и на информационном уровне – в терминах категорий тезауруса той проблемной области, которая в данный момент обслуживается системой. Информационный уровень представления должен обеспечивать в перспективе и построение реферата по тексту перевода.

Переводческий комплекс АНРАП структурно состоит из двух больших систем – АМПАР (англо-русский перевод) и НЕРПА (немецко-русский перевод), разрабатывавшихся с конца 50-х гг. разными научными коллективами. Объединение этих систем связано с общим программным обеспечением, общим русским словарем и общим блоком русского морфологического синтеза. Переводческий комплекс предназначен для использования в крупных информационных службах и переводческих организациях для перевода текстов различных тематических областей. Для обеспечения тематической привязки предусматривается возможность подключения дополнительных терминологических словарей, описывающих конкретные тематические сферы. Система АМПАР занимает центральное положение в комплексе АНРАП. Теоретические основания СМП АМПАР были заложены в исследованиях И.К.Бельской. Руководили проектной группой АМПАР сначала Ю.А.Моторин и позже Ю.Н.Марчук. В промышленную эксплуатацию система принята в 1981 году. На 1987 г. Система была установлена в ВЦП и пяти отраслевых организациях. СМП НЕРПА сдана в промышленную эксплуатацию в 1985 году. Технологически в системах АМПАР и НЕРПА реализована прямая стратегия перевода, опирающаяся на значительные по объему словари. В СМП АМПАР программа взаимодействует с шестью различными словарями: 1) английский морфологический словарь; 2) словарь фразеологических выражений; 3) переводной словарь однозначных слов; 4) переводной словарь многозначных слов, представленных в виде процедурных правил выбора значений; 5) словарь перевода многозначных слов по умолчанию; 6) словарь русских слов с морфологической, словообразовательной и синтаксической информацией. Обращение к каждому словарю образует отдельный цикл. Скорость перевода довольно высока (3-5 авторских листов в час), что является необходимым условием функционирования промышленных систем машинного перевода, однако качество перевода невысоко. Постредактирование переводов оказывается необходимым.

История компьютерной лингвистики в СССР и России.

Поиск по сайту