Статические – динамические




Первые корпусы были статичными снимками языка. Наиболее значимый современный

корпус (BNC) тоже статичен. Но начали появляться и динамические мониторинговые корпуса,

которые пополняются постоянно. Пример — Cobuild Project. Такие корпусы ещё называются

«открытые». Их проблема в том, что они часто не совсем адекватно представляют язык,

поскольку не подчиняются чётким критериям отбора, тексты не сбалансированы.

 

Критерий «динамичность» подразделяет корпусы на динамические и статические. Первоначально корпусы текстов создавались как статические образования, отражающие опреде­ленное временнóе состояние языковой системы. Статические корпусы содержат тексты какого-то небольшого вре­меннóго промежутка [17]. Типичными представи­телями этого вида корпусов являются авторские корпусы – коллекции текстов писателей.

 

Однако значительная часть чисто лингвистических и не только лингвистических задач требует выявления функционирования языковых феноменов на временнóй шкале – например, изменения значе­ния слов, частоты использования тех или иных синтаксических конструк­ций и т.д. Для отражения процессуального аспекта проблемной области была разработана новая технология построения и эксплуатации динами­ческого корпуса текстов [2]. Динамические корпусы называют также мониторными или мониторинговыми. Цель мониторных корпусов – «складировать» постоянно растущее количество текстов в памяти компьютера. В течение заранее фиксированного промежутка време­ни происходит обновление и/или дополнение множества текстов корпуса. Неограниченные (постоянно развивающиеся) мониторные корпусы играют огромную роль в строении словаря, поскольку позволяют лексикографам следить за новыми словами, проникающими в язык, или за уже существующими словами, меняющими свое значение, а также за балансом их употребления в соответствии со стилем. В динамические корпусы текстов, как правило, включают письменные ис­точники большого временнóго периода. Они предназначены для проведения различных диахронических исследований [17].

В размеченном корпусе словам или предложениям присваиваются метки (тэги) в соответствии с характером разметки: морфологические, синтаксические, семантические, просодические и др.

По назначению выделяют исследовательские и иллюстративные корпусы. Исследовательские корпусы создаются с целью изучения различ­ных аспектов функционирования языка. Этот тип корпусов ориентирован на широкий класс лингвистических задач. Неспецифицированность за­дачи требует при построении исследовательских корпусов использовать пропорциональное сужение, являющееся наиболее простым способом обеспечения репрезентативности. Как правило, такие кор­пусы текстов содержат от нескольких десятков миллионов до сотен миллионов словоупо­треблений. Иллюстративные корпусы создаются после проведения научного исследования: их цель не столько выявить новые факты, сколько подтвердить и обосновать уже полученные результаты.

По критерию«объем текстов» выделяют полнотекстовые и так называемые фрагментотекстовые корпусы. Как известно, Брауновский корпус и корпус Ланкастер-Осло-Берген должны были строго соответствовать определенным критериям, одним из которых была длина текста, равная 2000 слов (словоупотреблений). Очевидно, что текстов, строго соответствующих таким критериям, практически нет. Следовательно, эти корпусы являются фрагментотекстовыми. К полнотекстовым корпусам относятся некоторые корпусы текстов определенного автора, а также корпусы коротких текстов, например, корпус мерфизмов (так называемых «законов подлости») [5] или корпус газетных заголовков.

 

Особые типы корпусов

Параллельные корпусы

 

Параллельные корпусы можно разделить на два основных типа:

1) корпусы, представляющие множество тек­стов- оригиналов, написанных на каком-либо исходном языке, и текстов- переводов этих исходных текстов на один или несколько других языков;

2) корпусы, объединяющие тексты из одной и той же тематической области, независимо написанные на двух или нескольких языках.

И те, и другие корпусы создаются и используются для сравнительных исследований языков (в области лексикологии, грамматики, стилистики, переводоведения и т.д.), а также в целях разработки эффективных методов перевода, в том числе, машинного.

При подготовке парал­лельных корпусов текстов первого типа и разработке пакетов программ для их обработки возникает проблема, которая заключается в установлении соответствий между текстом оригинала и его переводами [2]. Для решения этой задачи используется так называемый метод автоматического вы­равнивания (alignment) текстов. Суть этого метода заключается в параллельной сегмен­тации оригинального текста и его перевода по предложениям, клаузам (грамматическим конструкциям), словосочетаниям и словам. При выравнивании на уровне предложений могут использоваться, как это описано в учебнике А.В. Зубова и И.И. Зубовой [17], шесть возможных соответствий между предложениями обоих текстов.

1) одно исходное предложение переводится одним предложением;

2) два исходных предложения переводятся одним предложе­нием;

3) одно исходное предложение переводится двумя предложениями;

4) два исходных предложения переводятся двумя предложения­ми, но внутренние границы этих предложений в тексте оригина­ла и тексте перевода не совпадают;

5) предложение исходного текста не переводится;

6) предложение в тексте перевода не имеет эквивалента в тек­сте оригинала.

Теоретически обоснованным при решении данной проблемы может быть использование техноло­гий систем машинного перевода с языком-посредником или универсаль­ным языком [2].

На практике существуют различные программы выравнивания, которые автоматически сопоставляют тексты на основе совпадения относительных длин предложений, разделения текста на абзацы, анализа знаков препинания, внешнего словаря и других факторов. Чаще всего эти программы используются в человеко-машинном варианте, с постредактированием результатов автоматического выравнивания.

Парал­лельные корпусы текстов позволяют получить большой объем информации. С их помощью можно:

· строить двуязычные и многоязычные переводные словари;

· создавать и пополнять словари для систем машинного перевода;

· устранять полисемию лексических единиц путем использования компьютером контекстного окружения многозначного слова, превышающего по длине предложение;

· переводить терминологические и фразеологические единицы текста;

· осуществлять полностью автоматический перевод в рамках новых систем машинного перевода, называемых системами с переводческой памятью, путем накопления в памяти компьютера корпусов исходных текстов и их переводов, выровненных между собой на различных уровнях.

В процессе перевода такая система пытается отыскать переводимое предложение или его фрагмент в массиве исходных параллельных текстов. Если оно найдено в исходном массиве текстов-оригиналов, то система выбирает перевод такого предложения или его части в массиве переведенных текстов [17].

При исследовании параллельных корпусов, в том числе корпусов второго типа, могут успешно применяться инструменты автоматической классификации лексики. Автоматическая классификация лексики является одной из ключевых процедур автоматического понимания текстов [4]. Она осуществляется в рамках формализации структуры текста и количественной оценки семантических связей между элементами текста (словами, представленными леммами и словоформами). Сравнительный анализ количест­венных данных об употреблении слов, о степени их семантической близости помогает устанавливать распределение лексических единиц разных языков внутри лексико-семантических и тематических групп. Информация о соотношении элементов кластеров, полученная при параллельной обработке текстов оригинала и перевода в параллельных корпусах второго типа, имеет высокую ценность в определении адекватности перевода и при проведении контрастивных исследований. Применение модулей автоматической классификации лексики повышает эффективность поиска в параллельных корпусах, позволяет извлекать данные для пополнения и корректировки многоязычных словарей, для проверки качества работы систем машинного перевода и их обучения [25; 7].

Система автоматического перевода текста может быть основана на расширенных морфологических союзах между двумя языками с использованием простых правил для выбора подходящих грамматических пар. Например, в параллельном русско-словацком корпусе текстов снятие семантической и морфологической омонимии проводится с применением цепи Маркова первого или второго порядка, которая тренирована на большом одноязычном корпусе. Генетические сходства между лексическими системами русского и словацкого языков можно использовать также для увеличения качества перевода при помощи схемы транслитерации отсутствующих в словаре слов.

Системы переводческой памяти могут быть использованы творчески для большей автоматизации переводческого процесса, не зависящей от конкретных языков. Система машинного перевода основывается на применении синтаксического сходства между более или менее родственными естественными языками. В частности, это касается таких языков, как чешский и словацкий.

Параллельные корпусы часто создаются на основе текстов, используемых в многоязычных сообществах, таких как Организация Объединенных Наций, в странах Европейского Союза и в официально двуязычных странах, таких как Канада.

 

Корпусы устной речи

Прагматика не была так тщательно исследована в компьютерной лингвистике и корпусных исследованиях, как некоторые другие сферы лингвистики, поскольку создание репрезентативного корпуса устной речи было сложной задачей. В конце концов, возникла необходимость создать модели вежливости, смены ролей и других явлений [42].

Составители корпуса не всегда могут представить себе все многообразие лингвистических задач, которые могут быть решены с его помощью. Среди них областью особой важности, основной для понимания языка вообще, является исследование устных текстов. Корпус Лондон-Лунд (The London-Lund Corpus) был разработан в рамках проекта «Обзор употребления английского языка» (The Survey of English Usage). Цель проекта заключалась в том, чтобы по возможности полно зафиксировать особенности грамматической системы английского языка в речи взрослого образованного носителя. Проект разрабатывался с 1960 года под руководством Р. Квирка в Лондонском университетском колледже. Объем корпуса – 1 млн. словоупотреблений. Текстами устной речи были записи радиопередач, заседаний официальных структур, а также неформальных бесед. Машинный вариант корпуса создавался в Лундском университете (Швеция) и был готов к использованию в 1979 году. Именно корпус устной речи Лондон-Лунд был одним из первых машиночитаемых корпусов. Он состоял из 34 текстов, представляющих тайно записанные разговоры, которые были также опубликованы в книге Дж. Свартвика и Р. Квирка «Корпус английского разговора» (1980) [59]. Эта книга была очень полезна в то время, когда компьютерные корпусы не были широко распространены, и было трудно обращаться со сложной транскрипцией устной речи [44]. Хотя некоторой частью информации пришлось пожертвовать при составлении машиночитаемой версии, и те, кого записали, вряд ли могут считаться среднестатистическими предствителями лиц, говорящих на английском языке, корпус Лондон-Лунд очень помог в изучении речи. Из-за сложностей составления корпусов устной речи этот корпус долго оставался самым важным источником для компьютерного исследования разговорного английского.

Появление корпуса Лондон-Лунд привело к множеству исследований по лексике, грамматике, просодии речи и особенно по структуре и функционированию дискурса. Так, были исследованы использование слов actually, really, you know, you see, I mean, well, вопросы и ответы в английском разговоре, использование пассива, просодических моделей английского разговора и т.д. Устный и письменный английский изучались в сопоставительных исследованиях на базе корпусов Лондон-Лунд и Ланкастер-Осло-Берген; в частности, изучались модальность, связи в сложных предложениях, отрицание. В настоящее время большой интерес корпусных лингвистов привлекают способы передачи эмоций в устной речи, выражение удивления и т.д. Примером корпуса, позволяющего проводить подобные исследования, является мультимедийный подкорпус в составе НКРЯ.

Отсутствие баланса в доступности устного и письменного материала в машиночитаемом формате продлится еще очень долго. В силу различных причин, построение корпусов устной речи продвигается намного медленнее, чем построение корпусов письменной речи. В первую очередь, устную речь нужно как-то зафиксировать – например, с помощью магнитной ленты, цифровой записи или видеокассеты. Затем ее нужно записать буквами, что является утомительной и дорогой работой, качество которой зависит в большой степени от качества записи и степени шума внешней среды в естественных условиях.

Главная сложность создания фонетических лингвистических ресурсов связана с необходимостью транскрибирования устной речи. При этом возникают следующие проблемы:

1. Какой алгоритм использовать для транскрибирования?

2. Учитывать ли индивидуальные особенности произношения?

3. Учитывать ли весь устный текст или его фрагменты?

4. Учитывать ли диалектные варианты произношения слов?

5. Учитывать ли ударения в словах?

6. Учитывать ли просодические признаки произносимых фраз?

7. Отмечать ли слова, которые при прослушивании не распознавались?

8. Отмечать ли в записи для фонетического корпуса паралингвистические явления, сопутствующие речи (паузы, смех, бормотание, кашель, и т.д.)? [17]

В настоящее время общепринято, что для создания машиночитаемых фонетических корпусов используется транскрипция на ос­нове орфографического представления звуков речи с дополнитель­ными знаками, передающими (при необходимости) просодичес­кие, паралингвистические и другие особенности произношения. Несмотря на трудности создания, в мире уже существует мно­го достаточно представительных фонетических корпусов. Так, как описывается в учебнике А.В. Зубова и И.И. Зубовой, в 70-х годах XX века в США X. Далем и его коллегами был создан «Корпус устной речи американского варианта английского язы­ка». Он включал 1 млн. словоупотреблений, взятых из записей психоаналитических сеансов. С каждой из 15 кассет, имевшихся в распоряжении составителей корпуса, было случайным образом отобрано 225 записей сеансов. Они содержали речь 8 женщин и 21 мужчины из 9 городов США. Отобранные записи были затранс­крибированы на основе стандартной английской орфографии. Диа­лектные варианты произношения не учитывались. Нераспознанные слова при записи обозначались буквой Z. Ударения и другие просо­дические характеристики речи также не учитывались. В то же время при орфографической записи устной речи в качестве специальных комментариев отмечались паузы, смех, вздох, кашель и другие па­ралингвистические явления [17].

Один из членов команды, создавшей Британский на­циональный корпус, Л. Бернард, утверждал, что стоимость отбора 10 млн. слов из устных источников во время создания корпуса (1990-е годы) равнялась стоимости отбора 50 мил­лионов слов из письменных источников [26]. Данные издержки напрямую связаны еще и со строго соблюдаемым в западном мире авторским правом, в связи с чем нельзя провести полноценный анализ устных текстов и опубликовать его результаты без получения согласия их автора, а это не всегда возможно по объективным причинам.

Таким образом, одной из наиболее важных проблем при составлении национальных корпусов текстов является их недостаточное наполнение устными текстами, особенно относящимися к непубличной речи – телефонным разговорам, неформальным беседам и т.д.

 

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-06-11 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: