Выровненные и не выровненные параллельные корпусы




Параллельные корпусы также могут быть двух типов — выровненные (aligned) и не

выровненные (not aligned). «Выровненность » означает, что в корпусе существует чёткая связь

между единицами перевода, которые соответствуют друг другу. То есть, мы можем быстро

найти, как то или иное слово или предложение переводилось на другой язык. Обычно такими

единицами перевода служат всё-таки предложения, поскольку часто сложно выровнять слова

(ведь обычно переводят не дословно). Такой корпус наиболее полезен для переводчика,

поскольку представляет собой ту самую «память переводов » (translation memory) — бесценный

ресурс, позволяющий использовать предыдущие переводы.

 

Невыровненные корпусы ещё называют «сравнительными ».

«Выровнять текст с его переводом на другой язык означает показать какие части

текста переведены какими частями второго текста» (Kay & Rцscheisen 1993: 121)

 

Выравнивание (alignment) можно делать автоматически, а можно вручную. Первый

способ быстрее, но чреват ошибками. Например, если при переводе произошло членение или

объединение предложений, то не всегда можно легко определить, какое из предложений

перевода соответствует какому предложению оригинала.

 

Одним из примеров выровненного многоязычного корпуса может послужить база

данных Acquis Communautaire Европейского Союза (DGT-TM). Это память переводов

европейского законодательства на 22 языках, которую выложили в открытый доступ в ноябре 2007 года. Всего в ней около миллиарда слов, она выровнена по предложениям (sentencealigned).

 

Вот пример предложения из этой базы данных:

EN: Articles 5 to 7 of this Directive do not apply to containers for gases which are compressed, liquefied or

dissolved under pressure.

BG: Членове 5 - 7 на настоящата директива не се отнасят за контейнери с газове, които са

сгъстени, втечнени или разтворени под налягане.

CS: Člбnky 5 až 7 tйto směrnice se nevztahujн na kontejnery pro plyny, kterй jsou stlačenй, zkapalněnй nebo

rozpuštěnй pod tlakem.

 

Ценность параллельного корпуса, как и других корпусов, возрастает с его размером и

количеством языков. В этой связи трудно переоценить важность Acquis Communautaire,

который является самым большим параллельным корпусом в мире. Ещё два его преимущества — бесплатность и наличие редких пар языков, типа «мальтийский-эстонский», «словенский-греческий».

 

Этот и подобные корпусы можно использовать для многих целей. Например:

● выявление типичных переводческих приёмов и трансформаций

обучение статистических систем автоматического перевода

● создание одноязычных и многоязычных словарей

● обучение и тестирование программ извлечения информации

● автоматическая проверка правильности перевода

● подбор возможных эквивалентов

 

Двуязычные корпусы — ещё одно благодатное поле для студентов-лингвистов, инструмент для получения языковых данных.

 

По критерию «литературности » выделяются литературные, диалектные, разговорные, терминологические и смешанные корпусы. Примером разговорного корпуса может быть корпус Один Речевой День (ОРД), разрабатываемый в Санкт-Петербурге [38], примером терминологического корпуса – корпус текстов по корпусной лингвистике, позволяющий разрабатывать терминологический словарь непосредственно на живом текстовом материале [54]. В этом корпусе методология корпусной лингвистики применена к ней самой.

 

По цели создания корпусы делятся на многоцелевые и специализированные. Многоцелевые корпусы обычно содержат тексты различных жанров (сюда относятся национальные корпусы), в то время как специализированные корпусы могут ограничиваться одним жанром или группой жанров.

 

Корпусы текстов могут быть классифицированы по жанрам и подразделяться на литературные, фольклорные, драматургические, публицистические и др. Примерами публицистического корпуса могут служить Компьютерный корпус текстов русских газет конца ХХ-ого века (https://www.philol.msu.ru/~lex/corpus/) и корпус политических метафор [2].

 

Важным критерием для пользователей корпуса является его доступность. Свободно доступные корпусы позволяют в любое время в режиме on-line иметь доступ ко всем текстам корпуса в полном объеме. В ряде случаев свободный доступ может предоставляться к части корпусных данных. В работе с коммерческими корпусами нужно покупать право его использования on-line или копию на компакт-диске. Предварительно можно ознакомиться с аннотацией к корпусу или, возможно, даже поработать с корпусом в пробном режиме, но, как правило, не со всеми текстами, а только с небольшим по объему подкорпусом. Закрытые корпусы создаются для узко специфических целей и не предназначены для публичного использования.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-06-11 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: