Одноязычные — многоязычные




Классификация корпусов

Признак Типы корпусов
Тип языковых данных Письменные Устные Смешанные
«Параллельность» Одноязычные Двуязычные Многоязычные
«Литературность» Литературные Диалектные Разговорные Терминологические Смешанные
Цель Многоцелевые Специализированные
Жанр Литературные Фольклорные Драматургические Публицистические
Доступность Свободно доступные Коммерческие Закрытые
Назначение Исследовательские Иллюстративные
Динамичность Динамические (мониторные) Статические
Разметка Размеченные Неразмеченные
Характер разметки Морфологические Синтаксические Семантические Просодические и т.д.
Объем текстов Полнотекстовые «Фрагментнотекстовые»

 

По типу языковых данных корпусы делятся на письменные, устные и смешанные. В письменных корпусах устная речь не представлена (Брауновский корпус, LOB), в устных корпусах представлена только устная речь, смешанными обычно бывают национальные корпусы, представляющие бытование языка в определенный период времени (НКРЯ, BNC и др.).

Устные – письменные

Большая часть корпусов 1 поколения были исключительно письменными. Письменные

тексты гораздо легче собирать. Существуют три метода ввода письменных текстов в

компьютер:

● заново набирать тексты (это лучше, чем пробивать перфокарты, как было с Брауновским

корпусом);

● использовать тексты, которые уже существуют в электронной форме;

● сканировать напечатанные тексты (но при этом нужно исправлять много ошибок).

 

Большие современные корпусы обычно комбинированные, с преобладанием

письменных текстов. Даже в BNC лишь 10% текстов устные. Выделяется ICE, в котором 60%

текстов устные. Между тем, язык в основном существует именно в устной форме, письменная его форма вторична. Поэтому так важны устные корпусы, либо смешанные.

 

Среди специфически устных корпусов нужно назвать London Lund Corpus (LLC, 1975

г.) и Lancaster/IBM Spoken English Corpus (1992), сокращённо SEC. Этот последний состоит

из 52600 словоупотреблений. Он поставляется на CD-ROMе вместе с аудиозаписями,

полностью размечен на предмет ударений, интонации, пауз и т.п. Однако, он не содержит

информации о социальном статусе и образовании респондентов, что ограничивает его

использование в социолингвистике. Corpus of Spoken American English (1991), миллион словоупотреблений, 80 часов звучания. Map Task Corpus (1991, университет Глазго, Шотландия), 147 тысяч словоупотреблений, 16 часов звучания.

 

Устные корпусы включают меньше словоупотреблений, чем письменные, не только из-

за трудоёмкости сбора данных, но и потому, что для просодических исследований обычно

достаточно меньшего количества слов. Так, для изучения интонации достаточно корпуса в сто

тысяч словоупотреблений.

 

Устные корпусы могут включать как монологическую, так и диалогическую речь. Для

сбора материала используются записи с радио и телевидения или опрос по выборочным

методикам социологии и социолингвистики. Отметим, что скрытая запись сейчас считается

неэтичной (в отличие от 70-х годов).

 

Обычно собирают довольно подробную информацию о респондентах:

● место записи

● что респондент делает

● время

● дата

● количество участников

● степень спонтанности беседы

● тема

● пол участников

● возраст участников

● этническая принадлежность участников

● основной язык участников

● профессия

● образование

● социальный статус

● отношение к записывающему

● диалект

 

Самая трудоёмкая стадия — transcription. Орфографическая транскрипция одного часа

записи с минимальной интонационной разметкой может занять около 10 часов. Если же

размечать текст по всем правилам TEI (Text Encoding Initiative), то на это может уйти 25 часов

и более. А без разметки корпус устных текстов не имеет смысла — как минимум, должна быть

указана продолжительность пауз, размечена одновременная речь, ударение, интонация.

Иногда включают контекстные комментарии типа «ест печенье ». Именно благодаря

подробной разметке корпус LLC стал стандартном для корпусов устной речи.

 

Одноязычные — многоязычные

По критерию параллельности корпусы делятся на одноязычные, двуязычные и многоязычные. В одноязычных корпусах противопоставляются диалекты, варианты языка. Например, такие разновидности английского языка, как английский как родной и английский как иностранный оставались за пределами научного интереса до появления новых технологий, позволивших вовлечь в контрастивный анализ существенно большее количество сопоставляемых произведений речи.

 

Корпусных лингвистов (особенно связанных с переводом) всегда интересовала задача

составления корпусов на нескольких языках. Уже в первом поколении начали появляться

двуязычные корпусы для таких языков, как английский, финский, французский, немецкий,

греческий, норвежский, испанский, шведский, валлийский. Такие корпусы ещё называются

bitexts.

 

Естественно, нет никаких технических препятствий к тому, чтобы делать корпусы не

дву- а трёх-, четырёх- и более язычными. Вообще говоря, само появление многоязычных

корпусов спровоцировало всплеск научных исследований, поскольку для их анализа требуются другие инструменты и даже другие концепции, нежели чем для анализа корпусов

одноязычных.

 

Вполне естественно, что можно представить себе два типа двуязычных корпусов:

• корпус, в котором тексты являются переводами друг друга

• корпус, в котором просто присутствуют тексты на разных языках (возможно, одной и

той же тематики).

 

Корпусы первого типа называют «параллельными» (parallel corpora) и используются для исследования различных аспектов собственно перевода. Например, существует параллельный корпус текстов заседаний канадского парламента (английский/французский).



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-06-11 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: