III. Блок “Информационные технологии в филологии»




 

 

Корпусная лингвистика

Что такое корпус?

Wikipedia: Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой.

Иногда корпусом называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов).

«Родственники» корпуса

Корпус vs. электронная библиотека

Корпус vs. поисковая машина

Корпус vs. текстовый процессор

Корпус vs. программа АОТ

Плунгян Владимир Александрович,
д-р филол. наук, координатор проекта «Национальный корпус русского языка»

нет, а это означает, что в распоряжении исследователя оказываются колоссальные массивы текстов самого разного типа. Это не замедлило сказаться на развитии наших знаний о языке <…> подлинно научные описания грамматического строя языков, а также авторитетные академические словари — практически все без исключений — должны составляться на основе корпусов этих языков.»

Появление корпусов изменило философию лингвистического исследования

Работа с огромными объемами информации.

Влияние корпусной лингвистики на традиционные взгляды: наличие корпусов не только подтверждает научные гипотезы, но и ставит оригинальные проблемы перед теоретической лингвистикой.

Дихотомия → триада

Язык Речь

Корпус

Построение словарей на основе корпуса

Конкорданс – массив употреблений одной единицы.

В настоящее время Supermicro выпускает материнские платы, корпуса и серверы.

Старайся держать корпус как можно прямее.

Сегодня информационные технологии не дополняют, а компенсируют последствия отчуждения общества от корпуса текстов.

Впечатление не портила даже проходящая стройка новых корпусов

Корпус бюрократов растёт из года в год.

… … … всего 21 489 контекстов из НКРЯ.

Залог качественной, «неумозрительной» выборки материала

Качественная дефиниция в словаре

Новая эпоха лексикографии началась с появлением баз данных и корпусов

Раньше конкорданс можно было представить на карточках словарной коллекции.

Он не был репрезентативен…

На него уходила масса времени и усилий…

Понятия корпусной лингвистики

Корпус данных (чаще текстов)

Проблемная область

Единица хранения и уровень разметки

Порог отображения данных, репрезентативность и полнота корпуса

Порог отображения данных: пропорциональное сужение

Вопрос объема корпуса

Проблема недостаточности данных

Проблема чрезмерности данных

Решается опытным путем.

Общие признаки корпусов

Статические – динамические

Исследовательские – иллюстративные

Параллельные (полиязыковые) – моноязыковые

Требования к корпусу

Репрезентативность

Полнота

Разноуровневая разметка (желательно со снятой омонимией)

Прозрачность и логичность разметки

Легкость ввода, редактирования и вывода данных в нужном формате

Программное обеспечение

Этапы формирования корпуса

Сегментация текстов (токенизация)

Лемматизация и морфоанализ

Синтаксическая разметка

Семантическая разметка (приводит к созданию тезаурусов и семантических сетей)

Достижения КЛ

Брауновский корпус американского английского (создан в 1962-1963 гг.) – около 1 млн словоупотреблений.

https://www.hd.uib.no/icame/bcm.html

Достижения КЛ

Британский национальный корпус (создан в 1990 г., published in 1994) – около 1 млн словоупотреблений.

https://www.natcorp.ox.ac.uk

Достижения КЛ

Чешский национальный корпус Карлова университета (Прага).

Основан в 1994 г., 20 млн словоупотреблений для пользователей Интернета, 100 млн словоупотреблений в целом.

https://ucnk.ff.cuni.cz/

Достижения КЛ

Проект «Персей» (Perseus) Изначально размеченный массив античных текстов, а теперь – расширенное хранилище

(Renaissance Materials etc. … …)

Англоязычные тексты – около 10 млн словоупотреблений.

Латынь – около 1 млн словоупотреблений.

И прочее. Для тех, кому надо. См.:

https://www.perseus.tufts.edu

Русские проекты

Уппсальский корпус (создан в Швеции в 1987 г.)

Единица хранения – текст.

Основа русского корпуса Тюбингенского университета (ФРГ)

https://www.sfb441.uni-tuebingen.de/b1/en/korpora.html

Русские проекты

Машинный (компьютерный) фонд Института русского языка РАН.

The Computer Fund of Russian Language (CFRL) is a research and development department within the V.V.Vinogradov Institute for Russian Language of the Russian Academy of Sciences. It was started in 1985.

(www.cfrl.ru)

Русские проекты

Корпус газетных текстов, созданный под рук. Анат. Яновича Шайкевича (Машинный фонд Института русского языка РАН).



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-04-01 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: