Около 7,5 млн словоупотреблений в 29,5 тысячах текстовых фрагментов.




Материал взят из публицистики 2-й половины 1990-х гг.

Выставлен на сайте Маш. фонда.

Пример разметки в корпусе Шайкевича

[%iso88591; ]> CFRL Parole encoding Computer Fund of Russian Language

https:// On-line 99-01-27 &parole.tax; 99-01-27 Russian

Izi02edu

Жизнь в России все же не темна. Есть 1 сентября — праздник, который всегда с тобой…]

Русские проекты

Кроме газетного корпуса, за время существования МФ создано несколько менее объемных собраний:

Корпус языка Ф. М. Достоевского

Корпус рекламных слоганов

Корпус метафор

Корпус дискурсивных слов

И ряд других.

Русские проекты

Открытый корпус - OpenCorpora (https://opencorpora.org/)

Проект по созданию размеченного корпуса текстов силами сообщества. Хранилище, специально предназначенное для текстов с лингвистической разметкой, удобный интерфейс редактирования разметки и исправления ошибок, инструменты для контроля качества и стандарт разметки для русского языка.

Русские проекты

SpokenCorpora https://spokencorpora.ru/)

РАССКАЗЫО СНОВИДЕНИЯХ И ДРУГИЕ КОРПУСА ЗВУЧАЩЕЙ РЕЧИ

В настоящее время проект объединяет три корпуса устной русской монологической речи. Корпус состоит из 129 рассказов детей и подростков от 7 до 17 лет об увиденном ими во сне.

В частности, «Рассказы о сновидениях»: рассказы записывались непосредственно после пробуждения. Общая длительность звучания — около 2 часов; объем корпуса — около 14 тысяч словоупотреблений.

Русские проекты

Национальный корпус русского языка

(www.ruscorpora.ru)

Ориентация на 200 млн словоупотреблений.

Метатекстовая, акцентная, морфологическая, синтаксическая и семантическая (!) разметка (сделано фрагментарно).

Зона со снятой морфологической омонимией (около 6 млн словоформ)

Подразделы корпуса

Основной корпус (письменные и устные тексты)

Диалектный корпус

Поэтический корпус

… …

Принципы поиска в корпусе (на примере НКРЯ)

Подкорпус

Поиск по метатекстовым признакам

Поиск по морфологическим, синтаксическим, семантическим признакам

Возможность задать расстояние между словами

Речевые действия в мультимедийном корпусе

Количество говорящих в клипе

Пол говорящих (актеров)

Язык, на котором говорят

Социальная ситуация, отраженная в клипе

Типы речевых действий (Апеллятивы; Вопросы; Императивы и побудительные высказывания; Модальные высказывания и перформативы; Отрицание; Пейоративные высказывания; Похвала; Согласие; Торговля; Утверждение; Чужая речь; Шутливые/насмешливые высказывания; Этикетные высказывания)

Полнота речевого действия

Наличие и типы повторов

Манера говорения

Типы вокальных жестов и междометий

Жесты в мультимедийном корпусе

Основной орган

Ориентация ладони

Ориентация кисти

Активный орган

Пассивный орган

Адаптор

Направление движения

Кратность жеста

Название жеста

НКРЯ:

Неровность проекта на сегодняшний день.

Несистемные лакуны в зоне со снятой омонимией.

Тем не менее этот проект остается самым мощным и перспективным на сегодняшний день!

Русские проекты

Хельсинкский аннотированный корпус (ХАНКО). Основан на материалах журнала «Итоги».

Словоупотреблений. Морфологическая и синтаксическая разметка.

Руководитель проекта – проф. Арто Мустайоки, координатор – Михаил Копотев.

Корпус небольшой, зато качественный.

(https://www.slav.helsinki.fi/hanco/)

Русские проекты

Корпус газетных текстов, созданный под рук-вом А. А. Поликарпова (МГУ, филологический факультет,

Лаб. общей и компьютерной лексикографии).

Около 205.000 словоупотреблений. Ориентация на 1 млн.

Выставлен на сайте лаборатории.

Еще один проект лаборатории
© МГУ, 2006

Корпус «Поэзия и драматургия

А. С. Пушкина»

И «Путеводитель по Пушкину»

Текстовые единицы размечены информацией 15 типов: «Дата», «Адресаты», «Варианты слов», «Персонажи и лица», «Цвето- и светообозначения» и т.д.

Корпус русского литературного языка (СПбГУ + ИЛИ РАН)

Предварительная версия: ок. 1 млн словоупотреблений. 18 текстов объемом от 105 до 13700 словоупотреблений, принадлежащих 180 авторам. В текстах все словоформы несут знак ударения; везде, где это необходимо, используется буква «ё». В перспективе предполагается довести объем Корпуса до 100 –150 млн словоупотреблений.

Корпус русского ЛЯ: www.narusco.ru

Тексты – основа КРЛЯ

Беллетристика – 69 наименований
Публицистика – 225 наименований
Драматургия – 47 наименований
Научно–популярная – 38 наименований

Проект «Рукописные памятники Древней Руси»

Берестяные грамоты, летописи

https://gramoty.ru

Корпус русских публиц. текстов второй пол. 19 в.

Петрозаводский госуниверситет

https://smalt.karelia.ru/corpus/

Источники материала:
электронные библиотеки



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-04-01 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: