Материал взят из публицистики 2-й половины 1990-х гг.
Выставлен на сайте Маш. фонда.
Пример разметки в корпусе Шайкевича
[%iso88591; ]> CFRL Parole encoding Computer Fund of Russian Language
https:// On-line 99-01-27 &parole.tax; 99-01-27 Russian
Izi02edu
Жизнь в России все же не темна. Есть 1 сентября — праздник, который всегда с тобой…]
Русские проекты
Кроме газетного корпуса, за время существования МФ создано несколько менее объемных собраний:
Корпус языка Ф. М. Достоевского
Корпус рекламных слоганов
Корпус метафор
Корпус дискурсивных слов
И ряд других.
Русские проекты
Открытый корпус - OpenCorpora (https://opencorpora.org/)
Проект по созданию размеченного корпуса текстов силами сообщества. Хранилище, специально предназначенное для текстов с лингвистической разметкой, удобный интерфейс редактирования разметки и исправления ошибок, инструменты для контроля качества и стандарт разметки для русского языка.
Русские проекты
SpokenCorpora https://spokencorpora.ru/)
РАССКАЗЫО СНОВИДЕНИЯХ И ДРУГИЕ КОРПУСА ЗВУЧАЩЕЙ РЕЧИ
В настоящее время проект объединяет три корпуса устной русской монологической речи. Корпус состоит из 129 рассказов детей и подростков от 7 до 17 лет об увиденном ими во сне.
В частности, «Рассказы о сновидениях»: рассказы записывались непосредственно после пробуждения. Общая длительность звучания — около 2 часов; объем корпуса — около 14 тысяч словоупотреблений.
Русские проекты
Национальный корпус русского языка
(www.ruscorpora.ru)
Ориентация на 200 млн словоупотреблений.
Метатекстовая, акцентная, морфологическая, синтаксическая и семантическая (!) разметка (сделано фрагментарно).
Зона со снятой морфологической омонимией (около 6 млн словоформ)
Подразделы корпуса
Основной корпус (письменные и устные тексты)
Диалектный корпус
Поэтический корпус
… …
Принципы поиска в корпусе (на примере НКРЯ)
Подкорпус
Поиск по метатекстовым признакам
Поиск по морфологическим, синтаксическим, семантическим признакам
Возможность задать расстояние между словами
Речевые действия в мультимедийном корпусе
Количество говорящих в клипе
Пол говорящих (актеров)
Язык, на котором говорят
Социальная ситуация, отраженная в клипе
Типы речевых действий (Апеллятивы; Вопросы; Императивы и побудительные высказывания; Модальные высказывания и перформативы; Отрицание; Пейоративные высказывания; Похвала; Согласие; Торговля; Утверждение; Чужая речь; Шутливые/насмешливые высказывания; Этикетные высказывания)
Полнота речевого действия
Наличие и типы повторов
Манера говорения
Типы вокальных жестов и междометий
Жесты в мультимедийном корпусе
Основной орган
Ориентация ладони
Ориентация кисти
Активный орган
Пассивный орган
Адаптор
Направление движения
Кратность жеста
Название жеста
НКРЯ:
Неровность проекта на сегодняшний день.
Несистемные лакуны в зоне со снятой омонимией.
Тем не менее этот проект остается самым мощным и перспективным на сегодняшний день!
Русские проекты
Хельсинкский аннотированный корпус (ХАНКО). Основан на материалах журнала «Итоги».
Словоупотреблений. Морфологическая и синтаксическая разметка.
Руководитель проекта – проф. Арто Мустайоки, координатор – Михаил Копотев.
Корпус небольшой, зато качественный.
(https://www.slav.helsinki.fi/hanco/)
Русские проекты
Корпус газетных текстов, созданный под рук-вом А. А. Поликарпова (МГУ, филологический факультет,
Лаб. общей и компьютерной лексикографии).
Около 205.000 словоупотреблений. Ориентация на 1 млн.
Выставлен на сайте лаборатории.
Еще один проект лаборатории
© МГУ, 2006
Корпус «Поэзия и драматургия
А. С. Пушкина»
И «Путеводитель по Пушкину»
Текстовые единицы размечены информацией 15 типов: «Дата», «Адресаты», «Варианты слов», «Персонажи и лица», «Цвето- и светообозначения» и т.д.
Корпус русского литературного языка (СПбГУ + ИЛИ РАН)
Предварительная версия: ок. 1 млн словоупотреблений. 18 текстов объемом от 105 до 13700 словоупотреблений, принадлежащих 180 авторам. В текстах все словоформы несут знак ударения; везде, где это необходимо, используется буква «ё». В перспективе предполагается довести объем Корпуса до 100 –150 млн словоупотреблений.
Корпус русского ЛЯ: www.narusco.ru
Тексты – основа КРЛЯ
Беллетристика – 69 наименований
Публицистика – 225 наименований
Драматургия – 47 наименований
Научно–популярная – 38 наименований
Проект «Рукописные памятники Древней Руси»
Берестяные грамоты, летописи
https://gramoty.ru
Корпус русских публиц. текстов второй пол. 19 в.
Петрозаводский госуниверситет
https://smalt.karelia.ru/corpus/
Источники материала:
электронные библиотеки