Самое известное русское собрание – библиотека Максима Мошкова.




(www.lib.ru)

Там же можно найти множество ссылок на др. библиотеки.

Aot.ru: поиск по библиотеке Мошкова

Поиск без снятой омонимии, но объем корпуса таков, что он может быть полезен для пользователя.

Проблемы КЛ

Плохое качество электронных текстов.

Существует желание сделать большой и качественный корпус, но…

Существует также желание при жизни завершить работу.

Создание корпуса и конкретный проект. Проблема универсальности корпуса.

 

Компьютерная лексикография

Лексикография

Заведомо прикладная дисциплина.

Практика, а теперь и большая теория разработки словарей разного типа.

Компьютерная лексикография

Словарные продукты (в Интернете и на дисках)

Программы, предназначенные для лексикографов.

? Возможно ли создание АРМ лексикографа?

Словари и энциклопедии on-line

Gramota.ru

Slovari.ru

Cfrl.ru

Rusgram.narod.ru (Грамматика-80)

Speakrus.narod.ru/dict-mirror

Ru.wikipedia.org (сайт «Википедии»)

https://dict.ruslang.ru/

… …

+ Словари, выпускаемые на дисках

Формализация структуры словаря

Макроструктура – словник и его организация

(словник – совокупность описываемых единиц, необязательно слов).

Микроструктура – повторяющаяся модель словарной статьи.

Микроструктура обычного толкового словаря

заголовочная единица («лексический вход», вокабула, лемма);

№ значения;

грамматическая информация;

стилистическая информация;

толкование;

иллюстрации;

производные единицы;

фразеология;

Этимологическая информация.

Графическая разметка статьи (пример из БТС)

НÓТА –ы, ж. [от лат. nota – знак, замечание]. Дипл. Официальное дипломатическое письменное обращение правительства одного государства к другому. Н. протеста. Обмен нотами. < Нóтный, -ая, -ое.

Микроструктура конкретной статьи может быть неполной!

Словарь – заведомо формализованный источник

Однако он делается для людей, способных элементарно «разрезать» словарные статьи.

Неполная формализация!

Этапы создания современного словаря

Корпус текстов

Словник иллюстрации

Словарные статьи

Ввод в БД

Редактирование в БД

Компиляция в текст

Редактирование в тексте и БД

Верстка и оригинал-макет

Печать

Корпус и словарь

Еще раз: Конкорданс – залог качественной выборки!

Словарь и база данных

Для быстрой индексации, поиска, сплошного редактирования информации и т.п. применяются универсальные системы управления базами данных (СУБД).

Например, рядовому пользователю приложений Microsoft наиболее известна и доступна MS Access – СУБД, интегрированная в пакет MS Office.

В универсальной СУБД можно сконфигурировать макро- и микроструктуру любого словаря. Возвращаемся к вопросу об АРМ лексикографа.

Элементы СУБД

Таблицы

Формы

Фильтры – запросы – отчеты

Программные модули

Таблицы

Строка = запись (record) БД

Столбец = поле (field) БД

Строки содержат одинаковое число столбцов, но столбцы могут содержать разные виды данных.

Типы информации в БД
Наиболее актуальны для словаря:

Числовой (number)

Ввод специализированных индексов или нумерации лексических и грамматических категорий

Текстовый (text)

Ввод символьной подстроки ограниченного объема (например, стилистическая помета)

Логический (boolean)

Ввод информации, которую можно представить в двоичном формате (например, переходность/непереходность глагола)

Мемо, примечание (memory)

Ввод текста неограниченного объема (например, иллюстраций из художественной литературы)

Пример записи в таблице
БД словаря

Объект «форма» как словарная карточка

Идеографическая лексикография

Гнездовой принцип расположения информации в тезаурусе

Вопросы планирования словарной базы данных

Идеографическая БД должна отражать семантическую иерархию

Связанные таблицы в БД (упрощенный пример)

Электронные тезаурусы. WordNet как самый известный проект

Исследования, которые привели к появлению Принстонского WordNet’а (PWN), были начаты в 1985 году.

Текущая версия PWN содержит более 117,000 синсетов (синонимических рядов), которым соответствуют примерно 150,000 различных словарных входов (отдельных слов и фраз).

PWN успешно используется для решения широкого круга задач: снятия лексической неоднозначности, автоматического реферирования, семантического поиска, классификации и кластеризации документов, обработки поисковых запросов, машинного перевода и т. д.

SUN в WordNet (пример)

WN-подобные тезаурусы

Электронный тезаурус, наряду с лингвистическим корпусом, стал необходимым источником языковых данных, не менее существенным, чем традиционные словари и грамматики!

Он необходим для решения современного комплекса прикладных задач компьютерной лингвистики, информационного поиска, машинного перевода, искусственного интеллекта.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-04-01 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: