(www.lib.ru)
Там же можно найти множество ссылок на др. библиотеки.
Aot.ru: поиск по библиотеке Мошкова
Поиск без снятой омонимии, но объем корпуса таков, что он может быть полезен для пользователя.
Проблемы КЛ
Плохое качество электронных текстов.
Существует желание сделать большой и качественный корпус, но…
Существует также желание при жизни завершить работу.
Создание корпуса и конкретный проект. Проблема универсальности корпуса.
Компьютерная лексикография
Лексикография
Заведомо прикладная дисциплина.
Практика, а теперь и большая теория разработки словарей разного типа.
Компьютерная лексикография
Словарные продукты (в Интернете и на дисках)
Программы, предназначенные для лексикографов.
? Возможно ли создание АРМ лексикографа?
Словари и энциклопедии on-line
Gramota.ru
Slovari.ru
Cfrl.ru
Rusgram.narod.ru (Грамматика-80)
Speakrus.narod.ru/dict-mirror
Ru.wikipedia.org (сайт «Википедии»)
https://dict.ruslang.ru/
… …
+ Словари, выпускаемые на дисках
Формализация структуры словаря
Макроструктура – словник и его организация
(словник – совокупность описываемых единиц, необязательно слов).
Микроструктура – повторяющаяся модель словарной статьи.
Микроструктура обычного толкового словаря
заголовочная единица («лексический вход», вокабула, лемма);
№ значения;
грамматическая информация;
стилистическая информация;
толкование;
иллюстрации;
производные единицы;
фразеология;
Этимологическая информация.
Графическая разметка статьи (пример из БТС)
НÓТА –ы, ж. [от лат. nota – знак, замечание]. Дипл. Официальное дипломатическое письменное обращение правительства одного государства к другому. Н. протеста. Обмен нотами. < Нóтный, -ая, -ое.
Микроструктура конкретной статьи может быть неполной!
Словарь – заведомо формализованный источник
Однако он делается для людей, способных элементарно «разрезать» словарные статьи.
Неполная формализация!
Этапы создания современного словаря
Корпус текстов
Словник иллюстрации
Словарные статьи
Ввод в БД
Редактирование в БД
Компиляция в текст
Редактирование в тексте и БД
Верстка и оригинал-макет
Печать
Корпус и словарь
Еще раз: Конкорданс – залог качественной выборки!
Словарь и база данных
Для быстрой индексации, поиска, сплошного редактирования информации и т.п. применяются универсальные системы управления базами данных (СУБД).
Например, рядовому пользователю приложений Microsoft наиболее известна и доступна MS Access – СУБД, интегрированная в пакет MS Office.
В универсальной СУБД можно сконфигурировать макро- и микроструктуру любого словаря. Возвращаемся к вопросу об АРМ лексикографа.
Элементы СУБД
Таблицы
Формы
Фильтры – запросы – отчеты
Программные модули
Таблицы
Строка = запись (record) БД
Столбец = поле (field) БД
Строки содержат одинаковое число столбцов, но столбцы могут содержать разные виды данных.
Типы информации в БД
Наиболее актуальны для словаря:
Числовой (number)
Ввод специализированных индексов или нумерации лексических и грамматических категорий
Текстовый (text)
Ввод символьной подстроки ограниченного объема (например, стилистическая помета)
Логический (boolean)
Ввод информации, которую можно представить в двоичном формате (например, переходность/непереходность глагола)
Мемо, примечание (memory)
Ввод текста неограниченного объема (например, иллюстраций из художественной литературы)
Пример записи в таблице
БД словаря
Объект «форма» как словарная карточка
Идеографическая лексикография
Гнездовой принцип расположения информации в тезаурусе
Вопросы планирования словарной базы данных
Идеографическая БД должна отражать семантическую иерархию
Связанные таблицы в БД (упрощенный пример)
Электронные тезаурусы. WordNet как самый известный проект
Исследования, которые привели к появлению Принстонского WordNet’а (PWN), были начаты в 1985 году.
Текущая версия PWN содержит более 117,000 синсетов (синонимических рядов), которым соответствуют примерно 150,000 различных словарных входов (отдельных слов и фраз).
PWN успешно используется для решения широкого круга задач: снятия лексической неоднозначности, автоматического реферирования, семантического поиска, классификации и кластеризации документов, обработки поисковых запросов, машинного перевода и т. д.
SUN в WordNet (пример)
WN-подобные тезаурусы
Электронный тезаурус, наряду с лингвистическим корпусом, стал необходимым источником языковых данных, не менее существенным, чем традиционные словари и грамматики!
Он необходим для решения современного комплекса прикладных задач компьютерной лингвистики, информационного поиска, машинного перевода, искусственного интеллекта.