После поступления новых текстов запускается
процесс кластеризации, а затем процесс выделения
ключевых слов.
Далее для каждого кластера запускается процесс
кластеризации на множестве ключевых слов, после
чего для каждого кластера снова выделяются
ключевые слова.
Эти два процесса выполняются поочередно, пока
не будут получены иерархия текстов и множество
ключевых слов.
Результаты сохраняются в СУБД Postgres.__
Формирование индексов и рефератов
В качестве S-тегов используются предложения,
содержащие ключевые слова.
Выделенные S-теги индексируются в СУБД
Postgres. Поиск по тегам осуществляется с помощью
GIST и GIN. Для каждого S-тега формируем список
документов, к которым этот S-тег привязан.
С помощью выделенных S-тегов и их контекста
производится генерации статических рефератов.
Для генерации динамического реферата по
запросу пользователя находятся все его сужения с
помощью полнотекстового поиска СУБД Postgres.
На основе контекста найденных S-тегов
формируется реферат.
Поиск и тезаурус
Пользователь задает запрос на естественном
языке. Перед выполнением поисковый запрос
обогащается множеством синонимов и гипонимов из
тезауруса.
По запросу система находит его сужения, я для
них списки привязанных документов. Для каждого
документа формируется динамический реферат.
Пользователь может находить документы с
помощью SPARQL запросов по RDF хранилищу.
Тезаурус хранится в файле, где каждому слову
соответствует строка, содержащая список его
синонимов и гипонимов. Редактируя файл,
пользователь может влиять на результаты поиска.
Заключение
В рамках данной работы был реализован
прототип системы семантического поиска по
библиографическим данным и текстам книг.
На примере семантической библиотеки LibMeta
была продемонстрирована актуальность данной
работы. Внедрение описанных подходов позволяет
улучшить качество предоставляемых библиотекой
услуг.
Были рассмотрены различные подходы к
реализации семантического поиска по текстам.
Введена модель S-тега и задача поиска сужений S-
тега. Задача поиска текста по поисковому запросу
была сведена к задаче поиска сужений S-тега. Был
представлен алгоритм решения задачи поиска
сужений S-тега. Рассмотренная модель была
использована при реализации поиска на базе СУБД
Postgres.
В рамках работы рассмотрен алгоритм выделения
S-тегов из текста. Для работы алгоритма необходимо
множество выделенных ключевых слов.
Продемонстрирован процесс построения
иерархии ключевых слов с помощью итеративного
процесса сменяющих друг друга кластеризации и
выделения ключевых слов. Предложенный алгоритм
выделения ключевых слов позволяет использовать
информацию о кластере документа. Для
кластеризации был выбран алгоритм k-means++.
В качестве визуализации результатов
семантического поиска по текстам был представлен
подход к выделению статических и динамических
рефератов.
Предлагаемые алгоритмы могут быть улучшены с
помощью существующих решений, но в рамках
прототипа были намеренно использованы простые
решения. В рамках дальнейшей работы планируется:
Улучшение качества предложенных
алгоритмов выделения ключевых слов,
генерации рефератов.
Проведение экспериментов по улучшению
качества кластеризации.
Реализация эффективного хранилища S-
тегов.
Реализация распределенного выделения
ключевых слов на Hadoop кластере;
Переход к распределенной системе поиска;
Проведение экспериментов по выделению S-
тегов с помощью иерархии классификатора
УДК;
Использование контекстов терминов для
семантического поиска;
Реализация эффективного хранилища S-
тегов.
Список используемой литературы
[1] Атаева О. М., Серебряков В. А. Персональная
цифровая библиотека Libmeta как среда
интеграции связанных открытых данных. Труды
16-й Всероссийской научной конференции
«Электронные библиотеки: перспективные
методы и технологии, электронные коллекции»
— RCDL-2014, Дубна, Россия, 2014.
[2] GiannopoulosG. etal. GoNTogle: a tool for semantic
annotation and search.The Semantic Web: Research
and Applications, p. 376-380, Springer Berlin
Heidelberg, 2010.
[3] Bontcheva K., Tablan V., Cunningham H. Semantic
search over documents and ontologies. Bridging
Between Information Retrieval and Databases,
Springer Berlin Heidelberg, 2014.
[4] Berlanga R., Nebot V., Pérez M. Tailored semantic
annotation for semantic search.Web Semantics:
Science, Services and Agents on the World Wide
Web, p. 69-81, 2015.
[5] Alahmari F., Magee L. Linked Data and Entity
Search: A Brief History and Some Ways Ahead.
Proceedings of the 3rd Australasian Web
Conference, 2015.
[6] Maynard D., Greenwood M. A. Large Scale
Semantic Annotation, Indexing and Search at The
National Archives. Lrec, p. 3487-3494, 2012.
[7] И.В. Захарова. Об одном подходе к реализации
семантического поиска документов в
электронных библиотеках. Вестник Уфимского
государственного авиационного технического университета, 2009.
https://cyberleninka.ru/article/n/ob-odnom-podhodek-
realizatsii-semanticheskogo-poiska-dokumentovv-
elektronnyh-bibliotekah
[8] А.Л. Воскресенский, Г.К. Хахалин. Средства
семантического поиска. Международная
конференция по компьютерной лингвистике и
интеллектуальным технологиям «Диалог», 2006.
https://www.dialog-21.ru/digests/dialog2006/
materials/html/Voskresenskij.htm
[9] Н. В. Лукашевич. Тезаурусы в задачах
информационного поиска. 2010
[10] Hasan K. S., Ng V. Automatic Keyphrase
Extraction: A Survey of the State of the Art //ACL
(1), 2014, p 1262-1273.
https://acl2014.org/acl2014/P14-1/pdf/P14-1119.pdf
[11] k-means++: The Advantages of Careful Seeding.
2006. https://ilpubs.stanford.edu:8090/778/1/2006-
13.pdf
[12] О.Г. Чанышев. Ассоциативные поля доминант и
анализ текста. Институт Математики им. С.Л.
Соболева СО РАН, 2011.
https://elib.ict.nsc.ru/jspui/bitstream/ICT/1376/1/ЗО
НТ2.pdf