Организация семантического поиска




Аннотация

Данная работа описывает решение проблемы

семантического поиска по текстам документов. В

качестве примера рассматривается семантический

поиск по текстам книг цифровой библиотеки

LibMeta. Представлен алгоритм построения

иерархии ключевых слов и кластеров путем

итеративного выполнения кластеризации и

выделения ключевых слов. Построенная иерархия

используется для генерации рефератов и индексации

документов для семантического поиска.

Введение

Традиционно предполагается, что ресурсы

электронных библиотек представляют собой

библиографические записи традиционных

библиотек и электронные копии документов,

описываемых этими записями. Но развитие

технологий переопределяет понятие как самих

библиотек, так и ее ресурсов, которые не

ограничиваются только библиографическими

записями и их электронным представлением, но

также выводит на передний план семантику этих

ресурсов. Для этого могут использоваться различные

виды классификации ресурсов библиотеки.

Разработаны различные отраслевые рубрикаторы,

которые позволяют более детально определить

тематическую направленность ресурсов. Как

правило, этих средств для описания семантики

недостаточно, либо со временем появляются новые

требования к описанию ресурсов библиотек, что

приводит как к усложнению самих описаний, так и

требует значительных трудозатрат на внедрение

новых способов описаний, соответствующих

текущим потребностям.

Используя новые возможности, которые

появляются с развитием технологий, пользователь

библиотеки может использовать больше средств для

работы с ресурсами цифровых библиотек, имея

возможность описывать область своих интересов в

терминах предметной области на основе стандартов

с привлечением тезаурусов словарей и онтологий.

Это позволяет ему организовывать и описывать как

собственные коллекции, так и собственные ресурсы,

при необходимости детализировать описания

ресурсов и свою область интересов, уточняя ее

термины.

Персональная открытая семантическая цифровая

библиотека LibMeta характеризуется гибким

хранилищем метаданных для своих ресурсов и

типами описываемых информационных ресурсов.

Такой подход к описанию ресурсов библиотеки

обеспечивает универсальность описания ее типов

ресурсов и объектов независимо от предметной

области и области интересов пользователей.

Структурированность описания обеспечивает

поддержку связей между различными типами

ресурсов.

Гибкость описания ресурсов обеспечивается

использованием OWL онтологий для хранения

метаданных. Такой подход дает ряд преимуществ:

 возможность выполнения SPARQL запросов;

 получение дополнительных знаний с

помощью логического вывода;

 упрощение интеграции с другими

библиотеками;

 возможность изменения схемы под

изменившиеся потребности.

Семантический поиск – поиск документов по их

содержанию. Библиотека LibMeta позволяет

осуществлять семантический поиск по метаданным с

помощью SPARQL запросов. При этом в библиотеке

не реализован семантический поиск по текстам книг.

Целью работы является улучшение качества

услуг, оказываемых библиотекой LibMeta, с

помощью семантического поиска по текстам книг

библиотеки.

Таким образом, необходимо реализовать систему

семантического поиска по текстам книг библиотеки

LibMeta. Поисковая система должна находить по поисковому запросу на естественном языке

релевантные этому запросу тексты книг с учетом

семантики. Подразумевается, что для поддержки

семантики будут использованы словари синонимов и

гипонимов.

Организация семантического поиска

Существуют разные подходы к организации

семантического поиска по текстам. В последние годы

наиболее популярным стало семантическое

аннотирование текста. Существуют различные

способы решения задачи семантического

аннотирования. В каждом из них документу или

части документа приписывается некоторый набор

семантически близких документу меток. В

дальнейшем можно искать документы по этим

меткам. Кроме того, можно искать документы

обычным полнотекстовым поиском, а потом

учитывать эти метки при работе с документом,

получая больше информации с помощью них.

Обычно в качестве меток используются персоны,

места, организации или другие субъекты.

Для описания меток часто используются RDF

хранилища, содержащие набор понятий и отношения

между ними. Некоторые методы используют

информацию из Wikipedia, как из масштабного

источника знаний. В последнее время методы

семантического аннотирования все чаще

обращаются к использованию массивного,

взаимосвязанного облака Linked Open Data.

Например, с помощью средства семантического

аннотирования GATE был проаннотирован

Национальный Архив Великобритании (42 TB).

Семантическое аннотирование не единственный

способ организации поиска. Существуют решения,

основанные на улучшении классического

полнотекстового поиска расширением запроса

синонимами. Так была создана онтология,

основанная на терминах статей с помощью УДК, в

дальнейшем она использовалась для расширения

запроса пользователя. Кроме того, подход,

использующий информацию о синтаксисе,

морфологии и пунктуации, также кажется

интересным. К сожалению, описанные подходы

не были внедрены и не используются повсеместно.

Было проведено множество экспериментов по

использованию словарей синонимов и гипонимов

для улучшения качества полнотекстового поиска.

Известно, что при использовании синонимов и

гипонимов растет полнота и часто существенно

падает точность поиска.

Особенность предлагаемого подхода в том, что

индексируется не весь текст, а только его значимые

части, в зависимости от задачи, это могут быть

абзацы, предложения, словосочетания или

проставленная человеком метка, например, хэштег.

За счет изменения размера значимой части можно

контролировать точность и полноту. Например, если

полнота маленькая и индексируются предложения,

можно попробовать индексировать сочетания

предложений. Кроме того, в предлагаемом подходе

не используется транзитивность синонимов и

гипонимов, для каждого слова нужно явно указать

слова, которые могут быть использованы вместо

него, это также упрощает контроль над качеством

поиска.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2019-03-02 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: