Механизмы поиска документов в полнотекстовых ИПС

В полнотекстовых информационно-поисковых системах поиск документов осуществляется по индексу системы через дескрипторный язык запросов с логическими операциями над словоформами, а также через другие механизмы использования ПОД и ПОЗ. Пользователь должен перечислить и ввести в ИПС те словоформы, набор которых выражает его информационные потребности.

Пример. Пользователю необходимо найти документы по экспорту редкоземельных элементов. Запрос: " экспорт редкоземельные элементы ". В ответ ИПС по индексу определит номера документов, составляющих 3 группы. В 1-ю войдут документы, содержащие слово экспорт, во 2-ю – слово редкоземельные, а в 3-ю – элементы.

Слабая эффективность подобного запроса преодолевается следующими способами:

1) использованием посткоординации, когда в язык запросов вводятся логические операции "ИЛИ", "И", "НЕ";

2) операциями работы с датами;

3) возможностями координатного анализа документов;

4) морфологическим разбором;

5) постановкой задачи поиска документов, "похожих" по содержанию на заведомо пертинентный документ или фрагмент документа.

Пример. Если словоформы из предыдущего примера объединить логической операцией "И", то ИПС отберет только те документы, которых одновременно присутствуют словоформы экспорт, редкоземельные, элементы.

Подобные принципы построения запросов повышают требования к квалификации пользователя, который должен уметь правильно использовать логические операции. Практика же показывает, что для многих пользователей это не представляет проблемы.

Координатный анализ текста документов переводит область действия логических операторов на более мелкие составляющие документа – абзацы, предложения. Он позволяет еще более повысить эффективность поиска релевантных документов, но требует более детального индексирования.

При осуществлении координатного анализа для словоформ словаря ИПС должны фиксироваться не только номера документов, но и номера абзацев, номера предложений и номера соответствующих словоформ в порядке следования слов в соответствующих предложениях.

Отличительной особенностью поиска документов по индексу является практическая независимость времени поиска от объема базы документов, особенно при использовании статического словаря. Это объясняется тем, что для любого запроса, независимо от текущего объема базы, выполняется приблизительно одинаковое количество операций, связанных с просмотром индексного массива и определением совокупности номеров релевантных документов.

В системах с динамическими словарями время поиска при увеличении объема базы документов сначала также увеличивается, а затем перестает зависеть от объема, поскольку с некоторой границы ИПС набирает практически полный набор словоформ, присущих конкретной предметной области.

Морфологический разбор документов и запросов помимо существенного уменьшения объема словаря, а значит и индекса системы, повышает эффективность поиска, т.к. не реагирует на несущественные с точки зрения смыслового содержания грамматические различия текста искомых документов и запросов.

Пример. Для предыдущих примеров система с морфологическим разбором помимо документов, в которых встречается буквальное сочетание слов экспорт, редкоземельные, элементы, отберет и документы с такими фразами, как "К вопросу о торговле редкоземельны ми элемент ами, экспорт е и их лицензировании", "Проблемы экспорт а редкоземельны х элемент ов " и т.п.

Недостаток морфологического разбора: в принципе давая пользователю возможность формировать запросы на естественном языке, не позволяет применять логические операторы и другие развитые возможности, связанные с координатным анализом местонахождения и контекстного окружения искомых слов, терминов, сочетаний и т.д.

Важной характеристикой поиска документов по индексу, в т.ч. с учетом логических операций посткоординации и морфологического разбора, является упрощенныйдетерминированный подход к поиску. Т.е. критерием поиска является вхождение или не вхождение того или иного дескриптора-слова запроса в ПОД без учета общей похожести ПОД и ПОЗ. Масса остальных дескрипторов поискового образа документов не рассматривается. Поэтому в развитых полнотекстовых ИПС реализуются более тонкие и сложные алгоритмы поиска, основанные на сравнении ПОД и ПОЗ в целом по определенным критериям похожести и близости.

Механизмы поиска документов в полнотекстовых ИПС

Поиск по сайту