Информационно-технологическая структура полнотекстовых ИПС




Полнотекстовые ИПС строятся на основе информационно-поисковых языков дескрипторного типа. Их информационно-технологическая структура представлена ниже (Рисунок 4.1):

Поступающие через интерфейс ввода / вывода документы подвергаются индексированию в механизме индексирования по глобальному словарю системы. Механизм индексирования в полнотекстовых ИПС полностью автоматизирован и заключается в создании специального двоичного вектора, компоненты которого показывают наличие (1) или отсутствие (0) в данном документе слова с соответствующим номером из глобального словаря. Слова из проиндексированного документа пополняют глобальный словарь, а созданный ПОД

документа поступает в поисковое пространство. Проиндексированный документ отправляется в хранилище документов. Аналогично индексирует запрос, в котором пользователь через интерфейс запросов выражает свои информационные потребности. Созданный в механизме индексирования ПОЗ поисковая машина отправляет в поисковое пространство, где путем сравнения с ПОД осуществляется поиск документов. Механизм извлечения по номерам найденных документов отправляет их пользователю из хранилища.


 

 


Рисунок 4.1. Структура полнотекстовых ИПС

Хранилище документов может быть организовано как показано ниже ().

 

 


Рисунок 4.2. Организация хранилища

Элементы глобального словаря выступают в качестве дескрипторов информационно-поискового языка системы. Глобальные словари могут быть статическими и динамическими (Рисунок 4.3).

 


Рисунок 4.3. Виды глобальных словарей

Морфологический разбор существенно влияет на эффективность полнотекстовых ИПС. Он позволяет распознавать как одну общую словоформу все однокоренные слова (вода, водный, водяной), а также лексемы – слова отличающиеся в тексте различными окончаниями, приставками и суффиксами (водный, водного, водному, воду, воде и т.п.). Такой процесс основывается на нормализации глобального словаря системы, объединяющей в одну словоформу все однокоренные слова и лексемы. Кроме того, отбрасываются неинформативные слова (стоп-слова) – предлоги, союзы, восклицания, междометия и некоторые другие грамматические категории. Обычно морфологический разбор осуществляется в системах со статическим глобальным словарем. Для русского языка в качестве такого нормализованного глобального словаря используется составленный в 1968 году академиком И.К.Зализняком морфологический словарь русского языка, позволяющий распознать и нормализовать более 3 млн. словоформ.

На практике ИПС могут поставляться как готовый информационный продукт с уже сформированной базой документов и интерфейсом поиска и доступа к ним. В других случаях поставляется программная среда (полнотекстовая СУБД), позволяющая такую базу создать и сформировать, таким образом, документальную ИПС.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-02-16 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: