Тема: Виды информационно – поисковых систем
ИПС – это информационная система с единым хранилищем единичных элементов данных и с развитым инструментарием их поиска и отбора.
По виду единичных элементов данных ИПС делятся на:
1. Фактографические
2. Документальные
Фактографические ПС – это системы в которых единичным элементом данных является запись, образуемая конечной совокупностью полей – атрибутов (в базе данных это столбцы).
Недостатки фактографических ПС:
· Требуются изначально структурированные данные
· Дополнительное время
Документальные ПС – это системы в которых единичным элементом данных является документ, не структурированный на более мелкие элементы. Это могут быть текстовые, звуковые, графические файлы. Основная задача документальных ИПС – это предоставление пользователю документов, которые соответствуют его информационным потребностям.
Информационная потребность – это осознанное понимание различия индивидуального знания от знаний, накопленных обществом.
Пертинентность – это соответствие найденных документов информационным потребностям пользователя.
Особенности реализации хранилища документов и механизмов поиска
В зависимости от этих особенностей ИПС делятся:
1. Системы на основе индексирования
2. Семантически – навигационные системы
В семантически – навигационных системах создаются навигационные конструкции, соответствующие смысловым связям между различными документами или отдельными фрагментами одного документа. Такие конструкции реализуют семантическую семантическую сеть в базе документов. Поиск осуществляется путем явной навигации по смысловым отсылкам между документами. В настоящее время такой подход реализуется в гипертекстовых ИПС (пример www).
|
В системы на основе индексирования исходные документы помещаются в базу без дополнительного преобразования, но смысловое содержание каждого документа отображается в некоторое поисковое пространство.
Процесс индексирования заключается в присвоении каждому документу некоторого индекса координаты в поисковом пространстве.
Индексирование – описание содержания документа посредством формализованного информационного языка.
Поисковым образом документа ПОД называется формализованное описание индекса документа.
Поисковым образом запроса ПОЗ к базе документа называется выражение пользователем своих информационных потребностей средствами и языком поискового пространства.
На примере поисковых системе в интернете ПОД и ПОЗ это поиск по ключевым словам. ИПС в интернете с помощью специальных программ – роботов просматривают весь интеренет и по каждому сайту (документу) собирает множество ключевых слов. Это и есть индексирование интернета. ПОД – это ключевые слова и адреса соответствующих сайтов. Внутри ИПС типа Рамблер или Яндекс хранится множество этих ПОД – это и есть поисковое пространство.
Пользователь обычно пишет несколько ключевых слов – это и есть поисковый образ запроса ПОЗ. В поисковом пространстве документа ПОД ищутся соответствующие запросу ПОЗ полностью или частично. Степень этого соответствия и есть релевантность. Релевантностью называется соответствие найденных документов запросу пользователя.
|
10.09.2012
Информационное оповещение
Поисковый профиль пользователя ППП – это отображение в поисковом пространстве информационных потребностей пользователя.
ИПС по мере поступление и индексирования новых документов сравнивает их ПОД с имеющимся ППП и принимает решение о соответствующем оповещении.
Информационно – поисковый язык
Поисковое пространство, отображающее ПОД и реализующее механизмы поиска документов, строится на основе языков баз данных называемых информационно поисковыми языками т.е. ИПЯ.
Информационно – поисковый каталог |
Генеральный показатель |
Составляющие ИПЯ |
Реляционные |
Предикатные |
Семантические языки |
Дескрипторные языки |
Тезаурус |
Поисковая (манипуляционная) |
Структурна |
Информационно – поисковые каталоги представляют собой классификационную систему знаний по определенной предметной области. Индексирование документа заключается в присвоении документу специального кода соответствующего по содержанию класса каталога и создания на этой основе специального индексного указателя.
Тезаурусы представляют собой специальным образом организованную совокупность лексических единиц (понятий) предметной области (словаря терминов) и описания отношений между ними.
Генеральный указатель (глобальный словарь – индекс или конкорданс) в общем виде является перечислением всех слов (словоформ), имеющихся в документах хранилища, с указанием (отсылками) координатного местонахождения каждого слова (№ документа - № абзаца - № предложения - № слова).
|
В дескрипторных языках документы и запросы представляются наборами лексических единиц (слов, словосочетаний, терминов) – дескрипторов, не имеющих между собой связей.
Каждый документ или запрос представлен набором дескрипторов. Поиск осуществляется путем определения документов с подходящим набором дескрипторов выступают либо элементы словаря ключевых слов, либо элементы генерального указателя (глобального словаря всех словоформ).
Из – за отсутствия связей между дескрипторами такие языки применяются, прежде всего, в полнотекстовых системах.
Семантические языки содержат грамматические и семантические конструкции для выражения (описания) смыслового содержания документов и запросов. Все многообразие семантических языков подразделяется на 2 большие группы:
· Предикатные языки
· Реляционные языки
В предикатных языках в качестве элементарной осмысленной конструкции высказывания выступает предикат, представляющий собой многоместное отношение некоторой совокупности грамматических элементов.
Предикат – это логическая функция с одним или несколькими документами.
В реляционных языках лексические единицы высказываний могут вступать лишь в бинарные (друг с другом) отношения.
В качестве лексических единиц семантических языков выступают функциональные классы естественного языка, важнейшие из них даны в таблице:
Классы | Комментарий |
Понятия - классы | Общее определение совокупности однородных элементов реального мира, обладающих некоторым набором характерных свойств, позволяющих одни понятии – классы отделять от других |
Понятия - действия | Лексический элемент, выражающий динамику реального мира, содержит уникальный набор признаков, включающий субъект действия, объект действия, время действия, место действия, инструмент действия, цель и т.д. |
Понятия - состояния | Лексические элементы, фиксирующие состояние объектов |
Имена | Лексические элементы, идентифицирующие понятия - классы |
Отношения | Лексические элементы, служащие для установления связей на множестве понятий и имен |
Квантификаторы | Всеобщности, существования и т.д. |
17.09.2012
Классификационные системы поиска документов:
ü Библиотечные алфавитно – предметные каталоги
ü Автоматизированные информационно – поисковые каталоги
ü Информационно – поисковые тезаурусы
Для поиска в классификационных системах поиска документов осуществляется индексирование документов.
Виды индексирования представлены в таблице:
Классификационное индексирование документов |
По принципу организации |
По операциям над классами (понятиями) |
Перечислительная классификация |
Систематизированная классификация |
С операциями над классами (понятиями) |
Без операций над классами (понятиями) |
Иерархическая классификация |
Фасетная классицикация |
Логические операции над классами |
Грамматические отношения классов (понятий) |
С предкоординацией (понятий) |
С посткоординацией (понятий) |
Перечислительная классификация:
Первоначальные подходы к классификации документов основывались на формировании спичка заголовков, располагаемых в алфавитном порядке. Каждая предметная рубрика получала определенный цифровой или буквенно – цифровой код. Содержание документа индексировалось перечислением кодов тех рубрик, которые отражали предметы документа. Такие подходы получили название перечислительной классификации.
Основной недостаток перечислительной классификации: отсутствие систематизированных связей и отношений между предметными рубриками.
Иерархическая классификация:
Фасетная классификация:
Классификация, дающая возможность классифицировать объекты одновременно по нескольким различным признакам.
Основное достоинство: Небольшим перечнем фасетных рубрик возможно сконструировать огромное количество узких специализированных рубрик, точно и полно проиндексировав содержание документа.
Недостаток: влияние на эффективность поиска документов порядка следования рубрик фасет.