Информационно – поисковый язык




Тема: Виды информационно – поисковых систем

ИПС – это информационная система с единым хранилищем единичных элементов данных и с развитым инструментарием их поиска и отбора.

По виду единичных элементов данных ИПС делятся на:

1. Фактографические

2. Документальные

Фактографические ПС – это системы в которых единичным элементом данных является запись, образуемая конечной совокупностью полей – атрибутов (в базе данных это столбцы).

Недостатки фактографических ПС:

· Требуются изначально структурированные данные

· Дополнительное время

Документальные ПС – это системы в которых единичным элементом данных является документ, не структурированный на более мелкие элементы. Это могут быть текстовые, звуковые, графические файлы. Основная задача документальных ИПС – это предоставление пользователю документов, которые соответствуют его информационным потребностям.

Информационная потребность – это осознанное понимание различия индивидуального знания от знаний, накопленных обществом.

Пертинентность – это соответствие найденных документов информационным потребностям пользователя.

Особенности реализации хранилища документов и механизмов поиска

В зависимости от этих особенностей ИПС делятся:

1. Системы на основе индексирования

2. Семантически – навигационные системы

В семантически – навигационных системах создаются навигационные конструкции, соответствующие смысловым связям между различными документами или отдельными фрагментами одного документа. Такие конструкции реализуют семантическую семантическую сеть в базе документов. Поиск осуществляется путем явной навигации по смысловым отсылкам между документами. В настоящее время такой подход реализуется в гипертекстовых ИПС (пример www).

В системы на основе индексирования исходные документы помещаются в базу без дополнительного преобразования, но смысловое содержание каждого документа отображается в некоторое поисковое пространство.

Процесс индексирования заключается в присвоении каждому документу некоторого индекса координаты в поисковом пространстве.

Индексирование – описание содержания документа посредством формализованного информационного языка.

Поисковым образом документа ПОД называется формализованное описание индекса документа.

Поисковым образом запроса ПОЗ к базе документа называется выражение пользователем своих информационных потребностей средствами и языком поискового пространства.

На примере поисковых системе в интернете ПОД и ПОЗ это поиск по ключевым словам. ИПС в интернете с помощью специальных программ – роботов просматривают весь интеренет и по каждому сайту (документу) собирает множество ключевых слов. Это и есть индексирование интернета. ПОД – это ключевые слова и адреса соответствующих сайтов. Внутри ИПС типа Рамблер или Яндекс хранится множество этих ПОД – это и есть поисковое пространство.

Пользователь обычно пишет несколько ключевых слов – это и есть поисковый образ запроса ПОЗ. В поисковом пространстве документа ПОД ищутся соответствующие запросу ПОЗ полностью или частично. Степень этого соответствия и есть релевантность. Релевантностью называется соответствие найденных документов запросу пользователя.

10.09.2012

Информационное оповещение

Поисковый профиль пользователя ППП – это отображение в поисковом пространстве информационных потребностей пользователя.

ИПС по мере поступление и индексирования новых документов сравнивает их ПОД с имеющимся ППП и принимает решение о соответствующем оповещении.

Информационно – поисковый язык

Поисковое пространство, отображающее ПОД и реализующее механизмы поиска документов, строится на основе языков баз данных называемых информационно поисковыми языками т.е. ИПЯ.

 

Информационно – поисковый каталог
Генеральный показатель
Составляющие ИПЯ
Реляционные
Предикатные
Семантические языки
Дескрипторные языки
Тезаурус
Поисковая (манипуляционная)
Структурна

 

Информационно – поисковые каталоги представляют собой классификационную систему знаний по определенной предметной области. Индексирование документа заключается в присвоении документу специального кода соответствующего по содержанию класса каталога и создания на этой основе специального индексного указателя.

Тезаурусы представляют собой специальным образом организованную совокупность лексических единиц (понятий) предметной области (словаря терминов) и описания отношений между ними.

Генеральный указатель (глобальный словарь – индекс или конкорданс) в общем виде является перечислением всех слов (словоформ), имеющихся в документах хранилища, с указанием (отсылками) координатного местонахождения каждого слова (№ документа - № абзаца - № предложения - № слова).

В дескрипторных языках документы и запросы представляются наборами лексических единиц (слов, словосочетаний, терминов) – дескрипторов, не имеющих между собой связей.

Каждый документ или запрос представлен набором дескрипторов. Поиск осуществляется путем определения документов с подходящим набором дескрипторов выступают либо элементы словаря ключевых слов, либо элементы генерального указателя (глобального словаря всех словоформ).

Из – за отсутствия связей между дескрипторами такие языки применяются, прежде всего, в полнотекстовых системах.

Семантические языки содержат грамматические и семантические конструкции для выражения (описания) смыслового содержания документов и запросов. Все многообразие семантических языков подразделяется на 2 большие группы:

· Предикатные языки

· Реляционные языки

В предикатных языках в качестве элементарной осмысленной конструкции высказывания выступает предикат, представляющий собой многоместное отношение некоторой совокупности грамматических элементов.

Предикат – это логическая функция с одним или несколькими документами.

В реляционных языках лексические единицы высказываний могут вступать лишь в бинарные (друг с другом) отношения.

В качестве лексических единиц семантических языков выступают функциональные классы естественного языка, важнейшие из них даны в таблице:

Классы Комментарий
Понятия - классы Общее определение совокупности однородных элементов реального мира, обладающих некоторым набором характерных свойств, позволяющих одни понятии – классы отделять от других
Понятия - действия Лексический элемент, выражающий динамику реального мира, содержит уникальный набор признаков, включающий субъект действия, объект действия, время действия, место действия, инструмент действия, цель и т.д.
Понятия - состояния Лексические элементы, фиксирующие состояние объектов
Имена Лексические элементы, идентифицирующие понятия - классы
Отношения Лексические элементы, служащие для установления связей на множестве понятий и имен
Квантификаторы Всеобщности, существования и т.д.

 

17.09.2012

Классификационные системы поиска документов:

ü Библиотечные алфавитно – предметные каталоги

ü Автоматизированные информационно – поисковые каталоги

ü Информационно – поисковые тезаурусы

Для поиска в классификационных системах поиска документов осуществляется индексирование документов.

Виды индексирования представлены в таблице:

 

Классификационное индексирование документов
По принципу организации
По операциям над классами (понятиями)
Перечислительная классификация
Систематизированная классификация
С операциями над классами (понятиями)
Без операций над классами (понятиями)
Иерархическая классификация
Фасетная классицикация
Логические операции над классами
Грамматические отношения классов (понятий)
С предкоординацией (понятий)
С посткоординацией (понятий)

 


Перечислительная классификация:

Первоначальные подходы к классификации документов основывались на формировании спичка заголовков, располагаемых в алфавитном порядке. Каждая предметная рубрика получала определенный цифровой или буквенно – цифровой код. Содержание документа индексировалось перечислением кодов тех рубрик, которые отражали предметы документа. Такие подходы получили название перечислительной классификации.

Основной недостаток перечислительной классификации: отсутствие систематизированных связей и отношений между предметными рубриками.

Иерархическая классификация:

Фасетная классификация:

Классификация, дающая возможность классифицировать объекты одновременно по нескольким различным признакам.

Основное достоинство: Небольшим перечнем фасетных рубрик возможно сконструировать огромное количество узких специализированных рубрик, точно и полно проиндексировав содержание документа.

Недостаток: влияние на эффективность поиска документов порядка следования рубрик фасет.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2020-11-02 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: