Особенности реализации хранилища документов и механизмов поиска




В В Е Д Е Н И Е

Потребности в системах, ориентированных на накопление и эффективную обработку неструктурированной или слабоструктурированной информации привели к возникновению еще в 1970-х годах отдельной ветви программного обеспечения систем управления базами данных, на основе которых создаются документальные информационные системы.

Однако теоретические исследования вопросов информационного поиска документов, начавшись еще в 1950-х – 1960-х годах, к сожалению, не получили такой строгой, полной и в то же время технически реализуемой модели представления и обработки данных, как реляционная модель в фактографических системах. Не получили также стандартизации и многочисленные попытки создания универсальных так называемых информационно-поисковых языков, предназначенных для формализованного описания смыслового содержания документов и запросов по ним.

В итоге, несмотря на то, что первые системы автоматизированного поиска документов появились еще в 1960-х годах, развитые коммерческие информационно-поисковые системы, ориентированные на накопление и обработку текстовых документов, получили распространение лишь в конце 1980-х – начале 1990-х годов.

В настоящее время информационно-поисковые системы получили широкое распространение в правовых электронных системах, библиотечных, Интернете и других системах.

Введение и главы 1, 2, 3, 4 написаны А.Т. Тяжевым, глава 5 - Т.Т. Осиповой, главы 6, 7, 8 - Р.Р. Фокиным, глава 9 и вопросы для самоконтроля - М.А. Абиссовой.

 

Глава 1. ВИДЫИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ. ОБЩАЯ ХАРАКТЕРИСТИКА

Информационно-поисковая система (ИПС) – информационная система (ИС) с единым хранилищем единичных элементов данных и с развитым инструментарием их поиска и отбора.

Комментарии: ИПС - это система для поиска информации.

Модули ИПС встроены почти во все современные программные средства.

ИПС в WINDOWS

Среди огромного количества файлов на каком-нибудь диске мы можем найти нужные нам файлы.

Пример:

попробуйте найти на диске d: файлы WORD (*.doc, *.rtf), которые содержат заявления, служебные записки, объяснительные, материалы по ИПС.

ИПС в WORD

В длинном тексте (реферат, курсовая, диплом, диссертация) можно найти нужное нам место в тексте, если мы помним какое-нибудь слово в этом месте. Можно все вхождения в текст одного слова заменить другим словом.

Пример:

найдите какой-нибудь файл WORD (*.doc, *.rtf) и в этом файле произведите замену каких-нибудь 10 слов их синонимами.

ИПС на CD-DVD ДИСКАХ

На лазерных дисках (CD, DVD) продаются многочисленные ИПС. Вы можете найти необходимые Вам адреса, телефоны, карты, товары, услуги и т.п.

Пример:

имеется лазерный диск и инструкция по установке соответствующих ИПС на компьютер. Среди них, например:

- Top Plan Санкт-Петербург

- Top Plan Ленинградская область

- Финансовый менеджмент

- К Вам пришли с проверкой

- Как устроиться на работу

- Лекарственные растения

- Выбор и секреты цифровых фотоаппаратов

- Выбор и секреты лыж и сноубордов

Давайте поставим эти ИПС на один из наших компьютеров.

ИПС в INTERNET

Наиболее мощные ИПС имеются в сети Интернет.

Поисковые машины Rambler (www.rambler.ru), Yandex (www.yandex.ru) и др. служат главным образом для поиска нужных сайтов. Эти ИПС интеллектуальны. Если мы просим найти сайты со словом "лётчик", то будут также найдены сайты со словом "пилот", причём во всех падежах.

Наиболее известные сайты (фирмы, библиотеки, история и др.) являются ИПС по поиску информации внутри данного сайта. Вот некоторые примеры:

www.sony.ru

www.canon.ru

www.samsung.ru

www.kodak.ru

www.lib.ru

www.nlr.ru

www.rasl.ru

www.price.ru

и др.

Рисунок 1.1. Классификация ИПС по виду единичных элементов данных

Пример:

Предположим нужно написать реферат. Тему выбираете сами. Это может быть выбор сотового телефона, автомобиля, ноутбука, фотоаппарата, какое-нибудь историческое событие и т.п. Реферат обязательно должен содержать аналитический обзор чего-нибудь. Вот пример: Нам нужен фотоаппарат. Для туристских походов. Следовательно, вес не более 500гр. Зум не менее 10. Найти 10-15 таких фотоаппаратов. Выбрать один. Аналитический обзор содержит подробное обоснование Вашего выбора.

По виду единичных элементов данных ИПС подразделяются на фактографические и документальные (Рисунок 1.1).

Фактографические ИПС – информационные системы, в которых единичным элементом данных, имеющим отдельное смысловое значение, является запись, образуемая конечной совокупностью полей-атрибутов.

Комментарии: фактографические ИПС ищут только внутри структурированного массива информации, например, в базе данных, состоящей из записей.

Например, в Access запись может состоять из следующих полей (Таблица 1.1).

Таблица 1.1. Запись Access

Табельный номер Фамилия Имя Отчество Год рождения   Оклад
  Иванов Иван Ионович    

 

Эксплуатация фактографических ИПС требует либо изначально структурированных данных (отчеты датчиков в АСУТП, финансовые массивы бухгалтерских ИС и т.д.), либо предварительной структуризации данных. Из этого вытекают недостатки фактографических ИС:

- зачастую структуризация данных требует больших накладных, в т.ч. и организационных расходов, приводящих к материальным издержкам информатизации,

- извлечение из текста данных по формализованным позициям для ввода в фактографические ИС может приводить к ошибкам и потере части информации, которая в исходных источниках имеется, но из-за отсутствия в базе данных соответствующих элементов в ней не может быть отражена.

В последнее время приоритет получили документальные ИПС.

Документальные ИПС – информационные системы, единичным элементом которых является неструктурированный на более мелкие элементы документ.

Комментарии: документальные ИПС ищут только внутри множества неструктурированных документов.

Обычно это текстовые документы в виде текстовых файлов, хотя к классу неструктурированных документированных данных могут также относится звуковые и графические файлы.

Основной задачей документальных ИС является накопление и предоставление пользователю документов, которые по содержанию, тематике, реквизитам и пр. соответствуют его информационным потребностям.

Информационная потребность – осознанное понимание различия индивидуального знания, определяемое разностью между субъективным восприятием предмета деятельности и уровнем знаний об этом предмете, накопленных обществом.

Коментарии: информационная потребность - это информация, которая необходима пользователю.

Пертинентностью называется соответствие найденных документов информационным потребностям пользователя.

Коментарии: найденная ИПС информация может не полностью соответствовать потребностям пользователя.

Особенности реализации хранилища документов и механизмов поиска

В зависимости от особенностей реализации хранилища документов и механизмов поиска документальные ИПС подразделяются на Системы на основе индексирования и Семантически-навигационные системы (Рисунок 1.2).

 
 

 

 


Рисунок 1.2. Виды документальных ИПС в зависимости от особенностей реализации хранилища документов и механизмов поиска

В семантически-навигационных системах документы, помещаемые в хранилище (базу) документов оснащаются специальными навигационнымиконструкциями, соответствующими смысловым связям (отсылкам) между различными документами или отдельными фрагментами одного документа. Такие конструкции реализуют некоторую семантическую (смысловую) сеть в базе документов. Поиск осуществляется путем явной навигации по смысловым отсылкам между документами. В настоящее время такой подход реализуется в гипертекстовых ИПС.

Комментарии: Типичный примеры этих ИПС - это www-страницы. Навигационные конструкции на них - это гиперссылки на другие веб-страницы. Связанные таким образом www-страницы образуют сеть. Эта сеть семантическая (смысловая) поскольку каждая гиперссылка организует связь в соответствии с некоторым смыслом. Например, на одной www-странице мы видим слово Кутузов, если мы по нему щелкаем, то появляется www-страница, посвященная Кутузову. Навигация - это хождение по www-страницам с целью поиска некоторой информации.

В системах на основе индексирования исходные документы помещаются в базу без дополнительного преобразования (за исключением возможного сжатия), но смысловое содержание каждого документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство или индексирование заключается в присвоении каждому документу некоторого индекса-координаты в поисковом пространстве.

Индексирование – описание содержания документа посредством формализованного информационного языка.

Поисковым образом документа (ПОД) называется формализованное описание индекса документа.

Поисковым образом запроса (ПОЗ) к базе документов называется выражение пользователем своих информационных потребностей средствами и языком поискового пространства.

Система на основе определенных критериев и способов ищет документы, ПОД которых соответствуют или близки ПОЗ, и выдает соответствующие документы.

Коментарии: Имеется большой массив информации - сами документы. Там трудно что-либо найти. Мы собираем индекс - малую информацию, для облегчения поиска. Это и есть индексирование. Примеры: Малая информация (индекс) - это карта местности. Большая информация - это сама местность. Малая информация (индекс) - это оглавление книги. Большая информация - это сама книга. Пусть имеется книга о художниках. По оглавлению просто найти на каких страницах информация, например, о Шишкине. В этом случае документы - это главы книги, поисковое пространство - это оглавление, поисковые образы документов (ПОД) - это пункты оглавления. Поисковый образ запроса (ПОЗ) - слово Шишкин, мы ищем пункт оглавления с этим словом.

 

Рисунок 1.3. Система на основе индексирования

Рамблер, Яндекс и другие ИПС в интернете с помощью специальных программ-роботов просматривавают время от времени весь Интернет и по каждому сайту (документу) собирают множество ключевых слов. Это и есть индексирование интернета. Поисковый образ документа (ПОД) - это ключевые слова и адрес соответствующего сайта. Внутри ИПС типа Рамблера, Яндекса и т.п. хранится множество этих ПОД - это и есть поисковое пространство. Пользователь обычно пишет несколько ключевых слов - этои есть поисковый образ запроса (ПОЗ). Далее в поисковом пространстве ищутся ПОД, соответствующие ПОЗ, полностью или частично. Степень этого соответствия и есть релевантность. Обычно Рамблер, Яндекс и другие ИПС в интернете выдают несколько ссылок на сайты по убыванию релевантности.

Релевантностью называется соответствие найденных документов запросу пользователя.

Коментарии: Чем сам запрос отличается от поискового образа запроса (ПОЗ)? Запрос формулируется и понимается человеком. Например: Меня интересуют документы в Интернете, утверждающие, что полеты американцев на Луну - мистификация. ПОЗ формулируется так, чтобы его "поняла" машина. Например, как набор ключевых слов: луна полёт мистификация американцы. ПОЗ может не полностью соответствовать запросу.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-02-16 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: