В В Е Д Е Н И Е
Потребности в системах, ориентированных на накопление и эффективную обработку неструктурированной или слабоструктурированной информации привели к возникновению еще в 1970-х годах отдельной ветви программного обеспечения систем управления базами данных, на основе которых создаются документальные информационные системы.
Однако теоретические исследования вопросов информационного поиска документов, начавшись еще в 1950-х – 1960-х годах, к сожалению, не получили такой строгой, полной и в то же время технически реализуемой модели представления и обработки данных, как реляционная модель в фактографических системах. Не получили также стандартизации и многочисленные попытки создания универсальных так называемых информационно-поисковых языков, предназначенных для формализованного описания смыслового содержания документов и запросов по ним.
В итоге, несмотря на то, что первые системы автоматизированного поиска документов появились еще в 1960-х годах, развитые коммерческие информационно-поисковые системы, ориентированные на накопление и обработку текстовых документов, получили распространение лишь в конце 1980-х – начале 1990-х годов.
В настоящее время информационно-поисковые системы получили широкое распространение в правовых электронных системах, библиотечных, Интернете и других системах.
Введение и главы 1, 2, 3, 4 написаны А.Т. Тяжевым, глава 5 - Т.Т. Осиповой, главы 6, 7, 8 - Р.Р. Фокиным, глава 9 и вопросы для самоконтроля - М.А. Абиссовой.
Глава 1. ВИДЫИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ. ОБЩАЯ ХАРАКТЕРИСТИКА
Информационно-поисковая система (ИПС) – информационная система (ИС) с единым хранилищем единичных элементов данных и с развитым инструментарием их поиска и отбора.
|
Комментарии: ИПС - это система для поиска информации.
Модули ИПС встроены почти во все современные программные средства.
ИПС в WINDOWS
Среди огромного количества файлов на каком-нибудь диске мы можем найти нужные нам файлы.
Пример:
попробуйте найти на диске d: файлы WORD (*.doc, *.rtf), которые содержат заявления, служебные записки, объяснительные, материалы по ИПС.
ИПС в WORD
В длинном тексте (реферат, курсовая, диплом, диссертация) можно найти нужное нам место в тексте, если мы помним какое-нибудь слово в этом месте. Можно все вхождения в текст одного слова заменить другим словом.
Пример:
найдите какой-нибудь файл WORD (*.doc, *.rtf) и в этом файле произведите замену каких-нибудь 10 слов их синонимами.
ИПС на CD-DVD ДИСКАХ
На лазерных дисках (CD, DVD) продаются многочисленные ИПС. Вы можете найти необходимые Вам адреса, телефоны, карты, товары, услуги и т.п.
Пример:
имеется лазерный диск и инструкция по установке соответствующих ИПС на компьютер. Среди них, например:
- Top Plan Санкт-Петербург
- Top Plan Ленинградская область
- Финансовый менеджмент
- К Вам пришли с проверкой
- Как устроиться на работу
- Лекарственные растения
- Выбор и секреты цифровых фотоаппаратов
- Выбор и секреты лыж и сноубордов
Давайте поставим эти ИПС на один из наших компьютеров.
ИПС в INTERNET
Наиболее мощные ИПС имеются в сети Интернет.
Поисковые машины Rambler (www.rambler.ru), Yandex (www.yandex.ru) и др. служат главным образом для поиска нужных сайтов. Эти ИПС интеллектуальны. Если мы просим найти сайты со словом "лётчик", то будут также найдены сайты со словом "пилот", причём во всех падежах.
|
Наиболее известные сайты (фирмы, библиотеки, история и др.) являются ИПС по поиску информации внутри данного сайта. Вот некоторые примеры:
www.sony.ru
www.canon.ru
www.samsung.ru
www.kodak.ru
www.lib.ru
www.nlr.ru
www.rasl.ru
www.price.ru
и др.
Рисунок 1.1. Классификация ИПС по виду единичных элементов данных
Пример:
Предположим нужно написать реферат. Тему выбираете сами. Это может быть выбор сотового телефона, автомобиля, ноутбука, фотоаппарата, какое-нибудь историческое событие и т.п. Реферат обязательно должен содержать аналитический обзор чего-нибудь. Вот пример: Нам нужен фотоаппарат. Для туристских походов. Следовательно, вес не более 500гр. Зум не менее 10. Найти 10-15 таких фотоаппаратов. Выбрать один. Аналитический обзор содержит подробное обоснование Вашего выбора.
По виду единичных элементов данных ИПС подразделяются на фактографические и документальные (Рисунок 1.1).
Фактографические ИПС – информационные системы, в которых единичным элементом данных, имеющим отдельное смысловое значение, является запись, образуемая конечной совокупностью полей-атрибутов.
Комментарии: фактографические ИПС ищут только внутри структурированного массива информации, например, в базе данных, состоящей из записей.
Например, в Access запись может состоять из следующих полей (Таблица 1.1).
Таблица 1.1. Запись Access
Табельный номер | Фамилия | Имя | Отчество | Год рождения | Оклад |
Иванов | Иван | Ионович |
Эксплуатация фактографических ИПС требует либо изначально структурированных данных (отчеты датчиков в АСУТП, финансовые массивы бухгалтерских ИС и т.д.), либо предварительной структуризации данных. Из этого вытекают недостатки фактографических ИС:
|
- зачастую структуризация данных требует больших накладных, в т.ч. и организационных расходов, приводящих к материальным издержкам информатизации,
- извлечение из текста данных по формализованным позициям для ввода в фактографические ИС может приводить к ошибкам и потере части информации, которая в исходных источниках имеется, но из-за отсутствия в базе данных соответствующих элементов в ней не может быть отражена.
В последнее время приоритет получили документальные ИПС.
Документальные ИПС – информационные системы, единичным элементом которых является неструктурированный на более мелкие элементы документ.
Комментарии: документальные ИПС ищут только внутри множества неструктурированных документов.
Обычно это текстовые документы в виде текстовых файлов, хотя к классу неструктурированных документированных данных могут также относится звуковые и графические файлы.
Основной задачей документальных ИС является накопление и предоставление пользователю документов, которые по содержанию, тематике, реквизитам и пр. соответствуют его информационным потребностям.
Информационная потребность – осознанное понимание различия индивидуального знания, определяемое разностью между субъективным восприятием предмета деятельности и уровнем знаний об этом предмете, накопленных обществом.
Коментарии: информационная потребность - это информация, которая необходима пользователю.
Пертинентностью называется соответствие найденных документов информационным потребностям пользователя.
Коментарии: найденная ИПС информация может не полностью соответствовать потребностям пользователя.
Особенности реализации хранилища документов и механизмов поиска
В зависимости от особенностей реализации хранилища документов и механизмов поиска документальные ИПС подразделяются на Системы на основе индексирования и Семантически-навигационные системы (Рисунок 1.2).
Рисунок 1.2. Виды документальных ИПС в зависимости от особенностей реализации хранилища документов и механизмов поиска
В семантически-навигационных системах документы, помещаемые в хранилище (базу) документов оснащаются специальными навигационнымиконструкциями, соответствующими смысловым связям (отсылкам) между различными документами или отдельными фрагментами одного документа. Такие конструкции реализуют некоторую семантическую (смысловую) сеть в базе документов. Поиск осуществляется путем явной навигации по смысловым отсылкам между документами. В настоящее время такой подход реализуется в гипертекстовых ИПС.
Комментарии: Типичный примеры этих ИПС - это www-страницы. Навигационные конструкции на них - это гиперссылки на другие веб-страницы. Связанные таким образом www-страницы образуют сеть. Эта сеть семантическая (смысловая) поскольку каждая гиперссылка организует связь в соответствии с некоторым смыслом. Например, на одной www-странице мы видим слово Кутузов, если мы по нему щелкаем, то появляется www-страница, посвященная Кутузову. Навигация - это хождение по www-страницам с целью поиска некоторой информации.
В системах на основе индексирования исходные документы помещаются в базу без дополнительного преобразования (за исключением возможного сжатия), но смысловое содержание каждого документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство или индексирование заключается в присвоении каждому документу некоторого индекса-координаты в поисковом пространстве.
Индексирование – описание содержания документа посредством формализованного информационного языка.
Поисковым образом документа (ПОД) называется формализованное описание индекса документа.
Поисковым образом запроса (ПОЗ) к базе документов называется выражение пользователем своих информационных потребностей средствами и языком поискового пространства.
Система на основе определенных критериев и способов ищет документы, ПОД которых соответствуют или близки ПОЗ, и выдает соответствующие документы.
Коментарии: Имеется большой массив информации - сами документы. Там трудно что-либо найти. Мы собираем индекс - малую информацию, для облегчения поиска. Это и есть индексирование. Примеры: Малая информация (индекс) - это карта местности. Большая информация - это сама местность. Малая информация (индекс) - это оглавление книги. Большая информация - это сама книга. Пусть имеется книга о художниках. По оглавлению просто найти на каких страницах информация, например, о Шишкине. В этом случае документы - это главы книги, поисковое пространство - это оглавление, поисковые образы документов (ПОД) - это пункты оглавления. Поисковый образ запроса (ПОЗ) - слово Шишкин, мы ищем пункт оглавления с этим словом.
Рисунок 1.3. Система на основе индексирования
Рамблер, Яндекс и другие ИПС в интернете с помощью специальных программ-роботов просматривавают время от времени весь Интернет и по каждому сайту (документу) собирают множество ключевых слов. Это и есть индексирование интернета. Поисковый образ документа (ПОД) - это ключевые слова и адрес соответствующего сайта. Внутри ИПС типа Рамблера, Яндекса и т.п. хранится множество этих ПОД - это и есть поисковое пространство. Пользователь обычно пишет несколько ключевых слов - этои есть поисковый образ запроса (ПОЗ). Далее в поисковом пространстве ищутся ПОД, соответствующие ПОЗ, полностью или частично. Степень этого соответствия и есть релевантность. Обычно Рамблер, Яндекс и другие ИПС в интернете выдают несколько ссылок на сайты по убыванию релевантности.
Релевантностью называется соответствие найденных документов запросу пользователя.
Коментарии: Чем сам запрос отличается от поискового образа запроса (ПОЗ)? Запрос формулируется и понимается человеком. Например: Меня интересуют документы в Интернете, утверждающие, что полеты американцев на Луну - мистификация. ПОЗ формулируется так, чтобы его "поняла" машина. Например, как набор ключевых слов: луна полёт мистификация американцы. ПОЗ может не полностью соответствовать запросу.