Предметное индексирование
ИПС использует предметный указатель, позволяющий отыскивать доку-менты, касающиеся некоего "предмета". Для составления предметного ука-зателя анализируется содержание документа и определяется "предмет", о котором в нем идет речь. Затем названия этих предметов описываются ИПЯ. Типовая схема ИПС с предметным индексированием представлена ниже (Рисунок 6.1).
Рисунок 6.1. Типовая схема ИПС с предметным индексированием
В состав ИПЯ входят:
1) Словарь индексационных терминов – множество терминов индексирования.
2) Кодовый словарь – множество кодовых терминов.
3) Словарь входов – множество входных терминов.
4) Вспомогательные средства языка индексирования – средства, используемые совместно с индексационными терминами для расширения или сужения определенных понятий.
5) Правила использования языка индексирования.
Для повышения эффективности поиска, чтобы полнота и точность поиска была оптимальной, используемый системой словарь должен быть контроли-руемым. Для улучшения результатов поиска необходимо определить степень специфичности терминов, используемых при индексации. Существует два под-хода – использование наиболее специфичного термина, соответствующего объему и содержанию отражаемого понятия, и избыточное индексирование.
Избыточное индексирование – дополнение поискового образа терми-нами, связанными с основным.
При этом могут использоваться термины, связанные как с основным отношением обобщения или спецификации, так и ассоциативной связью, увеличивающей полноту поиска.
Недостатки избыточного индексирования:
- дополнение поискового образа терминами с ассоциативной связью неизбе-жно понижает точность поиска;
|
- увеличивается объем поисковых образов.
Для устранения второго недостатка во многих ИПС используется избыточное индексирование запросов, а не документов.
Стратегия поиска
Точность и полнота поиска зависят не только от характеристик самой ИПС, но и от качества запроса. Для составления качественного запроса требуются обширные знания предметной области и используемой ИПС, чем обыкновенный пользователь, как правило, не обладает.
Довольно простой способ повысить релевантность выдаваемых ИПС документов – использование в запросе логических операторов AND, OR, NOT, но он имеет и свои недостатки. Главный из них – плохая масштабируемость, так применение оператора AND может сильно сузить выдачу, а оператора OR – сильно расширить.
Степень точности и полноты поиска зависит также и от того, насколько общие термины применялись при формировании запроса. При использовании слишком общих терминов возрастает уровень информационного шума, а очень специфичных терминов – снижается полнота поиска, если такие термины вообще присутствуют в словаре ИПС.
Процедура поиска является итеративной с коррекцией запроса. Схематично она представлена ниже (Рисунок 6.2).
Рисунок 6.2. Процедура поиска
Коррекция запроса происходит в зависимости от количества полученных документов и их релевантности. Она может производится как самой ИПС, так и пользователем. Применяются следующие способы коррекции:
- В зависимости от соотношения полноты и точности найденных документов пользователь может сузить или расширить область поиска, перейдя к более специфичным или, наоборот, общим терминам, а также используя родственные понятия. Такая коррекция происходит достаточно плавно, в случае поиска по нескольким терминам.
|
- Если пользователь знает определенно релевантные документы, то не найдя их в списке, он должен расширить область поиска.
- Пользователь помечает определенные документы из выданных как наиболее точно отвечающие его потребностям, и на основании их анализа системой информационного поиска происходит коррекция запроса. В этом случае ИПС помимо терминов, заданных в первоначальном запросе, ищет и термины, встречающиеся в помеченных документах.
Интерфейс ИПС
Вид представления информации в системе во многом определяет эффективность поиска. По форме диалога, способу задания условия отбора и механизму поиска имеющиеся программные средства можно разделить на два класса (Рисунок 6.3).
Рисунок 6.3. Интерфейс ИПС
Системы рубрикационного типа реализуются интерфейсом в виде иерархических последовательно раскрывающихся списков, обеспечивающих доступ к тематически связанным группам документов. Раскрывая очередную рубрику и перемещаясь, таким образом, по тематической иерархии, пользователь уточняет предметную область и увеличивает степень точности соответствия выдаваемых документов его информационным потребностям. При таком подходе предопределенность соотнесения документов с определенными рубриками компенсируется логичностью естественнонаучной классификационной схемы, заменяющей пользователю путеводитель.
|
Структурно-логические методы формирования запроса обычно используются для работы с базами данных структурированной информации, когда каждый документ состоит из многих информационных полей, возможно, разного типа. Критерий отбора в этом случае строится как логическая комбинация простых слов (имен собственных или имен понятий, определяющих предмет поиска), и проверяется присутствие или отсутствие их в документе.
При составлении запроса используют либо командную строку, либо меню, позволяющее ввести список терминов, обычно разделяемых пробелом, и выбрать тип логической связи между ними. Логическая связь распространяется на все термины.
Многие ИПС позволяют сохранять запросы пользователей. В большинстве систем это просто фраза на ИПЯ, которую можно расширить за счет добавления новых терминов и логических операторов. Но это только один способ использования сохраненных запросов, называемый расширением или уточнением запросов. Для выполнения этой операции традиционная информационно-поис-ковая система хранит не запрос как таковой, а результат поиска – список идентификаторов документов, который объединяется или пересекается со списком, полученным при поиске документов по новым терминам.
ИПС глобальных сетей
ИПС глобальной сети имеет отличия, обусловленные как характером сети, так и особенностями работы пользователей такой системы. Рассмотрим основные особенности использования ИПС на примере сети Интернет, которая схематично выглядит (Рисунок 6.4).
На отладку запроса уходит достаточно много времени, и поэтому очень важно запоминать запросы, на которые система дает хорошие ответы.
Источником информации о состоянии информационных ресурсов сети является робот-индексировщик. Это программа, заходящая по определенному алгоритму на различные страницы, читающая их и индексирующая.
Основные принципы индексирования:
- наибольший вес присваивается тем терминам, которые наиболее часто встречаются в данном документе и наиболее редко во всех остальных проиндексированных документах;
- термины, используемые в очень большом количестве документов, при индексировании не используются вовсе;
- используется разметка индексируемой страницы – наибольший вес присваивается терминам, стоящим в заголовках;
- при индексировании в первую очередь используются термины из описания ресурса, представленного автором.
Рисунок 6.4. ИПС глобальной сети
Однако, многие ИПС отказались от представленных автором описаний по причине их недобросовестности: некоторые авторы использовали для описания своих страниц термины, наиболее часто встречающиеся в запросах.
Поскольку на запрос могут быть выданы ссылки на сотни ресурсов, то список сортируется, обычно по релевантности. Сортировка происходит по тем же принципам, что и отбор терминов, применяющихся при индексировании (Таблица 6.1).
Таблица 6.1. Проблемы и ограничения индексирования
№ | Проблемы и ограничения |
Индекс поисковых систем Интернета обновляется с периодичностью около недели. Следовательно, в индекс поисковой системы не могут попасть материалы изданий, выходящих чаще, например, ежедневных газет. | |
Роботу легче всего работать с файлами HTML. Если же информация хранится в другом формате и адрес выдаваемой пользователю страницы содержит параметры, которые робот не знает, то он эти данные не сможет проиндексировать. | |
Объем информации, опубликованной в Интернете, приводит к огра-ничению количества терминов, которыми индексируется документ. Сов-ременные ИПС в Интернете используют порядка 100 терминов для индексации документа. | |
Произвести точный поиск тем сложнее, чем шире круг потребностей пользователей системы. В глобальной сети эта проблема приобретает глобальный характер. | |
Постоянно увеличивающийся объем опубликованной в Интернете инфо-рмации влечет за собой все время растущий уровень шума в результатах, выдаваемых на запрос. | |
Поиск сильно усложняет непрофессионализм как пользователя, форму-лирующего запрос, так и автора информационного ресурса, причем непрофессионализм автора сказывается заметнее. |
Для уменьшения уровня информационного шума может использоваться платная регистрация ресурса, подразумевающая, что автор ответственно относится к его содержанию. Существует, например, система платной регистрации RealNames. База данных этой службы используется некоторыми поисковыми системами. Ресурсы, зарегистрированные в базе RealNames, будут помещаться в начале списка найденных документов.