Глава 6. ПОЛЬЗОВАТЕЛЬСКИЕ СВОЙСТВА ИПС




Предметное индексирование

ИПС использует предметный указатель, позволяющий отыскивать доку-менты, касающиеся некоего "предмета". Для составления предметного ука-зателя анализируется содержание документа и определяется "предмет", о котором в нем идет речь. Затем названия этих предметов описываются ИПЯ. Типовая схема ИПС с предметным индексированием представлена ниже (Рисунок 6.1).

 
 

 

 


Рисунок 6.1. Типовая схема ИПС с предметным индексированием

В состав ИПЯ входят:

1) Словарь индексационных терминов – множество терминов индексирования.

2) Кодовый словарь – множество кодовых терминов.

3) Словарь входов – множество входных терминов.

4) Вспомогательные средства языка индексирования – средства, используемые совместно с индексационными терминами для расширения или сужения определенных понятий.

5) Правила использования языка индексирования.

Для повышения эффективности поиска, чтобы полнота и точность поиска была оптимальной, используемый системой словарь должен быть контроли-руемым. Для улучшения результатов поиска необходимо определить степень специфичности терминов, используемых при индексации. Существует два под-хода – использование наиболее специфичного термина, соответствующего объему и содержанию отражаемого понятия, и избыточное индексирование.

Избыточное индексирование – дополнение поискового образа терми-нами, связанными с основным.

При этом могут использоваться термины, связанные как с основным отношением обобщения или спецификации, так и ассоциативной связью, увеличивающей полноту поиска.

Недостатки избыточного индексирования:

- дополнение поискового образа терминами с ассоциативной связью неизбе-жно понижает точность поиска;

- увеличивается объем поисковых образов.

Для устранения второго недостатка во многих ИПС используется избыточное индексирование запросов, а не документов.

Стратегия поиска

Точность и полнота поиска зависят не только от характеристик самой ИПС, но и от качества запроса. Для составления качественного запроса требуются обширные знания предметной области и используемой ИПС, чем обыкновенный пользователь, как правило, не обладает.

Довольно простой способ повысить релевантность выдаваемых ИПС документов – использование в запросе логических операторов AND, OR, NOT, но он имеет и свои недостатки. Главный из них – плохая масштабируемость, так применение оператора AND может сильно сузить выдачу, а оператора OR – сильно расширить.

Степень точности и полноты поиска зависит также и от того, насколько общие термины применялись при формировании запроса. При использовании слишком общих терминов возрастает уровень информационного шума, а очень специфичных терминов – снижается полнота поиска, если такие термины вообще присутствуют в словаре ИПС.

Процедура поиска является итеративной с коррекцией запроса. Схематично она представлена ниже (Рисунок 6.2).

 
 

 


Рисунок 6.2. Процедура поиска

Коррекция запроса происходит в зависимости от количества полученных документов и их релевантности. Она может производится как самой ИПС, так и пользователем. Применяются следующие способы коррекции:

- В зависимости от соотношения полноты и точности найденных документов пользователь может сузить или расширить область поиска, перейдя к более специфичным или, наоборот, общим терминам, а также используя родственные понятия. Такая коррекция происходит достаточно плавно, в случае поиска по нескольким терминам.

- Если пользователь знает определенно релевантные документы, то не найдя их в списке, он должен расширить область поиска.

- Пользователь помечает определенные документы из выданных как наиболее точно отвечающие его потребностям, и на основании их анализа системой информационного поиска происходит коррекция запроса. В этом случае ИПС помимо терминов, заданных в первоначальном запросе, ищет и термины, встречающиеся в помеченных документах.

Интерфейс ИПС

Вид представления информации в системе во многом определяет эффективность поиска. По форме диалога, способу задания условия отбора и механизму поиска имеющиеся программные средства можно разделить на два класса (Рисунок 6.3).

 

 
 

 

 


Рисунок 6.3. Интерфейс ИПС

Системы рубрикационного типа реализуются интерфейсом в виде иерархических последовательно раскрывающихся списков, обеспечивающих доступ к тематически связанным группам документов. Раскрывая очередную рубрику и перемещаясь, таким образом, по тематической иерархии, пользователь уточняет предметную область и увеличивает степень точности соответствия выдаваемых документов его информационным потребностям. При таком подходе предопределенность соотнесения документов с определенными рубриками компенсируется логичностью естественнонаучной классификационной схемы, заменяющей пользователю путеводитель.

Структурно-логические методы формирования запроса обычно используются для работы с базами данных структурированной информации, когда каждый документ состоит из многих информационных полей, возможно, разного типа. Критерий отбора в этом случае строится как логическая комбинация простых слов (имен собственных или имен понятий, определяющих предмет поиска), и проверяется присутствие или отсутствие их в документе.

При составлении запроса используют либо командную строку, либо меню, позволяющее ввести список терминов, обычно разделяемых пробелом, и выбрать тип логической связи между ними. Логическая связь распространяется на все термины.

Многие ИПС позволяют сохранять запросы пользователей. В большинстве систем это просто фраза на ИПЯ, которую можно расширить за счет добавления новых терминов и логических операторов. Но это только один способ использования сохраненных запросов, называемый расширением или уточнением запросов. Для выполнения этой операции традиционная информационно-поис-ковая система хранит не запрос как таковой, а результат поиска – список идентификаторов документов, который объединяется или пересекается со списком, полученным при поиске документов по новым терминам.

ИПС глобальных сетей

ИПС глобальной сети имеет отличия, обусловленные как характером сети, так и особенностями работы пользователей такой системы. Рассмотрим основные особенности использования ИПС на примере сети Интернет, которая схематично выглядит (Рисунок 6.4).

На отладку запроса уходит достаточно много времени, и поэтому очень важно запоминать запросы, на которые система дает хорошие ответы.

Источником информации о состоянии информационных ресурсов сети является робот-индексировщик. Это программа, заходящая по определенному алгоритму на различные страницы, читающая их и индексирующая.

Основные принципы индексирования:

- наибольший вес присваивается тем терминам, которые наиболее часто встречаются в данном документе и наиболее редко во всех остальных проиндексированных документах;

- термины, используемые в очень большом количестве документов, при индексировании не используются вовсе;

- используется разметка индексируемой страницы – наибольший вес присваивается терминам, стоящим в заголовках;

- при индексировании в первую очередь используются термины из описания ресурса, представленного автором.

 
 

 


Рисунок 6.4. ИПС глобальной сети

Однако, многие ИПС отказались от представленных автором описаний по причине их недобросовестности: некоторые авторы использовали для описания своих страниц термины, наиболее часто встречающиеся в запросах.

Поскольку на запрос могут быть выданы ссылки на сотни ресурсов, то список сортируется, обычно по релевантности. Сортировка происходит по тем же принципам, что и отбор терминов, применяющихся при индексировании (Таблица 6.1).

Таблица 6.1. Проблемы и ограничения индексирования

Проблемы и ограничения
  Индекс поисковых систем Интернета обновляется с периодичностью около недели. Следовательно, в индекс поисковой системы не могут попасть материалы изданий, выходящих чаще, например, ежедневных газет.
  Роботу легче всего работать с файлами HTML. Если же информация хранится в другом формате и адрес выдаваемой пользователю страницы содержит параметры, которые робот не знает, то он эти данные не сможет проиндексировать.
  Объем информации, опубликованной в Интернете, приводит к огра-ничению количества терминов, которыми индексируется документ. Сов-ременные ИПС в Интернете используют порядка 100 терминов для индексации документа.
  Произвести точный поиск тем сложнее, чем шире круг потребностей пользователей системы. В глобальной сети эта проблема приобретает глобальный характер.
  Постоянно увеличивающийся объем опубликованной в Интернете инфо-рмации влечет за собой все время растущий уровень шума в результатах, выдаваемых на запрос.
  Поиск сильно усложняет непрофессионализм как пользователя, форму-лирующего запрос, так и автора информационного ресурса, причем непрофессионализм автора сказывается заметнее.

 

Для уменьшения уровня информационного шума может использоваться платная регистрация ресурса, подразумевающая, что автор ответственно относится к его содержанию. Существует, например, система платной регистрации RealNames. База данных этой службы используется некоторыми поисковыми системами. Ресурсы, зарегистрированные в базе RealNames, будут помещаться в начале списка найденных документов.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-02-16 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: