Большую роль в развитии информационно-поисковых систем сыграла система унитермов, согласно которой содержание документа индексируется совокупностью терминов в виде однословных обозначений – унитермов, в качестве которых чаще всего выступают элементы словаря ключевых терминов по определенной предметной области.
Пример. Документ по теории информационного поиска может быть проиндексирован унитермами – "Информационный" и "Поиск".
Комментарии: Дело в том, что "Информационный Поиск" - это два слова, следовательно, не унитерм. Индексирование документов - это фактически выборка из них самой сути. Можно выбирать ключевые слова - это унитермы. Можно выбирать ключевые предложения - это не унитермы.
Недостатки системы унитермов, приводящие к неоднозначности индексирования документов:
- ложная координация, заключающаяся в том, что определенные понятия присутствуют в документе, но комбинируются по смыслу с другими понятиями (например, документ об информационном обеспечении поисковых бригад при ликвидации чрезвычайных ситуаций содержит и унитермы "Информационный" и "Поиск", а следовательно неправильно может быть выдан на запрос по теории информационного поиска, поиск людей в шахте - это не информационный поиск;
- проблема синонимичности и омонимичности, заключающаяся в наличии в текстах синонимов (одинаковых или близких по смыслу слов) и омонимов (одинаковых в написании и звучании слов, но имеющих разный смысл – рукав одежды, рукав реки).
Рисунок 3.1. Структура тезауруса
Для преодоления этих недостатков в чисто дескрипторную систему унитермов (без связи между ключевыми словами) ввели составные термины, указатели связи и ролей терминов, внося тем самым элементы семантики. Это привело к созданию информационно-поисковых тезаурусов. А Тезаурус - это словарь ключевых терминов по некоторой тематике с указанием связей между этими терминами.
|
Тезаурус (с греч. "хранилище", "запас", "сокровищница") в узком смысле представляет собой специальный словарь-справочник, в котором перечислены ключевые слова-дескрипторы определенной предметной области, установлены способы устранения синонимии, омонимии, полисемии, определены родо-видовые и ассоциативные связи (Рисунок 3.1). Всё это именно за счет указанных в тезаурусе связей.
В отличии от информационно-поисковых каталогов (там используются библиотечные шифры, например, Р127-45/К117) в тезаурусах помимо классификационной схемы (за счет указанных в тезаурусе связей) присутствуют сами дескрипторы - ключевые слова.
Главная идея информационно-поисковых тезаурусов заключается в повышении эффективности и автоматизации индексирования в рамках дескрипторного подхода. Т.е. поисковый образ документа задан набором дескрипторов, но при его индексировании учитываются семантические отношения между дескрипторами.
Комментарии: дескрипторы (в переводе с английского - описатели) описывают как то, что мы ищем, так и то, где мы это ищем. Это ключевые слова. Мы ищем нужные нам ключевые слова среди множества ключевых слов из книг. Но в тезаурусе указаны также и связи между словами. Отсюда учет также и семантики при поиске.
Достоинства тезаурусов:
- обеспечивают более адекватный содержанию поисковый образ документа;
|
- повышают эффективность поиска документов по точности, полноте и шуму.
Пример. Согласно ГОСТ 18383-73 форма представления тезауруса включает алфавитное перечисление статей по каждому дескриптору (термину) в следующем виде:
РЕФЕРАТ
с резюме
в СВЕРТЫВАНИЕ ИНФОРМАЦИИ
н РЕФЕРАТ АВТОРСКИЙ
РЕФЕРАТ ГРАФИЧЕСКИЙ
РЕФЕРАТ ИНФОРМАТИВНЫЙ
РЕФЕРАТ "ТЕЛЕГРАФНОГО СТИЛЯ"
РЕФЕРАТ УКАЗАТЕЛЬНЫЙ
РЕФЕРИРОВАНИЕ
а АННОТАЦИЯ
...
где в качестве буквенных обозначений выступают следующие:
с – термины-синонимы,
в – термины, подчиняющие заглавный термин, т.е. выше по иерархии,
н – термины, подчиненные заглавному термину, т.е. ниже по иерархии,
а – термины, ассоциированные с заглавным термином.
Рисунок 3.2. Базовые и рабочие тезаурусы
В этом примере наглядно показаны правила описания согласно ГОСТ одного термина - термина РЕФЕРАТ внутри тезауруса. Это одна статья тезауруса, посвященная термину РЕФЕРАТ. Тезаурус состоит из статей, посвященных различным терминам. Возьмем, например, термин ЛЕТЧИК. Вот пример статьи тезауруса, посвященной этому термину:
ЛЁТЧИК
с ПИЛОТ
в АВИАЦИОННЫЙ СПЕЦИАЛИСТ
н ЛЁТЧИК-ИСТРЕБИТЕЛЬ
ЛЁТЧИК-РАЗВЕДЧИК
ЛЁТЧИК-СПОРТСМЕН
а САМОЛЁТ
ВЕРТОЛЁТ
Все эти термины также должны присутствовать в тезаурусе как заглавные. Таким образом в тезаурусе и описывают взаимосвязи между терминами.
Особенностью тезаурусов является применяемая на практике возможность расширения словарной базы новыми ключевыми словами, появляющимися при накоплении документов в ходе эксплуатации ИПС, что порождает специфический компонент – ведение тезауруса. Поскольку машина изначально не может понимать смысл вновь появившихся терминов, поэтому работу по ведению тезауруса выполняют люди.