Информационно-поисковые тезаурусы




Большую роль в развитии информационно-поисковых систем сыграла система унитермов, согласно которой содержание документа индексируется совокупностью терминов в виде однословных обозначенийунитермов, в качестве которых чаще всего выступают элементы словаря ключевых терминов по определенной предметной области.

Пример. Документ по теории информационного поиска может быть проиндексирован унитермами – "Информационный" и "Поиск".

Комментарии: Дело в том, что "Информационный Поиск" - это два слова, следовательно, не унитерм. Индексирование документов - это фактически выборка из них самой сути. Можно выбирать ключевые слова - это унитермы. Можно выбирать ключевые предложения - это не унитермы.

Недостатки системы унитермов, приводящие к неоднозначности индексирования документов:

- ложная координация, заключающаяся в том, что определенные понятия присутствуют в документе, но комбинируются по смыслу с другими понятиями (например, документ об информационном обеспечении поисковых бригад при ликвидации чрезвычайных ситуаций содержит и унитермы "Информационный" и "Поиск", а следовательно неправильно может быть выдан на запрос по теории информационного поиска, поиск людей в шахте - это не информационный поиск;

- проблема синонимичности и омонимичности, заключающаяся в наличии в текстах синонимов (одинаковых или близких по смыслу слов) и омонимов (одинаковых в написании и звучании слов, но имеющих разный смысл – рукав одежды, рукав реки).

 

 

 


Рисунок 3.1. Структура тезауруса

Для преодоления этих недостатков в чисто дескрипторную систему унитермов (без связи между ключевыми словами) ввели составные термины, указатели связи и ролей терминов, внося тем самым элементы семантики. Это привело к созданию информационно-поисковых тезаурусов. А Тезаурус - это словарь ключевых терминов по некоторой тематике с указанием связей между этими терминами.

Тезаурус (с греч. "хранилище", "запас", "сокровищница") в узком смысле представляет собой специальный словарь-справочник, в котором перечислены ключевые слова-дескрипторы определенной предметной области, установлены способы устранения синонимии, омонимии, полисемии, определены родо-видовые и ассоциативные связи (Рисунок 3.1). Всё это именно за счет указанных в тезаурусе связей.

В отличии от информационно-поисковых каталогов (там используются библиотечные шифры, например, Р127-45/К117) в тезаурусах помимо классификационной схемы (за счет указанных в тезаурусе связей) присутствуют сами дескрипторы - ключевые слова.

Главная идея информационно-поисковых тезаурусов заключается в повышении эффективности и автоматизации индексирования в рамках дескрипторного подхода. Т.е. поисковый образ документа задан набором дескрипторов, но при его индексировании учитываются семантические отношения между дескрипторами.

Комментарии: дескрипторы (в переводе с английского - описатели) описывают как то, что мы ищем, так и то, где мы это ищем. Это ключевые слова. Мы ищем нужные нам ключевые слова среди множества ключевых слов из книг. Но в тезаурусе указаны также и связи между словами. Отсюда учет также и семантики при поиске.

Достоинства тезаурусов:

- обеспечивают более адекватный содержанию поисковый образ документа;

- повышают эффективность поиска документов по точности, полноте и шуму.

Пример. Согласно ГОСТ 18383-73 форма представления тезауруса включает алфавитное перечисление статей по каждому дескриптору (термину) в следующем виде:

РЕФЕРАТ

с резюме

в СВЕРТЫВАНИЕ ИНФОРМАЦИИ

н РЕФЕРАТ АВТОРСКИЙ

РЕФЕРАТ ГРАФИЧЕСКИЙ

РЕФЕРАТ ИНФОРМАТИВНЫЙ

РЕФЕРАТ "ТЕЛЕГРАФНОГО СТИЛЯ"

РЕФЕРАТ УКАЗАТЕЛЬНЫЙ

РЕФЕРИРОВАНИЕ

а АННОТАЦИЯ

...

где в качестве буквенных обозначений выступают следующие:

с – термины-синонимы,

в – термины, подчиняющие заглавный термин, т.е. выше по иерархии,

н – термины, подчиненные заглавному термину, т.е. ниже по иерархии,

а – термины, ассоциированные с заглавным термином.

 

 
 


 

Рисунок 3.2. Базовые и рабочие тезаурусы

В этом примере наглядно показаны правила описания согласно ГОСТ одного термина - термина РЕФЕРАТ внутри тезауруса. Это одна статья тезауруса, посвященная термину РЕФЕРАТ. Тезаурус состоит из статей, посвященных различным терминам. Возьмем, например, термин ЛЕТЧИК. Вот пример статьи тезауруса, посвященной этому термину:

ЛЁТЧИК

с ПИЛОТ

в АВИАЦИОННЫЙ СПЕЦИАЛИСТ

н ЛЁТЧИК-ИСТРЕБИТЕЛЬ

ЛЁТЧИК-РАЗВЕДЧИК

ЛЁТЧИК-СПОРТСМЕН

а САМОЛЁТ

ВЕРТОЛЁТ

Все эти термины также должны присутствовать в тезаурусе как заглавные. Таким образом в тезаурусе и описывают взаимосвязи между терминами.

Особенностью тезаурусов является применяемая на практике возможность расширения словарной базы новыми ключевыми словами, появляющимися при накоплении документов в ходе эксплуатации ИПС, что порождает специфический компонент – ведение тезауруса. Поскольку машина изначально не может понимать смысл вновь появившихся терминов, поэтому работу по ведению тезауруса выполняют люди.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-02-16 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: