Информационно-поисковый тезаурус: определение, цель разработки




Тезаурус – термин, широко используемый в информатике как составная часть информационно-поисковых систем.

Можно выделить два определения информационно-поискового тезауруса:

1. Информационно-поисковый тезаурус представляет собой словарь, отображающий семантические отношения между лексическими единицами дескрипторного информационно-поискового языка (дескрипторами) и предназначенный для поиска слов по их смысловому содержанию.

2. Информационно-поисковый тезаурус (ИПТ) – контролируемый словарь терминов предметной области, создаваемый для улучшения качества информационного поиска в данной предметной области.

И в том, и в другом случае речь идет о словаре, который призван облегчить поиск необходимой информации.

Возможно два способа расположения слов в словарях: по близости их буквенного состава и по смысловой близости.

По первому способу создаются алфавитные словари. По второму способу - тезаурусы. Алфавитные словари служат для раскрытия значения данного слова. Тезаурусы служат для поиска слов для выражения данного понятия. Т.е., если в обычном словаре по слову ищется его смысл, то в тезаурусе по заданному смыслу ищутся слова, которые этот смысл выражают.

Цели разработки ИПТ:

- перевод языка авторов на контролируемый язык, используемый для индексации и поиска;

- обеспечение последовательности в присваивании индексных терминов;

- обозначение отношений между терминами;

- облегчение информационного поиска.

 

Использование информационно-поисковых тезаурусов

 

Тезаурусы используют в своей работе специалисты, в той или иной степени связанные с подготовкой и обработкой текстовой информации: переводчики, редакторы, научные работники, референты и др.

Информационно-поисковые тезаурусы используются при индексировании документов и запросов.

Различают безтезаурусное индексирование и индексирование с тезаурусным контролем лексики.

При безтезаурусном индексировании поисковый образ документа представляется в виде списка ключевых слов, выбранных непосредственно из текста документа. Такое индексирование требует меньше времени и менее трудоемко. Однако такой режим индексирования обладает рядом недостатков: возможна синонимия; нельзя отразить парадигматические отношения.

При индексировании с тезаурусным контролем лексики для выражения содержания документа и запроса используют только дескрипторы, входящие в информационно-поисковый тезаурус, что позволяет исключить синонимию и учесть парадигматические связи, и, в конечном счете, повышает эффективность поиска.

Таким образом, информационно-поисковые тезаурусы используются для:

- перевода текста с ЕЯ на дескрипторный ИПЯ путем замены ключевых слов соответствующими дескрипторами, при этом исключается многозначность;

- отображения парадигматических связей между дескрипторами.

 

Структура информационно-поискового тезауруса

 

Тезаурус имеет вид словаря, в котором в определенном порядке расположены термины и зафиксированы связи между ними.

Как правило, тезаурус состоит из введения, алфавитного указателя (словарная часть) и систематического указателя.

Введение содержит общие характеристики тезауруса - область применения, правила использования, число дескрипторов, ключевых слов и другую справочную информацию.

Алфавитный указатель включает алфавитный перечень дескрипторных статей.

Дескрипторная статья может иметь следующую структуру:

- заглавный дескриптор;

- ключевые слова из класса эквивалентности;

- дескрипторы, подчиняющие заглавный;

- дескрипторы, подчиненные заглавному;

- дескрипторы, ассоциированные с заглавным.

Ассоциации могут быть следующих видов: причина - следствие; сырье - продукт; процесс - объект; процесс - субъект; свойство - носитель свойства; функциональное сходство и др.

Систематический указатель служит для раскрытия, учета и контроля парадигматических отношений между дескрипторами. Для каждого дескриптора ИПЯ должны быть найдены соответствующие родовые и видовые дескрипторы. Причем предварительно необходимо сформулировать критерии, определяющие число уровней иерархии. Определение степени отображения парадигматических отношений зависит от требований, предъявляемых к системе. Чем шире эти отношения отображены, тем выше полнота выдачи, но одновременно происходит увеличение словарного запаса, усложняется система ссылок и может произойти уменьшение точности поиска.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2020-03-31 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: