Поисковая составляющая ИПЯ




Она реализуется в ИПЯ дескрипторными и семантическими языками запросов.

В дескрипторных языках документы и запросы представляются наборами лексических единиц (слов, словосочетаний, терминов) – дескрипторов, не имеющих между собой связей (не имеющих грамматики).

Каждый документ или запрос представлен набором дескрипторов. Поиск осуществляется путем определения документов с подходящим набором дескрипторов. В качестве дескрипторов выступают либо элементы словаря ключевых слов, либо элементы генерального указателя (глобального словаря всех словоформ). Набор дескрипторов для конкретного документа или запроса выражает, соответственно, поисковый образ документа – ПОД или поисковый запрос документа – ПОЗ. Из-за отсутствия связей между дескрипторами такие языки применяются, прежде всего, в полнотекстовых системах.

Комментарии: При использовании дескрипторного языка запросов ПОЗ - это набор ключевых слов, связи между ними не рассматриваются (танк, орудие, снаряд, броня).

В семантических языках связи между ключевыми словами принимаются во внимание.

Семантические языки содержат грамматические и семантические конструкции для выражения (описания) смыслового содержания документов и запросов. Все многообразие семантических языков подразделяется на 2 больших группы:

- предикатные языки;

- реляционные языки.

В предикатных языках в качестве элементарной осмысленной конструкции высказывания выступает предикат, представляющий собой многоместное отношение некоторой совокупности грамматических элементов. Многоместность отношений означает, что каждый элемент предиката играет определенную роль для группы лексических элементов в целом, но не имеет конкретных отношений с каждым элементом этой группы в отдельности. Аналогом предикатного высказывания в естественном языке выступает предложение, констатирующее определенный факт или описывающее определенное событие.

Комментарии: Предикат - это логическая функция с одним или несколькими аргументами. Функция и аргументы могут принимать значения ИСТИНА (TRUE), ЛОЖЬ (FALSE). Такие функции записываются обычно с использованием значков И (AND), ИЛИ (OR), НЕ (NOT). Пример: X and not Y - логическакя функция с двумя аргументами X, Y. (Корабль утонул) and not (Пассажиры погибли) - означает, что нам нужны только такие документы, где говорится, что какой-то корабль утонул и при этом пассажиры не погибли. Т.е. ищется документ не просто с набором слов, а с определённым смыслом (семантикой).

В реляционных языках лексические единицы высказываний могут вступать лишь в бинарные (друг с другом) отношения.

Комментарии: В реляционных языках запросы состоят только из бинарных отношений. Пример: (берёза красивая) (берёза растёт) - запрос состоит из двух бинарных отношений, поскольку отношение (растёт красивая берёза) трёхместное, а не бинарное.

В качестве лексических единиц семантических языков выступают функциональные классы естественного языка, важнейшие из них даны ниже (Таблица 1.2.).

Семантические языки составляют языково-манипуляционную основу информационно-поисковых каталогов, тезаурусов, и семантически-навигацион-ных (гипертекстовых) ИПС, описывая своими средствами собственно сами каталоги, тезаурусы, семантические сети и выражая смысловое содержание документов и запросов.

Таблица 1.2. Функциональные классы естественного языка

Классы Комментарий
Понятия-классы Общее определение совокупности однородных элементов реального мира, обладающих некоторым набором характерных свойств, позволяющих одни понятия-классы отделять от других.
Понятия-действия Лексический элемент, выражающий динамику реального мира, содержит универсальный набор признаком, включающий субъект действия, объект действия, время действия, место действия, инструмент действия, цель и т.д.
Понятия-состояния Лексические элементы, фиксирующие состояние объектов
Имена Лексические элементы, идентифицирующие понятия-классы
Отношения Лексические элементы, служащие для установления связей на множестве понятий и имен
Квантифи-каторы Всеобщности, существования и т.д.

 

Комментарии: В семантических языках машина должна "понять" смысл запроса. Чтобы автоматизировать этот процесс, слова, из которых состоит запрос, разбивают на следующие классы понятий, указанные в приведённой выше таблице.

Пример:

Понятия-классы (танк, самолёт)

Понятия-действия (передвигаться, стрелять, лететь)

Понятия-состояния (работоспособен, ремонтопригоден, неремонтопригоден)

Имена (Т-34, Тигр, Пантера, Як-3, Мессершмидт-109)

Отношения (больше или меньше - защищенность, вооруженность, подвижность)

Квантификаторы (все - всеобщность, некоторые - существование)

А) Все танки Т-34 более подвижны, чем все танки Тигр

Б) Некоторые танки Т-34 вооружены лучше, чем все танки Пантера.

А) Любой танк Т-34 более подвижен, чем любой танк Тигр

Б) Существуют такие танки Т-34, что любой танк Пантера вооружен хуже.

Запросы:

1) мне нужны документы, где утверждается А)

2) мне нужны документы, где утверждается Б)



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-02-16 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: