Модель организации данных в гипертекстовых ИПС




Среди формальных моделей гипертекстовых структур можно выделить следующие (Рисунок 5.4).

 
 

 

 


Рисунок 5.4. Формальные модели гипертекстовых структур

В теории паттернов текст рассматривается как сложно организованная совокупность отдельных тем, выражаемых фрагментом текста с минимальным размером в виде одной строки. Для описания гипертекста вводятся специальные объекты – кнопки (аналоги гиперссылок), а также связи с идентификаторами и дополнительными параметрами (тип, направленность и т.д.). Размеченный гипертекст описывается теми или иными паттерновыми конфигурациями. Но теория паттернов не имеет средств синтеза обычного текста в гипертекст.

Тензорный подход основывается на идеологии фасетной классификации, позволяющей формализовано описывать смысловую структуру текста в виде тензора, а гипертекстовую структуру – в виде ансамбля тензоров. Достоинство: возможность создания формализованных процедур анализа исходных текстов для создания гипертекстовых структур.

Логико-смысловое моделирование позволяет на основе семантической близости текстовых фрагментов связывать их в цельный осмысленный текст – семантическую сеть. Математическим аппаратом для описания структуры гипертекста является теория графов. Критерием для связывания текстов в семантическую сеть является возможность установления между ними логических связей типа "есть", "является условием", "является причиной" и т.д., а значит можно получать формализованные высказывания или новые знания. Этот подход реализуется в базах знаний экспертных систем. Достоинство: возможность автоматизация создания или разметки гипертекстовых структур на основе распознавания и соотнесения документов или их фрагментов к определенным узлам семантической сети.

 


Рисунок 5.5. Виды гипертекстовых баз данных

По принципу формирования и управления гипертекстовые базы делятся на децентрализованные (открытые) и локально сосредоточенные (замкнутые) - см. Рисунок 5.5.

Анализ работы человека с документами показывает, что ассоциативный ряд восприятия фрагментов и документов не однороден. Ассоциативные отношения выражаются в нескольких формах, основные из них приведены ниже (Таблица 5.2).

Таблица 5.2. Ассоциативные отношения

  Формы Комментарии
  Сноски Переходы к ним используются для пояснения какого-либо термина, факта и т.д. с обязательным и скорым возвратом, т.е. без прерывания контекста
  Примеры Переходы по ним используются для иллюстрации проявлений объектов, процессов, явлений, с обязательным и скорым возвратом, без прерывания контекста
  Отступле-ния, парал-лельные темы Переходы к ним используются для обогащения основной темы с необязательным или нескорым возвратом, что может давать прерывание контекста.
  Подобие по форме и со-держанию Переходы используются для более глубокого уяснения основной темы через анализ других подобных по форме, содержанию, структуре или другим критериям тем, фрагментов, объектов, в том числе для рассмотрения других точек зрения и подходов. С необязательным возвратом, приводящим к прерыванию с возможным формированием нового контекста.
  Особен-ности Переходы используются для рассмотрения отличий конкретной темы или объекта изложения от подобных по форме или содержанию объектов с обязательным возвратом без прерывания основного контекста.
  Подобие по сущности Переходы используются для построения ассоциативного ряда подобных или однородных объектов, являющихся частными проявлениями одного общего явления процесса или объекта, возврат необязателен, что приводит к прерыванию исходного контекста, возможно и для формирования более общего или более широкого контекста.

 

 


Рисунок 5.6. Тип гиперссылки

При восприятии документов важную роль играют и классификационные отношения фрагментов и документов в следующих основных формах (Таблица 5.3).

Таблица 5.3. Классификационные отношения фрагментов и документов

Форма Комментарий
Родо-видовая иерархия Переходы используются для углубления, детализации рассмотрения или выбора темы, фрагмента, сюжета.
Иерархически-логические отношения В форме "вводный материал – основной материал – заключительный материал". Переходы используются для построения или изменения логико-тематического повествования
Ролевые отношения Например такие, как "Объект – субъект – средство – место – время – участники действия" и др. Переходы используются для формирования или расчленения целостного представления сложных разноплановых явлений, процессов.

 

Важной проблемой для гипертекстовых баз является соблюдение двух принципов:

a) Целостность данных, выражаемая следующим принципом – для каждойгиперссылки должен существовать адресат, т.е. заключающаяся в отсутствии оборванных, ведущих в никуда связей.

- В замкнутых обеспечивается созданием и ведением единого централизованного реестра гиперссылок, при удалении документов по нему находят имеющиеся в других документах ссылки на удаляемый и аннулируют их.

- В открытых ввиду отсутствия централизованного реестра и однонаправленного характера гиперссылок при удалении документа отвечающий за него пользователь не может знать, имеются ли в других документах ссылки на удаляемую страницу, что может привести к оборванным связям.

b) Согласованность данных, заключающаяся в поддержании адекватности семантики гиперссылок, т.е. должна обеспечиваться устойчивость смысловых ассоциаций по гиперссылкам.

- В замкнутых заключается в запрете изменения содержания документов после внесения их гипертекстовую базу, поскольку закладываемая в гиперссылку смысловая ассоциация может нарушиться при изменении документа, на который идет отсылка.

- В открытых определяется "время жизни" гиперссылок, в течении которого гипертекстовые публикации не могут быть изменены.

Однонаправленность гиперссылок, позволяющая осуществлять навигацию только в прямом направлении, означает, что гиперссылка находится в источнике отсылки, а на отсылаемом адресате информации по гиперссылке нет.

В среде WWW практикуется идеология публикаций, по которой эта среда рассматривается как гигантское электронное апериодической издание, и на ее страницах каждый желающий может опубликовать свои документы.

5.3. Формирование связей документов в гипертекстовых ИПС

Рисунок 5.7. Подходы к формированию связей документов

Важным элементом в структуре гипертекстовых ИПС является подсистема формирования связей документов. Существуют два подхода к формированию связей – ручной и автоматизированный (Рисунок 5.7).

Ручной подход. В этом случае смысловые связи содержания документа с другими документами системы определяются пользователем, т.е. автором документа, администратором и т.п.

Достоинство: связи устанавливаются на основе многоаспе-ктного многокритериального анализа содержания документа, что не под силу никаким автоматизированным формальным или эвристическим алгоритмам.

Недостатки

а) Человеческие возможности по скорости и объему смыслового анализа ограничены и не справляются при больших потоках поступления документов в систему,

б) Ограниченность человеческой памяти по наличию введенных ранее в систему документов,

в) Требуется высокая квалификация специалиста-анализатора. Однако, например в среде WWW сети Интернет, без ручного подхода не обойтись.

Автоматизированный подход. В основе автоматизации формирования гиперссылок лежит использование принципов поиска релевантных по смыслу документов, применяемых при индексировании. Есть две основные технологии:

1) Технология ключевых слов, имеющая несколько разновидностей:

- Взвешенный словарь ключевых терминов предварительно создается для предметной области. При вводе нового документа, он индексируется по словарю и формируется поисковый образ документа (ПОД), который сравнивается с ПОД ранее введенных документов. При превышении определенного порога сходства задаются гиперссылки на эти документы.

- Классификационная рубрикация предметной области также создается предварительно. С каждой рубрикой связывается набор ключевых терминов или их сочетаний. На основе входного индексирования производится соотнесение вводимого документа с определенной рубрикой, что определяет установку гиперсвязей с соответствующей группой документов.

2) Полнотекстовые технологии по сути аналогичны технологиям ключевых слов с учетом более широкого текстового базиса индексирования и использования критериев установления близости ПОД.

Практикуются также полуавтоматизированные технологии на основе полнотекстового поиска. Пользователь-анализатор задает фрагменты текста, используемые при создании запроса-образца, для поиска релевантных документов, с которыми и устанавливаются гипертекстовые связи.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-02-16 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: