Среди формальных моделей гипертекстовых структур можно выделить следующие (Рисунок 5.4).
Рисунок 5.4. Формальные модели гипертекстовых структур
В теории паттернов текст рассматривается как сложно организованная совокупность отдельных тем, выражаемых фрагментом текста с минимальным размером в виде одной строки. Для описания гипертекста вводятся специальные объекты – кнопки (аналоги гиперссылок), а также связи с идентификаторами и дополнительными параметрами (тип, направленность и т.д.). Размеченный гипертекст описывается теми или иными паттерновыми конфигурациями. Но теория паттернов не имеет средств синтеза обычного текста в гипертекст.
Тензорный подход основывается на идеологии фасетной классификации, позволяющей формализовано описывать смысловую структуру текста в виде тензора, а гипертекстовую структуру – в виде ансамбля тензоров. Достоинство: возможность создания формализованных процедур анализа исходных текстов для создания гипертекстовых структур.
Логико-смысловое моделирование позволяет на основе семантической близости текстовых фрагментов связывать их в цельный осмысленный текст – семантическую сеть. Математическим аппаратом для описания структуры гипертекста является теория графов. Критерием для связывания текстов в семантическую сеть является возможность установления между ними логических связей типа "есть", "является условием", "является причиной" и т.д., а значит можно получать формализованные высказывания или новые знания. Этот подход реализуется в базах знаний экспертных систем. Достоинство: возможность автоматизация создания или разметки гипертекстовых структур на основе распознавания и соотнесения документов или их фрагментов к определенным узлам семантической сети.
|
Рисунок 5.5. Виды гипертекстовых баз данных
По принципу формирования и управления гипертекстовые базы делятся на децентрализованные (открытые) и локально сосредоточенные (замкнутые) - см. Рисунок 5.5.
Анализ работы человека с документами показывает, что ассоциативный ряд восприятия фрагментов и документов не однороден. Ассоциативные отношения выражаются в нескольких формах, основные из них приведены ниже (Таблица 5.2).
Таблица 5.2. Ассоциативные отношения
Формы | Комментарии | |
Сноски | Переходы к ним используются для пояснения какого-либо термина, факта и т.д. с обязательным и скорым возвратом, т.е. без прерывания контекста | |
Примеры | Переходы по ним используются для иллюстрации проявлений объектов, процессов, явлений, с обязательным и скорым возвратом, без прерывания контекста | |
Отступле-ния, парал-лельные темы | Переходы к ним используются для обогащения основной темы с необязательным или нескорым возвратом, что может давать прерывание контекста. | |
Подобие по форме и со-держанию | Переходы используются для более глубокого уяснения основной темы через анализ других подобных по форме, содержанию, структуре или другим критериям тем, фрагментов, объектов, в том числе для рассмотрения других точек зрения и подходов. С необязательным возвратом, приводящим к прерыванию с возможным формированием нового контекста. | |
Особен-ности | Переходы используются для рассмотрения отличий конкретной темы или объекта изложения от подобных по форме или содержанию объектов с обязательным возвратом без прерывания основного контекста. | |
Подобие по сущности | Переходы используются для построения ассоциативного ряда подобных или однородных объектов, являющихся частными проявлениями одного общего явления процесса или объекта, возврат необязателен, что приводит к прерыванию исходного контекста, возможно и для формирования более общего или более широкого контекста. |
|
Рисунок 5.6. Тип гиперссылки
При восприятии документов важную роль играют и классификационные отношения фрагментов и документов в следующих основных формах (Таблица 5.3).
Таблица 5.3. Классификационные отношения фрагментов и документов
Форма | Комментарий |
Родо-видовая иерархия | Переходы используются для углубления, детализации рассмотрения или выбора темы, фрагмента, сюжета. |
Иерархически-логические отношения | В форме "вводный материал – основной материал – заключительный материал". Переходы используются для построения или изменения логико-тематического повествования |
Ролевые отношения | Например такие, как "Объект – субъект – средство – место – время – участники действия" и др. Переходы используются для формирования или расчленения целостного представления сложных разноплановых явлений, процессов. |
Важной проблемой для гипертекстовых баз является соблюдение двух принципов:
a) Целостность данных, выражаемая следующим принципом – для каждойгиперссылки должен существовать адресат, т.е. заключающаяся в отсутствии оборванных, ведущих в никуда связей.
|
- В замкнутых обеспечивается созданием и ведением единого централизованного реестра гиперссылок, при удалении документов по нему находят имеющиеся в других документах ссылки на удаляемый и аннулируют их.
- В открытых ввиду отсутствия централизованного реестра и однонаправленного характера гиперссылок при удалении документа отвечающий за него пользователь не может знать, имеются ли в других документах ссылки на удаляемую страницу, что может привести к оборванным связям.
b) Согласованность данных, заключающаяся в поддержании адекватности семантики гиперссылок, т.е. должна обеспечиваться устойчивость смысловых ассоциаций по гиперссылкам.
- В замкнутых заключается в запрете изменения содержания документов после внесения их гипертекстовую базу, поскольку закладываемая в гиперссылку смысловая ассоциация может нарушиться при изменении документа, на который идет отсылка.
- В открытых определяется "время жизни" гиперссылок, в течении которого гипертекстовые публикации не могут быть изменены.
Однонаправленность гиперссылок, позволяющая осуществлять навигацию только в прямом направлении, означает, что гиперссылка находится в источнике отсылки, а на отсылаемом адресате информации по гиперссылке нет.
В среде WWW практикуется идеология публикаций, по которой эта среда рассматривается как гигантское электронное апериодической издание, и на ее страницах каждый желающий может опубликовать свои документы.
5.3. Формирование связей документов в гипертекстовых ИПС
Рисунок 5.7. Подходы к формированию связей документов
Важным элементом в структуре гипертекстовых ИПС является подсистема формирования связей документов. Существуют два подхода к формированию связей – ручной и автоматизированный (Рисунок 5.7).
Ручной подход. В этом случае смысловые связи содержания документа с другими документами системы определяются пользователем, т.е. автором документа, администратором и т.п.
Достоинство: связи устанавливаются на основе многоаспе-ктного многокритериального анализа содержания документа, что не под силу никаким автоматизированным формальным или эвристическим алгоритмам.
Недостатки
а) Человеческие возможности по скорости и объему смыслового анализа ограничены и не справляются при больших потоках поступления документов в систему,
б) Ограниченность человеческой памяти по наличию введенных ранее в систему документов,
в) Требуется высокая квалификация специалиста-анализатора. Однако, например в среде WWW сети Интернет, без ручного подхода не обойтись.
Автоматизированный подход. В основе автоматизации формирования гиперссылок лежит использование принципов поиска релевантных по смыслу документов, применяемых при индексировании. Есть две основные технологии:
1) Технология ключевых слов, имеющая несколько разновидностей:
- Взвешенный словарь ключевых терминов предварительно создается для предметной области. При вводе нового документа, он индексируется по словарю и формируется поисковый образ документа (ПОД), который сравнивается с ПОД ранее введенных документов. При превышении определенного порога сходства задаются гиперссылки на эти документы.
- Классификационная рубрикация предметной области также создается предварительно. С каждой рубрикой связывается набор ключевых терминов или их сочетаний. На основе входного индексирования производится соотнесение вводимого документа с определенной рубрикой, что определяет установку гиперсвязей с соответствующей группой документов.
2) Полнотекстовые технологии по сути аналогичны технологиям ключевых слов с учетом более широкого текстового базиса индексирования и использования критериев установления близости ПОД.
Практикуются также полуавтоматизированные технологии на основе полнотекстового поиска. Пользователь-анализатор задает фрагменты текста, используемые при создании запроса-образца, для поиска релевантных документов, с которыми и устанавливаются гипертекстовые связи.