Классификационные системы




Классификационные системы с давних пор применяются для структурирования и обобщения знаний. В таких системах, с одной стороны, все сущности разбиваются по определенным признакам на некоторое число классов, с другой стороны, группируются вместе. При классифицировании наблюдателю дается набор объектов, которые можно описать некоторым множеством признаков. Каждый объект принадлежит одному или более классам из некоторого фиксированного множества. В задаче классификации (образов) наблюдатель должен применить установленное ранее правило, чтобы решить, к какому классу принадлежит объект. В задаче распознавания (образов) правило классификации вырабатывается на основе исследований множества объектов с известной принадлежностью различным классам. Эти объекты в совокупности называются обучающим множеством, или выборкой. В задаче формирования образов объекты предъявляются наблюдателю без указания их принадлежности классам. Наблюдатель должен самостоятельно построить соответствующее определение классов. Задача классификации эквивалентна задаче выяснения: является ли некоторая цепочка предложением в формальном языке.

Некоторые классификационные системы широко применяются при представлении декларативных знаний.

Вся совокупность употребляемых при классификации слов называется лексикой. Для обеспечения лексической однозначности должны быть учтены отношения синонимии, омонимии и полисемии (или многозначности), свойственные словам естественного языка. Отношения синонимов, омонимов и многозначных слов к обозначенным ими предметам или выражаемым ими понятиям показаны в таблице.


Например:

Синонимы: сумка - саквояж, размытые множества - расплывчатые множества;

Омонимы: мосты - мосты (строения), мосты (зубные), мосты (ходовая часть), электрические мосты;

Полисемия: отражение (нападения), отражение (света), отражение (звука), отражение (электромагнитных волн).

Между словами естественных языков существуют два вида отношений.

1. Парадигматические (базисные, имманентные, аналитические)- отношения, обусловленные наличием логических связей между предметами и явлениями, обозначаемые этими словами. Такие отношения носят вне-языковый характер и не зависят от ситуации, для описания которой используются слова. Например, СТОЛ и СТУЛ - МЕБЕЛЬ (соподчинение, координация); СТОЛ и МЕБЕЛЬ - отношение вид -род; ПЕРЕПЛЕТ и КНИГА – отношение часть - целое; ЛАМПА и СВЕТ - отношение причина - следствие; ЛОПАТА и ЭКСКАВАТОР - отношение функционального сходства.

2. Синтагматические (текстуальные, ситуативные) - линейные отношения, которые устанавливаются непосредственно при соединении слов в словосочетания и фразы. Синтагматические средства составляют синтаксис языка и относятся к его грамматическим средствам. Классом называется совокупность (множество) предметов, каждому, из которых присущи признаки, отражаемые в содержании соответствующего понятия. Слово или словосочетание, выражающее это понятие, служит именем данного класса.

Классификацией называется система распределения предметов или отношений на основании наиболее существенных признаков, присущих этим предметам или отношениям и отличающих их от других предметов или отношений. Классы могут быть простыми и сложными. Простым называется такой класс, члены которого характеризуются только одним общим признаком, выражаемым или обозначаемым именем этого класса. Такое имя обычно выражается одним словом или одним устойчивым словосочетанием. Например, самолеты; пассажиры; реактивные двигатели и т. д. Как правило, простой класс нельзя расчленить на более простые, не теряя при этом возможности однозначно восстановить исходный класс путем логического умножения полученных более узких классов.


Сложным называется такой класс, члены которого имеют не один общий признак, а сочетание признаков. Именами сложных классов являются различные словосочетания и даже целые фразы. Например, реактивные пассажирские самолеты; вычислительные машины на интегральных схемах. Сложные классы всегда можно расчленить на простые, без потери возможности их однозначного восстановления путем логического умножения полученных простых классов.

Иерархические системы классификации. Иерархическая система классификации – это такая система, в которой между классификационными группировками установлено отношение подчинения, как правило, родовидовое. Классификационное множество объектов делится по некоторому выбранному признаку (основание деления) на крупные группировки, затем каждая группировка в соответствии с выбранным основанием деления разбивается на ряд последующих группировок, которые в свою очередь распадаются на более мелкие, постепенно конкретизируя объект классификации (рис. 6).

Рисунок 6. Классификационная система

При построении иерархической системы классификации необходимо соблюдать следующие наиболее важные формально-логические правила:

• каждая классификационная группировка должна делиться только по одному основанию деления;

• получаемые в результате деления группировки должны исключать друг друга (т.е. не повторяться);

• сумма подмножеств деления должна составлять делимое множество. Основными преимуществами иерархической системы классификации являются

большая информационная емкость и простота поиска (возможность ручного поиска). Недостатки заключаются в малой гибкости структуры и невозможности агрегировать объекты по любому произвольному сочетанию признаков.


Рисунок 7. Фасетная классификация

Фасетная система классификаций. Это такая система (рис. 7), при которой классифицируемое множество образует независимые группировки по различным аспектам классификации. Классификационные группировки образуются путем комбинаций значений, взятых из соответствующих фасетов.

Рисунок 8. Фасетные формулы.

Последовательность расположения фасетов задается фасетной формулой, которая в каждом конкретном случае устанавливается в зависимости от характера решаемых задач и алгоритма обработки информации (рис. 8).

Порядок следования фасетов в фасетной формуле строго фиксировании определяется с учетом предмета, для которого разрабатывается фасетная классификация. Преимущества фасетных классификаций заключаются в гибкости структуры, возможности агрегировать объекты по любому сочетанию фасетов, возможности блочного построения классификаций. Недостатки состоят в неполном использовании емкости классификации и сложности применения при ручной обработке.

Алфавитно-предметная классификация. Алфавитно-предметной классификацией называется система классов (каждый из которых соответствует одному виду предметов или факторов), расположенных в алфавитном порядке их имен, например, обычный телефонный справочник.

Тезаурус. Координатное индексирование заключается в том, что центральная тема документа или информационного запроса выражается в виде некоторого перечня (множества) слов и словосочетаний естественного языка, обычно являющихся именами простых классов. Такие слова и словосочетания рассматриваются как координаты документа в некотором n-мерном пространстве предметно-тематических признаков.

Для координатного индексирования документов или информационных запросов можно использовать полнозначные (неслужебные) слова, выбираемые непосредственно из индексируемых текстов. Такие слова и словосочетания называются ключевыми словами. Однако среди ключевых слов встречается немало синонимов, многозначных слов и омонимов (омографов). Кроме того, возможны различные написания одних и тех же ключевых слов. Из-за этого прямое (пословное) сопоставление поисковых образов документов с поисковыми предписаниями становится затруднительным, а информационный поиск - менее эффективным.

Для преодоления этих затруднений применяется лексикографический контроль за используемыми ключевыми словами. Этот контроль заключается:


• в приведении используемых ключевых слов к единой морфологической форме, к единому написанию;

• в учете синонимии, полисемии, омонимии ключевых слов.

Из одинаковых или близких по смыслу ключевых слов строится некоторый класс. Из членов этого класса выбирается наиболее представительное и стилистически нейтральное ключевое слово, которое назначается именем такого класса и становится дескриптором.

Нормативный словарь, в котором в едином алфавитном ряду приведены все важнейшие ключевые слова и дескрипторы по данной отрасли (эти ключевые слова и дескрипторы снабжены отсылочными, ограничительными и пояснительными пометками, устраняющими их синонимию, полисемию и омонимию), называется дескрипторным словарем.

Формулирование поисковых образов документов и поисковых предписаний, помимо лексикографических сведений, требует предметно-тематических знаний. Дополнение дескрипторного словаря определенными сведениями о предметно-тематической области превращает его в нормативный словарь-справочник, называемый информационно-поисковым тезаурусом.

Информационно-поисковый тезаурус - это нормативный словарь, предназначенный для координатного индексирования документов и информационных запросов, в котором приведены в алфавитном порядке все дескрипторы и синонимичные им ключевые слова, а также отражены важнейшие парадигматические отношения между дескрипторами. В зависимости от выполняемой функции лексические единицы тезауруса делятся на дескрипторы и условные синонимы.

Дескриптор - однозначное ключевое слово или код, обозначающий (называющий) класс условной эквивалентности, в который включены эквивалентные слова и близкие по смыслу ключевые слова.

Элементарной структурной единицей тезауруса является словарная статья
дескриптора, которая строится по алфавитно-структурному

принципу di <Mi 1 ,Mi2, Mi3, Mi 4 >, где di - заглавный дескриптор;

Mi1 - упорядоченное по алфавиту множество условных синонимов данного заглавного

дескриптора, образующих вместе с ним класс условной эквивалентности;

Mi2 - упорядоченное по алфавиту множество дескрипторов, каждый из которых связан с заглавным дескриптором отношением род - вид;

Mi 3- упорядоченное по алфавиту множество дескрипторов, каждый из которых связан с заглавным дескриптором отношением вид - род;

Mi 4- упорядоченное по алфавиту множество дескрипторов, каждый из которых

связан с заглавным дескриптором по крайней мере одним из следующих парадигматических отношений: целое - часть, часть - целое, причина - следствие, следствие - причина, функциональное сходство (ассоциативные связи).

Примеры словарных статей, построенных по указанному алфавитно-структурному принципу, имеют вид:

№ 1 - Трудящиеся - заглавный дескриптор

Син.

• Народные массы

• Народ Вид.

• Интеллигенция


• Крестьянство

• Рабочий класс.

• Служащие Асс.

• Производство

• Рабочее время

№ 2 - Рабочая сила - заглавный дескриптор Син.

• Субъект труда Род.

• Производительные силы

• Труд Асс.

• Предмет труда

• Средства производства

Здесь: Син. - синонимичный; Вид - видовой; Род. - родовой; Асс. – ассоциативный термин.

Любое из перечисленных множеств может быть одноэлементным и даже пустым, т.е. может отсутствовать в словарной статье.

Множество Mi 1 в совокупности с дескрипторами di образует класс условной эквивалентности, который и является дескриптором. Это множество Mi 1 выполняет функцию номинального определения, которое уточняет смысл дескриптора di, выбранного для

обозначения этого класса условной эквивалентности.

Информационно-поисковые тезаурусы по методам создания и применения делятся на синхронные и несинхронные. Синхронные методы совмещают построение тезауруса, начиная с «пустого состояния», или «нуль-тезауруса», с процессом эксплуатации систем. Несинхронные методы предусматривают предварительное, априорное построение тезауруса до начала эксплуатации систем.

Однако независимо от указанных методов для построения информационно-поискового тезауруса необходимо:

• провести отбор ключевых слов;

• построить словарь дескрипторов;

• построить словарные статьи.

При синхронных методах указанные процедуры выполняются в динамическом режиме одновременно с созданием поискового массива и выполнением процедур поиска, что обеспечивает более точное отражение лексики вводимых документов, следовательно, более высокие характеристики полноты и точности поиска. Однако за эти достоинства необходимо платить некоторым увеличением эксплуатационной трудоемкости.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-11-19 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: