Построение оптимальных (байесовских) процедур классификации.




Основные понятия дискриминантного анализа. Задачи, решаемые с помощью дискриминантного анализа.

Дискриминантный анализ применяется для решения 2 задач – 1) описания различия между классами и 2) классификации объектов, не входивших в первоначальную обучающую выборку.

Для решения 1й задачи строится множество дискриминантных функций, которые позволяют с максимальной эффективностью «разделить» классы. Для того, чтобы выделить p классов, требуется не более p-1 канонической дискриминантной функции.

Для решения 2й задачи – рассчитываются расстояния от каждого нового объекта до центра тяжести кластеров. Могут учитываться априорные вероятности принадлежности к кластерам и цена ошибок классификации.

 

Основные идеи вероятностных методов классификации.

Задача Отнесения n-наблюдений Xi, где i=1,2,..,n к одному из p-классов.

Под классом понимается генеральная совокупность, описываемая одномодальной функцией плотности f(x)

(или одномодальным полигоном вероятностей в случае дискретных признаков X).

Идея вероятностных методов классификации:

Наблюдение xi будет относится к тому классу (той генеральной совокупности) в рамках которой оно выглядит более правдоподобно.

Принцип может корректироваться с учетом удельных весов классов и особенности «функции потерь» C(l/m), которая определяет стоимость потерь от ошибочного отнесения объекта m-го класса к классу с номером l (l,m=1,2,…,p)

 

Дискриминантный анализ, функции потерь и вероятности неправильной классификации.

Методы классификации следует выбирать по условию минимизации потерь или вероятности неправильной классификации объектов.

Исследуем связь этих двух характеристик качества метода классификации

Обозначим C(l/m) – потери, связанные с ошибочным отнесением объекта m-го класса к классу l. (при l=m, очевидно C(l/m) =0.

Пусть в процессе классификации таких ошибок было . Тогда потери, связанные с ошибочным отнесением объектов m-го класса к классу l составляют по всем l,m=1,2,…,р. Общие потери Сn при такой процедуре классификации составят

Тогда удельная характеристика потерь при

Здесь предел понимается в смысле сходимости по вероятности относительных частот

где P(l/m) – вероятность отнести объект класса m к классу l

- вероятность извлечения объекта класса m из общей совокупности объектов.

Величину называют априорной вероятностью (удельным весом) класса m.

Средние потери от неправильной классификации объектов m-го класса равны:

Средние удельные потери от неправильной классификации всех анализируемых объектов составят:

Обычно предполагают, что потери C(l/m) одинаковы для любой пары l и m, то есть

Тогда минимизация средних удельных потерь С будет эквивалентна максимизации вероятности правильной классификации объектов

Тогда

В этом случае при построении процедур классификации часто говорят не о потерях, а о вероятности неправильной классификации

 

 

Построение оптимальных (байесовских) процедур классификации.

Пусть требуется классифицировать n k-мерных наблюдений x1,x2,…,xn при наличии обучающих выборок типа , где l=1,2,…,p и x(l)i – есть i наблюдение в l-й выборке.

Каждая выборка определяет значения анализируемых признаков на nl объектах (где i=1,2,…,nl).

Априорно известно, что все nl наблюдения принадлежат l-му классу и

Классифицируемые n наблюдений в данной задаче интерпретируются как выборка из генеральной совокупности, описываемой смесью р-одномерных генеральных совокупностей с плотностью вероятности

где - априорная вероятность появления в выборке элемента l – го класса с плотностью или удельный вес элементов l – го класса в общей генеральной совокупности.

Введем понятие решающего правила дискриминантной функции , которая может принимать только целые положительные значения 1,2,…,р. Причем все наблюдения X, для которых она принимает значение l, будем относить к l-му классу, т.е.

Очевидно, что S(l) – это k-мерные подобласти в пространстве возможных значений признака X. Функция строится таким образом, чтобы подобласти S1,S2,…,Sp были взаимно не пересекающимися и охватывали все n наблюдений.

Таким образом, решающее правило может быть задано разбиением S= (S1,S2,…,Sp) всего р-мерного пространства, включающего n наблюдений на p - непересекающихся областей.

Решающее правило называется оптимальным байесовским, если оно сопровождается минимальными потерями С среди других процедур классификации. Оптимальная процедура классификации определяется следующим образом:

Таким образом, наблюдение будет отнесено к классу тогда, когда средние удельные потери от его отнесения именно к этому классу окажутся минимальными по сравнению с потерями от его отнесения к любому другому классу.

Решающее правило значительно упростится в случае, когда потери равны, т.е. .В этом случае наблюдение будет отнесено к классу l тогда, когда То есть максимизируется взвешенная «правдоподобность» наблюдения в рамках класса, где в к качестве весов выступают априорные вероятности

Чтобы теоретические оптимальные правила можно было бы построить, необходимо иметь оценки априорных вероятностей и плотностей . Эти оценки в статистическом варианте решения задачи получаются на основе обучающих выборок. Оценки априорных вероятностей имеют вид - объем суммарной выборки

 

5. Параметрический дискриминантный анализ в случае нормального распределения внутри классов. Число классов p=2.

Пусть l-й класс описывается k-мерным нормальным законом распределения с вектором математических ожиданий и ковариационной матрицей (общей для всех p-классов ).

Оценки параметров распределения находятся по обучающим выборкам объемом nl:

, где - значение j–го показателя для i-го наблюдения l–й выборки.

- оценка коэффициента ковариации между xj и xq - ми переменными, полученная по суммарной выборке объемом n.

Тогда оценка плотности распределения l-й совокупности имеет вид:

где

- вектор-столбец текущих переменных

- несмещенная оценка ковариационной матрицы

- определитель ковариационной матрицы

- вектор средних значений переменных для l-й обучающей выборки.

Правило классификации:

Наблюдение относится к классу l0 тогда и только тогда

Рассмотрим случай: p=2, X и Y – генеральные совокупности. Выборочное пространство, множество возможных реализаций W случайных величин X и Y можно разделить на две области гиперплоскостью

,где - значения показателей наблюдения, подлежащего дискриминации. Левая часть уравнения называется дискриминантной функцией, позволяющей перейти от к-мерного пространства к одномерному, где - вектор коэффициентов дискриминантной функции.

Таким образом, две области пространства можно задать неравенствами:

Если имеется элемент выборки , то его относим к X, при и к Y при Таким образом, задача дискриминации сводится к определению коэффициентов дискриминантной функции и константы с.

 

Предположим, что известны априорные вероятности и наблюдаемый объект принадлежит к первой X или второй Y генеральной совокупности. Также известны ущербы от ошибочной классификации:

С(Y/X) – ошибочного отнесения вектора наблюдения Z0, принадлежащего первой совокупности (X), ко второй (Y), а также C(X/Y) – потери от ошибочного отнесения Z0 к X вместо Y. Предполагается также, что неизвестны параметры генеральной совокупности

При таких условиях задача дискриминации решается с помощью, так называемой, обобщенной байесовской процедуры классификации.

Сначала по обучающим выборкам n1 и n2 найдем оценки параметров генеральных совокупностей X и Y, вектора средних и оценку ковариационной матрицы ;

- несмещенные оценки ковариационных матриц

Тогда вектор оценок коэффициентов дискриминантной функции можно получить по формуле . А оценка дискриминантной функции равна

Воспользовавшись оценкой дискриминантной функции получим n1 значение этой функции для первой выборки и среднее значение

Аналогично найдем для второй выборки из Y

и

Константа оценивается выражением

если принять, что

Тогда, если , то Z0 относится к X, а если , то Z0 относится к Y.

 

6. Параметрический дискриминантный анализ в случае нормального распределения внутри классов. Число классов p>2.

Пусть l-й класс описывается k-мерным нормальным законом распределения с вектором математических ожиданий и ковариационной матрицей (общей для всех p-классов ).

Оценки параметров распределения находятся по обучающим выборкам объемом nl:

, где - значение j–го показателя для i-го наблюдения l–й выборки.

- оценка коэффициента ковариации между xj и xq - ми переменными, полученная по суммарной выборке объемом n.

Тогда оценка плотности распределения l-й совокупности имеет вид:

где

- вектор-столбец текущих переменных

- несмещенная оценка ковариационной матрицы

- определитель ковариационной матрицы

- вектор средних значений переменных для l-й обучающей выборки.

Правило классификации:

Наблюдение относится к классу l0 тогда и только тогда

Рассмотри процедуру дискриминации для случая р>2 нормально распределенных генеральных совокупностей Xl с параметрами , где l=1,2,…,p.

Оценку плотности fl(x) совокупности Xl можно представить как:

где – несмещенная оценка ковариационной матрицы , полученная по р - выборкам

- вектор-столбец текущих переменных;

- вектор средних значений, полученных по l-ой обучающей выборке

Предположив, что логарифм отношения правдоподобия (1) можно представить в виде

Преобразуем левую часть неравенства, получим:

Правило дискриминации: если для всех , где m=1,2,…,k выполняется неравенство , то наблюдение X относится к Xl.

Приведенное правило эквивалентно критерию:

Наблюдение, определяемое вектором X, следует отнести к той совокупности Xl, расстояние Махаланобиса до центра которой минимально

а, следовательно, согласно оценки функции плотности апостериорная плотность максимальна.

 

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2022-11-28 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: