3.1 Применение дискриминантного анализа при наличии двух обучающих выборок (q =2)
Имеются данные по двум группам промышленных предприятий отрасли: Х 1 - среднегодовая стоимость основных производственных фондов, млн. д.ед.; Х 2 — среднесписочная численность персонала, тыс. чел.; Х 3 — балансовая прибыль млн. д.ед.
Исходные данные представлены в таблице 2.
Таблица 2
Номер группы Mk (k =1, 2) | Номер предприятия, i (i = 1, 2,..., nk) | Свойства (показатель), j (j = 1, 2,..., p) | |||
Х 1 | Х 2 | Х 3 | |||
Группа 1, M 1 (k = 1) | 224,228 | 17,115 | 22,981 | ||
151,827 | 14,904 | 21,481 | |||
147,313 | 13,627 | 28,669 | |||
152,253 | 10,545 | 10,199 | |||
Группа 2, M 2 (k = 2) | 46,757 | 4,428 | 11,124 | ||
29,033 | 5,51 | 6,091 | |||
52,134 | 4,214 | 11,842 | |||
37,05 | 5,527 | 11,873 | |||
63,979 | 4,211 | 12,860 | |||
Группа предприятий M 0, подлежащих дискриминации | 55,451 | 9,592 | 12,840 | ||
78,575 | 11,727 | 15,535 | |||
98,353 | 17,572 | 20,458 | |||
Необходимо провести классификацию (дискриминацию) трех новых предприятий, образующих группу М 0 с известными значениями исходных переменных.
Решение:
1. Значения исходных переменных для обучающих подмножеств M 1 и M 2 (групп предприятий) записываются в виде матриц X (1) и X (2):
и для подмножества M 0 группы предприятий, подлежащих классификации в виде матрицы X (0):
Общее количество предприятий, составляющих множество М, будет равно N = 3+4+5 = 12 ед.
2. Определяются элементы векторов средних значений по j признакам для i -х объектов по каждой k -й выборке (k = 1, 2), которые представляются в виде двух векторов
(по количеству обучающих выборок):
3. Для каждого обучающего подмножества M 1 и M 2 рассчитываются ковариационные матрицы Sk (размером р × р):
4. Рассчитывается объединенная ковариационная матрица:
5. Рассчитывается матрица обратная к объединенной ковариационной матрице:
6. Рассчитываются дискриминантные множители (коэффициенты дискриминантной функции) по всем элементам обучающих подмножеств:
7. Для каждого i -го объекта k -го подмножества М определяется значение дискриминантной функции:
F1(1) =0,104743×224,228+2,046703×17,115+(-0,13635)×22,981=55,38211;
F2(1) =0,104743×151,827+2,046703×14,904+(-0,13635)×21,481=43,47791;
F3(1) =0,104743×147,313+2,046703×13,627+(-0,13635)×28,669=39,41138;
F4(2) =0,104743×152,253+2,046703×10,545+(-0,13635)×10,199=36,13924;
F1(2) =0,104743×46,757+2,046703×4,428+(-0,13635)×11,124=12,44351;
………………………………………………………………………………..
F5(2) =0,104743×63,979+2,046703×4,211+(-0,13635)×12,860=13,56655.
8. По совокупности найденных значений F(k) рассчитываются средние значения для каждого подмножества Mk:
9. Определяется общее среднее (константа дискриминации) для дискриминантных функций:
10. Выполняется распределение объектов подмножества М 0 по обучающим подмножествам М 1 и М 2, для чего по каждому объекту (i = 1, 2, 3) рассчитываются дискриминантные функции:
F1(0) =0,104743×55,451+2,046703×9,592+(-0,13635)×12,840=23,68661
F2(0) =0,104743×78,575+2,046703×11,727+(-0,13635)×15,535=30,11366
F3(0) =0,104743×98,353+2,046703×17,572+(-0,13635)×20,458=23,68661
Затем рассчитанные значения дискриминантных функций F (0) сравниваются с общей средней F =28,3556.
Поскольку , то i -й объект подмножества М 0 относят к подмножеству М 1 при
> 0 и к подмножеству М 2 при
<0. С учетом этого в данном примере предприятия 2 и 3 подмножества М 0 относятся к М 1, а предприятие 1 относится к М 2.
Если бы выполнялось условие , то объекты М 0 относились к подмножеству М 1, при
и к подмножеству М 2 в противном случае.
11. Оценку качества распределения новых объектов выполним путем сравнения с константой дискриминации F значений дискриминантных функций F i ( k )=обучающих подмножеств М 1 и М 2. Поскольку для всех найденных значений выполняются неравенства , и
, то можно предположить о правильном распределении объектов и уже существующих двух классах и верно выполненной классификации объектов подмножества М 0.