



- Избавление от неинформативных признаков.
Неинформативным признаком в задаче классификации называется признак, который принимает близкие значения на объектах одного класса и существенно на объектах, принадлежащих различным классам.

Имеется K – групп, внутри каждой группы признак X имеет близкие значения, а между группами – значимо различные значения
S – номер группы, j – jый номер в S-той группе
- среднее значение признака X для S-ой группы
- среднее значение для всего массива X

K – групп
– количество элементов в S-ой группе



И так,


I – оценка информативности признака в задачах классификации
Допустим 
Бинаризация

Определяем порог p из информативности 
1) Зафиксируем некоторое значение порога p
2) Разобьем все пиксели фотографии на 2 класса.


……..
Цветы Ириса

Находим I max
Пусть I* - номер соответствующей строки матрицы случайных числе

Нашли реализацию, для которой информативность максимальная, т.е равна I max

Решающее правило принятия решения:
Если обобщенная характеристика (найденная линейная комбинация) * больше p1, то характеристика 
Если 
Если 
Лекция 4.

Задача нейронной сети (для классификации) – решить задачу классификации (по признакам информативности)
Формируем матрицу D

Будет задача распознавания кардиограмм (задача классификации)
//Решить задачу для цветов Ириса (вышеописанную)
Дисперсионный анализ
| X1 | X2 | |
| Наблюдение 1 Наблюдение 2 Наблюдение 3 | ||
Среднее
Сумма квадратов
| ||
Общее среднее
Общая сумма квадратов SS
|

- Межгрупповая дисперсия

- Внутригрупповая дисперсия SS фактическая
- Межгрупповая дисперсия SS. Считать не обязательным. Достаточная
SS факт. – фактическая
SS ост. – достаточная


//Книга глава 11. Фролова
Проверка статистической значимости различия средних (используется пример из табл. 3)
m = 3 (количество наблюдений)
p = 2 (количество групп)

Критерий Фишера-Снедекора
- распределены по Фишеру
m – количество элементов в каждой группе одинаковое.


В Матлаб:

//Дома посчитать
(откуда берется) из табл. 11.1 книжки
//В Матлаб искл. Finv – (11.2 из книжки)
//Распространить эту технологию для разработки правила, в соответствии с которым определяются неинформативные признаки (формальный метод), которые необходимо исключить (на цветах ириса). Область – однофакторный дисперсионный анализ.
Шкалы
Имеется 5 шкал (обычно используются 5, но их бесконечно много)
Качественные:
1) Номинальная. Качественная школа, предполагающая любые взаимно-однозначные операции
2) Ранговая (порядковая). Позволяет проранжировать все величины.
Количественные:
3) Шкала интервалов (интервальная)
4) Шкала отношений
5) Абсолютная шкала
Измерения в СППР называют процедуру, с помощью которой, изучаемым объектом и отношением между ними ставятся в соответствие элементы и отношения, принадлежащие некоторой математической структуре, т.е. это множество элементов той или иной математической природы и совокупность отношений между их элементами.
Самый простой случай, когда элементы являются действительными числами и измерения сводятся к приписыванию объекту того или иного числа (рост, вес, скорость реакции и т.д.)
При измерении каждому объекту приписывают определенный элемент, используемой математической структуры.
Шкала – инструмент, способ измерения (способ кодировки, способ приписывания объекту числа).
| Допустимые преобразования | Тип шкалы | Примеры |
| Абсолютная | Пересчет предметов |
(преобразованное подобие)
| Шкала отношений | Масса тела Температура (шкала Кельвина) |
(положительное линейное преобразование)
| Интервальная | Температура (шкала Фаренгейта и Цельсия) |
(монотонно возрастающее преобразование)
| Порядковая | Предпочтения Твердость Качество воздуха Баллы интеллектуального теста |
| Любое взаимно-однозначное преобразование | Номинальная | Номера игроков Номера разных планов |
Интервальная шкала

//Книжка Data Mining Чубукова

Лекция 5.

Возьмем признак X1

Необходимо посчитать общую дисперсию SS


Строим отношения Фишера
F = …, H1: конкурирующая гипотеза (альтернативная), что есть отрицание H0

Если F – верна конкурирующая гипотеза
F табличная:

*Если 
Для данного случая

Когда
для признака
прекращаем *
//О.И. Ларичев Теория и методы принятия решений (от 2006г)
Сумма квадратов
Общая сумма квадратов SS
(преобразованное подобие)
(положительное линейное преобразование)
(монотонно возрастающее преобразование)