Дискретизация числовых атрибутов

Дискретизация числовых атрибутов является обязательной и необходимой в случае применения алгоритмов интеллектуального анализа, работающих только с категориальными атрибутами. Кроме того, алгоритмы, работающие с числовыми атрибутами часто дают лучшие результаты либо же работают быстрее, если значения атрибутов предварительно приведены к дискретной формы.

Методы дискретизации могут быть классифицированы по двум параметрам:

- используется ли в них информация о классах: дискретизация с учителем или дискретизация без учителя;

- в каком направлении происходит дискретизация:

o сверху вниз (дискретизация начинается с одной или нескольких точек разделения, а далее полученные интервалы рекурсивно разбиваются; метод разбиения);

o снизу вверх (изначально все значения атрибута рассматриваются как потенциальные точки разделения, после чего соседние значения рекурсивно объединяются, образуя интервалы; объединение).

Выборка (sampling)

Выборка или семплирование применяется в качестве метода уменьшения исходного набора данных с целью представления большого исходного множества экземпляров выборки гораздо меньшим по размеру подмножеством.

Предположим, что исходный набор данных D содержит N экземпляров. Рассмотрим наиболее общие пути уменьшения его размера.

Простая случайная выборка без возвращения: из исходного набора D случайным образом выбирается S экземпляров (S<N), при этом вероятность выбора каждого экземпляра равновероятна;

Простая случайная выборка с возвращением: данная выборка похожа на предыдущую, однако с тем отличием, что после выбора экземпляра, он возвращается в исходную выборку и впоследствии снова может быть выбран;

Кластерная выборка: если исходная выборка сгруппирована по некоторым разъединенным «кластерам» (к примеру, страницы из базы данных или данные из различных географических источников), то к каждому из таких кластеров может быть применена простая случайная выборка.

Стратифицированная выборка: если исходная выборка несимметрична относительно распределения классов и может быть разделена на страты, то простая случайная выборка применяется к каждой страте по отдельности. К примеру, если данные представляют сведения о покупателях различных возрастных групп и при этом количество представителей разных групп не равно, такой подход позволит не потерять сведения о редких группах покупателей.

Задание на лабораторную работу

1. Постройте поток данных в модуле Knowledge flow как описано в приложении в п.А.10.

2. В приложении Б выберите выборку для анализа.

3. Используя вкладки предварительной обработки данных и визуализации, проведите детальное описание выборки данных. Укажите:

o какая практическая задача решается;

o сколько экземпляров в выборке;

o атрибуты, которые характеризуют экземпляры выборки, их типы и описание;

o есть ли экземпляры с пропущенными значениями, есть ли выбросы в данных;

o какой атрибут является целевым, какие значения он принимает, сколько экземпляров каждого класса;

o визуализируйте данные;

o приведите первые 5 экземпляров выборки.

4. Установите пакет scatterPlot3D и визуализируйте данные.

Контрольные вопросы

1. Что такое интеллектуальный анализ данных?

2. Что такое разведочный анализ?

3. Какое назначение модулей Explorer, Knowledge Flow, Experimenter, Command-Line Interface?

4. Опишите формат arff файла.

5. Опишите назначение вкладок в модуле Explorer: Preprocess panel, Classify, Cluster, Associate, Select Attributes, Visualize.

6. Что такое генеральная совокупность и выборка? Какими свойствами должна обладать выборка?

7. Что подразумевается под фильтрацией в Weka? В чем различие между фильтрами атрибутов и фильтрами экземпляров? В чем разница между unsupervised и supervised фильтрами?

8. Что такое качество данных? Каковы цели подготовки данных к анализу? Какие задачи в нее входят?

9. Какой атрибут называется целевым?

10. Что такое значимый и незначимый атрибут? Что такое отбор атрибутов?

11. При помощи каких фильтров можно выполнить следующие задачи подготовки данных:

o преобразовать тип атрибута;

o нормализовать значения числового атрибута;

o найти и заменить потерянные значения в данных;

o удалить все экземпляры с заданным значением атрибута;

o создать новый атрибут;

o выполнить отбор атрибутов;

o найти выбросы в данных;

o сделать подвыборку данных.

Содержание отчета

1. Тема и цель работы

2. Задание к работе.

3. Результаты выполнения заданий раздела 1.3.

4. Ответы на контрольные вопросы.

5. Выводы, отображающие критический анализ результатов выполнения работы.

Лабораторна робота № 2
Задача классификации

Цель работы

На практике изучить работу алгоритмов классификации, научиться интерпретировать результаты работы классификаторов и выбирать наилучший метод для решения поставленной задачи.

Дискретизация числовых атрибутов

Поиск по сайту