Дискретизация числовых атрибутов является обязательной и необходимой в случае применения алгоритмов интеллектуального анализа, работающих только с категориальными атрибутами. Кроме того, алгоритмы, работающие с числовыми атрибутами часто дают лучшие результаты либо же работают быстрее, если значения атрибутов предварительно приведены к дискретной формы.
Методы дискретизации могут быть классифицированы по двум параметрам:
- используется ли в них информация о классах: дискретизация с учителем или дискретизация без учителя;
- в каком направлении происходит дискретизация:
o сверху вниз (дискретизация начинается с одной или нескольких точек разделения, а далее полученные интервалы рекурсивно разбиваются; метод разбиения);
o снизу вверх (изначально все значения атрибута рассматриваются как потенциальные точки разделения, после чего соседние значения рекурсивно объединяются, образуя интервалы; объединение).
Выборка (sampling)
Выборка или семплирование применяется в качестве метода уменьшения исходного набора данных с целью представления большого исходного множества экземпляров выборки гораздо меньшим по размеру подмножеством.
Предположим, что исходный набор данных D содержит N экземпляров. Рассмотрим наиболее общие пути уменьшения его размера.
Простая случайная выборка без возвращения: из исходного набора D случайным образом выбирается S экземпляров (S<N), при этом вероятность выбора каждого экземпляра равновероятна;
Простая случайная выборка с возвращением: данная выборка похожа на предыдущую, однако с тем отличием, что после выбора экземпляра, он возвращается в исходную выборку и впоследствии снова может быть выбран;
Кластерная выборка: если исходная выборка сгруппирована по некоторым разъединенным «кластерам» (к примеру, страницы из базы данных или данные из различных географических источников), то к каждому из таких кластеров может быть применена простая случайная выборка.
Стратифицированная выборка: если исходная выборка несимметрична относительно распределения классов и может быть разделена на страты, то простая случайная выборка применяется к каждой страте по отдельности. К примеру, если данные представляют сведения о покупателях различных возрастных групп и при этом количество представителей разных групп не равно, такой подход позволит не потерять сведения о редких группах покупателей.
Задание на лабораторную работу
1. Постройте поток данных в модуле Knowledge flow как описано в приложении в п.А.10.
2. В приложении Б выберите выборку для анализа.
3. Используя вкладки предварительной обработки данных и визуализации, проведите детальное описание выборки данных. Укажите:
o какая практическая задача решается;
o сколько экземпляров в выборке;
o атрибуты, которые характеризуют экземпляры выборки, их типы и описание;
o есть ли экземпляры с пропущенными значениями, есть ли выбросы в данных;
o какой атрибут является целевым, какие значения он принимает, сколько экземпляров каждого класса;
o визуализируйте данные;
o приведите первые 5 экземпляров выборки.
4. Установите пакет scatterPlot3D и визуализируйте данные.
5.
Контрольные вопросы
1. Что такое интеллектуальный анализ данных?
2. Что такое разведочный анализ?
3. Какое назначение модулей Explorer, Knowledge Flow, Experimenter, Command-Line Interface?
4. Опишите формат arff файла.
5. Опишите назначение вкладок в модуле Explorer: Preprocess panel, Classify, Cluster, Associate, Select Attributes, Visualize.
6. Что такое генеральная совокупность и выборка? Какими свойствами должна обладать выборка?
7. Что подразумевается под фильтрацией в Weka? В чем различие между фильтрами атрибутов и фильтрами экземпляров? В чем разница между unsupervised и supervised фильтрами?
8. Что такое качество данных? Каковы цели подготовки данных к анализу? Какие задачи в нее входят?
9. Какой атрибут называется целевым?
10. Что такое значимый и незначимый атрибут? Что такое отбор атрибутов?
11. При помощи каких фильтров можно выполнить следующие задачи подготовки данных:
o преобразовать тип атрибута;
o нормализовать значения числового атрибута;
o найти и заменить потерянные значения в данных;
o удалить все экземпляры с заданным значением атрибута;
o создать новый атрибут;
o выполнить отбор атрибутов;
o найти выбросы в данных;
o сделать подвыборку данных.
Содержание отчета
1. Тема и цель работы
2. Задание к работе.
3. Результаты выполнения заданий раздела 1.3.
4. Ответы на контрольные вопросы.
5. Выводы, отображающие критический анализ результатов выполнения работы.
Лабораторна робота № 2
Задача классификации
Цель работы
На практике изучить работу алгоритмов классификации, научиться интерпретировать результаты работы классификаторов и выбирать наилучший метод для решения поставленной задачи.