Часть А
1. Выполните следующие задания для набора данных ‘bank.arff’.
2. Запустите алгоритм кластеризации SimpleKMeans, задавая значения параметра K (количество кластеров) от 1 до 12.
3. Запишите в таблицу значения сумм квадратичных ошибок, получаемых при различных значениях количества кластеров. Что означает данный параметр? Наблюдается ли какой-нибудь тренд в поведении значений данного параметра?
4. Для значения K=5 укажите:
o сколько кластеров было создано;
o сколько экземпляров попало в каждый из кластеров (указать количество и процент);
o сколько итераций понадобилось для кластеризации данных;
o составить таблицу с характеристиками центроидов каждого кластера.
5. Для значения K=5 визуализируйте результаты кластеризации (по оси абсцисс отложить название (номер) кластера, по оси ординат – номер экземпляра в кластере) и оцените полученные результаты:
o есть ли значительное различие в значениях атрибута «возраст» (age) между кластерами?
o в каких кластерах доминируют женщины (female), а в каких мужчины (male)?
o что можно сказать о значениях атрибута «регион» (region) в каждом кластере?
o что можно сказать о разбросе значений атрибута «доход» (income) между кластерами?
o в каких кластерах доминируют семейные люди (married), а в каких холостые (unmarried)?
o в какой кластер попало больше всего людей с машинами?
o в каких кластерах преобладают люди со сберегательными счетами (savings accounts)?
o что можно сказать о разбросе значений атрибута «текущий банковский счет» (current account) между кластерами?
o что можно сказать о разбросе значений атрибута «ипотека» (mortgage holdings) между кластерами?
o какие кластеры в основном состоят из людей, которые приобретают PEP (личный план покупки акций), и какие из людей, которые не приобретают его?
|
6. Запустите алгоритм кластеризации EM и ответьте на вопросы:
o сколько кластеров было создано;
o сколько экземпляров попало в каждый из кластеров (указать количество и процент);
o визуализируйте результаты кластеризации и оцените их (см. п.5).
Часть Б
7. Выполните следующие задания для набора данных ‘iris.arff’
8. Запустите алгоритм кластеризации SimpleKMeans со следующими настройками параметров K=2,3,4,5 и оцените качество кластеризации, сравнивая кластеры с предварительно заданным классами в данных:
o для каждого значения К запишите значение суммы квадратичных ошибок;
o что можно сказать о тренде суммы квадратичных ошибок и что может подразумевать данный тренд;
o для значения K=3, запишите в таблицу характеристики каждого центроида;
o для значения K=3 проанализируйте как соотносятся кластеры и значение целевого атрибута, сколько экземпляров было отнесено к «неправильным» кластерам, какой класс оказался «сложным» для выделения;
o для значения K=3 визуализируйте результаты, используя различные атрибуты для оси ординат (при визуализации экземпляры, обозначенные квадратами были отнесены к «неправильному» кластеру);
o определите, на что влияет параметр «seed», почему он важен при кластеризации методом k-средних;
o проведите эксперименты с различными значениями данного параметра и сравните получаемые результаты.
Часть В. Иерархическая кластеризация.
9. Загрузите набор данных ‘flagdata.arff. Данный файл представляет атрибуты флагов некоторых европейских стран. Выполните следующие задания:
|
o запустите алгоритм кластеризации COBWEB с параметром С=0,4 (0,35), saveInstanceData = True, cluster mode = Use training set;
o визуализируйте полученную дендрограмму и запишите ее, укажите какие страны в какой кластер попали;
o укажите, что общего у флагов, попавших в один кластер.
10. Загрузите набор данных ‘zoo.arff’ и выполните следующие задания:
o выберите из выборки примерно половину животных на свое усмотрение (например, млекопитающих);
o запустите алгоритм Hierarchical Clusterer (тип животного не использовать в кластеризации, а название предварительно при помощи фильтра преобразовать в строку – NominalToString);
o поэкспериментируйте с настройками алгоритма и визуализируйте результаты его работы (приведите дендрограмму);
o оцените, есть ли логический смысл в создаваемых кластерах.
Часть Г. Алгоритм DBScan
11. Для применения алгоритма плотностной кластеризации сгенерируйте набор данных при помощи алгоритма BIRCHCluster. В наборе сгенерируйте также флаг класса.
12. При помощи настроек метода DBScan добейтесь наилучшей кластеризации данных с точки зрения сопоставления классов и кластеров.
13. Кластеризуйте набор данных при помощи других алгоритмов. Какой из алгоритмов оказался наиболее эффективным?
Контрольные вопросы
1. В чем состоит задача кластеризации? Приведите практический пример?
2. Что такое обучение с учителем и без учителя? К какому типу относится задача кластеризации?
3. Задача кластеризации относится к описательным или предсказательным и почему?
4. Чем определяется «схожесть» объектов при решении задачи кластеризации?
5. Что такое одноуровневая и иерархическая кластеризация?
6. Что такое четкая и нечеткая кластеризация?
7. Какие есть подходы к расчету расстояния между кластерами?
8. Алгомеративная и дивизимная иерархическая кластеризация?
9. Опишите один из рассмотренных методов, решающих задачу кластеризации?
10. Как оценить качество построенной модели для задачи кластеризации?
Содержание отчета
1. Тема и цель работы
2. Задание к работе.
3. Результаты выполнения заданий раздела 4.3.
4. Ответы на контрольные вопросы.
5. Выводы, отображающие критический анализ результатов выполнения работы.
Лабораторна робота № 5
Поиск ассоциативных правил
Цель работы
На практике изучить работу алгоритмов поиска ассоциативных правил и научиться интерпретировать результаты их работы.