Задание на лабораторную работу

Часть А

1. Выполните следующие задания для набора данных ‘bank.arff’.

2. Запустите алгоритм кластеризации SimpleKMeans, задавая значения параметра K (количество кластеров) от 1 до 12.

3. Запишите в таблицу значения сумм квадратичных ошибок, получаемых при различных значениях количества кластеров. Что означает данный параметр? Наблюдается ли какой-нибудь тренд в поведении значений данного параметра?

4. Для значения K=5 укажите:

o сколько кластеров было создано;

o сколько экземпляров попало в каждый из кластеров (указать количество и процент);

o сколько итераций понадобилось для кластеризации данных;

o составить таблицу с характеристиками центроидов каждого кластера.

5. Для значения K=5 визуализируйте результаты кластеризации (по оси абсцисс отложить название (номер) кластера, по оси ординат – номер экземпляра в кластере) и оцените полученные результаты:

o есть ли значительное различие в значениях атрибута «возраст» (age) между кластерами?

o в каких кластерах доминируют женщины (female), а в каких мужчины (male)?

o что можно сказать о значениях атрибута «регион» (region) в каждом кластере?

o что можно сказать о разбросе значений атрибута «доход» (income) между кластерами?

o в каких кластерах доминируют семейные люди (married), а в каких холостые (unmarried)?

o в какой кластер попало больше всего людей с машинами?

o в каких кластерах преобладают люди со сберегательными счетами (savings accounts)?

o что можно сказать о разбросе значений атрибута «текущий банковский счет» (current account) между кластерами?

o что можно сказать о разбросе значений атрибута «ипотека» (mortgage holdings) между кластерами?

o какие кластеры в основном состоят из людей, которые приобретают PEP (личный план покупки акций), и какие из людей, которые не приобретают его?

6. Запустите алгоритм кластеризации EM и ответьте на вопросы:

o сколько кластеров было создано;

o сколько экземпляров попало в каждый из кластеров (указать количество и процент);

o визуализируйте результаты кластеризации и оцените их (см. п.5).

Часть Б

7. Выполните следующие задания для набора данных ‘iris.arff’

8. Запустите алгоритм кластеризации SimpleKMeans со следующими настройками параметров K=2,3,4,5 и оцените качество кластеризации, сравнивая кластеры с предварительно заданным классами в данных:

o для каждого значения К запишите значение суммы квадратичных ошибок;

o что можно сказать о тренде суммы квадратичных ошибок и что может подразумевать данный тренд;

o для значения K=3, запишите в таблицу характеристики каждого центроида;

o для значения K=3 проанализируйте как соотносятся кластеры и значение целевого атрибута, сколько экземпляров было отнесено к «неправильным» кластерам, какой класс оказался «сложным» для выделения;

o для значения K=3 визуализируйте результаты, используя различные атрибуты для оси ординат (при визуализации экземпляры, обозначенные квадратами были отнесены к «неправильному» кластеру);

o определите, на что влияет параметр «seed», почему он важен при кластеризации методом k-средних;

o проведите эксперименты с различными значениями данного параметра и сравните получаемые результаты.

Часть В. Иерархическая кластеризация.

9. Загрузите набор данных ‘flagdata.arff. Данный файл представляет атрибуты флагов некоторых европейских стран. Выполните следующие задания:

o запустите алгоритм кластеризации COBWEB с параметром С=0,4 (0,35), saveInstanceData = True, cluster mode = Use training set;

o визуализируйте полученную дендрограмму и запишите ее, укажите какие страны в какой кластер попали;

o укажите, что общего у флагов, попавших в один кластер.

10. Загрузите набор данных ‘zoo.arff’ и выполните следующие задания:

o выберите из выборки примерно половину животных на свое усмотрение (например, млекопитающих);

o запустите алгоритм Hierarchical Clusterer (тип животного не использовать в кластеризации, а название предварительно при помощи фильтра преобразовать в строку – NominalToString);

o поэкспериментируйте с настройками алгоритма и визуализируйте результаты его работы (приведите дендрограмму);

o оцените, есть ли логический смысл в создаваемых кластерах.

Часть Г. Алгоритм DBScan

11. Для применения алгоритма плотностной кластеризации сгенерируйте набор данных при помощи алгоритма BIRCHCluster. В наборе сгенерируйте также флаг класса.

12. При помощи настроек метода DBScan добейтесь наилучшей кластеризации данных с точки зрения сопоставления классов и кластеров.

13. Кластеризуйте набор данных при помощи других алгоритмов. Какой из алгоритмов оказался наиболее эффективным?

Контрольные вопросы

1. В чем состоит задача кластеризации? Приведите практический пример?

2. Что такое обучение с учителем и без учителя? К какому типу относится задача кластеризации?

3. Задача кластеризации относится к описательным или предсказательным и почему?

4. Чем определяется «схожесть» объектов при решении задачи кластеризации?

5. Что такое одноуровневая и иерархическая кластеризация?

6. Что такое четкая и нечеткая кластеризация?

7. Какие есть подходы к расчету расстояния между кластерами?

8. Алгомеративная и дивизимная иерархическая кластеризация?

9. Опишите один из рассмотренных методов, решающих задачу кластеризации?

10. Как оценить качество построенной модели для задачи кластеризации?

Содержание отчета

1. Тема и цель работы

2. Задание к работе.

3. Результаты выполнения заданий раздела 4.3.

4. Ответы на контрольные вопросы.

5. Выводы, отображающие критический анализ результатов выполнения работы.

Лабораторна робота № 5
Поиск ассоциативных правил

Цель работы

На практике изучить работу алгоритмов поиска ассоциативных правил и научиться интерпретировать результаты их работы.

Задание на лабораторную работу

Поиск по сайту