Методы кластерного анализа




Методы кластерного анализа можно расклассифицировать на:

· внутренние (признаки классификации равнозначны);

· внешние (существует один главный признак, остальные определяют его).

Внутренние методы в свою очередь можно разделить на:

· иерархические (процедура классификация имеет древовидную структуру);

· неиерархические.

Далее, иерархические подразделяются на:

· агломеративные (объединяющие);

· дивизивные (разъединяющие).

Рисунок 2 - Классификация методов кластерного анализа

Из всех методов кластерного анализа наиболее распространенным у психологов является иерархический кластерный анализ, несколько версий которого предлагается, в частности, программой SPSS. В данном методе можно проводить кластеризацию как по строкам (испытуемым или оцениваемым объектам), так и по столбцам (шкалам методик или шкалам оценок объектов). Алгоритм работы иерархического кластерного анализа примерно следующий.

Вначале все п объектов принимаются за отдельные кластеры. Затем объекты начинают объединяться. Сначала объединяется пара ближайших кластеров, количество кластеров становится (п - 1). Затем идет следующее объединение и т.д., пока не объединятся все кластеры. На любом этапе процедуру объединения можно прервать, если исследователь считает, что получил нужные группы, доступные для интерпретации.

В методе кластерного анализа можно выбирать различные процедуры определения расстояния, меры близости между объектами, виды стандартизации. Например, есть несколько методов определения расстояния:

· метод одиночной связи (метод «ближайшего соседа»). Алгоритм начинается с поиска двух наиболее близких объектов, пара которых образует первичный кластер. Каждый последующий объект присоединяется к тому кластеру, к одному из объектов которого он ближе;

· метод полной связи (метод «дальнего соседа»). Правило объединения этого метода подразумевает, что новый объект присоединяется к тому кластеру, самый далекий элемент которого находится ближе к новому объекту, чем самые далекие элементы других кластеров;

· метод средней (межгрупповой) связи. На каждом шаге вычисляется среднее арифметическое расстояние между каждым объектом из одного кластера и каждым объектом другого кластера либо вычисляется расстояние между центрами тяжести кластеров. Объединяются те кластеры, расстояние между которыми является наименьшим;

· метод Уорда. На первом шаге каждый кластер состоит из одного объекта, в силу чего внутрикластерная дисперсия расстояний равна нулю. Объединяются те объекты, которые дают минимальное приращение дисперсии.

Чаще всего используют метод средней связи, который, как считается, дает наиболее близкий к реальной группировке результат. Метод одиночной связи сжимает пространство, образуя минимально возможное число больших кластеров; метод полной связи расширяет пространство, давая максимально возможное число маленьких кластеров. Если метод средней связи не дает «хорошей», т.е. интерпретируемой, классификации, пробуют два других метода. Меры близости объектов тоже можно выбирать разные: евклидово расстояние, квадрат евклидова расстояния, коэффициент корреляции и др. Наконец, существуют и разные виды стандартизации: 2-шкалы, разброс от -1 до 1, разброс от 0 до 1. Исследователь может пробовать различные варианты процедуры, для того чтобы добиться наиболее интерпретируемого результата.


 

Заключение

История кластерного анализа насчитывает менее ста лет, но он успел стать неотъемлемой частью процесса обработки информации во многих науках и других областях человеческой деятельности. Столь активное развитие кластеризации во многом связано с ростом мощностей вычислительной техники и ее повсеместном применении.

Как уже говорилось выше, на практике кластерный анализ корреляций можно применять как альтернативу факторному. В сравнении с факторным анализом, кластерный анализ обладает следующими преимуществами:

1. Отсутствие даже минимальной потери исходных данных. Если факторный анализ неизбежно сопровождается потерей 30%-50% данных, то при кластерном анализе потери исходных данных нулевые.

2. Наглядность результатов. По результатам кластерного анализа строится так называемая дендрограмма - древовидный график, диаграмма в виде дерева, ветви которого наглядно отражают результат кластеризации.

3. Обнаружение не только степени связанности, но и иерархической соподчиненности кластеров.

Недостаток кластерного анализа в сравнении с факторным: если факторный анализ «умеет» включать одну и ту же шкалу в состав нескольких факторов, то кластерный анализ может включить одну шкалу в состав только одного кластера. Поэтому результаты факторного анализа могут быть более полными и информативными в сравнении с результатами кластерного анализа.

В исследованиях, требующих многомерных методов обработки данных, желательно проводить оба метода и сравнивать результаты. Существует большая вероятность того, что результаты факторного анализа совпадут с результатами кластерного анализа корреляций.

 


 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2021-02-16 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: