Кластерный анализ как многомерный статистический метод

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ

УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ

«Севастопольский государственный университет»

ГУМАНИТАРНО-ПЕДАГОГИЧЕСКИЙ ИНСТИТУТ

(наименование института полностью)

Кафедра/департамент «Психология »

(наименование кафедры/департамента полностью)

Психология 37.04.01.

(код и наименование направления подготовки/специальности)

Практическая психология

(наименование профиля/специализации)

Контрольная работа

по дисциплине

Качественные и количественные методы исследования в психологии

(наименование дисциплины)

Кластерный анализ

(тема)

Выполнил: обучающийся

группы П/м-20-1-о

А.И. Барыбина

Принял: доц. Пономаренко И.Л.

Севастополь

Содержание

Введение. 3

Кластерный анализ как многомерный статистический метод. 4

Методы кластерного анализа. 8

Заключение. 11

Библиографический список. 12

Введение

Классификация является одним из фундаментальных процессов в науке. Прежде чем мы сможем понять определенный круг явлений и разработать принципы, их объясняющие, часто необходимо их предварительно упорядочить. Таким образом, классификацию можно считать интеллектуальной деятельностью высокого уровня, которая необходима нам для понимания природы.

Классификация - это упорядочение объектов по схожести. А само понятие схожести является неоднозначным. Принципы классификации также могут быть различными. Поэтому часто процедуры, используемые в кластерном анализе для формирования классов, основываются на фундаментальных процессах классификации, присущих людям и, возможно, другим живым существам.

Достаточно часто в психологии возникает необходимость проведения классификации множества объектов по множеству переменных. Для проведения такой многомерной классификации используются методы кластерного анализа. Группы близких по какому-либо критерию объектов обычно называются кластерами. Кластеризацию можно считать процедурой, которая, начиная работать с тем или иным типом данных, преобразует их в данные о кластерах. Многие методы кластерного анализа отличаются от других методов многомерного анализа отсутствием обучающих выборок, т.е. априорной информации о распределении соответствующих переменных генеральной совокупности.

Кластерный анализ как многомерный статистический метод

Кластерный анализ - это процедура упорядочивания объектов в сравнительно однородные группы (кластеры) на основе попарного сравнения этих объектов по предварительно определенным критериям. Проще говоря, это многомерный метод статистической обработки данных, применяемый для классификации объектов, т.е. разделения их на группы или классы, таким образом, что объекты в каждой группе больше похожи друг на друга, чем на объекты из других классов. Группы, выделенные по результатам кластерного анализа, называют кластерами.

В литературе часто встречаются синонимы кластерного анализа: автоматическая классификация, таксономический анализ, анализ образов.

Цель кластерного анализа - образование групп схожих между собой объектов, которые принято называть кластерами (от англ, cluster - скопление, пучек, группа).

Первые работы, описывающие методы кластерного анализа относятся к концу 30-х годов. Считается, что термин «кластерный анализ» первым в употребление ввёл американский психолог из университета Беркли Роберт Трайон в 1939. Однако активный интерес к данной теме пришёлся на период 60-80 гг. Импульсом для разработки многих кластерных методов послужила книга «Начала численной таксономии», опубликованная в 1963 г. двумя биологами - Робертом Сокэлом и Петером Снитом.

Вызывает удивление настойчивость, с которой психологи используют для решения простой задачи классификации объектов (признаков) такой сложный метод, как факторный анализ. В то время как кластерный анализ не только гораздо проще, но и нагляднее решает эту задачу, а также имеет несомненное преимущество: результат его применения не связан с потерей даже части исходной информации о различиях объектов или корреляции признаков.

Кластерный анализ выполняет следующие основные задачи:

· разработка типологии или классификации;

· исследование полезных концептуальных схем группирования объектов;

· порождение гипотез на основе исследования данных;

· проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.

Независимо от предмета изучения применение кластерного анализа предполагает следующие этапы:

· отбор выборки для кластеризации;

· определение множества переменных, по которым будут оцениваться объекты в выборке;

· вычисление значений той или иной меры сходства между объектами;

· применение метода кластерного анализа для создания групп сходных объектов;

· проверка достоверности результатов кластерного решения.

Следует указать ряд задач, при решении которых кластерный анализ является более эффективным, чем другие многомерные методы:

· распределение совокупности испытуемых на группы по измеренным признакам с целью дальнейшей проверки причин межгрупповых различий по внешним критериям, например, проверка гипотез о том, проявляются ли типологические различия между испытуемыми по измеренным признакам;

· применение кластерного анализа как значительно более простого и наглядного аналога факторного анализа, когда ставится только задача группировки признаков на основе их корреляции;

· классификация объектов на основе непосредственных оценок различий между ними (например, исследование социальной структуры коллектива по данным социометрии - по выявленным межличностным предпочтениям).

Объектами для кластеризации в психологических исследованиях могут быть как испытуемые, так и признаки (шкалы психодиагностических методик, показатели социально-демографических характеристик и т.д.), а также корреляции, результаты социометрии и т.д.

Кластерный анализ предъявляет следующие требования к данным: во-первых, показатели не должны коррелировать между собой; во-вторых, показатели должны быть безразмерными; в-третьих, их распределение должно быть близко к нормальному; в-четвёртых, показатели должны отвечать требованию «устойчивости», под которой понимается отсутствие влияния на их значения случайных факторов; в-пятых, выборка должна быть однородна, не содержать «выбросов». Если кластерному анализу предшествует факторный анализ, то выборка не нуждается в «ремонте» - изложенные требования выполняются автоматически самой процедурой факторного моделирования. В противном случае выборку нужно корректировать.

Как и факторный анализ, кластерный анализ можно применять в исследованиях различного дизайна. Он позволяет сгруппировать данные, полученные по ряду стандартизованных методик. Применяя кластерный анализ, мы можем разбить на отдельные кластеры показатели методик, переменные или шкалы опросника. Кроме того, он дает возможность классифицировать испытуемых, объединяя их в отдельные группы. Процедура кластерного анализа описательная, в ней нет механизма проверки гипотез об адекватности получаемой классификации. Обосновать результаты кластеризации можно с помощью дискриминантного анализа.

Кластерный анализ хорошо работает и в исследованиях, выполненных в русле психосемантического подхода: он, как и факторный анализ, дает возможность реконструировать фундаментальные характеристики системы представлений и увидеть особенности восприятия тех или иных объектов. В отличие от факторного анализа кластерный не требует измерения данных в интервальных шкалах. Для порядковых и номинативных шкал исследователь может выбирать соответствующие процедуры оценки расстояния и меры сходства. К тому же, в отличие от факторного, кластерный анализ работает без потери информации.

Результаты иерархического кластерного анализа представляются в форме древовидной дендрограммы — графического изображения последовательности объединения объектов в кластеры (рис. 1).

Рис. 1 - Иерархический кластерный анализ, дендрограмма

Изображенную на рис. 1 дендрограмму необходимо читать слева направо. Вначале все объекты А, В, С, D, Е, F предстают в виде отдельных кластеров. Затем объединяются А и С, Е и D, на следующем шаге к кластеру А, С добавляется F и затем к кластеру Е, D добавляется В. На последнем шаге объединяются все объекты (для интерпретации этот шаг неинформативен). На какие именно кластеры ориентироваться при интерпретации, зависит от того, какая конфигурация кластеров окажется наиболее осмысленной. Чаще всего таковыми являются конфигурации, объединяемые па средних уровнях сходства (на рис. 28.1 это могут быть либо кластеры А, С, F и Е, D, В либо кластеры А, С, F и Е, D: впрочем, в реальных исследованиях, где дендрограммы значительно более разветвленные и включают гораздо большее число объектов, возможны любые конфигурации; иногда найти смысл в объединениях практически невозможно).

Кластерный анализ как многомерный статистический метод

Поиск по сайту