Лекция. Анализ номинативных данных
Методы, рассматриваемые в этой лекции касаются проверки самого широкого класса гипотез, касающихся явлений, измерение которых доступно в номинативной шкале. Например, «Кто чаще обращается в службу знакомств?», «Зависит ли количество аварий от дня недели?», «Правда ли, что водители-женщины чаще попадают в ДТП?» и т.п.
Ответы на такие вопросы можно получить при помощи простого способа – классификации событий и людей по интересующим градациям.
Все подобные ситуации можно свести к трем типам (случаям):
1. сравнение наблюдаемого эмпирического распределения частот с ожидаемым теоретическим распределением;
2. сравнение двух или более наблюдаемых распределений частот;
3. сравнение наблюдаемого распределения событий X среди событий Y (серии X, Y) со случайным распределением.
Случай 1: Кто чаще обращается в службу знакомств?
Для этого необходимо подсчитать кол-во женщин и мужчин, обратившихся в службу знакомств. Использовав метод статистической проверки, сопоставить эмпирическое соотношение мужчин и женщин с ожидаемым теоретическим равномерным распределением.
Случай 2: Зависит ли предпочтение напитка (минеральная вода, сок, лимонад) от сезона (зима, весна, дето, осень)?
Для этого необходимо для каждого респондента определить тип предпочитаемого напитка (первая номинативная переменная - 3 градации) и сезон опроса (вторая номинативная переменная – 4 градации).
Для всех подобных задач, связанных с анализом классификаций или таблиц сопряженности, достаточно применить один и тот же критерий - χ2 Пирсона.
Критерии выявления различий в распределении исследуемого признака
|
Задача проверки совпадения эмпирических результатов с ожидаемыми теоретическими является довольно традиционной при создании и адаптации психологических тестов, когда необходимо проверить насколько совпадает эмпирическое распределение тестового балла с нормальным распределением. Близкой, по сути, является и задача сопоставления двух эмпирических распределений, например, если необходимо сравнить распределения того же тестового балла в разных группах испытуемых. Можно аналогичным образом сравнивать распределение реакций одного испытуемого в разных условиях, и все это будет сравнением двух распределений: теоретического с эмпирическим или эмпирического с эмпирическим.
При сопоставлении эмпирического распределения с теоретическим или для сопоставления двух и более эмпирических распределений одного и того же признака применяется критерий - χ2 ( Chi-square ) Пирсона, который еще называют критерием согласия.
Преимущество критерия – позволяет сопоставлять распределения признаков, измеренных в любой шкале, начиная от шкалы наименований. В самом простом случае «есть результат – нет результата» уже можно пользоваться данным критерием.
Критерий позволяет сопоставить два эмпирических распределения с разными объемами выборок с аналогичными двумя распределениями с другими объемами выборок (например, при сопоставлении исследований разных авторов), при этом желательно, чтобы соотношение двух выборок одного исследования было примерно одинаковым с соотношением выборок другого исследования.
Критерий χ2 Пирсона позволяет выявить, с одинаковой частотой встречаются разные значения признака в эмпирическом и теоретическом распределениях или в двух и более эмпирических распределениях.
|
Ограничения критерия χ2 Пирсона:
1. Объем выборки должен быть не менее 30 (по некоторым источникам не менее 50).
2. Теоретическая частота проявления признака по каждому разряду распределения не должна быть меньше 5. Если количество разрядов в распределении k, то минимальное значение показателей признака во всем распределении должно быть: nmin= 5k.
3. Группировка на разряды должна быть одинаковой во всех сопоставляемых распределениях.
При использовании критерия согласия исследователем формулируется гипотеза (возможны три варианта):
1. Полученное эмпирическое распределение признака не отличается (H0) / отличается (H1) от теоретического (например, равномерного) распределения.
2) Эмпирическое распределение 1 не отличается (H0) / отличается (H1) от эмпирического распределения 2.
3) Эмпирические распределения 1,2,3 не отличаются (H0) / отличается (H1) между собой.
Алгоритм расчета критерия:
1. Занести в таблицу наименования разрядов и соответствующие им эмпирические частоты (второй столбец).
2. Рядом с каждой эмпирической частотой записать теоретическую частоту (третий столбец).
3. Подсчитать разности между эмпирической и теоретической частотой по каждому разряду (строке) и записать их в четвертый столбец.
4. Определить число степеней свободы по формуле: ν = k-1, где k – количество разрядов признака.
5. Возвести в квадрат полученные разности, и занести их в пятый столбец.
|
6. Разделить полученные квадраты разностей на теоретическую частоту и записать результаты в шестой столбец.
7. Просуммировать значения пятого столбца. Полученную сумму обозначить как c2 эмп.
8. Определить по таблице критические значения χ2 для данного числа степеней свободы (df=k-1). Если χэ2< χ2кр расхождения между распределениями статистически недостоверны. Если χэ2≥χ2кр - расхождения между распределениями статистически достоверны. На основании полученных значений сделать вывод о достоверности расхождений между распределениями.
Разряды | Эмпирическая частота fэ | Теоретическая частота fт | Разность ∆ fэ -fт | (fэ - fт)2 | (fэ - fт)2 /fт |
. . N | |||||
Суммы. |
Алгоритм вычислений так же выражается формулой:
(11)
где: P – количество ячеек таблицы распределения или сопряженности, содержащих эмпирические значения частот; fэ, ft – эмпирическое и теоретическое значение частот для одной ячейки; k – число градаций сопоставляемых распределений; l - количество сопоставляемых распределений.
Эта формула является общей для различных ситуаций, но в каждом случае имеет свою специфику.
Пример: Исследовались защитные механизмы студентов (с помощью опросника Плутчика–Келлермана).Показатели типов преимущественного механизма защиты определялись по ведущей шкале. Всего было диагностировано 50 человек. Необходимо сопоставить эмпирическое распределение данных с равномерным теоретическим.
№ | Наименование разряда | fэ | fт | fэ - fт | (fэ - fт)2 | (fэ - fт)2 /fт |
Вытеснение | -1 | 0,10 | ||||
Регрессия | -8 | 6,40 | ||||
Проекция | 0,40 | |||||
Рационализация | 8,10 | |||||
Замещение | -2 | 0,40 | ||||
Суммы | 15,40 |
1. Занести в таблицу наименования разрядов и соответствующие им эмпирические частоты.
2. Рядом с каждой эмпирической частотой записать теоретическую по формуле fт=n/k (где n – сумма экспериментальных показателей, k – число разрядов).
3. Подсчет разностей между эмпирической и теоретической частотой по каждому разряду.
4. Возведение в квадрат полученных разностей.
5. Разделить полученные квадраты разностей на теоретическую частоту.
6. Просуммировать значения в последнем столбце. Это и будет χэ2=15.4.
7. Число степеней свободы в данном примере: df = 5-1=4. По таблице определяем:
χ2кр= 9,488 (p<0.05)
11.346 (p<0.01)
Ответ: H0 отвергается, принимается H1: Распределение типов защитных механизмов у студентов статистически достоверно отличается о равномерного распределения (р<0,01).
Примечание: Чем больше разрядов (испытуемых или признаков), тем более достоверным будет вывод о результатах сопоставления распределений.
Ожидаемое теоретическое распределение может быть не только равномерным, но и любым другим, например нормальным.