K | P | |||
0,1 | 0,05 | 0,02 | 0,01 | |
0,988 | 0,997 | 0,9995 | 0,99988 | |
Пример. В районах изучалась зависимость между охватом населения прививками и уровнем заболеваемости. Полученный коэффициент корреляции по этим двум признакам был равен 0,81. Число наблюдений – 8 районов (пар), следовательно, К равно 6 (8-2). По таблице находим строку 6 и сравниваем полученный коэффициент. При данном числе степеней свободы (К) коэффициент корреляции превышает табличный для вероятности Р=0,05 (графа 3). Отсюда с вероятностью, большей, чем 95%, можно утверждать, что зависимость между охватом населения прививками и заболеваемостью не случайна, и эта связь сильная, т.е. чем больше процент привитых, тем меньше уровень заболеваемости.
Ранговый коэффициент (Спирмена)
Ранговый коэффициент корреляции более пригоден по сравнению с обычным коэффициентом для характеристики корреляций в случаях нелинейной связи и для данных, распределение которых отличается от нормального. Кроме того, данные для расчета рангового коэффициента могут быть представлены в полуколичественных измерениях. Достаточно ориентировочных данных об уровне признака. Вычисление коэффициента проводится по формуле:
|
.
Алгоритм расчета коэффициента корреляции рангов:
1) заменяют количественные (или полуколичественные, или качественные) признаки ряда х и у на ранги, ранжируя при этом строго от меньшей величины к большей (или строго от большей к меньшей по усмотрению исследователя);
2) определяют условные отклонения (а), т.е. разность рангов по каждой строке;
3) возводят условные отклонения в квадрат;
4) определяют сумму квадратов условных отклонений;
5) подставляют полученные данные в известную формулу и вычисляют коэффициент корреляции.
Пример. Измерить корреляцию между смертностью от рака молочной железы и рака матки (материалы смертности 5 внеевропейских стран за 1950 – 1952 гг.),
Страна | Смертность от рака молочной железы на 100000 женщин х | Смертность от рака матки на 100000 женщин у | Порядковые номера (ранги) по размерам смертности от рака | Разность рангов а | Квадрат разности рангов а2 | |
молочной железы | матки | |||||
Новая Зеландия | 28,6 | 14,9 | ||||
Австралия | 23,5 | 13,4 | ||||
ЮАР | 21,1 | 16,3 | ||||
Чили | 5,8 | 15,3 | ||||
Япония | 3,3 | 19,1 | ||||
Sа2=36 |
Поскольку вычисление коэффициента корреляции рангов обычно производится на малом числе наблюдений (число пар в рядах х, у), особое значение приобретает оценка статистической значимости (достоверности) этого коэффициента. Это тем более важно, так как ранговый коэффициент всегда менее точен, нежели парный коэффициент корреляции.
|
Оценка достоверности коэффициента корреляции рангов проводится разными методами в зависимости от числа наблюдений. При числе парных наблюдений, равномерном или менее 9 (n£9), оценка значимости производится по специальной таблице. При числе наблюдений от 10 и более оценка значимости может осуществляться с помощью критерия t по формуле:
.
Используя таблицу значений t Стьюдента, при числе степеней свободы без двух (n`=n-2), сравнивают вычисленное значение с табличным. Коэффициент признается значимым при условии, если расчетное t>t0,05 табличного.
Критическое значение коэффициентов корреляции Спирмена – r
n | Уровни значимости | n | Уровни значимости | ||
5% | 1% | 5% | 1% | ||
1,000 | 0,425 | 0,601 | |||
0,900 | 1,000 | 0,399 | 0,564 | ||
0,829 | 0,843 | 0,377 | 0,534 | ||
0,714 | 0,893 | 0,359 | 0,508 | ||
0,643 | 0,833 | 0,343 | 0,485 | ||
0,600 | 0,783 | 0,329 | 0,465 | ||
0,564 | 0,746 | 0,317 | 0,448 | ||
0,506 | 0,712 | 0,306 | 0,435 | ||
0,456 | 0,645 |
Коэффициент корреляции признается значимым (достоверным), если вычисленное r£r0,05.
В рассматриваемом примере число наблюдений меньше 9 (n=5), вследствие чего оценка коэффициента проведена по таблице. При числе наблюдений, равном 5, вычисленное значение r=-0,80 меньше критического и поэтому нельзя с достаточной достоверностью утверждать, что между смертностью от рака молочной железы и рака матки существует какая-то зависимость.
|
Определение тесноты связи между качественными признаками
При изучении зависимости качественных признаков используется коэффициент сопряженности. Для определения тесноты связи в случае альтернативной зависимости двух сопоставляемых признаков (данные, как правило, представлены в четырехпольной таблице) коэффициенты сопряженности рассчитываются по формулам:
коэффициент контингенции Шарлье:
коэффициент ассоциации Юла (Q):
.
Алгоритм расчета:
1) шифруют через a, b, c, d четыре поля, в которых расположены исходные данные: ;
2) вычисляют последовательно произведения a*d и b*c;
3) рассчитывают числитель формулы;
4) определяют знаменатель формулы;
5) вычисляют коэффициент Шарлье или Юла.
Пример. Определить зависимость между методами лечения (хирургический и рентгенотерапия, только хирургический) и результатами (выздоровление или нет выздоровления).
Метод | Выздоровление | Нет выздоровления | Всего больных |
I | 14(a) | 8(b) | 22(a+b) |
II | 7(c) | 9(d) | 16(c+d) |
Всего: | 21(a+c) | 17(b+d) | 38(a+b+c+d)=N |
.
Примечание. Коэффициент ассоциации дает быструю, но ориентировочную оценку связи. Довольно точную величину коэффициент Q определяет для значений r между 1,5 и 0,5.
В тех случаях, когда качественные факторы имеют не альтернативное варьирование (четыре поля), а большее число группировок, коэффициент сопряженности вычисляется по формуле:
,
где j2 (фи-квадрат) – коэффициент контингенции Пирсона.
Алгоритм расчета:
1) составляют корреляционную таблицу;
2) частоты (числа наблюдений) вписывают наверху каждой клетки таблицы;
3) частоты возводят в квадрат и результат записывают под ними;
4) квадрат частот делят на сумму числа наблюдений (частот) каждой графы таблицы (см. пример расчета: 625:46=12,7; 225:75=3 и т.д.);
5) частные от деления проставляют внизу каждой клетки таблицы;
6) определяют сумму частных от деления по каждой строке и записывают в нижней части итоговой клетки таблицы (12,7+3,0+2,0=17,7 и т.д.);
7) указанные суммы делят на соответствующие итоги строк (сумма от числа наблюдений по строке): 17,7:50=0,35; 24,5:60=0,4 и т.д.;
8) вычисляют значение j2, которое является суммой полученных выше частных от деления без единицы (j2=1,28-1=0,28);
9) полученное значение j2 подставляют в формулу и вычисляют коэффициент сопряженности С.
Пример. Вычислить коэффициент сопряженности при измерении тесноты связи между жилищными условиями и заболеваемостью обследуемых.
Жилищные условия | Распределение обследуемых по частоте заболеваний | Итого | |||
Частота болеющих | Эпизодически болеющие | Не болеющие | |||
Неудовлетворительные | |||||
252=625 | |||||
12,7 | 17,7 | 0,35 | |||
Удовлетворительные | |||||
6,6 | 17,3 | 0,6 | 24,5 | 0,4 | |
Хорошие | |||||
0,8 | 7,7 | 28,6 | 37,1 | 0,53 | |
25+18+6=49 | 0,35+0,4+0,53=1,28 |
, отсюда .
Величина С позволяет судить о наличии средней корреляционной связи между рассматриваемыми факторами.
Контрольные вопросы
- Дайте определение корреляционной зависимости, форма связи, направление связи.
- Оценка силы связи по величине коэффициента корреляции.
- Коэффициент парной корреляции.
- Ранговый коэффициент Спирмена.
- Определение тесноты связи между качественными признаками.