Показатели оценки коэффициента корреляции при малом числе наблюдений




K P
0,1 0,05 0,02 0,01
  0,988 0,997 0,9995 0,99988
         
         
         
         
         
         
         
         
         
         
         
         
         
         
         
         
         
         
         
         
         
         
         
         
         
         
         
         
         
         

 

Пример. В районах изучалась зависимость между охватом населения прививками и уровнем заболеваемости. Полученный коэффициент корреляции по этим двум признакам был равен 0,81. Число наблюдений – 8 районов (пар), следовательно, К равно 6 (8-2). По таблице находим строку 6 и сравниваем полученный коэффициент. При данном числе степеней свободы (К) коэффициент корреляции превышает табличный для вероятности Р=0,05 (графа 3). Отсюда с вероятностью, большей, чем 95%, можно утверждать, что зависимость между охватом населения прививками и заболеваемостью не случайна, и эта связь сильная, т.е. чем больше процент привитых, тем меньше уровень заболеваемости.

 

Ранговый коэффициент (Спирмена)

Ранговый коэффициент корреляции более пригоден по сравнению с обычным коэффициентом для характеристики корреляций в случаях нелинейной связи и для данных, распределение которых отличается от нормального. Кроме того, данные для расчета рангового коэффициента могут быть представлены в полуколичественных измерениях. Достаточно ориентировочных данных об уровне признака. Вычисление коэффициента проводится по формуле:

.

Алгоритм расчета коэффициента корреляции рангов:

1) заменяют количественные (или полуколичественные, или качественные) признаки ряда х и у на ранги, ранжируя при этом строго от меньшей величины к большей (или строго от большей к меньшей по усмотрению исследователя);

2) определяют условные отклонения (а), т.е. разность рангов по каждой строке;

3) возводят условные отклонения в квадрат;

4) определяют сумму квадратов условных отклонений;

5) подставляют полученные данные в известную формулу и вычисляют коэффициент корреляции.

Пример. Измерить корреляцию между смертностью от рака молочной железы и рака матки (материалы смертности 5 внеевропейских стран за 1950 – 1952 гг.),

 

Страна Смертность от рака молочной железы на 100000 женщин х Смертность от рака матки на 100000 женщин у   Порядковые номера (ранги) по размерам смертности от рака Разность рангов а Квадрат разности рангов а2
молочной железы матки
Новая Зеландия 28,6 14,9        
Австралия 23,5 13,4        
ЮАР 21,1 16,3        
Чили 5,8 15,3        
Япония 3,3 19,1        
            2=36

Поскольку вычисление коэффициента корреляции рангов обычно производится на малом числе наблюдений (число пар в рядах х, у), особое значение приобретает оценка статистической значимости (достоверности) этого коэффициента. Это тем более важно, так как ранговый коэффициент всегда менее точен, нежели парный коэффициент корреляции.

Оценка достоверности коэффициента корреляции рангов проводится разными методами в зависимости от числа наблюдений. При числе парных наблюдений, равномерном или менее 9 (n£9), оценка значимости производится по специальной таблице. При числе наблюдений от 10 и более оценка значимости может осуществляться с помощью критерия t по формуле:

.

Используя таблицу значений t Стьюдента, при числе степеней свободы без двух (n`=n-2), сравнивают вычисленное значение с табличным. Коэффициент признается значимым при условии, если расчетное t>t0,05 табличного.

Критическое значение коэффициентов корреляции Спирмена – r

n Уровни значимости n Уровни значимости
5% 1% 5% 1%
  1,000     0,425 0,601
  0,900 1,000   0,399 0,564
  0,829 0,843   0,377 0,534
  0,714 0,893   0,359 0,508
  0,643 0,833   0,343 0,485
  0,600 0,783   0,329 0,465
  0,564 0,746   0,317 0,448
  0,506 0,712   0,306 0,435
  0,456 0,645      

Коэффициент корреляции признается значимым (достоверным), если вычисленное r£r0,05.

В рассматриваемом примере число наблюдений меньше 9 (n=5), вследствие чего оценка коэффициента проведена по таблице. При числе наблюдений, равном 5, вычисленное значение r=-0,80 меньше критического и поэтому нельзя с достаточной достоверностью утверждать, что между смертностью от рака молочной железы и рака матки существует какая-то зависимость.

 

Определение тесноты связи между качественными признаками

При изучении зависимости качественных признаков используется коэффициент сопряженности. Для определения тесноты связи в случае альтернативной зависимости двух сопоставляемых признаков (данные, как правило, представлены в четырехпольной таблице) коэффициенты сопряженности рассчитываются по формулам:

коэффициент контингенции Шарлье:

 

коэффициент ассоциации Юла (Q):

.

 

 

Алгоритм расчета:

1) шифруют через a, b, c, d четыре поля, в которых расположены исходные данные: ;

2) вычисляют последовательно произведения a*d и b*c;

3) рассчитывают числитель формулы;

4) определяют знаменатель формулы;

5) вычисляют коэффициент Шарлье или Юла.

Пример. Определить зависимость между методами лечения (хирургический и рентгенотерапия, только хирургический) и результатами (выздоровление или нет выздоровления).

 

Метод Выздоровление Нет выздоровления Всего больных
I 14(a) 8(b) 22(a+b)
II 7(c) 9(d) 16(c+d)
Всего: 21(a+c) 17(b+d) 38(a+b+c+d)=N

 

.

Примечание. Коэффициент ассоциации дает быструю, но ориентировочную оценку связи. Довольно точную величину коэффициент Q определяет для значений r между 1,5 и 0,5.

В тех случаях, когда качественные факторы имеют не альтернативное варьирование (четыре поля), а большее число группировок, коэффициент сопряженности вычисляется по формуле:

,

где j2 (фи-квадрат) – коэффициент контингенции Пирсона.

 

Алгоритм расчета:

1) составляют корреляционную таблицу;

2) частоты (числа наблюдений) вписывают наверху каждой клетки таблицы;

3) частоты возводят в квадрат и результат записывают под ними;

4) квадрат частот делят на сумму числа наблюдений (частот) каждой графы таблицы (см. пример расчета: 625:46=12,7; 225:75=3 и т.д.);

5) частные от деления проставляют внизу каждой клетки таблицы;

6) определяют сумму частных от деления по каждой строке и записывают в нижней части итоговой клетки таблицы (12,7+3,0+2,0=17,7 и т.д.);

7) указанные суммы делят на соответствующие итоги строк (сумма от числа наблюдений по строке): 17,7:50=0,35; 24,5:60=0,4 и т.д.;

8) вычисляют значение j2, которое является суммой полученных выше частных от деления без единицы (j2=1,28-1=0,28);

9) полученное значение j2 подставляют в формулу и вычисляют коэффициент сопряженности С.

Пример. Вычислить коэффициент сопряженности при измерении тесноты связи между жилищными условиями и заболеваемостью обследуемых.

 

Жилищные условия Распределение обследуемых по частоте заболеваний Итого
Частота болеющих Эпизодически болеющие Не болеющие
Неудовлетворительные          
252=625        
12,7     17,7 0,35
Удовлетворительные          
         
6,6 17,3 0,6 24,5 0,4
Хорошие          
         
0,8 7,7 28,6 37,1 0,53
  25+18+6=49       0,35+0,4+0,53=1,28

, отсюда .

Величина С позволяет судить о наличии средней корреляционной связи между рассматриваемыми факторами.


 

Контрольные вопросы

  1. Дайте определение корреляционной зависимости, форма связи, направление связи.
  2. Оценка силы связи по величине коэффициента корреляции.
  3. Коэффициент парной корреляции.
  4. Ранговый коэффициент Спирмена.
  5. Определение тесноты связи между качественными признаками.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-04-11 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: