Тема: Методы изучения корреляционных связей.
Вопросы:
- Корреляционный анализ (основные понятия)
- Коэффициент парной корреляции
- Ранговый коэффициент (Спирмена)
- Определение тесноты связи между качественными признаками (коэффициенты Шарлье, Юла, Пирсона)
Продолжительность занятия: 4 часа
Самостоятельная работа: лабораторная работа №7
Теоретическая часть .
Корреляционный анализ
В различных областях медицины, биологии, организации здравоохранения, социально-гигиенических и клинических исследованиях проводятся статистический анализ связей, изучение закономерностей и влияющих факторов.
Существуют два вида проявления количественных взаимосвязанностей между признаками (явлениями, факторами) – функциональные и корреляционные.
При функциональных зависимостях каждому значению одной переменной величины соответствует одно вполне определенное значение другой переменной. Такие зависимости наблюдаются в математике и физике. Различные измерительные приборы основаны на функциональной зависимости (высота ртутного столбика дает однозначный ответ о температуре).
Корреляционные или статистические связи, при которых численному значению одной переменной соответствует много значений другой переменной. Пример, между ростом и весом детей существует бесспорная зависимость, но это не значит, что определенному росту строго соответствует определенный вес. В силу участия в формировании веса многих других факторов, каждому значению роста соответствует несколько значений веса, которые могут быть выражены в виде распределения.
Функциональная связь имеет место по отношению к каждому конкретному наблюдению. Корреляционная проявляется в среднем для всей совокупности наблюдений. выявления взаимодействия факторов, определение силы и направленности Практическое использование корреляционного анализа: выявление взаимодействия факторов, определение силы и направления влияния одних факторов на другие.
|
Следует подчеркнуть, что определение наличия связи между явлениями и факторами – дело специалистов. Статистика лишь измеряет эту связь.
Корреляционная зависимость отличается по форме связи, ее направлению и силе. Ориентировочное представление о характере зависимости между двумя изученными факторами дает графический анализ (так называемая «скэттер-диаграмма»), который позволяет рассмотреть концентрацию и рассеивание точек на пересечении координат изучаемых признаков в определенном направлении вокруг линии регрессии.
Форма связи может быть прямолинейной и криволинейной. Прямолинейная связь – равномерные изменения одного признака соответствуют равномерным изменениям второго признака при незначительных отклонениях. Криволинейная связь – равномерные изменения одного признака соответствуют неравномерным изменениям второго признака.
Направление связи может быть прямое (положительное) или обратное (отрицательное). Если с увеличением одного признака второй также увеличивается или с уменьшением одного другой тоже уменьшается, зависимость прямая, положительная. Если с увеличением одного признака другой уменьшается или с уменьшением первого признака второй увеличивается, зависимость обратная, отрицательная.
|
По силе связи зависимость может быть сильная (сильно выражена), средняя (умеренно выражена), слабая (слабо выражена).
Оценка силы связи по величине коэффициента корреляции
Размер связи | Характер связи | |
Прямая (+) | Обратная (-) | |
Отсутствует | ||
Слабая | От 0 до +0,29 | От 0 до -0,29 |
Средняя | От +0,3 до +0,69 | От -0,3 до -0,69 |
Сильная | От +0,7 до +0,99 | От -0,7 до -0,99 |
Полная (функциональная) | +1,0 | -1,0 |
Количественная характеристика взаимосвязи изучаемых признаков может быть дана на основании вычисления показателей силы связи между ними (коэффициенты корреляции) и определения зависимости одного признака от изменения другого (коэффициент регрессии).
Коэффициент парной корреляции
Коэффициент парной корреляции вычисляется по формуле:
или
Алгоритм расчета коэффициента парной корреляции:
1) записывают исходные данные в два вариационных ряда – x и y;
2) вычисляют среднюю арифметическую ряда x и y;
3) определяют разность между членом ряда и средними величинами;
4) перемножают разности ряда x и y между собой;
5) находят сумму перемножаемых разностей (с учетом арифметического знака);
6) возводят в квадрат каждую разность (отклонение) ряда х и у;
7) определяют сумму квадратов отклонений (разностей) для ряда х и у отдельно;
8) подставляют полученные данные в исходную формулу и вычисляют коэффициент парной корреляции.
Пример. Определить корреляционную связь между строками введения противодифтерийной сыворотки и летальностью от этого заболевания.
День введения сыворотки (х) | Летальность (у) | dx | dy | dx2 | dy2 | dx*dx |
1-й | 2,0 | -2 | -5 | |||
2-й | 3,0 | -1 | -4 | |||
3-й | 7,0 | |||||
4-й | 9,0 | +1 | +2 | |||
5-й | 14,0 | +2 | +7 | |||
xx = 3 | xy = 7.0 | Sdx=0 | Sdy=0 | Sdx2=10 | Sdy2=94 | Sdx*dy =30 |
|
Коэффициент корреляции равен +0,98. Связь положительная, сильная. Следовательно, между сроками введения сыворотки и летальностью от дифтерии имеется очень тесная зависимость. Число больных в этом примере равно 900.
Можно определить достоверность коэффициента корреляции, вычислив его среднюю ошибку для большого числа наблюдений (n>50) по формуле:
, или при меньшем числе наблюдений:
С достаточно большой надежностью можно утверждать, что зависимость неслучайна, если численное значение rxy превышает свою среднюю ошибку не менее чем в 3 раза.
.
Т.е. связь между признаками считается статистически значимой, если коэффициент корреляции превышает свою ошибку в 3 и более раз
В том случае, когда отношение коэффициента корреляции к его средней ошибки меньше 3, существование связи между изучаемыми явлениями нельзя признать доказанным.
Для малого числа наблюдений (n£30) степень надежности коэффициента корреляции может определяться по специальной таблице. При этом число наблюдений таблицы К (число степеней свободе n ) равно числу наблюдений в исследовании без двух, т.е. К = n-2. Как правило, коэффициент корреляции рассчитывается при числе коррелируемых пар не менее 5.
В медицинских и биологических исследованиях связь между признаками считается статистически значимой, если величина коэффициента корреляции больше или равна табличной при Р=0,05