Коэффициент корреляции Спирмена




Занятие 4

Тема: Исследование зависимостей

Описательная статистика и статистические критерии позволяют, соответственно, компактно представлять полученные результаты и определять сходства и различия.

Следующим этапом анализа данных обычно является исследование зависимостей. Для этих целей применяются корреляционный анализ и дисперсионный анализ (для установления факта наличия/отсутствия зависимости между переменными), а также регрессионный анализ (для нахождения количественной зависимости между переменными).

Корреляционный анализ

Задача корреляционного анализа сводится к установлению направления и формы связи между признаками, измерению ее тесноты и к оценке достоверности выборочных показателей корреляции.
Пусть сделаны измерения двух признаков Х и У: Х1, Х2,...,Хn и Y1, Y2,...,Yn.

Необходимо установить, существует ли связь между изменениями признаков Х и Y и, если эта связь существует, то определить её тип, глубину и достоверность.

Для качественной оценки связи между признаками строят график.

Экспериментальные графики для величин Х и Y, находящихся в корреляционной зависимости, состоят из ряда точек, не укладывающихся на какую-либо определённую кривую. Каждая точка (x,y) на плоскости отображает результат одного измерения. Такой точечный график называют корреляционным полем. По корреляционному полю можно качественно оценить наличие или отсутствие зависимости и указать положительна она или отрицательна.

Коэффициент корреляции р для генеральной совокупности, как правило, неизвестен, поэтому он оценивается по экспериментальным данным, представляющим собой выборку объема n пар значений (xi, yi), полученную при совместном измерении двух признаков Х и Y. Коэффициент корреляции, определяемый по выборочным данным, называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции). Его принято обозначать символом r.
В случае, когда имеются две переменных, значения которых измерены в цифровой шкале отношений (единицы измерений при этом не важны – например, масса зерна может быть измерена в граммах, килограммах, тоннах – они не влияют на значение коэффициента корреляции), используется коэффициент линейной корреляции Пирсона r, который принимает значения от -1 до +1 (нулевое его значение свидетельствует об отсутствии корреляции.

Проанализировав знак коэффициента корреляции, определяют тип корреляционной связи:

если r > 0, то связь прямая (положительная), т.е. при возрастании одной величины другая в среднем тоже возрастает;

если r < 0, то связь обратная (отрицательная), т.е. при возрастании одной величины другая имеет тенденцию в среднем убывать.

Если статистическая связь между признаками отсутствует, то r = 0.

Величина коэффициента корреляции показывает глубину линейной связи между двумя выборками, т.е. характеризует степень близости зависимости величин X и Y к линейной функциональной зависимости. Графически это выражается теснотой или разбросанностью точек корреляционного поля.

В практической деятельности, когда число коррелируемых пар признаков Х и Y не велико (), то при оценке зависимости между показателями используется следующую градацию.

Глубина корреляционной связи определяется, исходя из следующих критериев:

если 0< |r| ≤0,3, то связь слабая;

если 0,3< |r| ≤0,5, то связь умеренная;

если 0,5< |r| ≤0,7, то связь значительная;

если 0,7< |r| ≤0,9, то связь сильная;

если 0,9< |r| <1, то связь очень сильная.

При |r| =1 связь между величинами функциональная.

Таким образом, чем ближе абсолютная величина r к единице, тем сильнее связь между признаками и теснее расположены точки на графике.

Однако, для обоснованного вывода о наличии связи не достаточно анализа величины коэффициента корреляции; необходимо проверить его достоверность.

Иными словами, требуется ответить на вопрос: является ли вычисленный поданным наблюдений коэффициент корреляции значимым, т.е. можно ли верить полученному значению коэффициента, учитывая случайный характер выборок значений исследуемых величин.

Значимость корреляционной связи при определённом уровне доверительной вероятности можно проверить с помощью критерия Стьюдента.

 

Из таблицы 1 для числа степеней свободы ν = n - 2 определяют стандартные

значения критериев Стьюдента, соответствующие трем порогам достоверности: 0,95; 0,99; 0,999.

Сравнивают критерий достоверности tr со стандартными значениями критериев Стьюдента и делают вывод о достоверности коэффициента корреляции:

• если tr ≥ tst0,999, то достоверность коэффициента корреляции 99,9%;

• если tr ≥ tst0,99, то достоверность коэффициента корреляции 99%;

• если tr ≥ tst0,95, то достоверность коэффициента корреляции 95%;

• если tr < tst0,95, то коэффициент корреляции недостоверен, доверять ему нельзя.

В настоящее время разработано множество различных коэффициентов корреляции. Наиболее применяемыми являются r -Пирсона, r -Спирмена и τ -Кендалла. Современные компьютерные статистические программы в меню «Корреляции» предлагают именно эти три коэффициента, а для решения других исследовательских задач предлагаются методы сравнения групп.

Выбор метода вычисления коэффициента корреляции зависит от типа шкалы, к которой относятся переменные.

Для переменных с интервальной и с номинальной шкалой используется коэффициент корреляции Пирсона.

Если, по меньшей мере, одна из двух переменных имеет порядковую шкалу или не является нормально распределенной, используется ранговая корреляция по Спирмену или t -Кендалла.

Коэффициент корреляции Спирмена

Коэффициентом ранговой корреляции Спирмена называют непараметрический метод, используемый при статистическом исследовании связи между различными явлениями.

Метод ранговой корреляции Спирмена позволяет определять тесноту (или силу) и направление корреляционной связи между двумя профилями признаков или признаками. Мощность параметрического коэффициента корреляции превосходит мощность коэффициента ранговой корреляции Спирмена.

Коэффициент ранговой корреляции Спирмена используется в случаях, когда:
- переменные имеют ранговую шкалу измерения;
- распределение данных слишком отличается от нормального или вообще неизвестно;
- выборки имеют небольшой объём (N < 30).

Перед использованием коэффициента Спирмена для рядов данных с различным размахом, необходимо обязательно их ранжировать. Ранжирование приводит к тому, что значения этих рядов приобретают одинаковый минимум = 1 (минимальный ранг) и максимум, равный количеству значений (максимальный, последний ранг = N, т.е. максимальному количеству случаев в выборке).

Без ранжирования можно обойтись, когда данные имеют исходно ранговую шкалу.

Для применения коэффициента корреляции Спирмена, необходимо соблюдать следующие условия:

1. Сравниваемые переменные должны быть получены в порядковой (ранговой) шкале, но могут быть измерены также в шкале интервалов и отношений.

2. Характер распределения коррелируемых величин не имеет значения.

3. Число варьирующих признаков в сравниваемых переменных X и Y должно быть одинаковым.

Для расчета коэффициента ранговой корреляции Спирмена выделяют следующие действия:

- каждому из признаков присваивается порядковый номер (ранг). Ранг может присваиваться как по возрастанию, так и по убыванию

- определяется разность рангов каждой пары сопоставляемых значений

- каждая разность возводится в квадрат, а полученные результаты затем суммируются.

Коэффициент корреляции рангов высчитывается по формуле:

 

- сумма квадратов разностей рангов
n – число парных наблюдений.

Слабой теснотой связи называют связь с коэффициентом равным или меньшим 0,3. Значения коэффициента от 0,4 до 0,7 считают показателями умеренной тесноты, а если полученное значение превышает 0,7, то говорят о высокой тесноте связи.

Таблицы для определения критических значений коэффициента корреляции Спирмена рассчитаны от числа признаков равных n = 5 до n = 40 и при большем числе сравниваемых переменных следует использовать таблицу для пирсоновского коэффициента корреляции. Нахождение критических значений осуществляется при k = n.

 

Задание. Проанализировать связь между баллом поражения и урожаем у гибридов яблони. Таблица состоит из двух переменных:

Балл (x) Урожай (y)

4 10

1 15

2 20

3 10

5 5

5 15

2 25

1 20

3 15

4 15

Выполнение задания

1. Вычислите среднее арифметическое по каждому признаку.

2. Проставьте ранги.

3. Проверьте H0. Сравните результат с табличным значением t-критерия.

4. Охарактеризуйте связь между баллом поражения и урожаем и напишите вывод.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2020-11-04 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: