Коэффициент корреляции Пирсона




Коэффициент корреляции Пирсона вычисляется по формуле:

, (1)

где — значения, принимаемые переменной X,

значения, принимаемые переменной У;

— средняя по X,

— средняя по Y.

Расчет коэффициента корреляции Пирсона предполагает, что переменные Х и Y распределены нормально.

Формула (1)предполагает, что из каждого значения пе­ременной X, должно вычитаться ее среднее значение . Это не­удобно. Поэтому для расчета коэффициента корреляции исполь­зуют не формулу (1), а ее аналог, получаемый из этой формулы про­стыми преобразованиями:

, (2)

где

и ,

или модификацию этой формулы:

. (3)

 

В формуле (1)встречается величина . (4)

При делении на п (число значений переменной Х или Y) она называется ковариацией. Выражение (4) может быть подсчи­тано только в тех случаях, когда число значений переменной X равно числу значений переменной У и равно п. Формула (4) предполагает также, что при расчете коэффициентов корреля­ции нельзя произвольно переставлять элементы в коррелируемых столбцах.

Для применения коэффициента корреляции Пирсона, необхо­димо соблюдать следующие условия:

1. Сравниваемые переменные должны быть получены в интер­вальной шкале или шкале отношений.

2. Распределения переменных X и У должны быть близки к нор­мальному.

3. Число варьирующих признаков в сравниваемых переменных X и У должно быть одинаковым.

4. Таблицы уровней значимости для коэффициента корреляции Пирсона (таблица 20 Приложения) рассчитаны от п = 5 до п = 1000. Оценка уровня значимости по таблицам осуществ­ляется при числе степеней свободы .

Линейная регрессия

Взаимосвязь между переменными величинами может быть описана разными способами. Например, эту связь можно описать с помощью раз­личных коэффициентов корреляции (линейных, частных, кор­реляционного отношения и т.п.). В то же время эту связь можно выразить по-другому: как зависимость между аргументом (вели­чиной) X ифункцией Y. В этом случае задача будет состоять в на­хождении зависимости вида Y = F(X) или, напротив, в нахож­дении зависимости вида Х= F(Y). При этом изменение функции в зависимости от изменений одного или нескольких аргументов называется регрессией.

Графическое выражение регрессионного уравнения называют линией регрессии. Линия регрессии выражает наилучшее пред­сказание зависимой переменной (Y) по независимым перемен­ным (А). Эти независимые переменные, а их может быть много, носят название предикторов.

Регрессию выражают с помощью двух уравнений регрессии, которые в самом простом случае выглядят, как уравнения пря­мой, а именно так:

(1) (2)

В уравнении (1) Y — зависимая переменная, а X — незави­симая переменная, а 0 свободный член, а а 1— коэффициент регрессии, или угловой коэффициент, определяющий наклон линии регрессии по отношению к осям координат.

В уравнении (2) X — зависимая переменная, a Y — незави­симая переменная, b 0 свободный член, а b 1 — коэффициент регрессии, или угловой коэффициент, определяющий наклон линии регрессии по отношению к осям координат.

Линии регрессии пересекаются в точке , с координа­тами, соответствующими средним арифметическим значениям корреляционно связанных между собой переменных Х и Y. Линия АВ, проходящая через точку О, соответствует линейной функци­ональной зависимости между переменными величинами X и У, когда коэффициент корреляции между Х иУ равен . При этом наблюдается такая закономерность: чем сильнее связь меж­ду X и У, тем ближе обе линии регрессии к прямой АВ, и, на­оборот, чем слабее связь между этими величинами, тем больше линии регресии отклоняются от прямой АВ. При отсутствии свя­зи между X и Y линии регрессии оказываются под прямым углом по отношению друг к другу и в этом случае .

Количественное представление связи (зависимости) между X и Y (между Y и X) называется регрессионным анализом. Главная задача регрессионного анализа заключается, в нахождении коэффициентов а 0, b 0, а 1и b 1 и определении уровня значимости полученных аналитических выражений (1) и (2), связывающих между собой переменные X и Y.

При этом коэффициенты регрессии а 1и b 1 показывают, на­сколько в среднем величина одной переменной изменяется при изменении на единицу меры другой. Коэффициенты регрессии а 1 и b 1в уравнении (1), (2) можно подсчитать по формулам:

, (3) (4)

где - коэффициент корреляции между переменными X и Y;

Sx — среднеквадратическое отклонение, подсчитанное для переменной X;

Sу — среднеквадратическое отклонение, подсчитанное для переменной Y.

Коэффициент корреляции вычисляется по формуле:

(*)

или ее модификация

(см параграф коэффициент Пирсона)

Коэффициенты регрессии можно вычислить также без под­счета среднеквадратических отклонений по следующим фор­мулам:

, (5) (6)

В том случае, если неизвестен коэффициент корреляции, коэф­фициенты регрессии можно вычислить по следующим формулам:

, (7) (8)

Величины а 1, b 1 и взаимосвязаны. Более того, зная две из них — всегда мож­но получить третью. Например, зная величины а 1и b 1 можно легко получить ;

(9)

Формула (9) очень важна, поскольку она позволяет по из­вестным значениям коэффициентов регрессии а 1и b 1 опреде­лить коэффициент корреляции, и, кроме того, сравнивая вы­числения по формулам (*) и (9), можно проверить пра­вильность расчета коэффициента корреляции. Как и коэффици­ент корреляции, коэффициенты регрессии характеризуют толь­ко линейную связь и при положительной связи имеют знак плюс, при отрицательной — знак минус.

В свою очередь свободные члены а 0и b 0 вуравнениях регрессии придется вычислять по следующим формулам. Для подсчета свободного члена а 0уравнения регрессии (1) используется формула:

(10)

Для подсчета свободного члена b 0уравнения регрессии (2) используется формула:

(11)

Вычисления по формулам (7), (8), (10) и (11) дос­таточно сложны, поэтому при расчетах коэффициентов регрессии используют, как правило, более простой метод - метод наименьших квадратов. Он заключается в решении двух систем уравнений. При решении одной системы на­ходятся величины а 0и а 1, и при решении другой — b0 и b 1.

Общий вид системы уравнений для нахождения величин а 0и а 1таков:

(12)

Общий вид системы уравнений для нахождения величин — b0 и b 1 таков:

(13)

Для применения метода линейного регрессионного анализа не­обходимо соблюдать следующие условия:

1. Сравниваемые переменные X и У должны быть измерены в шкале интервалов или отношений.

2. Предполагается, что переменные Х и У имеют нормальный за­кон распределения.

3. Число варьирующих признаков в сравниваемых переменных должно быть одинаковым.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-10-12 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: