Определение 1. Зависимость двух случайных величин называют корреляционной, если изменение одной случайной величины приводит к изменению среднего значения другой случайной величины.
Основные задачи теории корреляции:
1. определить есть ли связь между случайными величинами, если есть, то найти уравнение зависимости (уравнение регрессии);
2. определить силу (тесноту) связи между случайными величинами.
Для определения самого факта связи между случайными величинами и
тесноты связи служит коэффициент корреляции. Уравнение регрессии позволяет предсказать, какие изменения в среднем будет претерпевать признак при изменении другого признака.
Если уравнения регрессии являются линейными, то есть графиками будут прямые линии, то корреляционная зависимость называется линейной.
Пусть извлечена выборка объема п и исследуются два количественных признака X и У. Результаты измерений занесены в таблицу 6.
Таблица 6.
Значения хi | x1 | х2 | ... | xn |
Значения уi | y1 | y2 | ... | yn |
Выборочный коэффициент корреляции rB находится по формуле:
rB =
Свойства выборочного коэффициента корреляции:
1. Значения коэффициента корреляции изменяются на отрезке [-1; 1]:
-1≤ rB ≤1
2. Чем модуль rB больше и ближе к 1, тем теснее связь между изучаемыми признаками.
3. Если | rB| = 1, то между признаками функциональная связь.
4. Если rB = 0, то между изучаемыми признаками нет линейной корреляционной зависимости.
5. Если rB > 0, то между признаками прямая (положительная) связь и если rB < 0, то между признаками обратная (отрицательная) связь.
Выборочное уравнение прямой регрессии У на X имеет вид:
= rB *
* (x –
где ,
- выборочные средние. За приближенные значения
и
принимают соответственно и sx и sy:
≈ sx =
,
≈ sy =
Выборочное уравнение прямой регрессии X на У имеет вид:
x – = rB * *
/
* (y –
Пример. Психологи провели тестирование среди пациентов психоневрологического диспансера. Возраст пациентов колебался от 14 до 34 лет. Затем была проведена случайная выборка объёмом n=10. Была поставлена задача: определить есть ли зависимость возраста испытуемого (Y) от значения показателя развития заболевания (X). Результаты этого измерения представлены в таблице 7:
Таблица 7.
X | ||||||||||
Y |
Требуется вычислить выборочный коэффициент корреляции и найти выборочное уравнение прямой регрессии У на X.
Решение. Вычислим выборочный коэффициент корреляции по формуле:
rB =
Для вычисления величин, входящих в формулу, составим вспомогательную таблицу 8, в которой результаты измерений записаны столбцами. Внизу каждого из столбцов вычислены суммы для нахождения средних и
. Далее расположены столбцы, в которых вычисляются
Разности xi – и
, их квадраты и произведения. Значения этих столбцов суммируются (последняя строка), чтобы получились величины, необходимые для подстановки в формулу. Отметим, что суммы в столбцах, в которых вычислены разности xi –
и
будут всегда равны нулю.
Таблица 8.
xi | yi | xi – ![]() | ![]() | ![]() | ![]() | ![]() ![]() |
-45 | -9 | |||||
-35 | -5 | |||||
-25 | -4 | |||||
- 15 | -3 | |||||
-5 | ||||||
Находим средние и
(смотри данные в таблице, 1-2 столбцы):
= 700/10 = 70,
= 230/10 = 23.
Выполнив все вычисления в таблице (3-7 столбцы), получаем:
*
=1520,
= 8250
= 298
Подставляя эти значения в соответствующую формулу, вычислим коэффициент корреляции:
rB =
Таким образом, у выбранных сосен имеет место очень сильная (т.к. значение rB близко к 1) положительная (т.к. rB >0) корреляция между общей длиной ствола и длиной его части без ветвей.
Найдем теперь выборочное уравнение прямой регрессии У на X.
= rB *
* (x –
,
Где ≈ sy =
,
≈ sx =
Следовательно, ≈
Тогда =
≈
= 0,19
Подставляя в выборочное уравнение прямой регрессии У на X: = 70,
= 23, rB =0,97,
y/
=0,19, получим
.у - 23 = 0,97 • 0,19 • (х - 70)
или
y-23 = 0,18x —12,6.
Окончательно, получаем
y= 0,18x + 10,4
искомое уравнение прямой регрессии У на X.