Определение 1. Зависимость двух случайных величин называют корреляционной, если изменение одной случайной величины приводит к изменению среднего значения другой случайной величины.
Основные задачи теории корреляции:
1. определить есть ли связь между случайными величинами, если есть, то найти уравнение зависимости (уравнение регрессии);
2. определить силу (тесноту) связи между случайными величинами.
Для определения самого факта связи между случайными величинами и
тесноты связи служит коэффициент корреляции. Уравнение регрессии позволяет предсказать, какие изменения в среднем будет претерпевать признак при изменении другого признака.
Если уравнения регрессии являются линейными, то есть графиками будут прямые линии, то корреляционная зависимость называется линейной.
Пусть извлечена выборка объема п и исследуются два количественных признака X и У. Результаты измерений занесены в таблицу 6.
Таблица 6.
| Значения хi | x1 | х2 | ... | xn |
| Значения уi | y1 | y2 | ... | yn |
Выборочный коэффициент корреляции rB находится по формуле:
rB = 
Свойства выборочного коэффициента корреляции:
1. Значения коэффициента корреляции изменяются на отрезке [-1; 1]:
-1≤ rB ≤1
2. Чем модуль rB больше и ближе к 1, тем теснее связь между изучаемыми признаками.
3. Если | rB| = 1, то между признаками функциональная связь.
4. Если rB = 0, то между изучаемыми признаками нет линейной корреляционной зависимости.
5. Если rB > 0, то между признаками прямая (положительная) связь и если rB < 0, то между признаками обратная (отрицательная) связь.
Выборочное уравнение прямой регрессии У на X имеет вид:
= rB *
* (x – 
где
,
- выборочные средние. За приближенные значения
и
принимают соответственно и sx и sy:
≈ sx =
,
≈ sy = 
Выборочное уравнение прямой регрессии X на У имеет вид:
x –
= rB * *
/
* (y – 
Пример. Психологи провели тестирование среди пациентов психоневрологического диспансера. Возраст пациентов колебался от 14 до 34 лет. Затем была проведена случайная выборка объёмом n=10. Была поставлена задача: определить есть ли зависимость возраста испытуемого (Y) от значения показателя развития заболевания (X). Результаты этого измерения представлены в таблице 7:
Таблица 7.
| X | ||||||||||
| Y |
Требуется вычислить выборочный коэффициент корреляции и найти выборочное уравнение прямой регрессии У на X.
Решение. Вычислим выборочный коэффициент корреляции по формуле:
rB = 
Для вычисления величин, входящих в формулу, составим вспомогательную таблицу 8, в которой результаты измерений записаны столбцами. Внизу каждого из столбцов вычислены суммы для нахождения средних
и
. Далее расположены столбцы, в которых вычисляются
Разности xi –
и
, их квадраты и произведения. Значения этих столбцов суммируются (последняя строка), чтобы получились величины, необходимые для подстановки в формулу. Отметим, что суммы в столбцах, в которых вычислены разности xi –
и
будут всегда равны нулю.
Таблица 8.
| xi | yi | xi –
|
|
|
| *
|
| -45 | -9 | |||||
| -35 | -5 | |||||
| -25 | -4 | |||||
| - 15 | -3 | |||||
| -5 | ||||||
Находим средние
и
(смотри данные в таблице, 1-2 столбцы):
= 700/10 = 70,
= 230/10 = 23.
Выполнив все вычисления в таблице (3-7 столбцы), получаем:
*
=1520,
= 8250
= 298
Подставляя эти значения в соответствующую формулу, вычислим коэффициент корреляции:
rB = 
Таким образом, у выбранных сосен имеет место очень сильная (т.к. значение rB близко к 1) положительная (т.к. rB >0) корреляция между общей длиной ствола и длиной его части без ветвей.
Найдем теперь выборочное уравнение прямой регрессии У на X.
= rB *
* (x –
,
Где
≈ sy =
,
≈ sx = 
Следовательно,
≈ 
Тогда
=
≈
= 0,19
Подставляя в выборочное уравнение прямой регрессии У на X:
= 70,
= 23, rB =0,97,
y/
=0,19, получим
.у - 23 = 0,97 • 0,19 • (х - 70)
или
y-23 = 0,18x —12,6.
Окончательно, получаем
y= 0,18x + 10,4
искомое уравнение прямой регрессии У на X.
*