Метод наименьших квадратов

Пусть по выборке (x_i, y_i) требуется определить оценки коэффициентов b ₀ и b ₁ эмпирического уравнения регрессии (5.8). В случае использования МНК минимизируется следующая функция потерь:

. (10)

Нетрудно заметить, что функция Q является квадратичной функцией двух параметров b ₀ и b ₁, поскольку x_i и y_i – известные данные наблюдений. Поскольку функция Q непрерывна, выпукла и ограничена снизу (Q ³0), то она имеет минимум.

Необходимым условием существования минимума функции двух переменных (10) является равенство нулю ее частных производных по неизвестным параметрам b ₀ и b ₁:

(11)

После преобразований получим систему нормальных уравнений (систему линейных алгебраических уравнений) для определения параметров простой линейной регрессии:

(12)

Разделив оба уравнения на n, получим:

(13)

Здесь , , , . Таким образом, оценки параметров простой линейной регрессии по МНК определяются по формулам (13).

Нетрудно заметить, что b ₁ можно вычислить по формуле

, (14)

где r_xy – выборочный коэффициент корреляции, и – средние квадратичные отклонения.

Таким образом, коэффициент регрессии b ₁ пропорционален коэффициенту корреляции. Следовательно, если коэффициент корреляции r_xy уже рассчитан, то легко может быть найден коэффициент регрессии b ₁ по формуле (14).

Отметим, что кроме уравнения регрессии Y на X: ,

для тех же эмпирических данных может быть найдено уравнение регрессии X на Y: .

Коэффициенты регрессии b_x и b_y в этом случае будут связаны равенством:

. (15)

Подставляя значения b ₀ и b ₁, вычисленные по формулам (13), в (8), получим уравнение линейной регрессии Y на X:

. (16)

Аналогично можно получить уравнение линейной регрессии X на Y:

. (17)

Можно заметить, что обе прямые регрессии пересекаются в точке . Причем, чем больше коэффициент корреляции, тем меньше угол φ между прямыми (рис. 2).

В частности, если r =±1, то обе прямые регрессии совпадут. Если коэффициент корреляции равен нулю, то линии регрессии будут параллельны координатным осям.