Регрессионный анализ
Регрессио́нный (линейный) анализ — статистический метод исследования влияния одной или нескольких независимых переменных
на зависимую переменную Y. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных, а не причинно-следственные отношения.
Цели регрессионного анализа
1.Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными)
2.Предсказание значения зависимой переменной с помощью независимой(ых)
3.Определение вклада отдельных независимых переменных в вариацию зависимой
Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.
Математическое определение регрессии
Строго регрессионную зависимость можно определить следующим образом. Пусть Y, — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений
определено условное математическое ожидание
(уравнение регрессии в общем виде), то функция
называется регрессией величины Y по величинам а её график — линией регрессии Y, по
или уравнением регрессии.
Зависимость Y от проявляется в изменении средних значений Y при изменении
. Хотя при каждом фиксированном наборе значений
величина Y остаётся случайной величиной с определённым рассеянием.
Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение Y при изменении используется средняя величина дисперсии Y при разных наборах значений
(фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).
Метод наименьших квадратов (расчёт коэффициентов)
На практике линия регрессии чаще всего ищется в виде линейной функции
(линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых Y от их оценок
(имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):
(M — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда .
Полученная система является системой N+1 линейных уравнений с N+1 неизвестными
Если представить свободные члены левой части уравнений матрицей
а коэффициенты при неизвестных в правой части матрицей
то получаем матричное уравнение: A x X = B. которое легко решается методом Гаусса. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:
Для получения наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса−Маркова). В англоязычной литературе такие оценки называются BLUE (Best Linear Unbiased Estimators) − наилучшие линейные несмещенные оценки.