Множественная линейная регрессия
Понятие множественной линейной регрессии
Множественная линейная регрессия - выраженная в виде прямой зависимость среднего значения величины Y от двух или более других величин X 1, X 2,..., X m. Величину Y принято называть зависимой или результирующей переменной, а величины X 1, X 2,..., X m - независимыми или объясняющими переменными.
Уравнение множественной линейной регрессии для выборки имеет следующий вид:
, (1)
где: - коэффициенты регрессионной модели.
Исходные (экспериментальные) данные
Исходные данные для построения линейной регрессионной модели представляются в виде таблицы.
Таблица 1.
Результирующая переменная | Независимые переменные | ||||
№ п/п | Y | X1 | X2 | … | Xm |
y1 | x11 | x12 | … | x1m | |
y2 | x21 | x22 | … | x2m | |
… | … | … | … | … | … |
i | yi | xi1 | xi2 | … | xim |
… | … | … | … | … | … |
n | yn | xn1 | xn2 | … | xnm |
Исходные данные получены в результате проведения n экспериментов (наблюдений, измерений). n – объем выборки. В результате каждого i – го (i = 1,2,…,n) эксперимента получены m значений независимых переменных xi1, xi2, …, xim и одно соответствующее значение результирующей переменной yi.
МНК-оценка коэффициентов уравнения множественной регрессии в матричном виде
Данные наблюдений и коэффициенты уравнения множественной регрессии можно представить в виде следующих матриц:
Матрица Х получена из матрицы значений независимых переменных, приведенных в таблице 1, в результате добавления слева столбца из единиц.
Уравнение множественной линейной регрессии в матричном виде имеет вид
(2)
В результате решения матричного уравнения (2) получаем формулу для вычисления коэффициентов множественной линейной регрессии в матричном виде:
, (3)
где - матрица, транспонированная к матрице X,
- матрица, обратная к матрице
.
Произведя необходимые вычисления по формуле (3), мы получаем вектор-столбец b, элементами которого являются искомые коэффициенты уравнения множественной линейной регрессии, полученные методом наименьших квадратов.
Множественный коэффициент корреляции
Оценка силы (тесноты) линейной корреляционной связи между результирующей переменной Y и независимыми переменными производится с помощью множественного коэффициента корреляции R, вычисляемого по формуле
,
где: - корреляционная матрица, элементами которой являются парные коэффициенты корреляции;
- алгебраическое дополнение элемента
корреляционной матрицы.
Корреляционная матрица имеет вид
.
Нулевая строка и нулевой столбец соответствуют результирующей переменной Y, строки и столбцы с номерами от 1 до m - соответствующим независимым переменным .
Свойства корреляционной матрицы:
· корреляционная матрица симметричная, т.е. ;
· элементы, расположенные на главной диагонали, равны 1, т.е. .
Оценка адекватности множественного уравнения регрессии
Оценка адекватности множественного уравнения регрессии (1) может быть произведена с помощью F-критерия Фишера.
Вначале необходимо вычислить фактическое значение F-критерия Фишера .
Вычисляем коэффициент детерминации
,
где: n – объем выборки (количество экспериментов);
- фактические (экспериментальные) значения результирующей переменной Y;
- теоретические (вычисленные по формуле (1)) значения результирующей переменной Y;
- среднее значение экспериментальных значений
.
Вычисляем фактическое значение F- критерия Фишера по формуле:
,
где: R 2 - коэффициент детерминации;
n – объем выборки (количество экспериментов);
k – количество независимых переменных в уравнении регрессии (1), k = m.
Вычисленное значение фактического значения F- критерия Фишера Fфакт сравнивается с табличным значением Fтабл при степенях свободы и уровне значимости a (обычно a = 0,05).
Модель адекватна, если .