Исследование модели на мультиколлинеарность




Итак, в целом модель значима, но из четырёх коэффициентов при объясняющих переменных значим только один – при переменной Х4. Стандартные ошибки остальных коэффициентов превышают или сравнимы по абсолютной величине с оценками коэффициентов, что свидетельствует о возможности включения точки 0 в соответствующие доверительные интервалы.

Вообще, мультиколлинеарность – это наличие тесных статистических связей между объясняющими переменными. Проверим это.

1. В первую очередь анализируют оценку матрицы парных коэффициентов корреляции между объясняющими переменными. Считается, что наличие значимых коэффициентов корреляции, по абсолютной величине превосходящих 07-0,8, свидетельствуют о присутствии мультиколлинеарности.

 

Коэффициенты корреляции, наблюдения 1 - 24

5% критические значения (двухсторонние) = 0,4044 для n = 24

 

X1 X2 X3 X4  
1,0000 0,1266 -0,0672 0,4478 X1
  1,0000 0,3442 0,2657 X2
    1,0000 0,1464 X3
      1,0000 X4

 

Рисунок 7 – Результаты оценки корреляционной матрицы между объясняющими переменными

Как видно из рисунка, между объясняющими переменными Х1 и Х4 (), Х3 и X2 () не наблюдается тесная связь. Это говорит об отсутствии признаков мультиколлинеарности.

2. Более подробное изучение вопроса наличия взаимосвязи между объясняющими переменными достигается с помощью расчета значений коэффициентов детерминации каждой из объясняющих переменных по всем остальным переменным .

Для определения коэффициентов детерминации нужно оценить модели регрессии, где в качестве зависимой переменной выбрать , все остальные объясняющие переменные в качестве независимых.

Найдем оценку коэффициента детерминации (рисунок 8).

 

 

Рисунок 8 – Оценка коэффициента детерминации переменной х1

 

Таким образом, .

По той же схеме найдем , , . Для всех переменных оценки коэффициентов детерминации невысоки, не превышают 0,7, что может говорить об отсутствии мультиколлинеарности.

Аналогом данного критерия является так называемый метод инфляционных факторов.

Итак, проверим мультиколлинеарность по методу инфляционных факторов (рисунок 9).

 

 

Рисунок 9 – Результаты проверки мультиколлинеарности по методу инфляционных факторов

Суть метода заключается в анализе величины

.

Считается, что значения могут свидетельствовать о наличии мультиколлинеарности. Как видно из рисунка 9, инфляционные факторы всех переменных не превышают 10.

3. Достаточным условием плохой обусловленности матрицы системы нормальных уравнений (наличия мультиколинеарности) является большое значение числа обусловленности:

,

где - максимальное и минимальное собственные числа матрицы ХТХ

Для расчета числа обусловленности напишем небольшую последовательность команд – скрипт (рисунок 10).

 

Рисунок 10 – Скрипт для вычисления числа обусловленности матрицы ХТХ

После чего получаем результат (рисунок 11).

 

 

Рисунок 11 – Результат для нахождения числа обусловленности матрицы

Итак, можно сделать вывод о том, что число обусловленности М =209,166 достаточно велико и говорит о наличии мультиколлинеарности.

Таким образом, перечисленные выше проблемы, связанные с незначимыми коэффициентами, неверными знаками коэффициентов являются следствием мультиколлинеарности. Плохая обусловленность матрицы системы привела к большим погрешностям в МНК-оценках коэффициентов и их стандартных ошибок. Эти оценки неустойчивы, незначительное изменение состава выборки или состава объясняющих переменных может вызвать кардинальное изменение модели, что делает модель непригодной для практических целей.

Для оценивания линейной модели множественной регрессии в условиях мультиколлинеарности используются методы пошаговой регрессии, использование гребневой регрессии (ридж-регрессии), переход от первоначальных переменных к их главным компонентам и др.

Будем устранять мультиколлинеарность методом пошаговой регрессии с включением, суть которого заключается в переходе от исходного количества объясняющих переменных Х1,…, Хk к меньшему числу Х1,…,Хp, отобрав наиболее существенные с точки зрения их влияния на результативный признак.

На первом шаге определяется первая объясняющая переменна , которую можно назвать наиболее информативной, при условии, что в регрессионную модель по мы можем включить только одну из набора объясняющих переменных. Для этого нужно оценить k моделей регрессии: Y на Х1, …, Y на Хk(рисунок 12).

 

 

Рисунок 12 – Скалярные величины после выполнения скрипта оценивания регрессий Y на Х1, …, Y на Xk

 

Видим, что

Рассчитаем также несмещенную оценку коэффициента детерминации

 

 

и величину нижней доверительной границы

На втором шаге нужно найти уже наиболее информативную пару объясняющих переменных , при чем одна их них та, которую отобрали на предыдущем шаге – Х4. Для этого нужно оценить k-1=4-1=3 модели регрессии: Y на Х4 и Х1, Y на Х4 и Х2, Y на Х4 и Х3. Модифицируем скрипт и запустим его на выполнение. Результаты представлены на рисунке 13.

 

Рисунок 13 - Скалярные величины после выполнения скрипта оценивания регрессий Y на пару объясняющих переменных

 

Как видно из рисунка 13,

 

То есть на втором шаге в модель добавляем переменную Х1.

на шаге 2 меньше, чем на шаге 1, поэтому не продолжаем процедуру.

 

 

Построим в Excel график, на оси абсцисс которого будем откладывать номер шага (=количество переменных в модели), а по оси ординат – и (рисунок 14).

 

 

 

Рисунок 14- График изменения и в зависимости от номера шага

Как видно из графика, нижняя граница доверительного интервала скорректированного коэффициента детерминации начинает убывать на шаге 2, значит, процедура останавливается и окончательный состав переменных в модели: Х4.

В результате проведения пошаговой регрессии получили следующую оценку модели регрессии:

 

(4,52) (0,14)

 

Проверка подтвердила нормальный характер распределения регрессионных остатков модели (таблица 1).

Таблица 1 – Результаты проверки гипотезы о нормальности регрессионных остатков модели, полученной методом пошаговой регрессии

Критерий p-значение
  Хи-квадрат 0,84
  Дурника-Хансена 0,84
  Шапиро-Уилка 0,71
  Лиллифорса 0,86
  Жака-Бера 0,77

 

Таблица 2 – Результаты оценки модели и проверки значимости коэффициентов

  Коэффициент Ст. ошибка t-статистика P-значение  
const 58,40 4,52 12,91 9,65е-012 ***
X4 0,63 0,14 4,48 0,0002 ***

 

Оценка модели регрессии значима (); коэффициенты при всех переменных также значимы. Коэффициент детерминации составил 0,95, т.е. на 95% количества сотрудников таможенных органов зависит от количества преступлений совершаемых на данной таможне, а 5% вариации, вероятно, объясняется неучтенными в модели факторами (т.е. X1,X2,X3)

Согласно полученной модели, увеличение количества сотрудников на 1 человека приводит к увеличению числа преступлений на 0,63 штук.

 

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-12-12 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: