Выявление мультиколлениарности с помощью VIF-теста




Лабораторная работа 10. Нарушения допущений классической модели линейной регрессии: мультиколлениарность

 

Решение типовых задач

Для иллюстрации алгоритма построения регрессионной модели в условиях мултиколлениарности воспользуемся данными из лабораторной работы №4.

 

Выявление мультиколлениарности на основе матрицы парных коэффициентов корреляции

 

Как известно самым действенным способом обнаружения мултиколлениарности является построение и анализ матрицы парных коэффициентов корреляции, а именно той ее части, которая относится к объясняющим переменным (т.е. к переменным обозначенным как Xj).

Для расчета матрицы парных коэффициентов в главном меню выдерем Данные/Анализ данных/Корреляция.

Рисунок 1 – Выбор метода анализа данных

 

В качестве входного интервала выделяем лишь независимые переменные (Xj). В результате получаем матрицу значений коэффициентов (в каждой ячейке значение парного линейного коэффициента корреляции). Стот заметить, что для интерпретации значений данных значений используется шкала Чеддока.

 

Рисунок 2 – Матрица парных коэффициентов корреляции между независимыми переменными (Примечание: ячейки со значениями более 0,70, выделены вручную)

 

В тех случаях, когда встречаются значения более 0,7, можно говорить о наличии мультиколлениарности.

В нашем примере имеем несколько таких вариантов:

- r(X1;X3)=0,95

- r(X1;X4)=0,97

- r(X1;X5)=0,70

- r(X3;X4)=0,93

- r(X3;X5)=0,70

Отсюда следует, что совместно данные переменные в множественную модель включать нельзя, в противном случае их влияние на зависимую переменную однозначно установить не удастся.

Выявление мультиколлениарности с помощью VIF-теста

 

Более корректным способом обнаружения мультиколлениарности считается расчет показателя VIF (Variance Inflation Factor - фактор инфляции вариации):

где: – значение множественного коэффициента детерминации, полученное для регрессора Xj как зависимой переменной и остальных независимых переменных.

 

Считается что в случае VIF > 10 объясняющие переменные, коррелирующие между собой, считаются мультиколлинеарными.

 

Таблица 1 – Интервалы возможных значений коэффициента VIF

VIF Статус предсказателей
VIF = 1 Не коррелирует
1 < VIF < 5 Умеренно коррелирует
VIF > 5 до 10 Высоко коррелированные

 

Проиллюстрируем выполнение теста для зависимости:

X1 = f(X2;X3;X4;X5)

В главном меню выбираем Данные/Анализ данных/Регрессия.

В окне Регрессия, в поле Входной интервал Y укажем столбец с переменной X1, а в поле Входной интервал X, необходимо выделять оставшиеся независимые переменные X2-X5.

В результате получаем показатели, представленные на рисунке 3.

Рисунок 3 – Результаты построения регрессионной модели X1 = f(X2;X3;X4;X5)

 

Для расчета VIF-коэффициента нам необходимо значение множественного коэффициента корреляции (выделено на рисунке 3 овалом). Далее воспользуемся формулой для расчета показателя.

Рисунок 4 – Результаты расчета VIF-коэффициента

 

В результате расчетов, значение VIF-коэффициента равно 31,47, согласно таблице 1 это значение попадает в третий интервал, т.е. наблюдается сильная коррелированность переменной X1 с остальными независимыми переменными, а значит есть мультиколлениарность.

Аналогичным образом проводят расчет для оставшихся вариантов зависимостей. Для экономия места представим результаты тестирования в сводной таблице 2.

 

Таблица 2 – Результаты расчета VIF-коэффициента для всех вариантов зависимостей между объясняющими переменными

Зависимость R2 VIF-коэффициент Вывод
X1 = f(X2;X3;X4;X5) 0,968 31,47 Высоко коррелированные
X2 = f(X1;X3;X4;X5) 0,549 2,22 Умеренно коррелирует
X3 = f(X1;X2;X4;X5) 0,912 11,32 Высоко коррелированные
X4 = f(X1;X2;X3;X5) 0,952 20,91 Высоко коррелированные
X5 = f(X1;X2;X3;X4) 0,783 4,60 Умеренно коррелирует

 

Исходя из полученных значений наилучшем вариантом модели, лишенной проблемы мультиколлениарности, будет зависимость:

Y = f(X2;X5)

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-06-21 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: