Выявление мультиколлениарности с помощью VIF-теста

Лабораторная работа 10. Нарушения допущений классической модели линейной регрессии: мультиколлениарность

Решение типовых задач

Для иллюстрации алгоритма построения регрессионной модели в условиях мултиколлениарности воспользуемся данными из лабораторной работы №4.

Выявление мультиколлениарности на основе матрицы парных коэффициентов корреляции

Как известно самым действенным способом обнаружения мултиколлениарности является построение и анализ матрицы парных коэффициентов корреляции, а именно той ее части, которая относится к объясняющим переменным (т.е. к переменным обозначенным как X_j).

Для расчета матрицы парных коэффициентов в главном меню выдерем Данные/Анализ данных/Корреляция.

Рисунок 1 – Выбор метода анализа данных

В качестве входного интервала выделяем лишь независимые переменные (X_j). В результате получаем матрицу значений коэффициентов (в каждой ячейке значение парного линейного коэффициента корреляции). Стот заметить, что для интерпретации значений данных значений используется шкала Чеддока.

Рисунок 2 – Матрица парных коэффициентов корреляции между независимыми переменными (Примечание: ячейки со значениями более 0,70, выделены вручную)

В тех случаях, когда встречаются значения более 0,7, можно говорить о наличии мультиколлениарности.

В нашем примере имеем несколько таких вариантов:

- r(X1;X3)=0,95

- r(X1;X4)=0,97

- r(X1;X5)=0,70

- r(X3;X4)=0,93

- r(X3;X5)=0,70

Отсюда следует, что совместно данные переменные в множественную модель включать нельзя, в противном случае их влияние на зависимую переменную однозначно установить не удастся.

Выявление мультиколлениарности с помощью VIF-теста

Более корректным способом обнаружения мультиколлениарности считается расчет показателя VIF (Variance Inflation Factor - фактор инфляции вариации):

где: – значение множественного коэффициента детерминации, полученное для регрессора Xj как зависимой переменной и остальных независимых переменных.

Считается что в случае VIF > 10 объясняющие переменные, коррелирующие между собой, считаются мультиколлинеарными.

Таблица 1 – Интервалы возможных значений коэффициента VIF

VIF	Статус предсказателей
VIF = 1	Не коррелирует
1 < VIF < 5	Умеренно коррелирует
VIF > 5 до 10	Высоко коррелированные

Проиллюстрируем выполнение теста для зависимости:

X1 = f(X2;X3;X4;X5)

В главном меню выбираем Данные/Анализ данных/Регрессия.

В окне Регрессия, в поле Входной интервал Y укажем столбец с переменной X1, а в поле Входной интервал X, необходимо выделять оставшиеся независимые переменные X2-X5.

В результате получаем показатели, представленные на рисунке 3.

Рисунок 3 – Результаты построения регрессионной модели X1 = f(X2;X3;X4;X5)

Для расчета VIF-коэффициента нам необходимо значение множественного коэффициента корреляции (выделено на рисунке 3 овалом). Далее воспользуемся формулой для расчета показателя.

Рисунок 4 – Результаты расчета VIF-коэффициента

В результате расчетов, значение VIF-коэффициента равно 31,47, согласно таблице 1 это значение попадает в третий интервал, т.е. наблюдается сильная коррелированность переменной X1 с остальными независимыми переменными, а значит есть мультиколлениарность.

Аналогичным образом проводят расчет для оставшихся вариантов зависимостей. Для экономия места представим результаты тестирования в сводной таблице 2.

Таблица 2 – Результаты расчета VIF-коэффициента для всех вариантов зависимостей между объясняющими переменными

Зависимость	R2	VIF-коэффициент	Вывод
X1 = f(X2;X3;X4;X5)	0,968	31,47	Высоко коррелированные
X2 = f(X1;X3;X4;X5)	0,549	2,22	Умеренно коррелирует
X3 = f(X1;X2;X4;X5)	0,912	11,32	Высоко коррелированные
X4 = f(X1;X2;X3;X5)	0,952	20,91	Высоко коррелированные
X5 = f(X1;X2;X3;X4)	0,783	4,60	Умеренно коррелирует

Исходя из полученных значений наилучшем вариантом модели, лишенной проблемы мультиколлениарности, будет зависимость:

Y = f(X2;X5)

Выявление мультиколлениарности с помощью VIF-теста

Поиск по сайту