Лабораторная работа 10. Нарушения допущений классической модели линейной регрессии: мультиколлениарность
Решение типовых задач
Для иллюстрации алгоритма построения регрессионной модели в условиях мултиколлениарности воспользуемся данными из лабораторной работы №4.
Выявление мультиколлениарности на основе матрицы парных коэффициентов корреляции
Как известно самым действенным способом обнаружения мултиколлениарности является построение и анализ матрицы парных коэффициентов корреляции, а именно той ее части, которая относится к объясняющим переменным (т.е. к переменным обозначенным как Xj).
Для расчета матрицы парных коэффициентов в главном меню выдерем Данные/Анализ данных/Корреляция.
Рисунок 1 – Выбор метода анализа данных
В качестве входного интервала выделяем лишь независимые переменные (Xj). В результате получаем матрицу значений коэффициентов (в каждой ячейке значение парного линейного коэффициента корреляции). Стот заметить, что для интерпретации значений данных значений используется шкала Чеддока.
Рисунок 2 – Матрица парных коэффициентов корреляции между независимыми переменными (Примечание: ячейки со значениями более 0,70, выделены вручную)
В тех случаях, когда встречаются значения более 0,7, можно говорить о наличии мультиколлениарности.
В нашем примере имеем несколько таких вариантов:
- r(X1;X3)=0,95
- r(X1;X4)=0,97
- r(X1;X5)=0,70
- r(X3;X4)=0,93
- r(X3;X5)=0,70
Отсюда следует, что совместно данные переменные в множественную модель включать нельзя, в противном случае их влияние на зависимую переменную однозначно установить не удастся.
Выявление мультиколлениарности с помощью VIF-теста
Более корректным способом обнаружения мультиколлениарности считается расчет показателя VIF (Variance Inflation Factor - фактор инфляции вариации):
где: – значение множественного коэффициента детерминации, полученное для регрессора Xj как зависимой переменной и остальных независимых переменных.
Считается что в случае VIF > 10 объясняющие переменные, коррелирующие между собой, считаются мультиколлинеарными.
Таблица 1 – Интервалы возможных значений коэффициента VIF
VIF | Статус предсказателей |
VIF = 1 | Не коррелирует |
1 < VIF < 5 | Умеренно коррелирует |
VIF > 5 до 10 | Высоко коррелированные |
Проиллюстрируем выполнение теста для зависимости:
X1 = f(X2;X3;X4;X5)
В главном меню выбираем Данные/Анализ данных/Регрессия.
В окне Регрессия, в поле Входной интервал Y укажем столбец с переменной X1, а в поле Входной интервал X, необходимо выделять оставшиеся независимые переменные X2-X5.
В результате получаем показатели, представленные на рисунке 3.
Рисунок 3 – Результаты построения регрессионной модели X1 = f(X2;X3;X4;X5)
Для расчета VIF-коэффициента нам необходимо значение множественного коэффициента корреляции (выделено на рисунке 3 овалом). Далее воспользуемся формулой для расчета показателя.
Рисунок 4 – Результаты расчета VIF-коэффициента
В результате расчетов, значение VIF-коэффициента равно 31,47, согласно таблице 1 это значение попадает в третий интервал, т.е. наблюдается сильная коррелированность переменной X1 с остальными независимыми переменными, а значит есть мультиколлениарность.
Аналогичным образом проводят расчет для оставшихся вариантов зависимостей. Для экономия места представим результаты тестирования в сводной таблице 2.
Таблица 2 – Результаты расчета VIF-коэффициента для всех вариантов зависимостей между объясняющими переменными
Зависимость | R2 | VIF-коэффициент | Вывод |
X1 = f(X2;X3;X4;X5) | 0,968 | 31,47 | Высоко коррелированные |
X2 = f(X1;X3;X4;X5) | 0,549 | 2,22 | Умеренно коррелирует |
X3 = f(X1;X2;X4;X5) | 0,912 | 11,32 | Высоко коррелированные |
X4 = f(X1;X2;X3;X5) | 0,952 | 20,91 | Высоко коррелированные |
X5 = f(X1;X2;X3;X4) | 0,783 | 4,60 | Умеренно коррелирует |
Исходя из полученных значений наилучшем вариантом модели, лишенной проблемы мультиколлениарности, будет зависимость:
Y = f(X2;X5)