Тема 2 Мультиколлинеарность




Лабораторная работа №3

Тема: Некоторые аспекты применения множественной регрессии.

Тема 1 Модели с фиктивными (качественными) переменными

Зачастую в регрессионных моделях в качестве объясняющих переменных приходится использовать не только количественные (определяемые численно), но и качественные переменные. Например, спрос на некоторое благо может определяться ценой данного блага, ценой на заменители данного блага, ценой дополняющих благ, доходом потребителей и т. д. (эти показатели определяются количественно). Но спрос может также зависеть от вкусов потребителей, их ожиданий, национальных и религиозных особенностей и т.д. Представить эти показатели в численном виде нельзя. Возникает проблема отражения в модели влияния таких переменных на исследуемую величину. Это достаточно сложная задача. Обычно в моделях влияние качественного фактора выражается в виде фиктивной (искусственной) переменной, которая отражает два противоположных состояния качественного фактора. Например, «фактор действует» - «фактор не действует», «курс валюты фиксированный» - «курс валюты плавающий», «сезон летний» - «сезон зимний» и т.д. В этом случае фиктивная переменная может выражаться в двоичной форме:

 

Например, D = 0, если потребитель не имеет высшего образования, D = 1, если потребитель имеет высшее образование.

Переменная D называется фиктивной (искусственной, двоич­ной) переменной (индикатором).

Таким образом, кроме моделей, содержащих только количественные объясняющие переменные (обозначаемые Xi), в регрессионном анализе рассматриваются также модели, содержащие лишь качественные переменные (обозначаемые Di), либо и те и другие одновременно.

Регрессионные модели, содержащие лишь качественные объясняющие переменные, называются ANOVA-моделями (моделями дисперсионного анализа).

При наличии фиктивных переменных исходная модель линейной регрессии записывается в виде

где количество фиктивных переменных на единицу меньше количества уровней качественного признака. Это нужно для того, чтобы обеспечить свойства матрицы наблюдений X о независимости ее столбцов. Если включить количество k + 1 фиктивных переменных со значениями 0 или 1, равное количеству уровней признака, то первый столбец матрицы X, состоящий из единиц, вместе с k + 1 столбцами переменных D будут линейно зависимыми.

 

 

Задание 1

По данным, приведенным в таблице 1, определить зависимость заработной платы работника (У) от возраста (X) с использованием фиктивной переменной по качественному фактору пола по 20 работникам одного предприятия.

Построить уравнение множественной регрессии, оценить значимость уравнения в целом и его коэффициентов.

Для решения ввести в модель фиктивную переменную D которая принимает два значения: 1 - если пол мужской; 0 - если пол женский. Оценить параметры модели

методом наименьших квадратов (МНК).

Для вычислений воспользоваться пакетом анализа в Ехсеl (Данные – анализ данных-регрессия)

Сделать выводы по результатам вычислений.

Таблица 1

Заработная плата работника, У Возраст работника (лет), Х Пол, м/ж (1/0), D
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       

 

Тема 2 Мультиколлинеарность

Часто при построении модели линейной множественной регрессии объясняющие переменные в той или иной мере связаны друг с другом. Линейная зависимость между объясняющими переменными приводит к негативному явлению - мультиколлинеарности. При наличии мультиколлинеарности нарушается условие о линейной независимости столбцов матрицы X. В этом случае матрица XTX необратима, и вектор оценок параметров модели по формуле не может быть определен.

Причинами мулътиколлинеарности часто являются следующие погрешности спецификации модели.

1. Включение в модель факторов, представляющих линейную комбинацию других факторов или факторов, имеющих между собой сильную корреляционную зависимость.

2. Использование фиктивных переменных, количество которых равно периоду сезонности.

3. Наличие в модели большого числа лаговых переменных.

О наличии мультиколлинеарности в модели свидетельствуют:

• высокие значения коэффициентов парной корреляции между факторами (больше 0,8), max |rij|>R.

• значительные изменения коэффициентов регрессии при изменениях набора факторов.

Методы устранения мультиколлинеарности. Иногда Мультиколлинеарность не является таким уж серьезным «злом», чтобы прилагать существенные усилия по ее выявлению и устранению. Все зависит от целей исследования. Если основная задача модели - прогноз будущих значений результативного признака, то при R2 0,9 наличие мультиколлинеарности обычно не сказывается на прогнозных качествах модели. Единого метода устранения мультиколлинеарности не существует. Простейшим методом является исключение из модели ряда коррелированных переменных. В прикладных моделях лучше не сокращать число факторов до тех пор, пока Мультиколлинеарность не станет серьезной проблемой. Для уменьшения мультиколлинеарности достаточно увеличить объем выборки. Но при этом может усилиться автокорреляция. Иногда проблема мультиколлинеарности может быть решена с помощью изменения спецификации модели. Решению проблемы устранения мультиколлинеарности может помочь и переход к уравнениям приведенной формы.

Для устранения мультиколлинеарности может быть использован переход от исходных факторов к новым переменным, представляющим линейные комбинации исходных. При этом новые переменные должны быть слабо коррелированы.

Еще одним из возможных методов уменьшения мультиколлинеарности является использование пошаговых процедур отбора наиболее информативных переменных. Например, на первом шаге рассматривается лишь одна объясняющая переменная, имеющая с зависимой переменной У наибольший коэффициент детерминации. На втором шаге выбирается новая переменная, которая вместе с первоначально отобранной имеет с У наиболее высокий скорректированный коэффициент детерминации. На третьем шаге добавляется третья переменная, которая вместе с выбранными двумя имеет с У наибольший скорректированный коэффициент детерминации, и т.д. Процедура введения новых переменных продолжается до тех пор, пока будет увеличиваться соответствующий скорректированный коэффициент детерминации.

Существует еще один метод устранения мультиколлинеарности без изменения состава регрессоров. Согласно этому методу для обеспечения нужных свойств матрицы XTX к ней прибавляется с некоторым коэффициентом τ диагональная матрица L, элементами которой являются диагональные элементы матрицы XTX. После преобразования оценки коэффициентов модели оказываются смещенными, поэтому полученную таким образом регрессию называют ридж-регрессией. Подбором величины коэффициента τ, который, как правило, находится в интервале (0,1; 0,5), можно добиться стабилизации коэффициентов уравнения модели.

Задание 2

В таблице 2 приведены данные о значениях зависимой переменной У и шести факторов Х16. Необходимо:

1) с помощью матрицы коэффициентов корреляции и уравнения регрессии произвести отбор более нужных факторов, оставив два из них;

2) для оставшихся двух факторов построить уравнение регрессии, оценить значимость уравнения в целом и его коэффициентов. Построить доверительные интервалы на уровне значимости 0,05 для коэффициентов регрессии. Дать экономическую интерпретацию коэффициентов уравнения регрессии;

3) взяв в качестве прогнозных значений выделенных факторов 180% их средних значений, найти прогнозное значение, его индивидуальную ошибку и ее доверительный интервал;

4) проверить наличие автокорреляции остатков с помощью теста Дарбина-Уотсона и условие гомоскедастичности с помощью теста Голдфелда-Квандта.

Таблица 2

Y X1 X2 X3 X4 X5 X6
  10,3   5 1,2 5 1,25 0,85
  10,5     3,1   1,13 0,98
  10,6     1,9   12,9 0,82
  10,7     1,3   12,2 0,7
            1,28 0,53
  11,5     2,5   1,12 0,48
        1,1   1,2 0,61
  12,2     2,1   1,18 0,47
  12,5     3,6   1,24 0,67
  12,6     4,9   1,15 0,42
            1,13 0,49
  13,9     4,5   1,17 0,41
  14,4         0,95 0,4
  15,2     4,2     0,5
        6,8   0,7 0,37

 

Задание 3

В качестве примера построения регрессионной модели в условиях мультиколлинеарности рассмотрим зависимость урожайности зерновых культур от пяти факторов.

По данным сельскохозяйственных районов региона (п = 20), приведенным в таблице 3, построить регрессионную модель урожайности.

Таблица 3

 

  Урожайность зерновых культур, ц/га, Yi Число колесных тракторов (приведенной мощности) на 100 га, Xi1 Число зерноуборочных комбайнов на 100 га, Xi2 Число орудий поверхностной обработки почвы на 100 га, Xi3 Количество удобрений, расходуемых на 1 га, Xi4 Количество расходуемых химических средств оздоровления растений, Xi5
  2          
  9,70 1,59 0,26 2,05 0,32 0,14
  8,40 0,34 0,28 0,46 0,59 0,66
  9,00 2,53 0,31 2,46 0,30 0,31
  9,90 4,63 0,40 6,44 0,43 0,59
  9,60 2,16 0,26 2,16 0,39 0,16
  8,60 2,16 0,30 2,69 0,32 0,17
  12,50 0,68 0,29 0,73 0,42 0,23
  7,60 0,35 0,26 0,42 0,21 0,08
  6,90 0,52 0,24 0,49 0,20 0,08
  13,50 3,42 0,31 3,02 1,37 0,73
  9,70 1,78 0,30 3,19 0,73 0,17
  10,70 2,40 0,32 3,30 0,25 0,14
  12,10 9,36 0,40 11,51 0,39 0,38
  9,70 1,72 0,28 2,26 0,82 0,17
  7,00 0,59 0,29 0,60 0,13 0,35
  7,20 0,28 0,26 0,30 0,09 0,15
  8,20 1,64 0,29 1,44 0,20 0,08
  8,40 0,09 0,22 0,05 0,43 0,20
  13,10 0,08 0,25 0,03 0,73 0,20
  8,70 1,36 0,26 1,17 0,99 0,42

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-10-25 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: