Тема 10. Фиктивные переменные




Аннотация. Данная тема раскрывает особенности построения регрессионных моделей с переменной структурой.

Ключевые слова. Фиктивные переменные, Anova – модели, Ancova – модели, тест Чоу.

Методические рекомендации по изучению темы

· Тема содержит лекционную часть, где даются общие представления по теме.

· В качестве самостоятельной работы предлагается ознакомиться с решениями типовых задач, выполнить практические задания и ответить на вопросы для самоконтроля.

· Для проверки усвоения темы имеется тест для самоконтроля.

· Для подготовки к экзамену имеется контрольный тест.

Рекомендуемые информационные ресурсы:

1. https://tulpar.kpfu.ru/mod/resource/view.php?id=11766

2. Эконометрика: [Электронный ресурс] Учеб.пособие / А.И. Новиков. - 3-e изд., испр. и доп. - М.: ИНФРА-М, 2014. - 272 с.: (https://znanium.com/catalog.php?item=booksearch&code=%D1%8D%D0%BA%D0%BE%D0%BD%D0%BE%D0%BC%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B0&page=1#none) С. 63-65.

3. Валентинов, В. А. Эконометрика [Электронный ресурс]: Практикум / В. А. Валентинов. - 3-е изд. - М.: Дашков и К, 2010. - 436 с.

(https://znanium.com/catalog.php?item=booksearch&code=%D1%8D%D0%BA%D0%BE%D0%BD%D0%BE%D0%BC%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B0&page=3#none) С. 229-242.

4. Эконометрика. Практикум: [Электронный ресурс] Учебное пособие / С.А. Бородич. - М.: НИЦ ИНФРА-М; Мн.: Нов.знание, 2014. - 329 с. (https://znanium.com/catalog.php?item=booksearch&code=%D1%8D%D0%BA%D0%BE%D0%BD%D0%BE%D0%BC%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B0&page=4#none) С. 253-273.

Глоссарий

ANCOVA-модель (модель ковариационного анализа) – это регрессионная модель, в которой объясняющие переменные носят как количественный, так и качественный характер.

ANOVA-модель (модель дисперсионного анализа) - это регрессионная модель, содержащая лишь качественные объясняющие переменные.

Фиктивные переменные - переменные, которые отражают в модели влияние качественного фактора, содержащего атрибутивные признаки двух и более уровней.

Чоу тест – метод определения целесообразности применения фиктивных переменных в регрессионной модели.

Вопросы для изучения

1. Регрессионные модели с переменной структурой (фиктивные переменные).

2. Правило использования фиктивных переменных.

3. ANOVA–модели и ANCOVA–модели. Тест Чоу на наличие структурной перестройки.

Регрессионные модели с переменной структурой (фиктивные переменные). Исходные статистические данные называют однородными, если все они зарегистрированы при одних и тех же условиях (время года, регион, образование, пол человека). Если же данные объединяют в себе наблюдения, зарегистрированные при различных условиях, то они могут быть неоднородными. В этом случае в модель включается фактор, имеющий два или более качественных уровней. Фиктивные (dummy variables, искусственные, двоичные, структурные) переменные отражают в модели влияние качественного фактора, содержащего атрибутивные признаки двух и более уровней. Для того, чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, то есть качественные переменные необходимо преобразовать в количественные.

Правило использования фиктивных переменных. В случае, когда качественная переменная принимает не два, а большее число значений, может возникнуть ситуация, которая называется ловушкой фиктивной переменной. Она возникает, когда для моделирования k значений качественного признака используется ровно k бинарных (фиктивных) переменных. В этом случае одна из таких переменных линейно выражается через все остальные, и матрица становится вырожденной. Тогда исследователь попадает в ситуацию совершенной мультиколлинеарности. Избежать подобной ловушки позволяет правило:

если качественная переменная имеет k альтернативных значений, то при моделировании используется только (k-1) фиктивных переменных.

ANOVA–модели и ANCOVA–модели. Тест Чоу на наличие структурной перестройки. Регрессионные модели, содержащие лишь качественные объясняющие переменные, называются ANOVA-моделями (моделями дисперсионного анализа). Например, зависимость начальной заработной платы от образования может быть записана так: , где D =0, если претендент на рабочее место не имеет высшего образования, D =1, если имеет. Тогда при отсутствии высшего образования начальная заработная плата равна: а при его наличии: Регрессионные модели, в которых объясняющие переменные носят как количественный, так и качественный характер, называются ANCOVA-моделями (моделями ковариационного анализа).

Рис.10.1. Виды Ancova-моделей

Например, Ancova-модель при наличии у фиктивной переменной двух альтернатив:

y=a+b*x+γ*D+ε, D=1- лица мужского пола, D=0 – лица женского пола. Ожидаемое потребление кофе при цене x будет: y=a+b*x+ε для женщины; y=a+b*x+γ*D+ε=(a+ γ)+b*x +ε – для мужчины. Если γ будет статистически значим по t-статистике, то пол влияет на потребление кофе. При γ >0 - в пользу мужчин, при γ <0 – в пользу женщин.

Тест Чоу: Вся выборка объёма n разбивается на две подвыборки объёмами n1 и n2 (n1 + n2 = n), и для каждой строится уравнение регрессии. Обозначим через s1 и s2 остаточные СКО для каждой из регрессий. Кроме того, строится общая регрессия для всех наблюдений (линия 3), и для неё определяется остаточная СКО, которую обозначим s3. Равенство s3 = s1 + s2 возможно лишь при совпадении коэффициентов регрессии для всех трёх уравнений. Если сумма s1+s2 будет значительно меньше, чем s3, то можно считать разбиение общей выборки на две подвыборки обоснованным. В этом смысле разность (s3 -(s1+s2)) можно считать мерой улучшения качества модели при разбиении выборки на две части. Однако при разбиении уменьшается число степеней свободы каждой из подвыборок. Эта альтернатива между числом степеней свободы и уменьшением остаточной СКО выражается через статистику

,

где p – число факторов. Данное выражение равно отношению уменьшения необъясненной дисперсии к необъясненной дисперсии кусочно – линейной модели.

Если уменьшение дисперсии статистически незначимо, то F-статистика имеет распределение Фишера с (p +1, n -2 p -2) степенями свободы. Если на заданном уровне значимости α , то нет смысла разбивать уравнение регрессии на части. В противном случае разбиение на подвыборки целесообразно с точки зрения улучшения качества модели.

Вопросы и задания для самоконтроля

1. В чем преимущества фиктивных переменных?

2. Как фиктивные переменные включаются в модель регрессии?

3. В чем суть ANOVA-моделей?

4. В чем суть ANCOVA-моделей?

5. В чем состоит правило применения фиктивных переменных?

6. Какой смысл имеет дифференциальный свободный член?

7. Какой смысл имеет дифференциальный угловой коэффициент?

8. Какова идея теста Чоу?

Задача 1. Исследуется зависимость заработной платы от возраста рабочего для мужчин и женщин. Оценивание объединенной регрессии

( 20) и отдельных регрессий для рабочих-мужчин ( 13) и рабочих-женщин ( 7) дали следующие результаты:

Выборка Оцененное уравнение Сумма квадратов остатков
Объединенная 0,728  
Мужчины 0,735  
Женщины 0,712  

 

Задание: проверить на уровне значимости 0,05 с использованием критерия Чоу, улучшилось ли качество регрессии после разделения выборки на части.

 

Лекция 12



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-06-11 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: