Регрессионный анализ. Условия Гаусса-Маркова




Корреляционный анализ дает возможность определить взаимосвязь двух величин, но не дает ответ на вопрос, на сколько при изменении одного показателя изменяется другой. Для этого существует регрессионный анализ.

Регрессионный анализ – метод математической статистики, который изучает регрессионную зависимость генеральной совокупности между некоторыми показателями на основе анализа регрессионной зависимости выборки. На графиках 1, 2, 3 приложения 2 мы видим линию, проходящую через условные средние – линию регрессии. Математическая формула, соответствующая этой линией называется функцией регрессии, которая описывает изменения средних значений y. Условное среднее изменяется по линейному закону, поэтому мы выбираем линейную модель регрессии, которая имеет вид:

С помощью Excel найдем количественную оценку параметров модели. Для этого выделим таблицу и на панели управления выберем Сервис/Анализ данных – регрессия. Либо введем в командной строке в Eviews «ls y c x1 x2 x3 d1 r1 r2 r3». В итоге получим:

ŷ= 10199+943*X1+6019,5*X2-604,3*X3+11957,4*d1+15040,7*R1+13532*R2+4232,1*R3

(i=1-7) – коэффициент регрессии, имеет следующий экономический смысл: при изменении независимой переменной на 1, y в среднем изменится на величину при условии, что остальные факторы остаются неизменными. Например, =943 означает, что при увеличении памяти ноутбука на 1Гб стоимость компьютера увеличивается в среднем на 943 рубля.

Так как <0, зависимость между y и x3 обратная. То есть при увеличении диагонали ноутбука на 1 дюйм стоимость компьютера уменьшится на 604,3 рубля.

Следующим этапом регрессионного анализа является оценка качества модели, основанная на теореме Гаусса-Маркова. В данной теореме 1)рассматривается только линейная форма зависимости и 2)независимые переменные могут быть как случайными величинами, так и нет.

В теореме Гаусса-Маркова описываются требования к остаткам, от которых зависит качество модели и качество оценок коэффициентов регрессии. Оценки будут хорошими, если будут выполняться следующие условия:

а) математическое ожидание (среднее) остатков будет равно нулю;

б) между последующими значениями остатков не должно быть корреляции;

в) дисперсия остатков должна быть постоянной (гомоскедастичной).

В результате, если выполняются эти требования, наши остатки – случайные независимые величины, имеющие нормальное распределение.

Проведем проверку каждого коэффициента регрессии. Для этого относительно каждого считается t-статистика по формуле , которая сравнивается с tкрит(α=0,05;n-k-1=28) (его можно найти в таблице критических точек распределений Стьюдента или в MSExcel через СТЬЮДРАСПОБР(0,05;28)). Принимается гипотеза Н0: о том, что в генеральной совокупности нет регрессионной зависимости. Н1: - альтернативная гипотеза. Если |tнабл|> tкрит, то Н0 отклоняется, коэффициент регрессии статистически значим; фактор оказывает существенное влияние, его следует оставить в модели. Если |tнабл|< tкрит, то Н0 принимается, коэффициент регрессии статистически не значим; фактор не оказывает существенное влияние.

Но быстрее проверить значимость коэффициентов регрессии через Eviews. Для этого в командную строку вводим «ls y c x1 x2 x3 d1 r1 r2 r3» и в высветившихся данных определяем, что значимо влияет на y только фактор d1. Следовательно, мы неправильно подобрали спецификацию модели.

В ходе метода последовательного исключения из модели убираются поочередно факторы с наименьшим незначимым значением t-статистики, пока все коэффициенты регрессии не станут значимыми.

1) Исключаем третий фактор (x3), строим новую модель.

Ситуация не меняется.

2) Убираем из модели фактор X1. Коэффициенты обоих оставшихся факторов значимы.

Модель выглядит следующим образом:

ŷ= 6159,4+5149,9*X2+12223.8*d1+15094,6*R1 + 13561,2*R2 + 4106,7*R3

Анализ качества модели

Проверим качество модели в целом. Принимается гипотеза Н0: о том, что факторы совместно не влияют на изменение y. Альтернативная гипотеза Н1 подразумевает обратное. Проверка осуществляется на основе критерия Фишера. . R2 – коэффициент детерминации. Найдем его с помощью программы Eviews в данных по нашей модели.

Или R­2=0,45

F набл = =4,9

F табл ( =0,05; n-k-1=30; k=5)=2,5

Таким образом, Fнабл>Fтабл. Следовательно, отвергаем Н0, факторы совместно оказывают статистически значимое влияние на y.

Модель считается хорошей, когда в ней нет статистически незначимых коэффициентов регрессии и соответственно, по F- критерию она тоже адекватна. То есть нашу последнюю модель можно считать хорошей по этому критерию.

 

Еще одним из этапов анализа качества модели является анализ качества остатков. Остатки – разница между фактическими данными и модельными для каждого периода.

, где ei – остаток в период i.

Остатки должны быть случайными, независимыми величинами, распределенными по нормальному закону. Только если эти требования выполняются, можно переходить к другим методам проверки качества модели.

Существует графический и аналитический способ анализа остатков.

Графический способ подразумевает построение графика остатков. Eviews автоматически показывает график остатков, когда мы считаем теоретический y и остатки.

На графике остатков приложения 3 видно, что выбросов нет, т.е. нет остатков, которые в 4-6 раз больше других. Следовательно, в первоначальных данных нет нетипичных наблюдений, дисперсия остатков постоянна. Такие остатки называются гомоскедастичными.

Поскольку математическое ожидание остатков равно 0, можно сделать вывод о том, что остатки распределены по нормальному закону.

Одним из аналитических методов является проверка на наличие автокорреляции в остатках.

Автокорреляция – это корреляция между уровнями ряда и его последующими значениями. Наличие автокорреляции может свидетельствовать о том, что в остатках отражается какой-либо фактор, значительно влияющий на результирующий признак, однако не включенный в модель. Проверка на наличие автокорреляции осуществляется на основе критерия Дарбина-Уотсона. Но поскольку у нас не временной ряд, мы не можем применять этот метод.

Также наличие гетероскедастичности модели регрессии можно проверить с помощью теста Голдфелда-Куандта и теста Уайта.

Тест Голдфелда-Куандта (Goldfeld-Quandt)

Тест Голдфелда-Куандта проводится следующим образом:

1 шаг. Упорядочиваем все наблюдения в соответствии с увеличением значений переменной x2

2 шаг. Весь ряд наблюдений делим на 3 части, при этом в первой и третьей части находится одинаковое число наблюдений.

3 шаг. Для первой и третьей части строим регрессию и определяем RSSI и RSSIII.

RSSI= RSSIII=

4 шаг. Принимаем гипотезу о том, что у нас дисперсия (разброс остатков) не зависит от значения x2.

Ho: δ , i≠j (дисперсия постоянна, гомоскедастичность)

H1: δ ≠δ , i≠j (дисперсия непостоянна, гетероскедастичность)

Разброс измеряется дисперсией. По условиям Гаусса-Маркова дисперсия остатков должна быть постоянной (не зависящей от номера x).

Гипотеза проверяется с помощью критерия Фишера:

Fнабл=

Fтабл(α=0,05; k-m-1;k-m-1), где k-m-1 – число степеней свободы, k - число наблюдений в первой и третьей части, m - число переменных (факторов), 1 – из-за наличия константы.

Нарисуем графики распределения Фишера.

Fтабл

Если Fнабл≥Fтабл принимается гипотеза Н1 о наличии гетероскедастичности. Если Fнабл≤Fтабл, принимается гипотеза Н0 о постоянстве дисперсии, гомоскедастичности.

Тест Уайта (White)

Используя Eviews, можно провести проверку качества модели регрессии с помощью теста Уайта. Идея этого теста заключается в том, что если в остатках есть гетероскедастичность, то в остатках остались какие-то нелинейные зависимости от исследованных факторов. Целью данного теста является проверка наличия в остатках нелинейной зависимости от факторов.

Шаг 1. Строим модель регрессии ŷ= + *X2+ *d1+ *R1 + *R2 + *R3. Находим остатки для регрессии.

Шаг 2. Строится модель квадрата остатков от факторов, квадратов факторов и пересечений факторов (фиктивные переменные не рассматриваем)

Шаг 3. Если остатки гетероскедастичны, то квадраты факторов влияют на остатки, то есть коэффициенты регрессии ai статистически значимы, и мы можем проверить совместное влияние всех факторов на квадраты остатков с помощью критерия Фишера. Принимаем гипотезу о том, что все факторы совместно не влияют на квадраты остатков.

Н0: ai =ak=0

Альтернативная гипотеза H1 утверждает, что это не так.

В критерии Уайта nR2 сравнивается с χ2(N-1), где n – число наблюдений, N – число факторов.

Для расчетов воспользуемся Eviews.

Так как probability=0,157911 и больше уровня значимости α=0,05, следовательно, в данной модели регрессии гетероскедастичность отсутствует и дисперсия является постоянной.

Тест Чоу

1) У нас есть модель регрессии для 36 наблюдений:

ŷ= 6159,4+5149,9*X2+12223,8*d1+15094,6*R1 + 13561,2*R2 + 4106,7*R3

Ошибка 4818756651

2) Выделим 2 группы. Первая – с весом ноутбука до 2,5 кг (x2<2,5), а вторая – с весом ноутбука больше или равно 2,5 кг (x2≥2,5).

С помощью Eviews для первой группы строим модель:

ŷ= 9823,8+3379,9*X2+14466,8*d1+15548,3*R1 + 17975,6*R2 + 4296,4*R3

Ошибка 1730742750

3) Модель регрессии для второй группы:

ŷ= -23270,2+15266,4*X2+11503,9*d1+13020,6*R1 + 6207,6*R2 - 3823,7*R3

Ошибка 1989652784

4) Принимаем гипотезу H0 о том, что не произошло никаких изменений в этих двух группах (при =0,05)

Н0: , i=0…k

H1:

5) Проверяем гипотезу с помощью критерия Фишера

Fнабл=1,18

Fтабл( =0,05; n-2*(k+1)=24;k+1=6)=2,5

Таким образом, Fнабл<Fтабл. Следовательно, принимаем гипотезу Н0 о том, что существенных изменений в двух группах нет.

Фиктивные переменные

Фиктивные переменные применяются для отражения качественных признаков. Причем качественные признаки принимают 2 значения, поэтому они еще называются бинарными переменными. Мы ввели фиктивную переменную d1, равную 1 при наличии процессора Core 2 Duo и нулю при его отсутствии.

Может быть несколько однородных качественных переменных. Например, определенная модель ноутбука. Главное – это чтобы число однородных качественных переменных было на единицу меньше, чем число рассматриваемых признаков. Мы рассматриваем 4 бренда производителей компьютеров, поэтому вводим 3 фиктивные переменных R1, R2 и R3. R1 равен 1 у компьютеров марки HP, R2 – Toshiba и R3 – Acer. Если модель – Asus, то R1=R2=R3=0.

Определим, значимо ли бренд производителя влияет на стоимость ноутбука. В модели регрессии без учета бренда (данные получены из Eviews), в модели регрессии с учетом бренда . Принимаем гипотезу Н0: о том, что бренд производителя не влияет на стоимость ноутбука. Альтернативная гипотеза Н1 подразумевает, что это не так. Гипотеза проверяется с помощью критерия Фишера (уровень значимости равен 0,05).

, где n – число наблюдений, m – число качеств, которые мы учитываем в большей модели, k – число исключенных из большей модели качеств.

Таким образом, > . Гипотеза Н0 отвергается, бренд производителя значимо влияет на стоимость ноутбука.

Теперь проверим, значимо ли наличие процессора Core 2 Duo (фиктивная переменная d1) влияет на стоимость компьютера. Соответственно, используем те же самые формулы. В модели регрессии без учета наличия данного процессора (данные получены из Eviews), в модели регрессии с учетом наличия . Принимаем гипотезу Н0: о том, что наличие или нет процессора Core 2 Duo не влияет на стоимость ноутбука. Альтернативная гипотеза Н1 подразумевает, что это не так. Гипотеза проверяется с помощью критерия Фишера (уровень значимости равен 0,05).

Таким образом, > . Гипотеза Н0 отвергается, наличие процессора Core 2 Duo значимо влияет на стоимость ноутбука.

Заключение

В данной работе мы исследовали зависимость цены на ноутбуки на российском рынке от ряда показателей: диагонали, веса, объема памяти RAM, наличия процессора Core 2 Duo, а также бренда.

Данный анализ и все расчеты проводились с использованием таких компьютерных программ, как MSExcel и Eviews.

Изначально, была предложена следующая спецификация модели:

То есть, это линейная модель регрессии, учитывающая 7 факторов, из них 4 фиктивные переменные.

Но в ходе проверки статистической значимости каждого полученного коэффициента регрессии выяснилось, что отклонение коэффициентов и от 0 является случайным, то есть диагональ и объем памяти RAM не оказывают существенного влияния на цену ноутбука, в результате чего они были исключены из нашей модели.

Также после исключения 2 факторов было проверено качество новой модели (наличие автокорреляции остатков и гетероскедастичности). Данный анализ был проведен несколькими тестами (Голдфелда-Куандта, Уайта и Чоу), и в результате было получено, что в данной модели отсутствует автокорреляция и гетероскедастичность. Следовательно, наша модель является хорошей.

В итоге была получена линейная модель регрессии, учитывающая 5 факторов, в том числе 4 фиктивных переменных, и имеющая следующий вид:

ŷ= 6159,4+5149,9*X2+12223.8*d1+15094,6*R1 + 13561,2*R2 + 4106,7*R3

То есть, цена на ноутбуки прямо пропорциональна его весу, а также зависит от наличия процессора Core 2 Duo и бренда.

 


Приложения

Приложение 1[1]

Наименование ноутбука y (руб) x1 (Гб) x2 (кг) x3 (") d1 R1 R2 R3
HP ProBook 4510s     2,6 15,6        
HP Pavilion dv8-1010er       18,4        
HP mini 5101     1,2 10,1        
HP EliteBook 8530p     2,7 15,4        
HP Pavilion dv7-2260er     3,5 17,3        
HP Pavilion dm3-1030er     1,9 13,3        
HP Presario CQ71-215ER       17,3        
HP EliteBook 6930p     2,3 14,1        
HP ProBook 4515s     2,6 15,6        
TOSHIBA Qosmio X300-13B     4,3 17,1        
TOSHIBA Satellite L350-22R     3,2          
TOSHIBA NB200-12J     1,2          
TOSHIBA Satellite L500-12Z     2,8 15,6        
TOSHIBA Satellite L300-23C     2,6 15,4        
Toshiba Portege R500-121       12,1        
Toshiba Tecra M10-11U     2,4          
Toshiba Satellite U400-134     1,9 13,3        
Toshiba Satellite A300D-156     2,7 15,4        
ASUS Eee PC 1008HA     1,05 10,1        
ASUS U50VG     2,53 15,6        
ASUS F7Z     3,5 17,1        
Asus K70AB     3,30 17,3        
Asus K40AB     2,4          
Asus K50IN     2,6 15,6        
Asus K40AB     2,39          
Asus PRO5DI     2,6 15,6        
Asus K40IJ     2,4          
ACER Aspire One 751h-52BGk     1,39 11,6        
Acer Aspire 8935G-664G32Mi     4,6 18,4        
Acer Aspire 7738G-874G50Mi     3,4 17,3        
Acer Aspire 5810TG-944G50Mi     2,4 15,6        
Acer Aspire 5810T-354G32Mi     2,4 15,6        
Acer TravelMate 8371-353G25i     1,6 13,3        
Acer TravelMate8431-742G16Mi     1,93          
Acer Extensa 5635G-662G25Mi     2,5 15,6        
Acer Aspire 1810TZ-413G32i     1,35 11,6        

 

 


Приложение 2

График 1

График 2

График 3

Приложение 3

График остатков (Eviews)

 

Приложение 3 (продолжение)

Графики остатков (Excel)

 


[1] Таблица составлена авторами на основании данных сайта «notebook.tkat.ru» по состоянию на 13.12.09.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-12-12 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: