Множественная модель.
Построим уравнение множественной регрессии в стандартизированном и естественном виде. Для этого найдем коэффициенты парной корреляции:
ryx1 | -0,6927 | Связь обратная, умеренная |
ryx2 | 0,64105 | Связь прямая, умеренная |
rx1х2 | -0,7572 | Связь обратная, сильная |
С их помощью рассчитаем стандартизированные коэффициенты регрессии:
β1 | β2 |
-0,4859 | 0,27315 |
Получаем уравнение в стандартизированной форме:
ty = -0,4859*tx1+0,27315*tx2
Для построения уравнения в естественной форме рассчитываем коэффициенты:
b1 | b2 | a |
-0,1254 | 0,22169 | 23,5079 |
Уравнение в естественной форме имеет вид:
y=23,5079-0,1254х1+0,22169х2
Для характеристики относительной силы влияния х1 и х2 на на у рассчитаем средние коэффициенты эластичности:
Эyx1 | Эyx2 |
-0,1648 | 0,43927 |
С увеличением стоимости автомобиля (х1) на 1% от своего среднего значения количество проданных автомобилей в год (у) уменьшается приблизительно на 0,16% от своего среднего значения;
а с увеличением числа покупателей (х2) на 1% от своего среднего значения количество проданных автомобилей в год (у) увеличится приблизительно на 0,44% от своего среднего значения.
Очевидно, что количество проданных в год автомобилей (у) в большей степени зависит от числа покупателей (х2), чем от стоимости автомобиля (х1).
К аналогичным выводам о силе влияния приходим, сравнивая по абсолютной величине β-коэффициенты.
Различия в силе влияния β-коэффициентов и коэффициентов эластичности объяснятся тем, что при вычислении коэффициентов эластичности мы исходим из соотношения средних значений, а при вычислении β-коэффициентов- из соотношения средних квадратичных отклонений.
|
Найдем коэффициенты частной корреляции:
ryx1x2 | ryx2x1 | rx1x2y |
-0,4135 | 0,24738 | -0,5657 |
При сравнении их с коэффициентами парной корреляции
(ryx1=-0,6927; ryx2=0,64105; rx1х2=-0,7572) приходим к выводу, что из-за сильной межфакторной связи коэффициенты частной и парной корреляции отличаются по абсолютному значению.
Рассчитаем линейный коэффициент множественной корреляции:
Ryx1x2 | R2yx1x2 |
0,71531 | 0,51167 |
Зависимость количества проданных автомобилей в год (у) от стоимости автомобиля (х1) и числа покупателей (х2) характеризуется как умеренная, ближе к сильной, в которой 51% вариации количества проданных автомобилей в год определяются вариацией учтенных в модели факторов. Прочие факторы, не включенные в модель составляют соответственно 49% от общей вариации у.
Для анализа среднего отклонения расчетных значений от фактических рассчитаем среднюю ошибку аппроксимации:
Ā=5,517271%, не превосходит 8-10%, значит, можно считать ее допустимой.
Общий F-критерий проверяет гипотезу Н0 о статистической значимости уравнения регрессии и показателя тесноты связи:
Fфакт | Fтабл |
3,366735 | 4,74 |
Сравнивая Fтабл и Fфакт, приходим к выводу о статистической незначимости и ненадежности уравнения регрессии в целом.
Частные F-критерии Fх1= 1,44384; Fх2= 0,45631 оценивают статистическую значимость присутствия факторов х1 и х2 в уравнении множественной регрессии, оценивают целесообразность включения в уравнение одного фактора после другого. Оба критерия в данном случае имеют низкое значение, но Fх1 > Fх2 незначительно, откуда можно сделать вывод, что включение в регрессионную модель х1 и х2 имеют фактически одинаковую значимость для включения их в данную модель.
|
Построение парных регрессионных моделей.
Для наиболее значимого фактора (в нашем случае это х2- число покупателей) построим 4 парные регрессионные модели.
Линейная модель
у=-1,002+0,52х
Коэффициент парной корреляции rxy=0,641054482 характеризует линейноую зависимость между числом покупателей (х2) и количеством проланных автомобилей (у): связь прямая, умеренная, ближе к сильной.
Средняя ошибка аппроксимации Ā= 6,718491 является допустимой.
Сравним фактический и табличный критерий Фишера:
Fфакт= 5,58121 > Fтабл=5,32, что говорит о надежности и значимости уравнения.
Степенная модель
у=0,41*x^1,05
Индекс корреляции ρxy= 0,640179, связь умеренная, ближе к сильной.
Средняя ошибка аппроксимации Ā=6,783552 является допустимой.
Критерий Фишера: Fфакт=5,555398> Fтабл=5,32 – уравнение также надежно и значимо.
Показательная модель
у=11,46*1,02^x
Индекс корреляции ρxy= 0,638039, связь умеренная, ближе к сильной.
Средняя ошибка аппроксимации Ā= 6,800453 является допустимой.
Критерий Фишера: Fфакт= 5,492867 >Fтабл=5,32 – признается статистическая значимость и надежность уравнения.
Гиперболическая модель
у=66,72-2194,34/x
Индекс корреляции ρ xy= 0,643949796, связь умеренная, ближе к сильной.
Средняя ошибка аппроксимации Ā= 6,690067 является допустимой, не превышает 8-10%.
Критерий Фишера: Fфакт= 5,667535> Fтабл=5,32 – признается статистическая значимость и надежность уравнения.
Делаем сводную таблицу:
Модель | rxy/ρxy | Ā | Fфакт |
Линейная | 0,641054 | 6,718491 | 5,58121 |
Степенная | 0,640179 | 6,783552 | 5,555398 |
Показательная | 0,638039 | 6,800453 | 5,492867 |
Гиперболическая | 0,643949 | 6,690067 | 5,667535 |
|
Данные всех моделей примерно схожи, но по всем показателям лучшей является гиперболическая модель (большие индекс корреляции и критерий Фишера при меньшей ошибке аппроксимации).
Построим графики каждой модели, точками обозначены исходные данные:
3. Сравним гиперболическую модель со множественной:
Гиперболическая | Множественная | |
Fфакт | 5,667535 | 3,366735 |
6,690067 | 5,517271 | |
rxy | 0,643949 | 0,71531 |
По ошибке аппроксимации и корреляции множественная модель незначительно лучше, но хуже по критерию Фишера, т.к. признается незначимой и ненадежной. Поэтому лучшей считаем гиперболическую модель.
Проверка предпосылок МНК для линейной модели.
1) Случайный характер остатка.
Получили остатки и построили по ним график в зависимости от теоретического значения у:
Остатки носят случайный характер, предпосылка выполняется.
2) Нулевое среднее величин остатков.
ɛ | ɛ ср |
0,3054893 | 0,00 |
-2,21479714 | |
0,264916468 | |
4,264916468 | |
-4,25536993 | |
0,704057279 | |
2,663484487 | |
-2,37708831 | |
2,582338902 | |
-1,93794749 |
Данная предпосылка выполняется, остатки не будут накапливаться.
3) Гомоскедастичность остатков. Для поверки используем критерий Гольдфельда- Квандта.
Дисперсия остатков должна быть одинакова для всех значений х. Упорядочиваем все наблюдения по величине х, разбиваем выборку на 2 группы, исключаем 2 центральные пары. Для каждой группы получаем свое уравнение регрессии:
у1=-78,55+1,82х
у2= 30,34+0,08х
Определим остаточную сумму квадратов для каждой группы и найдем их соотношение, обозначив его R:
R=1,178786
Сравним с Fтабл=18,51
R < F,предпосылка выполняется, гипотеза о гомоскедастичности принимается.
Проверим гомоскедастичность по критерию Спирмана.
Для этого рассчитываем коэффициент ранговой корреляции:
rxɛ = 0,00303
Рассчитываем статистику t= 0,008571, сравниваем с tтабл=2,306
t факт < t табл, гипотеза об отсутствии гетероскедостичности подтверждается, поэтому можем говорить о гомоскедастичности. Предпосылка выполняется.
4) Отсутствие автокорреляции остатков, т.е. остатки распределены независимо друг от друга.
Проверяем по критерию Дарбина-Уотсона.
Рассчитываем величину DW, равную отношению суммы квадратов разностей последовательных значений остатков к остаточной сумме квадратов.
DW=3,074957747, что входит в зону отсутствия автокорреляции. Данная предпосылка выполняется.
d1=0,604 | d2=1,001 | 4-d2=2,999 | 4-d1=3,396 | ||||||||||
Таким образом, все предпосылки выполняются, на основе этого можно сделать вывод об обоснованности применения МНК.
Вывод:
Количество автомобилей проданных предприятием зависит от стоимости автомобиля, но в большей степени зависит от числа людей купивших автомобили. Наиболее подходящей моделью, признаем гиперболическую модель, т.к. она и удовлетворяет всем допустимым условиям, и признана статистически надежной и значимой.