Исходные данные
Период | Оборот розничной торговли, млн.руб. (Y) | Сельское хозяйство, млн. руб. (X1) | Импорт, млн. руб. (X2) | Объем платных услуг населению, млн. руб. (X3) | Оборот оптовой торговли, млн. руб.(X4) |
2000 г. | 40459,7 | 8069,243 | 8,697 | 10210,8 | 77023,2 |
2001 г. | 54224,9 | 10675,418 | 9,03 | 13352,0 | 84763,3 |
2002 г. | 9438,823 | 9,286 | 18455,0 | 102632,7 | |
2003 г. | 83796,1 | 8998,8551 | 9,332 | 22932,2 | 136708,6 |
2004 г. | 10653,036 | 8,929 | 29066,5 | 172002,9 | |
2005 г. | 15818,262 | 8,349 | 39333,2 | 205708,0 | |
2006 г. | 18355,033 | 14,682 | 46168,2 | 289553,0 | |
2007 г. | 17301,626 | 15,59 | 56287,0 | 423303,1 | |
2008 г. | 17015,245 | 23,48 | 68629,3 | 664242,7 | |
2009 г. | 18662,432 | 20,565 | 78573,6 | 611501,9 |
На основе таблицы проведем оценку характера совокупности исходных данных с помощью средней, моды, медианы, показателей вариации, коэффициентов асимметрии и эксцесса.
Среднее значение — это арифметическое среднее измеренных значений.
Мода — это значение, которое наиболее часто встречается в выборке. Если одна и та же наибольшая частота встречается у нескольких значений, то выбирается наименьшее из них.
Медиана — это точка на шкале измеренных значений, выше и ниже которой лежит по половине всех измеренных значений.
Показатель вариации характеризует однородность выборки.
Эксцесс характеризует остроконечность (положительное значение) или пологость (отрицательное значение) распределения по сравнению с нормальной кривой.
Асимметричность (коэффициент асимметрии или скоса – s) характеризует смещение распределения относительно математического ожидания. При положительном значении коэффициента распределение скошено вправо, т.е. его более длинная часть лежит правее центра (математического ожидания) и обратно.
Стандартное отклонение — это мера разброса измеренных величин; оно равно квадратному корню из дисперсии.
Дисперсия — это квадрат стандартного отклонения и, следовательно, эта характеристика также является мерой разброса измеренных величин.
Размах (интервал) — это разница между наибольшим значением (максимумом) и наименьшим значением (минимумом).
Стандартная ошибка - это стандартная ошибка среднего значения.
Y | |
Среднее | 144490,39 |
Стандартная ошибка | 29169,46338 |
Медиана | 115692,8 |
Мода | #Н/Д |
Стандартное отклонение | 92241,9424 |
Дисперсия выборки | |
Эксцесс | -1,203862933 |
Асимметричность | 0,59249023 |
Интервал | 249736,2 |
Минимум | 40459,7 |
Максимум | 290195,9 |
Сумма | 1444903,9 |
Счет | |
Показатель вариации | 0,638394999 |
Y – оборот розничной торговли, млн. руб.
Среднее значение розничной торговли за 10 лет составляет 144490,39 млн. руб.
Нет наиболее часто встречающегося значения розничной торговли;
Kex<0 => плосковершинное распределение;
Kas>0 => правосторонняя асимметрия;
Минимальное значение – 40459,7 млн. руб.
Максимальное значение – 290195,9 млн. руб.
Показатель вариации 63,8394999% > 33%
X1 | |
Среднее | 13498,79724 |
Стандартная ошибка | 1352,921672 |
Медиана | 13246,8398 |
Мода | #Н/Д |
Стандартное отклонение | 4278,313979 |
Дисперсия выборки | 18303970,51 |
Эксцесс | -2,164787999 |
Асимметричность | -0,000888344 |
Интервал | 10593,1893 |
Минимум | 8069,243 |
Максимум | 18662,4323 |
Сумма | 134987,9724 |
Счет | |
Показатель вариации | 0,316940384 |
Х1 – Сельское хозяйство млн.руб.
Наиболее часто встречающееся значение 0;
Kex<0 => плосковершинное распределение;
Kas<0 => левосторонняя асимметрия;
Показатель вариации 31,6940384% < 33%
Х2 | |
Среднее | 12,794 |
Стандартная ошибка | 1,750879335 |
Медиана | 9,309 |
Мода | #Н/Д |
Стандартное отклонение | 5,536766606 |
Дисперсия выборки | 30,65578444 |
Эксцесс | -0,12385528 |
Асимметричность | 1,11758762 |
Интервал | 15,131 |
Минимум | 8,349 |
Максимум | 23,48 |
Сумма | 127,94 |
Счет | |
Показатель вариации | 0,432762749 |
Х2 – Импорт, млн. руб.
Среднее значение импорта 12,794;
Наиболее часто встречающееся значение 0;
Kex<0 => плосковершинное распределение;
Kas>0 => правосторонняя асимметрия;
Показатель вариации 43,2762749% > 33%
X3 | |
Среднее | 38300,78 |
Стандартная ошибка | 7494,438098 |
Медиана | 34199,85 |
Мода | #Н/Д |
Стандартное отклонение | 23699,49417 |
Дисперсия выборки | 561666024,1 |
Эксцесс | -1,009234904 |
Асимметричность | 0,517470532 |
Интервал | 68362,8 |
Минимум | 10210,8 |
Максимум | 78573,6 |
Сумма | 383007,8 |
Счет | |
Показатель вариации | 0,618773147 |
Х3 – Объем платных услуг населению, млн. руб.;
Среднее значение оказания платных услуг населению 38300,78 млн. руб.
Наиболее часто встречающееся значение 0;
Kex<0 => плосковершинное распределение;
Kas<0 => левосторонняя асимметрия;
Показатель вариации составляет 61,8773147% > 33%
X4 | |
Среднее | 276743,94 |
Стандартная ошибка | 68843,47713 |
Медиана | 188855,45 |
Мода | #Н/Д |
Стандартное отклонение | 217702,1898 |
Дисперсия выборки | |
Эксцесс | -0,456082389 |
Асимметричность | 0,999820347 |
Интервал | 587219,5 |
Минимум | 77023,2 |
Максимум | 664242,7 |
Сумма | 2767439,4 |
Счет | |
Показатель вариации | 0,786655671 |
X4 – Оборот оптовой торговли, млн. руб.
Среднее значение 276743,94 млн. руб.
Наиболее часто встречающееся значение 0;
Kex<0 => плосковершинное распределение;
Kas>0 => правосторонняя асимметрия;
Показатель вариации составляет 78,6655671% > 33%
Парные коэффициенты корреляции.
Парный коэффициент корреляции характеризует тесноту линейной связи между случайными переменными Xi и Xj.
Свойства парного коэффициента корреляции:
1. Если ǀr*(xi,xj)ǀ>0,7, то наблюдается сильная линейная связь;
2. Если ǀr*(xi,xj)ǀ<0,3, то наблюдается слабая линейная связь;
3. Если ǀr*(xi,xj)ǀ=1, то данные представляют собой совокупность точек, которые можно расположить на одной прямой;
4. Если ǀr*(xi,xj)ǀ=0, то линейная связь отсутствует;
5. Если r*(xi,xj) положительный, то связь прямая; если r*(xi,xj) отрицателен, то связь обратная.
Матрица парных коэффициентов корреляции:
Y | X1 | X2 | X3 | X4 | |
Y | 0,891782 | 0,938132 | 0,994269 | 0,982774 | |
X1 | 0,891782 | 0,754656 | 0,9014 | 0,8121 | |
X2 | 0,938132 | 0,754656 | 0,901898 | 0,970956 | |
X3 | 0,994269 | 0,9014 | 0,901898 | 0,966341 | |
X4 | 0,982774 | 0,8121 | 0,970956 | 0,966341 |
Находим определитель матрицы парных коэффициентов: ǀQǀ = 4,4E-07
Из матрицы парных коэффициентов видно, что наиболее тесная связь наблюдается между переменной Y и переменными Х1, X2, X3, и X4 то есть все показатели влияют на объем розничной торговли. Но наибольшее влияние на объем розничной торговли оказывает объем платных услуг, оказанных населению. Наименьшее – сельское хозяйство. Зависимость между переменной Y и переменными Х1, X2, X3, и X4 прямая, это означает, что с их ростом объем розничной торговли увеличивается. Увеличение объема платных услуг населению ведет к увеличению объема розничной торговли. Наибольшее влияние на объем розничной торговли оказывает объем платных услуг, оказанных населению. Наименьшее – сельское хозяйство.
Проверим парные коэффициенты корреляции на значимость:
Находим табличное значение с помощью распределения Стьюдента с (n-m) степенями свободы, (с вероятностью 95%): Ктаб = 2,306004
Находим вычисленное значение:
Квыч | Y | X1 | X2 | X3 | X4 |
Y | 5,574672 | 7,662736 | 26,3041 | 15,04084 | |
X1 | 5,574672 | 3,253195 | 5,888251 | 3,936412 | |
X2 | 7,662736 | 3,253195 | 5,905685 | 11,47822 | |
X3 | 26,3041 | 5,888251 | 5,905685 | 10,62424 | |
X4 | 15,04084 | 3,936412 | 11,47822 | 10,62424 |
Если ǀКвычǀ>Ктаб, то коэффициент значим. В таблице выделены все значимые коэффициенты. Таким образом, у нас нет незначимых коэффициентов.
Множественный коэффициент корреляции. (Он изменяется в пределах от 0 до 1)
где - определитель корреляционной матрицы; - алгебраическое дополнение -го элемента.
R(Y,Y)
0,75465587 | 0,9014 | 0,8121 | |
0,754656 | 0,901898 | 0,970956 | |
0,9014 | 0,90189817 | 0,966341 | |
0,8121 | 0,97095556 | 0,966341 |
Множественный коэффициент корреляции Ryх= 0,99. Сильная взаимосвязь.
Множественный коэффициент корреляции считается значительным, т.е. имеет место статистическая зависимость между Y и остальными факторами X, если Ктаб < Квыч
Ктаб=5,19 |
(с вероятностью 95%) находим с помощью F-критерия Фишера c (k) и (n-k-1) степенями свободы.
Квыч = R2/(1-R2)*(n-k-1)/k= 771,4
Вывод: Ктаб < Квыч => На уровне значимости 5% можно утверждать, чтомножественный коэффициент корреляции значим, т.е. между Y и факторами X имеет место сильная статистическая зависимость. Т.е. такие показатели как сельское хозяйство, импорт, объем платных услуг населению и оборот оптовой торговли в значительной степени оказывают влияние объем розничной торговли.
Частный коэффициент корреляции - измеряет тесноту линейной связи между отдельным фактором и результатом при устранении воздействия прочих факторов модели.
r*(Xi;Xj•X1...Xk) = -Qij/√(Qii*Qjj)
Частные коэффициенты корреляции | Квыч | Z(r*) | Zнижн | Zверх | |
r*(Y;X1•X2,Х3,X4)= | 0,52766552 | 1,756972 | 0,586904 | -0,3931 | 1,566904 |
r*(Y;X2•X1,Х3,X4)= | 0,58091925 | 2,018632 | 0,663849 | -0,31615 | 1,643849 |
r*(Y;X3•X1,Х2,X4)= | 0,88611452 | 5,40775 | 1,40354 | 0,42354 | 2,38354 |
r*(Y;X4•X1,X2,Х3)= | 0,33097804 | 0,992061 | 0,343926 | -0,63607 | 1,323926 |
Проверим частные коэффициенты корреляции на значимость:
Находим табличное значение через критерий Стьюдента:
Ктаб=t1-α[St(n-k-2)] = 2,57
Находим вычисленное значение: Квыч= r* (Xi,Xj;*) * корень(n-k-2)/ корень (1-r2 (Xi, Xj;*)
Если |Квыч|≤Ктаб, то коэффициент незначим. В таблице выделен Квыч, значение которого превышает Ктаб. Следовательно, на уровне значимости 5% можно утверждать, что коэффициент Х3 значим.
Вывод: на уровне значимости 5% наиболее тесная взаимосвязь при фиксированном воздействии другой переменной наблюдается между показателями У и X1, Х2, X4. Т.е. при фиксированном влиянии другой переменной наиболее сильное влияние на объем розничной торговли будут оказывать сельское хозяйство, импорт и оборот оптовой торговли.
Рассмотрим линейную регрессионную модель с k = 4 объясняющими переменными:
Y = b0+b1*X1+b2*X2+b3*X3+b4*X4+ε, где b0, b1, b2, b3, b4 – неизвестные параметры модели, которые найдем с помощью МНК – оценок.
ВЫВОД ИТОГОВ | |||||||
Регрессионная статистика | |||||||
Множественный R | 0,999190795 | ||||||
R-квадрат | 0,998382245 | ||||||
Нормированный R-квадрат | 0,997088041 | ||||||
Стандартная ошибка | 4977,612654 | ||||||
Наблюдения | |||||||
Дисперсионный анализ | |||||
df | SS | MS | F | Значимость F | |
Регрессия | 771,4256065 | 3,68E-07 | |||
Остаток | 123883138,7 | 24776627,73 | |||
Итого |
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | |
Y-пересечение | -24377,61787 | 11828,38224 | -2,060942687 | 0,094320011 |
Переменная X 1 | 1,621265425 | 1,167210984 | 1,389008026 | 0,223518481 |
Переменная X 2 | 2739,574893 | 1716,66719 | 1,595868383 | 0,171405077 |
Переменная X 3 | 2,457249717 | 0,574768095 | 4,275202015 | 0,007899516 |
Переменная X 4 | 0,064385051 | 0,082093068 | 0,784293392 | 0,468377991 |
ВЫВОД ОСТАТКА |
Наблюдение | Предсказанное Y | Остатки |
42580,47771 | -2120,777708 | |
55935,11646 | -1710,216459 | |
68321,46709 | -177,4670943 | |
80929,75978 | 2866,34022 | |
99853,50963 | 1295,790365 | |
134036,7088 | -3800,408765 | |
177692,8814 | 337,7185727 | |
211948,4888 | 8458,211173 | |
278940,457 | -680,0570151 | |
294665,0333 | -4469,133289 |
Построим уравнение регрессии:
Y=1,621265425*X1+2739,574893*X2+2,457249717*X3+0,064385051*X4-24377,61787
Проверим регрессионную модель на значимость:
R2 = 0,998382245, то на 99,8% цены на новые автомобили описаны с помощью факторов Х1, Х2, Х3, Х4 (сельское хозяйство, импорт, оказание платных услуг населению и оборот оптовой торговли). В модели не учтены около 0,2 % факторов, которые также влияют на оборот розничной торговли.
Применяется критерий Фишера:
К выч = R2 * (n-m) / (1 - R2 )* (m-1) =771,4256065
Ктаб = Х1-α[F(m-1; n-m)] ← находим с помощью F-критерия Фишера
Ктаб=3,48 |
(на уровне значимости 95%).
Т.к. Квыч > Ктаб, то данная модель значима.
Вывод: на уровне значимости 5% можно утверждать, что данная модель значима.
Проверим на значимость параметры модели с помощью критерия Стьюдента на уровне значимости 0,05. Ктабл. = St0.95(5) = X0.975(5) = 2,57
Таким образом, для первого параметра |Квыч. | =1,389008026< Ктабл. Следовательно, первый параметр незначим. Аналогичным образом по имеющимся данным оцениваем оставшиеся параметры модели. В результате, еще 2 параметра будут незначимыми, а именно, Х2 и Х4. Исходя из этого исключим из модели параметр с наименьшей t-статистикой, а именно Х4 – оборот оптовой торговли
В итоге, оборот оптовой торговли не влияет на оборот розничной торговли.
Проанализируем влияние других факторов: сельское хозяйство, импорт, объем платных услуг населению.
Вывод: На уровне значимости 5% можно утверждать, что модель значима. Так же на уровне значимости 5% можно утверждать, что параметр b3 значим, а параметры b1, b2, b4 незначимы. Из модели нужно убрать один фактор b4 – оборот оптовой торговли, т.к. у него Квыч. меньше всего (т.е. объем платных услуг населению влияет на оборот розничной торговли).
Рассмотрим линейную регрессионную модель с k = 3 объясняющими переменными:
Y = b2*X2+b3*X3+b4*X4+ b0, где b0, b2, b3, b4 – неизвестные параметры модели, которые найдем с помощью МНК – оценок.
ВЫВОД ИТОГОВ |
Регрессионная статистика | |||||||||||
Множественный R | 0,999091 | ||||||||||
R-квадрат | 0,998183 | ||||||||||
Нормированный R-квадрат | 0,997275 | ||||||||||
Стандартная ошибка | 4815,317 | ||||||||||
Наблюдения | |||||||||||
Дисперсионный анализ | |||||||||||
df | SS | MS | F | Значимость F | |||||||
Регрессия | 7,64E+10 | 1098,85076 | 1,31E-08 | ||||||||
Остаток | 1,39E+08 | 23187273,65 | |||||||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | ||||||||
Y-пересечение | -30283 | 8824,891 | -3,431540946 | 0,013944799 | |||||||
X1 | 1,081437 | 0,911933 | 1,185872542 | 0,280501372 | |||||||
X2 | 3958,087 | 706,3556 | 5,603533427 | 0,001376385 | |||||||
X3 | 2,859877 | 0,250062 | 11,43665368 | 2,68132E-05 | |||||||
ВЫВОД ОСТАТКА | ||
Наблюдение | Предсказанное Y | Остатки |
42068,51 | -1608,81 | |
55188,41 | -963,513 | |
69458,33 | -1314,33 | |
81968,85 | 1827,252 | |
99705,97 | 1443,329 | |
132357,6 | -2121,34 | |
179714,8 | -1684,22 | |
211108,1 | 9298,611 | |
277325,1 | 935,2506 | |
296008,1 | -5812,22 |
Построим уравнение регрессии:
Y=1,081437*X1+3958,087*X2+2,859877*X3-30283
Проверим регрессионную модель на значимость:
R2 = 0,998183, то на 99,82% оборот розничной торговли описаны с помощью факторов Х1, Х2, Х3 (сельское хозяйство, импорт, объем платных услуг населению). В модели не учтены около 0,18 % факторов, которые также влияют на оборот розничной торговли.
Применяется критерий Фишера:
К выч = R2 * (n-m) / (1 - R2)* (m-1) = 1098,85
Ктаб = Х1-?[F(m-1; n-m)] < находим с помощью F-критерия Фишера
Ктаб= 3.708 (на уровне значимости 95%).
Т.к. Квыч > Ктаб, то данная модель значима.
Вывод: на уровне значимости 5% можно утверждать, что данная модель значима.
Проверим на значимость параметры модели с помощью критерия Стьюдента на уровне значимости 0,05. Ктабл. = St0.95(6) = X0.975(6) = 2,45. Таким образом, для первого параметра |Квыч. | =5,6 > Ктабл. Следовательно, второй параметр значим. Аналогичным образом по имеющимся данным оцениваем оставшиеся параметры модели. В результате, все остальные параметры модели, кроме первого, будут значимыми.
Вывод: На уровне значимости 5% можно утверждать, что модель значима. Так же на уровне значимости 5% можно утверждать, что параметры b2, b3 значимы, а параметр b1 незначим.
Рассмотрим линейную регрессионную модель с k = 2 объясняющими переменными:
Y = b2*X2+b3*X3 + b0, где b0, b2, b3– неизвестные параметры модели, которые найдем с помощью МНК – оценок.
ВЫВОД ИТОГОВ | |
Регрессионная статистика | |
Множественный R | 0,998878 |
R-квадрат | 0,997757 |
Нормированный R-квадрат | 0,997117 |
Стандартная ошибка | 4953,091 |
Наблюдения |
Дисперсионный анализ | |||||
df | SS | MS | F | Значимость F | |
Регрессия | 7,64E+10 | 3,82E+10 | 1557,191 | 5,34E-10 | |
Остаток | 1,72E+08 | ||||
Итого | 7,66E+10 |
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | |
Y-пересечение | -21191,1 | 4495,267 | -4,7141 | 0,002172 |
X2 | 3696,912 | 690,3457 | 5,355161 | 0,001058 |
X3 | 3,090883 | 0,161281 | 19,16456 | 2,62E-07 |
ВЫВОД ОСТАТКА | ||
Наблюдение | Предсказанное Y | Остатки |
42521,3 | -2061,6 | |
53461,46 | 763,4434 | |
70180,64 | -2036,64 | |
84189,2 | -393,1 | |
101659,7 | -510,447 | |
131248,7 | -1012,4 | |
175787,4 | 2243,166 | |
210420,3 | 9986,445 | |
277737,5 | 522,9039 | |
297697,7 | -7501,76 |
Y=3696,912*X2+3,090883*X3-21191,1
Проверим регрессионную модель на значимость:
R2 = 0,997757, то на 99,76% оборот розничной торговли описаны с помощью факторов Х2, Х3 (импорт, объем платных услуг населению). В модели не учтены около 0,24 % факторов, которые также влияют на оборот розничной торговли.
Применяется критерий Фишера:
К выч = R2 * (n-m) / (1 - R2)* (m-1) = 1557,19
Ктаб = Х1-?[F(m-1; n-m)] < находим с помощью F-критерия Фишера
Ктаб=4,1 |
(на уровне значимости 95%).
Т.к. Квыч > Ктаб, то данная модель значима.
Вывод: на уровне значимости 5% можно утверждать, что данная модель значима.
Проверим на значимость параметры модели с помощью критерия Стьюдента на уровне значимости 0,05. Ктабл. = St0.95(7) = X0.975(7) = 2,36. Таким образом, для первого параметра |Квыч. | =5,4 > Ктабл. Следовательно, второй параметр значим. Аналогичным образом по имеющимся данным оцениваем оставшиеся параметр модели. В результате, все параметры модели будут значимыми.
Вывод: На уровне значимости 5% можно утверждать, что модель значима. Так же на уровне значимости 5% можно утверждать, что параметры b2, b3 значимы.