Парные коэффициенты корреляции.




Исходные данные

Период Оборот розничной торговли, млн.руб. (Y) Сельское хозяйство, млн. руб. (X1) Импорт, млн. руб. (X2) Объем платных услуг населению, млн. руб. (X3) Оборот оптовой торговли, млн. руб.(X4)
2000 г. 40459,7 8069,243 8,697 10210,8 77023,2
2001 г. 54224,9 10675,418 9,03 13352,0 84763,3
2002 г.   9438,823 9,286 18455,0 102632,7
2003 г. 83796,1 8998,8551 9,332 22932,2 136708,6
2004 г.   10653,036 8,929 29066,5 172002,9
2005 г.   15818,262 8,349 39333,2 205708,0
2006 г.   18355,033 14,682 46168,2 289553,0
2007 г.   17301,626 15,59 56287,0 423303,1
2008 г.   17015,245 23,48 68629,3 664242,7
2009 г.   18662,432 20,565 78573,6 611501,9

 

На основе таблицы проведем оценку характера совокупности исходных данных с помощью средней, моды, медианы, показателей вариации, коэффициентов асимметрии и эксцесса.

Среднее значение — это арифметическое среднее измеренных значений.

Мода — это значение, которое наиболее часто встречается в выборке. Если одна и та же наибольшая частота встречается у нескольких значений, то выбирается наименьшее из них.

Медиана — это точка на шкале измеренных значений, выше и ниже которой лежит по половине всех измеренных значений.

Показатель вариации характеризует однородность выборки.

Эксцесс характеризует остроконечность (положительное значение) или пологость (отрицательное значение) распределения по сравнению с нормальной кривой.

Асимметричность (коэффициент асимметрии или скоса – s) характеризует смещение распределения относительно математического ожидания. При положительном значении коэффициента распределение скошено вправо, т.е. его более длинная часть лежит правее центра (математического ожидания) и обратно.

Стандартное отклонение — это мера разброса измеренных величин; оно равно квадратному корню из дисперсии.

Дисперсия — это квадрат стандартного отклонения и, следовательно, эта характеристика также является мерой разброса измеренных величин.

Размах (интервал) — это разница между наибольшим значением (максимумом) и наименьшим значением (минимумом).

Стандартная ошибка - это стандартная ошибка среднего значения.

 

Y  
   
Среднее 144490,39
Стандартная ошибка 29169,46338
Медиана 115692,8
Мода #Н/Д
Стандартное отклонение 92241,9424
Дисперсия выборки  
Эксцесс -1,203862933
Асимметричность 0,59249023
Интервал 249736,2
Минимум 40459,7
Максимум 290195,9
Сумма 1444903,9
Счет  
Показатель вариации 0,638394999

 

Y – оборот розничной торговли, млн. руб.

Среднее значение розничной торговли за 10 лет составляет 144490,39 млн. руб.

Нет наиболее часто встречающегося значения розничной торговли;

Kex<0 => плосковершинное распределение;

Kas>0 => правосторонняя асимметрия;

Минимальное значение – 40459,7 млн. руб.

Максимальное значение – 290195,9 млн. руб.

Показатель вариации 63,8394999% > 33%

 

 

X1  
   
Среднее 13498,79724
Стандартная ошибка 1352,921672
Медиана 13246,8398
Мода #Н/Д
Стандартное отклонение 4278,313979
Дисперсия выборки 18303970,51
Эксцесс -2,164787999
Асимметричность -0,000888344
Интервал 10593,1893
Минимум 8069,243
Максимум 18662,4323
Сумма 134987,9724
Счет  
Показатель вариации 0,316940384

 

Х1 – Сельское хозяйство млн.руб.

Наиболее часто встречающееся значение 0;

Kex<0 => плосковершинное распределение;

Kas<0 => левосторонняя асимметрия;

Показатель вариации 31,6940384% < 33%

 

 

Х2  
Среднее 12,794
Стандартная ошибка 1,750879335
Медиана 9,309
Мода #Н/Д
Стандартное отклонение 5,536766606
Дисперсия выборки 30,65578444
Эксцесс -0,12385528
Асимметричность 1,11758762
Интервал 15,131
Минимум 8,349
Максимум 23,48
Сумма 127,94
Счет  
Показатель вариации 0,432762749

 

Х2 – Импорт, млн. руб.

Среднее значение импорта 12,794;

Наиболее часто встречающееся значение 0;

Kex<0 => плосковершинное распределение;

Kas>0 => правосторонняя асимметрия;

Показатель вариации 43,2762749% > 33%

 

X3  
   
Среднее 38300,78
Стандартная ошибка 7494,438098
Медиана 34199,85
Мода #Н/Д
Стандартное отклонение 23699,49417
Дисперсия выборки 561666024,1
Эксцесс -1,009234904
Асимметричность 0,517470532
Интервал 68362,8
Минимум 10210,8
Максимум 78573,6
Сумма 383007,8
Счет  
Показатель вариации 0,618773147

 

Х3 – Объем платных услуг населению, млн. руб.;

Среднее значение оказания платных услуг населению 38300,78 млн. руб.

Наиболее часто встречающееся значение 0;

Kex<0 => плосковершинное распределение;

Kas<0 => левосторонняя асимметрия;

Показатель вариации составляет 61,8773147% > 33%

 

X4  
   
Среднее 276743,94
Стандартная ошибка 68843,47713
Медиана 188855,45
Мода #Н/Д
Стандартное отклонение 217702,1898
Дисперсия выборки  
Эксцесс -0,456082389
Асимметричность 0,999820347
Интервал 587219,5
Минимум 77023,2
Максимум 664242,7
Сумма 2767439,4
Счет  
Показатель вариации 0,786655671

 

X4 – Оборот оптовой торговли, млн. руб.

Среднее значение 276743,94 млн. руб.

Наиболее часто встречающееся значение 0;

Kex<0 => плосковершинное распределение;

Kas>0 => правосторонняя асимметрия;

Показатель вариации составляет 78,6655671% > 33%

 

Парные коэффициенты корреляции.

Парный коэффициент корреляции характеризует тесноту линейной связи между случайными переменными Xi и Xj.

Свойства парного коэффициента корреляции:

1. Если ǀr*(xi,xj)ǀ>0,7, то наблюдается сильная линейная связь;

2. Если ǀr*(xi,xj)ǀ<0,3, то наблюдается слабая линейная связь;

3. Если ǀr*(xi,xj)ǀ=1, то данные представляют собой совокупность точек, которые можно расположить на одной прямой;

4. Если ǀr*(xi,xj)ǀ=0, то линейная связь отсутствует;

5. Если r*(xi,xj) положительный, то связь прямая; если r*(xi,xj) отрицателен, то связь обратная.

 

 

Матрица парных коэффициентов корреляции:

  Y X1 X2 X3 X4
Y   0,891782 0,938132 0,994269 0,982774
X1 0,891782   0,754656 0,9014 0,8121
X2 0,938132 0,754656   0,901898 0,970956
X3 0,994269 0,9014 0,901898   0,966341
X4 0,982774 0,8121 0,970956 0,966341  

Находим определитель матрицы парных коэффициентов: ǀQǀ = 4,4E-07

Из матрицы парных коэффициентов видно, что наиболее тесная связь наблюдается между переменной Y и переменными Х1, X2, X3, и X4 то есть все показатели влияют на объем розничной торговли. Но наибольшее влияние на объем розничной торговли оказывает объем платных услуг, оказанных населению. Наименьшее – сельское хозяйство. Зависимость между переменной Y и переменными Х1, X2, X3, и X4 прямая, это означает, что с их ростом объем розничной торговли увеличивается. Увеличение объема платных услуг населению ведет к увеличению объема розничной торговли. Наибольшее влияние на объем розничной торговли оказывает объем платных услуг, оказанных населению. Наименьшее – сельское хозяйство.

Проверим парные коэффициенты корреляции на значимость:

Находим табличное значение с помощью распределения Стьюдента с (n-m) степенями свободы, (с вероятностью 95%): Ктаб = 2,306004

Находим вычисленное значение:

Квыч Y X1 X2 X3 X4
Y   5,574672 7,662736 26,3041 15,04084
X1 5,574672   3,253195 5,888251 3,936412
X2 7,662736 3,253195   5,905685 11,47822
X3 26,3041 5,888251 5,905685   10,62424
X4 15,04084 3,936412 11,47822 10,62424  

Если ǀКвычǀтаб, то коэффициент значим. В таблице выделены все значимые коэффициенты. Таким образом, у нас нет незначимых коэффициентов.

Множественный коэффициент корреляции. (Он изменяется в пределах от 0 до 1)

где - определитель корреляционной матрицы; - алгебраическое дополнение -го элемента.

R(Y,Y)

  0,75465587 0,9014 0,8121
0,754656   0,901898 0,970956
0,9014 0,90189817   0,966341
0,8121 0,97095556 0,966341  

 

Множественный коэффициент корреляции Ryх= 0,99. Сильная взаимосвязь.

Множественный коэффициент корреляции считается значительным, т.е. имеет место статистическая зависимость между Y и остальными факторами X, если Ктаб < Квыч

Ктаб=5,19

(с вероятностью 95%) находим с помощью F-критерия Фишера c (k) и (n-k-1) степенями свободы.

Квыч = R2/(1-R2)*(n-k-1)/k= 771,4

Вывод: Ктаб < Квыч => На уровне значимости 5% можно утверждать, чтомножественный коэффициент корреляции значим, т.е. между Y и факторами X имеет место сильная статистическая зависимость. Т.е. такие показатели как сельское хозяйство, импорт, объем платных услуг населению и оборот оптовой торговли в значительной степени оказывают влияние объем розничной торговли.

 

Частный коэффициент корреляции - измеряет тесноту линейной связи между отдельным фактором и результатом при устранении воздействия прочих факторов модели.

r*(Xi;Xj•X1...Xk) = -Qij/√(Qii*Qjj)

Частные коэффициенты корреляции Квыч Z(r*) Zнижн Zверх
r*(Y;X1•X2,Х3,X4)= 0,52766552 1,756972 0,586904 -0,3931 1,566904
r*(Y;X2•X1,Х3,X4)= 0,58091925 2,018632 0,663849 -0,31615 1,643849
r*(Y;X3•X1,Х2,X4)= 0,88611452 5,40775 1,40354 0,42354 2,38354
r*(Y;X4•X1,X2,Х3)= 0,33097804 0,992061 0,343926 -0,63607 1,323926

Проверим частные коэффициенты корреляции на значимость:

Находим табличное значение через критерий Стьюдента:

Ктаб=t1-α[St(n-k-2)] = 2,57

Находим вычисленное значение: Квыч= r* (Xi,Xj;*) * корень(n-k-2)/ корень (1-r2 (Xi, Xj;*)

Если |Квыч|≤Ктаб, то коэффициент незначим. В таблице выделен Квыч, значение которого превышает Ктаб. Следовательно, на уровне значимости 5% можно утверждать, что коэффициент Х3 значим.

Вывод: на уровне значимости 5% наиболее тесная взаимосвязь при фиксированном воздействии другой переменной наблюдается между показателями У и X1, Х2, X4. Т.е. при фиксированном влиянии другой переменной наиболее сильное влияние на объем розничной торговли будут оказывать сельское хозяйство, импорт и оборот оптовой торговли.

 

Рассмотрим линейную регрессионную модель с k = 4 объясняющими переменными:
Y = b0+b1*X1+b2*X2+b3*X3+b4*X4, где b0, b1, b2, b3, b4 – неизвестные параметры модели, которые найдем с помощью МНК – оценок.

ВЫВОД ИТОГОВ          
Регрессионная статистика  
Множественный R 0,999190795  
R-квадрат 0,998382245  
Нормированный R-квадрат 0,997088041  
Стандартная ошибка 4977,612654  
Наблюдения    
               

 

Дисперсионный анализ        
  df SS MS F Значимость F
Регрессия       771,4256065 3,68E-07
Остаток   123883138,7 24776627,73    
Итого          

 

  Коэффициенты Стандартная ошибка t-статистика P-Значение
Y-пересечение -24377,61787 11828,38224 -2,060942687 0,094320011
Переменная X 1 1,621265425 1,167210984 1,389008026 0,223518481
Переменная X 2 2739,574893 1716,66719 1,595868383 0,171405077
Переменная X 3 2,457249717 0,574768095 4,275202015 0,007899516
Переменная X 4 0,064385051 0,082093068 0,784293392 0,468377991

 

ВЫВОД ОСТАТКА    

 

Наблюдение Предсказанное Y Остатки
  42580,47771 -2120,777708
  55935,11646 -1710,216459
  68321,46709 -177,4670943
  80929,75978 2866,34022
  99853,50963 1295,790365
  134036,7088 -3800,408765
  177692,8814 337,7185727
  211948,4888 8458,211173
  278940,457 -680,0570151
  294665,0333 -4469,133289

 

Построим уравнение регрессии:

Y=1,621265425*X1+2739,574893*X2+2,457249717*X3+0,064385051*X4-24377,61787

Проверим регрессионную модель на значимость:

R2 = 0,998382245, то на 99,8% цены на новые автомобили описаны с помощью факторов Х1, Х2, Х3, Х4 (сельское хозяйство, импорт, оказание платных услуг населению и оборот оптовой торговли). В модели не учтены около 0,2 % факторов, которые также влияют на оборот розничной торговли.

Применяется критерий Фишера:

К выч = R2 * (n-m) / (1 - R2 )* (m-1) =771,4256065

Ктаб = Х1-α[F(m-1; n-m)] ← находим с помощью F-критерия Фишера

Ктаб=3,48

(на уровне значимости 95%).

Т.к. Квыч > Ктаб, то данная модель значима.

Вывод: на уровне значимости 5% можно утверждать, что данная модель значима.

Проверим на значимость параметры модели с помощью критерия Стьюдента на уровне значимости 0,05. Ктабл. = St0.95(5) = X0.975(5) = 2,57

Таким образом, для первого параметра |Квыч. | =1,389008026< Ктабл. Следовательно, первый параметр незначим. Аналогичным образом по имеющимся данным оцениваем оставшиеся параметры модели. В результате, еще 2 параметра будут незначимыми, а именно, Х2 и Х4. Исходя из этого исключим из модели параметр с наименьшей t-статистикой, а именно Х4 – оборот оптовой торговли

В итоге, оборот оптовой торговли не влияет на оборот розничной торговли.

Проанализируем влияние других факторов: сельское хозяйство, импорт, объем платных услуг населению.

Вывод: На уровне значимости 5% можно утверждать, что модель значима. Так же на уровне значимости 5% можно утверждать, что параметр b3 значим, а параметры b1, b2, b4 незначимы. Из модели нужно убрать один фактор b4 – оборот оптовой торговли, т.к. у него Квыч. меньше всего (т.е. объем платных услуг населению влияет на оборот розничной торговли).

Рассмотрим линейную регрессионную модель с k = 3 объясняющими переменными:

Y = b2*X2+b3*X3+b4*X4+ b0, где b0, b2, b3, b4 – неизвестные параметры модели, которые найдем с помощью МНК – оценок.

    ВЫВОД ИТОГОВ          

 

Регрессионная статистика  
Множественный R 0,999091  
R-квадрат 0,998183  
Нормированный R-квадрат 0,997275  
Стандартная ошибка 4815,317  
Наблюдения    
  Дисперсионный анализ      
  df SS MS F Значимость F
Регрессия   7,64E+10   1098,85076 1,31E-08
Остаток   1,39E+08 23187273,65    
  Коэффициенты Стандартная ошибка t-статистика P-Значение  
Y-пересечение -30283 8824,891 -3,431540946 0,013944799  
X1 1,081437 0,911933 1,185872542 0,280501372  
X2 3958,087 706,3556 5,603533427 0,001376385  
X3 2,859877 0,250062 11,43665368 2,68132E-05  
                       

 

ВЫВОД ОСТАТКА  
     
Наблюдение Предсказанное Y Остатки
  42068,51 -1608,81
  55188,41 -963,513
  69458,33 -1314,33
  81968,85 1827,252
  99705,97 1443,329
  132357,6 -2121,34
  179714,8 -1684,22
  211108,1 9298,611
  277325,1 935,2506
  296008,1 -5812,22

 

Построим уравнение регрессии:

Y=1,081437*X1+3958,087*X2+2,859877*X3-30283

Проверим регрессионную модель на значимость:

R2 = 0,998183, то на 99,82% оборот розничной торговли описаны с помощью факторов Х1, Х2, Х3 (сельское хозяйство, импорт, объем платных услуг населению). В модели не учтены около 0,18 % факторов, которые также влияют на оборот розничной торговли.

Применяется критерий Фишера:

К выч = R2 * (n-m) / (1 - R2)* (m-1) = 1098,85

Ктаб = Х1-?[F(m-1; n-m)] < находим с помощью F-критерия Фишера

Ктаб= 3.708 (на уровне значимости 95%).

Т.к. Квыч > Ктаб, то данная модель значима.

 

Вывод: на уровне значимости 5% можно утверждать, что данная модель значима.

Проверим на значимость параметры модели с помощью критерия Стьюдента на уровне значимости 0,05. Ктабл. = St0.95(6) = X0.975(6) = 2,45. Таким образом, для первого параметра |Квыч. | =5,6 > Ктабл. Следовательно, второй параметр значим. Аналогичным образом по имеющимся данным оцениваем оставшиеся параметры модели. В результате, все остальные параметры модели, кроме первого, будут значимыми.

Вывод: На уровне значимости 5% можно утверждать, что модель значима. Так же на уровне значимости 5% можно утверждать, что параметры b2, b3 значимы, а параметр b1 незначим.

 

Рассмотрим линейную регрессионную модель с k = 2 объясняющими переменными:

Y = b2*X2+b3*X3 + b0, где b0, b2, b3– неизвестные параметры модели, которые найдем с помощью МНК – оценок.

  ВЫВОД ИТОГОВ
   
Регрессионная статистика
Множественный R 0,998878
R-квадрат 0,997757
Нормированный R-квадрат 0,997117
Стандартная ошибка 4953,091
Наблюдения  

 

Дисперсионный анализ      
  df SS MS F Значимость F
Регрессия   7,64E+10 3,82E+10 1557,191 5,34E-10
Остаток   1,72E+08      
Итого   7,66E+10      

 

 

  Коэффициенты Стандартная ошибка t-статистика P-Значение
Y-пересечение -21191,1 4495,267 -4,7141 0,002172
X2 3696,912 690,3457 5,355161 0,001058
X3 3,090883 0,161281 19,16456 2,62E-07

 

ВЫВОД ОСТАТКА  
     
Наблюдение Предсказанное Y Остатки
  42521,3 -2061,6
  53461,46 763,4434
  70180,64 -2036,64
  84189,2 -393,1
  101659,7 -510,447
  131248,7 -1012,4
  175787,4 2243,166
  210420,3 9986,445
  277737,5 522,9039
  297697,7 -7501,76

 

Y=3696,912*X2+3,090883*X3-21191,1

Проверим регрессионную модель на значимость:

R2 = 0,997757, то на 99,76% оборот розничной торговли описаны с помощью факторов Х2, Х3 (импорт, объем платных услуг населению). В модели не учтены около 0,24 % факторов, которые также влияют на оборот розничной торговли.

Применяется критерий Фишера:

К выч = R2 * (n-m) / (1 - R2)* (m-1) = 1557,19

Ктаб = Х1-?[F(m-1; n-m)] < находим с помощью F-критерия Фишера

Ктаб=4,1

(на уровне значимости 95%).

Т.к. Квыч > Ктаб, то данная модель значима.

Вывод: на уровне значимости 5% можно утверждать, что данная модель значима.

Проверим на значимость параметры модели с помощью критерия Стьюдента на уровне значимости 0,05. Ктабл. = St0.95(7) = X0.975(7) = 2,36. Таким образом, для первого параметра |Квыч. | =5,4 > Ктабл. Следовательно, второй параметр значим. Аналогичным образом по имеющимся данным оцениваем оставшиеся параметр модели. В результате, все параметры модели будут значимыми.

Вывод: На уровне значимости 5% можно утверждать, что модель значима. Так же на уровне значимости 5% можно утверждать, что параметры b2, b3 значимы.

 

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-04-26 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: