Парные коэффициенты корреляции.

Исходные данные

Период	Оборот розничной торговли, млн.руб. (Y)	Сельское хозяйство, млн. руб. (X1)	Импорт, млн. руб. (X2)	Объем платных услуг населению, млн. руб. (X3)	Оборот оптовой торговли, млн. руб.(X4)
2000 г.	40459,7	8069,243	8,697	10210,8	77023,2
2001 г.	54224,9	10675,418	9,03	13352,0	84763,3
2002 г.		9438,823	9,286	18455,0	102632,7
2003 г.	83796,1	8998,8551	9,332	22932,2	136708,6
2004 г.		10653,036	8,929	29066,5	172002,9
2005 г.		15818,262	8,349	39333,2	205708,0
2006 г.		18355,033	14,682	46168,2	289553,0
2007 г.		17301,626	15,59	56287,0	423303,1
2008 г.		17015,245	23,48	68629,3	664242,7
2009 г.		18662,432	20,565	78573,6	611501,9

На основе таблицы проведем оценку характера совокупности исходных данных с помощью средней, моды, медианы, показателей вариации, коэффициентов асимметрии и эксцесса.

Среднее значение — это арифметическое среднее измеренных значений.

Мода — это значение, которое наиболее часто встречается в выборке. Если одна и та же наибольшая частота встречается у нескольких значений, то выбирается наименьшее из них.

Медиана — это точка на шкале измеренных значений, выше и ниже которой лежит по половине всех измеренных значений.

Показатель вариации характеризует однородность выборки.

Эксцесс характеризует остроконечность (положительное значение) или пологость (отрицательное значение) распределения по сравнению с нормальной кривой.

Асимметричность (коэффициент асимметрии или скоса – s) характеризует смещение распределения относительно математического ожидания. При положительном значении коэффициента распределение скошено вправо, т.е. его более длинная часть лежит правее центра (математического ожидания) и обратно.

Стандартное отклонение — это мера разброса измеренных величин; оно равно квадратному корню из дисперсии.

Дисперсия — это квадрат стандартного отклонения и, следовательно, эта характеристика также является мерой разброса измеренных величин.

Размах (интервал) — это разница между наибольшим значением (максимумом) и наименьшим значением (минимумом).

Стандартная ошибка - это стандартная ошибка среднего значения.

Y

Среднее	144490,39
Стандартная ошибка	29169,46338
Медиана	115692,8
Мода	#Н/Д
Стандартное отклонение	92241,9424
Дисперсия выборки
Эксцесс	-1,203862933
Асимметричность	0,59249023
Интервал	249736,2
Минимум	40459,7
Максимум	290195,9
Сумма	1444903,9
Счет
Показатель вариации	0,638394999

Y – оборот розничной торговли, млн. руб.

Среднее значение розничной торговли за 10 лет составляет 144490,39 млн. руб.

Нет наиболее часто встречающегося значения розничной торговли;

Kex<0 => плосковершинное распределение;

Kas>0 => правосторонняя асимметрия;

Минимальное значение – 40459,7 млн. руб.

Максимальное значение – 290195,9 млн. руб.

Показатель вариации 63,8394999% > 33%

X1

Среднее	13498,79724
Стандартная ошибка	1352,921672
Медиана	13246,8398
Мода	#Н/Д
Стандартное отклонение	4278,313979
Дисперсия выборки	18303970,51
Эксцесс	-2,164787999
Асимметричность	-0,000888344
Интервал	10593,1893
Минимум	8069,243
Максимум	18662,4323
Сумма	134987,9724
Счет
Показатель вариации	0,316940384

Х₁ – Сельское хозяйство млн.руб.

Наиболее часто встречающееся значение 0;

Kex<0 => плосковершинное распределение;

Kas<0 => левосторонняя асимметрия;

Показатель вариации 31,6940384% < 33%

Х2
Среднее	12,794
Стандартная ошибка	1,750879335
Медиана	9,309
Мода	#Н/Д
Стандартное отклонение	5,536766606
Дисперсия выборки	30,65578444
Эксцесс	-0,12385528
Асимметричность	1,11758762
Интервал	15,131
Минимум	8,349
Максимум	23,48
Сумма	127,94
Счет
Показатель вариации	0,432762749

Х₂ – Импорт, млн. руб.

Среднее значение импорта 12,794;

Наиболее часто встречающееся значение 0;

Kex<0 => плосковершинное распределение;

Kas>0 => правосторонняя асимметрия;

Показатель вариации 43,2762749% > 33%

X3

Среднее	38300,78
Стандартная ошибка	7494,438098
Медиана	34199,85
Мода	#Н/Д
Стандартное отклонение	23699,49417
Дисперсия выборки	561666024,1
Эксцесс	-1,009234904
Асимметричность	0,517470532
Интервал	68362,8
Минимум	10210,8
Максимум	78573,6
Сумма	383007,8
Счет
Показатель вариации	0,618773147

Х₃ – Объем платных услуг населению, млн. руб.;

Среднее значение оказания платных услуг населению 38300,78 млн. руб.

Наиболее часто встречающееся значение 0;

Kex<0 => плосковершинное распределение;

Kas<0 => левосторонняя асимметрия;

Показатель вариации составляет 61,8773147% > 33%

X4

Среднее	276743,94
Стандартная ошибка	68843,47713
Медиана	188855,45
Мода	#Н/Д
Стандартное отклонение	217702,1898
Дисперсия выборки
Эксцесс	-0,456082389
Асимметричность	0,999820347
Интервал	587219,5
Минимум	77023,2
Максимум	664242,7
Сумма	2767439,4
Счет
Показатель вариации	0,786655671

X4 – Оборот оптовой торговли, млн. руб.

Среднее значение 276743,94 млн. руб.

Наиболее часто встречающееся значение 0;

Kex<0 => плосковершинное распределение;

Kas>0 => правосторонняя асимметрия;

Показатель вариации составляет 78,6655671% > 33%

Парные коэффициенты корреляции.

Парный коэффициент корреляции характеризует тесноту линейной связи между случайными переменными X_i и X_j.

Свойства парного коэффициента корреляции:

1. Если ǀr*(x_i,x_j)ǀ>0,7, то наблюдается сильная линейная связь;

2. Если ǀr*(x_i,x_j)ǀ<0,3, то наблюдается слабая линейная связь;

3. Если ǀr*(x_i,x_j)ǀ=1, то данные представляют собой совокупность точек, которые можно расположить на одной прямой;

4. Если ǀr*(x_i,x_j)ǀ=0, то линейная связь отсутствует;

5. Если r*(x_i,x_j) положительный, то связь прямая; если r*(x_i,x_j) отрицателен, то связь обратная.

Матрица парных коэффициентов корреляции:

	Y	X1	X2	X3	X4
Y		0,891782	0,938132	0,994269	0,982774
X1	0,891782		0,754656	0,9014	0,8121
X2	0,938132	0,754656		0,901898	0,970956
X3	0,994269	0,9014	0,901898		0,966341
X4	0,982774	0,8121	0,970956	0,966341

Находим определитель матрицы парных коэффициентов: ǀQǀ = 4,4E-07

Из матрицы парных коэффициентов видно, что наиболее тесная связь наблюдается между переменной Y и переменными Х1, X2, X3, и X4 то есть все показатели влияют на объем розничной торговли. Но наибольшее влияние на объем розничной торговли оказывает объем платных услуг, оказанных населению. Наименьшее – сельское хозяйство. Зависимость между переменной Y и переменными Х1, X2, X3, и X4 прямая, это означает, что с их ростом объем розничной торговли увеличивается. Увеличение объема платных услуг населению ведет к увеличению объема розничной торговли. Наибольшее влияние на объем розничной торговли оказывает объем платных услуг, оказанных населению. Наименьшее – сельское хозяйство.

Проверим парные коэффициенты корреляции на значимость:

Находим табличное значение с помощью распределения Стьюдента с (n-m) степенями свободы, (с вероятностью 95%): К_таб= 2,306004

Находим вычисленное значение:

Квыч	Y	X1	X2	X3	X4
Y		5,574672	7,662736	26,3041	15,04084
X1	5,574672		3,253195	5,888251	3,936412
X2	7,662736	3,253195		5,905685	11,47822
X3	26,3041	5,888251	5,905685		10,62424
X4	15,04084	3,936412	11,47822	10,62424

Если ǀК_вычǀ>К_таб, то коэффициент значим. В таблице выделены все значимые коэффициенты. Таким образом, у нас нет незначимых коэффициентов.

Множественный коэффициент корреляции. (Он изменяется в пределах от 0 до 1)

где - определитель корреляционной матрицы; - алгебраическое дополнение -го элемента.

R(Y,Y)

	0,75465587	0,9014	0,8121
0,754656		0,901898	0,970956
0,9014	0,90189817		0,966341
0,8121	0,97095556	0,966341

Множественный коэффициент корреляции R_y_х= 0,99. Сильная взаимосвязь.

Множественный коэффициент корреляции считается значительным, т.е. имеет место статистическая зависимость между Y и остальными факторами X, если К_таб < К_выч

К_таб=5,19

(с вероятностью 95%) находим с помощью F-критерия Фишера c (k) и (n-k-1) степенями свободы.

К_выч= R²/(1-R²)*(n-k-1)/k= 771,4

Вывод: К_таб < К_выч=> На уровне значимости 5% можно утверждать, чтомножественный коэффициент корреляции значим, т.е. между Y и факторами X имеет место сильная статистическая зависимость. Т.е. такие показатели как сельское хозяйство, импорт, объем платных услуг населению и оборот оптовой торговли в значительной степени оказывают влияние объем розничной торговли.

Частный коэффициент корреляции - измеряет тесноту линейной связи между отдельным фактором и результатом при устранении воздействия прочих факторов модели.

r*(Xi;Xj•X1...Xk) = -Qij/√(Qii*Qjj)

Частные коэффициенты корреляции	Квыч	Z(r*)	Zнижн	Zверх
r*(Y;X1•X2,Х3,X4)=	0,52766552	1,756972	0,586904	-0,3931	1,566904
r*(Y;X2•X1,Х3,X4)=	0,58091925	2,018632	0,663849	-0,31615	1,643849
r*(Y;X3•X1,Х2,X4)=	0,88611452	5,40775	1,40354	0,42354	2,38354
r*(Y;X4•X1,X2,Х3)=	0,33097804	0,992061	0,343926	-0,63607	1,323926

Проверим частные коэффициенты корреляции на значимость:

Находим табличное значение через критерий Стьюдента:

Ктаб=t_1-α[St(n-k-2)] = 2,57

Находим вычисленное значение: Квыч= r* (Xi,Xj;*) * корень(n-k-2)/ корень (1-r²(Xi, Xj;*)

Если |К_выч|≤К_таб, то коэффициент незначим. В таблице выделен К_выч, значение которого превышает К_таб.Следовательно, на уровне значимости 5% можно утверждать, что коэффициент Х3 значим_.

Вывод: на уровне значимости 5% наиболее тесная взаимосвязь при фиксированном воздействии другой переменной наблюдается между показателями У и X1, Х2, X4. Т.е. при фиксированном влиянии другой переменной наиболее сильное влияние на объем розничной торговли будут оказывать сельское хозяйство, импорт и оборот оптовой торговли.

Рассмотрим линейную регрессионную модель с k = 4 объясняющими переменными:
Y = b₀+b₁*X₁+b₂*X₂+b₃*X₃+b₄*X₄+ε, где b₀, b₁, b₂, b₃, b₄– неизвестные параметры модели, которые найдем с помощью МНК – оценок.

ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R	0,999190795
R-квадрат	0,998382245
Нормированный R-квадрат	0,997088041
Стандартная ошибка	4977,612654
Наблюдения

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия				771,4256065	3,68E-07
Остаток		123883138,7	24776627,73
Итого

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение
Y-пересечение	-24377,61787	11828,38224	-2,060942687	0,094320011
Переменная X 1	1,621265425	1,167210984	1,389008026	0,223518481
Переменная X 2	2739,574893	1716,66719	1,595868383	0,171405077
Переменная X 3	2,457249717	0,574768095	4,275202015	0,007899516
Переменная X 4	0,064385051	0,082093068	0,784293392	0,468377991

ВЫВОД ОСТАТКА

Наблюдение	Предсказанное Y	Остатки
	42580,47771	-2120,777708
	55935,11646	-1710,216459
	68321,46709	-177,4670943
	80929,75978	2866,34022
	99853,50963	1295,790365
	134036,7088	-3800,408765
	177692,8814	337,7185727
	211948,4888	8458,211173
	278940,457	-680,0570151
	294665,0333	-4469,133289

Построим уравнение регрессии:

Y=1,621265425*X1+2739,574893*X2+2,457249717*X3+0,064385051*X4-24377,61787

Проверим регрессионную модель на значимость:

R²= 0,998382245, то на 99,8% цены на новые автомобили описаны с помощью факторов Х1, Х2, Х3, Х4 (сельское хозяйство, импорт, оказание платных услуг населению и оборот оптовой торговли). В модели не учтены около 0,2 % факторов, которые также влияют на оборот розничной торговли.

Применяется критерий Фишера:

К выч = R²* (n-m) / (1 - R²)* (m-1) =771,4256065

К_таб= Х_1-α[F(m-1; n-m)] ← находим с помощью F-критерия Фишера

Ктаб=3,48

(на уровне значимости 95%).

Т.к. Квыч > Ктаб, то данная модель значима.

Вывод: на уровне значимости 5% можно утверждать, что данная модель значима.

Проверим на значимость параметры модели с помощью критерия Стьюдента на уровне значимости 0,05. К_табл.= St_0.95(5) = X_0.975(5) = 2,57

Таким образом, для первого параметра |К_выч. | =1,389008026< К_табл.Следовательно, первый параметр незначим. Аналогичным образом по имеющимся данным оцениваем оставшиеся параметры модели. В результате, еще 2 параметра будут незначимыми, а именно, Х2 и Х4. Исходя из этого исключим из модели параметр с наименьшей t-статистикой, а именно Х4 – оборот оптовой торговли

В итоге, оборот оптовой торговли не влияет на оборот розничной торговли.

Проанализируем влияние других факторов: сельское хозяйство, импорт, объем платных услуг населению.

Вывод: На уровне значимости 5% можно утверждать, что модель значима. Так же на уровне значимости 5% можно утверждать, что параметр b₃ значим, а параметры b_1,b_2, b₄незначимы. Из модели нужно убрать один фактор b₄ – оборот оптовой торговли, т.к. у него К_выч. меньше всего (т.е. объем платных услуг населению влияет на оборот розничной торговли).

Рассмотрим линейную регрессионную модель с k = 3 объясняющими переменными:

Y = b2*X2+b3*X3+b4*X4+ b0, где b0, b2, b3, b4 – неизвестные параметры модели, которые найдем с помощью МНК – оценок.

ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R	0,999091
R-квадрат	0,998183
Нормированный R-квадрат	0,997275
Стандартная ошибка	4815,317
Наблюдения
Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия		7,64E+10		1098,85076	1,31E-08
Остаток		1,39E+08	23187273,65
	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение
Y-пересечение	-30283	8824,891	-3,431540946	0,013944799
X1	1,081437	0,911933	1,185872542	0,280501372
X2	3958,087	706,3556	5,603533427	0,001376385
X3	2,859877	0,250062	11,43665368	2,68132E-05

ВЫВОД ОСТАТКА

Наблюдение	Предсказанное Y	Остатки
	42068,51	-1608,81
	55188,41	-963,513
	69458,33	-1314,33
	81968,85	1827,252
	99705,97	1443,329
	132357,6	-2121,34
	179714,8	-1684,22
	211108,1	9298,611
	277325,1	935,2506
	296008,1	-5812,22

Построим уравнение регрессии:

Y=1,081437*X1+3958,087*X2+2,859877*X3-30283

Проверим регрессионную модель на значимость:

R2 = 0,998183, то на 99,82% оборот розничной торговли описаны с помощью факторов Х1, Х2, Х3 (сельское хозяйство, импорт, объем платных услуг населению). В модели не учтены около 0,18 % факторов, которые также влияют на оборот розничной торговли.

Применяется критерий Фишера:

К выч = R2 * (n-m) / (1 - R2)* (m-1) = 1098,85

Ктаб = Х1-?[F(m-1; n-m)] < находим с помощью F-критерия Фишера

Ктаб= 3.708 (на уровне значимости 95%).

Т.к. Квыч > Ктаб, то данная модель значима.

Вывод: на уровне значимости 5% можно утверждать, что данная модель значима.

Проверим на значимость параметры модели с помощью критерия Стьюдента на уровне значимости 0,05. Ктабл. = St0.95(6) = X0.975(6) = 2,45. Таким образом, для первого параметра |Квыч. | =5,6 > Ктабл. Следовательно, второй параметр значим. Аналогичным образом по имеющимся данным оцениваем оставшиеся параметры модели. В результате, все остальные параметры модели, кроме первого, будут значимыми.

Вывод: На уровне значимости 5% можно утверждать, что модель значима. Так же на уровне значимости 5% можно утверждать, что параметры b2, b3 значимы, а параметр b1 незначим.

Рассмотрим линейную регрессионную модель с k = 2 объясняющими переменными:

Y = b2*X2+b3*X3 + b0, где b0, b2, b3– неизвестные параметры модели, которые найдем с помощью МНК – оценок.

ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R	0,998878
R-квадрат	0,997757
Нормированный R-квадрат	0,997117
Стандартная ошибка	4953,091
Наблюдения

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия		7,64E+10	3,82E+10	1557,191	5,34E-10
Остаток		1,72E+08
Итого		7,66E+10

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение
Y-пересечение	-21191,1	4495,267	-4,7141	0,002172
X2	3696,912	690,3457	5,355161	0,001058
X3	3,090883	0,161281	19,16456	2,62E-07

ВЫВОД ОСТАТКА

Наблюдение	Предсказанное Y	Остатки
	42521,3	-2061,6
	53461,46	763,4434
	70180,64	-2036,64
	84189,2	-393,1
	101659,7	-510,447
	131248,7	-1012,4
	175787,4	2243,166
	210420,3	9986,445
	277737,5	522,9039
	297697,7	-7501,76

Y=3696,912*X2+3,090883*X3-21191,1

Проверим регрессионную модель на значимость:

R2 = 0,997757, то на 99,76% оборот розничной торговли описаны с помощью факторов Х2, Х3 (импорт, объем платных услуг населению). В модели не учтены около 0,24 % факторов, которые также влияют на оборот розничной торговли.

Применяется критерий Фишера:

К выч = R2 * (n-m) / (1 - R2)* (m-1) = 1557,19

Ктаб = Х1-?[F(m-1; n-m)] < находим с помощью F-критерия Фишера

Ктаб=4,1

(на уровне значимости 95%).

Т.к. Квыч > Ктаб, то данная модель значима.

Вывод: на уровне значимости 5% можно утверждать, что данная модель значима.

Проверим на значимость параметры модели с помощью критерия Стьюдента на уровне значимости 0,05. Ктабл. = St0.95(7) = X0.975(7) = 2,36. Таким образом, для первого параметра |Квыч. | =5,4 > Ктабл. Следовательно, второй параметр значим. Аналогичным образом по имеющимся данным оцениваем оставшиеся параметр модели. В результате, все параметры модели будут значимыми.

Вывод: На уровне значимости 5% можно утверждать, что модель значима. Так же на уровне значимости 5% можно утверждать, что параметры b2, b3 значимы.

Парные коэффициенты корреляции.

Поиск по сайту