Лабораторные работы № 1 – 5.
Содержание отчета
1. Тема работы.
2. Краткие теоретические сведения.
3. Порядок выполнения работы.
4. Исходные данные для разработки математической модели.
5. Результаты разработки математической модели.
6. Результаты исследования модели. Построение прогноза.
7. Выводы.
В задачах 2-4 можно использовать ППП Excel для расчетов характеристик модели.
Задание 1. Построение моделей парной регрессии.Проверка остатков на гетероскедастичность.
По 15 предприятиям, выпускающим один и тот же вид продукции известны значения двух признаков:
х - выпуск продукции, тыс. ед.;
у - затраты на производство, млн. руб.
x | y |
5,3 | 18,4 |
15,1 | 22,0 |
24,2 | 32,3 |
7,1 | 16,4 |
11,0 | 22,2 |
8,5 | 21,7 |
14,5 | 23,6 |
10,2 | 18,5 |
18,6 | 26,1 |
19,7 | 30,2 |
21,3 | 28,6 |
22,1 | 34,0 |
4,1 | 14,2 |
12,0 | 22,1 |
18,3 | 28,2 |
Требуется:
1.Построить поле корреляции и сформулировать гипотезу о форме связи;
2.Построить модели:
2.1 Линейной парной регрессии;
2.2 Полулогарифмической парной регрессии;
2.3 Степенной парной регрессии;
Для этого:
1. Рассчитать параметры уравнений;
2. Оценить тесноту связи с помощью коэффициента (индекса)
корреляции;
3. Оценить качество модели с помощью коэффициента (индекса)
детерминации и средней ошибки аппроксимации;
4. Дать с помощью среднего коэффициента эластичности
сравнительную оценку силы связи фактора с результатом;
5. С помощью F -критерия Фишера оценить статистическую надежность результатов регрессионного моделирования;
3. По значениям характеристик, рассчитанных в пунктах 2-5 выбрать лучшее уравнение регрессии;
4. Используя метод Гольфрельда-Квандта проверить остатки на гетероскедастичность;
5. Рассчитать прогнозное значение результата, если прогнозное значение фактора увеличится на 5% от его среднего уровня. Для уровня значимости =0,05 определить доверительный интервал прогноза.
|
Решение.
Строим поле корреляции.
Анализируя расположение точек поля корреляции, предполагаем, что связь между признаками х и у может быть линейной, т.е. у=а+bх, или нелинейной вида: у=а+blnх, у = ахb.
Основываясь на теории изучаемой взаимосвязи, предполагаем получить зависимость у от х вида у=а+bх, т. к. затраты на производство y можно условно разделить на два вида: постоянные, не зависящие от объема производства - a, такие как арендная плата, содержание администрации и т.д.; и переменные, изменяющиеся пропорционально выпуску продукции bх, такие как расход материала, электроэнергии и т.д.
2.1. Модель линейной парной регрессии.
2.1.1. Рассчитаем параметры a и b линейной регрессии у=а+bх.
Строим расчетную таблицу 1.
Таблица 1
№ | x | y | yx | x2 | y2 | Аi | ||
5,3 | 18,4 | 97,52 | 28,09 | 338,56 | 16,21 | 2,19 | 11,92 | |
15,1 | 22,0 | 332,20 | 228,01 | 484,00 | 24,74 | -2,74 | 12,46 | |
24,2 | 32,3 | 781,66 | 585,64 | 1043,29 | 32,67 | -0,37 | 1,14 | |
7,1 | 16,4 | 116,44 | 50,41 | 268,96 | 17,77 | -1,37 | 8,38 | |
11,0 | 22,2 | 244,20 | 121,00 | 492,84 | 21,17 | 1,03 | 4,63 | |
8,5 | 21,7 | 184,45 | 72,25 | 470,89 | 18,99 | 2,71 | 12,47 | |
14,5 | 23,6 | 342,20 | 210,25 | 556,96 | 24,22 | -0,62 | 2,62 | |
10,2 | 18,5 | 188,70 | 104,04 | 342,25 | 20,47 | -1,97 | 10,67 | |
18,6 | 26,1 | 485,46 | 345,96 | 681,21 | 27,79 | -1,69 | 6,48 | |
19,7 | 30,2 | 594,94 | 388,09 | 912,04 | 28,75 | 1,45 | 4,81 | |
21,3 | 28,6 | 609,18 | 453,69 | 817,96 | 30,14 | -1,54 | 5,39 | |
22,1 | 34,0 | 751,40 | 488,41 | 1156,00 | 30,84 | 3,16 | 9,30 | |
4,1 | 14,2 | 58,22 | 16,81 | 201,64 | 15,16 | -0,96 | 6,77 | |
12,0 | 22,1 | 265,20 | 144,00 | 488,41 | 22,04 | 0,06 | 0,26 | |
18,3 | 28,2 | 516,06 | 334,89 | 795,24 | 27,53 | 0,67 | 2,38 | |
Σ | 212,0 | 358,5 | 5567,83 | 3571,54 | 9050,25 | 358,50 | 0,00 | 99,69 |
среднее | 14,133 | 23,900 | 371,189 | 238,103 | 603,350 | 23,90 | 0,00 | 6,65 |
Параметры a и b уравнения
|
Yx = a + bx
определяются методом наименьших квадратов:
Разделив на n и решая методом Крамера, получаем формулу для определения b:
Уравнение регрессии:
=11,591+0,871x
С увеличением выпуска продукции на 1 тыс. руб. затраты на производство увеличиваются на 0,871 млн. руб. в среднем, постоянные затраты равны 11,591 млн. руб.
2.1.2. Тесноту связи оценим с помощью линейного коэффициента парной корреляции.
Предварительно определим средние квадратические отклонения признаков.
Средние квадратические отклонения:
Коэффициент корреляции:
Между признаками X и Y наблюдается очень тесная линейная корреляционная связь.
2.1.3. Оценим качество построенной модели.
Определим коэффициент детерминации:
т. е. данная модель объясняет 90,5% общей дисперсии у, на долю необъясненной дисперсии приходится 9,5%.
Следовательно, качество модели высокое.
Найдем величину средней ошибки аппроксимации А i.
Предварительно из уравнения регрессии определим теоретические значения для каждого значения фактора.
Ошибка аппроксимации Аi, i =1…15:
Средняя ошибка аппроксимации:
Ошибка небольшая, качество модели высокое.
4.1.4. Определим средний коэффициент эластичности:
Он показывает, что с увеличением выпуска продукции на 1% затраты на производство увеличиваются в среднем на 0,515%.
2.1.5. Оценим статистическую значимость полученного уравнения.
Проверим гипотезу H0, что выявленная зависимость у от х носит случайный характер, т. е. полученное уравнение статистически незначимо. Примем α=0,05. Найдем табличное (критическое) значение F- критерия Фишера:
|
Найдем фактическое значение F - критерия Фишера:
следовательно, гипотеза H0 отвергается, принимается альтернативная гипотеза H1: с вероятностью 1-α=0,95 полученное уравнение статистически значимо, связь между переменными x и y неслучайна.
Построим полученное уравнение.
2.2. Модель полулогарифмической парной регрессии.
2.2.1. Рассчитаем параметры а и b в регрессии:
уx =а +blnх.
Линеаризуем данное уравнение, обозначив:
z=lnx.
Тогда:
y=a + bz.
Параметры a и b уравнения
= a + bz
определяются методом наименьших квадратов:
Рассчитываем таблицу 2.
Таблица 2
№ | x | y | z | yz | z2 | y2 | Аi | ||
5,3 | 18,4 | 1,668 | 30,686 | 2,781 | 338,56 | 15,38 | 3,02 | 16,42 | |
15,1 | 22,0 | 2,715 | 59,723 | 7,370 | 484,00 | 25,75 | -3,75 | 17,03 | |
24,2 | 32,3 | 3,186 | 102,919 | 10,153 | 1043,29 | 30,42 | 1,88 | 5,83 | |
7,1 | 16,4 | 1,960 | 32,146 | 3,842 | 268,96 | 18,27 | -1,87 | 11,42 | |
11,0 | 22,2 | 2,398 | 53,233 | 5,750 | 492,84 | 22,61 | -0,41 | 1,84 | |
8,5 | 21,7 | 2,140 | 46,439 | 4,580 | 470,89 | 20,06 | 1,64 | 7,58 | |
14,5 | 23,6 | 2,674 | 63,110 | 7,151 | 556,96 | 25,34 | -1,74 | 7,39 | |
10,2 | 18,5 | 2,322 | 42,964 | 5,393 | 342,25 | 21,86 | -3,36 | 18,17 | |
18,6 | 26,1 | 2,923 | 76,295 | 8,545 | 681,21 | 27,81 | -1,71 | 6,55 | |
19,7 | 30,2 | 2,981 | 90,015 | 8,884 | 912,04 | 28,38 | 1,82 | 6,03 | |
21,3 | 28,6 | 3,059 | 87,479 | 9,356 | 817,96 | 29,15 | -0,55 | 1,93 | |
22,1 | 34,0 | 3,096 | 105,250 | 9,583 | 1156,00 | 29,52 | 4,48 | 13,18 | |
4,1 | 14,2 | 1,411 | 20,036 | 1,991 | 201,64 | 12,84 | 1,36 | 9,60 | |
12,0 | 22,1 | 2,485 | 54,916 | 6,175 | 488,41 | 23,47 | -1,37 | 6,20 | |
18,3 | 28,2 | 2,907 | 81,975 | 8,450 | 795,24 | 27,65 | 0,55 | 1,95 | |
Σ | 212,0 | 358,5 | 37,924 | 947,186 | 100,003 | 9050,25 | 358,50 | 0,00 | 131,14 |
Средн. | 14,133 | 23,900 | 2,528 | 63,146 | 6,667 | 603,350 | 23,90 | 0,00 | 8,74 |
Разделив на n и решая методом Крамера, получаем формулу для определения b:
Уравнение регрессии:
= -1,136 + 9,902z
2.2.2. Оценим тесноту связи между признаками у и х.
Т. к. уравнение у = а + bln x линейно относительно параметров а и b и его линеаризация не была связана с преобразованием зависимой переменной _ у, то теснота связи между переменными у и х, оцениваемая с помощью индекса парной корреляции Rxy, также может быть определена с помощью линейного коэффициента парной корреляции ryz
среднее квадратическое отклонение z:
Значение индекса корреляции близко к 1, следовательно, между переменными у и х наблюдается очень тесная корреляционная связь вида = a + bz.
2.2.3. Оценим качество построенной модели.
Определим коэффициент детерминации:
т. е. данная модель объясняет 83,8% общей вариации результата у, на долю необъясненной вариации приходится 16,2%.
Следовательно, качество модели высокое.
Найдем величину средней ошибки аппроксимации А i.
Предварительно из уравнения регрессии определим теоретические значения для каждого значения фактора.
Ошибка аппроксимации Аi, i =1…15:
Средняя ошибка аппроксимации:
Ошибка небольшая, качество модели высокое.
2.2.4.Определим средний коэффициент эластичности:
Он показывает, что с увеличением выпуска продукции на 1% затраты на производство увеличиваются в среднем на 0,414%.
2.2.5. Оценим статистическую значимость полученного уравнения.
Проверим гипотезу H0, что выявленная зависимость у от х носит случайный характер, т.е. полученное уравнение статистически незначимо. Примем α=0,05.
Найдем табличное (критическое) значение F -критерия Фишера:
Найдем фактическое значение F -критерия Фишера:
следовательно, гипотеза H0 отвергается, принимается альтернативная гипотеза H1: с вероятностью 1-α=0,95 полученное уравнение статистически значимо, связь между переменными x и y неслучайна.
Построим уравнение регрессии на поле корреляции
2.3. Модель степенной парной регрессии.
2.3.1. Рассчитаем параметры а и b степенной регрессии:
Расчету параметров предшествует процедура линеаризации данного уравнения:
и замена переменных:
Y=lny, X=lnx, A=lna
Параметры уравнения:
Y=A+bX
определяются методом наименьших квадратов:
Рассчитываем таблицу 3.
Определяем b:
Уравнение регрессии:
Построим уравнение регрессии на поле корреляции:
2.3.2. Оценим тесноту связи между признаками у и х с помощью индекса парной корреляции Ryx.
Предварительно рассчитаем теоретическое значение для каждого значения фактора x, и , тогда:
Значение индекса корреляции Rxy близко к 1, следовательно, между переменными у и х наблюдается очень тесная корреляционная связь вида:
2.3.3. Оценим качество построенной модели.
Определим индекс детерминации:
R2 =0,9362=0,878,
т. е. данная модель объясняет 87,6% общей вариации результата у, а на долю необъясненной вариации приходится 12,4%.
Качество модели высокое.
Найдем величину средней ошибки аппроксимации.
Ошибка аппроксимации Аi, i =1…15:
Средняя ошибка аппроксимации:
Ошибка небольшая, качество модели высокое.
2.3.4. Определим средний коэффициент эластичности:
Он показывает, что с увеличением выпуска продукции на 1% затраты на производство увеличиваются в среднем на 0,438%.
2.3.5.Оценим статистическую значимость полученного уравнения.
Проверим гипотезу H0, что выявленная зависимость у от х носит случайный характер, т. е. полученное уравнение статистически незначимо. Примем α=0,05.
табличное (критическое) значение F -критерия Фишера:
фактическое значение F -критерия Фишера:
Таблица 3
№ | x | y | X | Y | YX | X2 | y2 | Аi | |||
5,3 | 18,4 | 1,668 | 2,912 | 4,857 | 2,781 | 338,56 | 15,93 | 2.47 | 6,12 | 13,44 | |
15,1 | 22,0 | 2,715 | 3,091 | 8,391 | 7,370 | 484,00 | 25,19 | -3,19 | 10,14 | 14,48 | |
24,2 | 32,3 | 3,186 | 3,475 | 11,073 | 10,153 | 1043,29 | 30,96 | 1,34 | 1,80 | 4,15 | |
7,1 | 16,4 | 1,960 | 2,797 | 5,483 | 3,842 | 268,96 | 18,10 | -1,70 | 2,89 | 10,37 | |
11,0 | 22,2 | 2,398 | 3,100 | 7,434 | 5,750 | 492,84 | 21,92 | 0,28 | 0,08 | 1,24 | |
8,5 | 21,7 | 2,140 | 3,077 | 6,586 | 4,580 | 470,89 | 19,58 | 2,12 | 4,48 | 9,75 | |
14,5 | 23,6 | 2,674 | 3,161 | 8,454 | 7,151 | 556,96 | 24,74 | -1,14 | 1,30 | 4,84 | |
10,2 | 18,5 | 2,322 | 2,918 | 6,776 | 5,393 | 342,25 | 21,21 | -2,71 | 7,35 | 14,66 | |
18,6 | 26,1 | 2,923 | 3,262 | 9,535 | 8,545 | 681,21 | 27,59 | -1,49 | 2,22 | 5,71 | |
19,7 | 30,2 | 2,981 | 3,408 | 10,157 | 8,884 | 912,04 | 28,29 | 1,91 | 3,63 | 6,31 | |
21,3 | 28,6 | 3,059 | 3,353 | 10,257 | 9,356 | 817,96 | 29,28 | -0,68 | 0,46 | 2,37 | |
22,1 | 34,0 | 3,096 | 3,526 | 10,916 | 9,583 | 1156,00 | 29,75 | 4,25 | 18,03 | 12,49 | |
4,1 | 14,2 | 1,411 | 2,653 | 3,744 | 1,991 | 201,64 | 14,23 | -0,03 | 0,00 | 0,24 | |
12,0 | 22,1 | 2,485 | 3,096 | 7,692 | 6,175 | 488,41 | 22,78 | -0,68 | 0,46 | 3,06 | |
18,3 | 28,2 | 2,907 | 3,339 | 9,707 | 8,450 | 795,24 | 27,40 | 0,80 | 0,65 | 2,85 | |
сумма | 212,0 | 358,5 | 37,924 | 47,170 | 121,062 | 100,003 | 9050,25 | 358,5 | 0,00 | 59,61 | 105,95 |
среднее | 14,133 | 23,900 | 2,528 | 3,145 | 8,071 | 6,667 | 603,350 | 23,90 | 0,00 | 3,97 | 7,06 |
следовательно, гипотеза H0 отвергается, принимается альтернативная гипотеза H1: с вероятностью 1-α=0,95 полученное уравнение статистически значимо, связь между переменными x и y неслучайна.
3. Выбор лучшего уравнения.
Составим таблицу полученных результатов исследования.
Таблица 4
Уравнение | Коэффициент (индекс) корреляции | Коэффициент (индекс) детерминации | Средняя ошибка аппроксимации | Коэффициент эластичности |
линейное | 0,951 | 0,905 | 6,65 | 0,515 |
полулогагифмическое | 0,915 | 0,838 | 8,74 | 0,414 |
степенное | 0,936 | 0,878 | 7,06 | 0,438 |
Анализируем таблицу и делаем выводы.
ú Все три уравнения оказались статистически значимыми и надежными, имеют близкий к 1 коэффициент (индекс) корреляции, высокий (близкий к 1) коэффициент (индекс) детерминации и ошибку аппроксимации в допустимых пределах.
ú При этом характеристики линейной модели указывают, что она несколько лучше полулогарифмической и степенной описывает связь между признаками x и у.
ú Поэтому в качестве уравнения регрессии выбираем линейную модель.
Для выбранной модели проверим предпосылку МНК о гомоскедастичности остатков, т. е. о том, что остатки регрессии имеют постоянную дисперсию.
Используем метод Гольдфельдта-Квандта.
1. Упорядочим наблюдения по мере возрастания переменной х.
2. Исключим из рассмотрения 3 центральных наблюдения.
3. Рассмотрим первую группу наблюдений (малые значения фактора х) и
определим этой группы.
4. Рассмотрим вторую группу наблюдений (большие значения фактора х) и определим этой группы.
5. Проверим, значимо или незначимо отличаются дисперсии остатков этих групп.
Таблица 5
№ | x | y | yx | x2 | y2 | |||
4,1 | 14,2 | 58,22 | 16,81 | 201,64 | 15,47 | -1,27 | 1,60 | |
5,3 | 18,4 | 97,52 | 28,09 | 338,56 | 16,50 | 1,90 | 3,61 | |
7,1 | 16,4 | 116,44 | 50,41 | 268,96 | 18,05 | -1,65 | 2,72 | |
8,5 | 21,7 | 184,45 | 72,25 | 470,89 | 19,26 | 2,44 | 5,97 | |
10,2 | 18,5 | 188,70 | 104,04 | 342,25 | 20,72 | -2,22 | 4,93 | |
11,0 | 22,2 | 244,20 | 121,00 | 492,84 | 21,41 | 0,79 | 0,63 | |
сумма | 46,2 | 111,4 | 889,53 | 392,60 | 2115,14 | 111,40 | 0,00 | 19,46 |
среднее | 7,70 | 18,57 | 148,26 | 65,43 | 352,52 | 18,57 | 0,00 | 3,89 |
Определим параметры уравнения регрессии 1 группы:
Уравнение регрессии 1 группы:
=11,93+0,86x
Таблица 6
№ | x | y | yx | x2 | y2 | |||
18,3 | 28,2 | 516,06 | 334,89 | 795,24 | 27,56 | 0,64 | 0,41 | |
18,6 | 26,1 | 485,46 | 345,96 | 681,21 | 27,85 | -1,75 | 3,06 | |
19,7 | 30,2 | 594,94 | 388,09 | 912,04 | 28,92 | 1,28 | 1,63 | |
21,3 | 28,6 | 609,18 | 453,69 | 817,96 | 30,49 | -1,89 | 3,56 | |
22,1 | 34,0 | 751,40 | 488,41 | 1156,00 | 31,27 | 2,73 | 7,47 | |
24,2 | 32,3 | 781,66 | 585,64 | 1043,29 | 33,32 | -1,02 | 1,03 | |
сумма | 124,2 | 179,4 | 3738,70 | 2596,68 | 5405,74 | 179,40 | 0,00 | 17,17 |
среднее | 20,70 | 29,90 | 623,12 | 432,78 | 900,96 | 29,90 | 0,00 | 3,43 |
Параметры уравнения регрессии 2 группы:
Уравнение регрессии 2 группы:
=9,7+0,98x
S1= 19.46 >S2= 17.17
Fфакт.< Fтабл.
следовательно, остатки гомоскедастичны, предпосылки МНК не нарушены.
5. Рассчитаем прогнозное значение результата у, если прогнозное значение фактора х увеличивается на 5% от его среднего уровня.
Точечный прогноз:
11,59+0,871,0514,13=24,515 млн. руб.
Для данной величины выпуска продукции прогнозное значение затрат на производство составляет 24,515 млн. руб.
Для уровня значимости α= 0,05 определим доверительный интервал прогноза.
Предварительно определим стандартные ошибки коэффициента корреляции и параметра b.
Стандартная ошибка коэффициента корреляции:
Ошибка прогноза:
Доверительный интервал прогноза значений y при с вероятностью 0,95 составит:
Прогноз надежный, но не очень точный, т. к.
Варианты заданий.
Вариант № 1
Вариант № 2
Вариант № 3
Вариант № 4
Вариант № 5
Вариант № 6
Вариант № 7
Вариант № 8
Вариант № 9
Вариант № 10
Вариант № 11
Вариант № 12
Вариант № 13
Вариант № 14
Вариант № 15
Вариант № 16
Вариант № 17
Вариант № 18
Вариант № 19
Вариант № 20
Вариант № 21
Вариант № 22
Вариант № 23