ОБРАЗЕЦ ЛАБОРАТОРНОЙ РАБОТЫ №1




Рассмотрим пример выявления зависимости затрат на ремонт оборудования (У) от срока его службы (Х).

 

Рис. 1. Поле корреляции зависимости затрат на ремонт оборудования (У) от срока его службы (Х).

 

Анализ рисунка 1 показывает наличие близкой к прямолинейной зависимости, так как точки расположены практически по прямой линии.

Прямолинейная форма зависимости у от х описывается уравнением прямой:

Таблица 1 расчетная таблица

N п/п Затраты на ремонт (тыс. руб) У Срок службы оборудования (лет) Х  
1. 1,5       2,25 0,875 0,625 0,391   0,417 1,44
2.           1,484 0,516 0,266   0,258 0,49
3. 1,4       1,96 1,484 -0,084 0,007   0,060 1,69
4. 2,3     13,8 5,29 2,093 0,207 0,043   0,090 0,16
5. 2,7     21,6 7,29 3,311 -0,611 0,373   0,226 1,97E-31
6.           4,529 -0,529 0,280   0,132 1,69
7. 2,3     18,4 5,29 3,311 -1,011 1,022   0,440 0,16
8. 2,5     17,5 6,25 2,702 -0,202 0,041   0,081 0,04
9. 6,6     72,6 43,56 5,138 1,462 2,137   0,222 15,21
10. 1,7     10,2 2,89 2,093 -0,393 0,154   0,231  
сумма       217,1 94,78 27,02 -0,02 4,715   2,156 21,88
средняя 2,7   53,6 21,71 9,478 2,702 -0,002 0,471 4,6 0,216 2,188

Определим параметры уравнения прямой на основе метода наименьших квадратов. Исходные данные и расчетные показатели представлены в таблице 1.

 

Представим эту систему в матричном виде:

= = =460

Определители и ∆b получаются заменой свободными членами элементов соответственно первого () и второго (b) столбцов. Получаем таким образом:

= = =-718

∆b= = =280

= =-1,576

b= =0,61

 

Решая систему уравнений, получаем уравнение прямой:

 

Отсюда:

Также коэффициент b можно рассчитать с помощью Мастера функций среди Статистических выбрать функцию ЛИНЕЙН и заполнить ее аргументы:

В таблицу заносятся значения Х и У

Конст – логическое значение (1 или 0), которое указывает на наличие или отсутствие свободного члена в уравнении; ставим 1;

Статистика – логическое значение (1 или 0), которое указывает, выводить дополнительную информацию по регрессионному анализу или нет; ставим 1.

Рис.2 Расчет коэффициента b с помощью функции ЛИНЕЙН

В Excel линия тренда может быть добавлена в диаграмму с областями гистограммы или в график. Для этого необходимо построить точечную диаграмму и добавить в нее линию тренда.

Рис.3. Добавление линии тренда в точечную диаграмму

Рис. 4 Теоретическое уравнение линейной регрессии

 

В уравнении регрессии параметр а0 показывает усредненное влияние на результативный признак неучтенных (невыделенных для исследования) факторов; параметр b=0,61 – коэффициент регрессии показывает, что с увеличением срока службы оборудования на 1 год затраты на ремонт возрастают на 0,61 тыс. руб.

Проверим параметры данного уравнения на типичность. Для этого, используя формулы, рассчитаем необходимые данные:

 

-1,901

 

Определим по специальным таблицам распределения Стьюдента (t – распределение): tk = 2,228

На уровне значимости =0,05 либо по таблице - критерия Стьюдента либо с помощью встроенной статистической функции СТЬЮДЕНТ.ОБР.2Х определим =2,228.

 

Рис. 5 Определение - критерия Стьюдента с помощью встроенной статистической функции СТЬЮДЕНТ.ОБР.2Х

 

 

Сравнение фактических и табличных значений t- критерия:

– 1,901 > 2,2 < 5,397

позволяет признать вычисленные по уравнению параметры:

а0 – нетипичным, b – типичным.

 

Далее произведем оценку практической значимости синтезированной модели:

Для прямолинейной связи это выполняется посредством показателя коэффициента корреляции r. По формуле:

 

 

Полученная величина r = 0,886 означает, что в соответствии со шкалой Чеддока установленная по уравнению регрессии связь между сроком службы оборудования и затратами на ремонт высокая. Рассчитаем коэффициент детерминации r2 = 0,785, следовательно 78,5% общей вариации объясняется изменением факторного признака.

Оценка значимости коэффициента корреляции осуществляется по F - критерию. Фактическое значение этого критерия tr определяется по формуле

На уровне значимости 0,05 =5,31 определяем по таблице -критерия Фишера либо с помощью встроенной статистической функции F.ОБР.ПХ (рис.10).

 

Рис. 10. Диалоговое окно функции FРАСПОБР

Так как =5,31 < =29,21 уравнение регрессии значимо при =0,05.

 

Среднюю ошибку аппроксимации определили по формуле:

Средняя ошибка аппроксимации составляет 21,56%, что не допустимо велико.

Определим коэффициент эластичности по формуле:

Коэффициент эластичности показывает, что при росте срока службы оборудования на 1% затраты на ремонт оборудования вырастут на 1,579%.

Таким образом, построенная нами модель зависимости У от Х:

 

на основе ее проверки по F-критерию в целом адекватна, но не все коэффициенты регрессии значимы (а0 – нетипичен). Такая модель может быть использована для практических целей, но не для осуществления прогнозов.

Реализация расчетов в Excel

Для расчета параметров уравнения линейной регрессии и проверки его адекватности исследуемому процессу Microsoft Excel располагает функцией Регрессия.

Для вызова этой функции необходим пакет статистического анализа. Пакет анализа представляет собой надстройку, т.е. программу, которая доступна при установке Microsoft Office или Excel. Чтобы использовать эту надстройку, необходимо сначала загрузить ее. Для этого:

- на вкладке Меню выберите элемент Сервис, затем пункт Надстройки и установите флажок в окошке Пакет анализа, а затем нажмите кнопку ОК.

Для вызова функции Регрессия необходимо выбрать команду меню Данные → Анализ данных. На экране раскроется диалоговое окно Анализ данных, в котором следует выбрать значение Регрессия, в результате чего на экране появится диалоговое окно Регрессия, представленное на рис. 11.

 

Рис. 11 Окно для ввода параметров расчета линейной регрессии

 

В диалоговом окне Регрессия задаются следующие параметры.

1. В поле Входной интервал Y вводится диапазон ячеек, содержащих исходные данные по результативному признаку. Диапазон должен состоять из одного столбца.

2. В поле Входной интервал X вводится диапазон ячеек, содержащих исходные данные факторного признака. Максимальное число входных диапазонов (столбцов) равно 16.

3. Флажок Метки устанавливается в том случае, если первая строка во входном диапазоне содержит заголовок. Если заголовок отсутствует, этот флажок следует сбросить. В последнем случае для данных выходного диапазона будут автоматически созданы стандартные названия.

4. Флажок опции Уровень надежности устанавливается в том случае, если в расположенное рядом с флажком поле необходимо ввести уровень надежности, отличный от уровня 95%, применяемого по умолчанию. Установленный в данном поле уровень надежности используется для проверки значимости коэффициента детерминации и коэффициентов регрессии. Если данный флажок сброшен, в таблице параметров уравнения регрессии генерируются две одинаковые пары столбцов для границ доверительных интервалов.

5. Флажок Константа-ноль устанавливается в том случае, когда требуется, чтобы линия регрессии прошла через начало координат (т.е. b0 = 0).

6. Переключатель в группе Параметры вывода может быть установлен в одно из трех положений, определяющих, где должны быть размещены результаты расчета: Выходной интервал, Новый рабочий лист или Новая рабочая книга.

7. Флажок опции Остатки устанавливается в том случае, если в диапазон ячеек с выходными данными требуется включить столбец остатков.

8. Флажок опции Стандартизированные остатки устанавливается в том случае, если в диапазон ячеек с выходными данными требуется включить столбец стандартизированных остатков.

9. Флажок опции График остатков должен быть установлен, если на рабочий лист требуется вывести графики зависимости остатков от факторных признаков xt.

10. Флажок опции График подбора должен быть установлен, если на рабочий лист требуется вывести точечные графики зависимости теоретических результативных значений j от факторных признаков

11. Флажок опции График нормальной вероятности должен быть установлен, если на рабочий лист требуется вывести точечный график зависимости наблюдаемых значений у от автоматически формируемых интервалов персентелей.

Рассмотрим результаты решения рассмотренного нами примера:

Таблица 5 Вывод итогов

Регрессионная статистика Соответствие показателей
Множественный R 0,885 коэффициент корреляции r
R-квадрат 0,785 коэффициент детерминации r2
Нормированный R-квадрат 0,758 нормированное значение коэффициента корреляции
Стандартная ошибка 0,768 стандартное отклонение для остатков
Наблюдения   число исходных наблюдений

Таблица 6 Дисперсионный анализ

  df SS MS F Значимость F
Регрессия   17,16543478 17,16543 29,1275 0,000648342
Остаток   4,714565217 0,589321    
Итого   21,88      

Столбец df – число степеней свободы

Для строки Регрессия число степеней свободы определяется количеством факторных признаков т, для строки Остаток - числом наблюдений n и количеством переменных в уравнении регрессии т + 1: n - (т + 1), а для строки Итого - суммой степеней свободы для строк Регрессия и Остаток и, следовательно, равно n - 1.

Столбец SS - сумма квадратов отклонений.

Для строки Регрессия значение определяется как сумма квадратов отклонений расчетных данных от среднего.

Для строки Остаток – это сумма квадратов отклонений фактических данных от теоретических

Для строки Итого – это сумма квадратов отклонений расчетных данных от среднего .

Столбец MS содержит значения дисперсий:

Для строки Регрессия – это факторная дисперсия

Для строки Остаток – это остаточная дисперсия

Столбец F содержит расчетное значение F – критерия Фишера

Столбец Значимость F содержит значение уровня значимости, соответствующее вычисленному значению F.

 

Таблица 7 Результаты расчета параметров линейной модели

  Коэффи-циенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y-пере-сечение -1,576 0,829 -1,902 0,093685 -3,4869 0,3348
Х 0,611 0,113 5,397 0,000648 0,3498 0,8718

 

В таблице 7 представлены результаты расчета параметров модели и проведена оценка их надежности.

В столбце Коэффициенты представлены расчеты параметров уравнения а0 и b.

В столбце Стандартная ошибка представлены стандартные ошибки для полученных коэффициентов.

В столбце t-статистика представлены расчетные значения t-критерия Стьюдента

В столбце P-Значение получены значения уровней значимости, соответствующие вычисленным значениям t.

В столбце Нижние 95% и Верхние 95% - это нижние и верхние границы доверительных интервалов для коэффициентов регрессии.

Таким образом, расчеты, проведенные в Exel позволяют сделать следующие выводы относительно уравнения линейной регрессии:

У=-1,576+0,611х

Индекс корреляции r=0,89 указывает на наличие высокой тесноты связи (согласно шкалы Чеддока) между сроком службы оборудования (х) и затратами на его ремонт (у). Выборочный коэффициент детерминации r2=0,785 показывает, что 78,5% разброса зависимой переменной у объясняется зависимостью от срока службы оборудования.

F-критерий Фишера расчетный Fрасч=29,1, а Fтабл=5,31. Так как расчетное значение F-критерия выше F-табличного вычисленный коэффициент корреляции признается существенным.

Рассчитанный уровень значимости Fрасч= 0,001227<0,05 подтверждает статистическую значимость величины r2 (т.е. гипотеза Н0: r2=0 отвергается в пользу Н1: r2>0 при уровне значимости α=0,05). В этом случае говорят еще, что уравнение регрессии значимо в целом при а = 0,05.

Следующим этапом является проверка значимости коэффициентов регрессии а и b. При парном сравнении коэффициентов и их стандартных ошибок (табл. 7) можно сделать вывод, что вычисленный коэффициент b является статистически значимыми (т.е. гипотезы H: Р = 0 и H: р = 0 отвергаются). Этот вывод подтверждается величиной Р-значений коэффициента, который меньше уровня значимости а = 0,05. Доверительные интервалы с уровнем надежности У = 1 - а = 1 - 0,05 = 0,95 для теоретического коэффициента b равны соответственно и (0,366; 0,973). Последнее означает, что, основываясь на выборочных данных, можно утверждать о попадании неизвестных параметров b в указанные интервалы с вероятностью 0,95. Однако коэффициент а не является статистически значимым, так как величина Р-значений коэффициента, выше уровня значимости а = 0,05.

Аналогичные результаты дает t-критерий Стьюдента.

Определим по специальным таблицам распределения Стьюдента (t – распределение): tk = 2,2.

Сравнение фактических и табличных значений t- критерия:

– 1,9 > 2,2 < 5,4

позволяет признать вычисленные по уравнению параметры:

а0 – нетипичным, b – типичным.

Дадим экономическую интерпретацию. Коэффициент регрессии b=0,61 показывает, что при увеличении срока службы оборудования на 1 год затраты на ремонт увеличиваются на 0,61 тыс.руб.

Замечание. К экономической интерпретации коэффициента а следует относиться с известной долей осторожности, сообразуясь со здравым смыслом, поскольку выборочные данные находятся достаточно далеко от нуля. В ряде случаев ограничиваются интерпретацией коэффициента при объясняющей переменной.

Проверим наличие тесноты связи и регрессии с помощью парных нелинейных моделей.

Составим систему уравнений для нахождения параметров уравнения п араболы второй степени yx = a+bx+c x2

 

 

Таблица 9 Вспомогательная таблица для расчета параметров уравнения параболы второй степени

  х у х2 х3 xy x4 x2y
    1,5           1,814 -0,314 0,099 0,209
                1,665 0,335 0,112 0,167
    1,4           1,665 -0,265 0,070 0,189
    2,3     13,8   82,8 1,768 0,532 0,283 0,231
    2,7     21,6   172,8 2,727 -0,027 0,001 0,010
                4,692 -0,692 0,479 0,173
    2,3     18,4   147,2 2,727 -0,427 0,182 0,186
    2,5     17,5   122,5 2,122 0,378 0,143 0,151
    6,6     72,6   798,6 6,052 0,548 0,300 0,083
    1,7     10,2   61,2 1,768 -0,068 0,005 0,040
        217,1   1894,1     1,675 1,441
ср   2,7 53,6   21,71 3933,2 189,41 2,7   0,167 0,144

 

 

 

Найдем общий определитель матрицы

Найдем определитель матрицы a

Найдем определитель матрицы b

Найдем определитель матрицы c

 

Определим параметры уравнения параболы второго порядка:

Таким образом, уравнение параболы примет вид:

Далее определим индекс корреляции

Согласно шкалы Чеддока теснота связи весьма высокая, а коэффициент детерминации составит соответственно R2=0,924. Коэффициент детерминации используется для проверки существенности в целом уравнения регрессии по F – критерию Фишера.

Сравним расчетное значение F-критерия Фишера с табличным Fкр=19,35 Так как расчетное больше табличного величина уравнения является существенной, следовательно его можно использовать в практических расчетах. Ошибка аппроксимации не превышает 15%, что свидетельствует о надежности построенной модели регрессии.

Определим среднюю ошибку аппроксимации:

Рис. 12 Теоретическое распределение параболы второго порядка

 

Проведем расчет точечного и интервального прогнозов размера затрат на ремонт оборудования при сроке его эксплуатации 5 лет.

Подставим в полученное уравнение регрессии значение х=5, получим точечный прогноз:

 

Определим среднюю ошибку прогнозируемого индивидуального значения

 

Определим предельную ошибку при уровне значимости 0,05 (tтабл=2,2), ∆=0,445*2,2=0,98

1,674-0,98=0,694

1,674+0,98=2,654

 

Таким образом при сроке службы оборудования 5 лет затраты на их ремонт будут находиться в пределах от 0,694 до 2,654 тыс. руб при сроке службы оборудования 5 лет.

Рассмотрим решение поставленной задачи с помощью экспоненциальной зависимости.

Экспоненциальная регрессия:

Линеаризующее преобразование:

Таблица 10 Вспомогательная таблица для расчета параметров

уравнения экспоненциальной регрессии

  х у ln y x lny x2
    1,5 0,405 1,622   1,352 0,148 0,022 0,099
      0,693 3,466   1,640 0,359 0,129 0,180
    1,4 0,336 1,682   1,640 -0,240 0,057 0,171
    2,3 0,833 4,998   1,999 0,310 0,096 0,135
    2,7 0,993 7,946   2,929 -0,229 0,053 0,085
      1,386 13,863   4,312 -0,312 0,098 0,078
    2,3 0,833 6,663   2,929 -0,629 0,396 0,274
    2,5 0,916 6,414   2,414 0,086 0,007 0,034
    6,6 1,887 20,758   5,232 1,368 1,871 0,207
    1,7 0,531 3,184   1,999 -0,289 0,084 0,171
    8,814 70,595   26,43 0,570 2,814 1,434
средние   2,7 0,881 7,06 53,6 2,64 0,057 0,281 0,143

 

 

Получаем уравнение

 

Далее определим индекс корреляции

Согласно шкалы Чеддока теснота связи весьма высокая, а коэффициент детерминации составит соответственно R2=0,871. Коэффициент детерминации используется для проверки существенности в целом уравнения регрессии по F – критерию Фишера.

Сравним расчетное значение F-критерия Фишера с табличным Fкр=19,35. Так как расчетное больше табличного величина уравнения является существенной, следовательно его можно использовать в практических расчетах. Ошибка аппроксимации не превышает 15%, что свидетельствует о надежности построенной модели регрессии.

Определим среднюю ошибку аппроксимации:

 

 

Рис. 12 Теоретическое распределение экспоненциальной зависимости

 

Проведем расчет точечного и интервального прогнозов размера затрат на ремонт оборудования при сроке его эксплуатации 5 лет.

Подставим в полученное уравнение регрессии значение х=5, получим точечный прогноз:

Получаем уравнение

 

Определим среднюю ошибку прогнозируемого индивидуального значения

 

Определим предельную ошибку при уровне значимости 0,05 (tтабл=2,2), ∆=0,306*2,2=0,673

2,929-0,673=2,256

2,929+0,673=3,602

 

Таким образом при сроке службы оборудования 5 лет затраты на их ремонт будут находится в пределах от 2,256 до 3,602 тыс. руб при сроке службы оборудования 5 лет.

 

Сравним построенные модели по индексу детерминации и средней ошибке аппроксимации.

Таблица 11 Результаты сравнения различных моделей зависимости

Модель Коэффициент детерминации, R Средняя ошибка аппроксимации, %
линейная 0,785 21,56
парабола второго порядка 0,961 14,4
экспоненциальная 0,933 14,3

 

Наиболее адекватно описывает зависимость между сроком службы оборудования и затратами на ремонт модели параболы второго порядка и экспоненциальная регрессия.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2019-04-30 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: