Занятие 7
ОСНОВЫРЕГРЕССИОННОГО АНАЛИЗА
Цель работы: изучить основные приёмы проведения регрессионного анализа с помощью функций MS Excel и с использованием инструмента Пакета анализа «Регрессия».
Регрессионный анализ – статистический метод исследования зависимости случайной величины Y от переменных (j = 1, 2,…, k), рассматриваемых как неслучайные величины. Зная уравнение регрессии, можно при любых значениях Х, подставляя их в уравнение, приближённо оценить значение Y. Объясняющие переменные рассматриваются как неслучайные величины независимо от истинного закона распределения, а случайная величина Y имеет нормальный закон распределения с условным математическим ожиданием, являющимся функцией от :
с постоянной, независящей от аргументов, дисперсией .
Построение уравнения линейной регрессии
Пример 1. Построить уравнение линейной регрессии для следующих данных:
x | |||||
y | 1,9 | 1,7 | 1,8 | 1,5 | 1,3 |
Проверить значимость коэффициентов регрессии и уравнения регрессии. Построить доверительный интервал для генерального коэффициента βyx. Принять α = 0,05.
Решение.
Коэффициенты b 0 и b 1 вычисляются по формулам:
;
Введём исходные данные в ячейки A2:A6 (значения x) и в ячейки B2:B6 (значения y).
Для вычисления коэффициентов линейной регрессии в MS Excel используется функция ЛИНЕЙН(известные_значения_y, известные_значения_х, конст, статистика).
Аргументы функции: известные_значения_ y: множество значений результативного признака Y; известные_значения_ x: множество значений факторных признаков Xi; конст: логическое значение, которое указывает, требуется ли, чтобы свободный член b0 был равен 0; если конст имеет значение ИСТИНА, или опущена, то коэффициент b0 вычисляется обычным образом; статистика ‒ логическое значение, которое указывает, требуется ли вернуть дополнительную статистику по регрессии; если статистика имеет значение ИСТИНА, то функция ЛИНЕЙН рассчитывает дополнительную статистику.
Выделим диапазон A9:B9 и введём в него функцию: =ЛИНЕЙН(B2:B6;A2:A6;1;0). Нажмём комбинацию клавиш < Ctrl >+< Shift >+< Enter > и в ячейках A9 и B9 получим результат: -0,14 (b 1) и 2,2 (b 0) (рис.1). То есть, уравнение приближённой регрессии имеет вид: .
После того, как уравнение регрессии найдено, необходимо провести статистический анализ результатов, который заключается в проверке значимости всех коэффициентов уравнения регрессии в сравнении с ошибкой воспроизводимости и адекватности уравнения.
Для проверки значимости отдельных коэффициентов регрессии (выдвигаются гипотезы Н 0: b j=0) используется t -критерий Стъюдента, наблюдаемое значение которого находят по формуле:
,
Рис. 1.
,
где: - стандартная ошибка коэффициента уравнения регрессии bj. находится как корень квадратный из дисперсии соответствующего коэффициента регрессии:
; ;
; .
Критическое значение tкр. находится с использованием функции СТЪЮДЕНТРАСПОБР для уровня значимости α и числа степеней свободы n - 2. Гипотеза Н 0 отвергается с вероятностью ошибки α, если . Из этого следует, что соответствующий коэффициент регрессии значим. В противном случае коэффициент регрессии незначим, и соответствующая переменная в модель не включается. Оставшиеся коэффициенты пересчитываются заново.
Выделим диапазон B11:С15 и введём в него формулу: =ЛИНЕЙН(B2:B6;A2:A6;1;1). Нажмём комбинацию клавиш < Ctrl >+< Shift >+< Enter > и в ячейках B11:С15 получим следующие результаты: в ячейке В11 ‒ коэффициент b 1, в ячейке С11 ‒ коэффициент b 0. В ячейках В12, С12 ‒ стандартные ошибки коэффициентов уравнения регрессии .
Для построенной модели вычисляется коэффициент детерминации:
‒ регрессионные остатки.
В ячейке С13 вычисляется стандартная ошибка регрессионных остатков по формуле:
В таблице также выводится сумма квадратов регрессии (ячейка В15) и сумма квадратов остатков (ячейка С15), которые вычисляются по формулам:
Рассчитаем дисперсию регрессии по формуле:
,
где: k ‒ число факторов.
В таблице приводится наблюдаемое значение критерия Фишера (ячейка В14), которое находится по формуле:
,
а также число степеней свободы остаточной дисперсии (ячейка С14).
Проверим значимость коэффициентов регрессии и самого уравнения.
Рассчитаем наблюдаемое значение критерия:
; .
Критическое значение найдём с помощью функции: СТЪЮДЕНТРАСПОБР(0,05;3). Результат: tкр. =3,182. Так как и для первого, и для второго коэффициента выполняется условие , то оба коэффициента регрессии значимы.
Проверка значимости уравнения регрессии проводится с использованием критерия Фишера. Наблюдаемое значение критерия . По уровню значимости α для числа степеней свободы df1=k и df2=n-k-1 находим критическое значение Fкр. с использованием функции: FРАСПОБР(0,05;1;3). Результат: Fкр. =10,13. Так как Fнабл. > Fкр., то нулевая гипотеза Н 0 о незначимости отклоняется и уравнение признаётся значимым.
Найдём уравнение линейной регрессии с использованием инструмента Пакета анализа «Регрессия ».
Вызовем инструмент «Регрессия» и в диалоговом окне введём следующие данные: Входной интервал Y: $B$2:$B$6; Входной интервал Х: $А$2:$А$6; Выходной интервал: $А$19; отметим галочками все пункты в разделе Остатки. Нажмём кнопку Ок. Результат состоит из четырёх таблиц и 2-х графиков.
Доверительный интервал приведён в ячейках F36:G36.
Пример 2. Построить уравнение регрессии по следующим данным:
X | 5,1 | 7,5 | 5,6 | 5,6 | 5,4 | 6,7 | 6,9 | 7,7 | 6,6 | 6,5 | 6,3 | 7,2 |
Y | 0,9 | 15,9 | 11,5 | 0,0 | 0,8 | 7,2 | 7,2 | 15,7 | 0,6 | 13,5 | 13,2 | 15,1 |
Проверить значимость коэффициентов регрессии и уравнения регрессии. Построить доверительный интервал для генерального коэффициента βyx. Найти доверительные границы для уравнения регрессии и построить соответствующие графики. Принять α=0,05. Указание: при решении задачи использовать функции MS Excel.
Решение.
Записать исходные данные в диапазон А2:В13 (рис.3). В ячейках А1:С1 и D2:D13 ввести для наглядности обозначения.
В ячейку Е2 ввести формулу:
=(СУММ(А2:А13)*СУММ(В2:В13)-12*СУММПРОИЗВ(А2:А13;В2:В13))/
(СУММ(А2:А13)^2-12*СУММКВ(А2:А13)).
В ячейку Е3 ввести формулу:
=СРЗНАЧ(В2:В13)-Е2*СРЗНАЧ(А2:А13).
В ячейках Е2, Е3 получатся коэффициенты уравнения регрессии и . Уравнение регрессии имеет вид:
.
В ячейки Е4:Е16 ввести формулы, как показано в таблице.
D | E | |
xср. = | =СРЗНАЧ(А2:А13) | |
yср. = | = СРЗНАЧ(В2:В13) | |
s2 ост.= | =СУММКВРАЗН(С2:С13;В2:В13)/10 | |
sb1 = | =КОРЕНЬ(Е6/СУММ((А2:А13-Е4)^2)) | |
sb0 = | =КОРЕНЬ(Е6*СУММКВ(А2:А13)/(12*CУММКВ(А2: А13)-CУММ(А2:А13)^2)) | |
tb1 = | =ABS(E2)/E7 | |
tb0 = | = ABS(E3)/E8 | |
tкрит. | =СТЪЮДРАСПРОБР(0,05;10) | |
F = | =10*СУММ((С2:С13-Е5)^2)/СУММ((C2:C13-B2:D13)^2) | |
Fкрит. = | =FРАСПОБР(0,05;1;10) | |
Дов. инт. для betayx | ||
нижн. гран. | =E2-E11*E7 | |
верх. гран. | =E2+E11*E7 |
Указание. После ввода формул в ячейки Е7 и Е12 следует нажать комбинацию клавиш Ctrl+Shift+Enter, так как используются формулы массива.
Результаты вычислений представлены в таблице.