Анализ вариации зависимой переменной




Глава 2. Модель парной регрессии

В модели парной линейной регрессии зависимость между переменными в генеральной совокупности представляется в виде:

(2.1)

где X – неслучайная величина, а Y и e – случайные величины.

Величина Y называется объясняемой (зависимой) переменной, а Xобъясняющей (независимой) переменной. Постоянные a, b – параметры уравнения.

Наличие случайного члена e (ошибки регрессии) связано с воздействием на зависимую переменную других неучтенных в уравнении факторов.

На основе выборочного наблюдения оценивается выборочное уравнение регрессии (линия регрессии):

, (2.2)

где ( а; b) – оценки параметров (a; b).

Метод наименьших квадратов

Рассмотрим задачу «наилучшей» аппроксимации набора наблюдений линейным уравнением (2.2).

На рис. 8 приведены диаграмма рассеяния наблюдений и график линии регрессии.

 

Рис. 8

Величина описывается как расчетное значение переменной yi, соответствующее xi. Наблюдаемые значения yi не лежат в точности на линии регрессии, то есть не совпадают с .

Определим остаток ei в i -ом наблюдении как разность между фактическим и расчетным значениями зависимой переменной, т.е.

.

Неизвестные значения ( a; b) определяются методом наименьших квадратов (МНК).

Сущность МНК заключается в минимизации суммы квадратов остатков:

.

Здесь (хi, yi) – известные значения (числа), (а; b) – неизвестные.

Запишем необходимые условия экстремума:

.

После преобразования получим следующую систему нормальных уравнений:

.

Решение системы:

(2.3)

Линия регрессии (расчетное значение зависимой переменной):

, или .

Линия регрессии проходит через точку и выполняются равенства:

.

Коэффициент b есть угловой коэффициент регрессии и показывает, на сколько единиц в среднем изменяется переменная y при увеличении независимой переменной x на единицу.

Постоянная a дает прогнозируемое значение зависимой переменной при x = 0. Это может иметь смысл в зависимости от того, как далеко находится x = 0 от выборочных значений x.

Можно показать, что

,

где r – коэффициент корреляции между x, y, а sx, sy – их стандартные отклонения.

Если коэффициент r уже рассчитан, то можно получить коэффициенты (a, b) парной регрессии.

После построения уравнения регрессии наблюдаемые значения y находим по:

. (2.4)

Остатки ei, как и ошибки ei являются случайными величинами, однако они, в отличие от ошибок ei, наблюдаемы.

Докажем, что .

Действительно, используя равенства

,

получим

.

Определим выборочные дисперсии величин :

– дисперсия наблюдаемых значений y;

– дисперсия расчетных значений ;

– дисперсия остатков e.

Анализ вариации зависимой переменной

Цель регрессионного анализа состоит в объяснении поведения зависимой переменной y.

Пусть на основе выборочных наблюдений построено уравнение регрессии , тогда значение зависимой переменной y в каждом наблюдении можно разложить на две составляющие: , где остаток ei есть та часть зависимой переменной y, которую невозможно объяснить с помощью уравнения регрессии.

Разброс наблюдаемых значений зависимой переменной характеризуется выборочной дисперсией var (y).

Разложим дисперсию var (y):

Поскольку то

Таким образом, разложили дисперсию var (y) на две части:

– часть, объясненную регрессионным уравнением;

– необъясненную часть.

Коэффициентом детерминации R 2 называется отношение

, ,

характеризующее долю вариации (разброса) зависимой переменной, объясненную с помощью уравнения регрессии.

Отношение представляет собой долю необъясненной дисперсии.

Если R 2 = 1, то это означает точную подгонку:

,

т.е. все точки наблюдения лежат на регрессионной прямой.

Если R 2 = 0, то регрессия ничего не дает:

,

т.е. переменная x не улучшает качества предсказания y по сравнению с горизонтальной прямой .

Чем ближе к единице R 2, тем лучше качество подгонки, и более точно аппроксимирует y.

Замечание. Вычисление R 2 корректно, если константа a включена в уравнение регрессии; при этом справедливо разложение .

Пример 2.1. Покажем, что , где коэффициент корреляции между и y.

Действительно, учитывая соотношение:

, получим

Пример 2.2. Покажем, что в случае парной регрессии .

Действительно, из соотношений:

имеем: .

Вывод. В случае парной регрессии коэффициент детерминации есть квадрат коэффициента корреляции переменных x и y, т.е. R 2 = r 2 x,y.

Пример 2.3. Зависимость переменной в регрессии разбивается на две компоненты: .

Рассмотрим две регрессии для компонент:

,

Докажем следующие соотношения для МНК-оценок параметров трех регрессий: a=a1+a 2, b=b 1+ b 2. Действительно,

Пример 2.4. Покажем, что если все значения переменных изменить на одно и то же число или в одно и то же число раз, то величина коэффициента b в парной регрессии не изменится.

Пусть , тогда

.

Пусть , тогда

 

F -тест на качество оценивания

Для определения статистической значимости коэффициента детерминации R 2 проверяется гипотеза H 0: R 2 = 0 для F -статистики, рассчитываемой по формуле:

.

Величина F имеет распределение Фишера с n 1 = 1, n 2 = n – 2 степенями свободы.

Проверку значимости R 2 можно произвести двумя способами.

1. Критическое значение F кр при заданных α, n 1 и n 2 определяется по таблице F- распределения Фишера или в Excel с помощью функции:

F кр = FРАСПОБР (α; n 1; n 2).

Из сравнения наблюдаемого значения F с критическим, получаем:

- если F < F кр, то Н 0 принимается, т.е. R 2 незначим;

- если F > F кр, то Н 0 отвергается, т.е. R 2 значим.

2. Наблюдаемому (расчетному) значению критерия F соответствует определенная значимость F, которую можно определить в Excel с помощью функции:

Значимость F = FРАСП (F; n 1; n 2).

Из сравнения значимости F с заданным стандартным уровнем значимости, получаем:

- если значимость F > стандартного уровня, то R 2 незначим;

- если значимость F <стандартного уровня, то R 2 значим.

Чаще всего F -тест используется для оценки того, значимо ли объяснение, даваемое уравнением в целом.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2019-02-11 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: