Два разложения для зависимой переменной




Парный регрессионный анализ

Yi12Xi+Ui – модель парной линейной регрессии

Β12 - константы (параметры уравнения);

Xi – значение объясняющей переменной в наблюдении i;

Ui – случайный член.

Регрессия по методу наименьших квадратов

Ŷ=b1+b2Xi

Ŷ – оцененное значение Y в зависимости от X;

b1 – оценка β1; b2 – угловой коэффициент прямой (оценка β2);

R1-R4 – теоретические точки;

Необходимо определить, что понимается под остатком

ei=Yii, т.к. Ŷ=b1+b2Xi → ei=Yi-b1-b2Xi

значит, остаток в каждом наблюдении зависит от нашего выбора значений b1 и b2.

Очевидно, что мы хотим построить линию регрессии, т.е. выбрать значения b1 и b2 таким образом, чтобы эти остатки были минимальными.

Один из способов состоит в минимизации RSS (суммы квадратов остатков)

RSS=e21+e22+e23+e24 (чем меньше RSS, тем больше соответствие) т.е.

RSS=∑e2i

Алгоритм построения

1. Запишем истинную модель Yi12Xi+Ui;

2. Запишем модель оценки для каждого i-го наблюдения Ŷi=b1+b2Xi;

3. Находим остатки ei для каждого i-го наблюдения ei=Yii=Yi-b1-b2Xi;

4. Упрощаем RSS;

5. Необходимо выбрать такие значения b1 и b2, чтобы значение RSS было минимальным т.е. необходимо взять частные производные и приравнять их к нулю(необходимые условия первого порядка для минимума) ∂RSS/∂b1=, ∂RSS/∂b2=0

6. Итог - получаем уравнение линейной регрессии.

Регрессия по методу наименьших квадратов с одной независимой переменной.

Рассмотрим случай, когда имеется n наблюдений двух переменных X и Y, предположив, что Y зависит от Х.

 

Можно обнаружить, что RSS минимальна, когда

b1=Yср-b2Xср; b2=(∑(Xi-Xср)*(Yi-Yср))/∑(Xi-Xср)2

Два разложения для зависимой переменной

Y=β12X – реальное значение, нам не известное;

Y=b1+b2X – наша оценка;

т.е. Y=β12Xi+Ui – разложение чисто теоретическое (не стохастическая составляющая QT и случайный член PQ);

Yii+ei=b1+b2Xi+ei – разложение относящееся к линии регрессии.

Y=β12X

Ŷ=b1+b2X

RT – расчетное значение;

PR – остаток.

Качество оценивания: коэффициент R2

Цель регрессионного анализа состоит в объяснении поведения зависимой переменной Y. Разброс значений Y в любой выборке можно суммарно описать с помощью ∑(Yi-Yср)2, суммы квадратов отклонений от выборочного среднего.

∑(Yi-Yср)2=∑(Ŷiср)2+∑e2i таким образом TSS=ESS+RSS

TSS – общая сумма квадратов (дана в левой части уравнения);

ESS – «объясненная» сумма квадратов (слагаемое в правой части);

RSS – остаточная («необъясненная») сумма квадратов (слагаемое в правой части).

Замечание – было бы более правильно использовать выражение «видимое объяснение» вместо «объяснение».

R2=∑(Ŷiср)2/∑(Yi-Yср)2 – это часть общей суммы квадратов, объясненной уравнением регрессии. Это соотношение известно как коэффициент детерминации и его обычно обозначают как R2.

Максимально возможное значение R2=1. Это происходит в том случае, когда линия регрессии точно соответствует всем наблюдениям, так что Ŷi=Yi для всех наблюдений и все остатки равны 0.

Тогда ∑(Ŷiср)2=/∑(Yi-Yср)2, ∑e2i=0 – идеальное уравнение.

Если в выборке отсутствует видимая связь между Y и X, то R2 будет близок к нулю.

При прочих равных условиях желательно, чтобы R2 был как можно больше.

В частности, мы заинтересованы в таком выборе коэффициентов b1 и b2, чтобы максимизировать R2 и при этом b1 и b2 должны быть выбраны таким образом, чтобы минимизировать сумму квадратов остатков. Легко показать, что эти критерии эквивалентны

R2=1-(∑e2i/∑(Yi-Yср)2)

Так же R2 фактически равен квадрату коэффициента корреляции rY.

rY=√ R2



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-04-11 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: