Парный регрессионный анализ
Yi=β1+β2Xi+Ui – модель парной линейной регрессии
Β1,β2 - константы (параметры уравнения);
Xi – значение объясняющей переменной в наблюдении i;
Ui – случайный член.
Регрессия по методу наименьших квадратов
Ŷ=b1+b2Xi
Ŷ – оцененное значение Y в зависимости от X;
b1 – оценка β1; b2 – угловой коэффициент прямой (оценка β2);
R1-R4 – теоретические точки;
Необходимо определить, что понимается под остатком
ei=Yi-Ŷi, т.к. Ŷ=b1+b2Xi → ei=Yi-b1-b2Xi
значит, остаток в каждом наблюдении зависит от нашего выбора значений b1 и b2.
Очевидно, что мы хотим построить линию регрессии, т.е. выбрать значения b1 и b2 таким образом, чтобы эти остатки были минимальными.
Один из способов состоит в минимизации RSS (суммы квадратов остатков)
RSS=e21+e22+e23+e24 (чем меньше RSS, тем больше соответствие) т.е.
RSS=∑e2i
Алгоритм построения
1. Запишем истинную модель Yi=β1+β2Xi+Ui;
2. Запишем модель оценки для каждого i-го наблюдения Ŷi=b1+b2Xi;
3. Находим остатки ei для каждого i-го наблюдения ei=Yi-Ŷi=Yi-b1-b2Xi;
4. Упрощаем RSS;
5. Необходимо выбрать такие значения b1 и b2, чтобы значение RSS было минимальным т.е. необходимо взять частные производные и приравнять их к нулю(необходимые условия первого порядка для минимума) ∂RSS/∂b1=, ∂RSS/∂b2=0
6. Итог - получаем уравнение линейной регрессии.
Регрессия по методу наименьших квадратов с одной независимой переменной.
Рассмотрим случай, когда имеется n наблюдений двух переменных X и Y, предположив, что Y зависит от Х.
Можно обнаружить, что RSS минимальна, когда
b1=Yср-b2Xср; b2=(∑(Xi-Xср)*(Yi-Yср))/∑(Xi-Xср)2
Два разложения для зависимой переменной
Y=β1+β2X – реальное значение, нам не известное;
Y=b1+b2X – наша оценка;
т.е. Y=β1+β2Xi+Ui – разложение чисто теоретическое (не стохастическая составляющая QT и случайный член PQ);
Yi=Ŷi+ei=b1+b2Xi+ei – разложение относящееся к линии регрессии.
Y=β1+β2X
Ŷ=b1+b2X
RT – расчетное значение;
PR – остаток.
Качество оценивания: коэффициент R2
Цель регрессионного анализа состоит в объяснении поведения зависимой переменной Y. Разброс значений Y в любой выборке можно суммарно описать с помощью ∑(Yi-Yср)2, суммы квадратов отклонений от выборочного среднего.
∑(Yi-Yср)2=∑(Ŷi-Ŷср)2+∑e2i таким образом TSS=ESS+RSS
TSS – общая сумма квадратов (дана в левой части уравнения);
ESS – «объясненная» сумма квадратов (слагаемое в правой части);
RSS – остаточная («необъясненная») сумма квадратов (слагаемое в правой части).
Замечание – было бы более правильно использовать выражение «видимое объяснение» вместо «объяснение».
R2=∑(Ŷi-Ŷср)2/∑(Yi-Yср)2 – это часть общей суммы квадратов, объясненной уравнением регрессии. Это соотношение известно как коэффициент детерминации и его обычно обозначают как R2.
Максимально возможное значение R2=1. Это происходит в том случае, когда линия регрессии точно соответствует всем наблюдениям, так что Ŷi=Yi для всех наблюдений и все остатки равны 0.
Тогда ∑(Ŷi-Ŷср)2=/∑(Yi-Yср)2, ∑e2i=0 – идеальное уравнение.
Если в выборке отсутствует видимая связь между Y и X, то R2 будет близок к нулю.
При прочих равных условиях желательно, чтобы R2 был как можно больше.
В частности, мы заинтересованы в таком выборе коэффициентов b1 и b2, чтобы максимизировать R2 и при этом b1 и b2 должны быть выбраны таким образом, чтобы минимизировать сумму квадратов остатков. Легко показать, что эти критерии эквивалентны
R2=1-(∑e2i/∑(Yi-Yср)2)
Так же R2 фактически равен квадрату коэффициента корреляции rY,Ŷ.
rY,Ŷ=√ R2