Корреляция и регрессия взаимосвязаны между собой – корреляция исследует силу(тесноту) связи, регрессия исследует её форму. И та и другая служат для установления соотношения между явлениями, для определения наличия или отсутствия связи. По форме зависимости различают линейную регрессию (уравнение прямой Ῡx = a0 + a1x) и нелинейную (парабола Ῡx=a0 + a1 * x + a2*x^2, гипербола и т.д.). Направление связи – прямая, обратная.
Целью регрессионного анализа является оценка функциональной зависимости математического ожидания результативного признака У от факторных (х1, х2,…).
Метод наименьших квадратов (МНК, OLS, Ordinary Least Squares) — один из базовых методов регрессионного анализа для оценки неизвестных параметров регрессионных моделей по выборочным данным. Метод основан на минимизации суммы квадратов остатков регрессии.
Оценки, полученные по МНК, обладают следующими свойствами:
1. Оценки параметров являются несмещенными, т. е. M(b1) = β1, M(b0) = β0 (математические ожидания оценок параметров равны их теоретическим значениям). Это вытекает из того, что M(εi) = 0, и говорит об отсутствии систематической ошибки в определении положения линии регрессии. Оценка, для которой смещение – разность между значением параметра и его оценкой – стремится к нулю при возрастании выборки – является асимптотически несмещенной.
2. Оценки параметров состоятельны, если при увеличении объема выборки надежность оценок увеличивается (b1 наверняка близко к β1, b0 — близко к β0), т.е. D(b0) → 0, D(b1) → 0 при n → ∞.
3. Оценки параметров эффективны, т. е. они имеют наименьшую дисперсию по сравнению с другими оценками данных параметров, линейными относительно величин yi.
|
Т.е. МНК-оценки являются несмещенными линейными оценками с минимальной дисперсией, имеющими нормальное распределение.
В полученном уравнении регрессии параметр а0 показывает усредненное влияние на результативный признак неучтенных факторов; параметр а1, а2 и т.д. показывает, насколько в среднем изменяется значение результативного признака при увеличении факторного на единицу собственного измерения.
Теорема Гаусса-Маркова.
Известно, что для получения по МНК наилучших результатов требуется, чтобы выполнялся ряд предпосылок относительно случайного отклонения. Их также называют предпосылками Гаусса-Маркова. Теорема Гаусса-Маркова гласит, что наилучшие оценки параметров уравнения регрессии могут быть получены при обязательном соблюдении следующих предпосылок:
1. Математическое ожидание случайного отклонения еi равно нулю: M(еi) = 0 для всех наблюдений.
Данное условие означает, что случайное отклонение в среднем не оказывает влияния на зависимую переменную, случайный член может быть положительным или отрицательным, но он не должен иметь систематического смещения.
2. Дисперсия случайных отклонений постоянна: D(εij) = σ2 = const для любых наблюдений i и j.
Условие независимости дисперсии ошибки от номера наблюдения называется гомоскедастичностью (homoscedasticity). Невыполнимость этой предпосылки называется гетероскедастичностью (heteroscedasticity).
Поскольку D(ε)=M((εj - Mεj))2 = M(ε2), то эту предпосылку можно переписать в форме: M(е2i) = σ2.
3. Случайные отклонения εi и εj являются независимыми друг от друга для i ≠ j. Выполнимость этой предпосылки предполагает, что отсутствует систематическая связь между любыми случайными отклонениями. Величина и определенный знак любого случайного отклонения не должны быть причинами величины и знака любого другого отклонения.
|
Выполнимость данной предпосылки влечет следующее соотношение:
Если данное условие выполняется, то можно говорить об отсутствии автокорреляции.
4. Случайное отклонение должно быть независимо от объясняющих переменных.
Данное условие предполагает выполнимость следующего соотношения:
Заметим, что выполнимость этой предпосылки не столь критична для эконометрических моделей.
5. Модель является линейной относительно параметров. Для случая множественной линейной регрессии существенными являются еще две предпосылки.
6. Отсутствие мультиколлинеарности. Между объясняющими переменными отсутствует сильная линейная зависимость.
7. Случайные отклонения εi, i = 1, 2,..., n, имеют нормальное распределение.
Выполнимость данной предпосылки важна для проверки статистических гипотез и построения интервальных оценок.
Наряду с этим, есть еще некоторые предположения. Например:
· объясняющие переменные не являются случайными величинами;
· число наблюдений намного больше числа объясняющих переменных (числа факторов уравнения);
· отсутствуют ошибки спецификации, т. е. правильно выбран вид уравнения и в него включены все необходимые переменные.
- Обратная матрица и ее использование во множественном регрессионном анализе
Обратная матрица и ее использование во множественном регрессионном анализе
|
На практике рекомендуется, чтобы число наблюдений (n)превышало число анализируемых признаков (m) не менее, чем в пять-шесть раз.
Для расчета вектора оценок коэффициентов регрессии по методу наименьших квадратов используется формула
, (2.4)
где
; ; ;
где
– транспонированная матрица X;
– матрица, обратная матрице .
Для устранения влияния различия дисперсий и единиц измерения отдельных переменных на результаты регрессионного анализа в ряде случаев целесообразно вместо исходных значений переменных использовать нормированные значения . В этом случае уравнение множественной линейной регрессии будет иметь следующий вид:
(1.5)
где – нормированное значения отклика ;
– нормированные значения предикторов (независимых переменных – ,);
— нормированные коэффициенты регрессии, которые могут быть вычислены исходя из следующей системы уравнений: