Рис. 3.1
Уравнение регрессии (3.2) будем искать в виде линейного уравнения
(3.3)
Отвлечемся на время от рассматриваемого примера и найдем формулы расчета неизвестных параметров уравнения линейной регрессии.
Согласно методу наименьших квадратов
(3.4)
Система нормальных уравнений для определения параметров линейной регрессии:
(3.5)
Разделив обе части уравнений (3.5) на п, получим систему нормальных уравнений в виде:
(3.6)
где (3.7) (3.9)
(3.8) (3.10)
(3.11)
(3.12)
Коэффициент называется выборочным коэффициентом регрессии (или просто коэффициентом регрессии) no .
Коэффициент регрессии по показывает, на сколько единиц в среднем изменяется переменная Y при увеличении переменной на одну единицу.
Решая систему (3.6),
(3.13)
где — выборочная дисперсия переменной X:
, (3.14)
— выборочный корреляционный момент или выборочная
ковариация:
(3.15)
Пример 3.1. По данным табл. 3.1 найти уравнение регрессии по .
Решение. Вычислим все необходимые суммы:
Затем по формулам (3.7) – (3.15) находим выборочны характеристики и параметры уравнений регрессии:
уравнение регрессии У по X:
Из уравнения регрессии следует, что при увеличении мощности пласта X на 1 м добыча угля на одного рабочего Y увеличивается в среднем на 1,016 т (в усл. ед.).
3.3. Коэффициент корреляции
Представим уравнение (3.12) в эквивалентном виде:
В этой системе величина
(3.17)
показывает, на сколько величин sy изменится в среднем Y, когда X увеличится на одно sx.
Величина r является показателем тесноты связи и называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции).
Рис. 3.2
Если r > 0 (b1 > 0), то корреляционная связь между переменными называется прямой, если, r < 0 (b1 < 0) − обратной.
|
Учитывая (3.13):
(3.18)
Или (3.19)
(3.20)
Для практических расчетов наиболее удобна формула (3.20).
Свойства.
1. Коэффициент корреляции принимает значения на отрезке [−1;1], т. е. −1 < r <1.Чем ближе │ r│ к единице, тем теснее связь.
2. При r = ±1 корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдаемые значения располагаются на прямой линии.
3. При r = 0 линейная корреляционная связь отсутствует. При этом линия регрессии параллельна оси Ох
Пример 3.2.
По данным табл. 3.1 вычислить коэффициент корреляции между переменными X и Y.
Решение. ;
По формуле (3.20)
т.е.связь между переменными тесная.
3.4. Основные положения регрессионного анализа. Оценка параметров парной регрессионной модели. Теорема Гаусса−Маркова
Рассмотрим линейный регрессионный анализ, для которого функции линейна относительно оцениваемых параметров:
(3.21)
Предположим, что для оценки параметров линейной функции регрессии (3.21) взята выборка, содержащая n пар значений переменных (xi yi), где i =1,2,..., п. В этом случае линейная парная регрессионная модель имеет вид:
(3.22)
Основные предпосылки регрессионного анализа.
1. В модели (3.22) возмущение i (или зависимая переменная yi) есть величина случайная, а объясняющая переменная xi − величина неслучайная.
2. Математическое ожидание возмущения i равно нулю:
(3.23)
(или математическое ожидание зависимой переменной yi равно линейной функции регрессии: .
3. Дисперсия возмущения i (или зависимой переменной уi) постоянна для любого i:
(3.24)
|
(или ) − условие гомоскедастичности или равноизменчивости возмущения (зависимой переменной)).
4. Возмущения i и j (или переменные и yj) не коррелированы:
(3.25)
5. Возмущение i (или зависимая переменная yi) есть нормально распределенная случайная величина.
Воздействие неучтенных случайных факторов и ошибок наблюдений в модели (3.22) определяется с помощью дисперсии возмущений (ошибок) или остаточной дисперсии . Несмещенной оценкой этой дисперсии является выборочная остаточная дисперсия
(3.26)
где − групповая средняя, найденная по уравнению регрессии;
− выборочная оценка возмущения i или остаток регрессии.
Теорема Гаусса−Маркова. Если регрессионная модель (3.22) удовлетворяет предпосылкам 1−4, то оценки b0 (3.11), b1 (3.13) имеют наименьшую дисперсию в классе всех линейных несмещенных оценок
Таким образом, оценки b0 и b1 в определенном смысле являются наиболее эффективными линейными оценками параметров β0 и β1
3.5. Интервальная оценка функции регрессии и ее параметров
Доверительный интервал для функции регрессии (условного математического ожидания).
(3.34)
t −распределение Стьюдента с k = п − 2 степенями свободы
. (3.33)
Доверительный интервал для индивидуальных значений зависимой переменной.
(3.36)
(3.35)
Доверительный интервал для параметров регрессионной модели.
. (3.38)
(3.39)
Пример 3.
По данным табл. 3.1: 1) оценить сменную среднюю добычу угля на одного рабочего для шахт с мощностью пласта 8 м;
2) найти 95% - ные доверительные интервалы для индивидуального и среднего значений сменной добычи угля на 1 рабочего для таких же шахт;
|
3) найти с надежностью 0,95 интервальные оценки коэффициента регрессии β1 и дисперсии σ2.
Решение. Уравнение регрессии Y по X (пример 3.1): .
1. Оценим условное математическое ожидание Mx=8(Y).
(т).
Составим таблицу (табл. 3.2) с учетом того, что (м), а значения определяются по полученному уравнению регрессии.
Таблица 3.2
Xi | ∑ | ||||||||||
1,96 | 2,56 | 6,76 | 0,16 | 1,96 | 1,96 | 0,16 | 0,16 | 1,96 | 6,76 | 24,40 | |
5.38 | 8.43 | 9,44 | 6,39 | 5.38 | 5,38 | 6,39 | 6,39 | 5,38 | 9,44 | − | |
0.14 | 2,48 | 0,31 | 0,37 | 0,14 | 0,39 | 0,15 | 1,94 | 0,39 | 2,08 | 8,39 |
по (3.26): ,
по (3.32)
и (т)
По табл. Стьюдента (приложений) .
по (3.34) искомый доверительный интервал
,
или (т)
Итак, средняя сменная добыча угля на одного рабочего для шахт с мощностью пласта 8 м с надежностью 0,95 находится в пределах от 4,38 до 6,38 т.
2. доверительный интервал для индивидуального значения .
по (3.35):
и (т)
по (3.36):
и
Таким образом, индивидуальная сменная добыча угля на одного рабочего для шахт с мощностью пласта 8 м с надежностью 0,95 находится в пределах от 2,81 до 7,95 т.
3. Найдем 95%-ный доверительный интервал для параметра. По (3.38)
или 0,537 ≤ β 1 ≤ 1,495, т. е. с надежностью 0,95 при изменении мощности пласта X на 1 м суточная выработка Y будет изменяться на величину, заключенную в интервале от 0,537 до 1,495 (т).
Найдем 95%-ный доверительный интервал для параметра σ2.
Учитывая, что = 1−0,95=0,05, найдем по таблице III приложений
формуле (3.39)
или , и .
Таким образом, с надежностью 0,95 дисперсия возмущений заключена в пределах от 0,598 до 4,81, а их стандартное отклонение − от 0,773 до 2,19 (т).
Множественный регрессионный анализ
4.1. Классическая нормальная линейная модель множественной регрессии
модель множественной линейной регрессии:
, (4.1)
Введем обозначения: – матрица-столбец, или вектор, значений зависимой переменной.
– матрица значений объясняющих переменных, или матрица плана размера
– матрица-столбец, или вектор, параметров размера
– матрица-столбец, или вектор, возмущений (случайных ошибок, остатков) размера .
в матричной форме модель (4.1) примет вид:
(4.2)
Оценкой этой модели по выборке является уравнение
, (4.2)'
Где , .
4.2. Оценка параметров классической регрессионной модели методом наименьших квадратов
Система нормальных уравнений в матричной форме для определения вектора :
. (4.5)
(4.6)
Матрица есть вектор произведений наблюдений объясняющих и зависимой переменных:
. (4.7)
Решением уравнения (4.5) является вектор
, (4.8)
где – матрица, обратная матрице коэффициентов системы (4.5), – матрица-столбец, или вектор, ее свободных членов.
Зная вектор , выборочное уравнение множественной регрессии представим в виде:
(4.9)
где – групповая (условная) средняя переменной при заданном векторе значений объясняющей переменной
.
Пример 4.1. Имеются следующие данные (условные) о сменной добыче угля на одного рабочего (т), мощности пласта (м) и уровне механизации работ (%), характеризующие процесс добычи угля в 10 шахтах.
Таблица 4.1
Предполагая, что между переменными , и существует линейная корреляционная зависимость, найти ее аналитическое выражение (уравнение регрессии no и ).
Решение. Обозначим
,
(в матрицу вводится дополнительный столбец чисел, состоящий из единиц).
Таблица 4.2
5,13 | 0,016 | ||||||||||
8,79 | 1,464 | ||||||||||
9,64 | 1,127 | ||||||||||
5,98 | 1,038 | ||||||||||
5,86 | 0,741 | ||||||||||
6,23 | 0,052 | ||||||||||
6,35 | 0,121 | ||||||||||
5,61 | 0,377 | ||||||||||
5,13 | 0,762 | ||||||||||
9,28 | 1,631 | ||||||||||
- | 6,329 |
(см. суммы в итоговой строке табл. 4.2);
Матрицу определим по формуле где – определитель матрицы ; присоединенная к матрице . Получим
(самостоятельно).
Теперь в соответствии с (4.8) умножая эту матрицу на вектор
,
получим .
С учетом (4.9) уравнение множественной регрессии имеет вид: .
На практике часто бывает необходимо сравнение влияния на зависимую переменную различных объясняющих переменных, когда последние выражаются разными единицами измерения. В этом случае используют стандартизованные коэффициенты регрессии и коэффициенты эластичности :
; (4.10)
. (4.11)
Стандартизованный коэффициент регрессии показывает, на сколько величин изменится в среднем зависимая переменная при увеличении только -й объясняющей переменной на , а коэффициент эластичности – на сколько процентов (от средней) изменится в среднем при увеличении только на 1%.
Пример 4.2.
По данным примера 4.1 сравнить раздельное влияние на сменную добычу угля двух факторов – мощности пласта и уровня механизации работ.
Решение.
по (4.10):
; ,
по (4.11):
; .
(Здесь: ).
4.4. Оценка дисперсии возмущений
Оценка метода наименьших квадратов является «наилучшей» линейной оценкой параметра . Перейдем к оценке дисперсии возмущений .
Выборочная остаточная дисперсия определяется по формуле:
. (4.21)
В знаменателе выражения (4.21) стоит n – (p +1), а не n – 2, как это было выше. Это связано с тем, что теперь (р +1) степеней свободы (а не две) теряются при определении неизвестных параметров, число которых вместе со свободным членом равно (р +1).