Рис. 3.1
Уравнение регрессии (3.2) будем искать в виде линейного уравнения
(3.3)
Отвлечемся на время от рассматриваемого примера и найдем формулы расчета неизвестных параметров уравнения линейной регрессии.
Согласно методу наименьших квадратов
(3.4)
Система нормальных уравнений для определения параметров линейной регрессии:
(3.5)
Разделив обе части уравнений (3.5) на п, получим систему нормальных уравнений в виде:
(3.6)
где
(3.7)
(3.9)
(3.8)
(3.10)
(3.11)
(3.12)
Коэффициент
называется выборочным коэффициентом регрессии (или просто коэффициентом регрессии)
no
.
Коэффициент регрессии
по
показывает, на сколько единиц в среднем изменяется переменная Y при увеличении переменной на одну единицу.
Решая систему (3.6),
(3.13)
где
— выборочная дисперсия переменной X:
, (3.14)
— выборочный корреляционный момент или выборочная
ковариация:
(3.15)
Пример 3.1. По данным табл. 3.1 найти уравнение регрессии
по
.
Решение. Вычислим все необходимые суммы:

Затем по формулам (3.7) – (3.15) находим выборочны характеристики и параметры уравнений регрессии:

уравнение регрессии У по X:

Из уравнения регрессии следует, что при увеличении мощности пласта X на 1 м добыча угля на одного рабочего Y увеличивается в среднем на 1,016 т (в усл. ед.).
3.3. Коэффициент корреляции
Представим уравнение (3.12) в эквивалентном виде:

В этой системе величина
(3.17)
показывает, на сколько величин sy изменится в среднем Y, когда X увеличится на одно sx.
Величина r является показателем тесноты связи и называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции).

Рис. 3.2
Если r > 0 (b1 > 0), то корреляционная связь между переменными называется прямой, если, r < 0 (b1 < 0) − обратной.
Учитывая (3.13):
(3.18)
Или
(3.19)
(3.20)
Для практических расчетов наиболее удобна формула (3.20).
Свойства.
1. Коэффициент корреляции принимает значения на отрезке [−1;1], т. е. −1 < r <1.Чем ближе │ r│ к единице, тем теснее связь.
2. При r = ±1 корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдаемые значения располагаются на прямой линии.
3. При r = 0 линейная корреляционная связь отсутствует. При этом линия регрессии параллельна оси Ох
Пример 3.2.
По данным табл. 3.1 вычислить коэффициент корреляции между переменными X и Y.
Решение.
;

По формуле (3.20)

т.е.связь между переменными тесная.
3.4. Основные положения регрессионного анализа. Оценка параметров парной регрессионной модели. Теорема Гаусса−Маркова
Рассмотрим линейный регрессионный анализ, для которого функции
линейна относительно оцениваемых параметров:
(3.21)
Предположим, что для оценки параметров линейной функции регрессии (3.21) взята выборка, содержащая n пар значений переменных (xi yi), где i =1,2,..., п. В этом случае линейная парная регрессионная модель имеет вид:
(3.22)
Основные предпосылки регрессионного анализа.
1. В модели (3.22) возмущение
i (или зависимая переменная yi) есть величина случайная, а объясняющая переменная xi − величина неслучайная.
2. Математическое ожидание возмущения
i равно нулю:
(3.23)
(или математическое ожидание зависимой переменной yi равно линейной функции регрессии:
.
3. Дисперсия возмущения
i (или зависимой переменной уi) постоянна для любого i:
(3.24)
(или
) − условие гомоскедастичности или равноизменчивости возмущения (зависимой переменной)).
4. Возмущения
i и
j (или переменные и yj) не коррелированы:
(3.25)
5. Возмущение
i (или зависимая переменная yi) есть нормально распределенная случайная величина.
Воздействие неучтенных случайных факторов и ошибок наблюдений в модели (3.22) определяется с помощью дисперсии возмущений (ошибок) или остаточной дисперсии
. Несмещенной оценкой этой дисперсии является выборочная остаточная дисперсия
(3.26)
где
− групповая средняя, найденная по уравнению регрессии;
− выборочная оценка возмущения
i или остаток регрессии.
Теорема Гаусса−Маркова. Если регрессионная модель (3.22) удовлетворяет предпосылкам 1−4, то оценки b0 (3.11), b1 (3.13) имеют наименьшую дисперсию в классе всех линейных несмещенных оценок
Таким образом, оценки b0 и b1 в определенном смысле являются наиболее эффективными линейными оценками параметров β0 и β1
3.5. Интервальная оценка функции регрессии и ее параметров
Доверительный интервал для функции регрессии (условного математического ожидания).
(3.34)
t −распределение Стьюдента с k = п − 2 степенями свободы
. (3.33)
Доверительный интервал для индивидуальных значений зависимой переменной.
(3.36)
(3.35)
Доверительный интервал для параметров регрессионной модели.
. (3.38)
(3.39)
Пример 3.
По данным табл. 3.1: 1) оценить сменную среднюю добычу угля на одного рабочего для шахт с мощностью пласта 8 м;
2) найти 95% - ные доверительные интервалы для индивидуального и среднего значений сменной добычи угля на 1 рабочего для таких же шахт;
3) найти с надежностью 0,95 интервальные оценки коэффициента регрессии β1 и дисперсии σ2.
Решение. Уравнение регрессии Y по X (пример 3.1):
.
1. Оценим условное математическое ожидание Mx=8(Y).
(т).
Составим таблицу (табл. 3.2) с учетом того, что
(м), а значения определяются по полученному уравнению регрессии.
Таблица 3.2
| Xi | ∑ | ||||||||||
| 1,96 | 2,56 | 6,76 | 0,16 | 1,96 | 1,96 | 0,16 | 0,16 | 1,96 | 6,76 | 24,40 |
| 5.38 | 8.43 | 9,44 | 6,39 | 5.38 | 5,38 | 6,39 | 6,39 | 5,38 | 9,44 | − |
| 0.14 | 2,48 | 0,31 | 0,37 | 0,14 | 0,39 | 0,15 | 1,94 | 0,39 | 2,08 | 8,39 |
по (3.26):
,
по (3.32)

и
(т)
По табл. Стьюдента (приложений)
.
по (3.34) искомый доверительный интервал
,
или
(т)
Итак, средняя сменная добыча угля на одного рабочего для шахт с мощностью пласта 8 м с надежностью 0,95 находится в пределах от 4,38 до 6,38 т.
2. доверительный интервал для индивидуального значения
.
по (3.35):

и
(т)
по (3.36):

и 
Таким образом, индивидуальная сменная добыча угля на одного рабочего для шахт с мощностью пласта 8 м с надежностью 0,95 находится в пределах от 2,81 до 7,95 т.
3. Найдем 95%-ный доверительный интервал для параметра. По (3.38)

или 0,537 ≤ β 1 ≤ 1,495, т. е. с надежностью 0,95 при изменении мощности пласта X на 1 м суточная выработка Y будет изменяться на величину, заключенную в интервале от 0,537 до 1,495 (т).
Найдем 95%-ный доверительный интервал для параметра σ2.
Учитывая, что
= 1−0,95=0,05, найдем по таблице III приложений


формуле (3.39)

или
, и
.
Таким образом, с надежностью 0,95 дисперсия возмущений заключена в пределах от 0,598 до 4,81, а их стандартное отклонение − от 0,773 до 2,19 (т).
Множественный регрессионный анализ
4.1. Классическая нормальная линейная модель множественной регрессии
модель множественной линейной регрессии:
, (4.1)
Введем обозначения:
– матрица-столбец, или вектор, значений зависимой переменной.

– матрица значений объясняющих переменных, или матрица плана размера
– матрица-столбец, или вектор, параметров размера 
– матрица-столбец, или вектор, возмущений (случайных ошибок, остатков) размера
.
в матричной форме модель (4.1) примет вид:
(4.2)
Оценкой этой модели по выборке является уравнение
, (4.2)'
Где
,
.
4.2. Оценка параметров классической регрессионной модели методом наименьших квадратов
Система нормальных уравнений в матричной форме для определения вектора
:
. (4.5)
(4.6)
Матрица
есть вектор произведений
наблюдений объясняющих и зависимой переменных:
. (4.7)
Решением уравнения (4.5) является вектор
, (4.8)
где
– матрица, обратная матрице коэффициентов системы (4.5),
– матрица-столбец, или вектор, ее свободных членов.
Зная вектор
, выборочное уравнение множественной регрессии представим в виде:
(4.9)
где
– групповая (условная) средняя переменной
при заданном векторе значений объясняющей переменной
.
Пример 4.1. Имеются следующие данные (условные) о сменной добыче угля на одного рабочего
(т), мощности пласта
(м) и уровне механизации работ
(%), характеризующие процесс добычи угля в 10 шахтах.
Таблица 4.1
|
|
|
|
|
|
|
|
Предполагая, что между переменными
,
и
существует линейная корреляционная зависимость, найти ее аналитическое выражение (уравнение регрессии
no
и
).
Решение. Обозначим
, 
(в матрицу
вводится дополнительный столбец чисел, состоящий из единиц).
Таблица 4.2
|
|
|
|
|
|
|
|
|
|
|
|
| 5,13 | 0,016 | ||||||||||
| 8,79 | 1,464 | ||||||||||
| 9,64 | 1,127 | ||||||||||
| 5,98 | 1,038 | ||||||||||
| 5,86 | 0,741 | ||||||||||
| 6,23 | 0,052 | ||||||||||
| 6,35 | 0,121 | ||||||||||
| 5,61 | 0,377 | ||||||||||
| 5,13 | 0,762 | ||||||||||
| 9,28 | 1,631 | ||||||||||
| - | 6,329 |

(см. суммы в итоговой строке табл. 4.2);

Матрицу
определим по формуле
где
– определитель матрицы
;
присоединенная к матрице
. Получим

(самостоятельно).
Теперь в соответствии с (4.8) умножая эту матрицу на вектор
,
получим
.
С учетом (4.9) уравнение множественной регрессии имеет вид:
.
На практике часто бывает необходимо сравнение влияния на зависимую переменную различных объясняющих переменных, когда последние выражаются разными единицами измерения. В этом случае используют стандартизованные коэффициенты регрессии
и коэффициенты эластичности
:
; (4.10)
. (4.11)
Стандартизованный коэффициент регрессии
показывает, на сколько величин
изменится в среднем зависимая
переменная при увеличении только
-й объясняющей переменной на
, а коэффициент эластичности
– на сколько процентов (от средней) изменится в среднем
при увеличении только
на 1%.
Пример 4.2.
По данным примера 4.1 сравнить раздельное влияние на сменную добычу угля двух факторов – мощности пласта и уровня механизации работ.
Решение.
по (4.10):
;
,
по (4.11):
;
.
(Здесь:
).
4.4. Оценка дисперсии возмущений
Оценка
метода наименьших квадратов является «наилучшей» линейной оценкой параметра
. Перейдем к оценке дисперсии возмущений
.
Выборочная остаточная дисперсия
определяется по формуле:
. (4.21)
В знаменателе выражения (4.21) стоит n – (p +1), а не n – 2, как это было выше. Это связано с тем, что теперь (р +1) степеней свободы (а не две) теряются при определении неизвестных параметров, число которых вместе со свободным членом равно (р +1).