Доверительный интервал для параметров регрессионной модели.




Рис. 3.1

Уравнение регрессии (3.2) будем искать в виде линейного уравнения

(3.3)

Отвлечемся на время от рассматриваемого примера и найдем формулы расчета неизвестных параметров уравнения линейной регрессии.

Согласно методу наименьших квадратов

(3.4)

Система нормальных уравнений для определения параметров линейной регрессии:

(3.5)

Разделив обе части уравнений (3.5) на п, получим систему нормальных уравнений в виде:

(3.6)

где (3.7) (3.9)

(3.8) (3.10)

(3.11)

(3.12)

Коэффициент называется выборочным коэффициентом регрессии (или просто коэффициентом регрессии) no .

Коэффициент регрессии по показывает, на сколько единиц в среднем изменяется переменная Y при увеличении переменной на одну единицу.

Решая систему (3.6),

(3.13)

где — выборочная дисперсия переменной X:

, (3.14)

— выборочный корреляционный момент или выборочная

ковариация:

(3.15)


Пример 3.1. По данным табл. 3.1 найти уравнение регрессии по .

Решение. Вычислим все необходимые суммы:

Затем по формулам (3.7)(3.15) находим выборочны характеристики и параметры уравнений регрессии:

уравнение регрессии У по X:

Из уравнения регрессии следует, что при увеличении мощности пласта X на 1 м добыча угля на одного рабочего Y увеличивается в среднем на 1,016 т (в усл. ед.).

3.3. Коэффициент корреляции

Представим уравнение (3.12) в эквивалентном виде:

В этой системе величина

(3.17)

показывает, на сколько величин sy изменится в среднем Y, когда X увеличится на одно sx.

Величина r является показателем тесноты связи и называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции).

Рис. 3.2

Если r > 0 (b1 > 0), то корреляционная связь между переменными называется прямой, если, r < 0 (b1 < 0) − обратной.

Учитывая (3.13):

(3.18)

Или (3.19)

(3.20)

Для практических расчетов наиболее удобна формула (3.20).

Свойства.

1. Коэффициент корреляции принимает значения на отрезке [−1;1], т. е. −1 < r <1.Чем ближе │ r│ к единице, тем теснее связь.

2. При r = ±1 корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдаемые значения располагаются на прямой линии.

3. При r = 0 линейная корреляционная связь отсутствует. При этом линия регрессии параллельна оси Ох

Пример 3.2.

По данным табл. 3.1 вычислить коэффициент корреляции между переменными X и Y.

Решение. ;

По формуле (3.20)

т.е.связь между переменными тесная.

3.4. Основные положения регрессионного анализа. Оценка параметров парной регрессионной модели. Теорема Гаусса−Маркова

Рассмотрим линейный регрессионный анализ, для которого функции линейна относительно оцениваемых параметров:

(3.21)

Предположим, что для оценки параметров линейной функции регрессии (3.21) взята выборка, содержащая n пар значений переменных (xi yi), где i =1,2,..., п. В этом случае линейная парная регрессионная модель имеет вид:

(3.22)

Основные предпосылки регрессионного анализа.

1. В модели (3.22) возмущение i (или зависимая переменная yi) есть величина случайная, а объясняющая переменная xi − величина неслучайная.

2. Математическое ожидание возмущения i равно нулю:

(3.23)

(или математическое ожидание зависимой переменной yi равно линейной функции регрессии: .

3. Дисперсия возмущения i (или зависимой переменной уi) постоянна для любого i:

(3.24)

(или ) − условие гомоскедастичности или равноизменчивости возмущения (зависимой переменной)).

4. Возмущения i и j (или переменные и yj) не коррелированы:

(3.25)

5. Возмущение i (или зависимая переменная yi) есть нормально распределенная случайная величина.

Воздействие неучтенных случайных факторов и ошибок наблюдений в модели (3.22) определяется с помощью дисперсии возмущений (ошибок) или остаточной дисперсии . Несмещенной оценкой этой дисперсии является выборочная остаточная дисперсия

(3.26)

где − групповая средняя, найденная по уравнению регрессии;

− выборочная оценка возмущения i или остаток регрессии.

Теорема Гаусса−Маркова. Если регрессионная модель (3.22) удовлетворяет предпосылкам 1−4, то оценки b0 (3.11), b1 (3.13) имеют наименьшую дисперсию в классе всех линейных несмещенных оценок

Таким образом, оценки b0 и b1 в определенном смысле являются наиболее эффективными линейными оценками параметров β0 и β1

3.5. Интервальная оценка функции регрессии и ее параметров

Доверительный интервал для функции регрессии (условного математического ожидания).

(3.34)

t −распределение Стьюдента с k = п − 2 степенями свободы

 

 

. (3.33)

Доверительный интервал для индивидуальных значений зависимой переменной.

(3.36)

 

(3.35)

Доверительный интервал для параметров регрессионной модели.

. (3.38)

(3.39)

Пример 3.

По данным табл. 3.1: 1) оценить сменную среднюю добычу угля на одного рабочего для шахт с мощностью пласта 8 м;

2) найти 95% - ные доверительные интервалы для индивидуального и среднего значений сменной добычи угля на 1 рабочего для таких же шахт;

3) найти с надежностью 0,95 интервальные оценки коэффициента регрессии β1 и дисперсии σ2.

Решение. Уравнение регрессии Y по X (пример 3.1): .

1. Оценим условное математическое ожидание Mx=8(Y).

(т).

Составим таблицу (табл. 3.2) с учетом того, что (м), а значения определяются по полученному уравнению регрессии.

Таблица 3.2

Xi                    
1,96 2,56 6,76 0,16 1,96 1,96 0,16 0,16 1,96 6,76 24,40
5.38 8.43 9,44 6,39 5.38 5,38 6,39 6,39 5,38 9,44
0.14 2,48 0,31 0,37 0,14 0,39 0,15 1,94 0,39 2,08 8,39

по (3.26): ,

по (3.32)

и (т)

По табл. Стьюдента (приложений) .

по (3.34) искомый доверительный интервал

,

или (т)

Итак, средняя сменная добыча угля на одного рабочего для шахт с мощностью пласта 8 м с надежностью 0,95 находится в пределах от 4,38 до 6,38 т.

2. доверительный интервал для индивидуального значения .

по (3.35):

и (т)

по (3.36):

и

Таким образом, индивидуальная сменная добыча угля на одного рабочего для шахт с мощностью пласта 8 м с надежностью 0,95 находится в пределах от 2,81 до 7,95 т.

3. Найдем 95%-ный доверительный интервал для параметра. По (3.38)

или 0,537 ≤ β 1 ≤ 1,495, т. е. с надежностью 0,95 при изменении мощности пласта X на 1 м суточная выработка Y будет изменяться на величину, заключенную в интервале от 0,537 до 1,495 (т).

Найдем 95%-ный доверительный интервал для параметра σ2.

Учитывая, что = 1−0,95=0,05, найдем по таблице III приложений

формуле (3.39)

или , и .

Таким образом, с надежностью 0,95 дисперсия возмущений заключена в пределах от 0,598 до 4,81, а их стандартное отклонение − от 0,773 до 2,19 (т).

 

Множественный регрессионный анализ

4.1. Классическая нормальная линейная модель множественной регрессии

модель множественной линейной регрессии:

, (4.1)

Введем обозначения: матрица-столбец, или вектор, значений зависимой переменной.

матрица значений объясняющих переменных, или матрица плана размера

матрица-столбец, или вектор, параметров размера

матрица-столбец, или вектор, возмущений (случайных ошибок, остатков) размера .

в матричной форме модель (4.1) примет вид:

(4.2)

Оценкой этой модели по выборке является уравнение

, (4.2)'

Где , .

 

4.2. Оценка параметров классической регрессионной модели методом наименьших квадратов

 

Система нормальных уравнений в матричной форме для определения вектора :

. (4.5)

 

(4.6)

Матрица есть вектор произведений наблюдений объясняющих и зависимой переменных:

. (4.7)

Решением уравнения (4.5) является вектор

, (4.8)

где – матрица, обратная матрице коэффициентов системы (4.5), – матрица-столбец, или вектор, ее свободных членов.

Зная вектор , выборочное уравнение множественной регрессии представим в виде:

(4.9)

где – групповая (условная) средняя переменной при заданном векторе значений объясняющей переменной

.

Пример 4.1. Имеются следующие данные (условные) о сменной добыче угля на одного рабочего (т), мощности пласта (м) и уровне механизации работ (%), характеризующие процесс добычи угля в 10 шахтах.

Таблица 4.1

               
               
               
               
               

Предполагая, что между переменными , и существует линейная корреляционная зависимость, найти ее аналитическое выражение (уравнение регрессии no и ).

Решение. Обозначим

,

(в матрицу вводится дополнительный столбец чисел, состоящий из единиц).

Таблица 4.2

                    5,13 0,016
                    8,79 1,464
                    9,64 1,127
                    5,98 1,038
                    5,86 0,741
                    6,23 0,052
                    6,35 0,121
                    5,61 0,377
                    5,13 0,762
                    9,28 1,631
                  - 6,329

(см. суммы в итоговой строке табл. 4.2);

Матрицу определим по формуле где определитель матрицы ; присоединенная к матрице . Получим

(самостоятельно).

Теперь в соответствии с (4.8) умножая эту матрицу на вектор

,

получим .

С учетом (4.9) уравнение множественной регрессии имеет вид: .

 

На практике часто бывает необходимо сравнение влияния на зависимую переменную различных объясняющих переменных, когда последние выражаются разными единицами измерения. В этом случае используют стандартизованные коэффициенты регрессии и коэффициенты эластичности :

; (4.10)

. (4.11)

Стандартизованный коэффициент регрессии показывает, на сколько величин изменится в среднем зависимая переменная при увеличении только -й объясняющей переменной на , а коэффициент эластичности – на сколько процентов (от средней) изменится в среднем при увеличении только на 1%.

Пример 4.2.

По данным примера 4.1 сравнить раздельное влияние на сменную добычу угля двух факторов мощности пласта и уровня механизации работ.

Решение.

по (4.10):

; ,

по (4.11):

; .

(Здесь: ).

 

4.4. Оценка дисперсии возмущений

Оценка метода наименьших квадратов является «наилучшей» линейной оценкой параметра . Перейдем к оценке дисперсии возмущений .

Выборочная остаточная дисперсия определяется по формуле:

. (4.21)

В знаменателе выражения (4.21) стоит n – (p +1), а не n – 2, как это было выше. Это связано с тем, что теперь (р +1) степеней свободы (а не две) теряются при определении неизвестных параметров, число которых вместе со свободным членом равно (р +1).



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2018-01-31 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: