ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА




 

Задачей регрессионного анализа является определение формы и параметров уравнений регрессии, характеризующих зависимость между случайными признаками, а также оценка значимости и доверительных границ этих параметров. Для двух случайных величин X и Y равенство вида называется уравнением регрессии. Функции как правило, линейны по оцениваемым параметрам

, , и т.д.,

хотя относительно аргумента х могут быть и нелинейными.

Выборочные оценки параметров a1, a2, … могут быть получены методом наименьших квадратов.

Пусть известны результаты п наблюдений над системой случайных величин (X, Y):

Параметры линейной функции характеризующей связь между X и Y, определяются из системы нормальных уравнений:

 

После деления каждого уравнения на п система приобретает вид

 

откуда =

Полученное отношение называется выборочным коэффициентом регрессии Y на X и обозначается

Тогда линейное уравнение регрессии Y на X будет иметь следующий вид:

, или , (13.1)

где rxy – выборочный коэффициент линейной корреляции.

Если результирующим признаком является Х, то выборочное уравнение регрессии X на Y запишется так:

(13.2)

Проверить значимость выборочных оценок a 0 и a 1 - значит установить, достаточна ли их величина для статистически обоснованного вывода о том, что параметры a0 и a1 уравнения регрессии отличны от нуля. С этой целью высказывают нулевую гипотезу H 0: a = 0. Рассматривается случайная величина

,

где a - выборочная оценка параметра a, Sa - ее среднее квадратичное отклонение. Для a 0 и a 1 отклонение Sa вычисляется по формулам:

 

,

где - выборочная оценка остаточной дисперсии Это среднее значение межгрупповых дисперсий, и оно является той частью общей дисперсии результативного признака, которая обусловлена влиянием только случайных факторов.

Случайная величина T имеет распределение Стьюдента с n = n - 2 степенями свободы. Для заданного уровня значимости b и числа степеней свободы n по табл. 5 Приложений можно найти критическое значение . Если , нулевая гипотеза принимается. Если же , то гипотезу H 0 отвергают, считая параметр уравнения регрессии значимым.

Доверительный интервал для значимых параметров находят из условия

 

:

 

Для случаев, когда зависимость между случайными признаками X и Y нелинейна по переменным, оценка параметров уравнений регрессии осуществляется тем же методом наименьших квадратов. Простейшие нелинейные модели, которые могут быть использованы, таковы:

; ; ;

.

 

Первые три формы связи легко линеаризуются заменой переменных величин:

в первом уравнении достаточно положить , и уравнение становится линейным, ;

во втором - , после чего ;

в третьем следует сначала прологарифмировать обе части: , затем обозначить и получить .

 

13.1. В условиях задачи 12.1 требуется: а) найти условные средние случайных признаков; б) построить эмпирические линии регрессии; в) составить уравнения теоретических линий прямой регрессии и построить их; г) оценить значимость параметров полученных уравнений при уровне значимости b = 0,05; д) найти интервальную оценку для параметров уравнений при доверительной вероятности a = 0,95.

 

¢ Рассмотрим корреляционную табл. 12.2 из задачи 12.1. Вычислив условные средние признаков X и Y, заполним ими еще одну строку и столбец (табл. 13.1).

 

Таблица 13.1

Y X   1,5   2,5   3,5   4,5   5,5   6,5   7,5   8,5    
                    2,06
                    2,50
                    3,85
                    4,83
                    5,72
                    5,85
                    8,36
                   
22,14 31,47 42,50 48,33 52,58 52,62 57,22 66,82    

 

и т. д.,

и т. д.

 

Построим эмпирические линии регрессии (рис. 13.1).

Как видно, связь между признаками можно описать линейной зависимостью

 

 

Найдем точечные оценки параметров Для этого воспользуемся уравнениями

и

.

Используя результаты задачи 12.1, получим

Итак,

 

Для оценки значимости этих параметров найдем сначала остаточные дисперсии составляющих системы, т.е. средние значения внутригрупповых дисперсий признаков X и Y.

 

 

Затем вычислим средние квадратичные отклонения самих параметров:

 

 

Далее находим эмпирические значения t -критерия Стьюдента по формуле

 

 

При заданном уровне значимости b = 0,05 и числе степеней свободы n = 148 из таблицы t -распределения Стьюдента (табл. 5 Приложений) находим критическое значение критерия:

Как видно, эмпирические значения критериев всех параметров уравнений регрессии значительно превышают критическое значение. Следовательно, значения параметров можно считать значимыми.

Находим интервальные оценки параметров уравнений:

 

1,176 – 1,97 × 0,10115 < a0 < 1,176 + 1,97 × 0,10115 Þ 0,977 < a0 < 1,375;

 

0,079 – 1,97 × 0,00726 < a1 < 0,079 – 1,97 × 0,00726 Þ 0,056 < a1 < 0,093;

 

24,57 – 1,97 × 0,79332 < b0 < 24,57 + 1,97 × 0,79332 Þ 23,01 < b0 < 26,13;

 

4,659 – 1,97 × 0,44196 < b1 < 4,659 + 1,97 × 0,44196 Þ 3,79 < b1 < 5,53. £

 

В задачах 13.2 – 13.5 по данным корреляционных таблиц вы-полнить линейный регрессионный анализ для случайных признаков X и Y.

13.2.

  Y  
  Х 15-25 25-35 35-45 45-55 55-65 65-75 75-85
200 – 300                
300 – 400                
400 – 500                
500 – 600                
600 – 700                
700 – 800                
800 – 900                
                                 

 

13.3.

  X Y
             
               
               
               
               
               
               

13.4.

  X Y
15-20 20-25 25-30 30-35 35-40 40-45
210 – 220            
220 – 230            
230 – 240            
240 – 250            
250 – 260            
260 – 270            

 

13.5.

  X Y
0,02 0,06 0,10 0,14 0,18 0,22 0,26
10 – 20              
20 – 30              
30 – 40              
40 – 50              
50 – 60              
60 – 70              
70 – 80              

 

13.6. Измерение температуры корпуса работающего агрегата, произведенное с интервалом в 5 минут, дало следующие резуль-таты:

 

t, мин          
T, ° C 59,3 59,8 60,1 64,9 70,2

 

Считая, что зависимость между этими переменными имеет вид найти методом наименьших квадратов оценки параметров a, b и c.

 

¢ Предварительно преобразуем исходные данные по формулам

 

и вычислим оценки параметров линейной модели

 

В данном случае система нормальных уравнений выглядит следующим образом:

 

Для вычисления коэффициентов системы составим таблицу (13.2).

 

Таблица 13.2

t T x y xy x2y x 2 x 3 x 4
    59,3 59,8 60,1 64,9 70,2   -2 -1   -7 -2     -28 -2     -8 -1  
               

 

Составляем систему нормальных уравнений:

 

 

Решив систему, получим А » 10,07, В = 26,9, С » 8,457. Таким образом, зависимость между x и y имеет вид

 

Переходя к исходным переменным, получим:

 

или окончательно

. £

 

В задачах 13.7 – 13.9 найти оценки параметров уравнения регрессии, считая, что зависимость между переменными имеет вид

 

13.7.

х            
у   -1 -0,5 1,5 4,5 8,5

 

13.8.

х 0,07 0,31 0,61 0,99 1,29 1,78 2,09
у 1,34 1,08 0,94 1,06 1,25 2,01 2,60

 

13.9.

х              
у 3,94 4,60 5,67 6,93 8,25 7,73 10,55

 

 

В задачах 13.10 – 13.11 найти оценки параметров уравнения регрессии, считая, что зависимость между переменными имеет вид

13.10.

х        
у   5,25 3,50 3,25

 

13.11.

х 5,67 4,45 3,84 3,74 3,73 2,18
у 6,5 6,8 7,0 7,6 8,8 11,9

13.12. Найти оценки для параметров модели

 

х 0,3 0,6 0,9 1,2 1,5 1,8 2,1
у 4,39 4,75 4,98 5,11 5,12 5,18 5,28

 

х 2,4 2,7 3,0 3,3 3,6 3,9 4,2
у 5,36 5,45 5,52 5,53 5,57 5,63 5,64

13.13. Найти оценки для параметров модели

 

х   1,5   2,5   3,5  
у 4,11 4,16 4,23 4,29 4,36 4,42 4,53

 

х 4,5   5,5   6,5  
у 4,57 4,63 4,75 4,87 4,88 5,01

 

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2021-01-30 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: