Проверка гипотез относительно коэффициентов линейного уравнения регрессии.




Статистическая гипотеза - это гипотеза о виде неизвестного распределения, или о параметрах известных распределений.

Нулевой гипотезой (H0) называют выдвинутую гипотезу.

Конкурирующей (альтернативной)(H1) называют гипотезу, которая противоречит нулевой.

Гипотезу, содержащую только одно предположение, называют простой. Например, математическое ожидание нормально распределенной величины равно 5. Гипотеза, которая состоит из двух или нескольких простых гипотез, называют сложной. Например, математическое ожидание нормально распределенной величины больше 5.

Так как проверку производят методами статистики, ее называют статистической. Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза. Ошибка второго рода состоит в том, что будет принята неправильная гипотеза. Вероятность совершить ошибку первого рода принято обозначать α, ее называют уровень значимости. Наиболее уровень значимости принимают равным 0,05 или 0,01.

Статистическим критерием называют случайную величину, которая служит для проверки нулевой гипотезы. Наблюдаемым значением называют значения критерия, вычисленного по выборкам. Критической областью называют совокупность значений критерия, при которых нулевая гипотеза отвергается.

Областью принятия гипотезы (область допустимых значений) называют совокупность значений критерия, при которых гипотезу принимают.

Основной принцип проверки статистических гипотез: если наблюдаемое значение принадлежит критической области - гипотезу отвергают; если наблюдаемое значение принадлежит области допустимых значений - гипотезу принимают.

Критические точки - это точки, отделяющие критическую область от области принятия гипотезы. Различают одностороннюю (лево- и правостороннюю) и двустороннюю критические области.

Правило принятия решения для проверки статистических гипотез - это модель расчета значений выборочных статистических показателей, на основании которых принимается или отвергается нулевая гипотеза.

Процедура проверки гипотезы следующая: необходимо сформулировать нулевую и альтернативную гипотезы; определить уровень значимости; найти наблюдаемое значение, используя формулу стандартизированного критерия; по таблице выяснить критическое значение в соответствии с уровнем значимости и размером выборки, если это необходимо; сравнить критическое значение с наблюдаемым, тем самым использовать правило принятия решения.

При проверке качества модели в первую очередь стоит обращать внимание на то, соответствует ли она логике экономического процесса, т.е. мы должны смотреть, реалистичны ли знаки коэффициентов перед независимыми переменными и реалистична ли их величина.статистика:статистика соизмеряет значение коэффициента с его стандартной ошибкой. Фактически же мы проверяем гипотезу о том, равен нулю коэффициент при рассматриваемой переменной или нет. Т.е:: коэффициент=0. Если эта гипотеза верна, то коэффициент не значим.: коэффициент не равен 0. Если эта гипотеза верна, то коэффициент значим.

Выяснить, отвергается нулевая гипотеза или нет, можно 2 способами:

1. Метод критических значений (по таблицам):

a) Находим фактическое значение t:) Определяем число степеней свободы


 

m=n-k

 

n - число наблюдений- число оцененных параметров) Выбираем уровень значимости (т.е. вероятность ошибки): 1% или 5%.) Находим критическое значение по таблице:

в таблице выбираем клетку в строке, соответствующей числу степеней свободы и в столбце, соответствующем выбранному уровню значимости.) Сравниваем фактическое значение с табличным:

Если t > t, то коэффициент значим на выбранном уровне значимости (лучше сначала на 1% проверить). Т.е. нулевая гипотеза отвергается.

Если t < t, то коэффициент не значим. Нулевая гипотеза не отвергается.статистика:статистика представляет собой отношение объясненной суммы квадратов (в расчете на одну независимую переменную) к остаточной сумме квадратов (в расчете на одну степень свободы).

Фактически проверяем гипотезу:

Но: все коэффициенты при независимых переменных равны нулю

На: хотя бы один из них нулю не равен.

Выяснить, отвергается нулевая гипотеза или нет, можно 2 способами:

1. По таблицам:

a) Рассчитываем фактическое по формуле:

 

F(k-1,n-k)=, где

 

k - число объясняющих переменных.) Находим табличное:

· Выбираем уровень значимости α (1% или 5%)

· Вычисляем число степеней свободы: 1 и (n-2).

· По таблицам F-распределения Фишера определяем критическое значение Fα, 1, n-2 (всегда одностороннее)) Если Fстатистика(фактическое) > Fα, 1, n-2, то уравнение в целом является значимым при выбранном уровне значимости α.

d) В противном случае уравнение в целом незначимо (на данном уровне α).

Задание 1.

. Для характеристики зависимости у от х рассчитать параметры следующих уравнений регрессии:

а) линейной;

б) параболической

в) степенной;

. Рассчитать коэффициент корреляции или индекс корреляции и коэффициент детерминации по каждой модели.

. Оценить каждую модель через среднюю ошибку аппроксиминации Ā и F-критерий Фишера.

 

Душевой доход, долл., у Индекс человеческого развития (ИЧР), х
  0,566
  0,717
  0,711
  0,672
  0,589
  0,626
  0,513
  0,445
  0,328
  0,393
  0,446

линейный регрессия корреляция детерминация

Решение:

1 Расчет параметров линейной регрессии.

Парная линейная регрессия - уравнение вида , где a и b - параметры регрессии, а - погрешность уравнения (случайная величина).

Параметры уравнения a и b, находят посредством Метода Наименьших Квадратов. Рассчитаем вспомогательные параметры в таблице:

 

Х У х*у Х2 y2
  0,566   2082,9 0,32  
  0,717   2617,1 0,51  
  0,711   2332,1 0,51  
  0,672   1801,0 0,45  
  0,589   1531,4 0,35  
  0,626   1627,6 0,39  
  0,513   1128,6 0,26  
  0,445   956,8 0,20  
  0,328   449,4 0,11  
  0,393   692,6 0,15  
  0,446   600,8 0,20  
S 6,006 26910,0 15820,0 3,45  
Ср.зн 0,546 2446,4 1438,2 0,31  

 

По найденным значениям вычислим параметр b (коэффициент регрессии):

 

 

Рассчитаем значение а:

Тогда уравнение регрессии запишется следующим образом:

. Для оценки тесноты связи в эконометрике используется коэффициент корреляции (r).


 

.

 

В нашем случае значение коэффициента корреляции 0,85 говорит о сильной связи между х и у, т.е. связь между индексом человеческого развития и душевым доходом очень сильная. Рассчитаем коэффициент детерминации R2. R2=(0.85)2= 0.72. Таким образом, вариация величины доли душевого дохода на 72% зависит от вариации индекса человеческого развития, а на остальные (100%-72%) 28% − от вариации факторов, не включенных в модель.

. Расчет средней ошибки аппроксимации.

Определим среднюю ошибку аппроксимации по формуле:

 

 

Используем данные вспомогательной таблицы:

 

2558,3 12525,3 1521858,7 1121,7 1258255,8 0,3
3400,9 911063,3 1448740,5 249,1 62070,7 0,1
3367,4 848271,1 694949,6 -87,4 7635,3 0,0
3149,8 494766,4 54586,0 -469,8 220674,5 0,2
2686,6 57723,1 23604,1 -86,6 7503,0 0,0
2893,1 199555,5 23604,1 -293,1 85895,9 0,1
2262,5 33791,1 60695,0 -62,5 3911,3 0,0
1883,1 317265,9 87831,4 266,9 71235,6 0,1
1230,2 1478956,7 1158558,7 139,8 19532,9 0,1
1592,9 728331,9 1202013,2 -242,9 59019,8 0,2
1888,7 311011,0 1202013,2 -538,7 290176,1 0,4
Сумма=26913,5 5393261,5 7478454,5 -3,5 2085910,8 1,6
Ср.зн.= 2446,7 490296,5 679859,5 -0,3 189628,3 0,1

 

Тогда средняя ошибка аппроксимации равна

 

 

Практически полагают, что значение средней ошибки аппроксимации не должно превышать 8-15%, для грубого приближения регрессии к реальной зависимости. В нашем случае средняя ошибка аппроксимации приблизительно равна указанному значению, поэтому можно говорить о том, что реальная зависимость существует.

. Оценка значимости уравнения регрессии в целом даётся при помощи F-критерия Фишера. При этом выдвигается нулевая гипотеза (Н0), что b=0, и, следовательно, фактор х не оказывает влияния на фактор у. Но перед этим следует произвести анализ дисперсии. Рассчитаем Dфакт и Dостат:

 

.

.

 

Сопоставляя факторную и остаточную дисперсии получаем F-критерий (величину F-отношения): . Если гипотеза Н0 справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Для того, чтобы опровергнуть гипотезу Н0, необходимо полученное F-отношение сравнить с табличным Fкр, которое берётся из таблиц Фишера - Снедекора (при разных уровнях значимости) или определяется по функции Excel FPACПОБР.

Вычислим критическое значение критерия Фишера на уровне значимости a=0,05 и числе степеней свободы факторной суммы k1 и числе степеней свободы остаточной суммы k2 с помощью статистической функции FPACПОБР: Fкр(a=0,05, k1 =k-1; k2 =n-k)=5,32, где n=11 - объем выборки; k=2 - количество коэффициентов в уравнении.

Так как F=23> Fкр (a=0,05, k1 = 1; k2 =9)=5, то нулевая гипотеза Н0 отвергается и утверждается, что фактор х оказывает влияние на фактор у, уравнение регрессии признаётся значимым (модель достоверна).

2 Расчет параметров параболической регрессии

Спецификация модели зависимости у от х с помощью параболической функции

Приведем эту функцию к линейному виду. Для этого заменив переменные х=х1, х22, получим двухфакторное уравнение линейной регрессии:

 

 

Исходные и расчетные данные для оценки коэффициентов функции представлены в таблице:

 

Х1 Х2 У Х1 X2 х12 Х22 Х12 y2
  0,57 0,32       0,32 0,10 0,18  
  0,72 0,51       0,51 0,26 0,37  
  0,71 0,51       0,51 0,26 0,36  
  0,67 0,45       0,45 0,20 0,30  
  0,59 0,35       0,35 0,12 0,20  
  0,63 0,39       0,39 0,15 0,25  
  0,51 0,26       0,26 0,07 0,14  
  0,45 0,20       0,20 0,04 0,09  
  0,33 0,11       0,11 0,01 0,04  
  0,39 0,15       0,15 0,02 0,06  
  0,45 0,20       0,20 0,04 0,09  
Сумма = 6,01 3,45       3,45 1,28 2,07  
Ср.знач 0,55 0,31       0,31 0,12 0,19  

 

Для оценки параметров используется метод наименьших квадратов. Применение МНК приводит к следующей системе нормальных уравнений:

 

 

Решая данную систему получаем значения:

 

а=-397, b1=5435, b2=-209

 

Уравнение регрессии примет вид:

 

 

Рассчитаем коэффициент множественной корреляции.

Показатель множественной корреляции характеризует тесноту связи рассматриваемого набора факторов с исследуемым признаком, или, иначе, оценивает тесноту совместного влияния факторов на результат.

Независимо от формы связи показатель множественной корреляции может быть найден как

 

,

 

Где - общая дисперсия результативного признака;

- остаточная дисперсия для уравнения .

Для расчета используем вспомогательную таблицу:


 

 

У
    2612,26 27520,14 1521858,68 1067,74 1140078,11 0,29
    3392,45 895080,16 1448740,50 257,55 66331,80 0,07
    3361,63 837714,55 694949,59 -81,63 6663,64 0,02
    3160,94 510617,87 54585,95 -480,94 231302,27 0,18
    2731,71 81421,70 23604,13 -131,71 17347,13 0,05
    2923,41 227571,24 23604,13 -323,41 104592,68 0,12
    2336,15 12146,46 60695,04 -136,15 18537,55 0,06
    1980,19 217319,93 87831,40 169,81 28836,19 0,08
    1363,19 1173254,42 1158558,68 6,81 46,31 0,00
    1706,68 547139,04 1202013,22 -356,68 127217,17 0,26
    1985,44 212453,77 1202013,22 -635,44 403779,62 0,47
Сумма =   27554,04 4742239,29 7478454,55 -644,04 2144732,47 1,62
Ср.знач=   2504,91 431112,66 679859,50 -58,55 194975,68 0,15

 

.

 

Полученные данные подставим в формулу:

 

 

Можно сделать вывод, что связь между параметрами сильная.

Рассчитаем коэффициент детерминации R2.

2=(0,83)2= 0.7.

 

Доля общего варьирования достаточно высокая, значит изменяемость у обусловлена изменяемостью х. Расчет средней ошибки аппроксимации.


 

Определим среднюю ошибку аппроксимации:

 

 

Полученный результат говорит о том, что существует реальная зависимость между факторами.

Оценка значимости уравнения регрессии в целом даётся при помощи F-критерия Фишера. При этом выдвигается нулевая гипотеза (Н0), что b=0, и, следовательно, фактор х не оказывает влияния на фактор у.

 

.

.

 

Сопоставляя факторную и остаточную дисперсии получаем F-критерий (величину F-отношения): . Вычислим критическое значение критерия Фишера на уровне значимости a=0,05 и числе степеней свободы факторной суммы k1 и числе степеней свободы остаточной суммы k2 с помощью статистической функции FPACПОБР: Fкр(a=0,05, k1 =k-1; k2 =n-k)=5, где n=11 - объем выборки; k=3 - количество коэффициентов в уравнении.

Так как F=19> Fкр (a=0,05, k1 =2; k2 =8)=5, то нулевая гипотеза Н0 отвергается и утверждается, что фактор х оказывает влияние на фактор у, уравнение регрессии признаётся значимым (модель достоверна).

3 Рассчитаем параметры степенной регрессии

Степенная регрессия - уравнение вида

Для линеаризации степенной функции используется метод логарифмирования. Получаем: lnY=lna+blnX.

К полученной функции применяем метод замены: где Yн=lnY, aн=lna, Хн=lnХ и получаем функцию Yн= aн+bХн, которая является линейной и её коэффициенты можно вычислить методом наименьших квадратов.

Создадим базу данных значений х и у:

 

Х У Хн 2 Хн2 Yн*Хн
  0,566   8,21 -0,57 67,42 0,32 -4,67
  0,717   8,20 -0,33 67,28 0,11 -2,73
  0,711   8,10 -0,34 65,54 0,12 -2,76
  0,672   7,89 -0,40 62,31 0,16 -3,14
  0,589   7,86 -0,53 61,83 0,28 -4,16
  0,626   7,86 -0,47 61,83 0,22 -3,68
  0,513   7,70 -0,67 59,23 0,45 -5,14
  0,445   7,67 -0,81 58,88 0,66 -6,21
  0,328   7,22 -1,11 52,17 1,24 -8,05
  0,393   7,21 -0,93 51,95 0,87 -6,73
  0,446   7,21 -0,81 51,95 0,65 -5,82
Сумма = 6,01 26910,00 85,14 -6,97 660,39 5,08 -53,10
Ср.знач= 0,55 2446,36 7,74 -0,63 60,04 0,46 -4,83

 

По найденным значениям вычислим параметр b:

 

 

Рассчитаем значение ан:

 

 

Коэффициент а вычисляется по формуле: а=exp(aн)=exp(8,57)=5246,5


 

Тогда уравнение регрессии запишется следующим образом:

 

 

Рассчитаем коэффициент корреляции (r).

 

.

 

Таким образом можно говорить о сильной связи между х и у.

Рассчитаем коэффициент детерминации R2.

2=(0.88)2= 0.77

 

Доля общего варьирования достаточно высокая, значит изменяемость у обусловлена изменяемостью х.

Расчет средней ошибки аппроксимации.

Определим среднюю ошибку аппроксимации по формуле:

 

 

Полученный результат говорит о том, что существует реальная зависимость между факторами. Оценка значимости уравнения регрессии в целом даётся при помощи F-критерия Фишера. При этом выдвигается нулевая гипотеза (Н0), что b=0, и, следовательно, фактор х не оказывает влияния на фактор у.

 

.


 

Вычислим критическое значение критерия Фишера на уровне значимости a=0,05 и числе степеней свободы факторной суммы k1 и числе степеней свободы остаточной суммы k2 с помощью статистической функции FPACПОБР: Fкр(a=0,05, k1 =k-1; k2 =n-k)=5,32, где n=11 - объем выборки; k=2 - количество коэффициентов в уравнении.

Так как F=29,6> Fкр (a=0,05, k1 = 1; k2 =9)=5,1, то нулевая гипотеза Н0 отвергается и утверждается, что фактор х оказывает влияние на фактор у, уравнение регрессии признаётся значимым (модель достоверна).

Задание 2.

.Рассчитать уравнение множественной регрессии.

.Найти коэффициент детерминации.

.Оценить значимость уравнения регрессии через критерий Фишера.

.Найти частные средние коэффициенты эластичности.

 

Вариант 13 X1                        
  X2                        
  X3                        
  Y                        

Решение: Линейная модель множественной регрессии имеет вид:

 

 

параметры при x называются коэффициентами "чистой" регрессии. Они характеризуют среднее изменение результата с изменением соответствующего параметра на единицу при неизменном значении других факторов, закрепленных на среднем уровне. Вычисление параметров линейного уравнения множественной регрессии проводится с помощью инструмента анализа данных: Регрессия.

 

 

ВЫВОД ИТОГОВ              
Регрессионная статистика              
Множественный R 0,983482              
R-квадрат 0,967236              
Нормированный R-квадрат 0,95495              
Стандартная ошибка 4,460776              
Наблюдения                
Дисперсионный анализ            
  df SS MS F Значимость F      
Регрессия   4699,478 1566,493 78,72407 2,8E-06      
Остаток   159,1882 19,89852          
Итого   4858,667            
  Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% Нижние 95,0% Верхние 95,0%
Y-пересечение 50,49062 20,37175 2,478462 0,038203 3,513245 97,468 3,513245 97,468
Переменная X 1 -2,00435 0,393259 -5,09677 0,000934 -2,91121 -1,0975 -2,91121 -1,0975
Переменная X 2 -4,6316 0,75741 -6,11505 0,000285 -6,37819 -2,88501 -6,37819 -2,88501
Переменная X 3 3,851924 0,539379 7,141407 9,79E-05 2,608113 5,095735 2,608113 5,095735

 

 

Множественная регрессия имеет вид:

 

У=50,49-2х1-4,63х2+3,85х3.

 

Значение случайных ошибок параметров a, b1, b2, b3 с учетом округления: 51, -2, -4,6, 3,9.

Значимость уравнения множественной регрессии в целом оценивается с помощью с помощью F-критерия Фишера:

 

,

 

где - индекс множественной корреляции (тоже, что и );

- число наблюдений;

- число факторов.

Полученное по формуле значение F сравнивается с табличным при уровне значимости . Если фактическое значение F-критерия Фишера превышает табличное, то уравнение статистически значимо с вероятностью . При использовании таблицы следует принимать . Fкр(0,05; 3; 8)=4,7.

По данным таблицы Fфакт=79 вероятность получить такой результат равен 4,93E-10, что не превышает допустимый уровень значимости 5%.

Значения скорректированного и некорректированного линейных коэффициентов множественной детерминации приведены в рамках регрессионной статистики. Некорректированный коэф-т множественной детерминации

Оценивает долю вариации результата за счет представленных в уравнении факторов в общей вариации результата.

Здесь эта доля составляет 97% и указывает на тесную связь факторов с результатом.

Скорректированный коэффициент множественной детерминации определяет тесноту связи с учетом степени свободы общей и остаточной дисперсии.

Он дает такую оценку тесноты связи, которая не зависит от числа факторов в модели. Рассчитаем средние частные коэффициенты эластичности:

Находим средние значения факторов:

 

  х1 х2 х3 у
  1,4   0,3 10,1
  1,7   0,8 5,8
  1,3   0,2 9,3
  1,4   0,1 1,3
  1,3   0,3 3,4
  1,1   0,5 9,1
  1,7   0,3 2,6
  1,2   0,7 11,2
  1,6   0,4 5,9
  1,4   0,7 10,1
  1,2   0,9 4,2
  1,5   0,6 7,3
16,8   5,8 80,3
Ср.зн 1,4   0,483333 6,691667

 

 

Коэффициент эластичности, показывает, на сколько процентов изменится величина результативного признака при изменении факторного признака на 1%


 

Заключение

 

По полученным данным выберем наилучшую модель, для чего объединим результаты построения парных регрессий в одной таблице 1.

Все уравнения регрессии достаточно хорошо описывают исходные данные.

 

Таблица 1 Результаты корреляционно-регрессионного анализа

Уравнение регрессии Коэффициент корреляции Коэффициент детерминации F-критерий Фишера
0,85 0,72  
0,88 0,77    
0,88 0,77 29,6  

 

Предпочтение можно отдать степенной функции, для которой значения коэффициентов корреляции и детерминации и F-критериев Фишера наибольшие.

 


 

Список литературы

 

1 Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998.

2 АйвазянС. А. Основы моделирования и эконометрики

3 Бородич С. А.. Эконометрика. Учеб. пособие. Мн.: Новое издание 2001.

4 Эконометрика: Учебник / под ред. И.И. Елисеевой.

5 Гмурман В.Е. Теория вероятности и математическая статистика. Учебное пособие. -М.: Высшая школа, 2000. - 479с.

6 Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистики. Учебное пособие. -М.: Высшая школа, 2000

7 Доугерти К. Ведение в эконометрику: пер. с.англ. - М.: ИНФРА-М, 2001 -

8 Количественные методы финансового анализа / Под ред. С.Дж. Брауна и М.П. Крицмена: Пер. с англ. - М.: ИНФРА-М, 1996. -306с.

9 Магнус Л.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. Учеб. - 4-е изд. - М.: Дело, 2000.-248с.

10 Мардас А.Н. Эконометрика. - СПб: Питер, 2001- 144с.

11 Никитин Н. Ш. Математическая статистика для экономистов: Учеб. пособие. - 2-е изд., перераб. и доп.. -М.: ИНФРА- М; Новосибирск

12 Кремер Н. Ш.. Теория вероятностей и математическая статистика. Учебник для вузов. - М.: ЮНИТИ-ДАНА, 2000.

13 Кремер Н.Ш., Путко Б.А.. Эконометрика. Учебник для вузов / Под ред. проф. Н. Ш. Кремера. - М.: ЮНИТИ-ДАНА, 2003.

14 Практикум по эконометрике: Учеб. пособие / И.И. Елисеева, С.В. Курышева, Н.М. Гордеенко и др.; под ред. И. И. Елисеевой. - М.: Финансы и статистика,2002. - 192с.

15 Катышев П.К., Пересецкий А.А. Сборник задач к начальному курсу эконометрики.- М.: Дело, 1999. -72с.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2021-04-20 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: