Линейная парная регрессия




Занятие 3

Статистическая проверка статистических гипотез

Цель. Научиться выдвигать и проверять статистическую гипотезу о виде распределения случайной величины.

 

Задание.

1. По виду гистограммы частот выдвинуть гипотезу о виде распределения случайной величины.

2. Проверить гипотезу о нормальном распределении случайной величины с использованием

а) показателей А и Е;

б) критерия (хи-квадрат), критерий Пирсона.

3. Построить полигон частот и теоретическую кривую на полигоне частот, записать ее аналитическое выражение.

4. Сделать вывод.

 

Выполнение.

1. Запустите Microsoft Exсel. По виду гистограммы частот выдвигаем гипотезу о нормальном распределении случайной величины.

 

 

2.а) Проверяем гипотезу о нормальном распределении случайной величины с использованием показателей А (асимметрия) и Е (эксцесс). Выписываем показатели Ав = -0,222, Е = 0,282, полученные на занятии 1.

Нулевая гипотеза имеет вид: Аг = 0, Ег = 0.

Конкурирующая гипотеза имеет вид:

Находим несмещенную оценку по формулам:

Вычисляем средние квадратичные отклонения для А* и Е* по формулам:

Проверяем выполнение неравенств:

Так как = 0,72, т.е. оба неравенства выполняются, то нулевая гипотеза принимается и значит случайная величина распределена нормально.

 

2.б) Для проверки гипотезы о нормальном распределении случайной величины по критерию Пирсона используется случайная величина хи-квадрат, распределенная по закону хи- квадрат со степенями свободы к = m – l – 1, где m - число интервалов,l - число параметров нормального распределения.

Наблюдаемое значение статистики (хи-квадрат) находится по формуле

где ni – наблюдаемая частота, соответствующая i -тому интервалу;

– теоретическая частота,

- теоретическая частота попадания случайной величины в интервал

Далее сравниваем с . находят по уровню значимости и

числу степеней свободы «к», используя статистическую функцию ХИ2ОБР (вероятность, степени свободы) в Ехсеl или по таблице «Критические точки распределения (хи-квадрат)» [2]. При выполнении неравенства гипотеза о нормальном распределении случайной величины принимается. Все вычисления удобнее выполнять в таблице 6 с использованием функции НОРМСТРАСП(z), причем Для нахождения значений функции НОРМСТРАСП(z) выделите пустую ячейку на листе, поставьте курсор на f(x) и щелкните левой кнопкой мыши, появится диалоговое окно:

 

 

В появившемся окне в строке «Категория» навести курсор на ▼, нажать левой кнопкой мыши, и выбрать в появившемся меню «Статистические», появится:

 

Выберите функцию НОРМСТРАСП(z):

 

 

и щелкните левой кнопкой мыши на OK, появится диалоговое окно:

 

В строку «Z » введите число 28,57 – левую границу второго интервала, окно примет вид:

 

 

 

Щелкните левой кнопкой мыши на OK, в ячейки появиться число 0,0093. Значения функции в остальных границ интервалов находятся аналогично.

Замечание.

Можно вычисления выполнять в таблице 5 с использованием функции Лапласа ее значения находят по таблице [2], причем

 

Таблица 5

Вычисление теоретических частот и значения

 

Но-мер ин- тер- вала Границы интервалов Час- то- ты Нормиро-ванные значения границ интер- валов Значения Функции Лапласа Ве- роят- ность Теоре- тичес- кие час- тоты (ni – ni1)^2/ni1
Ni Xi Xi+1 ni Zi Zi+1 Ф(zi) Ф(zi+1) Pi Ni1  
[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11]
  14,03 28,57   - -2,35   0,0093 0,0093 0,932 0,005
  28,57 43,11   -2,35 -1,18 0,0093 0,1186 0,1093 10,929 0,001
  43,11 57,65   -1,18 -0,01 0,1186 0,4955 0,3769 37,689 0,583
  57,65 72,19   -0,01 1,16 0,4955 0.8769 0,3814 38,135 2,061
  72,19 86,73   1,16 2,33 0.8769 0,9901 0,1132 11,324 1.651
  86,73 101,27   2,33 0,9901   0.0099 0,99 0.000
Сумма                 4,301

 

 

Таблица 6

 

Вычисление теоретических частот и значения

 

Но-мер ин- тер- вала Границы интервалов Час- то- ты Нормиро- ванные значения границ интер- валов Значения Функции Лапласа Ве- роят- ность Теоре- тичес- кие час- тоты (ni – ni1)^2/ni1
Ni Xi Xi+1 ni Zi Zi+1 Ф(zi) Ф(zi+1) Pi Ni1  
[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11]
  14,03 28,57   - -2,35 -0,5 -0,4905 0,0095 0,95 0,0026
  28,57 43,11   -2,35 -1,18 -0,4905 -0,381 0,1095 10,95 0,0002
  43,11 57,65   -1,18 -0,01 -0,381 -0,004 0,377 37,7 0,5859
  57,65 72,19   -0,01 1,16 -0,004 0.377 0,381 38,1 2,0790
  72,19 86,73   1,16 2,33 0.377 0,4905 0,1135 11,35 1.6672
  86,73 101,27   2,33 0,4905 0,5 0.0095 0,95 0.0026
Сумма                 4,3376

 

Наблюдаемое значение находим, используя статистическую функцию ХИ2ОБР (вероятность, степени свободы) в Ехсеl или по таблице «Критические точки распределения (хи-квадрат)» [2].

Для нахождения с использованием статистической функции ХИ2ОБР (вероятность, степени свободы). Для этого в Ехсеl наводим курсор на f(x) и выполняем все, что делали для выбора функции НОРМСТРАСП(z), только вместо функции НОРМСТРАСП(z) выбираем функцию ХИ2ОБР, появиться диалоговое окно:

 

 

В строку «Вероятность » введите число 0,05 – уровень значимости, в строку «Степени свободы » введите число 3, окно примет вид:

 

щелкните левой кнопкой мыши на OK, в ячейки появиться число 7,8.

Так как , следовательно, нет основания отвергать гипотезу о нормальном распределении случайной величины.

 

3. Для построения полигона частот и теоретической кривой на полигоне частот создать таблицу с серединами интервалов , частотами и теоретическими частотами

 

Таблица 7

 

Середины интервалов Частоты Теоретические частоты
21,3   0,9
35,84   1,9
50,38   37,7
64,92   48,1
79,46   11,3
     
     

 

Выберите в главном меню «Вставка », в меню появится «Диаграммы »:

 

Выделите в таблице 7 все три столбца и в «Диаграммы » выберите «Точечная » и нажмите левой кнопкой мыши, появиться подменю:

 

 

Выберите тип диаграммы расположенный в первой строке и в третьем столбце, нажмите левой кнопкой мыши, появится график:

 

 

 

Установите курсор на графике частот и щелкните левой кнопкой мыши. В главном меню выберите «Изменить тип диаграммы », щелкните левой кнопкой мыши, появится диалоговое окно:

 

 

Выберите тип диаграммы «Точечная с прямыми отрезками и маркерами » (четвертый вид в строке «Точечная »), нажмите левой кнопкой мыши. Щелкните левой кнопкой мыши на OK, график примет вид:

 

 

 

 

Полигон частот и теоретическая кривая.

Аналитическое выражение теоретической кривой имеет вид:

 

; .

4. Вывод. Случайная величина распределена по нормальному закону.

 

 

Занятие 4

Линейная парная регрессия

 

Цель. Овладеть методикой получения уравнения линейной регрессии обоснования возможности его применения для практики.

 

Задание.

  1. По данным выборки построить корреляционное поле и линию регрессии на нем.
  2. Вычислить оценки параметров уравнения линейной регрессии у = к х + в.
  3. Вычислить коэффициент парной корреляции ® и оценить его на значимость.
  4. Проверить на статистическую значимость параметры уравнения регрессии.
  5. найти интервальные оценки для параметров уравнения регрессии.
  6. Проверить уравнение регрессии на значимость по критерию Фишера.
  7. Сделать вывод.

 

Выполнение.

Открыть в Ехсеl тот лист, на котором находятся Ваши данные (столбцы с Х и У).

Установит курсор на пункт «Данные » в главном меню и щелкните левой кнопкой мыши, затем выберите «Анализ данных », щелкните мышью, появится диалоговое окно:

 

 

Установите курсор на команду «Регрессия »

 

 

и щелкните мышью на ОК в диалоговом окне, появится окно:

 

А) введите в строку «Входной интервал У »: массив У (В2:В101);

Б) введите в строку «Входной интервал Х »: массив Х (А2:А101);

В) выделите флажки «Новый рабочий лист », \/ «График подбора », окно примет вид:

 

 

Щелкните левой кнопкой мыши на OK.

На листе появится информация:

 

Для чтения информации на этом листе следует расширить столбцы А,В,С,D,E,F,G. Для этого навести курсор на черточку между А и В, нажать на левую кнопку мыши и не отпуская вести вправо. Аналогично расширяются остальные столбцы. После этого информация примет вид:

 

ВЫВОД ИТОГОВ

 

Регрессионная статистика  
Множественный R 0,28071
R-квадрат 0,078798
Нормированный R-квадрат 0,069398
Стандартная ошибка 7,027121
Наблюдения  

 

Дисперсионный анализ          
  df SS MS F Значимость F
Регрессия   413,9455 413,9455 8,382785 0,004670444
Остаток   4839,282 49,38043    
Итого   5253,228      

 

 

  Коэффи- циенты Станда-ртная ошибка t-статистика P- Значение Нижние 95% Верхние 95% Нижние 95,0% Верхние 95,0%
Y-пере-сечение 82,04784 3,35654 24,44418025 1,71576 75,38689 88,70878 75,38689 88,70878
Пере- менная X1 -0,16508 0,057017 -2,895303993 0,00467 -0,278228 -0,05193 -0,278228 -0,05193

 

 

2. Анализируем таблицу «Вывод итогов».

 

В таблице находим столбец с заголовком «Коэффициенты ». В соответствующих строках

этого столбца находим значение в = 82.047 (У –пересечение) и к = -0,165 (переменная Х1). Записываем уравнение регрессии у = -0,165 х + 82.047. Коэффициенты «в» и «к» вычисляются по формулам:

 

 

3. Из таблицы с заголовком «Регрессионная статистика» находим значение парного коэффициента корреляции rxy = -0,28 (в таблице множественный R). Следует учесть, что в таблице коэффициент множественный R всегда со знаком «+ ». На деле знак rxy cовпадает со знаком «к» уравнения регрессии. В данном примере к = -0,165, поэтому rxy взят со знаком минус. Коэффициент корреляции вычисляется по любой из следующих формул:

R – квадрат = 0,08 – коэффициент детерминации, выраженный в процентах R2 =8%, означает, что 8% вариации признака У объясняется вариацией фактора Х.

 

3.1. Оценка на значимость коэффициента парной корреляции.

 

Требуется проверить нулевую гипотезу Н0: R = 0 о равенстве нулю генерального коэффициента корреляции при конкурирующей гипотезе Н1:

Оценка значимости коэффициента корреляции с помощью t – критерия Стьюдента проводится путем сопоставления его значения с величиной случайной ошибки

Используя статистическую функцию СТЬЮДРАСПОБР (вероятность, степени свободы) находим или по таблице «Критические точки распределения Стьюдента» [2]. Для нахождения используя статистическую функцию СТЬЮДРАСПОБР (вероятность, степени свободы), выделить пустую ячейку на листе, поставить курсор на f(x) и щелкнуть мышью, появится диалоговое окно:

 

 

В появившемся окне в строке «Категория » наводим курсор на ▼, нажать левой кнопкой мыши, и выбрать в появившемся меню «Статистические », появится:

 

 

Выберите функцию СТЬЮДРАСПОБР:

 

 

и щелкните левой кнопкой мыши на OK, появится диалоговое окно:

 

 

 

В строку «Вероятность » введите число 0,05 – уровень значимости, в строку «Степени свободы » введите число 98, окно примет вид:

 

 

щелкните левой кнопкой мыши на OK, в ячейки появится число 1,984.

 

Так как то коэффициент корреляции значимо отличается от нуля, т.е. между переменными х и у существует линейная зависимость, хотя и слабая.

 

4. Проверяем на статистическую значимость параметры уравнения регрессии. Для оценки статистической значимости коэффициентов регрессии рассчитывается t – критерий Стьюдента и доверительные интервалы для них.

Нулевая гипотеза имеет вид Н0: к = 0, в = 0.

Конкурирующая гипотеза Н1:

Вычисляются наблюдаемые значения t – статистик по формулам:

Стандартные ошибки mk, mbберем из столбца «Стандартные ошибки», наблюдаемые значения tk,tb из столбца «t - статистика» в таблице «Вывод итогов». Критическая точка уже найдена. Так как и то нулевую гипотезу отвергаем, т.е. коэффициенты уравнения значимо отличаются от нуля.

 

5. Найдем интервальные оценки для параметров регрессии. Для расчета доверительных

интервалов определим предельную ошибку для каждого показателя:

Формулы для расчета доверительных интервалов имеют следующий вид:

В таблице «Вывод итогов » значения границ доверительных интервалов находятся

соответственно в столбиках «Нижние 95% » и «Верхние 95% ».

 

6. Оценивание качества уравнения регрессии состоит в проверке гипотезы Н0 о статистической

значимости уравнения регрессии. Для этого выполняется сравнение фактического (Fфак) и критического (табличного Fкрит) значений F – критерия Фишера. Значение Fфак находится в таблице «Вывод итогов » с заголовком «Дисперсионный анализ » в столбце F и определено по одной из следующих формул:

Значение Fкрит находим используя статистическую функцию FPACПОБР (вероятность; степени свободы 1; степени свободы 2). Для этого ставим курсор на f(x) и выполняем все что делали для выбора функции СТЬЮДРАСПОБР, только вместо функции СТЬЮДРАСПОБР выбираем функцию FPACПОБР, появиться диалоговое окно:

 

 

В строку «Вероятность » введите число 0,05 – уровень значимости, в строку «Степени свободы 1 » введите число 1, в строку «Степени свободы 2 » введите число 98, окно примет вид:

 

щелкните левой кнопкой мыши на OK, в ячейки появится число 3,938.

FPACПОБР (0,05;1;98)=3,938. Так как , то гипотеза Н0 отклоняется и признается статистическая значимость уравнения регрессии.

 

7. Вывод. Полученным уравнением у = -0.165 х + 82.047 можно пользоваться.

 

 

Примечание. Для улучшения расположения графика подбора (корреляционного поля и линии регрессии) в системе координат, проделайте следующее.

Установите курсор на область построения диаграммы, щелкните левой кнопкой мыши, появится в главном меню «Работа с диаграммами » с выделенным в главном меню командой «Макет ». В левом верхнем углу, под главным меню, появится «Область диаграмм »:

 

 

 

В «Области диаграмм » установите курсор на ▼, нажмите левой кнопкой мыши, и выберите в появившемся меню «Горизонтальная ось (значений) », в области диаграммы выделится фрагмент оси Ох. Далее установите курсор в левом верхнем углу главного меню на «Формат выделенного фрагмента » и щелкните левой кнопкой мыши, появиться диалоговое окно «Формат оси »:

 

В нем выбираем:

минимальное значение фиксированное – 10 (для данного примера),

максимальное значение фиксированное – 100 (для данного примера),

цена основных делений авто,

цена промежуточных делений авто.

Диалоговое окно примет вид:

 

 

Установите курсор на Закрыть, щелкните левой кнопкой мыши. График подбора примет вид:

 

 

Аналогично проделайте все для оси Оу, только вместо «Горизонтальная ось (значений) » выберите «Вертикальная ось (значений) ». После этого «График подбора » примет вид:

 

 

Для расширения области «График подбора » установите курсор на область диаграммы, щелкните левой кнопкой мыши. Установите курсор в правый нижний угол диаграммы, нажмите на левую кнопку мыши и не отпуская тяните вправо и вниз. «График подбора » примет вид:

 

 
 


Для соединения точек «Предсказанное у » установите курсор на эти точки (они красного цвета) и щелкните левой кнопкой мыши. Появится в главном меню «Работа с диаграммами » с выделенным в главном меню командой «Макет ». В левом верхнем углу, под главным меню, появится «Текущий фрагмент ». В нем выбрать «Формат выделенного фрагмента », появится диалоговое окно: «Формат ряда данных ».

 

 

В нем выберите «Тип линии » и «Составной тип ». Установите курсор на ▼ и выберите «Простая ». Диалоговое окно примет вид:

 

 

Установите курсор на Закрыть, щелкните левой кнопкой мыши. График подбора примет вид:

 

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-04-27 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: