Занятие 3
Статистическая проверка статистических гипотез
Цель. Научиться выдвигать и проверять статистическую гипотезу о виде распределения случайной величины.
Задание.
1. По виду гистограммы частот выдвинуть гипотезу о виде распределения случайной величины.
2. Проверить гипотезу о нормальном распределении случайной величины с использованием
а) показателей А и Е;
б) критерия (хи-квадрат), критерий Пирсона.
3. Построить полигон частот и теоретическую кривую на полигоне частот, записать ее аналитическое выражение.
4. Сделать вывод.
Выполнение.
1. Запустите Microsoft Exсel. По виду гистограммы частот выдвигаем гипотезу о нормальном распределении случайной величины.
2.а) Проверяем гипотезу о нормальном распределении случайной величины с использованием показателей А (асимметрия) и Е (эксцесс). Выписываем показатели Ав = -0,222, Е = 0,282, полученные на занятии 1.
Нулевая гипотеза имеет вид: Аг = 0, Ег = 0.
Конкурирующая гипотеза имеет вид:
Находим несмещенную оценку по формулам:
Вычисляем средние квадратичные отклонения для А* и Е* по формулам:
Проверяем выполнение неравенств:
Так как = 0,72, т.е. оба неравенства выполняются, то нулевая гипотеза принимается и значит случайная величина распределена нормально.
2.б) Для проверки гипотезы о нормальном распределении случайной величины по критерию Пирсона используется случайная величина хи-квадрат, распределенная по закону хи- квадрат со степенями свободы к = m – l – 1, где m - число интервалов,l - число параметров нормального распределения.
Наблюдаемое значение статистики (хи-квадрат) находится по формуле
где ni – наблюдаемая частота, соответствующая i -тому интервалу;
– теоретическая частота,
- теоретическая частота попадания случайной величины в интервал
Далее сравниваем с . находят по уровню значимости и
числу степеней свободы «к», используя статистическую функцию ХИ2ОБР (вероятность, степени свободы) в Ехсеl или по таблице «Критические точки распределения (хи-квадрат)» [2]. При выполнении неравенства гипотеза о нормальном распределении случайной величины принимается. Все вычисления удобнее выполнять в таблице 6 с использованием функции НОРМСТРАСП(z), причем Для нахождения значений функции НОРМСТРАСП(z) выделите пустую ячейку на листе, поставьте курсор на f(x) и щелкните левой кнопкой мыши, появится диалоговое окно:
В появившемся окне в строке «Категория» навести курсор на ▼, нажать левой кнопкой мыши, и выбрать в появившемся меню «Статистические», появится:
Выберите функцию НОРМСТРАСП(z):
и щелкните левой кнопкой мыши на OK, появится диалоговое окно:
В строку «Z » введите число 28,57 – левую границу второго интервала, окно примет вид:
Щелкните левой кнопкой мыши на OK, в ячейки появиться число 0,0093. Значения функции в остальных границ интервалов находятся аналогично.
Замечание.
Можно вычисления выполнять в таблице 5 с использованием функции Лапласа ее значения находят по таблице [2], причем
Таблица 5
Вычисление теоретических частот и значения
Но-мер ин- тер- вала | Границы интервалов | Час- то- ты | Нормиро-ванные значения границ интер- валов | Значения Функции Лапласа | Ве- роят- ность | Теоре- тичес- кие час- тоты | (ni – ni1)^2/ni1 | |||
Ni | Xi | Xi+1 | ni | Zi | Zi+1 | Ф(zi) | Ф(zi+1) | Pi | Ni1 | |
[1] | [2] | [3] | [4] | [5] | [6] | [7] | [8] | [9] | [10] | [11] |
14,03 | 28,57 | - | -2,35 | 0,0093 | 0,0093 | 0,932 | 0,005 | |||
28,57 | 43,11 | -2,35 | -1,18 | 0,0093 | 0,1186 | 0,1093 | 10,929 | 0,001 | ||
43,11 | 57,65 | -1,18 | -0,01 | 0,1186 | 0,4955 | 0,3769 | 37,689 | 0,583 | ||
57,65 | 72,19 | -0,01 | 1,16 | 0,4955 | 0.8769 | 0,3814 | 38,135 | 2,061 | ||
72,19 | 86,73 | 1,16 | 2,33 | 0.8769 | 0,9901 | 0,1132 | 11,324 | 1.651 | ||
86,73 | 101,27 | 2,33 | 0,9901 | 0.0099 | 0,99 | 0.000 | ||||
Сумма | 4,301 |
Таблица 6
Вычисление теоретических частот и значения
Но-мер ин- тер- вала | Границы интервалов | Час- то- ты | Нормиро- ванные значения границ интер- валов | Значения Функции Лапласа | Ве- роят- ность | Теоре- тичес- кие час- тоты | (ni – ni1)^2/ni1 | |||
Ni | Xi | Xi+1 | ni | Zi | Zi+1 | Ф(zi) | Ф(zi+1) | Pi | Ni1 | |
[1] | [2] | [3] | [4] | [5] | [6] | [7] | [8] | [9] | [10] | [11] |
14,03 | 28,57 | - | -2,35 | -0,5 | -0,4905 | 0,0095 | 0,95 | 0,0026 | ||
28,57 | 43,11 | -2,35 | -1,18 | -0,4905 | -0,381 | 0,1095 | 10,95 | 0,0002 | ||
43,11 | 57,65 | -1,18 | -0,01 | -0,381 | -0,004 | 0,377 | 37,7 | 0,5859 | ||
57,65 | 72,19 | -0,01 | 1,16 | -0,004 | 0.377 | 0,381 | 38,1 | 2,0790 | ||
72,19 | 86,73 | 1,16 | 2,33 | 0.377 | 0,4905 | 0,1135 | 11,35 | 1.6672 | ||
86,73 | 101,27 | 2,33 | 0,4905 | 0,5 | 0.0095 | 0,95 | 0.0026 | |||
Сумма | 4,3376 |
Наблюдаемое значение находим, используя статистическую функцию ХИ2ОБР (вероятность, степени свободы) в Ехсеl или по таблице «Критические точки распределения (хи-квадрат)» [2].
Для нахождения с использованием статистической функции ХИ2ОБР (вероятность, степени свободы). Для этого в Ехсеl наводим курсор на f(x) и выполняем все, что делали для выбора функции НОРМСТРАСП(z), только вместо функции НОРМСТРАСП(z) выбираем функцию ХИ2ОБР, появиться диалоговое окно:
В строку «Вероятность » введите число 0,05 – уровень значимости, в строку «Степени свободы » введите число 3, окно примет вид:
щелкните левой кнопкой мыши на OK, в ячейки появиться число 7,8.
Так как , следовательно, нет основания отвергать гипотезу о нормальном распределении случайной величины.
3. Для построения полигона частот и теоретической кривой на полигоне частот создать таблицу с серединами интервалов , частотами и теоретическими частотами
Таблица 7
Середины интервалов | Частоты | Теоретические частоты |
21,3 | 0,9 | |
35,84 | 1,9 | |
50,38 | 37,7 | |
64,92 | 48,1 | |
79,46 | 11,3 | |
Выберите в главном меню «Вставка », в меню появится «Диаграммы »:
Выделите в таблице 7 все три столбца и в «Диаграммы » выберите «Точечная » и нажмите левой кнопкой мыши, появиться подменю:
Выберите тип диаграммы расположенный в первой строке и в третьем столбце, нажмите левой кнопкой мыши, появится график:
Установите курсор на графике частот и щелкните левой кнопкой мыши. В главном меню выберите «Изменить тип диаграммы », щелкните левой кнопкой мыши, появится диалоговое окно:
Выберите тип диаграммы «Точечная с прямыми отрезками и маркерами » (четвертый вид в строке «Точечная »), нажмите левой кнопкой мыши. Щелкните левой кнопкой мыши на OK, график примет вид:
Полигон частот и теоретическая кривая.
Аналитическое выражение теоретической кривой имеет вид:
; .
4. Вывод. Случайная величина распределена по нормальному закону.
Занятие 4
Линейная парная регрессия
Цель. Овладеть методикой получения уравнения линейной регрессии обоснования возможности его применения для практики.
Задание.
- По данным выборки построить корреляционное поле и линию регрессии на нем.
- Вычислить оценки параметров уравнения линейной регрессии у = к х + в.
- Вычислить коэффициент парной корреляции ® и оценить его на значимость.
- Проверить на статистическую значимость параметры уравнения регрессии.
- найти интервальные оценки для параметров уравнения регрессии.
- Проверить уравнение регрессии на значимость по критерию Фишера.
- Сделать вывод.
Выполнение.
Открыть в Ехсеl тот лист, на котором находятся Ваши данные (столбцы с Х и У).
Установит курсор на пункт «Данные » в главном меню и щелкните левой кнопкой мыши, затем выберите «Анализ данных », щелкните мышью, появится диалоговое окно:
Установите курсор на команду «Регрессия »
и щелкните мышью на ОК в диалоговом окне, появится окно:
А) введите в строку «Входной интервал У »: массив У (В2:В101);
Б) введите в строку «Входной интервал Х »: массив Х (А2:А101);
В) выделите флажки «Новый рабочий лист », \/ «График подбора », окно примет вид:
Щелкните левой кнопкой мыши на OK.
На листе появится информация:
Для чтения информации на этом листе следует расширить столбцы А,В,С,D,E,F,G. Для этого навести курсор на черточку между А и В, нажать на левую кнопку мыши и не отпуская вести вправо. Аналогично расширяются остальные столбцы. После этого информация примет вид:
ВЫВОД ИТОГОВ
Регрессионная статистика | |
Множественный R | 0,28071 |
R-квадрат | 0,078798 |
Нормированный R-квадрат | 0,069398 |
Стандартная ошибка | 7,027121 |
Наблюдения |
Дисперсионный анализ | |||||
df | SS | MS | F | Значимость F | |
Регрессия | 413,9455 | 413,9455 | 8,382785 | 0,004670444 | |
Остаток | 4839,282 | 49,38043 | |||
Итого | 5253,228 |
Коэффи- циенты | Станда-ртная ошибка | t-статистика | P- Значение | Нижние 95% | Верхние 95% | Нижние 95,0% | Верхние 95,0% | |
Y-пере-сечение | 82,04784 | 3,35654 | 24,44418025 | 1,71576 | 75,38689 | 88,70878 | 75,38689 | 88,70878 |
Пере- менная X1 | -0,16508 | 0,057017 | -2,895303993 | 0,00467 | -0,278228 | -0,05193 | -0,278228 | -0,05193 |
2. Анализируем таблицу «Вывод итогов».
В таблице находим столбец с заголовком «Коэффициенты ». В соответствующих строках
этого столбца находим значение в = 82.047 (У –пересечение) и к = -0,165 (переменная Х1). Записываем уравнение регрессии у = -0,165 х + 82.047. Коэффициенты «в» и «к» вычисляются по формулам:
3. Из таблицы с заголовком «Регрессионная статистика» находим значение парного коэффициента корреляции rxy = -0,28 (в таблице множественный R). Следует учесть, что в таблице коэффициент множественный R всегда со знаком «+ ». На деле знак rxy cовпадает со знаком «к» уравнения регрессии. В данном примере к = -0,165, поэтому rxy взят со знаком минус. Коэффициент корреляции вычисляется по любой из следующих формул:
R – квадрат = 0,08 – коэффициент детерминации, выраженный в процентах R2 =8%, означает, что 8% вариации признака У объясняется вариацией фактора Х.
3.1. Оценка на значимость коэффициента парной корреляции.
Требуется проверить нулевую гипотезу Н0: R = 0 о равенстве нулю генерального коэффициента корреляции при конкурирующей гипотезе Н1:
Оценка значимости коэффициента корреляции с помощью t – критерия Стьюдента проводится путем сопоставления его значения с величиной случайной ошибки
Используя статистическую функцию СТЬЮДРАСПОБР (вероятность, степени свободы) находим или по таблице «Критические точки распределения Стьюдента» [2]. Для нахождения используя статистическую функцию СТЬЮДРАСПОБР (вероятность, степени свободы), выделить пустую ячейку на листе, поставить курсор на f(x) и щелкнуть мышью, появится диалоговое окно:
В появившемся окне в строке «Категория » наводим курсор на ▼, нажать левой кнопкой мыши, и выбрать в появившемся меню «Статистические », появится:
Выберите функцию СТЬЮДРАСПОБР:
и щелкните левой кнопкой мыши на OK, появится диалоговое окно:
В строку «Вероятность » введите число 0,05 – уровень значимости, в строку «Степени свободы » введите число 98, окно примет вид:
щелкните левой кнопкой мыши на OK, в ячейки появится число 1,984.
Так как то коэффициент корреляции значимо отличается от нуля, т.е. между переменными х и у существует линейная зависимость, хотя и слабая.
4. Проверяем на статистическую значимость параметры уравнения регрессии. Для оценки статистической значимости коэффициентов регрессии рассчитывается t – критерий Стьюдента и доверительные интервалы для них.
Нулевая гипотеза имеет вид Н0: к = 0, в = 0.
Конкурирующая гипотеза Н1:
Вычисляются наблюдаемые значения t – статистик по формулам:
Стандартные ошибки mk, mbберем из столбца «Стандартные ошибки», наблюдаемые значения tk,tb из столбца «t - статистика» в таблице «Вывод итогов». Критическая точка уже найдена. Так как и то нулевую гипотезу отвергаем, т.е. коэффициенты уравнения значимо отличаются от нуля.
5. Найдем интервальные оценки для параметров регрессии. Для расчета доверительных
интервалов определим предельную ошибку для каждого показателя:
Формулы для расчета доверительных интервалов имеют следующий вид:
В таблице «Вывод итогов » значения границ доверительных интервалов находятся
соответственно в столбиках «Нижние 95% » и «Верхние 95% ».
6. Оценивание качества уравнения регрессии состоит в проверке гипотезы Н0 о статистической
значимости уравнения регрессии. Для этого выполняется сравнение фактического (Fфак) и критического (табличного Fкрит) значений F – критерия Фишера. Значение Fфак находится в таблице «Вывод итогов » с заголовком «Дисперсионный анализ » в столбце F и определено по одной из следующих формул:
Значение Fкрит находим используя статистическую функцию FPACПОБР (вероятность; степени свободы 1; степени свободы 2). Для этого ставим курсор на f(x) и выполняем все что делали для выбора функции СТЬЮДРАСПОБР, только вместо функции СТЬЮДРАСПОБР выбираем функцию FPACПОБР, появиться диалоговое окно:
В строку «Вероятность » введите число 0,05 – уровень значимости, в строку «Степени свободы 1 » введите число 1, в строку «Степени свободы 2 » введите число 98, окно примет вид:
щелкните левой кнопкой мыши на OK, в ячейки появится число 3,938.
FPACПОБР (0,05;1;98)=3,938. Так как , то гипотеза Н0 отклоняется и признается статистическая значимость уравнения регрессии.
7. Вывод. Полученным уравнением у = -0.165 х + 82.047 можно пользоваться.
Примечание. Для улучшения расположения графика подбора (корреляционного поля и линии регрессии) в системе координат, проделайте следующее.
Установите курсор на область построения диаграммы, щелкните левой кнопкой мыши, появится в главном меню «Работа с диаграммами » с выделенным в главном меню командой «Макет ». В левом верхнем углу, под главным меню, появится «Область диаграмм »:
В «Области диаграмм » установите курсор на ▼, нажмите левой кнопкой мыши, и выберите в появившемся меню «Горизонтальная ось (значений) », в области диаграммы выделится фрагмент оси Ох. Далее установите курсор в левом верхнем углу главного меню на «Формат выделенного фрагмента » и щелкните левой кнопкой мыши, появиться диалоговое окно «Формат оси »:
В нем выбираем:
минимальное значение фиксированное – 10 (для данного примера),
максимальное значение фиксированное – 100 (для данного примера),
цена основных делений авто,
цена промежуточных делений авто.
Диалоговое окно примет вид:
Установите курсор на Закрыть, щелкните левой кнопкой мыши. График подбора примет вид:
Аналогично проделайте все для оси Оу, только вместо «Горизонтальная ось (значений) » выберите «Вертикальная ось (значений) ». После этого «График подбора » примет вид:
Для расширения области «График подбора » установите курсор на область диаграммы, щелкните левой кнопкой мыши. Установите курсор в правый нижний угол диаграммы, нажмите на левую кнопку мыши и не отпуская тяните вправо и вниз. «График подбора » примет вид:
Для соединения точек «Предсказанное у » установите курсор на эти точки (они красного цвета) и щелкните левой кнопкой мыши. Появится в главном меню «Работа с диаграммами » с выделенным в главном меню командой «Макет ». В левом верхнем углу, под главным меню, появится «Текущий фрагмент ». В нем выбрать «Формат выделенного фрагмента », появится диалоговое окно: «Формат ряда данных ».
В нем выберите «Тип линии » и «Составной тип ». Установите курсор на ▼ и выберите «Простая ». Диалоговое окно примет вид:
Установите курсор на Закрыть, щелкните левой кнопкой мыши. График подбора примет вид: