Проверка гипотезы нормальности распределения по различным методикам




Отсев грубых погрешностей на примере

 

Для выборки, представленной в таблице 1.1 (n = 25), необходимо провести отсев грубых погрешностей.

1. Отсев грубых погрешностей методом максимального относительного отклонения:

а) вычисляем среднее значение выборки:

 

 

б) вычисляем среднеквадратичное отклонение:

 

 

 

в) определяем статистику для крайних (наибольшего или наименьшего) элементов выборки:

- для наибольшего элемента выборки

 

 

- для наименьшего элемента выборки

 

 

г) определяем табличное значение статистики (Приложение) при доверительной вероятности q = 0,95 или уровне значимости 0,05

 

 

д) сравниваем найденные значения статистики с табличным значением

 

2,06 < 2,62 - наблюдение отсеивать нельзя

 

1,42 < 2,62 - наблюдение отсеивать нельзя

 

2 Отсев грубых погрешностей для выборок малых объемов. Возьмем выборку n=10 и представим ее в виде вариационного ряда (таблица 3.1).

 

Таблица 3.1 – Значения выборки

                   
xi 0,15 0,34 0,99 1,11 1,57 2,23 2,34 2,34 2,48 4,15

 

По формуле 3.5 вычислим значение τ. Для этого необходимо вычислить

среднеквадратичное отклонение по формуле 3.2.

Данные необходимые для вычисления приведем в таблице 3.2.

 

Таблица 3.2 - Данные для вычисления

xi
  0,15 -1,62 2,624
  0,34 -1,43 2,045
  0,99 -0,78 0,608
  1,11 -0,66 0,436
  1,57 -0,2 0,04
  2,23 0,46 0,212
  2,34 0,57 0,325
  2,34 0,57 0,325
  2,48 0,71 0,504
  4,15 2,38 5,664
17,7   12,783

 

 

 

 

Определяем статистику для крайних (наибольшего или наименьшего) элементов выборки по формуле:

 

 

- для наибольшего элемента выборки

 

 

- для наименьшего элемента выборки

 

 

г) определяем табличное значение статистики (Приложение) при доверительной вероятности q = 0,95 или уровне значимости 0,05

 

 

д) сравниваем найденные значения статистики с табличным значением

 

1,315 < 2,29 - наблюдение отсеивать нельзя

 

0,895 < 2,29 - наблюдение отсеивать нельзя.

 

3 Отсев грубых погрешностей для выборок большого объема (использование таблиц распределения Стьюдента).

Для выборки, представленной в таблице 1.1 (n = 20), необходимо провести отсев грубых погрешностей с использованием таблиц распределения Стьюдента.

Определяем среднее значение для данной выборки, отклонение от среднего для каждого члена выборки и среднеквадратичное отклонение. Все результаты вычисления сведем в таблицу 3.3.

 

Таблица 3.3 - Данные для вычисления ,

  9,81 5,734 32,879   6,72 2,644 6,991
  2,34 -1,736 3,0137   5,15 1,074 1,153
  6,55 2,474 6,121   0,34 -3,736 13,958
  0,15 -3,926 15,413   2,23 -1,846 3,408
  8,63 4,554 20,739   4,85 0,774 0,599
  7,11 3,034 9,205   5,01 0,934 0,872
  1,57 -2,506 6,280   4,15 0,074 0,005
  2,34 -1,736 3,014   1,11 -2,966 8,797
  5,55 1,474 2,173   2,48 -1,596 2,547
  0,99 -3,086 9,523   4,44 0,364 0,132
81,52   146,824

 

 

 

 

 

Из таблицы 3.3 выберем наблюдения, имеющие наибольшее и наименьшее отклонения:

 

 

 

Вычисляем τ для по формуле (3.7).

 

 

 

По таблице (Приложение) находим процентные точки t -распределения Стьюдента для 5% и 0,1% и соответствующем объеме выборки (n =20).

 

t(0,1; 18) = 3,6105 t(5; 18) = 1,7341

 

Вычисляем соответствующие точки критического значения по формуле (3.8) и (3.9):

 

 

 

 

Полученные сравниваем с и делаем соответствующие выводы.

 

 

 

Тогда, для максимального значения выборки выполняется условие

1,6491<2,061<2,825 – решение об отсеве данного наблюдения принимается экспериментатором.

Для минимального значения выборки выполняется условие 1,412<1,6491 – наблюдение отсеивать не нужно.

Практическое занятие №4. Методики проверки гипотезы нормальности распределения.

Основные понятия и определения

 

При обработке экспериментальных данных в науке и технике обычно предполагают нормальный закон распределения случайных величин.

Свойства нормально распределенной случайной величины x:

- ;

- плотность вероятности является непрерывной функцией;

- центр распределения случайной величины одновременно является центром симметрии;

- малые отклонения встречаются чаще больших (с большей вероятностью).

Наиболее полной характеристикой случайной величины является закон распределения вероятностей случайной величины, который связывает данное значение случайной величины с вероятностью появления его (т.е. этого значения) в опыте. Наиболее распространенным является закон распределения, получивший название нормального. В аналитическом виде этот закон выражается известным уравнением Гаусса:

 

, (4.1)

 

где - плотность вероятностей при данном значении х.

Графически это уравнение имеет вид колоколообразной кривой, которая симметрична относительно центра распределения, которым является Мх (максимум функции ) и концы которой уходят в ±¥, асимптотически приближаясь к горизонтальной оси х и не достигая ее.

При обработке экспериментальных данных если закон распределения генеральной совокупности, из которой взята наша выборка, неизвестен, то первое, что надо сделать - это проверить распределение в выборке на нормальность, т.е. соответствие закону нормального распределения.

Предположение о подчинении выборки на соответствие закону нормального распределения можно сделать:

1. По коэффициенту вариации (2.13).

Если коэффициент вариации превышает 33%, говорить о нормальности распределения данных выборки нельзя.

Предварительный анализ с помощью коэффициента вариации дает самую грубую оценку.

2. По коэффициентам эксцесса и ассиметрии (2.11 - 2.12).

Для нормально распределенной случайной величины коэффициенты эксцесса и асимметрии равны 0. Поэтому, если соответствующие эмпирические величины достаточно малы, можно предположить, что генеральная совокупность распределена по нормальному закону.

3. По несмещенным оценкам для показателей асимметрии и эксцесса.

Для этого необходимо определить несмещенные оценки для показателей асимметрии и эксцесса по формулам 4.2 и 4.3 соответственно:

(4.2)

 

(4.3)

 

Определяют среднеквадратические отклонения для показателей асимметрии и эксцесса по формулам 4.4 и 4.5 соответственно:

 

(4.4)

 

(4.5)

 

 

Проверяют условия:

 

(4.6)

 

(4.7)

 

Если условия выполняются, то гипотеза нормальности распределения принимается

4. Для не очень больших выборок (n <120) можно вычислить среднее абсолютное отклонение (САО):

 

, (4.8)

 

где n – объем выборки;

- среднее значение выборки.

Для выборки, имеющей приближенно нормальный закон распределения, должно выполняться условие:

 

(4.9)

 

5. Проверку гипотезы нормальности распределения для сравнительно широкого класса выборок (3< n <1000) можно выполнить с помощью метода, основанного на размахе варьирования R.

Подсчитывают отношение , где R – размах варьирования (ширина интервала), - несмещенной оценки дисперсии теоретического распределения (2.6) и сопоставляют с критическими верхними и нижними границами этого отношения (Приложение).

Если данное отношение меньше нижней границы или больше верхней границы, то нормального распределения нет. Как правило это условие проверяется при 10%-ном уровне значимости.

6. Проверку гипотезы нормальности распределения можно провести по критерию χ2.

Для этого необходимо:

- разбить массив исходных данных на классы по формуле 1.1.

- определить середины классов x по формуле 1.4.

- подсчитать частоты для всех классов В (наблюдаемая абсолютная частота);

- вычислить для всех классов Вх и Вх2;

- определить по формулам:

 

(4.10)

 

(4.11)

 

- вычислить

 

(4.12)

- определить

 

(4.13)

 

 

- формируют с помощью таблицы (ординаты стандартной нормальной кривой) вектор столбец f(z);

н) вычисляют для всех классов f(z)k, , , где Е= f(z)k' ожидаемая по стандартному нормальному распределению частота.

Если в каком-либо классе число наблюдений окажется меньше четырех, то его объединяют с соседним классом (классами) так, чтобы число наблюдений в таком объединенном классе оказалось большим или равным четырем.

о) вычисляют χ2 по формуле (4.14)

п) проверяют, используя таблицу (процентные точки распределения χ2) условие χ2< χ2(ν;p), где ν = nкл -1 -2; p=0,10

 

 

Проверка гипотезы нормальности распределения по различным методикам

 

Выборку представленную в таблице 4.1 проверим на подчинение нормальному закону распределения используя различные методики.

 

Таблица 4.1 – Таблица значений выборки (наблюдений)

№ значения выборки Значения выборки (х) № значения выборки Значения выборки (х)
       
       
       
       
       
       
       
       
       
       

 

Вычислим основные выборочные характеристики. Вычисления будем производить в табличной форме (таблица 4.2).

 

 

 

Таблица 4.2 – Данные для вычисления выборочных характеристик

    10,05 101,00 1015,05 10201,00
    -11,95 142,80 -1706,46 20391,84
    -15,95 254,40 -4057,68 64719,36
    4,05 16,04 64,96 257,28
    -7,95 63,20 -502,44 3994,24
    -19,95 398,00 -7940,1 158404,00
    -13,95 194,60 -2714,67 37869,16
    6,05 36,60 221,43 1339,56
    -5,95 35,40 -210,63 1253,16
    -0,95 0,90 -0,855 0,81
    1,05 1,10 1,155 1,21
    14,05 197,40 2773,47 38966,76
    3,05 9,30 28,365 86,49
    9,05 81,90 741,195 6707,61
    17,05 290,70 4956,43 84506,49
    -9,95 99,00 -985,05 9801,00
    27,05 731,70 19792,48 535384,89
    -2,95 8,70 -25,66 75,69
    -1,95 3,80 -7,41 14,44
    0,05 0,0025 0,000125 0,000006
    2666,54 11443,57 973974,99

 

 

 

 

 

 

 

 

 

1. По коэффициенту вариации.

Вычислим коэффициент вариации по формуле 2.13:

 

 

. Следовательно выборка подчиняется нормальному закону распределения.

 

2. По коэффициентам эксцесса и ассиметрии.

Вычислим коэффициент асимметрии по формуле 2.12:

 

 

Так как g1 = 0,37 ≠ 0. Следовательно, некоторая асимметрия имеет место.

Вычислим коэффициент эксцесса по формуле 2.11:

 

 

Так как g2 = -0,26<0. Имеется небольшой эксцесс.

 

3. По несмещенным оценкам для показателей асимметрии и эксцесса.

Для этого необходимо определить несмещенные оценки для показателей асимметрии и эксцесса по формулам 4.2 и 4.3 соответственно:

 

 

 

Определим среднеквадратические отклонения для показателей асимметрии и эксцесса по формулам 4.4 и 4.5 соответственно:

 

 

 

Проверяем условия:

 

 

 

Условия выполняются, гипотеза нормальности распределения может быть принята.

 

4. По среднему абсолютному отклонению (САО)

 

Данные для вычисления САО приведены в таблице 4.3.

 

Таблица 4.3 - Данные для вычисления САО

    10,05 10,05 101,00     1,05 1,05 1,10
    -11,95 11,95 142,80     14,05 14,05 197,40
    -15,95 15,95 254,40     3,05 3,05 9,30
    4,05 4,05 16,04     9,05 9,05 81,90
    -7,95 7,95 63,20     17,05 17,05 290,70
    -19,95 19,95 398,00     -9,95 9,95 99,00
    -13,95 13,95 194,60     27,05 27,05 731,70
    6,05 6,05 36,60     -2,95 2,95 8,70
    -5,95 5,95 35,40     -1,95 1,95 3,80
    -0,95 0,95 0,90     0,05 0,05 0,0025
Сумма       2666,54

 

 

 

 

Вычислим среднее абсолютное отклонение (САО).

 

 

Проверяем условие

 

 

 

 

, условие выполняется, следовательно гипотеза нормальности распределения выборки принимается.

 

5. По размаху варьирования.

 

Вычислим отношение .

 

 

 

Критическая нижняя граница данного отношения при 10% уровне значимости равна 3,29

Критическая верхняя граница данного отношения при 10% уровне значимости равна 4,32

Сравниваем полученное значение отношения с критическими значениями верхней и нижней границ.

 

3,29<3,97< 4,32

 

Так как значение отношения больше нижней границы критического значения и меньше значения верхней границ, следовательно гипотеза нормальности распределения выборки по данному методу принимается.

 

6. По критерию χ2.

 

Проверку гипотезы нормальности распределения по критерию χ2 будем проводить для выборки представленной в таблице 4.1.

Разбиваем массив исходных данных (наблюдений) на классы по формуле 1.1.

 

 

Определим ширину класса по формуле (1.2). Результат вычисления округляем до ближайшего целого.

 

 

Определим середины классов x по формуле 1.4.

 

 

 

 

 

 

Подсчитаем частоты для всех классов В.

При этом значения хi попавшие на границу между (k-1) и k классами, будем относить к k -му классу.

Вычислим для всех классов Вх и Вх2. Расчеты представим в табличной форме (таблица 4.4)

Определим по формулам 4.10 - 4.11.

 

 

 

Вычислим и по формулам 4.12 – 4.13.

 

 

С помощью таблицы ординаты стандартной нормальной кривой сформируем вектор столбец f(z).

Вычислим для всех классов f(z)k, , и χ2 по формуле 4.14.

Проверяем, используя таблицу (процентные точки распределения χ2) условие χ2< χ2(ν;p), где ν = nкл -1 -2; p=0,10.

 

χ2(1;0,12)=2,706

 

χ2 = 0,184 0,184<2,706

 

Условие выполняется, гипотеза о том, что наблюдаемые частоты распределены нормально принимается на 10%-ном уровне.

 

 


 

Таблица 4.4 – Процедура вычисления критерия χ2

 

№ класса Середины классов x Частоты В       х2     Вх     Вх2       Ордината f(z)     f(z)k     Е          
                           
            -16,4 1,47 0,1354 1,94   6,26   0,74   0,548   0,087
            -8,4 0,75 0,3011 4,32
            -0,4 0,04 0,3986 5,72 5,72 0,28 0,078 0,014
            7,6 0,68 0,3166 4,54 4,54 -0,54 0,292 0,064
            15,6 1,40 0,1497 2,15 2,77 0,23 0,053 0,019
            23,6 2,11 0,0431 0,62
                  0,184

 

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-12-29 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: