Тема 3: Моменты распределения. Асимметрия и эксцесс.
Моментом распределения называется средняя величина отклонений определенной степени от какого-либо числа. Если это число - средняя арифметическая, то моменты называются центральными. Если отклонения отсчитываются от произвольно выбранного начала, то они называются условными. Если же это число равно нулю, то моменты распределения называются начальными.
Формула момента распределения имеет вид:
На основе момента третьего порядка можно построить показатель, характеризующий степень асимметричности распределения, который называют коэффициентом асимметрии As.
Оценка степени существенности этого показателя дается с помощью средней квадратической ошибки, которая зависит от объема наблюдений п и рассчитывается по формуле:
Если отношение , асимметрия существенна, а если , несущественна, ее наличие может быть объяснено влиянием различных обстоятельств.
Английский статистик К. Пирсон на основе разности между средней величиной и модой предложил другой показатель – коэффициент асимметрии Пирсона:
При симметричном (нормальном) распределении , следовательно, коэффициент асимметрии равен нулю. Если Аs > 0, то имеется правосторонняя асимметрия. Если As < 0, то - левосторонняя асимметрия.
С помощью момента четвертого порядка характеризуется еще более сложное свойство рядов распределения, чем асимметрия, называемое эксцессом.
Часто эксцесс интерпретируется как «крутизна» или «островершинность» распределения. При симметричном распределении Ех = 0. Если Ех > 0, распределение является островершинным; если Eх < 0 - плосковершинным.
Задача 36.
По приведенному ниже ряду распределения требуется выполнить следующие задания:
1) Рассчитать среднее значение признака, моду, медиану;
2) Вычислить показатели асимметрии и эксцесса.
Сформулировать выводы.
Распределение автомобилей по величине межремонтного пробега
Величина межремонтного пробега, тыс.км | Число автомобилей |
80 – 100 | |
100 – 120 | |
120 – 140 | |
140 – 160 | |
160 – 180 | |
Итого |
Тема 5: Выравнивание вариационных рядов (построение теоретических распределений).
Наиболее часто используются законы распределения нормальный и Пуассона.
График нормального распределения имеет форму колоколообразной кривой, симметричной относительно , концы которой асимптотически приближаются к оси абсцисс. Она имеет точки перегиба, абсциссы которых находятся на расстоянии s от центра симметрии. Эта кривая выражается уравнением:
где у – ордината кривой нормального распределения;
- нормированные отклонения.
При выравнивании вариационного ряда по кривой нормального распределения теоретические частоты ряда определяются по формуле
где N= åf – сумма всех частот вариационного ряда;
h – величина интервала в группах (классах);
s - среднее квадратическое отклонение;
- нормированное отклонение вариантов от средней арифметической.
Значение ординат кривой нормального распределения будет соответствовать величине , которая табулирована и определяется по таблицам значений данной функции j(t) (приложение 1).
Распределение Пуассона. В целом ряде случаев, если вариационный ряд представляет собой распределение по дискретному признаку, где по мере увеличения значений признака х частоты резко уменьшаются и где средняя арифметическая ряда равна или близка по значению к дисперсии, т.е. =s2, то такой ряд можно выровнять по кривой Пуассона, аналитическое выражение которой
где Рх – вероятность наступления отдельных значений х;
а = – средняя арифметическая ряда.
Теоретические частоты при выравнивании эмпирических данных определяются по формуле:
f’ =N Px,
где f ’ - теоретические частоты;
N – общее число единиц ряда.
После выравнивания ряда, т.е. нахождения теоретических частот, возникает необходимость проверить, случайны или существенны расхождения между эмпирическими и теоретическими частотами, и тем самым проверить правильность выдвинутой при выравнивании ряда гипотезы о наличии того или иного характера распределения в эмпирическом ряду.
Для оценки близости эмпирических (f) и теоретических (f ’ ) частот можно применить один из критериев согласия: критерий Пирсона (c2 – «хи-квадрат»), критерий Романовского, критерий Колмогорова (l - «лямбда»).
Критерий Пирсона (c2) представляет собой сумму отношений квадратов расхождений между f и f ‘ к теоретическим частотам:
.
Фактическое значение c2 сравнивают с критическим, определяемым по специальным таблицам (приложение 2) в зависимости от принимаемого уровня значимости и числа степеней свободы.
Уровень значимости (a) – вероятность допуска ошибки в утверждении гипотетического закона (характера) распределения – обычно принимается равным 5 % (a=0,05).
Число степеней свободы (k) рассчитывается: k = m – 1 – b
Где m – число групп в ряду распределения; b - число параметров эмпирического распределения, использованных для нахождения теоретических частот. Так, при выравнивании по кривой нормального распределения число степеней свободы k = m – 1 – 2, поскольку при расчете теоретических частот используется два параметра эмпирического распределения (b=2: и s), т.е. k = m –3. для закона Пуассона b = 1 (а = )
Если фактическое c2 оказывается меньше табличного (критического), то расхождения между эмпирическими и теоретическими частотами можно считать случайными.
Критерием Романовского:
Если указанное отношение меньше 3, то расхождения считают случайными, если больше 3, то они существенны.
Критерий Колмогорова (l) основан на определении максимального расхождения между накопленными частотами эмпирического и теоретического распределений:
где D – максимальная разность между накопленными частотами ;
N – сумма всех частот.
Далее по таблицам находится Р(λ) (приложение 3). Чем вероятность ближе к 1, тем увереннее мы можем утверждать, что расхождения между частотами случайны.
На основании полученных значений критериев согласия делаются выводы о близости эмпирических и теоретических частот, таким образом, подтверждается или опровергается гипотеза о наличии того или иного характера распределения в эмпирическом ряду.
Пример1.
Пусть имеется следующее распределение 200 проб нити по крепости (графы 1 и 2 таблицы).
Исходя из гипотезы о нормальном распределении результатов испытаний необходимо выравнять ряд по кривой нормального распределения (т.е. рассчитать теоретические частоты) и оценить близость эмпирических и теоретических частот с помощью критериев согласия: Пирсона (c2), Романовского и Колмогорова (l).
Крепость нити, г | Число проб | Середина интервала | j(t) | 154*j(t)» f ‘ | ||
120 – 130 | -36,4 | -2,80 | 0,008 | |||
130 – 140 | -26,4 | -2,03 | 0,051 | |||
140 – 150 | -16,4 | -1,26 | 0,180 | |||
150 – 160 | -6,4 | -0,49 | 0,354 | |||
160 – 170 | 3,6 | 0,28 | 0,384 | |||
170 – 180 | 13,6 | 1,05 | 0,230 | |||
180 – 190 | 23,6 | 1,82 | 0,076 | |||
190 – 200 | 33,6 | 2,58 | 0,014 | |||
Итого | - | - | - | - |
Для нахождения теоретических частот используем формулу:
, или
где - нормированные отклонения от средней, т.е. и s - основные параметры кривой нормального распределения.
С них и начнем свои расчеты. Опуская вычисления, запишем результаты:
1) = 161,4;
2) s = 13.
Дальнейшие расчеты таковы:
3) находим отклонения отдельных вариантов от средней (графа 4);
4) делим каждое отклонение на s, т.е. находим нормированные отклонения (графа 5);
5) зная t, находим по таблицам j(t) (графа 6);
6) рассчитаем постоянный множитель const = Nh/s. В нашем примере const = 200*10/13 = 154;
7) умножая последовательно 154 на j(t) и округляя результаты до целых чисел, находим теоретические частоты (графа 7).
Как видно из таблицы, теоретические частоты (f ‘), близки к эмпирическим (f), хотя отдельные расхождения имеют место.
Для суждения о случайности или существенности этих расхождений используем ряд критериев согласия:
1. Критерий Пирсона:
Расчет этого критерия рассмотрен в таблице:
f | f ‘ | f – f ‘ | (f – f ‘)2 | (f – f ‘)2/f ‘ |
-1 | 0,04 | |||
0,16 | ||||
-3 | 0,15 | |||
-1 | 0,03 | |||
0,33 | ||||
- | - | c2 = 0,71 |
В рассматриваемом примере ряд имеет 8 групп (классов) вариантов, следовательно, и 8 групп частот. Поэтому число степеней свободы для последних (при выравнивании по кривой нормального распределения) k = 8 – 3 = 5. Примем наиболее часто используемый уровень значимости a = 0,05 и обратимся к таблицам («Значения c2 – критерия Пирсона» при различных значениях уровня значимости (0,05; 0,01 и т.д.)).
По таблицам значений c2- критерия Пирсона для степеней свободы k = 5 и уровня значимости a = 0,05 определяем, что c2табл.= 11,07. Так как полученное в задаче фактическое значение c2факт.= 0,71, т.е. меньше табличного, то, следовательно, можно считать случайными расхождения между эмпирическими и теоретическими частотами и выдвинутая гипотеза о близости эмпирического распределения к нормальному принимается.
2. Применим критерий Романовского:
Поскольку 1,4< 3, то можно считать расхождения между эмпирическими и теоретическими частотами случайными.
3. Попробуем проверить нашу гипотезу с помощью критерия Колмогорова (). Для этого запишем накопленные частоты эмпирического и теоретического распределений и найдем максимальный разрыв между ними:
f | f ’ | Накопленные частоты | ê s – s’ ê | |
эмпирическое (s) | теоретическое (s’) | |||
2 | ||||
Максимальный разрыв D = 2, поэтому =
По таблицам значений функции P(l) находим для l = 0,2, что Р = 1,000. Следовательно, с вероятностью 100% можно полагать, что расхождения между f и f ‘ носят случайный характер, поэтому гипотезу о характере распределения следует принять.
П ример 2.
В течение рабочей недели производилось наблюдение за работой 50 станков и регистрировались неисправности, требовавшие остановки станков для их регулировки. Результаты наблюдений следующие:
Число неисправностей (х) | ||||||
Число станков (f) |
Требуется:
1) вычислить вероятности и теоретические частоты числа неисправностей, считая, что распределение последних подчиняется закону Пуассона;
1) оценить близость эмпирических и теоретических частот с помощью критериев Пирсона, Романовского и Колмогорова.
Решение:
Так как вариационный ряд представляет собой распределение по дискретному признаку, где по мере увеличения значений признака х частоты резко уменьшаются, то выдвигаем гипотезу о близости данного распределения к распределению Пуассона и производим выравнивание ряда распределения в соответствии с этой гипотезой. Теоретические частоты при выравнивании эмпирических данных определяем по формуле: f’=N*Px,
где f ’- теоретические частоты;
– общее число единиц ряда, в нашем примере N=50
Рх – вероятность наступления отдельных значений х, которая определяется по формуле: ,
где – средняя арифметическая ряда.
Следовательно, на основе данных исходной таблицы получим:
а) Среднее число неисправностей:
б) Находим по таблицам значение =0,2466≈ 0,247.
в) Подставляя в формулу значения = 0,1,2,3,4,5 получаем вероятности числа неисправностей от 0 до 5. Значения Px заносим в таблицу (смотри ниже).
г) Затем находим теоретические частоты ряда распределения :
Для х=0 получаем f’=50* 0,247=14,56≈15,
Для х=1 получаем f’=50* 0,345=21,84≈22 и т.д. (расчет представлен в нижестоящей таблице)
Значения и (округленные до целого числа) показаны в приводимой ниже таблице:
(теоретические частоты)= 50 | |
0,247 | 12 |
0,345 | 17 |
0,242 | 12 |
0,113 | 6 |
0,040 | 2 |
0,011 | 1 |
Итого | 50 |
После выравнивания ряда, т.е. нахождения теоретических частот, необходимо проверить, случайны или существенны расхождения между эмпирическими и теоретическими частотами, и тем самым проверить правильность выдвинутой при выравнивании ряда гипотезы о близости исходного распределения к распределению Пуассона.
Для оценки близости эмпирических и теоретических частот воспользуемся критериями Пирсона, Романовского и Колмогорова.
1) Критерий Пирсона: .
Все расчеты показаны в таблице:
f | f ‘ | f - f ‘ | (f - f ‘ )2 | (f - f ‘ )2/f ‘ | |
0 | 14 | 12 | 2 | 4 | 0.33 |
1 | 16 | 17 | -1 | 1 | 0.06 |
2 | 10 | 12 | -2 | 4 | 0.33 |
3 | 7 | 6 | 1 | 1 | 0.17 |
4 | 2 | 2 | 0 | 0 | 0 |
5 | 1 | 1 | 0 | 0 | 0 |
Итого | - | - | - | - | 0,89 |
Фактическое значение c2 = 0,89 сравниваем с критическим, определяемым по специальным таблицам (приложение 2) в зависимости от принимаемого уровня значимости и числа степеней свободы.
Уровень значимости (a) обычно принимается равным 5 % (a=0,05).
Число степеней свободы (k) рассчитывается: k = m – 1 – b,
Где m – число групп в ряду распределения; b - число параметров эмпирического распределения, использованных для нахождения теоретических частот, для закона Пуассона b = 1 (а= ), следовательно k =6-1-1=4. Таким образом определяем критическое табличное значение (см. приложение 2 для и k = 4).
Так как фактическое c2=0,89 оказывается меньше табличного (критического) , то расхождения между эмпирическими и теоретическими частотами можно считать случайными, т.е. гипотезу о близости фактического распределения к распределению Пуассона принимаем.
2) Применим критерий Романовского: = .
Так как с < 3, то расхождения между фактическими и теоретическими частотами считаем случайными, гипотезу о распределении Пуассона принимаем.
3) По критерию Колмогорова получаем: .
Расчет величины D представлен в таблице (см.ниже).Следовательно найдем значение критерия:
Накопленные частоты | ||
Эмпирические (s) | Теоретические (s‘ ) | |
2 (D) | ||
Далее находится вероятность Р(λ) (приложение 3). Чем ближе вероятность к 1, тем с большей уверенностью можно утверждать, что расхождения между эмпирическими и теоретическими частотами случайны, и, таким образом, подтвердить или опровергнуть гипотезу о наличии того или иного характера распределения в эмпирическом ряду.
В нашем случае Р(λ)=1,00, т.е. с вероятностью 100% можно утверждать, что расхождения между фактическими и теоретическими частотами случайны, следовательно гипотезу можно принять с этой вероятностью.
Итак, все три критерия оценивают расхождения между эмпирическими и теоретическими частотами как случайные, не опровергая тем самым выдвинутую гипотезу о том, что распределение станков по числу неисправностей подчиняется закону Пуассона.
Задача 37.
В течение рабочей недели производилось наблюдение за работой 65 станков и регистрировались неисправности, требовавшие остановки станков для их регулировки. Результаты наблюдений следующие:
Число неисправностей (х) | ||||||
Число станков (f) |
Требуется: 1) вычислить вероятности и теоретические частоты числа неисправностей, считая, что распределение последних подчиняется закону Пуассона; 2) оценить близость эмпирических и теоретических частот с помощью критериев Пирсона, Романовского и Колмогорова.
Задача 38.
Распределение количества землетрясений (подземных толчков) за месяц на территории региона характеризовалось данными, приведенными в таблице:
Количество подземных толчков за месяц | Количество районов |
А) Рассчитать теоретические частоты, исходя из гипотезы о распределении Пуассона.
Б) проверить, случайны или нет расхождения между эмпирическими и теоретическими частотами, используя все критерии согласия.
Задача 39.
Пусть имеется следующее распределение на основании данных о содержании меди (в %) в 500 образцах сплава).
Исходя из гипотезы о нормальном распределении результатов испытаний необходимо выравнять ряд по кривой нормального распределения (т.е. рассчитать теоретические частоты) и оценить близость эмпирических и теоретических частот с помощью критериев согласия: Пирсона (c2), Романовского и Колмогорова (l).
Содержание меди, % х | Количество образцов, f | Середина интервала, хсер | ||||
1 | 2 | 3 | 4 | 5 | 6 | 7 |
56 - 58 | ||||||
58 - 60 | ||||||
60 - 62 | ||||||
62 - 64 | ||||||
64 - 66 | ||||||
66 - 68 | ||||||
68 - 70 | ||||||
70 - 72 | ||||||
72 – 74 | ||||||
Итого | - |
Задача 40.
Предположим, имеется следующее распределение 40 выборочно обследованных автомобильных шин по пробегу:
Пробег шин, тыс.км | Число шин |
50 – 52 | |
52 – 54 | |
54 – 56 | |
56 – 58 | |
58 – 60 | |
60 – 62 | |
Итого |
А) исходя из гипотезы о нормальном распределении, рассчитать теоретические частоты в данном ряду.
Б) с помощью критериев согласия проверить, согласуется ли эмпирическое распределение с гипотетическим нормальным.