Д ля проверки количественных данных на нормальность используются следующие методы:
Графические
1.1. Гистограмма
1.2. Ящик с усами
Идея построения диаграммы ящика с усами представлена на рисунке
Аналитические
Для аналитической проверки на нормальность существует огромное число тестов, например, критерий Хи-квадрат, критерий Колмогорова, Шапиро-Уилка и другие. Рассмотрим критерий Жарка-Бера (Jarque-Bera). Идея этого критерия заключается в том, что по данным выборки оценивается скошенность (асимметрия) и «вытянутость» фактического распределения и сравнивается с нормальным.
За оценку асимметрии распределения отвечает коэффициент асимметрии:
В пакете Microsoft Excel за вычисление коэффициента асимметрии отвечает функция = СКОС(исходная выборка).
За оценку «вытянутости» распределения отвечает эксцесс:
В пакете Microsoft Excel за вычисление эксцесса отвечает выражение = ЭКСЦЕСС(исходная выборка).
Алгоритм критерия Жарка-Бера:
1) Выдвинуть гипотезу H о нормальном распределении выборки.
2) Вычислить фактическое значение критерия по формуле:
3) Определить табличное значение критерия на основе специальных таблиц критических значений Пирсона на уровне значимости 0,05 и числе степеней свободы 2. Это значение равно 5,991.
Уровень значимости – это вероятность ошибиться, утверждая, что распределение ненормальное. Общепринятым является вероятность ошибки не превышающая 5%.
Число степеней свободы, в данном случае, отвечает за количество параметров в формуле критерия: там участвуют асимметрия и эксцесс.
4) Если J - B >5,991, то гипотеза H о нормальном распределении выборки отклоняется, т.е. распределение не является нормальным.
Если J – B< 5,991, то гипотеза 0 H о нормальном распределении выборки принимается, т.е. распределение является нормальным.
Задание № 1
Сделать проверку на нормальность исходных данных
В Excel создать компьютерную модель решения задачи.
Для данных
1 Построить интервальный вариационный ряд (k=7)
2 Построить гистограмму распределения
3 Построить ящик с усами
Квартили – это значения признака, делящие ранжированную совокупность на четыре равновеликие части.
Различают:
нижнюю квартиль, отделяющую ¼ часть совокупности с наименьшими значениями при-знака;
среднюю квартиль – медиану;
верхнюю квартиль, отделяющую ¼ часть совокупности с наибольшими значениями при-знака.
Для расчета квартилей по интервальному вариационному ряду используются формулы:
где | – нижняя граница интервала, содержащего нижнюю квартиль (интервал определяется по накопленной частоте, первой, превышающей ¼ выборки); |
– нижняя граница интервала, содержащего верхнюю квартиль (интервал определяется по накопленной частоте, первой, превышающей ¾ выборки); | |
h – длина интервала; | |
– накопленная частота интервала, предшествующего интервалу, содержащему ниж-нюю квартиль; | |
– накопленная частота интервала, предшествующего интервалу, содержащему верх-нюю квартиль; | |
частота интервала, содержащего нижнюю и верхнюю квартили соответственно. |
Квартильный размах – разница между верхней и нижней квартилями:
Квартильный размах охватывает 50% значений выборки.
Медиана расположена не симметрично относительно ящика. Окончательные выводы о нормальности распределения будут сделаны ниже после использования аналитического теста.
4 Применить критерий Жарка-Бера
Рис. Способы размещения компьютерной модели на листе Excel
Задание №2
Аналогично изучить следующее эмпирическое распределение
Таблица критических точек распределения Пирсона
Контрольные вопросы
Типы распределений
Основные характеристики нормального распределния
Схзема выбора