При статистическом анализе экономической информации принято считать, что экономические показатели подчиняются нормальному закону распределения. Однако на практике это не всегда верно. Наблюдаются отклонения как односторонние, так и двусторонние. Во избежание искажения значений характеристик распределения при обработке информации необходимо очистить ее от засорения случайными отклонениями. Метод выявления аномальных наблюдений и их удаления из совокупности при обработке многомерной статистической информации может привести к отбрасыванию слишком большого количества точек наблюдения. Известны более четко обоснованные методы обнаружения засорения: метод Смирнова–Граббса проверки максимального наблюдения, критерий Граббса для обнаружения одного экстремального наблюдения, критерий исключения нескольких грубых ошибок как обобщение критерия Граббса. Все они применяются к упорядоченной совокупности (вариационному ряду):
(N
25).
Для проверки максимального и минимального значений на наличие грубой ошибки используются критерии
и
,
где ,
,
.
При N>25 экстремальные значения могут быть проверены по критерию S:
,
где – стандартное отклонение, определенное для всей выборки;
– предполагаемый выброс.
При Sрасч < Sкр гипотеза H0: – выброс отвергается, в противном случае экстремальное значение
считается грубой ошибкой и из дальнейшего рассмотрения исключается. Критические значения критерия S определяются по таблице. При уровне значимости
Sкр так зависит от объема выборки N: значениям N = 30; 50; 100; 1000 соответствуют Sкр = 2,929; 3,082; 3,283; 3,884.
Парный корреляционный и регрессионный анализ удобно выполнять средствами Excel и надстройки «Пакет анализа» (в меню – Сервис– Анализ данных).
В данной работе я выполяю статистический анализ совокупности таких показателей производственно-хозяйственной деятельности предприятий (Приложение 1): производительность труда (среднегодовая выработка продукции на одного работника), тыс. грн. Y1, премии и вознаграждения на одного работника, % X8, среднегодовая численность ППП, чел. X11, среднегодовая стоимость основных производственных фондов(ОПФ), тыс. грн. X12, среднегодовой фонд заработной платы ППП, тыс. грн. X13, непроизводственные расходы, % X17.
Выполняю проверки статистических данных на «засорение»:
– копирую все значения показателей на чистый лист;
– упорядочиваю их по возрастанию, выделяю весь столбец без заголовка и нажимаю на панели кнопку сортировки;
– устанавливаю курсор под последним значением и ввожу функцию Статистическая
– СРЗНАЧ, а затем СТАНДОТКЛ.
– вычисляю значение статистики Sрасч по найденным характеристикам для наибольшего значения, которое нужно подставить в формулу вместо x1 и проверить гипотезу H0: наибольшее (последнее в столбце) значение – выброс;
– если Sрасч > Sкр (0,05; 50) = 3,082, это значение является выбросом, и необходимо проверить предыдущее значение, только при этом следует заново определить среднее значение и стандартное отклонение, но уже исключив выброс, как это и выполнено в приведенной таблице;
– проверку на выброс продолжаю до первого значения, для которого гипотеза H0 окажется неправдоподобной, т.е. для которого значение Sрасч окажется меньше Sкр;
– такую же проверку выполняю начиная с наименьшего (первого в столбце) значения, помня о том, что критерий S имеет двустороннюю критическую область, и поэтому следует рассматривать модуль Sрасч.
Такие проверки выполняю для всех показателей. В итоге на новый лист переношу исходные статистические данные, и исключить полностью каждую строку, в которой есть выброс хотя бы одного из показателей. Весь последующий статистический анализ провожу только по очищенным данным. Данные сохраняю в Excel на листе под названием «Очистка от засорения».