Очистка информации от засорения




При статистическом анализе экономической информации принято считать, что экономические показатели подчиняются нормальному закону распределения. Однако на практике это не всегда верно. Наблюдаются отклонения как односторонние, так и двусторонние. Во избежание искажения значений характеристик распределения при обработке информации необходимо очистить ее от засорения случайными отклонениями. Метод выявления аномальных наблюдений и их удаления из совокупности при обработке многомерной статистической информации может привести к отбрасыванию слишком большого количества точек наблюдения. Известны более четко обоснованные методы обнаружения засорения: метод Смирнова–Граббса проверки максимального наблюдения, критерий Граббса для обнаружения одного экстремального наблюдения, критерий исключения нескольких грубых ошибок как обобщение критерия Граббса. Все они применяются к упорядоченной совокупности (вариационному ряду):

 

(N 25).

 

Для проверки максимального и минимального значений на наличие грубой ошибки используются критерии

 

и ,

 

где , , .

При N>25 экстремальные значения могут быть проверены по критерию S:

 

,

 

где – стандартное отклонение, определенное для всей выборки;

– предполагаемый выброс.

При Sрасч < Sкр гипотеза H0: – выброс отвергается, в противном случае экстремальное значение считается грубой ошибкой и из дальнейшего рассмотрения исключается. Критические значения критерия S определяются по таблице. При уровне значимости Sкр так зависит от объема выборки N: значениям N = 30; 50; 100; 1000 соответствуют Sкр = 2,929; 3,082; 3,283; 3,884.

Парный корреляционный и регрессионный анализ удобно выполнять средствами Excel и надстройки «Пакет анализа» (в меню – Сервис– Анализ данных).

В данной работе я выполяю статистический анализ совокупности таких показателей производственно-хозяйственной деятельности предприятий (Приложение 1): производительность труда (среднегодовая выработка продукции на одного работника), тыс. грн. Y1, премии и вознаграждения на одного работника, % X8, среднегодовая численность ППП, чел. X11, среднегодовая стоимость основных производственных фондов(ОПФ), тыс. грн. X12, среднегодовой фонд заработной платы ППП, тыс. грн. X13, непроизводственные расходы, % X17.

Выполняю проверки статистических данных на «засорение»:

– копирую все значения показателей на чистый лист;

– упорядочиваю их по возрастанию, выделяю весь столбец без заголовка и нажимаю на панели кнопку сортировки;

– устанавливаю курсор под последним значением и ввожу функцию Статистическая

– СРЗНАЧ, а затем СТАНДОТКЛ.

– вычисляю значение статистики Sрасч по найденным характеристикам для наибольшего значения, которое нужно подставить в формулу вместо x1 и проверить гипотезу H0: наибольшее (последнее в столбце) значение – выброс;

– если Sрасч > Sкр (0,05; 50) = 3,082, это значение является выбросом, и необходимо проверить предыдущее значение, только при этом следует заново определить среднее значение и стандартное отклонение, но уже исключив выброс, как это и выполнено в приведенной таблице;

– проверку на выброс продолжаю до первого значения, для которого гипотеза H0 окажется неправдоподобной, т.е. для которого значение Sрасч окажется меньше Sкр;

– такую же проверку выполняю начиная с наименьшего (первого в столбце) значения, помня о том, что критерий S имеет двустороннюю критическую область, и поэтому следует рассматривать модуль Sрасч.

Такие проверки выполняю для всех показателей. В итоге на новый лист переношу исходные статистические данные, и исключить полностью каждую строку, в которой есть выброс хотя бы одного из показателей. Весь последующий статистический анализ провожу только по очищенным данным. Данные сохраняю в Excel на листе под названием «Очистка от засорения».



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2019-10-17 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: