ТЕМА 2. МЕТОДЫАНАЛИЗА ЭМПИРИЧЕСКИХ РАСПРЕДЕЛЕНИЙ
Теоретические законы распределения вероятностей непрерывных и дискретных случайных величин рассматриваются теорией вероятностей. Статистикаизучает закономерности эмпирических распределений, используя фактические данные о социально-экономических объектах или явлениях. Ряд распределения – это распределение единиц совокупности по значению того или иного признака в конкретных условиях места и времени. Например: распределение стран мира по величине ВВП на душу населения в 2014 году; распределение промышленных предприятий СПб по объему производства за 2013 год; распределение туристских организаций по величине затрат на рекламу в текущем году; распределение студенческих групп ИЭИ по среднему баллу в зимнюю сессию и т.п. Представление большого объема данных в виде ряда распределения облегчает анализ и интерпретацию результатов наблюдения. Анализ эмпирических распределений - это мощный инструмент исследования одномерных массивов данных.
Комплексный анализ рядов распределения включает:
1. Табличное и графическое представление ряда распределения.
2. Расчет и анализ показателей центра и структуры распределения.
3. Расчет и анализ показателей вариации.
4. Характеристику формы распределения.
5. Выравнивание эмпирического распределения и оценку его соответствия тому или иному типу теоретических распределений.
Ряды распределения могут быть вариационными и атрибутивными. Ряд, построенный на основе атрибутивного признака, называется атрибутивным, например: распределение организаций Северо-Западного региона по видам экономической деятельности, распределение работающих по уровню образования и т.п. В таблице 2.1. представлен атрибутивный ряд распределения.
|
Таблица 2.1 - Распределение числа малых организаций Санкт - Петербурга, численности занятых и оборота организаций по видам деятельности, %
Вид деятельности | Число организаций | Среднесписочная численность занятых | Оборот предприятий | |||
Обрабатывающие производства | 8,3 | 8,7 | 12,9 | 14,9 | 8,9 | 8,6 |
Строительство | 9,9 | 10,5 | 13,4 | 14,6 | 10,6 | 11,0 |
Оптовая и розничная торговля; ремонт автотранспортных средств, мотоциклов, бытовых изделий и предметов личного пользования | 44,0 | 42,3 | 37,6 | 35,0 | 62,5 | 63,1 |
Операции с недвижимым имуществом, аренда и предоставление услуг | 21,3 | 21,8 | 21,5 | 21,9 | 12,6 | 10,9 |
Транспорт и связь | 7,7 | 7,8 | 6,0 | 5,1 | 2,7 | 3,5 |
Прочие | 8,8 | 8,9 | 8,6 | 8,5 | 2,7 | 2,9 |
Итого |
Вариационными называют ряды, построенные на основе количественного признака, например: распределение регионов России по объему розничного товарооборота на душу населения, распределение предприятий пищевой промышленности по уровню рентабельности производства и т.п. Вариационные ряды могут быть дискретными и интервальными.
Дискретные - ряды, характеризующие распределение единиц совокупности по дискретному признаку. При построении ряда перечисляются все варианты признака и указывается абсолютное или относительное число единиц совокупности, обладающих такими значениями признака, например, распределение семей города по числу членов семьи.
Интервальные ряды, как правило, строятся по непрерывному признаку. Однако, в виде интервального может быть представлен и ряд, построенный на основе дискретного признака, если последний имеет множество значений, см. таблицу 2.2. Численность жителей - дискретный признак, но его значения представлены интервалами.
|
Таблица 2.2. - Распределение городов и поселков городского типа по числу жителей
Число городов и поселков городского типа | |||
1989 г. | 2010 г. | 2014 г. | |
Города и поселки городского типа – всего | |||
Из них с числом жителей, тыс. чел. | |||
До 3 | |||
3 - 4,9 | |||
5 -9,9 | |||
10 - 19,9 | |||
20 - 49,9 | |||
50 - 99,9 | |||
100 - 499,9 | |||
500 - 999,9 | |||
1 млн. и более |
Значение признака в рядах распределения называется вариантой (вариантом). Число единиц, обладающих тем или иным значением признака, называется частотой.
Ряды распределения могут быть представлены в табличной форме, что является результатом группировки, и графически.
Построение таблиц и графиков рядов распределения начинается с ранжирования ряда по величине соответствующего признака. Ранжирование – это расположение единиц совокупности в порядке возрастания или убывания значений признака. Построение ранжированного ряда позволяет увидеть наличие или отсутствие выбросов.
Выбросы - единицы совокупности, значения признака у которых резко отличаются в меньшую или большую сторону от основной массы значений признака. Как правило, наличие таких единиц в совокупности связано с особыми условиями, в которых они существуют (например, высокий уровень среднедушевых доходов населения г. Москва и низкое значение аналогичной характеристики в таком регионе, как Ингушетия). Резко отличающееся значение признака говорит о том, что единица, обладающая таким значением, не подчиняется общей закономерности распределения. Выбросы должны быть исключены из анализа при оценке общей закономерности распределения. На основе теоретического анализа, исходя из сути исследуемого объекта (процесса), следует обосновать причину исключения выбросов и необходимость их детального изучения (последнее зависит от целей исследования).
|
Для поиска выбросов чаще всего используется метод Тьюки (в компьютерных программах с учетом этого критерия строится график BoxPlot): выбросами считаются единицы, значения признака у которых выходит за границы: и . , - значения нижнего (первого) и верхнего (третьего) квартилей; - межквартильное расстояние. (Эти показатели будут рассмотрены в разделе «Показатели структуры распределения»). Для обоснования наличия выбросов может быть использовано правило трех сигм, о котором речь пойдет ниже. Окончательно вопрос о выбросах решается в рамках построения таблицы распределения, если не удается получить одновершинное (мономодальное) распределение, требуется вернуться к поиску выбросов.
На рисунке 2.1 представлен график BoxPlot, построенный на основе данных о распределении регионов России по величине среднедушевых денежных доходов населения (СДДН) в 2013 году. Эти данные будут использованы в сквозном примере при рассмотрении методики анализа рядов распределения. Источником данных является ежегодник Федеральной службы государственной статистики "РегионыРоссии. Социально-экономические показатели. 2014" [ ]: Стат. сб. / Росстат. - М., 2014. - 900 с.)
График BoxPlot в отечественной литературе называют "ящик с усами". (Все таблицы, графики и расчеты показателей в данном разделе выполнены в системе STATISTICA). Как видим по дополнительной информации, сопровождающей график, отметка внутри "ящика" - это значение медианы, границы "ящика" - значения квартилей. Значения, отмеченные за пределами "усов", можно считать выбросами.
Рисунок 2.1 - Распределение регионов России по величине среднедушевых денежных доходов населения, 2013 г.
Регионы, значения которых отмечены как Extremes (г. Москва, Чукотский автономный округ), следует исключить из анализа, поскольку они не подчиняются общей закономерности распределения. Если сохранить в исходных данных эти регионы, то при построении таблицы не удается выполнить требование одновершинности распределения, когда по обе стороны отмаксимальной частоты в таблице должно наблюдаться закономерное убывание частот (см. таблицу 2.3.). Правила построения таблиц распределения будут рассмотрены ниже, здесь обращаем внимание только на значения частот.
Таблица 2.3 - Распределение регионов России по величине СДДН в 2013 г., до исключения выбросов
Цифры в графе Count указывают число регионов, в которых СДДН в 2013 году находились в интервале значений, указанных в первой графе. После максимальной частоты (40) наблюдается убывание частот, но в последней строке появляется частота 2, хотя в предыдущей строке была частота 1. Следовательно, необходимо решать вопрос о выбросах. Таблица 2.4 представляет распределение регионов России по тому же показателю, но после исключения регионов - выбросов.
Таблица 2.4 - Распределение регионов России по величине СДДН в 2013 г., после исключения выбросов.
В данной таблице выполняется требование закономерного убывания частот после максимальной частоты – 33 региона.
Наличие выбросов следует отличать от бимодального (двухвершинного) и полимодального распределений. Наличие двух и более вершин в распределении после исключения выбросов свидетельствует о неоднородности изучаемой совокупности, о присутствии в статистической совокупности двух и более самостоятельных групп (кластеров). Обнаруженные кластеры следует изучать отдельно, поскольку распределения единиц, входящих в них, подчиняются разным закономерностям. Пример такого распределения можно видеть в таблице 2.5.
Таблица 2.5 - Распределение регионов России по показателю яйценоскости кур
В распределении, представленном в таблице, отчетливо выделяются две группы, которые сохраняются и после процедуры исключения выбросов, и после пошагового изменения числа групп. Такая ситуация требует анализа закономерности распределения отдельно по каждой группе.
Перейдем к рассмотрению требований к таблицам распределения и той информации, которую они содержат.