Методические указания к лабораторной работе №1




Общие сведения

Анализ данных включает три основных этапа:

1. Сбор.

2. Подготовка.

3. Обработка данных.

Данные по виду можно подразделить на числовые и категориальные.

Числовые данные (Numerical Data) – это данные, характеризующие состояние какого-либо параметра изучаемого объекта. Наиболее часто такие данные бывают представлены вещественными числами. Примерами числовых данных являются заработная плата, население страны, артериальное давление, температура воздуха.

Категориальные данные (Categorical Data) – это данные, образующие признак принадлежности к какой-либо группе. Примерами категориальных данных являются экзаменационная оценка, цвет автомобиля, уровень образования человека.

Сбор данных – процесс формирования структурированного набора данных в цифровой форме. В некоторых случаях процесс сбора данных может включать также этап оцифровки.

Как правило, оцифрованные данные бывают представлены в виде: электронных таблиц в форматах XLS либо ODS;

- текстовых файлов в формате CSV;

- веб-страниц в формате HTML;

- файлов в формате XML;

- базы данных с доступом по технологии JSON либо через специализированный интерфейс (API).

В случаях, когда источники данных структурированы и представлены в сети Интернет, возможна реализация автоматизированного сбора данных.

Для использования в системах анализа данные должны быть представлены в определенном, как правило, табличном виде. Однако зачастую наборы данных имеют следующие особенности:

- отличную от табличной форму представления;

- пропуски отдельных данных;

- некорректные значения;

- большие числовые значения;

- текстовые данные.

Перечисленные особенности могут либо привести к затруднениям в процессе дальнейшей обработки данных, либо сделать её невозможной. Для устранения отмеченных несоответствий могут быть применены следующие операции:

- структурирование – приведение данных к табличному (матричному) виду;

- отбор – исключение записей с отсутствующими или некорректными значениями;

- нормализация – приведение числовых значений к определенному диапазону, например к диапазону 0...1;

- кодирование – это представление категориальных данных в числовой форме. Например, при бинарной классификации один из классов можно представить числом «0», а другой класс – числом «1». При множественной классификации система кодирования несколько усложняется: создается несколько числовых полей по количеству классов в выборке данных, каждый класс кодируется проставлением числа «1» в соответствующем поле.

Статистические данные, как правило, представляются в виде числовых таблиц больших размеров. Если пытаться анализировать данные, просматривая таблицу, потребуются большие затраты времени и, чаще всего, целый ряд свойств данных останется не выявленным, поскольку представление информации в виде чисел лишено наглядности и не дает конкретного визуального указания о наличии этих свойств. Более информативно для анализа использование графического отображения данных построение полигона (в случае дискретного признака) или гистограммы (в случае непрерывного признака).

Полигоном частот называют ломаную, отрезки которой соединяют точки (x1, n1), (x2, n2), …, (xk, nk). Для построения полигона весь диапазон изменения исследуемого сигнала (данных) разбивают на равные интервалы и определяют частоту попадания в этот интервал. В середине каждого интервала восстанавливают перпендикуляр, равный по величине частоте попадания в соответствующий интервал и вершины интервалов соединяют прямыми. При этом справа и слева от диапазона исследуемых данных приставляют по одному пустому интервалу. Концы полученной ломаной линии полигона соединяют с серединами (на оси абсцисс) этих интервалов.

1. Пример. В результате выборки получена следующая таблица распределения частот.

     
     

 

Рисунок 1 – Полигон частот

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною h, а высоты равны отношению (плотность частоты).

Рисунок 2 – Гистограмма частот

Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс, на расстоянии .

Площадь i-го частичного прямоугольника равна = ─ сумме частот вариантi-го интервала; следовательно, площадь гистограммы частот равна сумме всех частот, то есть объему выборки n.

На рисунке 2 изображена гистограмма частот распределения объема n=100, приведенного в таблице 1.1.

Таблица 1.1 - Вспомогательная таблица

Частичный интервал, длиною h=5 Сумма частот вариант частичного интервала Плотность частоты
5 – 10   0,8
10 – 15   1,2
15 – 20   3,2
20 – 25   7,2
25 – 30   4,8
30 – 35   2,0
34 – 40   0,8

 

Визуальный анализ полигона или гистограммы позволяет выявить характер распределения данных и ответить на следующие шесть вопросов:

1. Какие значения типичны для заданного набора данных?

2. Как различаются между собой значения (диапазон значений)?

3. Сконцентрированы ли данные вокруг некоторого типичного значения?

4. Какой характер имеет эта концентрация данных? В частности, одинаков ли характер «затухания» для малых и больших значений данных?

5. Есть ли в заданном наборе такие значения, которые сильно отличаются от остальных и требуют специальной обработки (выбросы)? Можно ли сказать, что в целом это однородный набор или отчетливо наблюдается наличие групп, которые надо анализировать отдельно?

При анализе полигонов или гистограмм иногда в данных можно наблюдать выбросы (сильно отклоняющиеся значения), т.е. такие такие значения, которые либо слишком велики, либо слишком малы. Существуют два вида выбросов: ошибки и корректные, но «отличающиеся» значения данных.

С ошибками справиться легко они сильно отличаются от остальных значений на гистограмме. В этом случае нужно перепроверить данные, найти ошибку и исправить это значение.

Более сложной является проблема выбросов корректных данных. Если есть убедительное подтверждение того, что выбросы не соответствуют изучаемым данным, то их можно просто удалить и анализировать оставшиеся более согласованные между собой данные. При отсутствии достаточно обоснованного аргумента для исключения выбросов можно выполнить два различных анализа: один с учетом выбросов, другой – с исключением их. В лучшем случае может оказаться, что наличие выбросов не имеет существенного значения. Если два анализа дадут разные результаты, то выводы могут быть менее определенными и неоднозначными. В современной статистике в настоящее время разрабатываются устойчивые методы, в которых применяется мощный вычислительный аппарат для учета наличия выбросов.

Обычно в статистике предполагают, что распределение данных приблизительно соответствует нормальному. Это объясняется тем, что многие стандартные методы статистического анализа, например, вычисление доверительных интервалов или проверка статистических гипотез, требуют нормального распределения данных (хотя бы приблизительно). Зная свойства нормального распределения и изучив внимательно гистограмму, важно определить, являются ли данные нормально распределенными. Теоретически нормальное распределение представляет собой гладкую гистограмму в форме колокола без случайных отклонений. Кривая нормального распределения задается функцией плотности распределения: , где a и σ 2 – параметры распределения: a – математическое ожидание; σ 2 – дисперсия данной случайной величины. Для идеального набора нормально распределенных данных такая кривая имеет следующий вид (рис. 3)

 
   
   
    Рисунок 3 – Кривая нормального распределения для идеального набора данных   Как видим, большинство чисел сконцентрировано в средней части диапазона значений (центр колокола a), а оставшиеся значения с затуханием симметрично располагаются по обе стороны от вершины колокола. Величина σ характеризует ширину (масштаб) колокола. Фактически существует много кривых нормального распределения, форма которых напоминает симметричный колокол. Эти кривые отличаются друг от друга расположением центра и масштабом σ. Ниже показаны кривые нормального распределения, построенные в разных масштабах.   Рисунок 4 – Кривые нормального распределения   Поскольку реальные наборы нормально распределенных данных носят случайный характер, то они не имеют идеальную степень гладкости гистограмм и содержат некоторые случайные отклонения от теоретической кривой.

 


 

Вариационные ряды

Исследователь, интересующийся тарифным разрядом рабочих механического цеха, провел опрос 100 рабочих. Расположим наблюдавшиеся значения признака в порядке возрастания. Эта операция называется ранжированием статистических данных. В результате получим следующий ряд, который называется ранжированным:

Из ранжированного ряда следует, что исследуемый признак (тарифный разря д ) принял шесть различных значений: 1, 2, 3, 4, 5 и 6.

В дальнейшем различные значения признака будем называть вариантами, а под варьированием – понимать изменение значений признака.

В зависимости от принимаемых признаком значений признаки делятся на дискретно варьирующие и непрерывно варьирующие.

Тарифный разряд – это дискретно варьирующий признак. Число, показывающее, сколько раз встречается вариант х в ряде наблюдений, называется частотой варианта .

Вместо частоты варианта х можно рассматривать ее отношение к общему числу наблюдений n, которое называется частостью варианта и обозначается :

(1.1)

Таблица, позволяющая судить о распределении частот (или частостей) между вариантами, называется дискретным вариационным рядом (таблица 2.2).

 

Таблица 2.2 – Дискретный вариационный ряд

Тарифный разряд, х Количество рабочих, Доля рабочих,
    0,04
    0,06
    0,12
    0,16
    0,44
    0,18
Итого   1,00

 

Наряду с понятием частоты используют понятие накопленной частоты, которую обозначают . Накопленная частота показывает, во скольких наблюдениях признак принял значения, меньшие заданного значения х. Отношение накопленной частоты к общему числу наблюдений n, называют накопленной частостью и обозначают . Очевидно, что

(1.2)

Накопленные частоты (частости) для дискретного вариационного ряда, заданного в таблице 1.2, вычислены в таблице 1.3.

Пусть необходимо исследовать выработку на одного рабочего-станоч-ника механического цеха в отчетном году в процентах к предыдущему году. Здесь исследуемым признаком х является выработка в отчетном году в процентах к предыдущему. Это непрерывно варьирующий признак. Для выявления характерных черт варьирования значений признака объединим в группы рабочих, у которых величина выработки колеблется в пределах 10% (всего было опрошено 117 рабочих). Сгруппированные данные представим в таблице 2.3.

 

Таблица 2.3 – Расчет накопленных частот (частостей) для дискретного вариационного ряда

Х
      0,04
    4+6=10 0,10
    10+12=22 0,22
    22+16=38 0,38
    38+44=82 0,82
    82+18=100 1,00
Итого   -- --

 

Таблица 2.4 – Группировка данных исследования выработки на одного рабочего-станочника механического цеха в отчетном году

Исследуемый признак, Х Количество рабочих, m Доля рабочих, w Накопленная частота, Накопленная частость,
80-90   8/117   8/117
90-100   15/117 8+15=23 23/117
100-110   46/117 23+46=69 69/117
110-120   29/117 69+29=98 98/117
120-130   13/117 98+13=111 111/117
130-140   3/117 111+3=114 114/117
140-150   3/117 114+3=117 117/117=1
Итого     -- --

 

В таблице 2.4 частоты m показывают, во скольких наблюдениях признак принял значения, принадлежащие тому или иному интервалу. Такую частоту называют интервальной, а отношение ее к общему числу наблюдений – интервальной частостью w. Таблицу, позволяющую судить о распределении частот (или частостей) между интервалами варьирования значений признака, называют интервальным вариационным рядом.

В таблице 2.4. для верхних границ интервалов приведены накопленные частоты (частости) ().

Интервальный вариационный ряд строят по данным наблюдений за непрерывно варьирующим признаком, а также за дискретно варьирующим, если велико число наблюдавших вариантов. Дискретный вариационный ряд строят только для дискретно варьирующего признака.

Иногда интервальный вариационный ряд условно заменяют дискретным. Тогда серединное значение интервала принимают за вариант х, а соответствующую интервальную частоту – за .

Для построения интервального вариационного ряда необходимо определить величину интервала, установить полную шкалу интервалов и в соответствии с ней сгруппировать результаты наблюдений.

Для определения оптимального постоянного интервала h часто используют формулу Стерджесса:

, (1.3)

где – соответственно максимальный и минимальный значения вариантов.

Если в результате расчетов h окажется дробным числом, то за величину интервала следует взять либо ближайшее целое число, либо ближайшую несложную дробь.

За начало первого интервала рекомендуется принять величину ; начало второго интервала совпадает с концом первого и равно ; начало третьего интервала совпадает с концом второго и равно . Построение интервалов продолжается до тех пор, пока начало следующего по порядку интервала не будет больше . После установления шкалы интервалов следует сгруппировать результаты наблюдений.

 

Средние величины

Статистическая средняя величина является обобщенной характеристикой совокупности по определенному признаку. В средних величинах погашаются индивидуальные различия единиц совокупности, обусловленные случайными обстоятельствами, и находят выражение общие, закономерные черты, свойственные всей совокупности явления. Это свойство средних предопределяет использование их в качестве основного метода статистической науки. Заметим, что только для качественно однородных наблюдений имеет смысл вычислять средние величины.

Определить среднюю во многих случаях можно через исходное соотношение средней (ИСС) или логическую формулу средней (ЛФС):

Так, например, для расчета средней урожайности картофеля региона, состоящего из нескольких областей, ИСС представляет собой следующее отношение:

Для каждого показателя, используемого в социально-экономическом анализе, можно составить только одно истинное исходное соотношение для расчета средней. Если, например, требуется рассчитать средний размер вклада в банке, то ИСС будет следующим:

От того, в каком виде представлены исходные данные для расчета средней, зависит, каким именно образом будет реализовано ее исходное соотношение. В каждом конкретном случае для реализации ИСС потребуется одна из следующих форм средней величины: средняя арифметическая; средняя гармоническая; средняя геометрическая; средняя квадратическая, кубическая и т.д.

Перечисленные средние относятся к степенным средним. Степенной средней q -го порядка называют такую среднюю, при замене которой каждого наблюдения остается неизменной сумма q -тых степеней наблюдений:

(1.4)

где i -тый вариант усредняемого признака;

n – количество наблюдений;

q – положительное или отрицательное целое число.

Из формулы (1.4) получаем выражение для расчета степенной средней q-ого порядка:

(1.5)

При q = 1 имеем простую среднюю арифметическую (невзвешенную):

(1.6)

При q = -1 имеем среднюю гармоническую:

(1.7)

При q = 2 имеет место средняя квадратическая, при q = 3 – средняя кубическая и т.д.

Средней геометрической называют корень n -ной степени из произведения значений наблюдений :

(1.8)

Можно показать, что

q®0

Наиболее распространенной средней величиной является средняя арифметическая. Простая (невзвешенная) средняя арифметическая рассчитывается по формуле (2.6). Далее среднюю арифметическую величину будем обозначать .

Если по наблюдениям построен вариационный ряд, то средняя арифметическая величина имеет вид:

(1.9)

где х – вариант, если ряд дискретный, и центр интервала, если ряд интервальный;

– соответствующая частота; .

Частоты в формуле (2.9) называют весами, операцию умножения х на - операцией взвешивания, а среднюю арифметическую, вычисленную по формуле (1.9) – средней арифметической взвешенной.

Среднюю арифметическую величину для вариационного ряда можно вычислять по формуле:

, (1.10)

которая является следствием формулы (2.9).

Действительно,

Рассмотрим основные свойства средней арифметической.

Сумма отклонений результатов наблюдений от средней арифметической равна нулю.

Если все результаты наблюдений уменьшить (увеличить) на одно и то же число, то средняя арифметическая уменьшится (увеличится) на то же число.

Если все результаты наблюдений уменьшить (увеличить) в одно и тоже число раз, то средняя арифметическая уменьшится (увеличится) во столько же раз.

Если ряд наблюдений состоит из k групп наблюдений, то средняя арифметическая всего ряда равна взвешенной средней арифметической групповых средних , причем весами являются объемы групп :

(1.11)

Средняя арифметическая для сумм (разностей) взаимно соответствующих значений признака двух рядов наблюдений с одинаковым числом наблюдений равна сумме (разности) средних арифметических этих рядов:

= , = .

Следствие. Средняя арифметическая алгебраической суммы соответствующих значений признака нескольких рядов наблюдений равна алгебраической сумме средних арифметических этих рядов.

Известно, что степенные средние разных видов, исчисленные по одной и той же совокупности, имеет различные количественные значения. И чем больше показатель степени, тем больше и величина соответствующей средней:

.

Это свойство степенных средних возрастать с повышением показателя степени определяющей функции называется мажорантностью средних.

Таблица 3.1 - Виды степенных средних и их применение

m Название средней Формула расчета средней Когда применяется
простая взвешенная
  Арифметическая = (17) = (18) Чаще всего, кроме тех случаев, когда должны применяться другие виды средних
–1 Гармоническая ГМ = (19) ГМ = (20) Для осреднения величин с дробной размерностью при наличии дополнительных данных по числителю дробной размерности
  Геометрическая (21) (22) Для осреднения цепных индексов динамики
  Квадратическая = (23) = (24) Для осреднения вариации признака (расчет средних отклонений)
  Кубическая = (25) = (26) Для расчета индексов нищеты населения
  Хронологическая (27) (28) Для осреднения моментных статистических величин

 

 

Помимо степенных средних, в статистической практике также используются позиционные средние, среди которых наиболее распространены мода и медиана.

Медианой называют значение признака, приходящегося на середину ранжированного ряда наблюдений, если проведено нечетное число наблюдений , а результаты наблюдений проранжированы и выписаны в следующий ряд:

где – значение признака, занявшее i -ое порядковое место в ранжированном ряду.

На середину ряда приходится значение , следовательно = .

Если проведено четное число наблюдений n=2×l, то на середину ранжированного ряда приходятся значения и . В этом случае за медиану принимают среднюю арифметическую значений и .

Для интервального вариационного ряда медиана определяется по формуле:

(1.12)

Если в формуле (2.12) числитель и знаменатель входящей в нее дроби разделить на n, то получим другую формулу для расчета :

(1.13)

где XMe – нижняя граница медианного интервала;

h – его величина (размах);

– сумма наблюдений (или объема взвешивающего признака), накопленная до начала медианного интервала;

– число наблюдений или объем взвешивающего признака в медианном интервале.

Медианным называется интервал, у которого первый раз накопленная частота (частость) станет равной или более половины всех наблюдений (³ 0,5).

Модой () называют такое значение признака, которое наблюдалось наибольшее число раз.

Для дискретного вариационного ряда модой является вариант, которому соответствует наибольшая частота (частость).

В случае интервального вариационного ряда мода вычисляется по следующей формуле:

(1.14)

или по тождественной формуле:

(1.15)

где ХMo – нижнее значение модального интервала, то есть такого, которому соответствует наибольшая частота (частость);

– частота (частость) модального интервала;

– частота (частость) интервала, предшествующего модальному;

– частота (частость) интервала, следующего за модальным.

h – величина интервала изменения признака в группах.

 

Практическое задание

Задача 1. Имеются следующие данные о возрастном составе студентов группы заочного отделения ВУЗа (лет): 19; 19; 19; 20; 20; 20; 20; 20; 20; 20; 20; 20; 21; 21; 21; 22; 23; 23; 24; 25; 25; 25; 26; 27; 29.

Для анализа распределения студентов по возрасту требуется:

1) построить интервальный ряд распределения и его график;

2) рассчитать модальный, медианный и средний возраст, установить его типичность с помощью коэффициентов вариации;

3) проверить распределение на нормальность с помощью коэффициентов асимметрии и эксцесса.

Решение. Для построения интервального ряда из дискретного используется формула Стерджесса, с помощью которой определяется оптимальное количество интервалов (n):

n = 1 +3,322 lg N, (1.16)

где N – число величин в дискретном ряде.

В нашей задаче n = 1 + 3,322 lg 25 = 1 + 3,322*1,398 = 5,64. Так как число интервалов не может быть дробным, то округлим его до ближайшего целого числа, т.е. до 6.

После определения оптимального количества интервалов определяем размах интервала по формуле:

h = H / n, (1.17)

где H – размах вариации, определяемый по формуле (1.17).

H = Хмах –Хmin, (1.18)

где Xмax и Xmin — максимальное и минимальное значения в совокупности.

В нашей задаче h = (29 – 19)/6 = 1,67.

Интервальная группировка данных приведена в первом столбце таблицы 4.1, которая содержит также алгоритм и промежуточные расчеты.

Таблица 4.1 - Вспомогательные расчеты для решения задачи

Xi, лет fi ХИ XИfi ХИ- И- )2 И- )2fi И- )3 fi И- )4 fi
до 20,67   19,833 237,996 -2,134 25,602 4,552 54,623 -116,539 248,638
20,67-22,33   21,5 86,000 -0,467 1,866 0,218 0,871 -0,406 0,189
22,33-24   23,167 69,501 1,200 3,601 1,441 4,323 5,190 6,231
24-25,67   24,833 74,499 2,866 8,599 8,217 24,650 70,659 202,543
25,67-27,33   26,5 53,000 4,533 9,067 20,552 41,105 186,348 844,806
более 27,33   28,167 28,167 6,200 6,200 38,446 38,446 238,383 1478,091
Итого   549,163 54,937 164,018 383,636 2780,498

На основе этой группировки строится график распределения возраста студентов (рис.5).

Рисунок 5 - График распределения возраста студентов

Мода – это наиболее часто повторяющееся значение признака. Для интервального ряда с равными интервалами величина моды определяется по формуле (1.19):

, (1.19)

где ХMo – нижнее значение модального интервала;

fMo – число наблюдений или объем взвешивающего признака (вес признака) в модальном интервале;

fMo-1 – то же для интервала, предшествующего модальному;

fMo+1 – то же для интервала, следующего за модальным;

h – величина интервала изменения признака в группах.

В нашей задаче чаще всего повторяется (12 раз) первый интервал возраста (до 20,67), значит, это и есть модальный интервал. Используя формулу (1.19), определяем точное значение модального возраста:

Мо = 19 + 1,667*(12-0)/(2*12-4-0) = 20 (лет).

Медиана – это такое значение признака, которое приходится на середину ранжированного ряда. Таким образом, в ранжированном ряду распределения одна половина ряда имеет значения признака больше медианы, другая – меньше медианы. Для интервального ряда с равными интервалами величина медианы определяется так:

, (1.20)

где XMe – нижняя граница медианного интервала;

h – его величина (размах);

– сумма наблюдений (или объема взвешивающего признака), накопленная до начала медианного интервала;

fMe – число наблюдений или объем взвешивающего признака в медианном интервале.

В нашей задаче второй интервал возраста (от 20,67 до 22,33) является медианным, так как на него приходится середина ряда распределения возраста. Используя формулу (1.20), определяем точное значение медианного возраста:

Ме = 20,67 + 1,667*(12,5-12)/4 = 20,878 (года).

Средняя величина – это обобщающий показатель совокупности, характеризующий уровень изучаемого явления или процесса. Средние величины могут быть простыми и взвешенными. Простая средняя рассчитывается при наличии двух и более статистических величин, расположенных в произвольном (несгруппированном) порядке, по общей формуле (1.21). Взвешенная средняя величина рассчитывается по сгруппированным статистическим величинам с использованием общей формулы (1.22).

= (1.21) = . (1.22)

При этом обозначено: Xi – значения отдельных статистических величин или середин группировочных интервалов; m - показатель степени, от значения которого зависят виды средних величин.

В нашей задаче, применяя формулу (1.21) и подставляя вместо середины интервалов возраста ХИ, определяем средний возраст студентов: = 549,163/25 = 21,967 (года).

Теперь осталось определить типичность или нетипичность найденной средней величины. Это осуществляется с помощью расчета показателей вариации. Чем ближе они к нулю, тем типичнее найденная средняя величина для изучаемой статистической совокупности. При этом критериальным значением коэффициента вариации служит 1/3.

Коэффициенты вариации рассчитываются как отношение среднего отклонения к средней величине. Поскольку среднее отклонение может определяться линейным и квадратическим способами, то соответствующими могут быть и коэффициенты вариации.

Среднее линейное отклонение определяется по формулам (1.23) и (1.24):

–простое; (1.23)

– взвешенное. (1.24)

Среднее квадратическое отклонение определяется как корень квадратный из дисперсии, то есть по формуле (1.25):

. (1.25)

Дисперсия определяется по формулам (1.26) или (1.27):

–простая; (1.26)

–взвешенная. (1.27)

В нашей задаче, применяя формулу (1.24), определим ее числитель и внесем в расчетную таблицу. В итоге получим среднее линейное отклонение: Л = 54,937/25 = 2,198 (года). Разделив это значение на средний возраст, получим линейный коэффициент вариации: = 2,198/21,967 = 0,100. По значению этого коэффициента для рассмотренной группы студентов делаем вывод о типичности среднего возраста, т.к. расчетное значение коэффициента вариации не превышает критериального (0,100 < 0,333).

Применяя формулу (1.27), получим в итоге дисперсию: Д = 164,018/25 = 6,561. Извлечем из этого числа корень и получим в результате среднее квадратическое отклонение: =



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2022-11-28 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: