Пусть изучается некоторая с. в. X. С этой целью над с. в. X производится ряд независимых опытов (наблюдений). В каждом из этих опытов величина X принимает то или иное значение.
Пусть она приняла п\ раз значение х\, п2 раз — значение х2,..., rifc раз — значение х^. При этом гц + п2 +... 4-nfc ~ п — объем выборки. Значения х2у..., х^ называются вариантами с. в. X.
Вся совокупность значений с. в. X представляет собой первичный статистический материал, который подлежит дальнейшей обработке, прежде всего — упорядочению.
Операция расположения значений случайной величины (признака) по неубыванию называется ранжированием статистических данных. Полученная таким образом последовательность £(2): • • ■ i х(и)
значений с. в. X (где ^ Х(2) ^... ^ Я(п) и X(i) = ^min X*,..., Х(„) = = max Xi) называется вариационным рядом.
(6.1) |
\1 |
(£ * = ю) |
или |
(!>.' = О 1 7 |
х{ | ||||||
Pi |
Статистическое распределение выборки является оценкой неизвестного распределения. В соответствии с теоремой Бернулли (п. 5.3) относительные частоты р* сходятся при п —)• оо к соответствующим |
Числа п;, показывающие, сколько раз встречаются варианты Х{ в ряде наблюдений, называются частотами, а отношение их к объему выборки — частостями или относительными частотами (р*), т.е.
* _ Щ Pi п'
где п
i=l
Перечень вариантов и соответствующих им частот или частостей называется статистическим распределением выборки или статистическим рядом.
Записывается статистическое распределение в виде таблицы. Первая строка содержит варианты, а вторая — их частоты щ (или частости р*).
Пример 6.2. В результате тестирования (см. пример 6.1) группа абитуриентов набрала баллы: 5, 3, 0, 1, 4, 2, 5, 4, 1, 5. Записать полученную выборку в виде: а) вариационного ряда; б) статистического ряда.
О а) Проранжировав статистические данные (т.е. исходный ряд), получим вариационный ряд (^(i), Х(2), • -.,Я(ю)):
(О, 1, 1, 2, 3, 4, 4, 5, 5, 5).
б) Подсчитав частоту и частость вариантов х\ = 0, х2 — 1, хз = 2, Х4 = 3, х$ = 4, xq = 5, получим статистическое распределение выборки (так называемый дискретный статистический ряд)
щ |
вероятностям р,, т.е. р* —-—> pi. Поэтому при больших значениях п
п—^оо
статистическое распределение мало отличается от истинного распределения.
В случае, когда число значений признака (с. в. X) велико или признак является непрерывным (т. е. когда с. в. X может принять любое значение в некотором интервале), составляют интервальный статистический ряд. В первую строку таблицы статистического распределения вписывают частичные промежутки [:eo,£i), [а; 1,), • • •, которые берут обычно одинаковыми по длине: h = х\ ~ хо — х2 — х\ =
=----- Для определения величины интервала (h) можно использовать
формулу Стерджеса:
Д _ ^niax ^min
l + log2n '
где жтах — Xmin — разность между наибольшим и наименьшим значениями признака, т = 1 + log2 п — число интервалов (log2n «3,322 Ign).
За начало первого интервала рекомендуется брать величину а:нач = = £min — 2' вт0Р°й строчке статистического ряда вписывают количество наблюдений пг (г = 1, к), попавших в каждый интервал.
Пример 6.3. Измерили рост (с точностью до см) 30 наудачу отобранных студентов. Результаты измерений таковы:
178, 160, 154, 183, 155, 153, 167, 186, 163, 155, 157, 175, 170, 166, 159, 173, 182, 167, 171, 169,
179, 165, 156, 179, 158, 171, 175, 173, 164, 172. Построить интервальный статистический ряд.
Q Для удобства проранжируем полученные данные:
153, 154, 155, 155, 156, 157, 158, 159, 160, 163, 164, 165, 166, 167, 167, 169,
170, 171, 171, 172, 173, 173, 175, 175, 178, 179, 179, 182, 183, 186.
Отметим, что X — рост студента — непрерывная с. в. При более точном измерении роста значения с. в. X обычно не повторяются (вероятность наличия на Земле двух человек, рост которых равен, скажем = 1,732050808... метров, равна нулю!).
Как видим, a:min = 153, xmax = 186; по формуле Стерджеса, при п = 30, находим длину частичного интервала
. „ 186 - 153 _ 33 _ _,.о П ~ 1 + log2 30 ~ 1 + 3,322 lg 30 ~ 5,907
Примем h = 6. Тогда згнач — 153 ~ | - 150. Исходные данные разбиваем на 6 (m = 1 + log230 = 5,907 «6) интервалов: [150,156), [156,162), [162,168), [168,174), [174, 180), [180, 186).
Подсчитав число студентов (щ), попавших в каждый из полученных промежутков, получим интервальный статистический ряд:
Рост | [150-156) | [156-162) | [162-168) | [168-174) | [174-180) | [180-186) |
Частота | ||||||
Частость | 0,13 | 0,17 | 0,20 | 0,23 | 0,17 | 0,10 |
Одним из способов обработки вариационного ряда является построение эмпирической функции распределения.
Эмпирической (статистической) функцией распределения называется функция F*(x), определяющая для каждого значения х частость события {X < ж}:
FZ(x)=p*{X<x}. (6.2)
Для нахождения значений эмпирической функции удобно F*(x) записать в виде
^п ~ ТГ'
где п — объем выборки, пх — число наблюдений, меньших х {х? R).
Очевидно, что F* (я) удовлетворяет тем же условиям, что и истинная функция распределения -Р(х) (см. п. 2.3).
При увеличении числа п наблюдений (опытов) относительная частота события {X < х} приближается к вероятности этого события (теорема Бернулли, п. 5.3). Эмпирическая функция распределения F*(x) является оценкой вероятности события {X < х}, т.е. оценкой теоретической функции распределения F(x) с. в. X. Имеет место
Теорема 6.1 (Гливенко). Пусть F(x) — теоретическая функция распределения с. в. X, a F*{x) — эмпирическая. Тогда для любого е > О
\ |
lim {|.F*(a:) — F(x)\ > £} = 0.
Пример 6.4. Построить функцию F*(x), используя условие и результаты примера 6.2.
О Здесь п = 10. Имеем./^(я) = -щ = 0 при х ^ 0 (наблюдений меньше 0 нет); F*q(x) = ~ при 0 < х < 1 (здесь пх = 1) и т. д. Окончательно
получаем
0, | при х ^ 0, |
0,1, | при 0 < х ^ 1, |
0,3, | при 1 < х ^ 2, |
0,4, | при 2 < х ^ 3, |
0,5, | при 3 < х < 4, |
0,7, | при 4 < х ^ 5, |
1, | при 5 < х. |
График эмпирической функции распределения приведен на рис. 59. •
^foOsU
Рис. 59 |