Статистическое распределение выборки. Эмпирическая функция распределения

Пусть изучается некоторая с. в. X. С этой целью над с. в. X производится ряд независимых опытов (наблюдений). В каждом из этих опытов величина X принимает то или иное значение.

Пусть она приняла п\ раз значение х\, п₂ раз — значение х₂,..., rifc раз — значение х^. При этом гц + п₂ +... 4-nfc ~ п — объем выборки. Значения х_2у..., х^ называются вариантами с. в. X.

Вся совокупность значений с. в. X представляет собой первичный статистический материал, который подлежит дальнейшей обработке, прежде всего — упорядочению.

Операция расположения значений случайной величины (признака) по неубыванию называется ранжированием статистических данных. Полученная таким образом последовательность £(2): • • ■ i ^х(и)

значений с. в. X (где ^ Х(₂) ^... ^ Я(_п) и X(i) = ^min X*,..., Х(„) = = max Xi) называется вариационным рядом.

(6.1)

(£ * = ю)

или

(!>.' = О 1 ⁷

х{

Pi

Статистическое распределение выборки является оценкой неизвестного распределения. В соответствии с теоремой Бернулли (п. 5.3) относительные частоты р* сходятся при п —)• оо к соответствующим

Числа п;, показывающие, сколько раз встречаются варианты Х{ в ряде наблюдений, называются частотами, а отношение их к объему выборки — частостями или относительными частотами (р*), т.е.

* _ Щ Pi п'

где п

i=l

Перечень вариантов и соответствующих им частот или частостей называется статистическим распределением выборки или статистическим рядом.

Записывается статистическое распределение в виде таблицы. Первая строка содержит варианты, а вторая — их частоты щ (или частости р*).

Пример 6.2. В результате тестирования (см. пример 6.1) группа абитуриентов набрала баллы: 5, 3, 0, 1, 4, 2, 5, 4, 1, 5. Записать полученную выборку в виде: а) вариационного ряда; б) статистического ряда.

О а) Проранжировав статистические данные (т.е. исходный ряд), получим вариационный ряд (^(i), Х(₂), • -.,Я(ю)):

(О, 1, 1, 2, 3, 4, 4, 5, 5, 5).

б) Подсчитав частоту и частость вариантов х\ = 0, х₂ — 1, хз = 2, Х4 = 3, х$ = 4, xq = 5, получим статистическое распределение выборки (так называемый дискретный статистический ряд)


щ

вероятностям р,, т.е. р* —-—> pi. Поэтому при больших значениях п

п—^оо

статистическое распределение мало отличается от истинного распределения.

В случае, когда число значений признака (с. в. X) велико или признак является непрерывным (т. е. когда с. в. X может принять любое значение в некотором интервале), составляют интервальный статистический ряд. В первую строку таблицы статистического распределения вписывают частичные промежутки [:eo,£i), [а; 1,), • • •, которые берут обычно одинаковыми по длине: h = х\ ~ хо — х₂ — х\ =

=----- Для определения величины интервала (h) можно использовать

формулу Стерджеса:

Д _ ^niax ^min

l + log₂n '

где ж_тах — Xmi_n — разность между наибольшим и наименьшим значениями признака, т = 1 + log₂ п — число интервалов (log₂n «3,322 Ign).

За начало первого интервала рекомендуется брать величину а:_нач = = £min — 2' ^вт0Р°й строчке статистического ряда вписывают количество наблюдений п_г (г = 1, к), попавших в каждый интервал.

Пример 6.3. Измерили рост (с точностью до см) 30 наудачу отобранных студентов. Результаты измерений таковы:

178, 160, 154, 183, 155, 153, 167, 186, 163, 155, 157, 175, 170, 166, 159, 173, 182, 167, 171, 169,

179, 165, 156, 179, 158, 171, 175, 173, 164, 172. Построить интервальный статистический ряд.

Q Для удобства проранжируем полученные данные:

153, 154, 155, 155, 156, 157, 158, 159, 160, 163, 164, 165, 166, 167, 167, 169,

170, 171, 171, 172, 173, 173, 175, 175, 178, 179, 179, 182, 183, 186.

Отметим, что X — рост студента — непрерывная с. в. При более точном измерении роста значения с. в. X обычно не повторяются (вероятность наличия на Земле двух человек, рост которых равен, скажем = 1,732050808... метров, равна нулю!).

Как видим, a:_min = 153, x_max = 186; по формуле Стерджеса, при п = 30, находим длину частичного интервала

. „ 186 - 153 _ 33 _ _,.о ^П ~ 1 + log₂ 30 ~ 1 + 3,322 lg 30 ~ 5,907

Примем h = 6. Тогда зг_нач — 153 ~ | - 150. Исходные данные разбиваем на 6 (m = 1 + log₂30 = 5,907 «6) интервалов: [150,156), [156,162), [162,168), [168,174), [174, 180), [180, 186).

Подсчитав число студентов (щ), попавших в каждый из полученных промежутков, получим интервальный статистический ряд:

Рост	[150-156)	[156-162)	[162-168)	[168-174)	[174-180)	[180-186)
Частота
Частость	0,13	0,17	0,20	0,23	0,17	0,10

Одним из способов обработки вариационного ряда является построение эмпирической функции распределения.

Эмпирической (статистической) функцией распределения называется функция F*(x), определяющая для каждого значения х частость события {X < ж}:

FZ(x)=p*{X<x}. (6.2)

Для нахождения значений эмпирической функции удобно F*(x) записать в виде

^п ~ ТГ'

где п — объем выборки, п_х — число наблюдений, меньших х {х? R).

Очевидно, что F* (я) удовлетворяет тем же условиям, что и истинная функция распределения -Р(х) (см. п. 2.3).

При увеличении числа п наблюдений (опытов) относительная частота события {X < х} приближается к вероятности этого события (теорема Бернулли, п. 5.3). Эмпирическая функция распределения F*(x) является оценкой вероятности события {X < х}, т.е. оценкой теоретической функции распределения F(x) с. в. X. Имеет место

Теорема 6.1 (Гливенко). Пусть F(x) — теоретическая функция распределения с. в. X, a F*{x) — эмпирическая. Тогда для любого е > О

lim {|.F*(a:) — F(x)\ > £} = 0.

Пример 6.4. Построить функцию F*(x), используя условие и результаты примера 6.2.

О Здесь п = 10. Имеем./^(я) = -щ = 0 при х ^ 0 (наблюдений меньше 0 нет); F*_q(x) = ~ при 0 < х < 1 (здесь п_х = 1) и т. д. Окончательно

получаем

0,	при х ^ 0,
0,1,	при 0 < х ^ 1,
0,3,	при 1 < х ^ 2,
0,4,	при 2 < х ^ 3,
0,5,	при 3 < х < 4,
0,7,	при 4 < х ^ 5,
1,	при 5 < х.

График эмпирической функции распределения приведен на рис. 59. •

^foOsU

Рис. 59

Статистическое распределение выборки. Эмпирическая функция распределения

Поиск по сайту