Статистическое распределение выборки. Эмпирическая функция распределения




Пусть изучается некоторая с. в. X. С этой целью над с. в. X про­изводится ряд независимых опытов (наблюдений). В каждом из этих опытов величина X принимает то или иное значение.

Пусть она приняла п\ раз значение х\, п2 раз — значение х2,..., rifc раз — значение х^. При этом гц + п2 +... 4-nfc ~ п — объем выборки. Значения х..., х^ называются вариантами с. в. X.

Вся совокупность значений с. в. X представляет собой первичный статистический материал, который подлежит дальнейшей обработке, прежде всего — упорядочению.

Операция расположения значений случайной величины (призна­ка) по неубыванию называется ранжированием статистических дан­ных. Полученная таким образом последовательность £(2): • • ■ i х(и)


значений с. в. X (где ^ Х(2) ^... ^ Я(п) и X(i) = ^min X*,..., Х(„) = = max Xi) называется вариационным рядом.

(6.1)
\1
(£ * = ю)
или

(!>.' = О 1 7
х{            
             
Pi            
Статистическое распределение выборки является оценкой неиз­вестного распределения. В соответствии с теоремой Бернулли (п. 5.3) относительные частоты р* сходятся при п —)• оо к соответствующим

Числа п;, показывающие, сколько раз встречаются варианты Х{ в ряде наблюдений, называются частотами, а отношение их к объему выборки — частостями или относительными частотами (р*), т.е.

* _ Щ Pi п'

где п

i=l

Перечень вариантов и соответствующих им частот или частостей называется статистическим распределением выборки или статисти­ческим рядом.

Записывается статистическое распределение в виде таблицы. Пер­вая строка содержит варианты, а вторая — их частоты щ (или часто­сти р*).

Пример 6.2. В результате тестирования (см. пример 6.1) группа аби­туриентов набрала баллы: 5, 3, 0, 1, 4, 2, 5, 4, 1, 5. Записать полученную выборку в виде: а) вариационного ряда; б) статистического ряда.

О а) Проранжировав статистические данные (т.е. исходный ряд), по­лучим вариационный ряд (^(i), Х(2), • -.,Я(ю)):

(О, 1, 1, 2, 3, 4, 4, 5, 5, 5).

б) Подсчитав частоту и частость вариантов х\ = 0, х2 — 1, хз = 2, Х4 = 3, х$ = 4, xq = 5, получим статистическое распределение выборки (так называемый дискретный статистический ряд)

             
щ            

 

вероятностям р,, т.е. р* —-—> pi. Поэтому при больших значениях п

п—^оо

статистическое распределение мало отличается от истинного распре­деления.

В случае, когда число значений признака (с. в. X) велико или при­знак является непрерывным (т. е. когда с. в. X может принять любое значение в некотором интервале), составляют интервальный стати­стический ряд. В первую строку таблицы статистического распределе­ния вписывают частичные промежутки [:eo,£i), [а; 1,), • • •, которые берут обычно одинаковыми по длине: h = х\ ~ хо — х2 — х\ =

=----- Для определения величины интервала (h) можно использовать

формулу Стерджеса:

Д _ ^niax ^min

l + log2n '

где жтах — Xmin — разность между наибольшим и наименьшим значени­ями признака, т = 1 + log2 п — число интервалов (log2n «3,322 Ign).

За начало первого интервала рекомендуется брать величину а:нач = = £min — 2' вт0Р°й строчке статистического ряда вписывают коли­чество наблюдений пг (г = 1, к), попавших в каждый интервал.

Пример 6.3. Измерили рост (с точностью до см) 30 наудачу отобран­ных студентов. Результаты измерений таковы:

178, 160, 154, 183, 155, 153, 167, 186, 163, 155, 157, 175, 170, 166, 159, 173, 182, 167, 171, 169,

179, 165, 156, 179, 158, 171, 175, 173, 164, 172. Построить интервальный статистический ряд.

Q Для удобства проранжируем полученные данные:

153, 154, 155, 155, 156, 157, 158, 159, 160, 163, 164, 165, 166, 167, 167, 169,

170, 171, 171, 172, 173, 173, 175, 175, 178, 179, 179, 182, 183, 186.

Отметим, что X — рост студента — непрерывная с. в. При более точном измерении роста значения с. в. X обычно не повторяются (веро­ятность наличия на Земле двух человек, рост которых равен, скажем = 1,732050808... метров, равна нулю!).

Как видим, a:min = 153, xmax = 186; по формуле Стерджеса, при п = 30, находим длину частичного интервала

. „ 186 - 153 _ 33 _ _,.о П ~ 1 + log2 30 ~ 1 + 3,322 lg 30 ~ 5,907

Примем h = 6. Тогда згнач — 153 ~ | - 150. Исходные данные разбиваем на 6 (m = 1 + log230 = 5,907 «6) интервалов: [150,156), [156,162), [162,168), [168,174), [174, 180), [180, 186).

Подсчитав число студентов (щ), попавших в каждый из получен­ных промежутков, получим интервальный статистический ряд:

Рост [150-156) [156-162) [162-168) [168-174) [174-180) [180-186)
Частота            
Частость 0,13 0,17 0,20 0,23 0,17 0,10

 

Одним из способов обработки вариационного ряда является постро­ение эмпирической функции распределения.

Эмпирической (статистической) функцией распределения называ­ется функция F*(x), определяющая для каждого значения х частость события {X < ж}:

FZ(x)=p*{X<x}. (6.2)

Для нахождения значений эмпирической функции удобно F*(x) за­писать в виде

^п ~ ТГ'

где п — объем выборки, пх — число наблюдений, меньших х {х? R).

Очевидно, что F* (я) удовлетворяет тем же условиям, что и истин­ная функция распределения -Р(х) (см. п. 2.3).

При увеличении числа п наблюдений (опытов) относительная ча­стота события {X < х} приближается к вероятности этого события (теорема Бернулли, п. 5.3). Эмпирическая функция распределения F*(x) является оценкой вероятности события {X < х}, т.е. оценкой теоретической функции распределения F(x) с. в. X. Имеет место

Теорема 6.1 (Гливенко). Пусть F(x) — теоретическая функция рас­пределения с. в. X, a F*{x) — эмпирическая. Тогда для любого е > О

\

lim {|.F*(a:) — F(x)\ > £} = 0.

Пример 6.4. Построить функцию F*(x), используя условие и резуль­таты примера 6.2.

О Здесь п = 10. Имеем./^(я) = -щ = 0 при х ^ 0 (наблюдений мень­ше 0 нет); F*q(x) = ~ при 0 < х < 1 (здесь пх = 1) и т. д. Окончательно

получаем

0, при х ^ 0,
0,1, при 0 < х ^ 1,
0,3, при 1 < х ^ 2,
0,4, при 2 < х ^ 3,
0,5, при 3 < х < 4,
0,7, при 4 < х ^ 5,
1, при 5 < х.

 

График эмпирической функции распределения приведен на рис. 59. •

^foOsU

Рис. 59

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-02-12 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: