Пусть изучается случайная величина X с законом распределения, зависящим от одного или нескольких параметров. Например, это пара-
(пт. р~а \
метр а в распределении Пуассона (Р{Х — т} = ——— j или параметры а и а для нормального закона распределения.
Требуется по выборке Xi, Х2, • ■ •,Хп, полученной в результате п наблюдений (опытов), оценить неизвестный параметр в.
Напомним, что Х\, Х2,..., Хп — случайные величины: Х\ — результат первого наблюдения, Х2 — второго и т.д., причем с.в. Хг, i = 1,2,..., п, имеют такое же распределение, что и с. в. X; конкретная выборка xi,х2,...,хп — это значения (реализация) независимых с. в.
x2j..., хп. ^ ^
К1 Статистической оценкой вп (далее просто — оценкой в) параме
тра в теоретического распределения называют его приближенное значение, зависящее от данных выбора.
Очевидно, что оценка 0 есть значение некоторой функции результатов наблюдений над случайной величиной, т. е.
в = в(ХиХ2,...уХп). (7.1)
Функцию результатов наблюдений (т. е. функцию выборки) назы- вают статистикой.
Можно сказать, что оценка в параметра в есть статистика, которая в определенном смысле близка к истинному значению в.
Так, F*(x) есть оценка F_x{x), гистограмма — плотности f{x).
Оценка в является случайной величиной, так как является функцией независимых с. в. Xi, Х2у• • •, Хп\ если произвести другую выборку, то функция примет, вообще говоря, другое значение.
Бели число опытов (наблюдений) невелико, то замена неизвестного параметра в его оценкой 0, например математического ожидания средним арифметическим, приводит к ошибке. Это ошибка в среднем тем больше, чем меньше число опытов.
К оценке любого параметра предъявляется ряд требований, которым она должна удовлетворять, чтобы быть «близкой» к истинному значению параметра, т. е. быть в каком-то смысле «доброкачественной» оценкой.
|
Свойства статистических оценок
Качество оценки определяют, проверяя, обладает ли она свойствами несмещенности, состоятельности, эффективности. нч| Оценка 0 параметра 9 называется несмещенной, если МО = 9.
Если М9 Ф 0, то оценка в называется смещенной.
Чтобы оценка 0 не давала систематической ошибки (ошибки одного знака) в сторону завышения (М9 > 9) или занижения (М9 < в): надо потребовать, чтобы «математическое ожидание оценки было равно оцениваемому параметру». ^ Рч| Если Мвп —> ву то оценка вп называется асимптотически несме
щенной.
Требование несмещенности особенно важно при малом числе наблюдений (опытов). |н\| Оценка вп параметра 9 называется состоятельной, если она схо-
^ дится по вероятности к оцениваемому параметру:
$п —-—> 9,
п—»оо
т. е. для любого г > 0 выполнено
Пт р\\9п-е\<£) = 1.
п-+оо I J
Это означает, что с увеличением объема выборки мы все ближе приближаемся к истинному значению параметра 0, т. е. практически достоверно 9п да 9.
Свойство состоятельности обязательно для любого правила оценивания (несостоятельные оценки не используются).
Состоятельность оценки вп часто может быть установлена с помощью следующей теоремы.
Теорема 7.1. Если оценка вп параметра в является несмещенной и D$n —>■ 0 при п оо, то 9п — состоятельная оценка.
□ Запишем неравенство Чебышева для с. в. вп для любого е > 0:
р{\9п-9\<е)^\-Щ±.
£
Так как по условию lim D8n = 0, то lim Р(|0П — Щ < ^ 1- Но
п—>оо п—>оо
|
вероятность любого события не превышает 1 и, следовательно,
Р(\ёп-в \<е) = и
т. е. &п — состоятельная оценка параметра 9. Я
Несмещенная оценка 9п параметра 9 называется эффективной, если она имеет наименьшую дисперсию с^еди всех возможных несмещенных оценок параметра 0, т. е. оценка 9п эффективна, если ее дисперсия минимальна.
р{хи9) _ |
Эффективную оценку в ряде случаев можно найти, используя неравенство Рао-Крамера:
D8n Js
п-Г
где I = /(0) — информация Фишера, определяемая в дискретном случае формулой
1 = м[-§-в\пр(Х,в)] =52
г—\
где р{х}в) = р{Х = х}, а в непрерывном — формулой
оо 0
ДМ) \ |
'fiwr
f (x,0) dx,
где f(x,9) -— плотность распределения н.с.в. X.
Эффективность оценки определяется отношением
Овп
где в* — эффективная оценка. Чем ближе eff вп к 1, тем эффективнее оценка 9п. Если eff вп —> 1 при п —» оо, то оценка называется асимптотически эффективной.
Отметим, что на практике не всегда удается удовлетворить всем перечисленным выше требованиям (несмещенность, состоятельность, эффективность), и поэтому приходится довольствоваться оценками, не обладающими сразу всеми тремя свойствами. Все же три свойства, как правило, выделяют оценку однозначно.
Точечные оценки математического ожидания и дисперсии
Пусть изучается с. в. X с математическим ожиданием а — MX и дисперсией DX-, оба параметра неизвестны.
Статистика, используемая в качестве приближенного значения неизвестного параметра генеральной совокупности, называется ее точечной оценкой. То есть точечная оценка характеристики генеральной совокупности — это число, определяемое по выборке.
|
Пусть х\,х2,. •. — выборка, полученная в результате проведения п независимых наблюдений за с. в. X. Чтобы подчеркнуть случайный характер величин xi, х2,., перепишем их в виде Xi,X2,......,Хп, т.е. под Xi будем понимать значение с.в. X в г-м опыте. Случайные величины X1, Х2, ■ • • > Хп можно рассматривать как п независимых «экземпляров» величины X. Поэтому МХ\ = МХ2 =...... = МХп = MX = a, DX 1 - DX2 =... = DXn = DX.
Теорема 7.2. Пусть Xi, Х2,..., Хп — выборка из генеральной совокупности и MXi = MX = a, DXi — DX (i = 1, n). Тогда выборочное среднее
n
Хв = ^ У ^ Xi — несмещенная и состоятельная оценка математического t=i
ожидания MX.
Q Найдем м. о. оценки Х&:
МХъ = м(1 £х<) = = = 5 ■ - • а-
^ г=1 ' 1 ' г-1
Отсюда по определению получаем, что Хъ — несмещенная оценка MX. Далее, согласно теореме Чебышева (п. 5.2), для любого е > 0 имеет
^1 г=1 г=1 }
которое, согласно условию теоремы, можно переписать так:
Ит Р{\ХВ-МХ\ < е} = 1
n-J-oc k J
или, что то же самое, lim р{|0 — 9\ < е} = 1. Согласно определению
_ га—юо k
получаем, что Хв — состоятельная оценка MX. Ш
Можно показать, что при нормальном распределении с. в. X эта оценка, т. е. Хв, будет и эффективной. На практике во всех случаях в качестве оценки математического ожидания используется среднее арифметическое, т.е. Хв.
В статистике оценку математического ожидания принято обозначать через X или Хв, а не X. Покажем, что
МДз - ^Ч^ВХ. (7.2)
Действительно,
MDB = Ы(i ±(Xt - X)2) = М(I ±.X? - (I ± ') = = км(£хг) - ^м№2 + +.• • +
- 4г • m(Xi + х2 +... + xnf = UmxI + мх\ +... + мх2)-
п£
--..+Xl+2{XYX2 + ХхХг + +... + Xn-iXn)) =
Yl* \ v................. v ■. I ^ /
Cl
=. (Mit2 + MXI +... + MXD-
nz
2 (MXl • MI2 + MXiМХз + MX2MXz +... + MXn^tMXn) =
n2
• (MX2 + MX2 +... + MX2)-
2 _____________
место равенство |
n ---------------- v-
n
- -—{MX. MX + MX ■ MX +... + MX ■ MX) = n 1
- - (MX)2) =. DX.
Из равенства (7.2) следует, что MDB ф DX, т.е. выборочная дисперсия является смещенной оценкой дисперсии DX. Поэтому выборочную дисперсию исправляют, умножив ее на п, получая формулу
52 - (см. (6.11)).
Теорема 7.3. Пусть Х\у Х2,...,Хп — выборка из генеральной совокупности и MXi = MX — а, DXi = DX (г = 1,п). Тогда исправленная
п
выборочная дисперсия S2 = ^ ~~ -^О2 = п П ^ ' ^в — несмещен-
г=1
ная состоятельная оценка дисперсии DX.
Q Примем без доказательства состоятельность оценки S2. Докажем ее несмещенность. Имеем
MS2 = М = - MDB = • VL^IBX = DX,
\п — 1 / п — 1 п — 1 п
т. е. М52 = DX. Отсюда по определению получаем, что — несмещенная оценка DX. ■
Отметим, что при больших значениях п разница между DB и очень мала и они практически равны, поэтому оценку S2 используют для оценки дисперсии при малых выборках, обычно при п ^ 30. Имеют место следующие теоремы.
Теорема 7.4. Относительная частота появления события А в п независимых испытаниях является несмещенной состоятельной и эффективной оценкой неизвестной вероятности р = Р{А) этого события (р — вероятность наступления события А в каждом испытании).
Отметим, что состоятельность оценки в — непосредственно вытекает из теоремы Бернулли (см. п. 5.3).
Теорема 7.5. Эмпирическая функция распределения выборки F*(x) является несмещенной состоятельной оценкой функции распределения F(x) случайной величины X.
Пример 7.1. Монету подбрасывают п раз. Вероятность выпадения герба при каждом подбрасывания равна р. В ходе опыта монета выпала гербом па раз. Показать несмещенность оценки в = вероятности в = р выпадения герба в каждом опыте.
О Число успехов (пд) имеет распределение Бернулли. Тогда М(па) = = пр, D(ua) = npq = пр(1 — р). Следовательно, МО = М (j^-^j =
— — ■ М(пА) — ^ • п ■ р — р = т. е. оценка 0 = — несмещенная. •