Статистическая оценка параметров




Основной задачей математической статистики является разработка методов получения научно обоснованных выводов о массовых явлениях и процессах из данных наблюдений или экспериментов.

Вся подлежащая изучению совокупность объектов называется генеральной совокупностью. Та часть объектов, которая была отобрана из генеральной совокупности, называется выборочной совокупностью или, более коротко, выборкой. Число элементов генеральной или выборочной совокупности называется объемом. Договоримся, обозначать объем выборки буквой n, а объем генеральной совокупности буквой N.

Выборка, в общем случае, образуется для оценки каких-либо характеристик генеральной совокупности. Однако не всякая выборка может быть действительным представлением о генеральной совокупности. Для того чтобы по данным выборки можно было достаточно уверенно судить об интересующем признаке генеральной совокупности необходимо, чтобы объект выборки правильно его представлял. Другими словами, выборка должна правильно представлять пропорции генеральной совокупности. Это требование коротко формулируется так: выборка должна быть репрезентативной (или представительной). Репрезентативность выборки обеспечивается случайностью отбора. При случайном отборе все объекты генеральной совокупности имеют одинаковую вероятность попасть в выборку.

При исследовании какой-либо генеральной совокупности важно знать числовые характеристики наблюдаемых признаков (среднее значение, дисперсию и др.). Однако генеральная совокупность неизвестна, и судить о ней приходится по выборке. Но состав выборки случаен, поэтому выводы о параметрах генеральной совокупности, сделанные на основании выборочных данных, тоже будут иметь случайный характер. Следовательно, ни при каком объёме выборки, вообще говоря, нельзя получить точное значение неизвестного параметра q, а можно лишь найти его приближённое значение , которое называется оценкой неизвестного параметра по выборке.

Поскольку любая выборка является случайной величиной, то любая оценка, полученная по выборочным данным, тоже будет случайной величиной. Следовательно, можно говорить о математическом ожидании, дисперсии и функции распределения оценки. Выбор оценки, позволяющей получить «хорошее» приближение оцениваемого параметра – основная задача статистического оценивания.

Статистическая оценка называется точечной, если она выражается одним числом. Точечными оценками соответствующих показателей генеральной совокупности служат определённые характеристики выборочной совокупности. Вообще говоря, можно получить много различных формул (или, как говорят, статистик) для вычисления тех или иных оценок. Все эти формулы должны удовлетворять следующим требованиям:

1. Оценки должны быть состоятельными, т.е. при увеличении объёма выборки возрастает вероятность того, что полученная оценка будет сколь угодно мало отличаться от истинного значения.

2. Оценки должны быть несмещёнными, т.е. . Это требование гарантирует отсутствия систематических ошибок при оценке параметров. Однако, если оценка является состоятельной, то при большом объёме выборки требованием несмещённости часто пренебрегают.

3. Оценки должны быть эффективными, т.е. . Вопрос о нахождении эффективных оценок является наиболее сложным в теории оценивания. Поэтому на практике часто используют оценки, которые не являются эффективными.

Выборочная средняя

(3.13)

является состоятельной и несмещенной оценкой среднего значения генеральной совокупности. Эта оценка является эффективной в классе линейных несмещенных оценок.

Выборочная дисперсия

(3.14)

является состоятельной, но смещенной оценкой дисперсии генеральной совокупности. Выборочная дисперсия оценивает генеральную дисперсию с недостатком, поэтому в качестве оценки дисперсии лучше брать исправленную дисперсию:

. (3.15)

Исправленная дисперсия s 2 является состоятельной и несмещенной оценкой дисперсии генеральной совокупности. Из состоятельности оценок s 2 и Dвыб следует, что при больших выборках (обычно при n >50) разности между ними практически нет. Если выборка взята из нормально распределённой генеральной совокупности, то оценка дисперсии s 2 будет оптимальной.

После получения точечной оценки желательно иметь данные о надежности такой оценки. Понятно, что величина является лишь приближенным значением параметра q. Вычисленная точечная оценка может быть близка к оцениваемому параметру, а может и очень сильно отличаться от него. Точечная оценка не несет информации о точности процедуры оценивания. Особенно важно иметь сведения о надежности оценок для небольших выборок. В таких случаях следует пользоваться интервальными оценками.

Задачу интервального оценивания в самом общем виде можно сформулировать следующим образом: по данным выборки построить числовой интервал, относительно которого с заранее выбранной вероятностью можно сказать, что внутри этого интервала находится оцениваемый параметр. Здесь существует несколько подходов. Наиболее распространенным методом интервального оценивания является метод доверительных интервалов.

Доверительным интервалом для параметра q называется интервал , содержащий неизвестное значение параметра генеральной совокупности с заданной вероятностью g, т.е.

.

Число g называется доверительной вероятностью, а число a=1–g – уровнем надежности. Доверительная вероятность задается априорно и определяется конкретными условиями. Обычно используется g=0,9; 0,95; 0,99 (соответственно, a=0,1; 0,05; 0,01).

Длина доверительного интервала, характеризующая точность интервальной оценки, зависит от объема выборки n и доверительной вероятности g. При увеличении величины n длина доверительного интервала уменьшается, а с приближением вероятности g к единице – увеличивается.

Часто доверительный интервал строят симметричным относительно точечной оценки, т.е. в виде

, (3.16)

или

.

Здесь число D называется предельной (или стандартной) ошибкой выборки.

Пусть количественный признак X генеральной совокупности имеет нормальное распределение с заданной дисперсией s2 и неизвестным математическим ожиданием a. Для оценки параметра a извлечена выборка x 1, x 2, …, xn, состоящей из n независимых нормально распределенных случайных величин с параметрами a и s, причем s известно, а величину a оценивают по выборке:

.

Тогда, . Если воспользоваться теперь формулой нахождения вероятности отклонения нормально распределенной случайной величины от математического ожидания, получим доверительный интервал оценки среднего значения генеральной совокупности при известной дисперсии:

, (3.17)

или более кратко

, (3.18)

где предельная ошибка выборки, средняя ошибка выборки.

Число t g определяется из равенства . Приведем значения t g для широко распространенных значений доверительной вероятности:

, , .

Пример 3.2. На основе продолжительных наблюдений за весом X пакетов орешков, заполняемых автоматически, установлено, что среднее квадратичное отклонение веса пакетов равно s=10 г. Взвешено 25 пакетов, при этом их средний вес составил . В каком интервале с надежностью 95% лежит истинное значение среднего веса пакетов?

Решение. Логично считать, случайная величина X имеет нормальный закон распределения: . Найдем среднюю ошибку выборки

.

Для определения 95%-го доверительного интервала вычислим предельную ошибку выборки

.

Следовательно 95%-й доверительный интервал для истинное значение среднего веса пакетов будет иметь вид

,

или

.

На первый взгляд может показаться, что полученный результат представляет только теоретический результат, поскольку среднее квадратичное отклонение s, как правило, тоже неизвестно и вычисляется по выборочным данным. Однако если выборка достаточно большая, то полученный результат вполне приемлем для практического использования, поскольку функция распределения будет мало отличаться от нормальной, а оценка дисперсии s 2 будет достаточно близка к истинному значению s2. Более того, полученный результат часто используют и в том случае, когда распределение генеральной совокупности отличается от нормального. Это обусловлено тем, что сумма независимых случайных величин, в силу центральной предельной теоремы, при больших выборках имеет распределение, близкое к нормальному.

Выше была решена задача построения интервальной оценки для математического ожидания нормального распределения, когда его дисперсия известна. Однако на практике дисперсия обычно тоже неизвестна и ее вычисляют по той же самой выборке, что и математическое ожидание. Это приводит к необходимости использования другой формулы при определении доверительного интервала для математического ожидания случайной величины, имеющей нормальное распределение. Такая постановка задачи особенно актуальна при малых объемах выборки.

Пусть количественный признак X генеральной совокупности имеет нормальное распределение N (a,s), причем оба параметра a и s неизвестны. По данным выборки x 1, x 2, …, xn, вычислим среднее арифметическое и исправленную дисперсию:

, .

Для нахождения доверительного интервала в этом случае строится статистика

, (3.19)

имеющая распределение Стьюдента с числом степеней свободы n= n –1 независимо от значений параметров a и s. Отсюда находят интервальную оценку для среднего значения генеральной совокупности при неизвестном s:

, (3.20)

или более кратко:

, (3.21)

где предельная ошибка выборки. Число t (коэффициент Стьюдента) находится из таблиц для распределения Стьюдента. Отметим, что он является функцией двух аргументов: доверительной вероятности g и числа степеней свободы n= n –1, т.е. t=t (g,n).

Следует быть очень внимательным при использовании таблиц для распределения Стьюдента. Во-первых, обычно в таблицах вместо доверительной вероятности g используют уровень надежности a=1–g. Во-вторых, очень часто в таблицах приводятся значения т.н. одностороннего критерия Стьюдента

, или .

В этом случае в таблицах следует брать значения , если в таблице используется уровень надежности, или , если в таблице используется доверительная вероятность.

Несмотря на кажущееся сходство формул (3.17) и (3.20), между ними имеется существенное различие, заключающееся в том, что коэффициент Стьюдента t зависит не только от доверительной вероятности, но и от объема выборки. Особенно это различие заметно при малых выборках. (Напомним, что при больших выборках различие между распределением Стьюдента и нормальным распределением практически исчезает.) В этом случае использование нормального распределения приводит к неоправданному сужению доверительного интервала, т.е. к неоправданному повышению точности. Например, если n =5 и g=0,99, то, пользуясь распределением Стьюдента, получим t =4,6, а используя нормальное распределение, – t =2,58, т.е. доверительный интервал в последнем случае почти в два раза уже, чем интервал при использовании распределения Стьюдента.

Пример 3.3. Аналитик фондового рынка оценивает среднюю доходность определенных акций. Случайная выборка 15 дней показала, что средняя (годовая) доходность со средним квадратичным отклонением . Предполагая, что доходность акций подчиняется нормальному закону распределения (с параметрами a =10,37 и ), постройте 95%-доверительный интервал для средней доходности интересующего аналитика вида акций.

Решение. Поскольку объем выборки n =15 небольшой, то для построения доверительного интервала для математического ожидания (генеральной средней) необходимо применить распределение Стьюдента с степенями свободы. По условиям задачи доверительная вероятность равна g=0,95, т.е. уровень надёжности равен a=0,05. По таблицам для распределения Стьюдента находим

.

Используя это значение, строим 95%-доверительный интервал:

,

или

.

Следовательно, аналитик может быть на 95% уверен, что средняя годовая доходность по акциям находится между 8,44% и 12,3%.

Пример 3.4. Предполагая, что генеральная совокупность имеет нормальное распределение, построить доверительный интервал для математического ожидания отклонения, вычисленного в примере 3.1, с доверительной вероятностью g=0,95.

Решение. Поскольку выборочная дисперсия является смещенной оценкой, вычисляем исправленную выборочную дисперсию:

.

Тогда среднеквадратичное отклонение равно

.

Найдем коэффициент Стьюдента. В рассматриваемом случае n =90, следовательно n = n –1=89. Тогда, при g=0,95 (или a=0,05) по таблицам для распределения Стьюдента находим:

.

В результате получаем (см. формулу (3.20))

.

Отсюда

.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-04-02 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: