· Нормальное распределение.
Это распределение полностью определяется математическим ожиданием μ и средним квадратическим отклонением s. Плотность нормального распределения записывается в виде:
,
где .
Кривая плотности нормального распределения имеет форму симметричного колокола, см. рис.П2.1.
Рис.П2.1.Кривая плотности и интегральная кривая нормального распределения при μ=1 иs=0,8
· Логнормальное распределение
Переменная называется логнормально распределенной, если ее логарифм нормально распределен. Такая ситуация возникает, когда рассматривают распределение произведения большого числа случайных, одинаково распределенных независимых величин. Обозначим за μ математическое ожидание и за s среднее квадратическое отклонение логарифма логнормального распределения. Тогда математическое ожидание и дисперсия самого логнормального распределения вычисляются по формулам:
M(Y) = ; D(Y) =
.
Из определения вытекает, что для плотности логнормального распределения справедливо соотношение
.
На рис.П2.2 отражены кривые плотности и интегральной функции логнормального распределения
Рис.П2.2.Кривая плотности и интегральная кривая логнормального распределения при μ=1 и s=0,8.
· -квадрат распределение
Пусть - нормальные независимые случайные величины с нулевым математическим ожиданием и единичной дисперсией. Тогда сумма квадратов этих величин
имеет распределение
с n степенями свободы. Плотность
-распределения выражается формулой:
,
где Г(x)= - гамма функция, в частности Г(n+1)=n!.
На рис.П2.3 изображены кривые плотности и интегральной функции распределения
Рис.П2.3.Кривая плотности и интегральная кривая -распределения при n=10.
· Распределение Стьюдента
Пусть , а
- распределенная по закону
независимая от
случайная величина с k степенями свободы. Тогда случайная величина
распределена по закону Стьюдента (t -распределение) с k степенями свободы. На рис.П2.4 изображены графики кривых плотности и интегральной функции t -распределения с k =5 степенями свободы.
Рис.П2.4.Кривая плотности и интегральная кривая t -распределения при k=5.
· Распределение Фишера.
Если U и V независимые -распределенные случайные величины со степенями свободы n1 и n2, то величина
является распределением Фишера со степенями свободы n1 и n2.
Рис.П2.5.Кривая плотности и интегральная кривая F -распределения при n1=5 и n2=5.
Основные понятия математической статистики. Точечные оценки параметров.
В математической статистике исследуемую случайную величину, в общем случае – многомерную, принято называть генеральной совокупностью, а её реализации в последовательности независимых испытаний – выборкой из генеральной совокупности, или коротко – выборкой. Сами значения случайной величины принято называть элементами выборки, а их количество – объёмом выборки. Основной задачей статистического исследования является описание генеральной совокупности по имеющейся выборке. Как правило, эта задача сводится к нахождению закона распределения случайной величины или определению её числовых характеристик.
Статистикой называется любая функция элементов выборки . Очевидно, если рассматривать элементы выборки как независимые одинаково распределённые случайные величины, то и статистику следует рассматривать как случайную величину, имеющую свой закон распределения.
Любые характеристики случайной величины, полученные по выборке, называются выборочными или эмпирическими. Статической оценкой называется выборочная характеристика, используемая в качестве приближённого значения неизвестной характеристики генеральной совокупности. Так, статистической оценкой плотности распределения непрерывной случайной величины является гистограмма.
Статистическая оценка, представленная в виде числа – точки на числовой прямой, называется точечной. Пригодность использования в приложениях точечной оценки зависит от наличия у неё таких свойств как несмещённость, состоятельность, эффективность.
Пусть - случайная выборка и
выборочная оценка некоторого параметра
. Оценка
называется несмещенной, если для любого фиксированного
выполняется равенство
. Это равенство гарантирует, что использование этой оценки не приводит к систематическим ошибкам.
Оценка называется состоятельной, если она сходится по вероятности к значению параметра
, т.е. выполняется условие
для любого
. Выполнение этого условия означает, что с увеличением объема выборки возрастает наша уверенность в малом по абсолютной величине отклонении оценки
от истинного значения параметра
.
Оценка называется эффективной, если она обладает наименьшей дисперсией по сравнению с любыми другими оценками. Эффективная оценка является наилучшей в смысле минимума среднеквадратичного отклонения оценки
от истинного значения параметра
.
В качестве оценки математического ожидания принято использовать среднее выборочное
Эта оценка является несмещённой, состоятельной, а в случае нормального распределения генеральной совокупности – эффективной.
Несмещенной, состоятельной оценкой дисперсии является выборочная (исправленная) дисперсия
.
Выборочная ковариация определяется формулой
,
где и
- выборочные средние величин
и
соответственно. Величина
является выборочной оценкой коэффициента ковариации
. Оценкой коэффициента корреляции является выборочный коэффициент корреляции
.
И нтервальные оценки и проверка статистических гипотез.
Интервальной оценкой параметра называется интервал
, который с заданной вероятностью
(
) накрывает неизвестное значение
. При этом сам интервал
называется д оверительным, а вероятность
- доверительной или уровнем надежности. Величина
называется уровнем значимости.
Для построения интервальной оценки параметра необходимо знать закон распределения статистики
и задать уровень надёжности
. Границы доверительного интервала определяются условием
.
Доверительный интервал для математического ожидания нормально распределенной случайной величины , построенный по выборке
на уровне надёжности
имеет вид
,
где - двусторонняя
- квантиль распределения Стьюдента с
-ой степенью свободы, а
- среднеквадратичное отклонение выборочной средней.
Доверительный интервал для дисперсии нормально распределенной случайной величины с заданным уровнем надежности
определяется следующим образом:
,
где и
- квантили уровней
и
распределения
, т.е. величины, удовлетворяющие соотношениям
и
.
Статистической гипотезой принято считать любое предположение о законе распределения случайной величины генеральной совокупности или о значениях параметров закона распределения. Высказанное предположение, которое подлежит проверке, обозначается и называется основной или нулевой гипотезой. Наряду с основной гипотезой в рассмотрение вводится и противоречащая ей гипотеза
, которая называется конкурирующей или альтернативной
. Цель проверки статистической гипотезы заключается в том, чтобы установить, не противоречит ли высказанная гипотеза
имеющимся выборочным данным
.
Для проверки нулевой гипотезы формируется статистический критерий - специальная статистика , распределение которой в условиях
известно. По известному распределению статистического критерия определяется множество значений, которые величина
принимает с вероятностью
, близкой к единице, т.е. практически достоверно. Это множество называется областью принятия нулевой гипотезы
. Дополнение этого множества образует критическую область (или область отвержения
).
Проверка нулевой гипотезы осуществляется следующим образом. По выборочным данным вычисляется значение критерия . Если значение
принадлежит критической области, то проверяемая гипотеза отвергается, как противоречащая выборочным данным, и принимается альтернативная гипотеза
. Если же
принадлежит области принятия нулевой гипотезы, то принимается гипотеза
как не противоречащая имеющимся данным. В этом случае говорят, что нулевая гипотеза принимается на уровне значимости
.
Уровень значимости характеризует вероятность совершить ошибку первого рода, заключающуюся в напрасном отвержении имеющей место нулевой гипотезы -
. Ошибкой второго рода называется ошибка принятия ложной гипотезы
.
В компьютерных системах, в частности в STATISTICA, для выборочного значения критерия определяется уровень значимости нулевой гипотезы
(или
-
-значение), величина которого определяется условием
. Это значение характеризует вероятность ошибки, связанной с распространением утверждения нулевой гипотезы на всю генеральную совокупность. Чем меньше
- значение, тем увереннее происходит отвержение основной гипотезы. В практических задачах в качестве стандартного уровня принят 5%-ый уровень значимости.
В заключение укажем на принцип двойственности теории построения доверительных интервалов и проверки гипотез о значениях параметров распределения. Нетрудно убедиться в том, что при выбранном уровне надежности доверительный интервал для некоторого параметра
составляют те значения параметра, которые совместимы с гипотезой
при уровне значимости
.
Приложение 3