Проверка статистических гипотез

Статистической гипотезой H называется предположение относительно параметра или вида распределения случайной величины.

Нулевой гипотезой H ₀ называют выдвигаемую гипотезу. Обычно считают, что H ₀ – гипотеза об отсутствии различий.

Конкурирующей гипотезой H ₁ называют гипотезу, которая противоречит нулевой. Гипотеза H ₁– гипотеза о значимости различий.

Проверку статистической гипотезы выполняют на основании результатов выборки. Поскольку выборка производится случайным образом и ограничена, то появляется возможность принятия ошибочного решения.

Статистическим критерием называют случайную величину, которая служит для проверки нулевой гипотезы. В качестве статистического критерия выбирается такая случайная величина, например, t, точное или приближенное распределение которой известно.

Наблюдаемым значением t _. называют значение критерия, вычисленное по данным выборки.

Уровнем значимости a называется вероятность того, что будет отвергнута правильная нулевая гипотеза, т.е. .

Уровень значимости a устанавливается заранее. Выбор, например, 5%-го уровня значимости означает, что в пяти случаях применения критерия из ста верная гипотеза будет отвергнута. Стремление к уменьшению a ведет к одновременному уменьшению вероятности отвергнуть гипотезу, когда она является ложной.

В экономических исследованиях проверку гипотез осуществляют при 5%-ном и 1%-ом уровнях значимости, которые называются с т андартными уровнями значимости.

Замечание. Между переменными t и α установлено взаимно однозначное соответствие.

Проверку статистических гипотез можно произвести двумя способами.

Способ 1. Стандартным уровням значимости α соответствуют определенные значения t _кр= t (α), называемые критическими точками.

Практически, значения критических точек t _кр.1для α = 0,05 и t _кр.2для α = 0,01 определяются по таблицам известного распределения выбранного критерия. Также соответствующие значения можно вычислить с помощью функций Excel.

Для наглядности процесса принятия решения на координатной оси t указывают эти критические точки, рис. 4

Рис. 4

Критические точки разбивают множество значений критерия t на три непересекающиеся области.

Область левее критической точки t _кр.1называется зоной незначимости. Если t <t_кр.1,то H ₀принимается на уровне значимости 0,05, и тем более на уровне 0,01.

Область правее критической точки t _кр.2называется зоной значимости. Если t > t _кр.2, то H ₀отвергается на уровне значимости 0,01, и тем более отвергается на уровне 0,05.

Область между двумя критическими точкаминазывается зоной неопределенности. Если t _кр.1 < t _.< t _кр.2,то H ₀отвергается на уровне 0,05, но принимается на уровне 0,01.

Таким образом, если наблюдаемое значение критерия t больше критического значения t _кр для заданного стандартного уровня значимости, то гипотеза H ₀отвергается и исследуемый показатель является статистически значимым.

Способ 2. Наблюдаемому значению критерия t соответствует определенное значение уровня значимости α (t), которое в дальнейшем будем обозначать как з начимость t = α (наблюдаемое значение t). Практически, значимость t можно определить с помощью функции Excel.

Для наглядности процесса принятия решения на координатной оси a указывают его стандартные значения 0,01 и 0,05, рис. 5.

Рис.5

Стандартные значения 0,01 и 0,05 разбивают множество значений α на три непересекающиеся области.

Область левее стандартной точки 0,01 является зоной значимости.

Если значимость t < 0,01, то Н ₀ отвергается на уровне 0,01, и тем более отвергается на уровне 0,05_.

Область правее стандартной точки 0,05 является зоной незначимости.

Если значимость t > 0,05, то H ₀принимается на уровне 0,05, и тем более принимается на уровне 0,01.

Область между двумя стандартными точкамиявляется зоной неопределенности. Если 0,01 < значимость t _.< 0,05, то H ₀принимается на уровне 0,01, но отвергается на уровне 0,05.

Таким образом, если значимость t меньше заданного стандартного уровня, то гипотеза H ₀отвергается и исследуемый показатель является статистически значимым.

Такая проверка осуществляется в современных статистических пакетах на компьютере, в которых значимость критерия подсчитывается непосредственно в процессе работы.

Если в качестве критерия проверки нулевой гипотезы используется случайная величина, подчиненная распределению Стьюдента, то ее обозначают через t (t -статистика), а подчиненная распределению Фишера – через F (F -статистика).

t -статистика часто используется для проверки гипотезы о значимости выборочной оценки исследуемого параметра и нахождения интервальных оценок параметра. В качестве критерия t принимается отношение выборочной оценки параметра к ее стандартной ошибке: .

F -статистика используется для проверки гипотезы о равенстве дисперсий. В качестве критерия F принимают отношение исправленных выборочных дисперсий: .

В дальнейшем для проверки статистических гипотез будем использовать в основном способ 2.

Ковариация и корреляция

Различают выборочную и теоретическую ковариацию.

Выборочной ковариацией двух переменных x, y называется средняя величина произведения отклонений этих переменных от своих средних, т.е.

, или

где – выборочные средние переменных x, y.

Выборочная ковариация является мерой взаимосвязи между двумя переменными.

Пусть данные наблюдений переменных x, y представлены в виде точечного графика – диаграммы рассеяния наблюдения, рис. 6.

Рис. 6

Точка () на диаграмме является центром рассеяния переменных x, y.

Вертикальная и горизонтальная прямые, проведенные через точку разделяют диаграмму рассеяния на четыре области.

Наблюдения в областяхI, III, в которых , дают положительный вклад в ковариацию, а в областях II, IV, в которых – отрицательный вклад.

Если положительные вклады преобладают над отрицательными, то ковариация будет положительной, иначе – отрицательной.

Положительной ковариации отвечает положительная связь, а отрицательной – отрицательная связь.

При положительной (прямой) связи с увеличением одной переменной другая переменная в среднем также увеличивается, и, наоборот, при отрицательной (обратной) связи.

Заметим, что: .

Правила расчета ковариации (a,b – const):

Доказательство вытекает из определения ковариации. Например:

2) .

5) var(u + v) = cov(u + v, u + v) = cov(u,u) + cov(v,v) + 2cov(u,v) = var(u) + var(v) + 2cov(u,v).

Теоретической ковариацией случайных величин X, Y называется математическое ожидание произведения отклонений этих величин от своих средних значений, т.е.

Cov (X, Y) = M [(X – m_X) (Y – m_Y)], где m_X = M (X), m_Y = M (Y).

Запись Cov (X, Y) указывает на то, что ковариация рассматривается по генеральной совокупности.

Заметим, что Сov (X,X) = M (X–m_X)² = s_X ².

Свойство. Если случайные величины X,Y независимы, то теоретическая ковариация равна нулю, т.е. С ov (X,Y) = 0.

Более точной мерой зависимости между величинами является коэффициент корреляции. Различают теоретический и выборочный коэффициенты корреляции.

Теоретический коэффициент корреляции определяется выражением:

,

где s_X, s_Y – стандартные отклонения случайных величин X, Y.

Коэффициент корреляции является безмерной величиной, изменяющейся в пределах –1 r 1.

Коэффициент корреляции показывает степень (тесноту) линейной связи двух случайных величин, причем:

· r > 0 при положительной связи и r = 1 при строгой положительной линейной связи;

· r < 0 при отрицательной связи и r = –1 при строгой отрицательной линейной связи;

· r = 0 при отсутствии линейной связи.

Определение. Случайные величины X, Y называются некоррелированными, если r = 0, и коррелированными, если r 0.

Независимость случайных величин X, Y означает отсутствие любой связи между ними (линейной и нелинейной), а некоррелированность – отсутствие только линейной связи.

Если случайные величины X, Y независимы, то они некоррелированы (r = 0), но из некоррелированности не следует их независимость, т.е. равенство r = 0 указывает на отсутствие линейной связи между величинами, но не на отсутствие связи между ними вообще.

Выборочный коэффициент корреляции определяется выражением:

.

При каждом конкретном значении r_xy выборочный коэффициент корреляции является случайной величиной, изменяющийся в пределах –1 r 1.

На рис. 7 отражен геометрический смысл коэффициента корреляции.

x

x

Рис. 7

Если r = 0 для генеральной совокупности, то это необязательно означает, что r = 0 для выборочной совокупности.

Проверка статистических гипотез

Поиск по сайту