Однофакторный дисперсионный анализ.




Пусть некоторый признак Х имеет нормальное распределение. На этот признак действует постоянный фактор F, который имеет k постоянных уровней, а число наблюдений на каждом соответственно: n1, n2, nk.

Например, требуется выяснить, какой вид лекарственного препарата наиболее эффективен при заболевании шизофренией (признак Х). Фактор F – препарат, F1, F2, …Fк – разновидности этого лекарственного препарата.

Основная идея дисперсионного анализа состоит в сравнении «факторной дисперсии » (S2факт), порождаемой воздействием фактора и «остаточной дисперсии» (S2ост), обусловленной случайными причинами. Для такого сравнения используют критерий Фишера (F-критерий). Если различие между этими дисперсиями значимо, то фактор оказывает существенное влияние на изучаемый признак; в этом случае средние наблюдаемых значений на каждом уровне различаются также значимо.

Пусть наблюдались значений xij признака Х, где

–номер испытания

–номер уровня

k – число уровней фактора

nj –число испытаний на каждом уровне.

 

Результаты испытаний занесены в таблицу№1.

№ испытания Уровни фактора
i Группа1 Группа2 ... Группаk
  X11 X12 ... X1k
  X21 X22 ... X2k
... ... ... ... ...
nj ...
Групповая средняя j 1 2 ... k

Формулируем гипотезу Н0:

для заданного уровня значимости различия между группами не достоверны (следовательно фактор не оказывает влияния на величину Х), то есть все группы принадлежат одной генеральной совокупности и следовательно, различие групповых средних не значимо (не достоверно)

Для решения этой задачи надо определить:

-общую сумму квадратов отклонений SS общ

-факторную сумму квадратов отклонений SS факт

- остаточную сумму квадратов отклонений SS ост

Обозначение SS – сокращение от суммы квадратов (sum of squares).

 

– эта величина характеризует влияние и фактора и случайных причин. То есть варьирование всех изменений (xij) вокруг общего среднего

– это среднее арифметическое вычисленное по всем значениям Х.

где общее количество значений X во всех группах.

Средний квадрат отклонений, соответствующей этой сумме, то есть общая дисперсия:

– число степеней свободы.

 

– эта величина характеризует рассеяние между группами или воздействие фактора. То есть варьирование групповых средних вокруг общего среднего .

Дисперсия, соответствующая этой сумме равна:

 

- число степеней свободы.

Поскольку данная дисперсия отражает степень удаленности средних арифметических (присущих отдельным группам) от их общегруппового среднего арифметического и одновременно показывает степень удаленности средних значений между группами, то ее принято называть «межгрупповой» дисперсией (международное название «between groups» — BG) и обозначать как

 

эта величина характеризует рассеяние внутри групп или влияние случайныхпричин. То есть варьирование изменений (xij) в каждой группе вокруг группового среднего .

Дисперсия, соответствующая этой сумме равна:

 

- число степеней свободы.

Поскольку данная дисперсия, отражает степень разброса данных внутри каждой отдельной группы (от своего среднего арифметического в группе), то она получила название «внутригрупповая» дисперсия (международное название «within groups» — WG), она обозначается как

SST=SSBG+SSWG

Чтобы закрыть тему международных названий, добавим, что число степеней свободы обозначают df – degrees of freedom.

Осталось применить к полученным дисперсиям критерий Фишера:

Если межгрупповая (факторная) дисперсия оказалась меньше внутригрупповой (остаточной) дисперсии , то отсюда уже следует справедливость гипотезы Н0 и нет надобности прибегать к критерию Фишера.

 

Сравниваем с табличным (критическим) значением, которое находим в таблице критерия Фишера для заданного уровня значимости ά и числа степеней свободы n1 и n2.

При пользовании таблицами следует обратить внимание, что число степеней свободы для выборки с большей по величине дисперсией (γ1) выбирается как номер столбца таблицы, а для меньшей по величине дисперсии(γ2) как номер строки таблицы.

Если Н0 принимаем.

Вывод:. различие групповых средних не значимо (не достоверно), то есть влияние фактора не достоверна.

Если Н0 отвергаем.

Вывод:. различие групповых средних значимо (достоверно), то есть влияние фактора достоверно.

 

Пример.

В условиях крупной городской клинической больницы было решено провести исследование по оценке влияния возраста на длительность госпитализации после лапароскопической холецистектомии. 9 пациентов были разделены на 3 группы в зависимости от возраста.

Длительность госпитализации после лапароскопической холецистектомии в зависимости от возраста, дни:

№ пациента в группах Группа№1 младше 45 лет Группа №2 45-55 лет Группа №3 старше 55 лет
       
       
       
Групповая средняя x̄=2 x̄=4 x̄=6

Сделайте выводы о влиянии возраста на длительности госпитализации после лапароскопической холецистектомии (для уровня значимости α=0,05).

Н0: Различия средних значений между группами не значимы, иными словами все группы по возрасту относятся к одной генеральной совокупности и длительность госпитализации не зависит от фактора возраста.

1).Найдем общую сумму квадратов

Для этого нам нужно знать общую среднюю по всем выборкам, найдем ее:

SST = (3-4)2+(1-4)2+(2-4)2+(5-4)2+(4-4)2+(3-4)2+(7-4)2+(6-4)2+(5-4)2=30

2).Найдем сумму квадратов рассеяния между группами.

Для этого нам необходимо найти квадрат отклонения каждой из выборочных средних относительно общей средней:

SS BG =3(2-4)2+3(4-4)2+3(6-4)2=24

3).Найдем сумму квадратов внутри групп последовательно вычитая из каждого значения в группе групповую среднюю:

SSWG = (3-2)2 + (1-2) 2 + (2-2) 2 + (5-4) 2 + (3-4) 2 + (4-4) 2 + (7-6) 2 + (6-6) 2 + (5-6)2 =2+2+2=6

Найдем значение критерия Фишера, исходя из средних квадратов отклонений внутри групп и между ними и соответствующих степеней свободы:

Fкрит . = 5,14 при α = 0,05

Н0 отвергаем.

Вывод:. различие групповых средних значимо (достоверно), то есть влияние фактора возраста достоверно. Возраст влияет на длительность госпитализации после холецистектомии.

 

Расчёты по методу дисперсионного анализа достаточно трудоёмки, особенно с возрастанием массива данных, поэтому воспользуемся программным обеспечением Excel. На панели быстрого доступа выбираем Данные и в меню анализ данных выбираем: Однофакторный дисперсионный анализ (данные по столбцам, метки в первой строке, α=0,05).

№ пациента в группах Группа№1 младше 45 лет Группа №2 45-55 лет Группа №3 старше 55 лет
       
       
       
Групповая средняя x̄=2 x̄=4 x̄=6
Однофакторный дисперсионный анализ        
             
ИТОГИ            
Группы Счет Сумма Среднее Дисперсия    
мл.45 лет            
45-55 лет            
ст.55 лет            
             
             
Дисперсионный анализ          
Источник вариации SS df MS F P-Значение F критическое
Между группами         0,008 5,14325285
Внутри групп            
             
Итого            

MS- это средние суммы квадратов (то есть соответствующие дисперсии).

Как видим Р-статистика=0,008, меньше не только заданного уровня значимости α=0,05, но и меньше 0,01, так что можно с уверенностью отвергнуть нулевую гипотезу и сделать вывод, что возраст влияет на длительность госпитализации после холецистектомии.

(Дляα=0,01 Fкрит . = 10,92< =12)

Чтобы получить критическое значение критерия Фишера используем статистическую функцию FРАСПОБР(α,γ12).

 

Однако, при обнаружении статистически значимых отличий мы сможем сказать лишь об их наличии, но какие именно группы отличаются друг от друга мы определить не сможем, для этого производят так называемые процедуры апостериорных сравнений. Апостериорные сравнения представляют собой попарные сравнения изучаемых групп для обнаружения различий между ними.

Апостериорные сравнения могут быть проведены с помощью критерия Стьюдента для независимых выборок, что может показаться странным, учитывая сказанное ранее о проблеме множественных сравнений. Однако в отличие от простых попарных сравнений при проведении апостериорных сравнений рассчитываются новые критические уровни значимости для удержания ошибки 1 типа в пределах 5 %.

Наиболее простым и наиболее популярным способом коррекции ошибки 1 типа является поправка Бонферрони (Bonferroni), при которой уровень ошибки 1 типа делится на количество сравнений для получения нового критического уровня значимости. Так, если имеется 3 сравнения, то новый критический уровень должен быть .

Метод поправки Бонферрони утверждает, что для уменьшения ложноположительных результатов, необходимо отклонить те гипотезы, для которых р-статистика<α/k.

Поправка Бонферрони:

Поправка Бонферрони хорошо контролирует ошибку 1 типа, но является очень консервативной и приводит к повышению вероятности ошибки 2 типа (вероятности принятия решения об отсутствии различий там, где они на самом деле есть).

Таким образом, при выборе статистического критерия для апостериорных сравнений необходимо принимать во внимание, как критерии контролируют ошибки 1 и 2 типов и как они работают при несоблюдении необходимых условий применения дисперсионного анализа.

Критерий Стьюдента для множественных сравнений работает, если число сравнений невелико, обычно не больше 8. При большем числе сравнений критерий Ньюмана-Кейлса и Тьюки дают более точную оценку.

Критерий Даннета является модификацией критерия Ньюмана-Кейлса. Для проверки гипотезы средние значения упорядочиваются по абсолютной величине их отличия от контрольной группы, сравнения начинают с группы, наиболее отличающейся от контроля. Если различия с очередной группой не найдены, сравнения прекращаются

 

Если данные не подчиняются нормальному распределения, то при анализе можно использовать два способа:

а). применением различных преобразований до достижения нормальности распределении (нормализация распределения) и дальше уже применять дисперсионный анализ,

б). или использовать критерий Краскела-Уоллиса (Kruskal-Wallis H-test), иногда его также называют непараметрическим дисперсионным анализом. Как и в большинстве непараметрических методов, работающих с количественными данными, исходный набор данных преобразуется в набор рангов и обрабатывается уже он. При обнаружении статистически значимых различий между группами стоит дальше проводить апостериорные сравнения с использованием критерия Манна-Уитни.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2018-12-21 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: