Однофакторный и многофакторный дисперсионный анализ

Дисперсионный анализ – анализ изменчивости признака под влиянием каких-либо контролируемых переменных факторов.

Обобщённо задача дисперсионного анализа состоит в том, чтобы из общей вариативности признака выделить три частные вариативности:

-Вариативность, обусловленную действием каждой из исследуемых независимых переменных.

-Вариативность, обусловленную взаимодействием исследуемых независмых переменных.

-Вариативность случайную, обусловленную всеми неучтенными обстоятельствами.

Вариативность, обусловленная действием исследуемых переменных и их взаимодействием соотносится со случайной вариативностью. Показателем этого соотношения является F – критерий Фишера(метод, не имеющий ничего общего, кроме автора, с «угловым преобразованием Фишера»).

FэмпА = Вариативность, обусловленная действием переменной А / Случайная вариативность

FэмпБ = Вариативность, обусловленная действием переменной Б / Случайная вариативность

FэмпАБ = Вариативность, обусловленная взаимодействием А и Б / Случайная вариативность

В формулу расчета критерия F взодят оценки дисперсий, и, следовательно, этот метод относится к разряду параметрических. Чем в большей степени вариативность признака обусловлена исследуемыми переменными или их взаимодействием, тем выше эмпирические значения критерия F.

В отличие от корреляционного анализа, в дисперсионном исследователь исходит из предположения, что одни переменные выступают как влияющие (именуемые факторами или независимыми переменными), а другие (результативные признаки или зависимые переменные) – подвержены влиянию этих факторов. Хотя такое допущение и лежит в основе математических процедур расчета, оно, однако, требует осторожности рассуждений об источнике и объекте влияния.

Например, если мы выдвигаем гипотезу о зависимости успешности работы должностного лица от фактора Н (социальной смелости по Кэттелу), то не исключено обратное: социальная смелость респондента как раз и может возникнуть (усилиться) вследствие успешности его работы – это с одной стороны. С другой: следует отдать себе отчет в том, как именно измерялась «успешность»? Если за ее основу взяты были не объективные характеристики (модные нынче «объемы продаж» и проч.), а экспертные оценки сослуживцев, то имеется вероятность того, что «успешность» может быть подменена поведенческими или личностными характеристиками (волевыми, коммуникативными, внешними проявлениями агрессивности etc.)

Представим смысл дисперсионного анализа графически.

В примере, взятом из (1), иллюстрируется исследование зависимости учебной успеваемости школьников от развития кратковременной памяти. В качестве фактора рассматривался уровень развития кратковременной памяти, а в качестве результативных признаков – успеваемость по предмету. Видно, например, что фактор, по-видимому, оказывает существенное влияние при обучении иностранному языку, и незначим для чистописания, что, впрочем, вполне согласуется со здравым смыслом.

Приведенный пример обращает внимание также и на то, какими именно должны быть факторы?

Здесь фактор имел градации, то есть его величина изменялась при переходе от одной градации к другой. Следует знать, что такое условие отнюдь не обязательно: фактор может иметь градации, никак не связанные между собой количественным отношением, и может быть представлен хоть в номинальной шкале. В общем (и это точнее) говорят не о градациях фактора, а о различных условиях его действия. Возможность количественной градации фактора, таким образом, лишь частный случай.

В качестве иллюстрации этого положения скажем, что если отыщется исследователь, желающий определить зависимость яйценоскости от цвета курицы, то ничто не помешает ему применить дисперсионный анализ, и в качестве условий действия фактора «цвет» избрать, скажем, черных, белых и пестрых кур.

Задачей дисперсионного анализа является изучение влияния одного или нескольких факторов на рассматриваемый признак.

Однофакторный дисперсионный анализ используется в тех случаях, когда есть в распоряжении три или более независимые выборки, полученные из одной генеральной совокупности путем изменения какого-либо независимого фактора, для которого по каким-либо причинам нет количественных измерений.

Для этих выборок предполагают, что они имеют разные выборочные средние и одинаковые выборочные дисперсии. Поэтому необходимо ответить на вопрос, оказал ли этот фактор существенное влияние на разброс выборочных средних или разброс является следствием случайностей, вызванных небольшими объемами выборок. Другими словами если выборки принадлежат одной и той же генеральной совокупности, то разброс данных между выборками (между группами) должен быть не больше, чем разброс данных внутри этих выборок (внутри групп).

Пусть – i – элемент () -выборки (), где m – число выборок, n _k – число данных в -выборке. Тогда – выборочное среднее -выборки определяется по формуле

Общее среднее вычисляется по формуле

, где

Основное тождество дисперсионного анализа имеет следующий вид:

где Q ₁ – сумма квадратов отклонений выборочных средних от общего среднего (сумма квадратов отклонений между группами); Q ₂ – сумма квадратов отклонений наблюдаемых значений от выборочной средней (сумма квадратов отклонений внутри групп); Q – общая сумма квадратов отклонений наблюдаемых значений от общего среднего .

Расчет этих сумм квадратов отклонений осуществляется по следующим формулам:

В качестве критерия необходимо воспользоваться критерием Фишера:

Если расчетное значение критерия Фишера будет меньше, чем табличное значение – нет оснований считать, что независимый фактор оказывает влияние на разброс средних значений, в противном случае, независимый фактор оказывает существенное влияние на разброс средних значений (λ– уровень значимости, уровень риска, обычно для экономических задач λ=0,05).

Недостаток однофакторного анализа: невозможно выделить те выборки, которые отличаются от других. Для этой цели необходимо использовать метод Шеффе или проводить парные сравнения выборок.

Пример 3. 1. Три группы продавцов продавали штучный товар, расфасованный в различные упаковки. После окончания срока распродажи был произведен тестовый контроль над случайно отобранными продавцами из каждой группы. Были получены следующие результаты (табл. 3.1).

Т а б л и ц а 3.1

Номер группы	Число продаж, которые сделали продавцы,	Общее количество продаж	Количество продавцов, n_k
	1 3 2 1 0 2 1
	2 3 2 1 4 - -
	4 5 3 - - - -

Если число выборок m =3, число продаж во всех выборках n =15, то:

Если

тогда

Q =104–15·2,226 ²=26,93,

Q ₁=91,074–15·2,226 ²=14,01,

Q ₂= Q – Q ₁=26,93–14,01=12,92.

Вычислим критерий Фишера

Сравнивая это значение с табличным F > F _0,05;2;12 =3,885 (приложение 1), делаем вывод, что упаковка (особенно красочная!) влияет на количество распродаж.

Проводить многофакторный дисперсионный анализ, проверять значимость полного эффекта, эффекта взаимодействия и главный эффект каждого фактора.

Первый межгрупповой фактор Пол-Gender имеет 2 уровня: Мужчина - Male и Женщина - Female. Вторым межгрупповым фактором является фактор Предпочтение - Advert с 2 уровнями: Pepsi и Coke. Эти факторы являются пересекающимися, так как среди респондентов, предпочитающих Pepsi или Coke, есть и Мужчины - Male, и Женщины - Female. Каждый респондент был опрошен три раза и значения зависимой переменной на полученных трех уровнях фактора (повторных измерений) Responce - Отклик были сохранены в переменных Measure01, Measure02 и Measure03.

Заметим, что план эксперимента может быть представлен в виде:

	Межгрупповой	Межгрупповой	Фактор повторных измерений: Отклик
Фактор#1: Gender	Фактор#2: Advert	Уровень#1: Measure01	Уровень#2: Measure02	Уровень#3: Measure03
Субъект1	Male	Pepsi
Субъект2	Male	Coke
Субъект3	Female	Coke
. . .	. . .	. . .	. . .	. . .	. . .

Результаты дисперсионного нализа. Ниже представлена таблица всех эффектов.

Рисунок 1. Таблица всех эффектов.

В таблице вы видите, что единственным значимым эффектом (не считая Свободный член) (p =.007) является эффект ОТКЛИК - RESPONSE. Данный результат может быть вызван большим числом возможных значений средних эффекта ОТКЛИК - RESPONSE. Давайте посмотрим на график маргинальных средних этого эффекта, чтобы проинтерпретировать полученные результаты.

Как вы видите, данный вид отображения средних (разделение на уровни межгрупповых факторов) не отражает каких-либо значимых отклонений, обнаруженных на первом графике (для главного эффекта,

Рисунок 2. График средних.

На графике четко виден убывающий тренд; средние постепенно убывают. Даже при том, что нет значимых взаимодействий в данном плане. Далее, мы проанализируем взаимодействия более высокого порядка для интерпретации последовательного убывания тренда.

Ниже представлен график средних для тройного взаимодействия.

Рисунок 3. График средних для тройного взаимодействия.

Однофакторный и многофакторный дисперсионный анализ

Поиск по сайту