Черноземные губернии | Доход | Нечерноземные губ< рнии | Доход | ||||
Рязанская................... Воронежская.... Симбирская.... | 15 10 13 12 13 14 17 13 16 | Петербургская. Новгородская Псковская.. Смоленская.. Московская Владимирская. Нижегородская Костромская. Ярославская. Тверская. Калужская.. | 12 18 17 16 12 14 13 12 14 15 16 | ||||
В среднем.. | 13.7 | 14.5 |
на количественный, применяется дисперсионный анализ. Последний отвечает на вопрос, является ли местоположение имений причиной различий дохода помещиков, живших в разных районах, или эти различия — случайность, результат ошибки выборки. В данном конкретном случае дисперсионный анализ осуществляется сравнением колеблемости дохода помещиков между районами с колеблемостью дохода внутри районов. В общем виде при дисперсионном анализе сравнивается колеблемость зависимой переменной между группами с ее колеблемостью внутри групп. Поскольку историк, как правило, имеет дело с выборочными данными, то можно сказать также, что в основе дисперсионного анализа лежит сравнение колеблемости зависимой переменной между выборками с ее колеблемостью внутри выборок.
В том случае, если доход помещиков (зависимая переменная) колеблется внутри районов (групп) в меньшей степени, чем между районами (группами), исследователь вправе делать вывод о том, что местоположение имения (независимая переменная, фактор) влияет на размер
дохода помещиков. В противном случае влияние местоположения имения (фактора) отвергается.
Итак, сущность дисперсионного анализа состоит в сравнении межгрупповой и внутригрупповой колеблемости зависимой переменной. Отсюда понятна и логика дисперсионного анализа. Колеблемость дохода помещиков между районами обусловливается влиянием района, точнее местоположением имения в том или ином районе, а колеблемость дохода помещиков внутри района — влиянием неучтенных, остаточных причин, т. е. иных, кроме местоположения, факторов. Если влияние местоположения имения (учтенного фактора) существенно, то оно должно в большей степени сказаться на колеблемости дохода помещиков, живших в разных районах, чем на колеблемости дохода помещиков, живших в одном районе. И тогда колеблемость дохода помещиков между районами должна превосходить колеблемость дохода помещиков внутри районов. Напротив, если влияние местоположения имения отсутствует или это влияние слишком слабое, то колеблемость дохода между районами должна быть несущественной, а колеблемость дохода помещиков внутри районов — она находится, как уже указано, под влиянием неучтенных факторов — должна быть существенной и превосходить колеблемость дохода помещиков между районами.
В логике дисперсионного анализа нет ничего нового для историка, так как свои выводы он всегда строит — сознательно или интуитивно, — следуя этой логике. В рассматриваемом примере, пытаясь оценить влияние местоположения имения на доход помещиков, историк сгруппирует доходы отдельных имений по районам и затем оценит, как велико расхождение средних доходов помещиков между районами. Если это расхождение существенно, можно говорить о сильном влиянии местоположения имения на доходы помещиков, если незначительно, то речь должна идти о слабом влиянии. Поскольку доходы помещиков в среднем по району зависят от колеблемости доходов отдельных имений внутри района, а степень различия средних доходов между районами зависит от колеблемости доходов между ними, то историк, хочет он того или нет, оценивает влияние местоположения имения на его доход путем сравнения колеблемости доходов внутри районов с колеблемостью доходов между райо-
нами. Говоря языком математики, историк проводит хотя и не вполне полноценный, но дисперсионный анализ.
В предлагаемом математиками дисперсионном анализе новое для историка заключается в том, что оценка различия средних доходов в районах и оценка колеблемости доходов внутри районов и между ними производится не на глаз, не интуитивно, а на основе точных математических критериев. Благодаря этому вывод получается более надежным и обоснованным, а влияние субъективизма исследователя сводится к минимуму.
Таким образом, дисперсионный анализ подобно регрессионному и корреляционному анализам как бы обобщает исследовательскую практику ученых — нематематиков и подводит под нее математическое обоснование. Посмотрим, как это происходит.
Мерой колеблемости, или вариации, переменной является, как мы знаем, дисперсия ($2), которая представляет собой среднюю арифметическую из квадратов отклонений отдельных значений переменной от их средней арифметической:
8г= — ---------------------.
п '
где х — индивидуальные значения переменной; х — их средняя арифметическая; п — число наблюдений.
Поэтому при дисперсионном анализе влияния местоположения имения на его доход сравнивается дисперсия дохода внутри районов с дисперсией дохода между районами. В общем виде при дисперсионном анализе сравнивается дисперсия зависимой переменной в пределах отдельных ее групп (внутригрупповая дисперсия) с дисперсией этой переменной между ее группами (межгрупповая дисперсия).
Только в том случае, если различия внутрирайонных и межрайонных дисперсий доходов помещиков превосходят допустимые случайностью пределы, можно обоснованно сделать вывод, что местоположение имения влияет на его доходы. В общем виде этот вывод звучит следующим образом: когда различия между внутригрупповой и межгрупновой дисперсиями превосходят допустимые случайностью пределы, тогда учтенный фактор оказывает существенное влияние на зависимую переменную, если же эти различия находятся в пре-
делах, допускаемых случайностью, гипотеза о влиянии фактора отвергается.
Табл. 28 содержит дисперсионный анализ географии доходов помещиков в России в 50-е годы XIX в.
ТАБЛИЦА 28
Дисперсионный анализ географии доходов помещиков
в России в 50-е годы XIX в.
Сумма квадратов откчоне- нии, В | Число степеней свободы, к | Дисперсии, В | Отношение межрайонной и внутрирайонной дисперсий, Е | |
Вариация доходов | фактическое | теоретическое | ||
Между районами Внутри районов Общая (между всеми данными) | 3.20 80.76 83.96 | 2—1=1 20—2=18 20—1 = 19 | 3.20 4.49 | 1.40 247 База сравнения |
Различие внутрирайонной и межрайонной дисперсий дохода помещиков не превышает пределов, допустимых случайностью, т. е. ошибками выборок: фактическое отношение дисперсий составило 1.40, в то время как предельное теоретическое отношение (оно определяется по специальной таблице) оказалось равным 247. Отсюда следует математически обоснованный вывод: наблюдаемая вариация доходов по районам — случайность, она не обусловливается местоположением имений.
Очень существенно, что дисперсионный анализ позволяет примерно оценить и силу влияния учтенного п неучтенных факторов. Эта оценка основывается на вычислении удельного веса впутригрупповои и межгрупповой суммы квадратов отклонений зависимой переменной в общей сумме квадратов отклонений, так как последняя получается сложением внутригрупповой и межгрупповои сумм квадратов отклонений. В примере с доходом помещиков на долю межрайонной суммы квадратов отклонений дохода приходится 4%, а на долю внутрирайонной — 96% общей суммы квадратов отклонений дохода (см. графу 2 в табл. 28). Это дает основание полагать, что колеблемость дохода между имениями примерно на 4% зависела от местоположения имения и на 96% — от прочих факторов.
зг |
Оценка влияния фактора при дисперсионном анализе вызывает очевидные аналогии с корреляционным анализом. Действительно, оценка влияния учтенного и неучтенных факторов с помощью корреляционного анализа (см. с. 91) производилась по тому же принципу. Отношение объясненной вариации зависимой переменной (з^) ко всей ее вариации ($|) давало коэффициент детерминации:
Ух |
о1„=г2 =
который показывал долю данного фактора в вариации зависимой переменной. Отношение остаточной, или не-объясненной, вариации зависимой переменной ($1) ко всей ее вариации
У
определяло долю неучтенных факторов в вариации зависимой переменной. Последняя оценивалась и другим способом — как разность между единицей и долей учтенного фактора. То же — при дисперсионном анализе. Межгрупповая сумма квадратов отклонений выступает в роли объясненной части вариации зависимой переменной, так как показывает влияние на нее учтенного фактора — местоположения имения; внутригрупповая — в роли необъясненной, или остаточной, части вариации дохода, поскольку показывает влияние неучтенных факторов; общая же сумма квадратов отклонений характеризует общую вариацию зависимой переменной. Отношение межгрупповой, объясненной, части ко всей вариации зависимой переменной показывает долю влияния учтенного фактора, а отношение внутригрупповой, остаточной, части вариации ко всей вариации — долю влияния неучтенных факторов на вариацию зависимой переменной. Отсюда видно, что и дисперсионный, и корреляционный анализы имеют одно математическое обоснование и одну цель: измерение тесноты связи я степени зависимости между переменными. У них различны лишь сферы применения: корреляционный анализ используется при оценке влияния факторов, выраженных количественно, а дисперсионный анализ — при оценке факторов, имеющих качественное выражение.
Влияние местоположения имения на его доход можно также определить с помощью дисперсионного анализа, основываясь па конкретных данных о доходе отдельных имений, сгруппированных по губерниям. В этом случае оценке подлежит влияние на доход не района, а губернии. Внутригрупповая дисперсия характеризовала бы вариацию дохода помещиков между имениями внутри отдельных губерний, а межгрупповая — вариацию дохода между губерниями.
Вычисления для оценки влияния одного фактора или, как говорят, для проведения дисперсионного анализа однофакторного статистического комплекса не требуют много времени, поэтому чаще всего их выполняют не на больших ЭВМ, а на клавишных счетных машинах вручную. Поэтому остановимся подробнее на технике вычисления дисперсий, тем более что знакомство с ней поможет лучше понять сущность дисперсионного анализа. Влияние местоположения имения на доходы помещиков оценивается в определенной последовательности (табл. 29).
Полученные в результате вышеприведенных вычислений суммы квадратов отклонений, необходимые для определения дисперсий, занесены в графу 2 табл. 28.
Следующий этап дисперсионного анализа состоит в определении межрайонной, внутрирайонной и общей дисперсии дохода (зависимой переменной). Дисперсия определяется, как известно, делением суммы квадратов отклонений на число наблюдений в выборке, для которой она подсчитывается. Однако дисперсия выборки преуменьшает дисперсию генеральной совокупности, из которой берется выборка, особенно если она невелика. При этом обнаружено, что наиболее близкая оценка дисперсии генеральной совокупности получается в результате умножения дисперсии выборки на коэффициент
п п — 1 *
Его применение придает оценке дисперсии генеральной совокупности следующий вид:
8* — „ _ 1 •
Знаменатель в данной оценке дисперсии равен числу выражающему степени свободы (к), т. е. тому числу наб-
ТАБЛИЦА 29 Оценка влияния местоположения имения на величину дохода помещиков в России в 50-е годы XIX в.
Показатель
Черноземный район, х,
Нечерноземный район, ъ
Всего
I стадия анализа: определение групповых средних и межгрупповой общей средней
Величина дохода имений в среднем по губерниям, в серебряных рублях на мужскую душу, х....
Сумма доходов, 2Ж
Число губерний, т Средний доход, х.
15, 10, 13, 12, 13, 14, 17, 13, 16
2^ = 15 + 10+...+
+ 16 = 123
7711 = 9
123
12, 18, 17, 16, 12, 14, 13, 12, 14, 15, 16 2 =12 + 18 +...16 =
= 159 т2 = И
2х = 2Я1 + 2^~ = 282 N = 20 282
*="20~ = 14-1
II стадия анализа: определение межгрупповой суммы
квадратов отклонений
Отклонение районных (групповых) средних от межрайонной (общей) средней величины доходов, в,..
Квадраты отклонений, й2.................
13.7 — 14.1=— 0.4 ^2 = 0.16
й2 = 14.5 —14.1 =+0.4 6*2 = 0.16
01 = ^2п
+ ^2Л2
<ЧЛ1 4
3.20
ТАБЛИЦА 29 (продолжение)
Показатель
Черноземный район, х^
Нечерноземный район, эс2
Всего
III стадия анализа: определение групповой суммы
квадратов отклонений
Отклонения доходов в отдельных
губерниях от районной (группо
вой) средней, а...............................
Квадраты отклонений, а2.... Сумма квадратов отклонений, 2а2
1.3; —3.7; —0.7; —1.7; -0.7; 0.3; 3.3; -0.7; 2.3
1.69; 13.69; 0.49; 2.89;
0.49; 0.09; 10.89; 0.49;
5.29
2а? = 36.01
—-~^.Э, О.О, <и,Эу 1.0,
-2.5; —0.5; —1.5;
-2.5; -0.5; 0.5; 1.5
6,25; 12.25; 6.25; 2.25,
6.25; 0.25; 2.25; 6.25;
0.25; 0.25; 2.25
2а? = 44.75
4-2^1 = 80.76
IV* стадия анализа: определение общей суммы квадратов отклонений
Отклонения доходов в отдельных
губерниях от межрайонной
(общей) средней, с............................
Квадраты отклонений, с2..,. Сумма квадратов отклонений, 2с2
0.9; 4.1; —1.1; —2.1; -1.1; —0.1; 2.9; —1.1;
+ 1.9
0.81; 16.81; 1.21; 4.41;
1.21; 0.01; 8.41; 1.21;
3.61
2с? = 37.69
—2.1; 3.9, 2.9; 1.9;
-2.1; —0.1; —1.1;
-2.1—0.1; 0.9; 1.9
4.41; 15.21; 8.41; 3.61;
4.41; 0.01; 1.21; 4.41;
0.01; 0.81; 3.61
2с? = 46.11
И= 2с2 = 37.69 + + 46.11=83.80
людений в выборке, которое может быть определено произвольно, независимо от других членов выборки. Вследствие того, что при дисперсионном анализе постоянно приходится определять число степеней свободы, остановимся на этом подробнее.
Число степеней свободы — это количество членов статистического ряда, которые могут принимать произвольные значения, не изменяющие средней арифметической этого ряда. Например, имеется, ряд из 3 членов со средней арифметической, равной 5. Тогда сумма всех 3 членов ряда составит: 3x5—15. Если попытаться подобрать другой ряд из 3 членов, но с той же средней арифметической, равной 5, то произвольно или свободно можно взять только 2 члена, ибо 3-й член должен вместе с этими двумя в сумме дать 15 — иначе мы не получим заданную среднюю арифметическую. 3-й член вследствие этого определяется автоматически и находится, следовательно, в зависимости от других, он «несвободен». Значит, число «свободных» членов ряда, могущих принимать произвольные значения, или число степеней свободы в данном трехчленном ряду составляет: п— 1, т. е. 3—1=2.
Определим число степеней свободы в примере с доходами помещиков. Это нетрудно сделать, если помнить, что число степеней свободы, необходимое для получения дисперсий, зависит от того, каким образом и на основании какого количества данных определялась соответствующая сумма квадратов отклонений. Сначала определим число степеней свободы для межгрупповой дисперсии. Сумма квадратов отклонений доходов помещиков между районами определялась (см. табл. 28 и 29) сложением квадратов отклонений среднерайонных доходов от общей средней дохода двух районов. У нас имеется, следовательно, ряд из двух членов с заданной средней. Число степеней свободы поэтому составит: 2—1=1, так как если известен общий средний доход обоих районов, то произвольно или свободно можно определить средний доход только в одном из двух районов, доход же другого района будет определен автоматически, т. е. зависимо.
Теперь определим число степеней свободы для внутри-групповой дисперсии. Сумма квадратов отклонений внутри районов определялась сложением квадратов отклонений доходов отдельных губерний от среднего дохода но району. Следовательно, имеется 2 ряда с заданной средней
по каждому ряду. Численность первого ряда — 9 членов, второго — 11 членов. Число степеней свободы для первого ряда составит: 9—1=8, для второго: 11—1=10, для обоих вместе: 8+10=18. Число степеней свободы для внутригрупповой дисперсии, таким образом, меньше общего количества данных на число групп. В нашем примере 2 группы, поэтому и число степеней свободы для внутригрупповой дисперсии равняется: 20—2 = 18.
Сумма квадратов отклонений между всеми участвующими в анализе данными о доходах помещиков определяется либо сложением квадратов отклонений доходов отдельных губерний от общего среднего дохода, либо сложением внутригрупповой и межгрупповой сумм квадратов отклонений. Второй путь короче. Однако первый способ имеет другое преимущество: общая сумма квадратов отклонений, найденная этим способом, позволяет проверить правильность расчета ее составляющих — внутригрупповой и межгрупповой сумм квадратов отклонений. Так, в нашем случае вычисленная обеими способами общая сумма квадратов отклонений составила соответственно 83.80 и 83.96 (3.20+80.76). Различие в 0.16 невелико и обусловливается исключительно округлениями при расчетах средних: хг=\2Ъ: 9=13.6666, а мы округлили до 13.7.
После определения суммы квадратов отклонений и числа степеней свободы дисперсии легко находятся с помощью деления первой на второе. Дисперсии записаны в 3-ю графу табл. 28.
Следующий этап дисперсионного анализа состой! в сравнении межгрупповой дисперсии с внутригрупповой, или остаточной, дисперсией. С этой целью вычисляется отношение дисперсий, при этом большая по величине дисперсия всегда делится на меньшую. Полученное отношение обозначается символом Р. Очевидно, если колеблемость дохода помещиков существенно зависит от местоположения имения в том или другом районе, то дисперсия дохода между районами должна быть больше дисперсии дохода внутри районов:
„ в2 межгрупповая ^,
факт. ~ 52 внутрИГруППОВаЯ ^
Однако по выборочным данным нельзя абсолютно точно оценить истинную дисперсию, т. е. дисперсию
в генеральной совокупности. Неизбежная приблизительность выборочных дисперсий приводит к тому, что их отношение не является вполне точным. По этой причине отношение выборочных дисперсий может быть больше единицы в результате случайного варьирования выборочных данных, другими словами, вследствие ошибки выборочных дисперсий. Поэтому необходимо знать, когда отношение дисперсий (Р) обусловлено случайностью, а когда влиянием анализируемого фактора.
Для этого математики рассчитали теоретические значения отношения дисперсий. Если при данном числе степеней свободы фактическое отношение дисперсий (Р$йКт.) меньше теоретического, или табличного (^табл.)» то следует вывод, что отношения дисперсий не случайны и что учтенный фактор оказывает существенное влияние; если же больше, то гипотеза о влиянии фактора отвергается.
Так, предельно возможное значение РТАбЛщ для заключения о существенности влияния учтенного фактора находится на пересечении столбца и строки, соответствующих степеням свободы сравниваемых дисперсий. В нашем примере й2=1, ^1=18, ^факт.=1-40, а ^табл# =247 (при уровне вероятности заключения Р=0.05) и 6189 (при уровне вероятности Р=0.01). Р^ЛПш меньше 247, следовательно, местоположение имения не оказывает существенного влияния на доходы помещиков от своих имений.
Что означает отношение дисперсий при вероятности заключения 0.05 и 0.01? Уровень вероятности 0.05 означает следующее. Если историк обнаружит дополнительные данные о доходах помещиков, которые позволят ему сделать еще ряд выборок, во всех аналогичных анализируемой выборке по 20 губерниям, то в 5% новых выборок фактическое отношение дисперсий (^факт.) может свидетельствовать о том, что местоположение имения не влияет на доход помещиков СРфакт. будет меньше ^табл.), в то время как в действительности местоположение имения существенно влияет на его доход. Соответственно при вероятности 0.01 в 1 % новых выборок РфгкТщ может быть меньше РТй6л, в то время как местоположение имения воздействует на доход помещиков.
Теоретическая величина Ртл6Лш связана с вероятностью. Повышение уровня вероятности вывода приводит к увеличению Рт&бл.-> поэтому предельно возможное отношение между двумя дисперсиями для вывода о влиянии учтен-
12 Заказ М 294
ного фактора будет большим при Р=0.01, чем при Р = =0.05. В нашем примере при Р=0.05 Ртлбл=247, а при Р=01 — Р^&бл =6189, т. е. почти в 25 раз больше. Чем выше уровень вероятности вывода, тем осторожнее оценка влияния фактора. Поэтому если исследователь стремится с большей уверенностью делать вывод, он должен строить его при большем уровне вероятности. Однако практика и теория показывают, что на вывод, сделанный при уровне вероятности 0.05, исследователь может уверенно полагаться.
На последней стадии дисперсионного анализа одно-факторного комплекса примерно оценивается сила влияния местоположения имения, учтенного фактора, и прочих, остаточных, факторов, оказывающих влияние на доходы помещиков. Оценка производится путем определения доли межгрупповой и внутригрупповой суммы квадратов отклонений (не дисперсий!) в общей сумме квадратов отклонений доходов (см. табл. 28). На долю местоположения имения приходится примерно 4% вариации доходов помещиков, на остальные факторы — 96%. Отсюда следует, что местоположение имения обусловливало бы доход помещиков на 4%, если бы дисперсионный анализ признал этот фактор значимым для дохода имений. Поскольку дисперсионный анализ отверг гипотезу о влиянии местоположения имения, то 4% объясняются случайными ошибками наших выборочных данных.
Проведенный выше дисперсионный анализ данных о влиянии местоположения имения на доходы русских помещиков в 50-е годы XIX в. является типичным примером анализа однофакторного комплекса, когда оценивается влияние одного фактора, или одной независимой переменной.