Годовой доход помещиков в 50-е годы XIX в. (в серебряных рублях на мужскую душу)




 

Черноземные губернии Доход Нечерноземные губ< рнии Доход
Рязанская................... Воронежская.... Симбирская.... 15 10 13 12 13 14 17 13 16 Петербургская. Новгородская Псковская.. Смоленская.. Московская Владимирская. Нижегородская Костромская. Ярославская. Тверская. Калужская..         12 18 17 16 12 14 13 12 14 15 16
В среднем.. 13.7           14.5

на количественный, применяется дисперсионный анализ. Последний отвечает на вопрос, является ли местоположе­ние имений причиной различий дохода помещиков, жив­ших в разных районах, или эти различия — случайность, результат ошибки выборки. В данном конкретном случае дисперсионный анализ осуществляется сравнением ко­леблемости дохода помещиков между районами с колебле­мостью дохода внутри районов. В общем виде при дис­персионном анализе сравнивается колеблемость зависи­мой переменной между группами с ее колеблемостью внутри групп. Поскольку историк, как правило, имеет дело с выборочными данными, то можно сказать также, что в основе дисперсионного анализа лежит сравнение колеблемости зависимой переменной между выборками с ее колеблемостью внутри выборок.

В том случае, если доход помещиков (зависимая пере­менная) колеблется внутри районов (групп) в меньшей степени, чем между районами (группами), исследователь вправе делать вывод о том, что местоположение имения (независимая переменная, фактор) влияет на размер


дохода помещиков. В противном случае влияние место­положения имения (фактора) отвергается.

Итак, сущность дисперсионного анализа состоит в сравнении межгрупповой и внутригрупповой колеб­лемости зависимой переменной. Отсюда понятна и логика дисперсионного анализа. Колеблемость дохода помещиков между районами обусловливается влиянием района, точ­нее местоположением имения в том или ином районе, а колеблемость дохода помещиков внутри района — влия­нием неучтенных, остаточных причин, т. е. иных, кроме местоположения, факторов. Если влияние местоположе­ния имения (учтенного фактора) существенно, то оно должно в большей степени сказаться на колеблемости дохода помещиков, живших в разных районах, чем на ко­леблемости дохода помещиков, живших в одном районе. И тогда колеблемость дохода помещиков между районами должна превосходить колеблемость дохода помещиков внутри районов. Напротив, если влияние местоположе­ния имения отсутствует или это влияние слишком слабое, то колеблемость дохода между районами должна быть несущественной, а колеблемость дохода помещиков внутри районов — она находится, как уже указано, под влия­нием неучтенных факторов — должна быть существен­ной и превосходить колеблемость дохода помещиков между районами.

В логике дисперсионного анализа нет ничего нового для историка, так как свои выводы он всегда строит — сознательно или интуитивно, — следуя этой логике. В рас­сматриваемом примере, пытаясь оценить влияние место­положения имения на доход помещиков, историк сгруп­пирует доходы отдельных имений по районам и затем оценит, как велико расхождение средних доходов помещи­ков между районами. Если это расхождение существенно, можно говорить о сильном влиянии местоположения име­ния на доходы помещиков, если незначительно, то речь должна идти о слабом влиянии. Поскольку доходы по­мещиков в среднем по району зависят от колеблемости доходов отдельных имений внутри района, а степень различия средних доходов между районами зависит от ко­леблемости доходов между ними, то историк, хочет он того или нет, оценивает влияние местоположения имения на его доход путем сравнения колеблемости доходов внутри районов с колеблемостью доходов между райо-


нами. Говоря языком математики, историк проводит хотя и не вполне полноценный, но дисперсионный анализ.

В предлагаемом математиками дисперсионном анализе новое для историка заключается в том, что оценка раз­личия средних доходов в районах и оценка колеблемости доходов внутри районов и между ними производится не на глаз, не интуитивно, а на основе точных математических критериев. Благодаря этому вывод получается более надежным и обоснованным, а влияние субъективизма исследователя сводится к минимуму.

Таким образом, дисперсионный анализ подобно рег­рессионному и корреляционному анализам как бы обоб­щает исследовательскую практику ученых — нематема­тиков и подводит под нее математическое обоснование. Посмотрим, как это происходит.

Мерой колеблемости, или вариации, переменной яв­ляется, как мы знаем, дисперсия ($2), которая представ­ляет собой среднюю арифметическую из квадратов от­клонений отдельных значений переменной от их средней арифметической:

8г= — ---------------------.

п '

где х — индивидуальные значения переменной; х — их средняя арифметическая; п — число наблюдений.

Поэтому при дисперсионном анализе влияния место­положения имения на его доход сравнивается дисперсия дохода внутри районов с дисперсией дохода между рай­онами. В общем виде при дисперсионном анализе срав­нивается дисперсия зависимой переменной в пределах отдельных ее групп (внутригрупповая дисперсия) с дис­персией этой переменной между ее группами (межгруп­повая дисперсия).

Только в том случае, если различия внутрирайон­ных и межрайонных дисперсий доходов помещиков превосходят допустимые случайностью пределы, можно обоснованно сделать вывод, что местоположение име­ния влияет на его доходы. В общем виде этот вывод звучит следующим образом: когда различия между внутригрупповой и межгрупновой дисперсиями превос­ходят допустимые случайностью пределы, тогда учтен­ный фактор оказывает существенное влияние на зависи­мую переменную, если же эти различия находятся в пре-


делах, допускаемых случайностью, гипотеза о влиянии фактора отвергается.

Табл. 28 содержит дисперсионный анализ географии доходов помещиков в России в 50-е годы XIX в.

ТАБЛИЦА 28

Дисперсионный анализ географии доходов помещиков

в России в 50-е годы XIX в.

 

 

  Сумма квадратов откчоне- нии, В Число степе­ней свободы, к Дис­персии, В Отношение межрай­онной и внутрирай­онной дисперсий, Е
Вариация доходов фактиче­ское теорети­ческое
Между районами Внутри районов Общая (между всеми данными) 3.20 80.76 83.96 2—1=1 20—2=18 20—1 = 19 3.20 4.49 1.40 247 База сравнения

Различие внутрирайонной и межрайонной дисперсий дохода помещиков не превышает пределов, допустимых случайностью, т. е. ошибками выборок: фактическое от­ношение дисперсий составило 1.40, в то время как пре­дельное теоретическое отношение (оно определяется по специальной таблице) оказалось равным 247. Отсюда следует математически обоснованный вывод: наблюдае­мая вариация доходов по районам — случайность, она не обусловливается местоположением имений.

Очень существенно, что дисперсионный анализ по­зволяет примерно оценить и силу влияния учтенного п не­учтенных факторов. Эта оценка основывается на вычисле­нии удельного веса впутригрупповои и межгрупповой суммы квадратов отклонений зависимой переменной в общей сумме квадратов отклонений, так как последняя получается сложением внутригрупповой и межгрупповои сумм квадратов отклонений. В примере с доходом помещи­ков на долю межрайонной суммы квадратов отклонений дохода приходится 4%, а на долю внутрирайонной — 96% общей суммы квадратов отклонений дохода (см. графу 2 в табл. 28). Это дает основание полагать, что колеблемость дохода между имениями примерно на 4% зависела от местоположения имения и на 96% — от про­чих факторов.


зг

Оценка влияния фактора при дисперсионном анализе вызывает очевидные аналогии с корреляционным ана­лизом. Действительно, оценка влияния учтенного и не­учтенных факторов с помощью корреляционного анализа (см. с. 91) производилась по тому же принципу. Отноше­ние объясненной вариации зависимой переменной (з^) ко всей ее вариации ($|) давало коэффициент детермина­ции:

Ух

о1„=г2 =

который показывал долю данного фактора в вариации зависимой переменной. Отношение остаточной, или не-объясненной, вариации зависимой переменной ($1) ко всей ее вариации

У

определяло долю неучтенных факторов в вариации за­висимой переменной. Последняя оценивалась и другим способом — как разность между единицей и долей учтен­ного фактора. То же — при дисперсионном анализе. Межгрупповая сумма квадратов отклонений выступает в роли объясненной части вариации зависимой перемен­ной, так как показывает влияние на нее учтенного фак­тора — местоположения имения; внутригрупповая — в роли необъясненной, или остаточной, части вариации дохода, поскольку показывает влияние неучтенных фак­торов; общая же сумма квадратов отклонений харак­теризует общую вариацию зависимой переменной. От­ношение межгрупповой, объясненной, части ко всей вариации зависимой переменной показывает долю влия­ния учтенного фактора, а отношение внутригрупповой, остаточной, части вариации ко всей вариации — долю влияния неучтенных факторов на вариацию зависимой переменной. Отсюда видно, что и дисперсионный, и кор­реляционный анализы имеют одно математическое обо­снование и одну цель: измерение тесноты связи я степени зависимости между переменными. У них различны лишь сферы применения: корреляционный анализ используется при оценке влияния факторов, выраженных количественно, а дисперсионный анализ — при оценке факторов, имею­щих качественное выражение.


Влияние местоположения имения на его доход можно также определить с помощью дисперсионного анализа, основываясь па конкретных данных о доходе отдельных имений, сгруппированных по губерниям. В этом случае оценке подлежит влияние на доход не района, а губер­нии. Внутригрупповая дисперсия характеризовала бы вариацию дохода помещиков между имениями внутри отдельных губерний, а межгрупповая — вариацию до­хода между губерниями.

Вычисления для оценки влияния одного фактора или, как говорят, для проведения дисперсионного анализа однофакторного статистического комплекса не требуют много времени, поэтому чаще всего их выполняют не на больших ЭВМ, а на клавишных счетных машинах вруч­ную. Поэтому остановимся подробнее на технике вы­числения дисперсий, тем более что знакомство с ней по­может лучше понять сущность дисперсионного анализа. Влияние местоположения имения на доходы помещиков оценивается в определенной последовательности (табл. 29).

Полученные в результате вышеприведенных вычисле­ний суммы квадратов отклонений, необходимые для опре­деления дисперсий, занесены в графу 2 табл. 28.

Следующий этап дисперсионного анализа состоит в опре­делении межрайонной, внутрирайонной и общей дис­персии дохода (зависимой переменной). Дисперсия опре­деляется, как известно, делением суммы квадратов от­клонений на число наблюдений в выборке, для которой она подсчитывается. Однако дисперсия выборки пре­уменьшает дисперсию генеральной совокупности, из кото­рой берется выборка, особенно если она невелика. При этом обнаружено, что наиболее близкая оценка дисперсии генеральной совокупности получается в результате умно­жения дисперсии выборки на коэффициент

п п — 1 *

Его применение придает оценке дисперсии генеральной совокупности следующий вид:

8* — „ _ 1 •

Знаменатель в данной оценке дисперсии равен числу выражающему степени свободы (к), т. е. тому числу наб-


ТАБЛИЦА 29 Оценка влияния местоположения имения на величину дохода помещиков в России в 50-е годы XIX в.


Показатель


Черноземный район, х,


Нечерноземный район, ъ


Всего


I стадия анализа: определение групповых средних и межгрупповой общей средней


Величина дохода имений в среднем по губерниям, в серебряных руб­лях на мужскую душу, х....

Сумма доходов, 2Ж

Число губерний, т Средний доход, х.


15, 10, 13, 12, 13, 14, 17, 13, 16

2^ = 15 + 10+...+

+ 16 = 123

7711 = 9

123


12, 18, 17, 16, 12, 14, 13, 12, 14, 15, 16 2 =12 + 18 +...16 =

= 159 т2 = И


2х = 2Я1 + 2^~ = 282 N = 20 282

*="20~ = 14-1


II стадия анализа: определение межгрупповой суммы

квадратов отклонений


Отклонение районных (групповых) средних от межрайонной (общей) средней величины доходов, в,..

Квадраты отклонений, й2.................


13.7 — 14.1=— 0.4 ^2 = 0.16


й2 = 14.5 —14.1 =+0.4 6*2 = 0.16


01 = ^2п

+ ^2Л2


<ЧЛ1 4

3.20


ТАБЛИЦА 29 (продолжение)


Показатель


Черноземный район, х^


Нечерноземный район, эс2


Всего


III стадия анализа: определение групповой суммы

квадратов отклонений


Отклонения доходов в отдельных
губерниях от районной (группо­
вой) средней, а...............................

Квадраты отклонений, а2.... Сумма квадратов отклонений, 2а2


1.3; —3.7; —0.7; —1.7; -0.7; 0.3; 3.3; -0.7; 2.3

1.69; 13.69; 0.49; 2.89;

0.49; 0.09; 10.89; 0.49;

5.29

2а? = 36.01


—-~^.Э, О.О, <и,Эу 1.0,

-2.5; —0.5; —1.5;

-2.5; -0.5; 0.5; 1.5

6,25; 12.25; 6.25; 2.25,

6.25; 0.25; 2.25; 6.25;

0.25; 0.25; 2.25

2а? = 44.75


4-2^1 = 80.76


IV* стадия анализа: определение общей суммы квадратов отклонений


Отклонения доходов в отдельных
губерниях от межрайонной
(общей) средней, с............................

Квадраты отклонений, с2..,. Сумма квадратов отклонений, 2с2


0.9; 4.1; —1.1; —2.1; -1.1; —0.1; 2.9; —1.1;

+ 1.9

0.81; 16.81; 1.21; 4.41;

1.21; 0.01; 8.41; 1.21;

3.61

2с? = 37.69


—2.1; 3.9, 2.9; 1.9;

-2.1; —0.1; —1.1;

-2.1—0.1; 0.9; 1.9

4.41; 15.21; 8.41; 3.61;

4.41; 0.01; 1.21; 4.41;

0.01; 0.81; 3.61

2с? = 46.11


И=2 = 37.69 + + 46.11=83.80


людений в выборке, которое может быть определено произвольно, независимо от других членов выборки. Вследствие того, что при дисперсионном анализе постоянно приходится определять число степеней свободы, остано­вимся на этом подробнее.

Число степеней свободы — это количество членов статистического ряда, которые могут принимать произ­вольные значения, не изменяющие средней арифметичес­кой этого ряда. Например, имеется, ряд из 3 членов со средней арифметической, равной 5. Тогда сумма всех 3 членов ряда составит: 3x5—15. Если попытаться по­добрать другой ряд из 3 членов, но с той же средней ариф­метической, равной 5, то произвольно или свободно можно взять только 2 члена, ибо 3-й член должен вместе с этими двумя в сумме дать 15 — иначе мы не получим заданную среднюю арифметическую. 3-й член вследствие этого определяется автоматически и находится, следовательно, в зависимости от других, он «несвободен». Значит, число «свободных» членов ряда, могущих принимать произ­вольные значения, или число степеней свободы в данном трехчленном ряду составляет: п— 1, т. е. 3—1=2.

Определим число степеней свободы в примере с до­ходами помещиков. Это нетрудно сделать, если помнить, что число степеней свободы, необходимое для получения дисперсий, зависит от того, каким образом и на основа­нии какого количества данных определялась соответствую­щая сумма квадратов отклонений. Сначала определим число степеней свободы для межгрупповой дисперсии. Сумма квадратов отклонений доходов помещиков между районами определялась (см. табл. 28 и 29) сложением квад­ратов отклонений среднерайонных доходов от общей средней дохода двух районов. У нас имеется, следовательно, ряд из двух членов с заданной средней. Число степеней свободы поэтому составит: 2—1=1, так как если из­вестен общий средний доход обоих районов, то произ­вольно или свободно можно определить средний доход только в одном из двух районов, доход же другого района будет определен автоматически, т. е. зависимо.

Теперь определим число степеней свободы для внутри-групповой дисперсии. Сумма квадратов отклонений внутри районов определялась сложением квадратов отклонений доходов отдельных губерний от среднего дохода но рай­ону. Следовательно, имеется 2 ряда с заданной средней


по каждому ряду. Численность первого ряда — 9 чле­нов, второго — 11 членов. Число степеней свободы для первого ряда составит: 9—1=8, для второго: 11—1=10, для обоих вместе: 8+10=18. Число степеней свободы для внутригрупповой дисперсии, таким образом, меньше об­щего количества данных на число групп. В нашем при­мере 2 группы, поэтому и число степеней свободы для вну­тригрупповой дисперсии равняется: 20—2 = 18.

Сумма квадратов отклонений между всеми участвую­щими в анализе данными о доходах помещиков определя­ется либо сложением квадратов отклонений доходов от­дельных губерний от общего среднего дохода, либо сложе­нием внутригрупповой и межгрупповой сумм квадратов отклонений. Второй путь короче. Однако первый способ имеет другое преимущество: общая сумма квадратов от­клонений, найденная этим способом, позволяет проверить правильность расчета ее составляющих — внутригруп­повой и межгрупповой сумм квадратов отклонений. Так, в нашем случае вычисленная обеими способами об­щая сумма квадратов отклонений составила соответственно 83.80 и 83.96 (3.20+80.76). Различие в 0.16 невелико и обусловливается исключительно округлениями при рас­четах средних: хг=\2Ъ: 9=13.6666, а мы округлили до 13.7.

После определения суммы квадратов отклонений и числа степеней свободы дисперсии легко находятся с по­мощью деления первой на второе. Дисперсии записаны в 3-ю графу табл. 28.

Следующий этап дисперсионного анализа состой! в сравнении межгрупповой дисперсии с внутригрупповой, или остаточной, дисперсией. С этой целью вычисляется отношение дисперсий, при этом большая по величине дис­персия всегда делится на меньшую. Полученное отношение обозначается символом Р. Очевидно, если колебле­мость дохода помещиков существенно зависит от место­положения имения в том или другом районе, то диспер­сия дохода между районами должна быть больше диспер­сии дохода внутри районов:

„ в2 межгрупповая ^,

факт. ~ 52 внутрИГруППОВаЯ ^

Однако по выборочным данным нельзя абсолютно точно оценить истинную дисперсию, т. е. дисперсию


в генеральной совокупности. Неизбежная приблизитель­ность выборочных дисперсий приводит к тому, что их отношение не является вполне точным. По этой при­чине отношение выборочных дисперсий может быть больше единицы в результате случайного варьирования выбороч­ных данных, другими словами, вследствие ошибки вы­борочных дисперсий. Поэтому необходимо знать, когда отношение дисперсий (Р) обусловлено случайностью, а когда влиянием анализируемого фактора.

Для этого математики рассчитали теоретические зна­чения отношения дисперсий. Если при данном числе сте­пеней свободы фактическое отношение дисперсий (Р$йКт.) меньше теоретического, или табличного (^табл.)» то следует вывод, что отношения дисперсий не случайны и что учтен­ный фактор оказывает существенное влияние; если же больше, то гипотеза о влиянии фактора отвергается.

Так, предельно возможное значение РТАбЛщ для заклю­чения о существенности влияния учтенного фактора на­ходится на пересечении столбца и строки, соответствую­щих степеням свободы сравниваемых дисперсий. В нашем примере й2=1, ^1=18, ^факт.=1-40, а ^табл# =247 (при уровне вероятности заключения Р=0.05) и 6189 (при уровне вероятности Р=0.01). Р^ЛПш меньше 247, следовательно, местоположение имения не оказывает существенного влия­ния на доходы помещиков от своих имений.

Что означает отношение дисперсий при вероятности заключения 0.05 и 0.01? Уровень вероятности 0.05 озна­чает следующее. Если историк обнаружит дополнитель­ные данные о доходах помещиков, которые позволят ему сделать еще ряд выборок, во всех аналогичных анализи­руемой выборке по 20 губерниям, то в 5% новых выборок фактическое отношение дисперсий (^факт.) может свиде­тельствовать о том, что местоположение имения не влияет на доход помещиков СРфакт. будет меньше ^табл.), в то время как в действительности местоположение имения суще­ственно влияет на его доход. Соответственно при вероят­ности 0.01 в 1 % новых выборок РфгкТщ может быть меньше РТй6л, в то время как местоположение имения воздействует на доход помещиков.

Теоретическая величина Ртл6Лш связана с вероятностью. Повышение уровня вероятности вывода приводит к увели­чению Рт&бл.-> поэтому предельно возможное отношение между двумя дисперсиями для вывода о влиянии учтен-


12 Заказ М 294



ного фактора будет большим при Р=0.01, чем при Р = =0.05. В нашем примере при Р=0.05 Ртлбл=247, а при Р=01 — Р^&бл =6189, т. е. почти в 25 раз больше. Чем выше уровень вероятности вывода, тем осторожнее оценка влияния фактора. Поэтому если исследователь стремится с большей уверенностью делать вывод, он должен стро­ить его при большем уровне вероятности. Однако прак­тика и теория показывают, что на вывод, сделанный при уровне вероятности 0.05, исследователь может уверенно полагаться.

На последней стадии дисперсионного анализа одно-факторного комплекса примерно оценивается сила влия­ния местоположения имения, учтенного фактора, и про­чих, остаточных, факторов, оказывающих влияние на доходы помещиков. Оценка производится путем определе­ния доли межгрупповой и внутригрупповой суммы квад­ратов отклонений (не дисперсий!) в общей сумме квад­ратов отклонений доходов (см. табл. 28). На долю место­положения имения приходится примерно 4% вариации доходов помещиков, на остальные факторы — 96%. От­сюда следует, что местоположение имения обусловливало бы доход помещиков на 4%, если бы дисперсионный анализ признал этот фактор значимым для дохода име­ний. Поскольку дисперсионный анализ отверг гипотезу о влиянии местоположения имения, то 4% объясняются случайными ошибками наших выборочных данных.

Проведенный выше дисперсионный анализ данных о влиянии местоположения имения на доходы русских помещиков в 50-е годы XIX в. является типичным при­мером анализа однофакторного комплекса, когда оцени­вается влияние одного фактора, или одной независимой переменной.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2019-04-12 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: