Но дисперсионный анализ может применяться также и для выяснения влияния двух, трех, четырех и вообще любого количества факторов. Однако возникающие при увеличении числа факторов трудности интерпретации результатов и необходимость громоздкой вычислительной работы (в случае отсутствия ЭВМ) ставят предел усложнению задач. Практика показывает, что результаты дисперсионного анализа трехфакторного комплекса
еще возможно интерпретировать. Модели же с большим числом факторов целесообразно разложить на несколько менее сложных комплексов и анализировать каждый в отдельности.
Рассмотрим особенности дисперсионного анализа двух-факторного комплекса на примере изучения данных по истории урожаев в России. Историками собран значительный материал по истории урожаев в России XVII — XVIII вв., характеризующий динамику урожаев по десятилетиям и полстолетиям по районам и отдельным хлебам.1 В суммарном виде эти данные приведены в табл. 30.
Из этих данных следует, что в течение 150 лет наблюдалось общее повышение урожайности в России, имелись существенные различия в динамике урожайности в отдельных районах и по отдельным хлебам. Отсюда можно сделать вывод, что урожайность зависела от трех факторов: района, вида хлебной культуры и времени. За фактором «район» стояли различия в почвенно-климатических и социально-экономических условиях в отдельных местностях России, а за фактором «вид хлебной культуры» — биологические особенности той или иной культуры, а также специфика ее агротехники. Под фактором «время» имеется в виду прогресс агротехники, вовлечение в хозяйственный оборот целинных земель и некоторые другие социально-экономические условия, которые действовали на урожаи как бы автоматически, с течением времени.
Однако полученный вывод уязвим, ибо не учитывает весьма существенного обстоятельства, а именно того, что установленные из приведенных данных различия урожая по районам, полстолетиям и культурам могут быть результатом случайности или ошибок выборочных средних, и тогда они вовсе не обусловливаются указанными социально-экономическими факторами. Вывод о влиянии района, культуры и времени на урожайность является, таким образом, гипотезой, которую следует проверить. Перед историком встает вопрос: случайна ли динамика урожаев, или она причинно обусловлена райо-
1 Индова Е. И. Урожаи в Центральной России за 150 лет (вторая половина XVII—XVIII в.). — В кн.: Ежегодник по аграрной истории Восточной Европы. 1965 г. Мм 1970.
12*
ТАБЛИЦА 30 Урожаи хлебов в Центральной России по второй половине XVII—XVIII в.
Район | Вторая половина XVII в. | Первая половина XVIII в. | Вторая половина XVII в. | Всего | ||||||||||||
[ | ||||||||||||||||
Центрально-Промышленный.. Центра л ьно-Ч ер-ноземный... Северо-Западный Северный.... Поволжье.... | 33 23 32 47 | 3.3 3.8 3.1 3.2 4.1 | 3.1 3.9 3.5 3.0 4.0 | 3.2 3.8 3.1 4.9 3.7 | 62 53 54 59 | 3.3 4.1 3.1 3.3 3.8 | 2.9 4.4 3.1 3.3 3.5 | 3.9 4.5 3.3 3.2 3.7 | 87 74 61 75 | 3.2 4.6 3.0 3.8 3.9 | 3.1 5.2 3.0 3.7 4.0 | 3.1 4.6 3.1 3.9 4.0 | 182 150 147 | 3.4 4.2 3.1 3.6 4.0 | 3.0 4.5 3.2 3.5 4.0 | 3.4 4.3 3.2 4.0 3.8 |
Россия в целом | 3.5 | 3.4 | 3.7 | 3.5 | 3.5 | 3.8 | 3.8 | 4.0 | 3.8 | 3.6 | 3.6 | 3.8 |
Примечание. 1 — количество данных; 2 — урожай ржи; 3—урожай овса; 4 — средний урожай по всем хлебам. Приведенные в таблице данные составляют средний урожай в «самах».
ном, культурой и временем? Ответить на этот вопрос поможет дисперсионный анализ.
Для облегчения счетной работы решение задачи расчленим на два этапа. На первом этапе выясним степень зависимости динамики урожайности от района и времени. С этой целью сгруппируем данные по районам и полстолетиям. На втором этапе выясним зависимость урожая от вида культуры и времени. Для этого сгруппируем те же данные по культурам и десятилетиям. В результате анализа будет получен ответ на вопрос: влияли ли время в десятилетних и полстолетних интервалах, район и вид культуры на динамику урожая в России XVII — XVIII вв.
Прежде чем переходить к анализу данных об урожае, необходимо сделать одну оговорку. Дело в том, что при оценке воздействия на урожай двух факторов неизбежно возникает необходимость учесть влияние и третьего фактора — взаимодействия между двумя учтенными факторами, между районом и временем, с одной стороны, и культурой и временем — с другой. О каком взаимодействии факторов идет речь?
Историки знают, что прогресс агротехники в разных районах был неодинаковым: большим в нечерноземных районах, меньшим — в черноземных. Известно также, что в каждом из районов к середине XVII в. размеры фонда целинных земель существенно отличались, следовательно, возможности для роста урожайности в каждом районе за счет вовлечения в оборот новых земель не были равными. Кроме того, уже в XVII в. существовала специализация районов на производстве того или иного вида хлеба: на Севере производили больше ржи и овса, на Юге — ячменя и пшеницы. Специализация тоже могла повлиять на динамику урожайности в отдельных районах. Таким образом, комбинация, или взаимодействие, трех факторов — района, культуры и времени — могла оказывать существенное влияние на динамику урожайности, и ее необходимо учитывать. Многофакторный дисперсионный анализ как раз и позволяет выяснить не только степень влияния отдельных факторов, но и влияние их взаимодействия. В этом и заключается то новое, что он дает. В остальном анализы двухфакторного и однофакторного комплексов принципиально не различаются.
Существует несколько способов проведения дисперсионного анализа двухфакторного комплекса. Будучи принципиально схожими, они имеют каждый свои недостатки и преимущества. Знакомясь с техникой проведения дисперсионного анализа (это в равной мере относится и к другим видам анализа: корреляционному, регрессионному и т. д.), необходимо принять во внимание, что для облегчения счетной работы в процесс вычислений вводится ряд промежуточных этапов, первоначальные формулы упрощаются и видоизменяются, составляются дополнительные таблицы. В результате неискушенному исследователю бывает трудно разобраться в обилии формул, обозначений и даже инигда может показаться, что основополагающие принципы дисперсионного анализа «забыты». Чтобы этого не случилось, нужно хорошо знать основные этапы дисперсионного анализа: 1) подсчет суммы квадратов отклонений межгрупповой и внутри-групповой вариации; 2) подсчет степеней свободы; 3) вычисления дисперсий и их отношений; 4) сравнение фактических и теоретических отношений. Знание основных этапов и логики дисперсионного анализа и будет служить путеводной нитью, которая поможет историку разоб-браться в технике расчетов.
Как мы условились, выясним сначала с помощью дисперсионного анализа значение района и времени для динамики урожайности ржи. Исходные данные для проведения дисперсионного анализа приведены в табл. 30.
ТАБЛИЦА 31 Анализ дисперсий
Сумма квадратов отклонений | Степени свободы | Дисперсия | Отношение дисперсий | ||
Источник вариации | -^факт. | -Р'теор. | |||
Их взаимодействие Районы и время вместе Остаточная вариация | 2.87 0.29 1.20 4.36 34.26 | 0.718 0.145 0.150 0.310 0.142 | 5.06 1.02 1.06 База ср | 2.42 3.03 1.97 ►авнения | |
38.62 | — | — | — |
Результаты дисперсионного анализа этих данных см. в табл. 31.
Таким же образом был проведен дисперсионный анализ влияния района и времени на динамику урожая овса, ячменя и пшеницы. Анализ дал те же результаты: урожайность зависела только от района.
Второй этап анализа данных об урожайности за XVII — XVIII вв., как уже указывалось, состоял в выяснении влияния вида культуры и времени в десятилетних интервалах на урожайность хлебов. Дисперсионному анализу подвергались данные за вторую половину XVII и XVIII в. (табл. 32).
ТАБЛИЦА 32 Анализ дисперсий
Сумма квадратов отклонений | Степени спо-боды | Дисперсия | Отношение дисперсий | ||
Источник вариации | ■^факт. | ■^теор. | |||
Культуры хлебов.. Десятилетия.... Их взаимодействие. Культуры и десятилетия вместе.... Остаточная вариация | 1.20 0.85 1.74 3.79 52.21 | 12 307 | 0.40 0.21 0.15 0.32 0.17 | 2.35 2.63 1.24 2.40 1.13 1.81 База сравнения | |
56.00 | — | — | — |
Аналогичные результаты получились при дисперсионном анализе данных об урожае по отдельным культурам за 1651—1700 и 1751—1800 гг.
Какие выводы позволяет сделать дисперсионный анализ имеющихся данных по истории урожаев в XVII— XVIII вв.? Динамика урожайности хлебов в XVII—XVIII вв. зависела только от района, но не зависела от времени, от вида хлебов и от взаимодействия района и времени, вида хлебов и времени, вида хлебов и района, поскольку фактическое отношение дисперсий превышало теоретическое только при оценке зависимости урожая от района. Это означает, что предполагаемая тенденция к повышению урожайности хлебов, которая как будто просматри-
валась из первоначальных статистических данных (см. табл. 30), является результатом случайности, особенностей выборочных данных, не обусловлена социально-экономическими факторами.
Дисперсионный анализ позволяет также сделать вывод: имеющиеся в распоряжении историков данные об урожайности не дают оснований считать, что уровни и динамика урожая сколько-нибудь существенно зависели от хлебных культур. По-видимому, различия в уровнях урожайности между отдельными культурами по 10-летиям и 50-летиям тоже являются результатом случайности и недостатка выявленных данных об урожае, а не обусловлены социально-экономическими факторами и биологическими особенностями хлебных культур.
Несущественной оказалась зависимость урожайности и от комбинации факторов. Это свидетельствует о том, что сочетания факторов, вероятно, не имели еще в XVII — XVIII вв. заметных различий между районами и эти различия не изменялись существенно от десятилетия к десятилетию и от периода к периоду, а потому не оказывали ощутимого влияния на уровень и динамику урожайности.
Что касается различия в уровне и динамике урожаев между отдельными районами, то дисперсионный анализ подтверждает гипотезу, выдвинутую на основе первичной обработки данных об урожаях: различия в уровне и динамике урожаев между районами — результат закономерный, обусловленный географическими и социально-экономическими особенностями районов. Какие именно особенности вызвали вариацию урожайности между районами, показывает конкретно-исторический анализ. Различия в плодородии почвы, в системе агротехники, в формах феодальной эксплуатации, в количестве лесов и степени распаханности фонда земель — вот что обусловило разницу в уровнях и динамике урожайности между районами. Собрав соответствующие статистические данные об этих факторах, можно вновь провести дисперсионный анализ, который оценит их влияние.
Таким образом, дисперсионный анализ выявленных историками данных об урожае ржи, овса, пшеницы и ячменя в России XVII—XVIII вв. дает основания полагать, что не было закономерных различий в уровне и динамике урожайности по отдельным культурам и в изменении урожайности во времени, но существовала за-
висимость уровня и динамики урожайности от района. Ту тенденцию к росту урожайности, которую обнаруживают первичные данные, следует считать результатом случайности и неполноты выборочных данных. При большем количестве сведений об урожае тенденция может «исчезнуть». Из этого не следует, что собранные историками данные неверны — их просто недостаточно, чтобы сделать обоснованный вывод о росте урожая.
Следует подчеркнуть, что дисперсионный анализ не может заменить отсутствующих данных, он позволяет лишь критически оценивать добытые историками данные. Проведенный анализ дает право сказать, что имеющиеся сведения об урожае не являются основанием для вывода о тенденции урожая хлебов к росту. При строгом подходе к подобным сведениям они свидетельствуют лишь о том, что урожаи сильно колебались во времени, имея тенденцию к устойчивости, что никакого прогресса урожайности за 150 лет достигнуто не было. Возможно, что дополнительные сведения об урожае XVII—XVIII вв. заставят пересмотреть данный вывод. Однако на современном этапе знаний вывод об устойчивости урожайности представляется наиболее реалистическим.
В применении дисперсионного анализа имеются некоторые условия, с которыми вынужден считаться исследователь.
1. Метод применим к анализу выборочных данных, взятых из совокупности, имеющей нормальное распределение или распределение, близкое к нормальному. От-дельные наблюдения, или данные, в выборке не связаны и не зависимы друг от друга.
2. Природа, или источник, изменчивости зависимой переменной во всех группах и подгруппах одна и та же.
3. Суммарное воздействие отдельных факторов на зависимую переменную получается в результате сложения, а не умножения влияния отдельных факторов.
4. Численность данных по отдельным признакам (районам, культурам, периодам и т. д.) либо равна, либо пропорциональна.
Нарушение указанных условий не исключает применения дисперсионного анализа. Но оценки влияния факторов при этом менее точны, а общие выводы менее надежны. Поэтому прежде чем приступать к дисперсионному анализу, полезно предварительно выяснить, насколько вы-
полняются перечисленные условия. В примере с историей урожайности условия в основном выполнялись. Распределение имений по уровню урожайности в целом по России подчиняется нормальному закону распределения, поскольку большая часть имений — 60—70% — имеет среднюю урожайность, остальные примерно в равной пропорции составляют две группы имений — с высокой и низкой урожайностью. Урожаи в отдельных имениях не зависимы друг от друга, так как не оказывают друг на друга влияния.
Природа, или источник, колебаний урожайности в отдельных имениях одна: социально-экономические, географические особенности имений и деловые качества их владельцев.
Суммарный эффект от воздействия отдельных факторов на урожайность получается в результате сложения их влияний. Это видно из того, что средние урожаи по отдельным районам отличаются друг от друга не очень сильно, так как различия средних находятся в пределах 10096. Практика же дисперсионного анализа показывает, что если общий эффект влияния факторов получается в результате умножения их отдельных значений, то величины групповых средних должны очень сильно — в несколько раз — отличаться друг от друга.
Наконец, численность групп и подгрупп урожайных данных по районам и периодам пропорциональна (см. табл. 30). За каждый из трех периодов: во второй половине XVII в., в первой и второй половинах XVIII в. относительная численность данных — процент или доля сведений по району в общем количестве данных по России — была примерно одинаковой вследствие того, что увеличение количества данных от десятилетия к десятилетию во всех районах проходило в общем равномерно.
Рассмотренные примеры дисперсионного анализа со всей очевидностью раскрывают достоинства метода. Отметим прежде всего логическую и техническую простоту дисперсионного анализа и его универсальность. Метод одинаково применим к анализу и качественных, и количественных признаков. Однако дисперсионный анализ особенно полезен при исследовании влияния факторов, имеющих качественное выражение. С подобными факторами большей частью имеет дело ученый, изучающий социальную, политическую и культурную историю. В силу
этого дисперсионный анализ следует рассматривать как очень важное орудие анализа в истории, использование которого может дать богатые плоды.
Например, изучение исторического явления во времени и пространстве, или в географии, является неотъемлемой частью всякого исторического исследования, поскольку раскрытие эволюции явлений и процессов именно во времени и пространстве составляет его цель. Но в истории пространство и время чаще всего выступают как качественные характеристики, не имеющие количественной определенности, поскольку историк оперирует преимущественно периодами, этапами, эпохами, а не часами, минутами и секундами; губерниями, провинциями, районами, странами, а не градусами широты и долготы. Применение дисперсионного анализа как раз и позволит оценить влияние времени и пространства на изучаемое историческое явление и тем самым ответить на вопрос, закономерны или случайны изменения, наблюдаемые историком по сохранившимся от прошлого сведениям. Благодаря этому становится возможным с высокой точностью определить, имелась ли закономерная тенденция в эволюции данного явления в пространстве и времени. Это только одно из множества приложений дисперсионного анализа в историческом исследовании.
Ч» Ч* Ч*
В заключение хочется подчеркнуть, что эта книга дает возможность читателю ознакомиться с некоторыми наиболее известными математическими методами, применяемыми в историческом исследовании, разобраться в их смысле и логике и в значении для истории. Дальнейшее освоение этих методов возможно при самостоятельной работе, причем не столько с учебниками математики и статистики, сколько с конкретным историческим материалом, для анализа которого используются математические методы. Это нелегко, но чрезвычайно интересно и плодотворно и вполне посильно для любого историка. В применении математических методов в истории много нового, неизведанного, поскольку это одна из новых, молодых областей исторической науки. И для каждого, кто пожелает здесь приложить свои силы, открывается широкое поле деятельности.