В предыдущих главах говорилось о таком множестве различных математических коэффициентов, что у не искушенного в математике историка может возникнуть неясность в определении их смысла, значения и применения. Поэтому возникает необходимость суммировать наблюдения о применении регрессионного и корреляционного анализов в историческом исследовании.
Все, что может обнаружить регрессионный и корреляционный анализы, выражается тремя показателями: 1) коэффициентом регрессии, 2) стандартной ошибкой оценки зависимой переменной по независимой переменной и 3) коэффициентом детерминации (корреляции).
Коэффициент регрессии указывает на скорость изменения значения зависимой, или результирующей, переменной при изменении независимой переменной, или фактора. Например: как изменяются доход дворянского имения при изменении его размера на единицу, цена хлеба при изменении урожая на единицу, крестьянские повинности при изменении крестьянского надела на единицу и т. д. Так, коэффициент регрессии дохода имения по его размеру, составивший 0.00606 тыс. руб., означает, что при увеличении размера имения на 1 десятину его доход увеличивался на 0.00606 тыс. руб., или на 6.06 руб.
Стандартная ошибка оценки, или ошибка предсказания, зависимой переменной по независимой переменной показывает, насколько точно результирующая переменная может быть определена по ее фактору, что равносильно
ответу на вопрос, насколько удовлетворительно составлено уравнение регрессии. Так, стандартная ошибка оценки дохода имения по его размеру, составившая +0.0994 тыс. руб., показывает, что при определении дохода имения по его размеру средняя ошибка предсказания будет равна 0.0994 тыс. руб.—99.4 руб. Принимая во внимание, что средняя ошибка предсказания составляет всего около 13% действительного дохода в имениях, можно признать, что уравнение регрессии построено достаточно хорошо, что историк обнаружил весьма существенный фактор, обусловливающий доход имения.
Исследователи обычно стремятся выявить и оценить роль всех важнейших факторов, обусловливающих изучаемое явление, а затем объединить их в одно уравнение регрессии, в котором каждый фактор занимает место, соответствующее его значению. Правильность нахождения уравнения и определения роли каждого фактора и, следовательно, правильность решения всей задачи проверяется единственно возможным способом: сравнением предсказываемых уравнением регрессии значений зависимой переменной с фактическими ее значениями. Чем меньше ошибка предсказания, тем лучше поставлена и решена задача исследователем. Вследствие этого стандартная ошибка оценки зависимой переменной по независимой может рассматриваться как критерий правильности решения исследователем поставленной задачи.
Коэффициент детерминации — квадрат коэффициента корреляции — измеряет ту долю в изменении зависимой переменной, которая обусловливается влиянием фактора. Так, коэффициент детерминации между доходом и размером имения — 0.8762=0.77 — показывает, что доход имения примерно на 77% зависит от его размера.
Коэффициент регрессии и стандартная ошибка предсказания зависимой переменной по независимой — величины именованные. Они выражаются в тех же самых единицах, что и зависимая переменная или фактор. Например, при изменении размера имения на одну десятину доход — зависимая переменная, выраженная в рублях, — увеличивается на 0.00606 тыс. руб. При предсказании, или оценке, дохода по размеру имения стандартная ошибка предсказания составила 0.0994 тыс. руб. Коэффициенты детерминации и корреляции — величины неименованные.
Коэффициент регрессии и стандартная ошибка оценки могут принимать любые абсолютные значения, а коэффициенты детерминации и корреляции — от 0 до 1.
Коэффициенты регрессии и корреляции имеют знак либо плюс, либо минус, и эти знаки при обоих коэффициентах совпадают. Знак указывает на направление связи между переменными — прямая она или обратная. Коэффициент детерминации всегда положительный, так как квадрат и отрицательного, и положительного коэффициента корреляции будет величиной положительной. Стандартная ошибка оценки зависимой переменной по независимой имеет сразу два знака — плюс и минус, что означает, что истинная величина зависимой переменной может быть больше или меньше того значения, которое предсказано или получено по независимой переменной с помощью уравнения регрессии.
Указанные три показателя — коэффициент регрессии, стандартная ошибка оценки и коэффициент детерминации — не дублируют друг друга. Они измеряют разные стороны взаимоотношений между зависимой и независимой переменными.
Коэффициент регрессии характеризует абсолютное изменение зависимой переменной по независимой и вследствие этого природу количественных отношений между ними, т. е. что происходит с зависимой переменной при изменении независимой. Это первая сторона отношения переменных.
Коэффициент детерминации характеризует силу влияния независимой переменной на зависимую, долю этого влияния, а также степень согласованности в изменении переменных. Это вторая сторона отношения между переменными.
Стандартная ошибка оценки характеризует точность оценки зависимой переменной по независимой, следовательно, точность предсказания зависимой переменной и правильность уравнения регрессии. Это критерий для оценки работы, проделанной исследователем.
Каждый из трех указанных показателей играет большую роль в исследовании. Но какой из этих показателей должен привлечь особенное внимание историка? Это зависит от того, чему придается на данном этапе исследования наибольшое значение: если абсолютной величине изменений зависимой переменной, в центре внимания
должен быть коэффициент регрессии; если точности оценки зависимой переменной, особую роль играет стандартная ошибка оценки; если силе влияния фактора или степени тесноты связи между переменными, наиболее важным становится коэффициент детерминации. Таким образом, все три показателя занимают свое место в исследовании и ни один из них не должен быть отвергнут.
Поскольку коэффициенты регрессии и корреляции характеризуют определенный аспект взаимоотношений между одними и теми же переменными, между ними существует определенное соотношение, вследствие чего один коэффициент может быть получен на основе другого, Если известен коэффициент корреляции (г), то коэффициент регрессии (Ъ) вычисляется на его основе без решения системы нормальных уравнений по формуле:
Ъ -г —
где зу — стандартное отклонение зависимой переменной,
а 8Х — стандартное отклонение независимой переменной. В примере с дворянскими имениями коэффициент корреляции между доходом и размером имения равнялся 0.876, стандартные отклонения переменных составили: 5^=4.14, 5^=59.70. Отсюда находим коэффициент регрессии:
V. = °-876 • 59.70 = °-00606-
Точно так же, если известен коэффициент регрессии, на его основе может быть получен коэффициент корреляции по формуле:
Приглядевшись внимательно к обеим формулам, нетрудно заметить, что коэффициент корреляции в сущности является коэффициентом регрессии, но только выраженным не в единицах измерения переменных, а через отношение их стандартных отклонений. Коэффициент корреляции поэтому можно рассматривать как коэффициент регрессии, освобожденный от влияния размерности анализируемых переменных, как коэффициент регрессии, в который внесена поправка на размерность переменных.
В свою очередь если бы значение коэффициента регрессии не обусловливалось единицами измерения переменных, то он мог бы служить показателем тесноты корреляционной связи между ними: чем больше изменение зависимой переменной при изменении независимой переменной, тем теснее между ними связь.
Для историка коэффициент корреляции имеет большее значение, чем коэффициент регрессии, ввиду того что в исторических исследованиях значительно чаще ставится вопрос о силе влияния, о роли отдельных факторов, чем о прогнозе какого-либо показателя в связи с изменением того или иного условия.
Коэффициент регрессии не может измерять силу влияния фактора на результирующую переменную вследствие того, что его абсолютное значение зависит от размерности переменных. Однако некоторые историки, забывая об этом, пытаются по величине коэффициентов регрессии судить о роли отдельных факторов; чем больше значение коэффициента регрессии, тем больше величина фактора, которому он соответствует. Это неверно даже в том случае, если конкретные натуральные значения переменных заменить отвлеченными числами, например индексами, рангами и т. д. Последние устраняют не размерность, а только единицу измерения, что недостаточно, поскольку стандартные отклонения у переменных, выраженных через индексы, остаются прежними.
Зависимость коэффициента регрессии от размерности переменных приводит к тому, что коэффициенты регрессии и корреляции далеко не всегда абсолютно точно связаны в своих изменениях. Вследствие этого высокому коэффициенту корреляции не всегда соответствует высокий коэффициент регрессии и наоборот. Рассмотрим конкретный пример.
В табл. 25 содержатся коэффициенты регрессии и корреляции между хлебными ценами и их факторами в России в 1801—1914 гг.
Коэффициенты корреляции и регрессии ранжированы по их абсолютному значению. Сравнивая в табл. 25 ранжи рованный ряд коэффициентов корреляции (графа 2) и ряд коэффициентов регрессии (графа 4), не замечаем между ними абсолютной связи. Самому большому коэффициенту регрессии соответствует предпоследний по своему значению коэффициент корреляции и т. д. Совпаде-
ТАБЛИЦА 25
Связь между хлебными ценами и их факторами в России
В 1801—1914 г.
Фактор
Коэффициент корреляции
Ранг
Коэффициент регрессии
Ранг
Денежная масса....
Процент городского насе
ления.........................
Налоги...........................
Общее население...
Валютный курс....
Экспорт хлеба...............
Винокурение...................
Экспортные цены хлеба
Соотношение спроса и предложения хлеба.
Урожай..........................
0.70
0.63 0.54 0.49 0.47 0.42 -0.27 0.21
0.06 •0.01
Й
Й 3-й 4-й 5-й 6-й 7-й 8-й
9-й 10-й
0.2842
0.0895 0.0354 0.0854 0.0865 0.0044 -0.0341 0.0106
0.3110 -0.0087
2-й
3-й 6-й 5-й 4-й 10-й 7-й 8-й
1-й
9-й
ние рангов у обоих коэффициентов наблюдаем только у седьмого и восьмого факторов. В целом степень согласованности в значениях обоих коэффициентов, оцененная посредством коэффициента корреляции рангов Спирмена, составила 0.62. Отсюда следует, что вариация любого из коэффициентов обусловливается изменением другого всего на 38% (0.622), следовательно, значение одного коэффициента не предопределяет значение другого.
Таким образом, коэффициенты регрессии и корреляции суммируют почти все результаты регрессионно-корреляционного анализа, поскольку характеризуют тип (прямые, обратные), форму (прямолинейные или криволинейные), тесноту связи и количественные отношения в изменениях переменных и одновременно проверяют результаты анализа.
Конкретная задача и свойства анализируемых переменных диктуют исследователю выбор тех или иных видов коэффициентов регрессии и корреляции и способы их вычисления. При анализе парных линейных связей между двумя переменными — это коэффициенты корреляции и регрессии, при парных криволинейных связях — это индекс корреляции и несколько коэффициентов регрессии. При анализе линейной множественной корреляции показатели выступают как коэффициенты множественной,
парной и чистой корреляции, парные и чистые коэффициенты регрессии. В криволинейной же множественной корреляции вместо коэффициентов корреляции вычисляются индексы множественной, парной и чистой корреляции.
Коэффициент корреляции обладает особой гибкостью. В математической статистике разработано более десятка формул для вычисления коэффициента корреляции в зависимости от природы данных и вида изучаемой связи между переменными. В табл. 26 приведены важнейшие разновидности показателей корреляции и основные условия их применения.
ТАБЛИЦА 26
Разновидности показателей корреляции и условия их применения
Показатель | Значение | |||
корреляции | Условия их применения | показателей | ||
Коэффициент ассо- | 2 альтернативных признака | от | —1 до | +1 |
циации, @ | с линейной связью, раз- | |||
Коэффициент со- | мер таблицы сопряженно- | |||
пряженности, Ф | сти 2X2. | |||
Коэффициент вза- | 2 качественных или количе- | от | 0 ДО 1 | |
имной сопряжен- | ственных признака с не- | |||
ности Пирсона, С | сколькими (не менее трех) вариантами значеиий, частота каждого варианта не менее 5; связь линейная. | |||
Показатель | Один признак количествен- | от | —1 до | +1 |
связи, г^ | ный, другой качественный, альтернативный; связь линейная. | |||
Коэффициент кор- | Качественные признаки, | от | —1 до | +1 |
реляции Спир- | поддающиеся ранжиро- | |||
мена (р) и Кен- | ванию; связь линейная. | |||
дэла (т) | ||||
Коэффициент кор- | Связь линейная, число на- | от | —1 до | +1 |
реляции, г | блюдений более 12; распределения признаков близки к нормальному распределению. | |||
Индекс корреля- | Большое число наблюдений | от | 0 до 1 | |
ции, 1] | (более 100), связь линейная и криволинейная. |
Несмотря на разнообразие видов показателей корреляции между переменными, все они имеют общую структурно-логическую основу, так как основываются либо на принципе взаимной сопряженности, либо на принципе ковариации. Сущность принципа взаимной сопряженности состоит в следующем. Если в повторяющихся однотипных явлениях какой-либо признак появляется одновременно с другим признаком чаще, чем это может следовать из случайных стечений обстоятельств, то между этими признаками существует связь. Так, весь анализ революционного движения 70-х годов XIX в. основывался именно на отыскании и оценке взаимной сопряженности признаков, характеризующих участников этого движения. В результате анализа было обнаружено, что участию человека в революционном движении, как правило, сопутствовали молодость и образование.
Коэффициенты, действующие на принципе взаимной сопряженности, составляют одну группу показателей корреляции. Это коэффициенты ассоциации, сопряженности и взаимной сопряженности. В самих их названиях отражены принципы их работы. Все они предназначены для оценки связи между качественными признаками.
Вторую группу показателей составляют коэффициенты ранговой корреляции и корреляции, а также индекс корреляции. Они разработаны для измерения связи между количественными признаками, а также качественными признаками, поддающимися ранжированию, и действуют на принципе ковариации, или согласованности. В этом случае основанием для заключения о наличии связи между переменными служит параллельное и одновременное изменение их значений, когда изменение независимой переменной сопровождается устойчивым изменением — увеличением или уменьшением — зависимой переменной.
Каждый показатель связи приспособлен для измерения определенного вида корреляции, его использование ограничивается рядом моментов (см. табл. 26) и обусловливается целью корреляционного анализа.
При определении возможности применения того или иного показателя связи для решения конкретной задачи обычно учитывается ряд моментов: 1) количество данных; 2) природа данных: качественные или количественные признаки; 3) форма зависимости между переменными; линейная или нелинейная; 4) требуемая точность рас-
четовз если не требуется высокая точность, вместо коэффициента корреляции могут быть подсчитаны быстро вычисляемые коэффициенты ранговой корреляции; 5) удобство при вычислении и трудности технического порядка; 6) возможности интерпретации; 7) распространенность использования того или иного показателя корреляции (чтобы была возможность сравнивать результаты разных исследователей).
Регрессионный и корреляционный методы применимы, как вы убедились, к анализу отношений самых разнообразных признаков и их сочетаний. Надежность результатов этого анализа зависит от четырех факторов: 1) правильной постановки проблемы и предварительного качественного конкретно-исторического анализа; 2) количества данных, ибо устойчивые и верные выводы, как правило, получаются при большом количестве наблюдений;
3) удачного выбора соответствующих коэффициентов;
4) правильности интерпретации полученных коэффициентов.
Ложные зависимости
Особенно большое значение в корреляционном и регрессионном анализах имеет предварительный конкретно-исторический содержательный анализ отношений между изучаемыми переменными. Дело в том, что сама по себе устойчивая согласованность в изменениях переменных и, следовательно, высокий коэффициент корреляции не могут служить достаточным основанием для заключения о наличии между ними причинно-следственной связи. Две переменные, которые выглядят как взаимосвязанные, фактически могут не иметь между собой существенной связи, кроме отношения каждой из них в отдельности к третьей величине, подобно тому как теща является родственницей зятя только через свою родственную связь с его женой. С подобной зависимостью, когда обе переменные являлись следствием третьей причины, мы встречались при анализе связи между участием в революционном движении и социальным происхождением. Тесная связь между революционной активностью и дворянским происхождением в действительности отражала не влияние происхождения, а влияние образования, поскольку получение образования являлось привилегией дворян-
ства. Образование вследствие этого и оказалось тем третьим фактором, который оказывал влияние на революционную активность и был тесно связан с дворянским статусом.
Итак, тесная корреляция может предполагать существование причинно-следственной взаимосвязи между переменными, но может указывать и на такую связь между ними, когда они обе являются следствием третьей причины. Только конкретно-исторический логический анализ отношений между переменными в состоянии установить наличие между ними причинно-следственной связи и выбрать одну переменную как зависимую, или результирующую, а другую — как независимую, или фактор.
Тесная корреляция между переменными иногда получается и в результате случайных совпадений значений переменных. В таком случае говорят о бессмысленной корреляции. Примером подобной корреляции может быть связь между количеством телефонных аппаратов и числом больничных коек в СССР в 1913—1970 гг.
Между динамикой количества телефонных аппаратов и числа больничных коек обнаруживается высокая корреляция — коэффициент корреляции равен 0.95. Но только в шутку можно утверждать, что разговоры по телефону фатально влекут за собой увеличение числа больных и больничных коек или наоборот. Корреляция здесь лишена смысла. Впрочем, прежде чем признать ее бессмысленной, необходимо все-таки выяснить, нет ли отдаленной косвенной причинной связи между телефонными разговорами и числом больничных коек. Например, можно полагать, что существовала третья причина — технический прогресс, которая способствовала, с одной стороны, увеличению количества телефонных аппаратов, а с другой— более полному удовлетворению потребности в больничных койках. Однако, если даже подобное объяснение и не лишено совершенно смысла, очевидно, что динамика числа больничных коек не может на 90% (0.952) обусловливаться динамикой количества телефонных аппаратов. Данную корреляцию следует рассматривать как случайность, так как связи между обоими явлениями в действительности не существует.
Бессмысленную корреляцию можно наблюдать не только во временных, но и в пространственных рядах. Например, наблюдалась довольно тесная прямая связь между це-
И Заказ № 294
нами хлеба и ростом населения в губерниях России в 70— 80-х годах XIX в. Наличие корреляции между не связанными друг с другом явлениями объясняется единственно случайностью совпадения пространственных изменений обоих явлений.
Таким образом, если конкретно-исторический логический анализ не обнаруживает прямую причинно-следственную связь двух явлений, то корреляционная связь последних не может служить доказательством наличия между ними причинных отношений, а лишь указывает на существование их связи с третьим фактором, через который устанавливается отношение данных явлений друг с другом.