Что могут и чего не могут сделать коэффициенты регрессии и корреляции




В предыдущих главах говорилось о таком множестве различных математических коэффициентов, что у не ис­кушенного в математике историка может возникнуть неясность в определении их смысла, значения и примене­ния. Поэтому возникает необходимость суммировать на­блюдения о применении регрессионного и корреляцион­ного анализов в историческом исследовании.

Все, что может обнаружить регрессионный и корреля­ционный анализы, выражается тремя показателями: 1) коэффициентом регрессии, 2) стандартной ошибкой оценки зависимой переменной по независимой перемен­ной и 3) коэффициентом детерминации (корреляции).

Коэффициент регрессии указывает на скорость из­менения значения зависимой, или результирующей, пере­менной при изменении независимой переменной, или фактора. Например: как изменяются доход дворянского имения при изменении его размера на единицу, цена хлеба при изменении урожая на единицу, крестьянские повинности при изменении крестьянского надела на еди­ницу и т. д. Так, коэффициент регрессии дохода имения по его размеру, составивший 0.00606 тыс. руб., означает, что при увеличении размера имения на 1 десятину его доход увеличивался на 0.00606 тыс. руб., или на 6.06 руб.

Стандартная ошибка оценки, или ошибка предсказа­ния, зависимой переменной по независимой переменной показывает, насколько точно результирующая перемен­ная может быть определена по ее фактору, что равносильно


ответу на вопрос, насколько удовлетворительно составлено уравнение регрессии. Так, стандартная ошибка оценки дохода имения по его размеру, составившая +0.0994 тыс. руб., показывает, что при определении дохода имения по его размеру средняя ошибка предсказания будет равна 0.0994 тыс. руб.—99.4 руб. Принимая во внимание, что средняя ошибка предсказания составляет всего около 13% действительного дохода в имениях, можно признать, что уравнение регрессии построено достаточно хорошо, что историк обнаружил весьма существенный фактор, обусловливающий доход имения.

Исследователи обычно стремятся выявить и оценить роль всех важнейших факторов, обусловливающих изу­чаемое явление, а затем объединить их в одно уравнение регрессии, в котором каждый фактор занимает место, соответствующее его значению. Правильность нахожде­ния уравнения и определения роли каждого фактора и, следовательно, правильность решения всей задачи про­веряется единственно возможным способом: сравнением предсказываемых уравнением регрессии значений за­висимой переменной с фактическими ее значениями. Чем меньше ошибка предсказания, тем лучше поставлена и решена задача исследователем. Вследствие этого стан­дартная ошибка оценки зависимой переменной по неза­висимой может рассматриваться как критерий правиль­ности решения исследователем поставленной задачи.

Коэффициент детерминации — квадрат коэффициента корреляции — измеряет ту долю в изменении зависимой переменной, которая обусловливается влиянием фактора. Так, коэффициент детерминации между доходом и раз­мером имения — 0.8762=0.77 — показывает, что доход имения примерно на 77% зависит от его размера.

Коэффициент регрессии и стандартная ошибка пред­сказания зависимой переменной по независимой — вели­чины именованные. Они выражаются в тех же самых еди­ницах, что и зависимая переменная или фактор. Напри­мер, при изменении размера имения на одну десятину доход — зависимая переменная, выраженная в рублях, — увеличивается на 0.00606 тыс. руб. При предсказании, или оценке, дохода по размеру имения стандартная ошибка предсказания составила 0.0994 тыс. руб. Коэффициенты детерминации и корреляции — величины неименованные.


Коэффициент регрессии и стандартная ошибка оценки могут принимать любые абсолютные значения, а коэф­фициенты детерминации и корреляции — от 0 до 1.

Коэффициенты регрессии и корреляции имеют знак либо плюс, либо минус, и эти знаки при обоих коэффи­циентах совпадают. Знак указывает на направление связи между переменными — прямая она или обратная. Коэф­фициент детерминации всегда положительный, так как квадрат и отрицательного, и положительного коэффи­циента корреляции будет величиной положительной. Стандартная ошибка оценки зависимой переменной по не­зависимой имеет сразу два знака — плюс и минус, что означает, что истинная величина зависимой переменной может быть больше или меньше того значения, которое предсказано или получено по независимой переменной с помощью уравнения регрессии.

Указанные три показателя — коэффициент регрессии, стандартная ошибка оценки и коэффициент детермина­ции — не дублируют друг друга. Они измеряют разные стороны взаимоотношений между зависимой и незави­симой переменными.

Коэффициент регрессии характеризует абсолютное из­менение зависимой переменной по независимой и вслед­ствие этого природу количественных отношений между ними, т. е. что происходит с зависимой переменной при из­менении независимой. Это первая сторона отношения пере­менных.

Коэффициент детерминации характеризует силу влия­ния независимой переменной на зависимую, долю этого влияния, а также степень согласованности в изменении переменных. Это вторая сторона отношения между пере­менными.

Стандартная ошибка оценки характеризует точность оценки зависимой переменной по независимой, следова­тельно, точность предсказания зависимой переменной и правильность уравнения регрессии. Это критерий для оценки работы, проделанной исследователем.

Каждый из трех указанных показателей играет боль­шую роль в исследовании. Но какой из этих показателей должен привлечь особенное внимание историка? Это за­висит от того, чему придается на данном этапе исследова­ния наибольшое значение: если абсолютной величине из­менений зависимой переменной, в центре внимания


должен быть коэффициент регрессии; если точности оценки зависимой переменной, особую роль играет стандартная ошибка оценки; если силе влияния фактора или степени тесноты связи между переменными, наиболее важным становится коэффициент детерминации. Таким образом, все три показателя занимают свое место в исследовании и ни один из них не должен быть отвергнут.

Поскольку коэффициенты регрессии и корреляции характеризуют определенный аспект взаимоотношений между одними и теми же переменными, между ними существует определенное соотношение, вследствие чего один коэффициент может быть получен на основе другого, Если известен коэффициент корреляции (г), то коэффи­циент регрессии (Ъ) вычисляется на его основе без реше­ния системы нормальных уравнений по формуле:

Ъ -г —

где зу — стандартное отклонение зависимой переменной,

а 8Х — стандартное отклонение независимой переменной. В примере с дворянскими имениями коэффициент кор­реляции между доходом и размером имения равнялся 0.876, стандартные отклонения переменных составили: 5^=4.14, 5^=59.70. Отсюда находим коэффициент регрес­сии:

V. = °-876 • 59.70 = °-00606-

Точно так же, если известен коэффициент регрессии, на его основе может быть получен коэффициент корреля­ции по формуле:

Приглядевшись внимательно к обеим формулам, не­трудно заметить, что коэффициент корреляции в сущ­ности является коэффициентом регрессии, но только вы­раженным не в единицах измерения переменных, а через отношение их стандартных отклонений. Коэффициент корреляции поэтому можно рассматривать как коэффи­циент регрессии, освобожденный от влияния размер­ности анализируемых переменных, как коэффициент ре­грессии, в который внесена поправка на размерность пере­менных.


В свою очередь если бы значение коэффициента регрес­сии не обусловливалось единицами измерения переменных, то он мог бы служить показателем тесноты корреля­ционной связи между ними: чем больше изменение зави­симой переменной при изменении независимой перемен­ной, тем теснее между ними связь.

Для историка коэффициент корреляции имеет боль­шее значение, чем коэффициент регрессии, ввиду того что в исторических исследованиях значительно чаще ставится вопрос о силе влияния, о роли отдельных факто­ров, чем о прогнозе какого-либо показателя в связи с из­менением того или иного условия.

Коэффициент регрессии не может измерять силу влияния фактора на результирующую переменную вслед­ствие того, что его абсолютное значение зависит от раз­мерности переменных. Однако некоторые историки, за­бывая об этом, пытаются по величине коэффициентов регрессии судить о роли отдельных факторов; чем больше значение коэффициента регрессии, тем больше величина фактора, которому он соответствует. Это неверно даже в том случае, если конкретные натуральные значения переменных заменить отвлеченными числами, например индексами, рангами и т. д. Последние устраняют не раз­мерность, а только единицу измерения, что недостаточно, поскольку стандартные отклонения у переменных, вы­раженных через индексы, остаются прежними.

Зависимость коэффициента регрессии от размерности переменных приводит к тому, что коэффициенты регрес­сии и корреляции далеко не всегда абсолютно точно связаны в своих изменениях. Вследствие этого высокому коэффициенту корреляции не всегда соответствует вы­сокий коэффициент регрессии и наоборот. Рассмотрим конкретный пример.

В табл. 25 содержатся коэффициенты регрессии и кор­реляции между хлебными ценами и их факторами в Рос­сии в 1801—1914 гг.

Коэффициенты корреляции и регрессии ранжированы по их абсолютному значению. Сравнивая в табл. 25 ранжи рованный ряд коэффициентов корреляции (графа 2) и ряд коэффициентов регрессии (графа 4), не замечаем между ними абсолютной связи. Самому большому коэф­фициенту регрессии соответствует предпоследний по сво­ему значению коэффициент корреляции и т. д. Совпаде-


ТАБЛИЦА 25

Связь между хлебными ценами и их факторами в России

В 1801—1914 г.


Фактор


Коэффициент корреляции


Ранг


Коэффициент регрессии


Ранг


 


Денежная масса....

Процент городского насе­
ления.........................

Налоги...........................

Общее население...

Валютный курс....

Экспорт хлеба...............

Винокурение...................

Экспортные цены хлеба

Соотношение спроса и предложения хлеба.

Урожай..........................


0.70

0.63 0.54 0.49 0.47 0.42 -0.27 0.21

0.06 •0.01


Й

Й 3-й 4-й 5-й 6-й 7-й 8-й

9-й 10-й


0.2842

0.0895 0.0354 0.0854 0.0865 0.0044 -0.0341 0.0106

0.3110 -0.0087


2-й

3-й 6-й 5-й 4-й 10-й 7-й 8-й

1-й

9-й


ние рангов у обоих коэффициентов наблюдаем только у седьмого и восьмого факторов. В целом степень согласо­ванности в значениях обоих коэффициентов, оцененная посредством коэффициента корреляции рангов Спирмена, составила 0.62. Отсюда следует, что вариация любого из коэффициентов обусловливается изменением другого всего на 38% (0.622), следовательно, значение одного коэф­фициента не предопределяет значение другого.

Таким образом, коэффициенты регрессии и корреля­ции суммируют почти все результаты регрессионно-корреляционного анализа, поскольку характеризуют тип (прямые, обратные), форму (прямолинейные или криво­линейные), тесноту связи и количественные отношения в изменениях переменных и одновременно проверяют результаты анализа.

Конкретная задача и свойства анализируемых пере­менных диктуют исследователю выбор тех или иных видов коэффициентов регрессии и корреляции и способы их вычисления. При анализе парных линейных связей между двумя переменными — это коэффициенты корреляции и регрессии, при парных криволинейных связях — это индекс корреляции и несколько коэффициентов регрес­сии. При анализе линейной множественной корреляции показатели выступают как коэффициенты множественной,


парной и чистой корреляции, парные и чистые коэффи­циенты регрессии. В криволинейной же множественной корреляции вместо коэффициентов корреляции вычис­ляются индексы множественной, парной и чистой кор­реляции.

Коэффициент корреляции обладает особой гибкостью. В математической статистике разработано более десятка формул для вычисления коэффициента корреляции в за­висимости от природы данных и вида изучаемой связи между переменными. В табл. 26 приведены важнейшие разновидности показателей корреляции и основные ус­ловия их применения.

ТАБЛИЦА 26

Разновидности показателей корреляции и условия их применения

 

Показатель     Значение
корреляции Условия их применения показателей
Коэффициент ассо- 2 альтернативных признака от —1 до +1
циации, @ с линейной связью, раз-      
Коэффициент со- мер таблицы сопряженно-      
пряженности, Ф сти 2X2.      
Коэффициент вза- 2 качественных или количе- от 0 ДО 1  
имной сопряжен- ственных признака с не-      
ности Пирсона, С сколькими (не менее трех) вариантами значеиий, ча­стота каждого варианта не менее 5; связь линейная.      
Показатель Один признак количествен- от —1 до +1
связи, г^ ный, другой качествен­ный, альтернативный; связь линейная.      
Коэффициент кор- Качественные признаки, от —1 до +1
реляции Спир- поддающиеся ранжиро-      
мена (р) и Кен- ванию; связь линейная.      
дэла (т)        
Коэффициент кор- Связь линейная, число на- от —1 до +1
реляции, г блюдений более 12; рас­пределения признаков близки к нормальному распределению.      
Индекс корреля- Большое число наблюдений от 0 до 1  
ции, 1] (более 100), связь линей­ная и криволинейная.      

Несмотря на разнообразие видов показателей корре­ляции между переменными, все они имеют общую струк­турно-логическую основу, так как основываются либо на принципе взаимной сопряженности, либо на принципе ковариации. Сущность принципа взаимной сопряжен­ности состоит в следующем. Если в повторяющихся однотипных явлениях какой-либо признак появляется одновременно с другим признаком чаще, чем это может следовать из случайных стечений обстоятельств, то между этими признаками существует связь. Так, весь анализ революционного движения 70-х годов XIX в. основы­вался именно на отыскании и оценке взаимной сопряжен­ности признаков, характеризующих участников этого движения. В результате анализа было обнаружено, что участию человека в революционном движении, как правило, сопутствовали молодость и образование.

Коэффициенты, действующие на принципе взаимной сопряженности, составляют одну группу показателей корреляции. Это коэффициенты ассоциации, сопряжен­ности и взаимной сопряженности. В самих их названиях отражены принципы их работы. Все они предназначены для оценки связи между качественными признаками.

Вторую группу показателей составляют коэффициенты ранговой корреляции и корреляции, а также индекс кор­реляции. Они разработаны для измерения связи между количественными признаками, а также качественными признаками, поддающимися ранжированию, и действуют на принципе ковариации, или согласованности. В этом случае основанием для заключения о наличии связи между переменными служит параллельное и одновременное изменение их значений, когда изменение независимой переменной сопровождается устойчивым изменением — увеличением или уменьшением — зависимой переменной.

Каждый показатель связи приспособлен для измере­ния определенного вида корреляции, его использование ограничивается рядом моментов (см. табл. 26) и обуслов­ливается целью корреляционного анализа.

При определении возможности применения того или иного показателя связи для решения конкретной задачи обычно учитывается ряд моментов: 1) количество данных; 2) природа данных: качественные или количественные признаки; 3) форма зависимости между переменными; линейная или нелинейная; 4) требуемая точность рас-


четовз если не требуется высокая точность, вместо коэффициента корреляции могут быть подсчитаны быстро вычисляемые коэффициенты ранговой корреляции; 5) удобство при вычислении и трудности технического по­рядка; 6) возможности интерпретации; 7) распространен­ность использования того или иного показателя корреля­ции (чтобы была возможность сравнивать результаты раз­ных исследователей).

Регрессионный и корреляционный методы применимы, как вы убедились, к анализу отношений самых разнооб­разных признаков и их сочетаний. Надежность резуль­татов этого анализа зависит от четырех факторов: 1) пра­вильной постановки проблемы и предварительного качественного конкретно-исторического анализа; 2) коли­чества данных, ибо устойчивые и верные выводы, как пра­вило, получаются при большом количестве наблюдений;

3) удачного выбора соответствующих коэффициентов;

4) правильности интерпретации полученных коэффици­ентов.

Ложные зависимости

Особенно большое значение в корреляционном и регрес­сионном анализах имеет предварительный конкретно-исторический содержательный анализ отношений между изучаемыми переменными. Дело в том, что сама по себе устойчивая согласованность в изменениях переменных и, следовательно, высокий коэффициент корреляции не могут служить достаточным основанием для заключе­ния о наличии между ними причинно-следственной связи. Две переменные, которые выглядят как взаимосвязан­ные, фактически могут не иметь между собой существен­ной связи, кроме отношения каждой из них в отдельности к третьей величине, подобно тому как теща является родственницей зятя только через свою родственную связь с его женой. С подобной зависимостью, когда обе пере­менные являлись следствием третьей причины, мы встре­чались при анализе связи между участием в революцион­ном движении и социальным происхождением. Тесная связь между революционной активностью и дворянским происхождением в действительности отражала не влия­ние происхождения, а влияние образования, поскольку получение образования являлось привилегией дворян-


ства. Образование вследствие этого и оказалось тем третьим фактором, который оказывал влияние на рево­люционную активность и был тесно связан с дворянским статусом.

Итак, тесная корреляция может предполагать суще­ствование причинно-следственной взаимосвязи между пере­менными, но может указывать и на такую связь между ними, когда они обе являются следствием третьей при­чины. Только конкретно-исторический логический ана­лиз отношений между переменными в состоянии устано­вить наличие между ними причинно-следственной связи и выбрать одну переменную как зависимую, или резуль­тирующую, а другую — как независимую, или фактор.

Тесная корреляция между переменными иногда по­лучается и в результате случайных совпадений значений переменных. В таком случае говорят о бессмысленной корреляции. Примером подобной корреляции может быть связь между количеством телефонных аппаратов и числом больничных коек в СССР в 1913—1970 гг.

Между динамикой количества телефонных аппаратов и числа больничных коек обнаруживается высокая кор­реляция — коэффициент корреляции равен 0.95. Но только в шутку можно утверждать, что разговоры по теле­фону фатально влекут за собой увеличение числа боль­ных и больничных коек или наоборот. Корреляция здесь лишена смысла. Впрочем, прежде чем признать ее бес­смысленной, необходимо все-таки выяснить, нет ли от­даленной косвенной причинной связи между телефонными разговорами и числом больничных коек. Например, можно полагать, что существовала третья причина — техни­ческий прогресс, которая способствовала, с одной стороны, увеличению количества телефонных аппаратов, а с другой— более полному удовлетворению потребности в больничных койках. Однако, если даже подобное объяснение и не ли­шено совершенно смысла, очевидно, что динамика числа больничных коек не может на 90% (0.952) обусловливаться динамикой количества телефонных аппаратов. Данную корреляцию следует рассматривать как случайность, так как связи между обоими явлениями в действительности не существует.

Бессмысленную корреляцию можно наблюдать не только во временных, но и в пространственных рядах. Например, наблюдалась довольно тесная прямая связь между це-


И Заказ № 294



нами хлеба и ростом населения в губерниях России в 70— 80-х годах XIX в. Наличие корреляции между не связан­ными друг с другом явлениями объясняется единственно случайностью совпадения пространственных изменений обоих явлений.

Таким образом, если конкретно-исторический логи­ческий анализ не обнаруживает прямую причинно-след­ственную связь двух явлений, то корреляционная связь последних не может служить доказательством наличия между ними причинных отношений, а лишь указывает на существование их связи с третьим фактором, через который устанавливается отношение данных явлений друг с другом.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2019-04-14 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: