Вопросы к экзамену
53Корреляционно-регрессионный анализ. Показатели корреляционной связи
Корреляционный анализ имеет своей задачей количественное определение тес-
ноты и направления связи между двумя признаками (при парной связи) и между результа-
тивным и множеством факторных признаков (при многофакторной связи).
Теснота связи количественно выражается величиной коэффициентов корреляции,
которые, давая количественную характеристику тесноты связи между признаками, позво-
ляют определять «полезность» факторных признаков при построении уравнения множест-
венной регрессии. Знаки при коэффициентах корреляции характеризуют направление свя-
зи между признаками.
Регрессия тесно связана с корреляцией и позволяет исследовать аналитическое вы-
ражение взаимосвязи между признаками.
Регрессионный анализ заключается в определении аналитического выражения
связи, в котором изменение одной величины (называемой зависимой или результативным
признаком), обусловлено влиянием одной или нескольких независимых величин (фактор-
ных признаков).
Одной из проблем построения уравнений регрессии является их размерность, то
есть определение числа факторных признаков, включаемых в модель. Их число должно
быть оптимальным. Сокращение размерности за счет исключения второстепенных, несу-
щественных факторов позволяет получить модель, быстрее и качественнее реализуемую.
В то же время, построение модели малой размерности может привести к тому, что она бу-
дет недостаточно полно описывать исследуемое явление или процесс.
При построении моделей регрессии должны соблюдаться следующие требования:
1. Совокупность исследуемых исходных данных должна быть однородной и мате-
матически описываться непрерывными функциями.
2. Возможность описания моделируемого явления одним или несколькими уравне-
ниями причинно-следственных связей.
3. Все факторные признаки должны иметь количественное (числовое) выражение.
4. Наличие достаточно большого объема исследуемой совокупности (в последую-
щих примерах в целях упрощения изложения материала это условие нарушено, т.е. объем
очень мал).
5. Причинно-следственные связи между явлениями и процессами должны описы-
ваться линейной или приводимой к линейной форме зависимостью.
6. Отсутствие количественных ограничений на параметры модели связи.
7. Постоянство территориальной и временной структуры изучаемой совокупности.
Соблюдение данных требований позволяет построить модель, наилучшим образом
описывающую реальные социально-экономические явления и процессы.
54Парная регрессия
Парная регрессия позволяет получить аналитическое выражение связи между
двумя признаками: результативным и факторным.
Определить тип уравнения можно, исследуя зависимость графически, однако су-
ществуют более общие указания, позволяющие выявить уравнение связи, не прибегая к
графическому изображению. Если результативный и факторный признаки возрастают
одинаково, то это свидетельствует о том, что связь между ними линейная, а при обратной
связи – гиперболическая. Если результативный признак увеличивается в арифметической
прогрессии, а факторный значительно быстрее, то используется параболическая или сте-
пенная регрессия.
Оценка параметров уравнений регрессии (a0, a1, и a2 – в уравнении параболы вто-
рого порядка) осуществляется методом наименьших квадратов, в основе которого лежит
предположение о независимости наблюдений исследуемой совокупности и нахождении
параметров модели (a0, a1), при которых минимизируется сумма квадратов отклонений
эмпирических (фактических) значений результативного признака от теоретических, полу-
ченных по выбранному уравнению регрессии:
Система нормальных уравнений для нахождения параметров линейной парной рег-
рессии методом наименьших квадратов имеет следующий вид:
где n – объем исследуемой совокупности (число единиц наблюдения).
В уравнениях регрессии параметр a0 показывает усредненное влияние на результа-
тивный признак неучтенных в уравнении факторных признаков. Коэффициент регрессии
a1 показывает, на сколько в среднем изменяется значение результативного признака при
увеличении факторного признака на единицу собственного измерения.
55Множественная регрессия
Изучение связи между тремя и более связанными между собой признаками носит на-
звание множественной (многофакторной) регрессии:
Построение моделей множественной регрессии включает несколько этапов:
1. Выбор формы связи (уравнения регрессии);
2. Отбор факторных признаков;
3. Обеспечение достаточного объема совокупности.
Выбор типа уравнения затрудняется тем, что для любой формы зависимости можно
выбрать целый ряд уравнений, которые в определенной степени будут описывать эти свя-
зи. Основное значение имеют линейные модели в силу простоты и логичности их эконо-
мической интерпретации.
Важным этапом построения уже выбранного уравнения множественной регрессии
является отбор и последующее включение факторных признаков.
С одной стороны, чем больше факторных признаков включено в уравнение, тем
оно лучше описывает явление. Однако модель размерностью 100 и более факторных при-
знаков сложно реализуема и требует больших затрат машинного времени. Сокращение
размерности модели за счет исключения второстепенных, экономически и статистически
несущественных факторов способствует простоте и качеству ее реализации. В то же время
построение модели регрессии малой размерности может привести к тому, что такая мо-
дель будет недостаточно адекватна исследуемым явлениям и процессам.
Проблема отбора факторных признаков для построения моделей взаимосвязи мо-
жет быть решена на основе интуитивно-логических или многомерных математико-
статистических методов анализа.
Наиболее приемлемым способом отбора факторных признаков является шаговая
регрессия (шаговый регрессионный анализ). Сущность метода шаговой регрессии заклю-
чается в реализации алгоритмов последовательного «включения», «исключения» или
«включения-исключения» факторов в уравнение регрессии и последующей проверке их
статистической значимости. Алгоритм «включения» заключается в том, что факторы по-
очередно вводятся в уравнение так называемым «прямым методом». При проверке значи-
мости введенного фактора определяется, на сколько уменьшается сумма квадратов остат-
ков и увеличивается величина множественного коэффициента корреляции (R2). Одновре-
менно используется и алгоритм последовательного «исключения», сущность которого за-
ключается в том, что исключаются факторы, ставшие незначимыми по статистическим
критериям.
Фактор является незначимым, если его включение в уравнение регрессии только
изменяет значения коэффициентов регрессии, не уменьшая суммы квадратов остатков и
не увеличивая их значения. Если при включении в модель соответствующего факторного
признака величина множественного коэффициента корреляции увеличивается, а коэффи-
циента регрессии не изменяется (или меняется несущественно), то данный признак суще-
ственен и его включение в уравнение регрессии необходимо. В противном случае, фактор
нецелесообразно включать в модель регрессии.
При построении модели регрессии возможна проблема мультиколлинеарности, под
которой понимается тесная зависимость между факторными признаками, включенными в
модель (r,) x ij > 08.
Наличие мультиколлинеарности между признаками вызывает:
искажение величины параметров модели, которые имеют тенденцию к завышению,
чем осложняется процесс определения наиболее существенных факторных призна-
ков;
изменение смысла экономической интерпретации коэффициентов регрессии.
В качестве причин возникновения мультиколлинеарности между признаками мож-
но выделить следующие:
изучаемые факторные признаки являются характеристикой одной и той же стороны
изучаемого явления или процесса. Например: показатели объема производимой
продукции и среднегодовой стоимости основных фондов одновременно включать в
модель не рекомендуется, так как они оба характеризуют размер предприятия;
факторные признаки являются составляющими элементами друг друга. Например:
показатели выработки продукции на одного работающего и численность работаю щих одновременно в модель включать нельзя, так как в основе расчета показателей
лежит один и тот же показатель – численность работающих на предприятии.
факторные признаки по экономическому смыслу дублируют друг друга.
Устранение мультиколлинеарности может реализовываться через исключение из
корреляционной модели одного или нескольких линейно-связанных факторных признаков
или преобразование исходных факторных признаков в новые, укрупненные факторы.
Вопрос о том, какой из факторов следует отбросить, решается на основании каче-
ственного, логического анализа изучаемого явления, а также на основе анализа тесноты
связи между результативным (y) c каждым из сильно коллинеарно связанных факторных
признаков. Из дальнейшего анализа целесообразно исключить тот факторный признак,
связь которого с результативным наименьшая.
Качество уравнения регрессии зависит от степени достоверности и надежности ис-
ходных данных и объема совокупности. Исследователь должен стремиться к увеличению
числа наблюдений, так как большой объем наблюдений является одной из предпосылок
построения адекватных статистических моделей.
Аналитическая форма связи результативного признака от нескольких факторных
выражается и называется многофакторным (множественным) уравнением регрессии или
моделью связи.
Линейное уравнение множественной регрессии имеет вид:
y 1,2,3,..., k – теоретические значения результативного признака, полученные в результате
подстановки соответствующих значений факторных признаков в уравнение регрессии;
x x xk
1 2,,..., – факторные признаки;
a a ak
1 2,,..., – параметры модели (коэффициенты регрессии).
Параметры уравнения могут быть определены графическим методом или методом
наименьших квадратов.