по дисциплине «Статистика (общая теория статистики)»

Вопросы к экзамену

53Корреляционно-регрессионный анализ. Показатели корреляционной связи

Корреляционный анализ имеет своей задачей количественное определение тес-

ноты и направления связи между двумя признаками (при парной связи) и между результа-

тивным и множеством факторных признаков (при многофакторной связи).

Теснота связи количественно выражается величиной коэффициентов корреляции,

которые, давая количественную характеристику тесноты связи между признаками, позво-

ляют определять «полезность» факторных признаков при построении уравнения множест-

венной регрессии. Знаки при коэффициентах корреляции характеризуют направление свя-

зи между признаками.

Регрессия тесно связана с корреляцией и позволяет исследовать аналитическое вы-

ражение взаимосвязи между признаками.

Регрессионный анализ заключается в определении аналитического выражения

связи, в котором изменение одной величины (называемой зависимой или результативным

признаком), обусловлено влиянием одной или нескольких независимых величин (фактор-

ных признаков).

Одной из проблем построения уравнений регрессии является их размерность, то

есть определение числа факторных признаков, включаемых в модель. Их число должно

быть оптимальным. Сокращение размерности за счет исключения второстепенных, несу-

щественных факторов позволяет получить модель, быстрее и качественнее реализуемую.

В то же время, построение модели малой размерности может привести к тому, что она бу-

дет недостаточно полно описывать исследуемое явление или процесс.

При построении моделей регрессии должны соблюдаться следующие требования:

1. Совокупность исследуемых исходных данных должна быть однородной и мате-

матически описываться непрерывными функциями.

2. Возможность описания моделируемого явления одним или несколькими уравне-

ниями причинно-следственных связей.

3. Все факторные признаки должны иметь количественное (числовое) выражение.

4. Наличие достаточно большого объема исследуемой совокупности (в последую-

щих примерах в целях упрощения изложения материала это условие нарушено, т.е. объем

очень мал).

5. Причинно-следственные связи между явлениями и процессами должны описы-

ваться линейной или приводимой к линейной форме зависимостью.

6. Отсутствие количественных ограничений на параметры модели связи.

7. Постоянство территориальной и временной структуры изучаемой совокупности.

Соблюдение данных требований позволяет построить модель, наилучшим образом

описывающую реальные социально-экономические явления и процессы.

54Парная регрессия

Парная регрессия позволяет получить аналитическое выражение связи между

двумя признаками: результативным и факторным.

Определить тип уравнения можно, исследуя зависимость графически, однако су-

ществуют более общие указания, позволяющие выявить уравнение связи, не прибегая к

графическому изображению. Если результативный и факторный признаки возрастают

одинаково, то это свидетельствует о том, что связь между ними линейная, а при обратной

связи – гиперболическая. Если результативный признак увеличивается в арифметической

прогрессии, а факторный значительно быстрее, то используется параболическая или сте-

пенная регрессия.

Оценка параметров уравнений регрессии (a0, a1, и a2 – в уравнении параболы вто-

рого порядка) осуществляется методом наименьших квадратов, в основе которого лежит

предположение о независимости наблюдений исследуемой совокупности и нахождении

параметров модели (a0, a1), при которых минимизируется сумма квадратов отклонений

эмпирических (фактических) значений результативного признака от теоретических, полу-

ченных по выбранному уравнению регрессии:

Система нормальных уравнений для нахождения параметров линейной парной рег-

рессии методом наименьших квадратов имеет следующий вид:

где n – объем исследуемой совокупности (число единиц наблюдения).

В уравнениях регрессии параметр a0 показывает усредненное влияние на результа-

тивный признак неучтенных в уравнении факторных признаков. Коэффициент регрессии

a1 показывает, на сколько в среднем изменяется значение результативного признака при

увеличении факторного признака на единицу собственного измерения.

55Множественная регрессия

Изучение связи между тремя и более связанными между собой признаками носит на-

звание множественной (многофакторной) регрессии:

Построение моделей множественной регрессии включает несколько этапов:

1. Выбор формы связи (уравнения регрессии);

2. Отбор факторных признаков;

3. Обеспечение достаточного объема совокупности.

Выбор типа уравнения затрудняется тем, что для любой формы зависимости можно

выбрать целый ряд уравнений, которые в определенной степени будут описывать эти свя-

зи. Основное значение имеют линейные модели в силу простоты и логичности их эконо-

мической интерпретации.

Важным этапом построения уже выбранного уравнения множественной регрессии

является отбор и последующее включение факторных признаков.

С одной стороны, чем больше факторных признаков включено в уравнение, тем

оно лучше описывает явление. Однако модель размерностью 100 и более факторных при-

знаков сложно реализуема и требует больших затрат машинного времени. Сокращение

размерности модели за счет исключения второстепенных, экономически и статистически

несущественных факторов способствует простоте и качеству ее реализации. В то же время

построение модели регрессии малой размерности может привести к тому, что такая мо-

дель будет недостаточно адекватна исследуемым явлениям и процессам.

Проблема отбора факторных признаков для построения моделей взаимосвязи мо-

жет быть решена на основе интуитивно-логических или многомерных математико-

статистических методов анализа.

Наиболее приемлемым способом отбора факторных признаков является шаговая

регрессия (шаговый регрессионный анализ). Сущность метода шаговой регрессии заклю-

чается в реализации алгоритмов последовательного «включения», «исключения» или

«включения-исключения» факторов в уравнение регрессии и последующей проверке их

статистической значимости. Алгоритм «включения» заключается в том, что факторы по-

очередно вводятся в уравнение так называемым «прямым методом». При проверке значи-

мости введенного фактора определяется, на сколько уменьшается сумма квадратов остат-

ков и увеличивается величина множественного коэффициента корреляции (R2). Одновре-

менно используется и алгоритм последовательного «исключения», сущность которого за-

ключается в том, что исключаются факторы, ставшие незначимыми по статистическим

критериям.

Фактор является незначимым, если его включение в уравнение регрессии только

изменяет значения коэффициентов регрессии, не уменьшая суммы квадратов остатков и

не увеличивая их значения. Если при включении в модель соответствующего факторного

признака величина множественного коэффициента корреляции увеличивается, а коэффи-

циента регрессии не изменяется (или меняется несущественно), то данный признак суще-

ственен и его включение в уравнение регрессии необходимо. В противном случае, фактор

нецелесообразно включать в модель регрессии.

При построении модели регрессии возможна проблема мультиколлинеарности, под

которой понимается тесная зависимость между факторными признаками, включенными в

модель (r,) x ij > 08.

Наличие мультиколлинеарности между признаками вызывает:

• искажение величины параметров модели, которые имеют тенденцию к завышению,

чем осложняется процесс определения наиболее существенных факторных призна-

ков;

• изменение смысла экономической интерпретации коэффициентов регрессии.

В качестве причин возникновения мультиколлинеарности между признаками мож-

но выделить следующие:

• изучаемые факторные признаки являются характеристикой одной и той же стороны

изучаемого явления или процесса. Например: показатели объема производимой

продукции и среднегодовой стоимости основных фондов одновременно включать в

модель не рекомендуется, так как они оба характеризуют размер предприятия;

• факторные признаки являются составляющими элементами друг друга. Например:

показатели выработки продукции на одного работающего и численность работаю щих одновременно в модель включать нельзя, так как в основе расчета показателей

лежит один и тот же показатель – численность работающих на предприятии.

• факторные признаки по экономическому смыслу дублируют друг друга.

Устранение мультиколлинеарности может реализовываться через исключение из

корреляционной модели одного или нескольких линейно-связанных факторных признаков

или преобразование исходных факторных признаков в новые, укрупненные факторы.

Вопрос о том, какой из факторов следует отбросить, решается на основании каче-

ственного, логического анализа изучаемого явления, а также на основе анализа тесноты

связи между результативным (y) c каждым из сильно коллинеарно связанных факторных

признаков. Из дальнейшего анализа целесообразно исключить тот факторный признак,

связь которого с результативным наименьшая.

Качество уравнения регрессии зависит от степени достоверности и надежности ис-

ходных данных и объема совокупности. Исследователь должен стремиться к увеличению

числа наблюдений, так как большой объем наблюдений является одной из предпосылок

построения адекватных статистических моделей.

Аналитическая форма связи результативного признака от нескольких факторных

выражается и называется многофакторным (множественным) уравнением регрессии или

моделью связи.

Линейное уравнение множественной регрессии имеет вид:

y 1,2,3,..., k – теоретические значения результативного признака, полученные в результате

подстановки соответствующих значений факторных признаков в уравнение регрессии;

x x xk

1 2,,..., – факторные признаки;

a a ak

1 2,,..., – параметры модели (коэффициенты регрессии).

Параметры уравнения могут быть определены графическим методом или методом

наименьших квадратов.

по дисциплине «Статистика (общая теория статистики)»

Поиск по сайту