В работе были приведены данные по территориям Центрального района РФ за 1995 год по следующим показателям:
1. Доля денежных доходов, направленных на прирост сбережений во вкладах, займах, сертификатах и на покупку валюты, в общей сумме среднедушевого денежного дохода, %- Доля_дох.
2. Среднемесячная начисленная заработная плата, тыс. руб. – Ср_зарп.
По каждой из переменных были вычислены дескриптивные статистики, представленные в табл. 2.8.
Таблица 2.8
Статистики | Доля_дох | Ср_зарп |
Выборочное среднее | 8.13 | 333.55 |
Выборочная дисперсия | 2,35 | 892,87 |
Выборочное ср. кв. | 1,53 | 29,88 |
Нижний квартиль | 6,40 | 300,00 |
Верхний квартиль | 9,30 | 356,00 |
Кварт. размах выборки | 2,90 | 56,00 |
95 % доверительный интервал для М(Х) | (7.10; 9,16) | (313,47; 353,62) |
99 % доверительный интервал М(Х) | (6,67; 9,59) | (304,99; 362,09) |
95 % доверительный интервал для D(Х) | (1,15; 7,23) | (148,85; 938,43) |
Выборочный коэффициент корреляции равен 0,21 при этом значение p = 0.53. Такая величина р-уровня свидетельствует о том, что коэффициент корреляции не является статистически значимым. Другими словами, имеющиеся данные о среднемесячной заработанной плате и доле сбережений населения не позволяют сделать вывод о наличии значимой связи. Выборочное значение коэффициента корреляции следует рассматривать как значение, случайно полученное при формировании выборки, т.е. отклонение от нулевого значения не отражает истинной зависимости между анализируемыми показателями. Сделанный вывод подтверждается изучением диаграммы рассеяния показателей.
Замечание. Следует принять во внимание условность всех сделанных выше выводов, поскольку нормальность распределений рассматриваемых показателей не подтверждается ни одним из критериев согласия. Предварительный вывод можно сделать на основании изучения гистограмм распределения показателей.
|
Рис.2.4. Диаграмма рассеяния признаков
Очевидно, что дальнейшее исследование этих данных с помощью регрессионного анализа не имеет смысла. Можно попытаться обнаружить зависимость между показателями, предварительно преобразовав их. Например, перейти к исследованию зависимости между логарифмами этих показателей.
Задание № 2. По данным ряда регионов за ноябрь 1997 г. требуется оценить зависимость потребительских расходов на душу населения (тыс. руб.) от средней заработанной платы и выплат социального характера (тыс. руб.).
Таблица 2.9
Исходные данные
Таблица 2.9
Результаты расчёта описательных статистик
Статистики | Потр._расх. | Ср._з/п |
Выборочное среднее | 393,52 | 685,18 |
Выборочная дисперсия | 7179,62 | 16644,78 |
Выборочное ср. кв. | 84,73 | 129,01 |
Нижний квартиль | ||
Верхний квартиль | ||
Кварт. размах выборки | ||
95 % доверительный интервал для М(Х) | (349,79; 436,92) | (628,84; 761,51) |
99 % доверительный интервал М(Х) | (333,33; 453,38) | (603,78; 786,57) |
95 % доверительный интервал для D(Х) | (3981,76; 16648,26) | (9231,07; 38596,56) |
Выборочный коэффициент корреляции равен 0,58. При этом значение p = 0,014. Такая величина р -уровня свидетельствует о том, что коэффициент корреляции является статистически значимым. Другими словами, имеющиеся данные о среднемесячной заработанной плате и потребительских расходов на душу населения позволяют говорить о наличии средней статистической связи между этими показателями. Очевидно, что имеет смысл исследовать эту зависимость более детально средствами регрессионного анализа.
|
Построенное уравнение регрессии имеет вид:
ПОТР_РАС = 127,8346 + 0,3819*СР_ЗП =0.33820171
(с. о.) (97,44) (0,14)
Замечание. В скобках приведены стандартные ошибки оценок параметров уравнения регрессии. Иногда указываются здесь же t -статистики или р -значения.
Анализ регрессионной модели
Результаты расчёта параметров парной регрессии представлены в таблице, являющейся выходом модуля Multiple Regression.
Таблица 2.10
Результаты расчета регрессионной модели
Полученное уравнение регрессии является значимым (F -статистика равняется 7,67 при р -значении 0,014337). Это означает, что выявленная связь является значимой, и построенная модель может быть использована в дальнейшем для экономического анализа и прогноза.
Коэффициент детерминации уравнения равен 0,338201 (скорректированный 0,294). Это говорит о том, что полученная модель на 34 % объясняет (точнее – воспроизводит) общую вариацию (разброс значений) зависимой переменной – потребительских расходов. Коэффициент уравнения регрессии является значимым (p -значение равняется 0,014337), и, следовательно, может быть экономически проинтерпретирован. Его величина показывает, что в среднем с увеличением заработанной платы на 1 тысячу рублей потребительские расходы увеличиваются на 381 рублей, т.е. приблизительно 38 % дополнительной заработанной платы тратится на питание.
Доверительный интервал для этого параметра можно вычислить, учитывая, что равняется 0,13795 (см. таблицу), а равно 2,13. Таким образом, доверительным интервалом для параметра будет интервал (0,092;0,671). Как видно, этот интервал не содержит нулевого значения, что равносильно выводу о его значимости.
|
Параметр не является значимым, т.к. его p -значение составляет 0,209281, что превышает стандартное значение 0,05. Доверительный интервал для , учитывая, что равно 97,4431, можно вычислить следующим образом: 127,8346 2,13*97,4431. Полученный интервал (-79,72; 335,38) включает в себя нулевое значение, что равносильно незначимости этого коэффициента, и поэтому его экономическая интерпретация не имеет смысла.
Сделанные выводы о значимости уравнения регрессии подтверждаются и результатами дисперсионного анализа, таблица которого представлена ниже
Таблица 2.11
Дисперсионный анализ уравнения регрессии
Парное уравнение регрессии, как известно, может быть представлено
графически. В данном случае регрессионной модели будет соответствовать уравнение прямой у = 127,83 +.0,38х на плоскости. Пакет STATISTICA позволяет получить график этой прямой, который представлен на рис. 2.5.
Рис. 2.5. Графическое представление регрессионной модели
На этом графике по горизонтальной оси отложены значения независимой переменной (средней заработанной платы СР_ЗП), а по вертикальной оси – значения зависимой переменной (потребительских расходов ПОТР_РАС). Точками на плоскости отмечены исходные данные. Прямая линия соответствует регрессионной модели. Выше и ниже прямой расположены линии, обозначающие границы 95 % доверительного интервала для прогноза значений зависимой переменной.
Оценка качества полученной модели и все, сделанные ранее выводы о значимости параметров, как известно, будут справедливы лишь при выполнении условий теоремы Гаусса-Маркова, дополненных требованием нормальности распределения случайной составляющей уравнения регрессии. В качестве оценки случайной составляющей рассматриваются остатки построенного уравнения. Поэтому оценка качества полученной модели включает в себя исследование остатков.
График зависимости остатков от величин предсказанных значений зависимой переменной, представленный ниже, позволяет оценить характер отклонений наблюдаемых значений от построенного уравнения прямой.
Исследование этого графика показывает, что отклонения наблюдаемых значений от построенной прямой носит случайный характер и не имеет систематических отклонений в какую-либо одну сторону. Большинство значений остатков не выходит за границы 95 % доверительного интервала для расчётных значений зависимой переменной.
Рис. 2.6. График остатков уравнения регрессии
Проверка предположения о нормальности распределения остатков на качественном уровне может быть выполнена путём построения гистограммы остатков. Другой способ визуальной оценки нормальности распределения остатков заключается в построении графика остатков в логарифмической шкале. В случае выполнения предположения о нормальности распределения остатков точки графика должны располагаться вблизи прямой линии. Именно такую ситуацию можно наблюдать на приводимом ниже графике.
Для расчёта прогнозного значения зависимой переменной сначала определим значение независимой переменной. Поскольку среднее значение заработанной платы составляет 685,18 тыс. руб. (в масштабе цен 1997 г.), то в случае увеличения этой величины на 10 %, получим 753,698 тыс. руб. Подставляя полученное значение в уравнение регрессии (режим Predict dependent var.), получаем соответствующее расчётное значение, равное 415, 7049 тыс. руб.
Границы 95 % доверительного интервала для прогнозного значения приближенно можно определить с помощью графика уравнения регрессии.
Считывая координаты соответствующих точек на графике, находим (372; 456).
В этих пределах с вероятностью 0,95 будет находиться среднее значение потребительских расходов в случае, если среднее значение заработанной платы составит примерно 415 тыс. руб.
Рис. 2.7. Исследование остатков построенного уравнения регрессии
Коэффициент эластичности (средний) для построенного уравнения регрессии составляет 0,66 (0,3814*685,18/393,52 = 0,66). Это значит, что с увеличением на 1 % среднего значения заработанной платы, т.е. на 685,18 тыс. руб., среднее значение потребительских расходов увеличится на 0,66 %, т.е. на 2,597 тыс. руб.
Глава 3
Множественная регрессия
Постановка задачи
Пусть дана система случайных величин (X1, X2, …, Xn). Для простоты будем считать, что все случайные величины центрированы, то есть М(Xi) = 0.
Рассмотрим случайный вектор
и рассмотрим матрицу
Математическим ожиданием матрицы, элементами которой являются случайные величины назовем матрицу, составленную из математических ожиданий элементов исходной матрицы.
Тогда, учитывая, что
получаем
Эта матрица называется ковариационной матрицей случайного вектора Х.
Если случайные величины не только центрированы, но и нормированы, т.е. если
то где коэффициенты корреляции для случайных величин
Ковариационная матрица в этом случае равна
,
и называется корреляционной матрицей.
Ранее отмечалось, что регрессионный анализ заключается в построении математических зависимостей на основе экспериментальных данных и статистическом анализе результатов.
Рассмотрим линейную модель регрессии с k факторами
(3.1)
где — номер наблюдения , — вектор-столбец, состоящий из значений -той переменной в наблюдениях, — теоретические значения коэффициентов модели, — ошибка в -том наблюдении.
Данные в наблюдениях удобно записывать в виде табл. 5.1. Заметим, что обычно считают – фиктивной переменной, тождественно равной единице,
Таким образом — свободный член в уравнении (3.1), а число реальных переменных, включенных в уравнение (3.1) равно .
Стандартная процедура регрессионного анализа, выполняемого на основе метода наименьших квадратов, требует выполнения условий Гаусса-Маркова, сформулированных в главе 2.
При этих условиях, в частности, случайные ошибки имеют нулевое математическое ожидание, т.е. М() = 0 (u = 1, 2, …, n), не коррелируют друг с другом и имеют одинаковые дисперсии. Другими словами М(eeT)=s2I, где e = (e1, e2, …, en)T, а I -единичная матрица.
Запишем матрицу исходных данных в виде табл. 3.1.
Таблица 3.1
№ опыта, u | Входные переменные | Переменная выхода, yu | ||||
X0 | X1 | X2 | Xk | |||
1 | x01 | x11 | x21 | … | xk1 | y1 |
2 | x02 | x12 | x22 | … | xk2 | y2 |
... | … | … | … | … | … | … |
u | x0u | x1u | x2u | … | xku | yu |
… | … | … | … | … | … | … |
N | x0N | x1N | x2N | … | xkN | yN |
Обозначим тогда , где - неслучайная величина. Поэтому
. (3.2)
Последнее условие является условием однородности (гомоскедастичности) наблюдений.
В дальнейшем мы используем часть табл. 3.1, а именно матрицу X:
X = , (3.3)
которая называется информационной матрицей или матрицей плана эксперимента.
Расчетную модель запишем в виде:
. (3.4)
МНК-модель
В главе 2 мы уже отмечали, что в МНК минимизируется сумма квадратов остатков модели:
. (3.5)
Для нахождения минимума вычисляются частные производные функции по переменным bi, и затем приравнивают нулю. Получаем систему нормальных МНК уравнений для определения оценок коэффициентов b 0, b 1, b 2, …, b k:
(3.6)
Обозначим за b вектор-столбец (b 0, b 1,…, b k)T, а за y вектор-столбец (y 1, y 2, …, y n,)T. Тогда система уравнений (3.6) может быть переписана в матричном виде:
XTX b = XT y. (3.7)
Используя скалярные произведения векторов-столбцов матрицы X, матрицу XTX можно также записать в виде:
.
Предположим, что матрица имеет обратную: . Матрица называется матрицей дисперсий-ковариаций или просто ковариационной матрицей. Умножим уравнение (3.7) слева на матрицу . Получим
.
Так как , получаем формулу для решения системы МНК нормальных уравнений:
. (3.8)
Геометрическая интерпретация метода наименьших квадратов представлена в Приложении 3.