Простая и множественная регрессии




ЛАБОРАТОРНАЯ РАБОТА 5

 

Цель работы: обучить студентов строить модели прогноза на основе простой и множественной регрессий.

 

1 Основные сведения о регрессии

 

Регрессионный анализ (РА) исследует формы зависимости между случайными величинами, полученными в ходе наблюдений. На моделях РА основаны дисперсионный анализ и планирование эксперимента.

В РА принято различать парную (простую) и множественную регрессию. Парная регрессия описывает связь между случайной величиной Y (откликом) и неслучайной величиной х (регрессором), например, зависимость прибыли предприятия от производительности труда.

Множественная регрессия анализирует связь между несколькими независимыми переменными и зависимой переменной. Например, агент по продаже недвижимости мог бы вносить в каждый элемент реестра размер дома (в квадратных метрах), число спален, средний доход населения в этом районе в соответствии с данными переписи и субъективную оценку привлекательности дома. Как только эта информация собрана для различных домов, было бы интересно посмотреть, связаны ли и каким образом эти характеристики дома с ценой, по которой он был продан. Например, могло бы оказаться, что число спальных комнат является лучшим предсказывающим фактором (предиктором) для цены продажи дома в некотором специфическом районе, чем привлекательность дома (субъективная оценка). Могли бы также обнаружиться и выбросы, т.е. дома, которые могли бы быть проданы дороже, учитывая их расположение и характеристики.

РА включает в себя следующие основные элементы:

· выбор модели регрессии;

· оценка параметров выбранной модели;

· проверка статистических гипотез о параметрах модели регрессии.

Вид функции регрессии yx = f (x, β) (β - вектор параметров) выбирается на основе теоретических и профессиональных соображений, из характера расположения экспериментальных точек на диаграмме рассеяния.

Оценка параметров функции регрессии проводится методом наименьших квадратов (МНК), при использовании которого в качестве оценок параметров β0, β1, β2, … применяются такие числа b0, b1,b2 …, которые минимизируют сумму квадратов отклонений.

Выборочные оценки b0, b1,b2, вычисленные по ограниченному числу данных, всегда содержат элемент случайности. В связи с этим возникает необходимость проверки значимости выборочных оценок.

 

2 Работа на компьютере

 

Выполнение работы производится с программным пакетом Statistica; версия 6.1.

2.1 Простая регрессия

1. Открыть файл данных Poverty. sta через Файл – Открыть. Приведенные данные основаны на сравнении результатов переписи 1960 и 1970 гг. для случайной выборки из 30 стран. Названия стран были введены как названия строк. Через пункт меню Данные и выбора опции Все спецификации переменных откроем Редактор спецификаций переменных (рис.1)

Рис.1 - Редактор спецификаций переменных

 

Кроме того, укажем названия всех переменных этого файла:

 

POP_CHNG - Изменение населения за 1960-1970 гг.

N_EMPLD - Количество людей, занятых в сельском хозяйстве

PT_POOR - Процент семей, живущих ниже уровня бедности.

TAX_RATE - Ставка налога.

PT_PHONE - Процент квартир с телефоном.

PT_RURAL - Процент сельского населения.

AGE - Средний возраст.

 

Часть данных приведена в табл.1.

Таблица 1. Исходные данные

Вначале оценим связь параметра Pt_Poor, т.е. переменной, которая лучше всего отражает уровень бедности в стране, с переменной Pop_Chng. Таким образом, признак Pt_Poor считается зависимой переменной, а параметр Pop_Chng - независимым (переменная-предиктор).

Можно выдвинуть гипотезу: изменение численности населения и процент семей, которые находятся за чертой бедности, связаны между собой. Кажется разумным ожидать, что бедность ведет к оттоку населения, следовательно, здесь будет отрицательная корреляция между процентом людей за чертой бедности и изменением численности населения.

2. Из меню Анализ - Углубленные методы анализа выбрать Общие линейные модели для отображения стартовой панели (рис.2).

 

 

Рис.2. Стартовая панель общих линейных моделей

Выбрать в качестве типа анализа Простая регрессия и в качестве метода решения - Быстрый. Затем нажать ОК для входа в диалоговое окно простой регрессии (рис.3).

При нажатии клавиши Переменные в этом окне появляется окно выбора переменных (рис.4), в котором в качестве зависимой переменной следует указать признак Pt_Poor, а в качестве независимой - Pop_Chng.

Рис.3. Диалоговое окно простой регрессии

Далее - нажать ОК для возврата к диалоговому окну регрессии.

Рис.4. Окно выбора переменных

3. Нажав ОК в последнем окне, приходим к окну результатов регрессионного анализа (рис.5), где при выделенной опции Итоги нужно указать клавишу Коэффициенты для отображения рассчитанных коэффициентов регрессии между выделенными переменными.

Рис.5. Итоговое окно регрессионного анализа

 

4. Коэффициенты регрессии представлены в табл.2.

Таблица 2. Регрессионные коэффициенты

 

Полученное уравнение регрессии между переменными Pt_Poor и Pop_Chng имеет вид:

Pt_Poor = 26,2 - 0,4 Pop_Chng

Из уравнения следует, что на каждую единицу уменьшения населения приходится приблизительно 0,4 единицы увеличения числа семей, живущих ниже черты бедности. В таблице также приведены доверительные интервалы для обоих членов уравнения регрессии и стандартизированное значение коэффициента регрессии между выделенными переменными, равное -0,65. Эта величина также определяет и коэффициент корреляции между рассматриваемыми признаками.

Если априори предполагается гипотеза о взаимосвязи между заданными переменными, то ее полезно проверить на графике соответствующей диаграммы рассеяния. Выбрать вкладку GLM Результаты - Матрицы, чтобы открыть доступ к опциям отображений матриц (рис.6).

Рис.5 - Окно отображения матриц

Нажать кнопку Корреляций для вывода таблицы с матрицей корреляций.

Таблица 3 Матрица корреляций

 

Выделить правой кнопкой мыши пересечение Pop_Chng и Pt_Poor, выбрать из появившегося меню Графики исходных данных - Диаграмма размаха - Регрессия, 95% доверит. интервал; затем указать вторую переменную Pop_Chng и нажать кнопку OK для построения диаграммы рассеяния (рис.7).

Рис.7 – Диаграмма рассеяния

Диаграмма рассеяния показывает явную отрицательную корреляцию (- 0,65) между двумя переменными. На ней также показан 95% доверительный интервал для линии регрессии, т.е., с 95% вероятностью линия регрессии проходит между двумя пунктирными кривыми.

 

2.2 Множественная регрессия

5. Открыть тот же файл данных Poverty. sta через Файл – Открыть. Для этого примера здесь анализируются несколько возможных корреляций между уровнем бедности Pt_Poor, которую будем считать зависимой переменной, и остальными переменными, являющимися непрерывными предикторами.

6. Из меню Анализ - Углубленные методы анализа выбрать Общие линейные модели для отображения стартовой панели, как и в случае простой регрессии.

Выбрать в качестве типа анализа Множественная регрессия и в качестве метода решения - Быстрый. Затем нажать ОК для входа в диалоговое окно множественной регрессии (рис.8).

Рис.8 - Диалоговое окно множественной регрессии

 

При нажатии клавиши Переменные в этом окне появляется окно выбора переменных (рис.9), в котором в качестве зависимой переменной следует указать признак Pt_Poor, а в качестве независимых - все остальные.

 

 

Рис.9. Окно выбора переменных для множественной регрессии

 

(Отметим, что при определении переменных правого столбца вначале нужно выделить все переменные, а затем при нажатой клавише Ctrl отметить признак Pt_Poor). Далее - нажать ОК для возврата к диалоговому окну регрессии.

7. Нажав ОК в последнем окне, приходим к окну результатов регрессионного анализа, где при выделенной опции Итоги нужно нажать клавишу Коэффициенты для отображения рассчитанных коэффициентов регрессии между выделенными переменными. Полученные результаты приведены в табл.4.

 

Таблица 4. Регрессионные коэффициенты

 

Эта таблица показывает регрессионные не стандартизированные коэффициенты В (второй столбец табл.4) и стандартизованные регрессионные коэффициенты Бета (восьмой столбец). Коэффициенты Бета это коэффициенты, которые получаются при приведении всех переменных к среднему 0 и стандартному отклонению 1. Следовательно, величина этих Бета коэффициентов позволяет сравнивать относительный вклад каждой независимой переменной в зависимую переменную.

С помощью коэффициентов В устанавливается вид уравнения регрессии, которое в данном случае имеет вид

Включение в правую часть только этих переменных обусловлено тем, что лишь эти признаки имеют значение вероятности р меньше, чем 0,05 (пятый столбец табл.4). Такое значение вероятности принято при вычислении доверительных интервалов на коэффициенты регрессии

Величина коэффициентов Бета позволяет сравнить относительный вклад каждой независимой переменной в предсказание зависимой переменной. Как видно из таблицы, переменные Pop_Chng, Pt_Rural, (Изменение населения за 1960-1970 гг., процент сельского населения) являются наиболее важными предикторами: обладают статистической значимостью. Регрессионный коэффициент для Pop_Chng отрицательный, что означает: чем меньше увеличение населения, тем больше число семей, живущих ниже черты бедности в соответствующей стране. Тот же коэффициент для переменной Pt_Rural - положительный: чем больше процент сельского населения, тем выше уровень бедности.

8. Для оценки коэффициента множественной детерминации нажать при закладке Итоги клавишу Общая R модели, в результате чего получаем значение этого коэффициента, приведенного на рис.10.

 

Рис.10 - Коэффициенты детерминации

Как правило, наиболее важным является скорректированное значение R2, и в данном случае его величина, равная 0,72, говорит о достаточной надежности уравнения.

9. В окне результатов при выделенной закладке Остатки нажать клавишу Предсказ. и остатки, в результате чего получаем табл.5, где приведены значения параметра Pt_Poor, полученные по данным наблюдений и расчетным способом по найденной модели регрессии.

 

 

Таблица 5 Значения параметра Pt_Poor

 

Как видно из табл.5, расхождение между величинами этого параметра незначительное, что еще раз подчеркивает адекватность модели. Второй столбец этой таблицы взят из исходных данных (см.табл.1). График этих значений показан на рис.11.

Рис.11 - График наблюдаемых и предсказанных значений

 

10. Множественная регрессия предполагает, что существует линейная взаимосвязь между переменными в уравнении и нормальное распределение остатков. Если эти предположения нарушены, то вывод может оказаться неточным. Нормальный вероятностный график остатков укажет, имеются ли серьезные нарушения этих предположений или нет. Нажать кнопку Нормальный в группе опций Вероятн. Графики для построения этого графика.

Если наблюдаемые остатки нормально распределены, то все значения должны укладываться на прямой линии (или близко от нее) приведенного графика (рис.12). В противном случае точки, изображающие остатки, будут отклоняться от прямой линии.

 

Рис.12 - Индикатор нормальности остатков

 

На приведенном графике все точки лежат очень близко относительно прямой линии, что подтверждает нормальность распределения остатков.

 

 

3 Задание

 

1. Открыть файл Cars.sta, состоящий из 22 строк (марок автомашин) и 5 столбцов (признаков, характеризующих в нормированном виде эксплуатационные свойства машин: цена, ускорение, время остановки со скорости 80 миль в час, коэффициент сцепления с покрытием, расход топлива).

Построить:

· уравнение линейной регрессии между ценой и расходом топлива (переменные price и mileage);

· уравнение множественной регрессии между ценой и всеми остальными признаками.

2. Смоделировать матрицу данных из 20 объектов и 3 признаков со средними значениями и СКО признаков, распределенных по нормальному закону, соответственно, (1;3), (5;10), (10; 25). Найти уравнение множественной регрессии между признаками: принять первый признак зависимой величиной, остальные - независимыми.

 

 

Вопросы к защите работы:

1. Что исследует регрессионный анализ?

2. Что показывает диаграмма рассеяния?

3. В чем сущность метода наименьших квадратов?

4. Почему не используется метод алгебраического суммирования ошибок?

5. В чем отличие простой регрессии от множественной?

6. Зачем осуществляется проверка статистических гипотез о параметрах модели регрессии?

7. Зачем нужно проверять нормальность распределения остатков?

8. Что показывает коэффициент детерминации? Назовите его предельные значения.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-11-19 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: