Оценка мультиколлинеарности среди независимых переменных.




Лабораторная работа № 2

Обработка информации с использованием регрессионного анализа.

Проверка предпосылок использования регрессионного анализа

 

Цель работы: оценка влияния совокупности независимых переменных на зависимую с помощью методов линейного регрессионного анализа.

 

Методические указания по организации самостоятельной работы студентов

 

Решаемые задачи:

1. Для выборки исходных данных выбрать вид уравнения регрессии. Поставить гипотезу.

2. С помощью метода наименьших квадратов (МНК) получить оценки коэффициентов модели.

3. С помощью критериев Фишера и R2 оценить адекватность модели в соответствии с поставленной гипотезой

4. Проверить предпосылки:

- случайность вектора (вручную);

- стационарность вектора (вручную);

- оценка мультиколлинеарности среди независимых переменных по

корреляционной матрице;

- нормальность закона распределения остатков;

- наличие выбросов;

- коррелированность остатков;

- постоянство математических ожиданий (вручную);

- постоянство дисперсии (вручную).

5. Дать рекомендации по поводу практического использования построенной математической модели

Исходные данные:

показывает общую оценку кандидата из 1000 баллов на экзамене на О.А.О. Эта оценка выбраных предметов расчитывается из максимум 800 баллов; остаток 200 баллов - это оценкав обязяательных работах "общая" и "использование английского языка", она обозначена . Обозначение принято для оценок кандидатов со 100 баллами в обязательной "школьной атестационной работе по английскому языку", что дает предварительную оценку. Вычислить множественную регрессию по , и произвести необходимые проверки, которые позволят обобщить выводы об интеллекте кандидатов, к которым можно добавить текущую характеристику по обязательным работами для прогноза обощенной характеристики О.А.О. экзамена. Имеют ли предварительные характеристики по "школьным атетстатам английского языка" значение для прогнозирования, независимо от того, что было уже выяснено по текущим характеристикам в обязательных работах?

Итак, рассмотрим следующую выборку:

Табл. 2.1 Исходная выборка

С помощью пакета Statistica, строим корреляционную матрицу:

Табл. 2.2 Корреляционная матрица

Из таблицы 2.2 видно, что вносит весомый вклад в . Можем приблизительно оценить наличие мультиколлинеарности: так как коэффициент корреляции между переменными и равен 0.12, то мультколлинеарности между этими переменными нет (на практике о существовании мультиколлинеарности можно говорить при значении коэффициента больше либо равного 0.46). Таким образом, можно применять МНК.

Для выбора уравнения регрессии, необходимо определить степень зависимости от и . Так как больше влияет на значение , то построим диаграмму рассеивания между и :

Рис. 2.1 Диаграмма рассеивания между и

По данной диаграмме можно сделать предположение о том, что зависимость линейная.

Строим уравнение регрессии.

Ставим гипотезу о том, что все коэффициенты уравнения линейной регрессии . Необходимо теперь проверить данную гипотезу. Сделаем проверку по критерию Фишера, с помощью пакета Statistica. Имеем:

Табл. 2.3 Результаты проверки гипотезы по критерию Фишера

 

Рис. 2.2 Определение табличного значения Фишер

 

 

Итак, , а . Так как больше , то гипотезу отклоняем на уровне значимости 0.05. Это говорит о том, что все коэффициенты , т.е. переменные и оказывают влияние на .

С помощью МНК определим значения коэффициентов линейной регрессии. Для этого в пакете Statistica предусмотрена такая возможность. Получим следующий результат:

 

Табл. 2.5 Результат работы МНК

 

Уравнение регрессии с учетом коэффициентов , приведенных в таблице 2.5, будет иметь вид:

=124,06 + 3,51 + 0,83

Модель адекватна, и качество модели 58%

Проверка предпосылок:

1. Случайность зависимой переменной .

Проверку на случайность определим по критерию серий. Находим среднее значение - 560. Построим теперь последовательность серий:

----++-++-++-++

Получили 8 серий, т. е. rнабл=8. По таблице определяем интервал в который должно попасть rнабл: r(7;0,975)=3 r(7;0,025)=12.Т. к. r(7;0,975)<rнабл<r(7;0,025), то зависимая величина случайна.

2. Стационарность зависимой переменной .

Стационарность проверим по критерию инверсий. Разобьем выборку на 10 интервалов. Посчитаем для каждого интервала среднее значение квадратов наблюдений: 217712.5; 297600.5; 330625; 487204; 313250.5; 416025; 309136; 401956; 278934.5; 314722. По критерию инверсий А1=0, А2=1, А3=3, А4=6, А5=2, А6=4, А7=1, А8=2, А9=0. Получили, что Арасч=20. По таблице определим границы в которых должно лежать Арасч, чтобы предположение о стационарности выполнялось: А(10;0,975)=11, А(10;0,025)=33. Т. к. А(10;0,975)<Арасч<А(10;0,025), то зависимая величина стационарна.

Оценка мультиколлинеарности среди независимых переменных.

Проанализировав корреляционную матрицу, можно сказать, что мультиколлинеарность отсутствует, поэтому мы можем воспользоваться методом МНК для оценок коэфициентов бета.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-06-11 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: