Проверка значимости и подбор модели с использованием статистических и информационных критериев




Построение статистической процедуры проверки значимости линейной связи между переменными, основанной на значениях коэффициента детерминации :

Представим F- статистику критерия проверки значимости регрессии в целом в виде:

Отсюда находим:

Большим значениям статистики соответствуют и большие значения статистики , так что гипотеза, , отвергаемая при должна отвергаться при выполнении неравенства где

При этом, вероятность ошибочного отклонения гипотезы по-прежнему равна .

Интересно вычислить критические значения при для различного количества наблюдений.

Ограничимся здесь простой линейной регрессией , так что

В зависимости от количества наблюдений , получаем следующие критические значения :

n                  
R2crit 0.910 0.720 0.383 0.200 0.130 0.097 0.065 0.032 0.008

Иначе говоря, при большом количестве наблюдений даже весьма малые отклонения наблюдаемого значения от нуля оказываются достаточными для того, чтобы признать значимость регрессии, т. е. статистическую значимость коэффициента при содержательной объясняющей переменной.

Поскольку же значение равно при квадрату выборочного коэффициента корреляции между объясняемой и (нетривиальной) объясняющей переменными, то аналогичный вывод справедлив и в отношении величины этого коэффициента корреляции, только получаемые результаты еще более впечатляющи:

n                  
| rxy | crit 0.953 0.848 0.618 0.447 0.360 0.311 0.254 0.179 0.089

Если сравнивать модели по величине коэффициента детерминации , то с этой точки зрения полная модель всегда лучше (точнее, не хуже) редуцированной — значение в полной модели всегда не меньше, чем в редуцированной, просто потому, что в полной модели остаточная сумма квадратов не может быть больше, чем в редуцированной.

Действительно, в полной модели с объясняющими переменными минимизируется сумма

по всем возможным значениям коэффициентов . Если мы рассмотрим редуцированную модель, например, без -ой объясняющей переменной, то в этом случае минимизируется сумма

по всем возможным значениям коэффициентов , что равносильно минимизации первой суммы по всем возможным значениям , при фиксированном значении . Но получаемый при этом минимум не может быть больше чем минимум, получаемый при минимизации первой суммы по всем возможным значениям , включая и все возможные значения . Последнее означает, что в полной модели не может быть меньше, чем в редуцированной модели. Поскольку же полная сумма квадратов в обеих моделях одна и та же, отсюда и вытекает заявленное выше свойство коэффициента .

Чтобы сделать процедуру выбора модели с использованием более приемлемой, было предложено использовать вместо его скорректированный (adjusted) вариант

в который по-существу вводится штраф за увеличение количества объясняющих переменных. При этом,

так что

при и .

При использовании коэффициента для выбора между конкурирующими моделями, лучшей признается та, для которой этот коэффициент принимает максимальное значение.

Замечание. Если при сравнении полной и редуцированных моделей оценивание каждой из альтернативных моделей производится с использованием одного и того же количества наблюдений, то тогда, как следует из формулы, определяющей , сравнение моделей по величине равносильно сравнению этих моделей по величине или по величине . Только в последних двух случаях выбирается модель с миниимальнымзначением (или ).

Наряду со скорректированным коэффициентом детерминации, для выбора между несколькими альтернативными моделями часто используют так называемые информационные критерии: критерий Акаике и критерий Шварца, также «штрафующие» за увеличение количества объясняющих переменных в модели, но несколько отличными способами.

Критерий Акаике (Akaike’s information criterion — AIC). При использовании этого критерия, линейной модели с объясняющими переменными, оцененной по наблюдениям, сопоставляется значение

где - остаточная сумма квадратов, полученная при оценивании коэффициентов модели методом наименьших квадратов. При увеличении количества объясняющих переменных первое слагаемое в правой части уменьшается, а второе увеличивается. Среди нескольких альтернативных моделей (полной и редуцированных) предпочтение отдается модели с наименьшим значением , в которой достигается определенный компромисс между величиной остаточной суммы квадратов и количеством объясняющих переменных.

Критерий Шварца (Schwarz’s information criterion — SC, SIC). При использовании этого критерия, линейной модели с объясняющими переменными, оцененной по наблюдениям, сопоставляется значение

И здесь при увеличении количества объясняющих переменных первое слагаемое в правой части уменьшается, а второе увеличивается. Среди нескольких альтернативных моделей (полной и редуцированных) предпочтение отдается модели с наименьшим значением .

Включение в модель большого количества объясняющих переменных часто приводит к ситуации, которую называют мультиколлинеарностью.

Пусть матрица XTX невырождена, т. е. ее определитель отличен от нуля:

(1)

которое можно заменить условием, что столбцы матрицы X линейно независимы.

Полная мультиколлинеарность соответствует случаю, когда предположение (1) нарушается, т. е. когда столбцы матрицы линейно зависимы, например,

( -й столбец является линейной комбинацией остальных столбцов матрицы ). При наличии чистой мультиколлинеарности система нормальных уравнений не имеет единственного решения, так что оценка наименьших квадратов для вектора параметров (коэффициентов) попросту не определена однозначным образом.

На практике, указывая на наличие мультиколлинеарности, имеют в виду осложнения со статистическими выводами в ситуациях, когда формально условие (1) выполняется, но при этом определитель матрицы XTX близок к нулю. Указанием на то, что -я объясняющая переменная «почти является» линейной комбинацией остальных объясняющих переменных, служит большое значение коэффициента возрастания дисперсии:

оценки коэффициента при этой переменной вследствие наличия такой «почти линейной» зависимости между этой и остальными объясняющими переменными. Здесь - коэффициент детерминации при оценивании методом наименьших квадратов модели

Если , то , и это соответствует некоррелированности -ой переменной с остальными переменными. Если же , то тогда , и чем больше корреляция -ой переменной с остальными переменными, тем в большей мере возрастает дисперсия оценки коэффициента при -ой переменной по сравнению с минимально возможной величиной этой оценки.

Мы можем аналогично определить коэффициент возрастания дисперсии оценки коэффициента при -ой объясняющей переменной для каждого :

Здесь — коэффициент детерминации при оценивании методом наименьших квадратов модели линейной регрессии -ой объясняющей переменной на остальные объясняющие переменные. Слишком большие значения коэффицентов возрастания дисперсии указывают на то, что статистические выводы для соответствующих объясняющих переменных могут быть весьма неопределенными: доверительные интервалы для коэффициентов могут быть слишком широкими и включать в себя как положительные, так и отрицательные значения, что ведет в конечном счете к признанию коэффициентов при этих переменных статистически незначимыми при использовании - критериев.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-08-20 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: