Линейные модели парной и множественной регрессии




Основные понятия математической статистики

Математическаястатистика – раздел математики, посвященный математическим методам сбора, систематизации, обработки и интерпретации статистических данных (результатов наблюдений), а также использованию их для научных и практических выводов. Основными понятиями, с которыми имеет дело математическая статистика, являются генеральная совокупность и выборка.

Генеральная совокупность – это совокупность объектов, обладающих признаками, распределение которых в данной генеральной совокупности изучается статистическими методами.

Выборка – множество объектов, отобранное случайным образом из генеральной совокупности.

Все задачи математической статистики сводятся к тому, чтобы по выборочным данным сделать обоснованные выводы о закономерностях, которым подчинена генеральная совокупность, и оценить степень надежности этих выводов.

Обычно рассматривают генеральную совокупность как случайную величину X с функцией распределения FX(x), а выборку объема n – как результат n наблюдений над данной случайной величиной.

Пусть 1, х2,..., хn) – выборка из генеральной совокупности с функцией распределения F(x). Тогда nобъем выборки, а каждое значение хiварианта. Последовательность вариант, записанная в возрастающем порядке – вариационный ряд. Частота – число, показывающее, сколько раз встречается в выборке то или иное значение. Статистический ряд – перечень вариант и соответствующих им частот. Полигон частот – ломаная, отрезки которой соединяют точки (x1, n1), (x2, n2), … (xk, nk), где ni – частота варианты xi

Для решения многих практических задач достаточно знать характеристики центральной тенденции (выборочная средняя, медиана, мода) и изменчивости (вариации) выборки (выборочная дисперсия и выборочное стандартное отклонение).

Выборочная средняя – среднее арифметическое значение выборочной совокупности: = (x1+x2+… +xn)/n.

Мода (M0) – варианта, имеющая наибольшую частоту.

Медиана (me) – значение признака, приходящееся на середину вариационного ряда:

если n=2k+1, то me=xk+1, [1]

если n=2k, то me=(xk + xk+1)/2.

Выборочная дисперсия – среднее арифметическое квадратов отклонения наблюдаемых значений от их среднего значения: .

Выборочная дисперсия служит смещенной оценкой генеральной дисперсии, т.е. математическое ожидание выборочной дисперсии не равно генеральной дисперсии. Поэтому часто рассматривается исправленная дисперсия, которая является несмещенной оценкой генеральной дисперсии, обозначается s2 и вычисляется по формуле

Задача 5. Вычислить значения характеристик центральной тенденции и изменчивости для выборок, указанных преподавателем.

Решение задачи 5. Выборочные данные некоторого показателя для трех изучаемых объектов (Субъект 1, Субъект 2 и Субъект 3) находятся в файле Excel ПЗ-1.xls на листе дескр_стат. Для вычисления требуемых характеристик можно воспользоваться стандартными функциями СРЗНАЧ (средняя выборочная), ДИСП (исправленная дисперсия), ДИСПР (выборочная дисперсия) категории Статистические.

Выбор функции СРЗНАЧ и ДИСП (первый шаг Мастера функций) показан на рис. 1.15, ввод аргументов функции (на примере функции СРЗНАЧ) – на рис. 1.16. На рис. 1.17 приведены формулы с обращением к этим стандартным функциям и результаты вычисления по ним.

Рис. 1.15. Выбор требуемых функций.

Рис. 1.16. Ввод аргументов функции СРЗНАЧ.

Формулы для вычисления искомых характеристик Значения искомых характеристик

Рис. 1.17. Результаты применения функций СРЗНАЧ, ДИСП и ДИСПР.

Использование стандартных статистических функций удобно для вычисления одной-двух характеристик выборки. Если же требуется получить более полный набор описательных статистик, стандартно включающий моду, медиану, интервал (размах) и другие, то целесообразно обратиться к надстройке Пакет анализа. Если строка Анализ данных отсутствует в меню Сервис, то следует подключить эту надстройку, как показано на рис. 1.18 (предварительно выбрав строку Надстройки… в меню Сервис).

Рис. 1.18. Подключение надстройки Пакет анализа.

Задача 6. Вычислить значения стандартного набора характеристик для выборок, указанных преподавателем.

Решение задачи 6. Вычисление этого множества характеристик можно осуществить с помощью процедуры Описательная статистика надстройки Анализ данных.

Выбор строки Анализ данных в меню Сервис откроет одноименное окно, приведенное на рис. 1.19.

Рис. 1.19. Окно Анализ данных.

Среди задач математической статистики важное место занимает проверка статистических гипотез, т.е. гипотез о законе распределения случайной величины (его виде и параметрах).

Выдвинутую гипотезу называют нулевой (основной) и обозначают H0. Гипотезу, которая противоречит нулевой, называют конкурирующей (альтернативной).

При проверке гипотезы возможны ошибки двух видов: ошибка первого рода – отвергнуть гипотезу, когда она верна, а ошибка второго рода – принять гипотезу, когда она неверна. Вероятность ошибки первого рода называется уровнем значимости.

Пусть событие А таково, что вероятность его наступления при гипотезе Н0, меньше e. Если в эксперименте произошло событие А, то отвергаем гипотезу Н0 на уровне значимости e. Событие А состоит в том, что вычисленное значение некоторой статистики (специальной функции от наблюдаемых значений) больше некоторого известного, «табличного» значения.

Критическая область – совокупность значений статистики, при которых нулевую гипотезу отвергают. Критические точки – точки, отделяющие критическую область от области принятия гипотезы.

Рассмотрим два статистических критерия, которые будут далее использоваться в регрессионном анализе.

Критерий Фишера-Снедекора используется для проверки при данном уровне значимости g нулевой гипотезы о равенстве генеральных дисперсий (т.е. дисперсий генеральных совокупностей) при конкурирующей гипотезе неравенства этих дисперсий. Правило проверки нулевой гипотезы:

1. Вычислить наблюдаемое значение критерия – отношение большей по величине исправленной дисперсии к меньшей: Fнабл = s12/s22

2. Найти число степеней свободы исправленных дисперсий:

k1= n1 - 1 (большая) (n1 – объем выборки, имеющей большую исправленную дисперсию)

k2 = n2 - 1 (меньшая) (n2 – объем выборки, имеющей меньшую исправленную дисперсию).

3. По таблице критических точек распределения Фишера-Снедекора (или с помощью специальной функции Excel), по уровню значимости g/2 (вдвое меньше требуемого в условии уровня значимости g) и числам степеней свободы k1 и k2 найти Fкр – критическую точку.

4. Если Fнабл<Fкр – нет оснований отвергать нулевую гипотезу. Если Fнабл>Fкр – нулевую гипотезу отвергают.

Критерий Стьюдента применяется для сравнения средних двух нормальных генеральных совокупностей, дисперсии которых одинаковы, но неизвестны. При заданном уровне значимости проверяется нулевая гипотеза о равенстве математических ожиданий (генеральных средних) двух нормальных совокупностей с одинаковыми, но неизвестными дисперсиями при альтернативе их неравенства.

Правило проверки нулевой гипотезы:

1. Вычислить наблюдаемое значения критерия:

,

где n и m – объемы выборок, и – выборочные средние, а и – исправленные дисперсии.

2. По таблице критических точек распределения Стьюдента (или с помощью специальной функции Excel), по заданному уровню значимости и числу степеней свободы k=n+m-2 найти критическую точку (двустороннюю) – t.

3. Если |Тнабл| > t, нулевую гипотезу отвергают на данном уровне значимости. В противном случае нулевая гипотеза не противоречит имеющимся наблюдениям, т.е. нет оснований отвергнуть гипотезу.

С помощью Excel можно не только находить критические точки распределений с помощью стандартных функций, но и использовать специальные процедуры надстройки Анализ данных.

Задача 12. Можно ли считать дисперсии указанных показателей равными?

Решение задачи 12. Использовать процедуру Двухвыборочный F-тест для дисперсии надстройки Анализ данных (рис. 1.30).

Рис. 1.30. Аргументы процедуры Двухвыборочный F-тест для дисперсии.

Результаты работы этой процедуры представлены на рис. 1.32. Поскольку Fнабл (равное 1,13) меньше, чем Fкр (равное 2,81), нет оснований отвергать нулевую гипотезу о равенстве генеральных дисперсий на уровне значимости 0,05 (Альфа: на рис. 1.30).

Задача 13. Найти критические значения распределения Фишера-Снедекора для определенного уровня значимости.

Решение задачи 13. Использовать функцию FРАСПОБР категории Статистические (рис. 1.31).

Рис. 1.31. Аргументы функции FРАСПОБР

Рис. 1.32. Результат процедуры Двухвыборочный F-тест для дисперсии и вычисления функций FРАСПОБР и FРАСП.

Как видно на рис. 1.32, вычисленное с помощью функции FРАСПОБР критическое значение для уровня значимости 0,05 и чисел степеней свободы для первой и второй выборок, равных 11 (df), совпадает с вычисленным при помощи процедуры Двухвыборочный F-тест для дисперсии значением F критическое одностороннее. Функция FРАСП вычисляет вероятность наблюдаемого значения критерия (F), что соответствует значению P(F<=f) одностороннее, вычисленному в результате работы процедуры Двухвыборочный F-тест для дисперсии.

 

Линейные модели парной и множественной регрессии

Задача регрессионного анализа состоит в определении аналитического выражения связи двух или нескольких величин (признаков) в случае, когда изменение зависимой величины (результативного признака) обусловлено влиянием одной или нескольких независимых величин (факторных признаков).

Парная регрессия

Линейная модель парной регрессии имеет вид

y=ax+b,

где у – зависимая переменная (результативный признак),

х – независимая (объясняющая) переменная,

aкоэффициент регрессии, показывающий среднее изменение результата при изменении фактора на одну единицу, если единицы измерения исследуемых показателей одинаковы,

b – формальное значение у при х= 0. Если х не может иметь нулевого значения, то интерпретация b не имеет смысла.

Задача 1. По данным таблицы 2.1 построить линейное уравнение парной регрессии y=ax+b расходов на питание (у) от величины душевого дохода семьи (х). Оценить модель и значимость параметров уравнения регрессии. Получить точечный прогноз у для х =10000. Построить доверительный интервал прогноза.

Таблица 2.1.

№ группы Расходы на питание (у) Душевой доход (х)
     
     
     
     
     
     
     
     
     
     

Решение задачи 1 состоит из следующих этапов:

Этап 1. Построение линейного уравнения парной регрессии y=ax+b.

Этап 2. Расчет линейного коэффициента парной корреляции.

Этап 3. Оценка линейной модели (коэффициент детерминации и F-критерий Фишера).

Этап 4. Оценка значимости параметров уравнения регрессии с помощью t-статистики (статистики Стьюдента). Построение доверительных интервалов для параметров регрессии.

Этап 5. Получение точечного прогноза у для х =10000.

Этап 6. Построение доверительного интервала прогноза.

Этап 1. Для решения данной задачи средствами Excel имеются следующие возможности:

А. Непосредственный расчет параметров по известным формулам.

Б. Построение уравнения линейной регрессии с помощью тренда. При этом может быть вычислен коэффициент детерминации.

В. Использование процедуры Регрессия надстройки Анализ данных. В этом случае автоматически вычисляется наиболее полный набор характеристик модели. Возможно проведение анализа регрессионных остатков.

Вариант А.

Формулы для расчета параметров a и b получены с помощью метода наименьших квадратов:

, где .

Промежуточные расчеты для вычисления параметров a и b будем проводить на рабочем листе Excel (рис. 2.1).

Рис. 2.1. Расчет по формулам

Вариант Б.

С помощью мастера диаграмм построить точечную диаграмму зависимости у от х. Рис. 2.2 – 2.4.

Рис. 2.2. Построение точечной диаграммы зависимости у от х.

Рис. 2.3. Выбор типа тренда (линейный).

Рис. 2.4. Задание параметров тренда.

Рис. 2.5. График, уравнение, коэффициент детерминации линейного тренда.

Вариант В.

Для построения уравнения линейной регрессии следует обратиться к процедуре Регрессия надстройки Анализ данных (Сервис ® Анализ данных ® Регрессия) Рис. 2.6.

Рис. 2.6. Параметры процедуры Регрессия надстройки Анализ данных.

 


 

ВЫВОД ИТОГОВ                
               
Регрессионная статистика              
Множественный R 0,943348968            
R-квадрат 0,889907276              
Нормированный R-квадрат 0,876145685              
Стандартная ошибка 217,0586507              
Наблюдения 10              
Дисперсионный анализ df SS MS F Значимость F      
Регрессия   3046704,437 3046704,437 64,66601921 4,20702E-05      
Остаток   376915,6629 47114,45786    
Итого   3423620,1          
  Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% Нижние 95,0% Верхние 95,0%
Y-пересечение 639,0430969 103,2881324 6,186994405 0,000263133 400,8602368 877,226 400,8602 877,226
Душевой доход (х) 0,108998086 0,013554416 8,041518464 4,20702E-05 0,077741547 0,140255 0,077742 0,140255

Рис. 2.7. Результаты работы процедуры Регрессия. Характеристики линейной модели парной регрессии.

 


Все три варианта расчета параметров a и b приводят к одному результату: a=0,11; b=639,04. Знак коэффициента регрессии a определяет направление связи между у и х (в данном случае связь является положительной), при увеличении душевого дохода на одну единицу расходы на питание в среднем увеличатся на 0,11.

Таким образом, уравнение регрессии имеет вид:

y т =0,11 x + 639,04

Этап 2. Уравнение парной линейной регрессии всегда дополняется определением коэффициента линейной корреляции:

Для данного примера – , что указывает на очень тесную связь между расходами на питание и душевым доходом.

Этап 3. Коэффициент детерминации равен квадрату коэффициента линейной корреляции и показывает, какая доля дисперсии результативного признака y объясняется изменением факторного признака (отражает качество подбора линейной функции). Для рассматриваемого примера = , т.е. фактор душевого дохода объясняет 89% изменения расходов на питание.

Уравнение регрессии было построено по одной конкретной выборке. Далее следует исследовать возможность распространения этих результатов на всю генеральную совокупность, т.е. оценить значимость уравнения регрессии в целом и отдельных его параметров.

Оценка значимости уравнения в целом производится обычно с помощью F-критерия Фишера, значение которого вычисляется как , где

.

Используя коэффициент детерминации, можно вычислить значение F-критерия Фишера по формуле: .

В статистических критериях важную роль играет понятие числа степеней свободы (принятое обозначение – df). Если задана сумма, то число степеней свободы – это число слагаемых, которые можно изменять независимо, чтобы сумма осталась прежней.

Число степеней свободы общей суммы квадратов отклонений равно n- 1 (для данного примера 9). Число степеней свободы суммы квадратов отклонений, объясненной факторным признаком, равно 1. Число степеней свободы остаточной суммы квадратов отклонений равно n -2 (для рассматриваемого примера – 8).

Нулевая гипотеза (Н0) состоит в том, что коэффициент регрессии a равен нулю, т.е. факторный признак не оказывает влияния на результат.

Если фактическое (вычисленное) значение F больше критического для заданного уровня значимости и соответствующего числа степеней свободы, нулевая гипотеза (признаки не связаны) отклоняется, связь признается существенной. Если полученное значение меньше критического, то вероятность нулевой гипотезы выше заданного уровня (соответствующего критическому значению), и уравнение регрессии считается статистически незначимым.

Значение F -критерия для рассмотренного примера 64,66.

Значение F -критерия для степеней свободы k1 =1 и k2 =8 и уровня значимости 0,05 (Fкрит) равно 5,32 (FРАСПОБР(0,05;1;8), стр.15). Поскольку Fфакт>Fкрит (64,66 > 5,32), нулевая гипотеза отклоняется, уравнение регрессии на уровне значимости 0,05 признается статистически значимым, а воздействие признака х на у – существенным.

При оценка значимости уравнения с помощью процедуры Регрессия следует учесть Значимость F – вероятность значения Fфакт. Если эта величина меньше заданного уровня значимости, нулевая гипотеза отклоняется.

Этап 4. Параметры a, b и коэффициент корреляции были вычислены для одной выборки, для другой выборки из той же генеральной совокупности они будут иметь другие значения, но изменчивость этих значений можно измерить с помощью величины, которая называется стандартной ошибкой. Обозначим стандартные ошибки a, b и коэффициента корреляции соответственно ma, mb и mr. Они вычисляются по формулам:

.

Оценку статистической значимости параметров a, b уравнения регрессии и коэффициента корреляции проводят с помощью t -статистики Стьюдента и построения доверительных интервалов для каждого из показателей.

Нулевая гипотеза (Н0) заключается в том, что показатели a, b и незначительно отличаются от нуля, т.е. можно считать a = b = =0.

Фактические значения t -статистики Стьюдента определяются по формулам:

Как и в случае критерия Фишера, фактические значения t -статистики Стьюдента сравниваются с критическими – – для некоторого уровня значимости a и соответствующего числа степеней свободы (в данном примере df = n-2= 8). В случае, когда фактические значения превосходят критические, гипотеза Н 0 отклоняется, то есть a, b и являются статистически значимыми (на данном уровне a).

Построим доверительные интервалы для a – , где , и для b – , где . С вероятностью параметры a и b, находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля.

Рассчитанные по формулам или полученные в результате работы процедуры Регрессия значения стандартных ошибок, фактических и табличного значений t -статистики, границы доверительных интервалов для параметров a и b на уровне значимости 0,05 приведены на рис. 2.7 и в таблице 2.2.

Таблица 2.2.

  a b
Стандартные ошибки (; ; ) 0,013 103,29 0,117
t -статистика (факт.) (; ; ) 8,04 6,19 8,04
t -статистика (крит.) (СТЬЮДРАСПОБР(0,05; 8)) 2,30 2,30 2,30
Нижняя граница доверительного интервала 0,08 401,5  
Верхняя граница доверительного интервала 0,14    

Данные таблицы 2.2 показывают, что фактические значения t -статистики превосходят критические, следовательно, нулевая гипотеза (о незначительном отличии параметров регрессии от нуля) отклоняется, параметры уравнения являются статистически значимыми (на уровне a=0,05).

При использовании процедуры Регрессия в таблице рис. 2.7 приводятся не критические значения t -статистики, а вероятности фактических значения t -статистик (Р-значения). Если эти значения меньше уровня значимости, гипотеза о незначительном отличии параметров регрессии от нуля отклоняется.

Значения нижней и верхней границ доверительных интервалов для параметров a и b обозначены на рис. 2.7 соответствующими выносками.

Этап 5. Полученное уравнение регрессии позволяет построить точечный прогноз параметра у для некоторого хпр путем подстановки этого значения хпр в уравнение регрессии: упр=aхпр+b. Однако на практике используется доверительный интервала прогноза, который находится по формуле ,

где – ошибка прогноза.

Этап 6. Вычислим доверительный интервал прогноза для рассматриваемого примера, для хпр = 10000. Тогда ошибка прогноза составит =235. Предельная ошибка прогноза, которая не будет превышена в 95% случаев, составит 2,30*235=540,5. Точечная оценка прогноза – 1729. Доверительный интервал для прогнозного значения у на данном уровне значимости – (1188, 2270). Однако этот надежный прогноз очень неточен: верхняя его граница превосходит нижнюю почти в два раза.

Множественная регрессия

Множественная регрессия представляет собой модель вида

,

где у – результативный признак, а – независимые или объясняющие переменные (признаки-факторы).

Цель множественной регрессии – определить степень влияния каждого из факторов в отдельности и их совместное воздействие на результативный признак.

Включаемые в модель множественной регрессии факторы должны объяснять вариацию независимой переменной. Как и в случае парной регрессии, для модели множественной регрессии с некоторым набором факторов рассчитывается множественный коэффициент детерминации, определяющий долю объясненной вариации результативного признака за счет факторов, входящих в модель.

Остановимся на линейной модели множественной регрессии:

y=a1x1+a2x2+…+akxk+b,

где ai – коэффициенты регрессии, каждый из которых показывает, на сколько единиц изменится y с изменением соответствующего признака хi на единицу при условии, что остальные признаки не изменятся;

y – расчетное (теоретическое) значение, представляющее собой оценку ожидаемого значения y при фиксированных значениях переменных хk.

Параметры уравнения множественной регрессии находят методом наименьших квадратов (как и в парной)

Уравнение множественной регрессии можно построить в стандартизованном виде:

.

Здесь – это стандартизованные (нормализованные) переменные, у которых среднее значение равно нулю, а среднее квадратическое отклонение – единице; – стандартизованные коэффициенты регрессии.

Связь коэффициентов множественной регрессии со стандартизованными коэффициентами регрессии определяется соотношением

(*).

Параметр b (**).

Введение стандартизованных коэффициентов регрессии позволяет ранжировать факторы по силе их воздействия на результирующий признак.

Рассмотрим в качестве примера множественной регрессии двухфакторную линейную модель. Исходные данные представлены в таблице 2.3.

Таблица 2.3.

№ группы Расходы на питание (у) Душевой доход (х1) Размер семьи (х2)
      1,5
      2,1
      2,4
      2,7
      3,2
      3,4
      3,6
      3,7
       
      3,7

 

Для определения параметров уравнения множественной регрессии y=a1x1+a2x2+b построим уравнение в стандартизованном виде .

b -коэффициенты для двухфакторной модели рассчитываются по формулам:

Для рассматриваемого примера имеем: b 1=0,62; b 2=0,46, т.е. уравнение множественной регрессии в стандартизованном виде:

.

С помощью формул (*) и (**) получаем уравнение множественной регрессии относительно исходных переменных (x 1, x2 ) в виде:

y=0,07x 1 +343,29x 2 –190,63.

Это же уравнение можно получить с помощью процедуры Регрессия надстройки Анализ данных.

Рис. 2.8. Параметры процедуры Регрессия для двухфакторной модели.


 

ВЫВОД ИТОГОВ            
             
Регрессионная статистика        
Множественный R 0,997740614          
R-квадрат 0,995486332        
Нормированный R-квадрат 0,994196713          
Стандартная ошибка 46,98492657          
Наблюдения          
             
Дисперсионный анализ            
  df SS MS F Значимость F  
Регрессия 2 3408167,017 1704083,508 771,9226221 6,17808E-09  
Остаток 7 15453,08327 2207,583324  
Итого   3423620,1        
             
  Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y-пересечение -190,6301122 68,5851872 -2,77946478 0,027319286 -352,8083091 -28,45191531
Душевой доход (х1) 0,072029818 0,004117656 17,49291973 4,91102E-07 0,06229311 0,081766526
Размер семьи (х2) 343,2930441 26,82822156 12,79596724 4,1274E-06 279,8543808 406,7317075

Рис. 2.9. Результат работы процедуры Регрессия для двухфакторной модели.


Оценить тесноту связи между результативным и одним из факторных признаков при неизменных значениях других факторов позволяют частные коэффициенты корреляции, которые рассчитываются для двухфакторной модели по следующим формулам:

=0,99

=0,98

=-0,95

Входящие в формулы значения коэффициентов парной корреляции () вычисляются с помощью стандартной функции КОРРЕЛ категории Статистические. Полученные величины частных коэффициентов корреляции очень близки по модулю к единице, т.е. теснота связи между расходами на питание и каждым из исследуемых факторов при неизменном значении другого весьма значительна. Например, – это коэффициент корреляции между y (расходами на питание) и x1 (душевым доходом) при постоянном значении x2 (размера семьи).

Линейный коэффициент множественной корреляции можно вычислить следующим образом:

=0,99

Близость значения этого коэффициента (рис. 2.9, 1) к единице показывает очень тесную зависимость расходов на питание от душевого дохода и размера семьи. Значение коэффициента множественной корреляции выше, чем значение коэффициента корреляции в случае однофакторной модели.

Оценить качество полученной модели в целом позволяет коэффициент множественной детерминации (рис. 2.9, 2). Он показывает долю вариации результативного признака под воздействием изучаемых факторных признаков.

0,9954

Совместное влияние душевого дохода и размера семей объясняет 99% изменения расходов на питание.

Рассчитаем также скорректированный коэффициент множественной детерминации, учитывающий как число наблюдений (элементов выборки) n (рис. 2.9, 3), так и число факторов m (рис. 2.9, 4):

=0,9935.

Как и в случае парной регрессии, значимость уравнения множественной регрессии в целом оценивается с помощью F -критерия Фишера. В этом случае его значение находится как:



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-12-07 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: