Регрессионный анализ данных




Такой анализ используется для решения задач, где требуется установить зависимость между признаками, описывающими исследуемый процесс или объект. Для этого строятся различные модели, в которых данные признаки выступают в качестве переменных. Если модель будет корректно отражать зависимость между входными и выходными переменными, то с помощью такой модели можно будет предсказывать значения выходной переменной по заданным значениям входных. Для этого требуется рассчитать коэффициенты уравнения регрессии, определить статистические показатели модели, проверить остатки.

Рассмотрим этапы проведения регрессионного анализа на данных из табл.

                   
Время, x                    
Расстояние, y                    

 

Алгоритм решения типовой задачи:

1.Создать новую таблицу, ввести исходные данные в отдельные столбцы, соответствующие переменным.

2.Перейти на вкладку Statistics – Multiple Regression (Множественная регрессия) - Variables - Select dependent and independent variable lists (здесь выбираем переменные Расстояние и Время, соответств.) - ОК. Получим таблицу итогов регрессии (Рис.1).

 

Multiple Regression Results

 

Dependent: расстояние Multiple R =,97332853 F = 144,0000

R?=,94736842 df = 1,8

No. of cases: 10 adjusted R?=,94078947 p =,000002

Standard error of estimate: 1,224744871

Intercept: 6,000000000 Std.Error:,9189366 t(8) = 6,5293 p =,0002

время beta=,973

 

(significant betas are highlighted)

 

Рисунок 1. Итоги регрессионного анализа

 

В верхней части информационного окна обращаем внимание на величину R2=0.947 – квадрат коэффициента множественной корреляции, он же коэффициент детерминации. Коэффициент детерминации является одной из основных статистик, он показывает долю общего разброса, которая объясняется построенной регрессией.

Далее рассматриваем значение F -критерия Фишера и уровень значимости p,

которые используются для проверки значимости регрессии.

В окне приведено расчетное значение F -критерия Fрас = 144 при уровне значимости p = 0,000002 и степенях свободы v 1 = 1 и v 2 = 8. Табличное значение, взятое при уровне значимости α = 0,05 и степенях свободы v 1 = 1 и v 2 = 8, равно F Т = 5,3177. Получаем, что Fрас > F Т, следовательно, построенная регрессия является значимой по F -критерию Фишера.

Во второй части информационного окна приведены регрессионные коэффициенты. Значимые по критерию Стьюдента коэффициенты выведен красным цветом.

!!! Для оценки значимости коэффициента уравнения регрессии рассчитанное значение критерия Стьюдента tˆ сравнивают с его табличным значением tT при выбранной доверительной вероятности 1 - α, где α - уровень значимости, и числе степеней свободы v = n – р. Если вычисленное значение tˆ больше табличного, коэффициент регрессии является значимым с заданной доверительной вероятностью. В противном случае есть основания для исключения соответствующей переменной xj из регрессионной модели.

Для представления результатов в виде таблицы выбираем Summary: Regression results (Итоговая таблица регрессии). На экране появится итоговая таблица вывода, в которой представлены результаты регрессионного анализа. В таблице итогов регрессии также содержатся стандартные ошибки для коэффициентов регрессии b, значения статистик t -критерия и p -уровень. Значимые по критерию Стьюдента коэффициенты выводятся красным цветом.

Расчетное значение критерия Стьюдента t р= 12,000000 для коэффициента b 1 сравниваем с его табличным значением t T = 2,31 при уровне значимости α = 0,05 и числе степеней свободы v=N – p =8. Получили, что расчетное t р > t T, следовательно коэффициент регрессии b 1 является значимым с доверительной вероятностью 95%.

Итак, получаем регрессионную модель:

Расстояние y = 6,0 + 2,0 * Время x.

 

3. Проанализируем остатки. Вернемся в окно результатов и выберем вкладку Residuals/assumptions/prediction - Perform residual analysis (Анализ остатков). В окне Residual analysis можно просмотреть значение остатков и построить различные варианты диаграмм рассеяния

4. С помощью опции Casewise plot of residuals (Построчн. графики остатков) можно вывести на экран таблицу с остатками регрессионной модели. В этой таблице выделим столбец с остатками Residual (Остатки) и скопируем данные в буфер обмена.

Таблица остатков регрессионной модели

Создадим новую таблицу, вставим скопированные данные в столбец, соответствующий переменной Var 1, Запускаем модуль Descriptive statistics:. В окне этого модуля во вкладке Normality (Нормальность) установить флажок в опции Shapiro-Wilk's W test - Histograms (Гистограммы). Если расчетное значение критерия Шапиро–Уилка W расч больше табличного значения W табл для заданного n и р = α = 0,05, то 0-гипотеза о нормальном распределении остатков не отклоняется при уровне значимости α. Анализ остатков является ключевым в оценке адекватности или качества регрессионной модели. Получаем гистограмму (рисунок 3), в еѐ окне значение статистики критерия Шапиро–Уилка W = 0,952 при р < 0,783. Расчетное значение критерия Шапиро–Уилка W расч > W табл = 0,842 для n = 10 и р =α =0,05. Следовательно, 0-гипотеза о нормальном распределении остатков не отклоняется при уровне значимости α=0,05. Остатки регрессионной модели нормальные, что является очевидным и из гистограммы.

Рисунок 3. Гистограмма остатков регрессионной модели

 

5.Вернемся в окно Residual analysis) - Residuals vs. independent var. (Остатки и независимые переменные), выведем на экран диаграмму рассеивания для независимой переменной и остатков (Рис.4).

Таким образом мы получим регрессионную модель, адекватную по F -критерию Фишера, со значимыми коэффициентами регрессии, нормально распределенными остатками и высоким значением коэффициента детерминации. Эту модель можно использовать для предсказаний.

Рис. 4. Диаграмма рассеивания для переменной и остатков регрессионной модели

 

Задание. Для всех вариантов заданий провести следующий анализ:

1 Проверить гипотезу о нормальности распределения переменных по критерию Шапиро–Уилка. В случае необходимости, осуществить преобразование переменных.

2 Определить зависимость между переменными с помощью регрессионного анализа.

3 Проверить адекватность полученный моделей по критерию Фишера. Проверить значимость коэффициентов регрессии.

4 Построить гистограмму остатков.

Вариант 1. У бегунов на 100 м измерили результаты упражнения (Y, с) и прыжка в длину с места (X, см): X: 268 264 275 269 255 278 263 270 253 Y: 10,9 10,7 11,1 11,0 11,0 11,3 10,8 10,9 11,0

Определить информативность теста. Определить какие результаты в беге на 100 м сможет показать бегун, если он в тестировании прыгнет на 285 см, и на сколько он должен прыгать в среднем для результата 10,5 с (р = 95%)?

Вариант 2. У пловцов на 100 м измерили результат упражнения (Y, с) и среднюю силу тяги в минутном плавании на привязи (X, кг): X: 15,6 16,8 15,0 14,7 15,2 14,9 14,5 14,8 15,9 16,0 Y: 58,8 57,2 59,5 60,1 59,6 59,8 60,2 60,5 58,2 56,9 Определить информативность теста. Какой результат в плавании сможет показать спортсмен, если в тесте он покажет 18,0 кг и какую силу он должен развивать в тесте для результата 55,0 с (р = 95%)?

Вариант 3. У штангистов измерили результаты толчка штанги (X, кг) и прыжка вверх с места (Y, см]: X: 160 175 180 167,5 160 170 175 180 172,5 155 Y: 87 89 90 85 84 88 91 92 86 82.

Какие результаты в толчке сможет показать штангист, если он прыгнет на 95 см и на сколько нужно прыгать вверх с места, чтобы толкнуть 200 кг (р = 95%)?

Вариант 4. У конькобежцев измерили результат бега на коньках на 500 м (X, с) и силу мышц разгибателей бедра (Y, кг) [7]: X: 41,7 40,8 39,8 40,3 41,3 41,0 40,5 39,7 39,5 40,6 Y: 128 135 137 135 120 129 139 140 141 130. Определить информативность теста. Какие результаты в беге на 500 м сможет показать конькобежец, если в тесте он покажет результат 150 кг и какой результат нужно показать в тесте, чтобы пробежать 500 м за 38,0 с (р = 95%)?

 

Вариант 5. У баскетболистов измерили процент результативных бросков в игре (X, %) и процент результативных бросков в тестировании при лимите времени 4 минуты на 40 бросков с «любимых» точек площадки, (Y, %):

X: 56,7 57,5 48,3 62,9 72,0 55,3 52,9 42,8 40,6 49,4

Y: 77,4 71,9 68,8 80,4 83,5 69,4 70,2 65,0 63,7 65,4

Какую результативность покажет в игре баскетболист, если в тесте он реализует 90% бросков и какой результат в тесте он должен показать, чтобы в матче реализовать 75% бросков (р = 95%)?

Вариант 6. У конькобежцев-спринтеров измерили результаты бега на 500 м (X, с) и на 100 м со старта (Y, с): X: 40,7 40,3 41,2 42,4 40,7 39,8 39,5 41,6 40,2 40,9 Y: 11,2 11,0 11,5 11,6 11,3 10,9 10,9 11,6 11,1 11,3

За сколько конькобежцу нужно пробе-жать первые 100 м, чтобы 500 м пробежать за 39,0 с? Какой результат покажет спортсмен на дистанции 500 м, если 100 м со старта он пробежит за 10,5 с (р = 95%)?

Вариант 7. У пловцов измерили результат плавания на 100 м (X, с) и силу тяги в «гребковом» движении на суше (Y, кг): X: 62,8 63,9 61,5 60,7 59,8 62,4 61,7 60,9 60,2 61,4 Y: 56 62 60 62 65 57 53 54 61 66. Какой результат может быть показан в плавании, если в тесте зафиксировано 70 кг и какую силу в гребковом движении необходимо развивать, чтобы проплыть 100 м за 57 с (р = 95%)

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2019-12-28 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: