Задача: Некоторая фирма занимается поставками различных грузов на короткие расстояния внутри города. Оценить стоимость таких услуг, зависящую от затрачиваемого на поставку времени. В качестве наиболее важного фактора, влияющего на время поставки, выбрано пройденное расстояние. Были собраны исходные данные о десяти поставках (таблица 1)
Таблица 1
Расстояние, миль | 3,5 | 2,4 | 4,9 | 4,2 | 3,0 | 1,3 | 1,0 | 3,0 | 1,5 | 4,1 |
Время, мин |
Определите характер зависимости между расстоянием и затраченным временем, используя мастер диаграмм MS Еxcel, проанализируйте применимость метода наименьших квадратов, постройте уравнение регрессии, используя МНК, проанализируйте силу регрессионной связи.
Проведем регрессионный анализ с использованием режима Регрессия MS Excel. Значения параметров, установленных в одноименном диалоговом окне, представлены на рис.6.
Рис. 6.
Сгенерируются результаты по регрессионной статистике, представленные в таблице 3.
Таблица 3.
ВЫВОД ИТОГОВ | |
Регрессионная статистика | |
Множественный R | 0,958275757 |
R-квадрат | 0,918292427 |
Нормированный R-квадрат | 0,90807898 |
Стандартная ошибка | 1,11809028 |
Наблюдения |
Рассмотрим представленную в таблице 3 регрессионную статистику.
Величина R-квадрат, называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). Мера определенности всегда находится в пределах интервала [0;1]. В нашем примере мера определенности равна 0,91829, что говорит об очень хорошей подгонке регрессионной прямой к исходным данным и совпадает с коэффициентом детерминации R2, вычисленным по формуле.
Таким образом, линейная модель объясняет 91,8% вариации времени доставки, что означает правильность выбора фактора (расстояния). Не объясняется вариации времени поездки, которые обусловлены остальными факторами, влияющими на время поставки, но не включенными в линейную модель регрессии.
Рассчитанный уровень значимости αр=1,26E-05<0,05(показатель значимость F в таблице Дисперсионный анализ) подтверждает значимость R2.
Множественный R - коэффициент множественной корреляции R - выражает степень зависимости независимых переменных (X) и зависимой переменной (Y) и равен квадратному корню из коэффициента детерминации, эта величина принимает значения в интервале от нуля до единицы. В простом линейном регрессионном анализе множественный R равен коэффициенту корреляции Пирсона. Действительно, множественный R в нашем случае равен коэффициенту корреляции Пирсона (0,95827), который вычисляется по формуле:
Теперь рассмотрим среднюю часть расчетов, представленную в таблице 4 (приведена в сокращенном варианте). Здесь даны коэффициент регрессии а1 (2,65970168) и смещение по оси ординат, т.е. константа a0 (5,913462144).
Таблица 4
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | |
Y-пересечение | 5,913462144 | 0,884389599 | 6,686489927 | 0,00015485 |
Переменная X 1 | 2,65970168 | 0,280497238 | 9,482095791 | 1,26072E-05 |
Исходя из расчетов, можем записать уравнение регрессии таким образом:
(*)
Направление связи между переменными определяется на основании знаков (отрицательный или положительный) коэффициента регрессии (коэффициента а1). В нашем случае знак коэффициента регрессии положительный, следовательно, связь также является положительной.