Линейная регрессия от одного фактора




Уравнение линии регрессии на плоскости в декартовых координатах имеет вид выражения b0+b1x.

Задачу метода наименьших квадратов аналитически можно выражается:

b0,b1
Ф(b0,b1)= (4.13)

 

Для решения этой задачи, как известно из математического анализа, необходимо вычислить частные производные функции Ф по коэффициентам b0, b1 и приравнять их нулю:

 

(4.14)

 

Система нормальных уравнений (4.8) в этом случае:

(4.15)

Решение этой системы относительно b0 и b1 дает:

 

(4.16)

т.е. для расчета b0 и b1 необходимо определить ∑xi , ∑yi, ∑xiyi, ∑(xi)2.

Коэффициент b0 (свободный член уравнения регрессии) геометрически представляет собой расстояние от начала координат до точки пересечения линии регрессии с осью ординат, а коэффициент b1 характеризует тангенс угла наклона линии регрессии к оси OX.

Если же определяют уравнение регрессии в виде:

b0+b1x+

то система уравнений для нахождения b0, b1, b11 будет иметь следующий вид:

 

(4.16б)

Из уравнений (4.15) и (4.16б) вытекает правило записи любых систем нормальных уравнений: необходимо записать столько уравнений в системе, сколько неизвестных коэффициентов содержится в искомом уравнении, всякий раз суммируя произведения членов исходного уравнения на переменную при искомом коэффициенте.

Оценку силы линейной связи осуществляют по выборочному (эмпирическому) коэффициенту парной корреляции rxy. Выборочный коэффициент корреляции может быть вычислен двумя способами.

1. Как частный случай корреляционного отношения для линейного уравнения регрессии.

С учетом того, что

 

(4.17)

величина отношения /Sy будет равна:

 

rxy=b1Sx/Sy (4.18)

 

Sx и Sy — выборочные средние квадратичные отклонения.

2. Как среднее значение произведения центрированных случайных величин, отнесенное к произведению их среднеквадратичных отклонений:

(4.19)

Покажем, что две последние формулы эквивалентны. Для этого преобразуем выражение (4.19) к виду:

 

SxSy

Подставляя последнее выражение в формулу (4.16а), имеем:

 

b1= , откуда

 

Как правило, по результатам экспериментов находят Sx, Sy, , и рассчитывают rxy по формуле (4.19), а затем, используя эти величины, определяют коэффициенты уравнения регрессии:

 

b1=rxySy/Sx; b0= (4.20)

 

Коэффициент корреляции rxy изменяется в пределах -1£ rxy £+1.

Положительная корреляция между случайными величинами характеризует такую стохастическую зависимость между величинами, когда с возрастанием одной из них другая в среднем также будет возрастать. При отрицательной корреляции с возрастанием одной случайной величины другая в среднем будет уменьшаться. Чем ближе значение rxy к единице, тем теснее статистическая связь.

Для оценки качества подбора линейной функции рассчитывается квадрат коэффициента rxy называемый коэффициентом детерминации R2 = (rxy.)2.

Коэффициент детерминации R2 характеризует долю дисперсии результативного признака y, объясняемую регрессией. Соответствующая величина 1 – R2 характеризует долю дисперсии у, вызванную влиянием остальных не учтенных в модели факторов.

Отметим еще раз область применимости выборочного коэффициента корреляции для оценки тесноты связи.

§ Коэффициент парной корреляции значений y и x применительно к однофакторной зависимости характеризует тесноту группирования данных лишь относительно прямой (например, линия A на рис. 4.8 a). При более сложной зависимости (рис. 4.8 б) коэффициент корреляции rxy будет оценивать тесноту экспериментальных точек относительно некоторой прямой, обозначенной буквой А, что, естественно, несет мало сведений о тесноте их группирования относительно искомой кривой y = f (x).

§ Коэффициент парной выборочной корреляции имеет четкий физический смысл только в случае двумерного нормального распределения параметров, т.е. когда для каждого значения Х, например х1, х2, х3, существует совокупность нормального распределения у и наоборот, а дисперсия зависимой переменной при изменении значения аргумента остается постоянной (рис. 4.9).

Даже при выполнении этих, вообще говоря, достаточно жестких условий, не всякое значение выборочного коэффициента корреляции является достаточным для статистического обоснования выводов о наличии действительно надежной корреляционной связи между фактором и откликом.

 

Надежность статистических характеристик ослабевает с уменьшением объема выборки (n). Так, при n = 2 через две экспериментальные точки можно провести только одну прямую и зависимость будет функциональной, при этом выборочный коэффициент корреляции равен единице (rxy = 1), но это не означает надежность полученных статистических характеристик в силу весьма и весьма ограниченного объема выборки. Следовательно, вычислять коэффициент корреляции по результатам двух наблюдений бессмысленно, так как он заведомо будет равен единице, и это будет обусловлено не свойствами переменных и их взаимным отношением, а только числом наблюдений. В связи с этим требуется проверка того, насколько значимо отличается выборочный коэффициент корреляции rxy от его действительного значения rxy*. При достаточно большом объеме выборки n®¥ rxy*= rxy. Таким образом, требуется проверка значимости выборочного коэффициента парной корреляции и оценка его доверительного интервала.

Для определения значимости rxy сформулируем нулевую гипотезу Н0: rxy*= 0, т.е. корреляция отсутствует. Для этого рассчитывается экспериментальное значение t-критерия Стьюдента

 

t= (4.21)

и сравнивается с теоретическим при числе степеней свободы n-2.

Если t ≥ tα;n-2 при заданном уровне значимости α, то нулевая гипотеза отклоняется, а альтернативная гипотеза Н1: rxy* ≠ 0, о том, что коэффициент корреляции существенен, принимается.

Определение доверительного интервала коэффициента корреляции. При малых объемах выборки (n < 20) можно рекомендоватьпостроение доверительного интервала для rxy*, которое основано напреобразовании Р. Фишера. Он предложил такое нелинейное преобразование величины rxy, при котором закон распределения этой оценки, вообще говоря, довольно сложный, практически приближаетсяк нормальному. Это преобразование производится по формуле:

 

 

Z*= (4.22)

 

Среднеквадратичное отклонение случайной величины Z* зависит от числа опытов

 

(4.23)

 

а математическое ожидание очень близко к числу, получающемуся после подстановки в формулу (4.22) вместо rxy истинного значения коэффициента корреляции rxy*. Эти свойства величины Z* позволяют просто оценить, в каких пределах может находиться истинное значение коэффициента корреляции, если по n опытам получены некоторые значения его выборочного значения (оценки) rxy. Если граничное значение rxy имеет тот же знак, что и rxy*, то можно считать в первом приближении, что корреляционная связь между переменными достоверна.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2021-02-06 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: