ЛИНЕЙНАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ. Метод наименьших квадратов




ЛИНЕЙНАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ

Задача 2.1. В результате исследования взаимосвязи двух показателей (X – торговая площадь продовольственного магазина, кв.м., Y – годовой товарооборот продовольственного магазина, млн. руб.) получены следующие данные:

Торговая площадь продовольственного магазина, кв.м. Годовой товарооборот продовольственного магазина, млн. руб.
   
   
   
   
   
   
   
   
   
   
   
   

Методом наименьших квадратов найдите линейную функцию, которая наилучшим образом приближает эмпирические (опытные) данные. Сделайте чертеж, на котором в декартовой прямоугольной системе координат отобразите поле рассеивания и график аппроксимирующей функции.

 

Решение. Аппроксимирующей будет такая функция, график которой проходит как можно ближе к точкам и при этом является достаточно простой, не «петляя» от точки к точке, и наиболее полно отображает главную тенденцию.

Простейший способ нахождения такой функции опирается на метод нахождения наименьшего отклонения между координатами точек эмпирических данных и координатами точек кривой. Этот метод называется методом наименьших квадратов и основан на решении стандартной задачи – нахождения минимума функции двух переменных (см. Приложение 2).

Рекомендуется для наглядности использовать всю площадь рисунка.  
Построим в декартовой системе координат диаграмму рассеивания. Для этого по оси абсцисс отметим значения показателя Х, по оси ординат – значения показателя Y.

Как видим, в качестве аппроксимирующей подходит линейная функция . Коэффициенты a и b можно найти, решив систему линейных уравнений (см. Приложение 2):

 

или после сокращения на п:

(1)

Составим вспомогательную таблицу, куда сведём все промежуточные вычисления.

         
         
         
         
         
         
         
         
         
         
         
         
       
= = = =

 

Тогда система (1) примет вид:

Решим её методом Крамера:

 

 

Откуда:

Теперь можно записать уравнение аппроксимирующей прямой:

 

.

Построим график данной прямой на вышеприведённой диаграмме рассеивания и убедимся, что он проходит точно через скопление точек. Для построения прямой линии достаточно определить координаты её двух точек (с помощью полученного уравнения). Эти точки желательно брать далеко друг от друга, но в районе диаграммы. Поместим координаты этих двух точек в следующую табличку:

   
   

Видим, что построенная прямая линия проходит среди точек диаграммы рассеивания.

(В противном случае имеется ошибка в расчётах и полученные значения следует пересчитать!)

 

 

Задача 2.2. В результате проведенного исследования по 10 предприятиям фирмы получены следующие данные:

№ пред- приятия Выработка продукции на одного рабочего, тыс. руб. Объем произведенной продукции, тыс. руб.
     
     
     
     
     
     
     
     
     
     
Итого    

1) Найти уравнение регрессии зависимости выработки рабочего от объема производительности труда. 2) Определить степень связи между размером основных фондов и выпуском продукции на один завод. 3) Проверить статистическую значимость при _________.

Решение.

1) По приведённым эмпирическим данным построим диаграмму рассеивания: по оси абсцисс откладываем значения признака Х, по оси ординат откладываем значения признака Y. Точки на координатной плоскости и образуют диаграмму рассеивания.

 

 

 


Вид диаграммы рассеивания позволяет сделать вывод о наличии линейной зависимости значений Y от значений X. Аналитически эту связь будет отображать уравнение вида

. (2)

называемое (в данном случае) уравнением парной линейной регрессии Y на X.

Коэффициенты a и b можно найти методом наименьших квадратов, решив систему линейных уравнений (1):

Составим вспомогательную таблицу, куда сведём все промежуточные вычисления.

         
         
         
         
         
         
         
         
         
         
       
= = = =

Тогда система (1)примет вид:

 

Решим её методом Крамера:

 

 

 

Откуда

Записываем уравнение парной линейной регрессии Y на X: .

Построим график данной прямой на вышеприведённой диаграмме рассеивания и убедимся, что он проходит точно через скопление точек. Определяем координаты двух точек (из области диаграммы):

 

   
   

 

 

Убеждаемся в том, что построенная прямая линия проходит среди точек диаграммы рассеивания (!).

В уравнении 2 коэффициент а называется выборочным коэффициентом регрессии Y на X, и, обычно, обозначается, как . Коэффициент регрессии показывает интенсивность влияния факторов на результативный показатель (как в среднем изменится результативный признак Y, если факторный признак X увеличится на единицу).

В нашем случае _______. Таким образом, увеличение выработки продукции на одного рабочего (X) на 1 тыс. руб. приведёт к увеличению объема произведенной продукции (Y) на _____________ тыс. руб.

 

2) Степень (тесноту) связи между размером основных фондов и выпуском продукции на один завод определим с помощью линейного коэффициента корреляции (коэффициента корреляции Пирсона):

. (2)

Как видно из формулы, для его вычисления нам понадобится найти групповые дисперсии и .

Составим очередную вспомогательную расчётную таблицу.

           
           
           
           
           
           
           
           
           
           
         
= = = = =

 

Тогда:

_______________ _______________

Находим средние квадратические отклонения:

_____________, ______________

Следовательно, линейный коэффициент корреляции будет равен:

(Будьте внимательны, выборочный коэффициент корреляции по модулю не может быть больше 1!)

Проверим правильность вычисления через связь между коэффициентами корреляции и регрессии:

. (3)

Как видим, при подстановке всех найденных значений равенство (3) превращается в тождество:

_______ _________

 

Выборочный коэффициент корреляции характеризует тесноту линейной связи между случайными величинами X и Y. Для оценки тесноты связи признаков X и Y пользуются шкалой Чеддока:

Диапазон до 0,3 0,3 0,5 0,5 0,7 0,7 0,9 выше 0,9
Теснота связи X и Y слабая умеренная заметная высокая весьма высокая

 

В нашей задаче =_____, поэтому теснота связи X и Y _______________.

 

3) Проверим статистическую значимость коэффициента корреляции, то есть оценим, насколько выбранная линейная форма регрессии соответствует, то есть адекватна, выборочным данным.

Для данной проверки используем критерий Стьюдента:

,

где n – объём выборки, а случайная величина t распределена по закону Стьюдента с числом степеней свободы (число степеней свободы равно числу классов вариационного ряда минус число условий, при которых он был сформирован).

Вычисляем эмпирическое значение критерия:

По таблице критических точек распределения Стьюдента (приложение 1) по заданному уровню значимости α = ______ и числу степеней свободы ________ находим критическую точку _________.

Получили:

1) , выборочный коэффициент корреляции незначим, а X (выработка продукции на одного рабочего) и Y (объем произведенной продукции) некоррелированы, т.е. не связаны линейной зависимостью. Следовательно, прямая регрессии не адекватна выборочным данным и следует подобрать более подходящую форму регрессии.

 

2) , выборочный коэффициент корреляции значим, а X (выработка продукции на одного рабочего) и Y (объем произведенной продукции) коррелированы, т.е. связаны линейной зависимостью. Следовательно, прямая регрессии адекватна выборочным данным.

 

(ненужное зачеркнуть!)

Приложение 1

Критические точки распределения Стьюдента.

 

В таблице приведены значения в зависимости от числа степеней свободы и доверительной вероятности P (уровня значимости a = 1 – P).

 

k Доверительная вероятность (надёжность) P
0.80 0.90 0.95 0.98 0.99 0.995 0.998 0.999
  3.0770 6.3130 12.7060 31.820 63.656 127.656 318.306 636.619
  1.8850 2.9200 4.3020 6.964 9.924 14.089 22.327 31.599
  1.6377 2.35340 3.182 4.540 5.840 7.458 10.214 12.924
  1.5332 2.13180 2.776 3.746 4.604 5.597 7.173 8.610
  1.4759 2.01500 2.570 3.649 4.0321 4.773 5.893 6.863
  1.4390 1.943 2.4460 3.1420 3.7070 4.316 5.2070 5.958
  1.4149 1.8946 2.3646 2.998 3.4995 4.2293 4.785 5.4079
  1.3968 1.8596 2.3060 2.8965 3.3554 3.832 4.5008 5.0413
  1.3830 1.8331 2.2622 2.8214 3.2498 3.6897 4.2968 4.780
  1.3720 1.8125 2.2281 2.7638 3.1693 3.5814 4.1437 4.5869
  1.363 1.795 2.201 2.718 3.105 3.496 4.024 4.437
  1.3562 1.7823 2.1788 2.6810 3.0845 3.4284 3.929 4.178
  1.3502 1.7709 2.1604 2.6503 3.1123 3.3725 3.852 4.220
  1.3450 1.7613 2.1448 2.6245 2.976 3.3257 3.787 4.140
  1.3406 1.7530 2.1314 2.6025 2.9467 3.2860 3.732 4.072
  1.3360 1.7450 2.1190 2.5830 2.9200 3.2520 3.6860 4.0150
  1.3334 1.7396 2.1098 2.5668 2.8982 3.2224 3.6458 3.965
  1.3304 1.7341 2.1009 2.5514 2.8784 3.1966 3.6105 3.9216
  1.3277 1.7291 2.0930 2.5395 2.8609 3.1737 3.5794 3.8834
  1.3253 1.7247 2.08600 2.5280 2.8453 3.1534 3.5518 3.8495
  1.3230 1.7200 2.0790 2.5170 2.8310 3.1350 3.5270 3.8190
  1.3212 1.7117 2.0739 2.5083 2.8188 3.1188 3.5050 3.7921
  1.3195 1.7139 2.0687 2.4999 2.8073 3.1040 3.4850 3.7676
  1.3178 1.7109 2.0639 2.4922 2.7969 3.0905 3.4668 3.7454
  1.3163 1.7081 2.0595 2.4851 2.7874 3.0782 3.4502 3.7251
  1.315 1.705 2.059 2.478 2.778 3.0660 3.4360 3.7060
  1.3137 1.7033 2.0518 2.4727 2.7707 3.0565 3.4210 3.6896
  1.3125 1.7011 2.0484 2.4671 2.7633 3.0469 3.4082 3.6739
  1.3114 1.6991 2.0452 2.4620 2.7564 3.0360 3.3962 3.8494
  1.3104 1.6973 2.0423 2.4573 2.7500 3.0298 3.3852 3.6460
  1.3080 1.6930 2.0360 2.4480 2.7380 3.0140 3.3650 3.6210
  1.3070 1.6909 2.0322 2.4411 2.7284 3.9520 3.3479 3.6007
  1.3050 1.6883 2.0281 2.4345 2.7195 9.490 3.3326 3.5821
  1.3042 1.6860 2.0244 2.4286 2.7116 3.9808 3.3190 3.5657
  1.303 1.6839 2.0211 2.4233 2.7045 3.9712 3.3069 3.5510
  1.320 1.682 2.018 2.418 2.6980 2.6930 3.2960 3.5370
  1.301 1.6802 2.0154 2.4141 2.6923 3.9555 3.2861 3.5258
  1.300 1.6767 2.0129 2.4102 2.6870 3.9488 3.2771 3.5150
  1.299 1.6772 2.0106 2.4056 2.6822 3.9426 3.2689 3.5051
  1.298 1.6759 2.0086 2.4033 2.6778 3.9370 3.2614 3.4060
  1.2958 1.6706 2.0003 2.3901 2.6603 3.9146 3.2317 3.4602
  1.2938 1.6689 1.9944 2.3808 2.6479 3.8987 3.2108 3.4350
  1.2820 1.6640 1.9900 2.3730 2.6380 2.8870 3.1950 3.4160
  1.2910 1.6620 1.9867 2.3885 2.6316 2.8779 3.1833 3.4019
  1.2901 1.6602 1.9840 2.3642 2.6259 2.8707 3.1737 3.3905

Приложение 2.

Метод наименьших квадратов

 

Пусть в некоторой предметной области исследуются показатели X и Y, которые имеют количественное выражение. При этом есть все основания полагать, что показатель Y зависит от показателя X.

Предположим, что после проведения п наблюдений получены следующие числовые данные:

X
Y

 

Эти табличные данные также можно представить в виде точек , , …, и изобразить в декартовой системе координат XОY. Требуется подобрать функцию , график которой проходит как можно ближе к точкам. , , …, . Такую функцию называют аппроксимирующей (аппроксимация – приближение) или теоретической функцией. При этом разыскиваемая функция должна быть достаточно проста, т.е. легка в обработке, и в то же время должна отражать зависимость адекватно.

Один из методов нахождения таких функций называется методом наименьших квадратов. Его суть заключается в следующем. Пусть некоторая функция приближает экспериментальные данные , , …, :



Как оценить точность данного приближения? Вычислим значения функции , , …, и разности (отклонения) , , …, между экспериментальными и функциональными значениями и оценим сумму этих отклонений. При этом, во избежание обнуления сумы из-за наличия отрицательных отклонений, будем возводить их в квадрат: , после чего будем искать такую функцию , чтобы сумма квадратов отклонений была как можно меньше.

Как отмечалось выше, подбираемая функция должна быть достаточно проста. Но таких функций существует немало: линейная, гиперболическая, экспоненциальная, логарифмическая, квадратичная и т.д. Какой класс функций выбрать для исследования? Проще всего изобразить точки , , …, на чертеже и проанализировать их расположение. Если они имеют тенденцию располагаться по прямой, то следует искать уравнение прямой с оптимальными значениями a и b. Иными словами, задача состоит в нахождении таких коэффициентов a и b, чтобы сумма квадратов отклонений

была наименьшей.

Если же точки расположены, например, по гиперболе, то заведомо понятно, что линейная функция будет давать плохое приближение. В этом случае ищем наиболее «выгодные» коэффициенты a и b для уравнения гиперболы . То есть те, которые дают минимальную сумму квадратов

.

Обратите внимание, что в обоих случаях речь идёт о функции двух переменных, аргументами которой являются параметры разыскиваемых зависимостей:


 

И по существу нам требуется решить стандартную задачу – найти минимум функции двух переменных. Для этого сначала вычисляют частные производные 1-го порядка. Согласно правилу линейности дифференцировать можно прямо под значком суммы:

 

Составим стандартную систему:


 

Сокращаем каждое уравнение на «2» и разделяем суммы:


 

Перепишем систему в более удобном виде:


 

Теперь приступаем к решению задачи. Координаты точек , , …, нам известны. Суммы , , , находим из решения системы двух линейных уравнений с двумя неизвестными(a и b). Систему решаем, например, методом Крамера, в результате чего получаем стационарную точку . Проверяя достаточное условие экстремума, можно убедиться, что в данной точке функция достигает именно минимума.

Делаем окончательный вывод: функция наилучшим образом приближает экспериментальные точки , , …, , а её график проходит максимально близко к этим точкам.

В традициях эконометрики полученную аппроксимирующую функцию также называют уравнением парной линейной регрессии.

 

 

Источник: https://www.mathprofi.ru/metod_naimenshih_kvadratov.html

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2019-01-11 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: