ЛИНЕЙНАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ
Задача 2.1. В результате исследования взаимосвязи двух показателей (X – торговая площадь продовольственного магазина, кв.м., Y – годовой товарооборот продовольственного магазина, млн. руб.) получены следующие данные:
Торговая площадь продовольственного магазина, кв.м. | Годовой товарооборот продовольственного магазина, млн. руб. |
Методом наименьших квадратов найдите линейную функцию, которая наилучшим образом приближает эмпирические (опытные) данные. Сделайте чертеж, на котором в декартовой прямоугольной системе координат отобразите поле рассеивания и график аппроксимирующей функции.
Решение. Аппроксимирующей будет такая функция, график которой проходит как можно ближе к точкам и при этом является достаточно простой, не «петляя» от точки к точке, и наиболее полно отображает главную тенденцию.
Простейший способ нахождения такой функции опирается на метод нахождения наименьшего отклонения между координатами точек эмпирических данных и координатами точек кривой. Этот метод называется методом наименьших квадратов и основан на решении стандартной задачи – нахождения минимума функции двух переменных (см. Приложение 2).
Рекомендуется для наглядности использовать всю площадь рисунка. |


Как видим, в качестве аппроксимирующей подходит линейная функция . Коэффициенты a и b можно найти, решив систему линейных уравнений (см. Приложение 2):
или после сокращения на п:
(1)
Составим вспомогательную таблицу, куда сведём все промежуточные вычисления.
![]() | ![]() | ![]() | ![]() | ![]() |
![]() | ||||
![]() | ![]() | ![]() | ![]() | ![]() |
Тогда система (1) примет вид:
Решим её методом Крамера:
Откуда:
Теперь можно записать уравнение аппроксимирующей прямой:
.
Построим график данной прямой на вышеприведённой диаграмме рассеивания и убедимся, что он проходит точно через скопление точек. Для построения прямой линии достаточно определить координаты её двух точек (с помощью полученного уравнения). Эти точки желательно брать далеко друг от друга, но в районе диаграммы. Поместим координаты этих двух точек в следующую табличку:
![]() | ||
![]() |
Видим, что построенная прямая линия проходит среди точек диаграммы рассеивания.
(В противном случае имеется ошибка в расчётах и полученные значения следует пересчитать!)
Задача 2.2. В результате проведенного исследования по 10 предприятиям фирмы получены следующие данные:
№ пред- приятия | Выработка продукции на одного рабочего, тыс. руб. | Объем произведенной продукции, тыс. руб. |
Итого |
1) Найти уравнение регрессии зависимости выработки рабочего от объема производительности труда. 2) Определить степень связи между размером основных фондов и выпуском продукции на один завод. 3) Проверить статистическую значимость при _________.
Решение.
1) По приведённым эмпирическим данным построим диаграмму рассеивания: по оси абсцисс откладываем значения признака Х, по оси ординат откладываем значения
признака Y. Точки
на координатной плоскости и образуют диаграмму рассеивания.
Вид диаграммы рассеивания позволяет сделать вывод о наличии линейной зависимости значений Y от значений X. Аналитически эту связь будет отображать уравнение вида
. (2)
называемое (в данном случае) уравнением парной линейной регрессии Y на X.
Коэффициенты a и b можно найти методом наименьших квадратов, решив систему линейных уравнений (1):
Составим вспомогательную таблицу, куда сведём все промежуточные вычисления.
![]() | ![]() | ![]() | ![]() | ![]() |
![]() | ||||
![]() | ![]() | ![]() | ![]() | ![]() |
Тогда система (1)примет вид:
Решим её методом Крамера:
Откуда
Записываем уравнение парной линейной регрессии Y на X: .
Построим график данной прямой на вышеприведённой диаграмме рассеивания и убедимся, что он проходит точно через скопление точек. Определяем координаты двух точек (из области диаграммы):
![]() | ||
![]() |
Убеждаемся в том, что построенная прямая линия проходит среди точек диаграммы рассеивания (!).
В уравнении 2 коэффициент а называется выборочным коэффициентом регрессии Y на X, и, обычно, обозначается, как . Коэффициент регрессии показывает интенсивность влияния факторов на результативный показатель (как в среднем изменится результативный признак Y, если факторный признак X увеличится на единицу).
В нашем случае _______. Таким образом, увеличение выработки продукции на одного рабочего (X) на 1 тыс. руб. приведёт к увеличению объема произведенной продукции (Y) на _____________ тыс. руб.
2) Степень (тесноту) связи между размером основных фондов и выпуском продукции на один завод определим с помощью линейного коэффициента корреляции (коэффициента корреляции Пирсона):
. (2)
Как видно из формулы, для его вычисления нам понадобится найти групповые дисперсии и
.
Составим очередную вспомогательную расчётную таблицу.
![]() | ![]() | ![]() | ![]() | ![]() | ![]() |
![]() | |||||
![]() | ![]() | ![]() | ![]() | ![]() | ![]() |
Тогда:
_______________
_______________
Находим средние квадратические отклонения:
_____________,
______________
Следовательно, линейный коэффициент корреляции будет равен:
(Будьте внимательны, выборочный коэффициент корреляции по модулю не может быть больше 1!)
Проверим правильность вычисления через связь между коэффициентами корреляции и регрессии:
. (3)
Как видим, при подстановке всех найденных значений равенство (3) превращается в тождество:
_______ _________
Выборочный коэффициент корреляции характеризует тесноту линейной связи между случайными величинами X и Y. Для оценки тесноты связи признаков X и Y пользуются шкалой Чеддока:
Диапазон ![]() | до 0,3 | 0,3 ![]() | 0,5 ![]() | 0,7 ![]() | выше 0,9 |
Теснота связи X и Y | слабая | умеренная | заметная | высокая | весьма высокая |
В нашей задаче =_____, поэтому теснота связи X и Y _______________.
3) Проверим статистическую значимость коэффициента корреляции, то есть оценим, насколько выбранная линейная форма регрессии соответствует, то есть адекватна, выборочным данным.
Для данной проверки используем критерий Стьюдента:
,
где n – объём выборки, а случайная величина t распределена по закону Стьюдента с числом степеней свободы (число степеней свободы равно числу классов вариационного ряда минус число условий, при которых он был сформирован).
Вычисляем эмпирическое значение критерия:
По таблице критических точек распределения Стьюдента (приложение 1) по заданному уровню значимости α = ______ и числу степеней свободы ________ находим критическую точку
_________.
Получили:
1) , выборочный коэффициент корреляции незначим, а X (выработка продукции на одного рабочего) и Y (объем произведенной продукции) некоррелированы, т.е. не связаны линейной зависимостью. Следовательно, прямая регрессии не адекватна выборочным данным и следует подобрать более подходящую форму регрессии.
2) , выборочный коэффициент корреляции значим, а X (выработка продукции на одного рабочего) и Y (объем произведенной продукции) коррелированы, т.е. связаны линейной зависимостью. Следовательно, прямая регрессии адекватна выборочным данным.
(ненужное зачеркнуть!)
Приложение 1
Критические точки распределения Стьюдента.
В таблице приведены значения в зависимости от числа степеней свободы и доверительной вероятности P (уровня значимости a = 1 – P).
k | Доверительная вероятность (надёжность) P | |||||||
0.80 | 0.90 | 0.95 | 0.98 | 0.99 | 0.995 | 0.998 | 0.999 | |
3.0770 | 6.3130 | 12.7060 | 31.820 | 63.656 | 127.656 | 318.306 | 636.619 | |
1.8850 | 2.9200 | 4.3020 | 6.964 | 9.924 | 14.089 | 22.327 | 31.599 | |
1.6377 | 2.35340 | 3.182 | 4.540 | 5.840 | 7.458 | 10.214 | 12.924 | |
1.5332 | 2.13180 | 2.776 | 3.746 | 4.604 | 5.597 | 7.173 | 8.610 | |
1.4759 | 2.01500 | 2.570 | 3.649 | 4.0321 | 4.773 | 5.893 | 6.863 | |
1.4390 | 1.943 | 2.4460 | 3.1420 | 3.7070 | 4.316 | 5.2070 | 5.958 | |
1.4149 | 1.8946 | 2.3646 | 2.998 | 3.4995 | 4.2293 | 4.785 | 5.4079 | |
1.3968 | 1.8596 | 2.3060 | 2.8965 | 3.3554 | 3.832 | 4.5008 | 5.0413 | |
1.3830 | 1.8331 | 2.2622 | 2.8214 | 3.2498 | 3.6897 | 4.2968 | 4.780 | |
1.3720 | 1.8125 | 2.2281 | 2.7638 | 3.1693 | 3.5814 | 4.1437 | 4.5869 | |
1.363 | 1.795 | 2.201 | 2.718 | 3.105 | 3.496 | 4.024 | 4.437 | |
1.3562 | 1.7823 | 2.1788 | 2.6810 | 3.0845 | 3.4284 | 3.929 | 4.178 | |
1.3502 | 1.7709 | 2.1604 | 2.6503 | 3.1123 | 3.3725 | 3.852 | 4.220 | |
1.3450 | 1.7613 | 2.1448 | 2.6245 | 2.976 | 3.3257 | 3.787 | 4.140 | |
1.3406 | 1.7530 | 2.1314 | 2.6025 | 2.9467 | 3.2860 | 3.732 | 4.072 | |
1.3360 | 1.7450 | 2.1190 | 2.5830 | 2.9200 | 3.2520 | 3.6860 | 4.0150 | |
1.3334 | 1.7396 | 2.1098 | 2.5668 | 2.8982 | 3.2224 | 3.6458 | 3.965 | |
1.3304 | 1.7341 | 2.1009 | 2.5514 | 2.8784 | 3.1966 | 3.6105 | 3.9216 | |
1.3277 | 1.7291 | 2.0930 | 2.5395 | 2.8609 | 3.1737 | 3.5794 | 3.8834 | |
1.3253 | 1.7247 | 2.08600 | 2.5280 | 2.8453 | 3.1534 | 3.5518 | 3.8495 | |
1.3230 | 1.7200 | 2.0790 | 2.5170 | 2.8310 | 3.1350 | 3.5270 | 3.8190 | |
1.3212 | 1.7117 | 2.0739 | 2.5083 | 2.8188 | 3.1188 | 3.5050 | 3.7921 | |
1.3195 | 1.7139 | 2.0687 | 2.4999 | 2.8073 | 3.1040 | 3.4850 | 3.7676 | |
1.3178 | 1.7109 | 2.0639 | 2.4922 | 2.7969 | 3.0905 | 3.4668 | 3.7454 | |
1.3163 | 1.7081 | 2.0595 | 2.4851 | 2.7874 | 3.0782 | 3.4502 | 3.7251 | |
1.315 | 1.705 | 2.059 | 2.478 | 2.778 | 3.0660 | 3.4360 | 3.7060 | |
1.3137 | 1.7033 | 2.0518 | 2.4727 | 2.7707 | 3.0565 | 3.4210 | 3.6896 | |
1.3125 | 1.7011 | 2.0484 | 2.4671 | 2.7633 | 3.0469 | 3.4082 | 3.6739 | |
1.3114 | 1.6991 | 2.0452 | 2.4620 | 2.7564 | 3.0360 | 3.3962 | 3.8494 | |
1.3104 | 1.6973 | 2.0423 | 2.4573 | 2.7500 | 3.0298 | 3.3852 | 3.6460 | |
1.3080 | 1.6930 | 2.0360 | 2.4480 | 2.7380 | 3.0140 | 3.3650 | 3.6210 | |
1.3070 | 1.6909 | 2.0322 | 2.4411 | 2.7284 | 3.9520 | 3.3479 | 3.6007 | |
1.3050 | 1.6883 | 2.0281 | 2.4345 | 2.7195 | 9.490 | 3.3326 | 3.5821 | |
1.3042 | 1.6860 | 2.0244 | 2.4286 | 2.7116 | 3.9808 | 3.3190 | 3.5657 | |
1.303 | 1.6839 | 2.0211 | 2.4233 | 2.7045 | 3.9712 | 3.3069 | 3.5510 | |
1.320 | 1.682 | 2.018 | 2.418 | 2.6980 | 2.6930 | 3.2960 | 3.5370 | |
1.301 | 1.6802 | 2.0154 | 2.4141 | 2.6923 | 3.9555 | 3.2861 | 3.5258 | |
1.300 | 1.6767 | 2.0129 | 2.4102 | 2.6870 | 3.9488 | 3.2771 | 3.5150 | |
1.299 | 1.6772 | 2.0106 | 2.4056 | 2.6822 | 3.9426 | 3.2689 | 3.5051 | |
1.298 | 1.6759 | 2.0086 | 2.4033 | 2.6778 | 3.9370 | 3.2614 | 3.4060 | |
1.2958 | 1.6706 | 2.0003 | 2.3901 | 2.6603 | 3.9146 | 3.2317 | 3.4602 | |
1.2938 | 1.6689 | 1.9944 | 2.3808 | 2.6479 | 3.8987 | 3.2108 | 3.4350 | |
1.2820 | 1.6640 | 1.9900 | 2.3730 | 2.6380 | 2.8870 | 3.1950 | 3.4160 | |
1.2910 | 1.6620 | 1.9867 | 2.3885 | 2.6316 | 2.8779 | 3.1833 | 3.4019 | |
1.2901 | 1.6602 | 1.9840 | 2.3642 | 2.6259 | 2.8707 | 3.1737 | 3.3905 |
Приложение 2.
Метод наименьших квадратов
Пусть в некоторой предметной области исследуются показатели X и Y, которые имеют количественное выражение. При этом есть все основания полагать, что показатель Y зависит от показателя X.
Предположим, что после проведения п наблюдений получены следующие числовые данные:
X | ![]() | ![]() | … | ![]() |
Y | ![]() | ![]() | … | ![]() |
Эти табличные данные также можно представить в виде точек ,
, …,
и изобразить в декартовой системе координат XОY. Требуется подобрать функцию
, график которой проходит как можно ближе к точкам.
,
, …,
. Такую функцию называют аппроксимирующей (аппроксимация – приближение) или теоретической функцией. При этом разыскиваемая функция должна быть достаточно проста, т.е. легка в обработке, и в то же время должна отражать зависимость адекватно.
Один из методов нахождения таких функций называется методом наименьших квадратов. Его суть заключается в следующем. Пусть некоторая функция приближает экспериментальные данные
,
, …,
:
Как оценить точность данного приближения? Вычислим значения функции ,
, …,
и разности (отклонения)
,
, …,
между экспериментальными и функциональными значениями и оценим сумму этих отклонений. При этом, во избежание обнуления сумы из-за наличия отрицательных отклонений, будем возводить их в квадрат:
, после чего будем искать такую функцию
, чтобы сумма квадратов отклонений
была как можно меньше.
Как отмечалось выше, подбираемая функция должна быть достаточно проста. Но таких функций существует немало: линейная, гиперболическая, экспоненциальная, логарифмическая, квадратичная и т.д. Какой класс функций выбрать для исследования? Проще всего изобразить точки ,
, …,
на чертеже и проанализировать их расположение. Если они имеют тенденцию располагаться по прямой, то следует искать уравнение прямой
с оптимальными значениями a и b. Иными словами, задача состоит в нахождении таких коэффициентов a и b, чтобы сумма квадратов отклонений
была наименьшей.
Если же точки расположены, например, по гиперболе, то заведомо понятно, что линейная функция будет давать плохое приближение. В этом случае ищем наиболее «выгодные» коэффициенты a и b для уравнения гиперболы . То есть те, которые дают минимальную сумму квадратов
.
Обратите внимание, что в обоих случаях речь идёт о функции двух переменных, аргументами которой являются параметры разыскиваемых зависимостей:
И по существу нам требуется решить стандартную задачу – найти минимум функции двух переменных. Для этого сначала вычисляют частные производные 1-го порядка. Согласно правилу линейности дифференцировать можно прямо под значком суммы:
Составим стандартную систему:
Сокращаем каждое уравнение на «2» и разделяем суммы:
Перепишем систему в более удобном виде:
Теперь приступаем к решению задачи. Координаты точек ,
, …,
нам известны. Суммы
,
,
,
находим из решения системы двух линейных уравнений с двумя неизвестными(a и b). Систему решаем, например, методом Крамера, в результате чего получаем стационарную точку
. Проверяя достаточное условие экстремума, можно убедиться, что в данной точке функция
достигает именно минимума.
Делаем окончательный вывод: функция наилучшим образом приближает экспериментальные точки
,
, …,
, а её график проходит максимально близко к этим точкам.
В традициях эконометрики полученную аппроксимирующую функцию также называют уравнением парной линейной регрессии.
Источник: https://www.mathprofi.ru/metod_naimenshih_kvadratov.html