Рисунок 12.1 «График рассеяния»,показывающий отметки студентов за экзамены и домашние задания. Каждая из десяти точек (xi, yi) указывает отметку студента за домашнее задание xi и за экзамен yi.
(xi, yi),..., (xN,yN) для двух переменных подтверждает гипотезу л линейной зависимостью х и у.
Предположим, что мы получили N пар измеренных значений (xi,yi),..., (xN,yN) двух переменных, которые, как мы ожидаем, должны быть связаны линейной зависимостью вида
у =А+Вх.
Важно заметить, что хi,..., хN в данном случае не результаты измерений лишь одной величины, как это было в случае двух последних разделов; на самом деле это результаты измерений N различных значений одной переменной (например, N различных высот, с которых мы бросали камень). Тоже самое относится и уi,..., уN.
С помщью метода наименьших квадратов мы можем найти значения А и В для линии, которая наилучшим образом аппроксимирует точки (хi,уi),...,(хN, уN). Если у нас есть надежные оценки погрешностей в измерениях, то мы можем видеть, действительно ли измеренные точки лежат разумно близко к линии (по сравнению с известными погрешностями). Если это так, то измерения подтвержждают наше предположение, что х и у связаны линейно.
К сожалению, во многих экспериментах трудно определить надежные оценки погрешностей заранее, и поэтому мы должны использовать исходные данные, чтобы судить, связаны ли две еременные линейно. В частности, имеется такой пример эксперимента, когда невозможно определить величину погрешностей заранее. Этот эксперимент, который более подходит к социальным, чем к физическим, наукам, лучше пояснить на примере.
Представим себе, что профессор, желающий убедить своих студентов в том, что выполнение домашних заданий поможет им хорошо сдать экзамены, собирает сведения об их отметках за домашнее задание и за экзамен и изображает их на «графике разбросов», как покаазано на рисунке 12,1. На этом графике отметки за домашнее задание отложены по горизонтальной оси, а экзамен – по вертикальной. Каждая точка (хi,уi) показывает оценку одного студента за домашнее задание хi и за экзамен yi. профессор надеется показат, что высокие оценки за экзамен коррелируют с высокими отметками за домашенее здание и наоборот (ии его график разбросов определенно подтверждает, что это приблизительно так). В этом примере эксперимента нет никаких погрешностей в точках; две отметки каждого студента известны точно. Погрешность будет скорее в степени, до которой коррелированы отметки, и именно это должно быть определено из данных.
|
Две переменных х и у (в случае любого типичного физического эксперимента или такого, как описанный выше) могут быть, связаны и более сложной зависимостью, чем простая линейная связь вида у =А+Вх. Например, множество физических законов приводит к квадратичной зависимости типа у =А+Вх+Сх2. Тем не менее мы ограничим наше рассмотрение случаем более простой задачи, когда надо решить, подтверждает ли данный набор точек гипотезу о линейной связи у =А+Вх.
Степень, до которой набор точек (хi,уi),...,(хN, уN) подтверждает линейную зависимость между х и у, измеряется коэффициентом линейной корреляции, или просто коэффициентом корреляции
R= σxy / σxσy (12,1)
где смешанный второй момент σxy и стандартные отклонения σx и σy определяются точно так же, как и ранее, формулами (9.8) и (9.4). Подставляя эти определения в (12.1), мы можем переписать выражение для коэффициента корреляции в виде
|
r = Σ(xi - x)(yi - y) / [Σ (xi - x)2 Σ(yi - y)2] 1/2 |
(12,2)
Как мы скоро увидим, число r показывает, насколькоо хорошо точки (хi,уi) аппроксимируются прямой линней. Это число принимает значения между – 1 и 1. Если r близко к±1, то точки лежат вблизи некоторой прямой линии; если r близко к 0, то точки не коррелированы и либо незначительно, либо совсем не группируются около прямой линии.
Чтобы доказать эти утверждения, сначала заметим, что из неравенства Шварца (9,11) | σxy | ≤ σxσy сразу же следует, что | r | ≤1 или
-1 ≤ r ≤ 1,
Как и утверждалось. Далее, предположим, что все точки (хi,уi) лежат точно на линии у =А+Вх. В этом случае уi=А+Вхi для всех i и, следоваельно, у=А+Вх. Вычитая эти два два равенства, мы видим, что
(yi - y)= В(xi - x)
для каждого i. Подставляя полученное выражение в (12,2) находим
r=ВΣ(xi - x)2/[Σ (xi - x)2 В2 Σ(yi - х)2] 1/2 = В/| В |=±1,(12.3)
т.е. если точки (хi,уi),...,(хN, уN) лежат точно на прямой, то r±1, причем знак r определяется наклоном линии (r=1 для положительного В и r= -1 для отрицательного В). Даже если переменных х и у действительно связаны линейной зависимостью, мы не должны ожидать, что экспериментальные точки будут лежать точно на линии.
Таким образом, не следует ожидать, что r точно ±1. С другой стороны, мы действительно должны ожидать, что r близко к±1, если считаем, что х и у связаны линейно.