Коэффициент линейной корреляции Пирсона




Наиболее распространенный коэффициент корреляции. Предназначен для расчета силы и направления линейной зависимости между переменными исследования.

Коэффициент линейной корреляции отражает меру линейной зависимости между двумя переменными. Предполагается, что переменные измерены в интервальной шкале либо в шкале отношений.

В формуле корреляции Пирсона используется среднее арифметическое и стандартное отклонение коррелируемых рядов, а в формуле Спирмена не используется. Таким образом, для получения адекватного результата по формуле Пирсона, необходимо, чтобы коррелируемые ряды были приближены к нормальному распределению (среднее и стандартное отклонение являются параметрами нормального распределения).

(2)

где хi — значения, принимаемые в выборке X,

yi — значения, принимаемые в выборке Y;

— средняя по X, — средняя по Y.

В формуле (2) встречается величина при делении на n (число значений переменной X или Y) она называется ковариацией. Формула (2) предполагает также, что при расчете коэффициентов корреля­ции число значений переменной Х равно числу значений переменной Y.


Полученный коэффициент корреляции проверяется на значимость с помощью таблицы критических значений. Уровень значимости, вычисленный для каждой корреляции, представляет собой главный источник информации о надежности корреляции.

Коэффициент корреляции Пирсона (r) представляет собой меру линейной зависимости двух переменных. Если возвести его в квадрат, то полученное значение коэффициента детерминации (r2) представляет долю вариации, общую для двух переменных (иными словами, "степень" зависимости или связанности двух переменных).

 

 

Пример.

Таблица 1 - Корреляционная зависимость между произведением длинны листьев яблони на их ширину (Х) и площадью листьев (У)

  Номер листа Х У Отклонения от средней Квадраты отклонений ´
2 2
  15,8 7,2 -21,6 -16,8 466,56 282,24 362,88
Б 2 18,8 11,8 -18,6 -12,2 345,96 148,84 226,92
  27,0 18,6 -10,4 -5,4 108,16 29,16 56,16
  28,8 19,1 -8,6 -4,9 73,96 24,01 42,14
  28,8 19,4 -8,6 -4,6 73,96 21,16 39,56
  29,6 19,5 -7,8 -4,5 60,84 20,25 35,1
  32,5 21,6 -4,9 -2,4 24,01 5,76 11,76
  32,8 22,1 -4,6 -1,9 21,16 3,61 8,74
  36,5 23,1 -0,9 -0,9 0,81 0,81 0,81
  38,5 23,2 1,1 -0,8 1,21 0,64 0,88
  39,6 23,6 2,2 -0,4 4,84 0,16 0,88
  39,7 26,5 2,3 2,5 5,29 6,25 5,75
  39,7 27,3 2,3 3,3 5,29 10,89 7,59
  44,5 28,6 7,1 4,6 50,41 21,16 32,66
  46,2 29,3 8,8 5,3 77,44 28,09 46,64
  46,4 29,7 9,0 5,7 81,0 32,49 51,3
  48,0 30,4 10,6 6,4 112,36 40,96 67,84
  49,8 30,8 12,4 6,8 153,76 46,24 84,32
  51,0 34,4 13,6 10,4 184,96 108,16 141,44
  53,9 34,6 16,5 10,6 272,25 112,36 174,9
  37,4 24,0     2124,23 943,24 1398,27

 

Число пар n = 20

 

1. Вычисление коэффициента корреляции (r).

2.Ошибка коэффициента корреляции (Sr).

3. Критерий достоверности коэффициента корреляции (tr).

Теоретическое значение критерия t находят по таблице Стьюдента (приложение 6) при числе степеней свободы υr = n – 2 = 20-2 = 18; t0,95 = 2,1; t0,99 = 2,88. Для выводов о силе корреляционной связи между площадью листьев яблони и произведением их длины на ширину пользуются следующей условной шкалой: если r находится в пределах от 0 до 0,33, то связь слабая, от 0,33 до 0,66 – средняя, от 0,66 до 0,99 – сильная, если r равно 1 – связь полная. Вывод о направлении связи делают по знаку коэффициента корреляции: при знаке «+» корреляция прямая, «-» – обратная.

Выводы

1. Так как коэффициент корреляции r = +0,988, то связь между изучаемыми показателями прямая и сильная, приближающаяся к полной.

2. Критерий достоверности tr (27,07) больше t0,95 и t0,99, следовательно связь достоверна на самых высоких уровнях доверительной вероятности.

Если число пар незначительное, т.е. выборка малочисленна, оценка достоверности коэффициента корреляции по tr искажается. Р. Фишер предложил оценивать достоверность коэффициента корреляции по критерию tz= , где z находят по таблице 6 приложений для определенного значения r. При r = 0,75, n = 8, z = 0,973 tz = 0,973 = 2,21. Число степеней свободы υr= n-2 = 8-2 = 6. Для υz = 6 t0,95 = 2,45, t0,99 = 3,71. Tак как tz меньше t0,95 u t0,99, связь недостоверна.

Оптимизация числа пар для изучения корреляционной связи. Для проведения корреляционного анализа с заданной точностью число пар n можно вычислить по формуле nопт = t - критерий Стьюдента; z - показатель, предложенный Р.Фишером. Для приведенного выше примера фактическое значение n = 8, υr = 6. Для такого чис ла степеней свободы t0,95 = 2,45, а z= 0,973. Тогда: 5. для Р0,95 nопт = =

6. для P0,99 nопт = пар.

Таким образом, для проведения корреляционного анализа на уровне Р0,95 необходимо иметь выборку не из 8, а из 10 пар. На уровне Р0,99 число пар должно быть 18.

 

Регрессионный анализ

Регрессионный анализ проводится при сильной и достоверной связи и любом направлении (прямом или обратном).

После корреляционных и регрессионных анализов составляют уравнения регрессии, которые используют:

1) для вычисления неизвестного показателя по известному, например площади листьев по их длине;

2) для прогнозирования будущего урожая по числу цветков или завязей;

3) для прогнозирования качества урожая по элементам погоды;

4) для прогнозирования распространения вредителей и болезней по внешним условиям;

5) для прогнозирования качества продуктов переработки и их хранения по качеству сырья и т. д.

 

В рассмотренном примере с это целесообразно сделать по произведению длины листа на его ширину, т.е. по значению Х определить площадь листьев Y.

 

Коэффициенты регрессии b имеют размерность, равную отношению размерностей изучаемых показателей X и Y, и тот же знак, что и коэффициент корреляции.

Y = a1 + by/xX

Коэффициенты а определяются по формуле:

2.Ошибка коэффициента регрессии


3. Критерий достоверности коэффициента регрессии


Вычисление значений У для экстремальных (минимальной и максимальной) величин Х и построение теоретической линии регрессии У по Х.

r + t05 · Sr =

bYX + t05 ·Sb

 

Уравнение линейной регрессии имеет вид Y = Ryx (X - ), где y и x – средние арифметические анализируемых вариационных рядов; Х – произведение длины на ширину для листьев, площадь которых надо определить.

см2 на 1 см произведения длины на ширину. Тогда Y = 24,0 + 0,658 (X- 37,4).

Пусть средняя произведения длины на ширину для 30 листьев яблони равна

44,5 см. Подставив это значение в предыдущее уравнение, получим

Y = 24,0 + 0,658 (44,5 – 37,4) = 24,0 + 4,64 = 28,67 см2. Фактическая площадь 14-го листа равна 28,6 см2. Разница между расчетным и фактическим значениями составляет 28,67 – 28,6 = 0,07 см2, или (0,07 100): 28,6 = 0,25 %. Ошибка 0,25 % свидетельствует о достаточно высокой точности определения площади листьев яблони по произведению длины на ширину.

 

 
 

 

 


Задание. Провести корреляционный и регрессионный анализы линейной зависимости

 

1. Вычислите коэффициенты прямолинейной корреляции и регрессии,

2. найдите уравнение регрессии и представьте данные в виде графика.

Задание 1. ПОРАЖЕННОСТЬ КОРНЕВОЙ ГНИЛЬЮ (Х, %)

И УРОЖАЙНОСТЬ ЯРОВОЙ ПШЕНИЦЫ(У, ц/га)

Вариант 1 Вариант 2 Вариант 3 Вариант 4 Вариант 5 Вариант 6
Х У Х У Х У Х У Х У Х У
  34,2   42,1   40,2   42,6   39,1   41,4  
  29,7   38,7   39,4   43,2   42,6   40,1
  35,2   35,2   41,3   43,1   42,4   41,2
  38,0   40,0   38,5   39,8   43,2   38,2
  22,4   37,2   36,6   40,5   33,9   38,6
  17,4   39,4   33,2   41,3   34,5   34,1
  16,0   32,3   38,1   35,2   37,6   35,0
  18,2   25,8   33,8   41,5   38,4   38,7
  25,3   27,2   36,2   40,7   35,2   39,0
  30,0   34,1   31,5   30,2   30,0   31,2
                                             

 

Задание 2. СОДЕРЖАНИЕ ОБМЕННОГО НАТРИЯ В СОЛОНЦЕ

(Х, мг-экв) И ОБЩЕГО ИЛА (У, %).

Вариант 1 Вариант 2 Вариант 3 Вариант 4 Вариант 5 Вариант 6
Х У Х У Х У Х У Х У Х У
15,9 35,0 14,0 36,1 14,9 34,0 17,0 32,3 14,2 36,0 16,0 36,0
22,2 48,8 22,0 48,7 20,2 47,3 22,0 45,6 20,0 50,0 22,0 52,1
14,7 36,9 15,2 37,2 17,1 37,0 14,0 37,2 15,2 36,0 14,0 30,0
25,4 43,7 25,0 40,2 24,4 42,0 25,2 40,8 24,0 42,0 25,2 43,0
11,8 27,7 10,3 28,0 10,4 26,3 11,4 28,0 10,3 25,2 11,5 25,0
18,0 40,6 18,2 41,3 18,0 37,2 19,2 40,5 16,2 45,1 20,0 48,2
8,0 17,3 9,0 16,2 10,1 18,4 8,4 18,4 10,0 17,1 10,0 20,1
18,7 39,6 17,0 37,0 16,9 38,5 18,8 38,2 20,2 38,0 20,3 39,6
4,2 15,4 4,0 15,2 5,3 16,0 6,3 12,1 3,2 15,0 5,0 15,3
14,0 40,0 14,1 40,3 15,5 14,2 13,2 39,0 15,3 40,0 15,2 38,2
4,0 18,1 5,1 17,1 6,1 18,7 5,3 15,2 4,9 15,1 5,0 12,1
11,9 41,6 12,0 40,2 11,0 42,0 10,0 36,0 11,0 20,0 12,1 20,1
3,8 19,3 4,2 17,3 5,0 17,2 4,0 11,3 3,0 14,0 5,6 14,1
5,2 26,1 6,0 24,3 6,3 25,1 6,0 18,4 7,3 18,6 7,0 13,1

 

 

Контрольные вопросы

1. Виды корреляции. Чем измеряется сила и направление связи?

2. Формулы для определения коэффициента корреляции, ошибки и критерия существенности корреляции.

3. Значение корреляционного анализа в опытной работе.

4. В чем суть и значение коэффициента регрессии?

 

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2020-11-04 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: