Линейный коэффициент корреляции r-Пирсона




Коэффициент корреляции Пирсона (r-Пирсона) применяется для исследования взаимосвязи двух переменных, измеренных в метрических шкалах на одной и той же выборке. Он позволяет определить, насколько пропорциональная изменчивость двух переменных.

Данный коэффициент разработали Карл Пирсон, Фрэнсис Эджуорт и Рафаэль Уэлдон в 90-х годах XIX века. Коэффициент корреляции изменяется в пределах от минус единицы до плюс единицы.

Коэффициент корреляции r-Пирсона характеризует существование линейной связи между двумя величинами. Если связь криволинейная то он не будет работать.

Чтобы приступать к расчетам коэффициента корреляции r-Пирсона необходимо выполнение следующих условий:

- Исследуемые переменные X и Y должны быть распределены нормально (что это значит - переменные должны образовывать двумерное нормальное распределение, когда большинство объектов группируются вокруг среднего).

- Исследуемые переменные X и Y должны быть измерены в интервальной шкале или шкале отношений.

- Количество значений в исследуемых переменных X и Y должно быть одинаковым.

При расчете коэффициент линейной корреляции Пирсона используется специальная формула (на уроке не рассматривается). Величина коэффициента корреляции варьируется от 0 до 1. ρ = 0,1 - слабая корреляция; ρ = 0,3 – корреляция средней силы; ρ = 0,5 - сильная корреляция. Слабыми сторонами линейного коэффициента корреляции Пирсона являются: Неустойчивость к выбросам. С помощью коэффициента корреляции Пирсона можно определить только силу линейной взаимосвязи между переменными, другие виды взаимосвязей выявляются методами регрессионного анализа. Две характеристики: – наклон (направление связи) и ширина (сила связи) воображаемого эллипса. Слабее связь – шире эллипс. Примеры ↓→
         

 

На Практической работе № 17 вами были выполнены расчеты корреляционных зависимостей. Работа выполнялась с использованием электронных таблиц LibreOffice Calc. Вспомните порядок выполнения практической работы и те выводы, которые, которые были сделаны Вами (далее в таблице приводится практическая работа № 17)!

Задание 1 Выполнить расчеты корреляционной зависимости успевае­мости учащихся от хозяйственных расходов школы, описанные в § 19 учебника. 1. Заполнить электронную таблицу следующими данными: 2. Построить точечную диаграмму зависимости величин (ее вид показан в учебнике на рис. 6.7). 3. Выполнить статистическую функцию КОРРЕЛ, указав в диалоговом окне диапазоны значений: В2:В21 и С2:С21. 4. Выписать значение коэффициента корреляции. Синтаксис статистической функции: =КОРРЕЛ(массив1;массив2) В нелокализованной версии=CORREL(array1; array2) Выводы: Эта величина говорит о среднем уровне корреляции. Наличие зависимости между хозяйственными затратами школы и успеваемостью нетрудно понять. Ученики с удовольствием ходят в чис­тую, красивую, уютную школу, чувствуют там себя, как дома, и поэтому лучше учатся.
№ п/п Затраты (руб./чел.) Успеваемость (средний балл)
    3,81
    4,13
    4,30
    3,96
    3,87
    4,33
     
    4,21
    4,4
    3,99
    3,9
    4,07
    4,15
    4,1
    3,76
    4,25
    3,88
    4,50
    4,12
    4,32

Результат р = 0,500273843

Задание 2 Выполнить расчеты корреляционных зависимостей успеваемости уча­щихся от обеспеченности учебниками и от обеспеченности компьютера­ми, представленными в следующей таблице: Обеспечение учебного процесса
Номер школы Обеспеченность учебниками (%) Успеваемость (средний балл) Обеспеченность компьютерами (%) Успеваемость (средний балл)
    3,81   3,98
    4,15   4,01
    4,69   4,34
    4,37   4,41
    4,53   3,94
    4,23   3,62
    4,73   4,6
    3,69   4,24
    4,08   4,36
    4,2   3,99
    4,32   4,5
    0,780931   0,572465

Полученные значения коэффициентов корреляции сопоставить с приведенными в § 19 учебника

(Результат ρ = 0,500273843 ρ =0,780931,0,572465)

Выводы: Как видно из таблицы, корреляция между обеспеченностью учебни­ками к успеваемостью сильнее, чем корреляция между компьютерным обеспечением и успеваемостью (хотя и тот, и другой коэффициенты корре­ляции не очень большие). Отсюда можно сделать вывод, что пока еще кни­га остается более значительным источником знаний, чем компьютер.

II. Выполнение практической работы № 18 Данная работа выполняется по рекомендациям, изложенным в учебнике по информатике 11 класс на стр. 215 – 216, задание:

Придумать таблицу парных измерений значений некоторых величин, между которыми существует гипотетическая корреляционная зависимость. Провести анализ этой зависимости на наличие линейной корреляции.

Примерами соответствующих связанных величин могут служить:

• уровень образования (измеренный, например, в годах обучения в целом) и уровень месячного дохода;

• уровень образования и уровень занимаемой должности (для последней придумайте условную шкалу);

• количество компьютеров в школе, приходящихся на одного учащегося, и средняя оценка при тестировании на уровень владения стандартными технологиями обработки информации;

Практикум

• количество часов, затрачиваемых старшеклассниками на выполнение домашних заданий, и средняя оценка;

• количество удобрений, вносимых в почву, и урожайность той или иной сельскохозяйственной культуры.

При этом вы можете идти двумя путями.

Первый, более серьезный и практически полезный: вы не просто придумываете гипотетическую

корреляционную зависимость, но и находите в литературе действительные данные о ней.

Второй путь, более легкий: вы рассматриваете это как игру, необходимую для понимания того, что такое корреляционная зависимость, и выработки технических навыков ее анализа, и придумываете соответствующие

данные, стараясь делать это наиболее правдоподобным образом.

Воспользовавшись рекомендациями, целесообразно обратиться к источникам в открытом доступе, в частности в сети Интернет. Для выполнения задания, как вариант выполнения задания, были загружены научные работы (см. вложение). Для примера ниже представлены решения нескольких задач в MS Excel.

Пример № 1. О сусликах (данный материал может быть использован при выполнении ПР. № 18): Условие задачи: Необходимо проанализировать взаимосвязь между двумя переменными – X и Y. Мы исследуем сусликов. И хотим узнать, как связаны у них масса тела и длина хвоста? Переменные – 1. масса тела; 2. длина хвоста.    
Кличка суслика Длина хвоста, мм Масса тела суслика, г
Дима    
Гриша    
Миша    
Коля    
Федя    
Рома    

 

Решение: В чём смысл корреляции: мы хотим понять, в какой степени две переменные СОВМЕСТНО ИЗМЕНЯЮТСЯ: если суслик очень тяжёлый, значит ли это, что и хвост у него длинный? А может, наоборот, короткий? Корреляции Если значения одной переменной растут, другой – тоже растут? Уменьшаются? Не изменяются? Внутри каждой переменной есть изменчивость – большие и маленькие отклонения от среднего. И надо бы, чтоб коэффициент не зависел от размерности переменных.
Пример № 2. Сравнительная оценка факторов посредством анализа парных коэффициентов корреляции (использованы материалы статьи Н. Б. Громовой «Прогноз объема перевозок грузов по совокупным итогам 2013 и 2014 годов на основе синергетической теории управления»). Дано: Необходимо: Выполнить сравнительную оценку факторов посредством анализа парных коэффициентов корреляции, после чего оценить их значимость. Итоговым показателе Y принят объем перевозок, влияющими факторами приняты Х1, Х2, Х3, Х4, Х5, Х6. Решение: Коэффициенты парной корреляции позволяют установить наличие и характер зависимости между заданными факторами, а также оценить, насколько верно выбранные факторы отражают. Для этого составим матрицу парных коэффициентов корреляции, измеряющих тесноту связи каждого признака Xn с результирующим показателем Y. Используется статистическая функция =КОРРЕЛ(B3:B15;H3:H15)
Объем перевозок грузов - всего, млн т Индекс производства продукции сельского хозяйства, % Индекс промышленного производства, % Средняя дальность перевозок грузов и пассажиров, км Средняя коммерческая скорость товародвижения, км Рентабельность перевозок Производительность подвижного состава, км/сут
  y x1 x2 x3 x4 x5 x6
  10217,6 106,2 108,7 1 153,55   14,2  
  10502,4 106,9 102,9 1 173,21   13,9  
  10721,3 100,9 103,1 1 179,36 395,2    
    99,9 108,9 1 184,80 396,1 14,2  
    102,4   1 163,03   14,9  
  11606,1 101,6 105,1 1 111,46   15,1  
  11821,3   106,3 1 124,54 396,2 17,1  
  12068,8 103,3 106,8 1 098,32   17,2  
  12001,5 110,8 100,6 1 083,07 397,5    
  12302,9 101,4 89,3 1 082,59 387,3 18,6  
  12544,3 88,7 107,3 1 101,10 398,5 19,2  
  11534,8     1 125,00 399,1 22,45  
  11790,5 95,2 103,4 1 123,80 399,1 24,22  
    -0,2688 -0,3500 -0,8524 0,0197 0,5943 0,8755

Наибольшее прямое влияние на объем перевозок имеет производительность подвижного состава (0,8755), наиболее сильное обратное влияние имеет средняя дальность перевозок (-0,8524). Остальные коэффициенты корреляции находятся на уровне средней корреляции. Коэффициент корреляции для Х5 (рентабельность перевозок 0,5943) целесообразно и можно исключить из исследования, т.к. является показатель Х5 сам является производным от прибыли и себестоимости.

Пример № 3. Формирование корреляционной матрицы показателей сельскохозяйственного производства Приморского края(для данной задачи использована статья Е. М. Дроздовой, старшего преподавателя, кафедра управления персоналом и экономики труда, Дальневосточный федеральный университет, г. Владивосток) «Корреляционно-регрессионный анализ показателей сельскохозяйственного производства Приморского края». Дано: Значение показателей сельскохозяйственной отрасли для корреляционно-регрессионного анализа (2005-2011 гг.)
Отчетный период Результирующий показатель Факторный показатель
Труд Земля Капитал
Экстенсивный Интенсивный Экстенсивный Интенсивный Экстенсивный Интенсивный
Млн.руб. Тыс. чел. Млн.руб. /Тыс.чел. Тыс. га Млн.руб. /Тыс.га Млн.руб. Млн.руб./ Млн.руб.
Объем производства в сопоставимых ценах Количество занятых в отрасли Производительность труда (выработка) Посевная площадь, во всех категориях хозяйств Урожайность Объем используемых основных фондов Фондоотдача
  10763,90 81,10 132,72 360,80 29,83 22402,00 0,48
  13603,70 78,40 173,52 350,20 38,85 22195,00 0,61
  12132,20 77,40 156,75 313,30 38,72 26595,00 0,46
  15624,00 76,20 205,04 308,30 50,68 26980,00 0,58
  19755,50 76,20 259,26 348,30 56,72 31720,00 0,62
  21256,70 78,30 271,48 314,00 67,70 33182,00 0,64
  28079,80 76,80 365,62 340,80 82,39 37380,00 0,75

Решение: Для формирования корреляционной матрицы необходимо использовать надстройку MS Excel «Пакет анализа». Если на вкладке «Данные» отсутствует «Анализ данных», необходимо через «Параметры Excel» подключить надстройку «Пакет анализа» (см. шаги 1, 2, 3). Далее выполнить шаг 4 (выбрать «Корреляция»), шаг 5 (выбрать диапазон анализируемых данных). Шаг 6 – получение корреляционной матрицы, формирование выводов.

Шаг 1 Шаг 2
Шаг 3
Шаг 4 Шаг 5
Шаг 6 - Получение результата
     

Шаг 7 – Сделать выводы:

Как видно из данных матрицы, существует достаточно высокая и положительная (прямая) связь показателей производительности труда (0,999), урожайности (0,986),

объема используемых основных фондов (0,949) и фондоотдачи (0,916) с показателем объема производства в сопоставимых ценах.

Учитывая, что анализ производился по статистическим данным сельскохозяйственной отрасли, можно отметить справедливость выявленных взаимосвязей.

Между тем, показатели количества занятых (-0,504) и посевной площади (-0,071) находятся в обратной и умеренной или слабой зависимости с объемом производства

в сопоставимых ценах, что позволяет принять решение об исключении указанных факторов в дальнейшем анализе.

Также стоит указать на обнаруженную высокую тесноту связи между показателями урожайности (0,986), объема используемых основных фондов (0,951), фондоотдачи

(0,914) и показателем производительности труда.

III. Домашнее задание -

1) используя § 19 учебника, конспект урока и любые источники, выполнить два примера ПР № 18, согласно условия (см. синий шрифт).

2) до 09.04.2020 на эл. адрес tihomirov63@mail.ru прислать не менее двух примеров ПР № 18 в формате файлов MS Excel или LibreOffice Calc (рассчитать значения коэффициентов корреляции, сделать выводы).

 

IV. Дополнительный материалы:

https://youtu.be/wGTIjN4KeJs

 

https://youtu.be/xIxFFsQ9Jlo

 

https://youtu.be/Z6_aRLb8RQk

 

https://youtu.be/a_qpWdy-Gxo

 

https://youtu.be/HfNtbxYVBE0

 

https://youtu.be/2e6EStpZwIU

 

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2020-05-08 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: