Корреляционный анализ
Понятие корреляции
Корреляционный анализ – статистический метод оценки формы, знака и тесноты связи исследуемых признаков или факторов. Это проверка гипотез о связях между переменными с использованием коэффициентов корреляции.
Коэффициент корреляции – это количественное выражение тесноты связи между признаками. Это величина, которая может варьировать в пределах от +1 до -1. В случае полной положительной корреляции этот коэффициент равен плюс 1, а при полной отрицательной — минус 1.
Корреляция – мера согласованности одного признака с другим, с несколькими, либо взаимная согласованность группы признаков.
Корреляционные методы получили свое название благодаря тому, что основываются на «со-отношении» (от лат. correlatio) переменных. Начало корреляционным методам было положено в работах К.Пирсона примерно в конце XIX в. Корреляция тесно связана с понятием регрессии, сформулированным еще Ф.Гальтоном, который первым начал статистически изучать связь между ростом отцов и сыновей. Именно Гальтон нанял Пирсона в качестве статистика для обработки результатов исследований, которые он и его отец, находясь под влиянием идей Ч.Дарвина, проводили с целью определения вклада наследственности в развитие человеческих качеств. Благодаря этому сотрудничеству между Гальтоном и Пирсоном и более ранним открытиям первого в области регрессионного анализа символ «r » (первая буква слова regression) исторически закрепился в качестве маркера корреляционных методов.
Существуют различные виды и формы связи признаков. По характеру зависимости признаков различают:
§ функциональную (полную) связь;
§ корреляционную (неполную) связь.
|
При функциональных связях каждому значению одной переменной соответствует только одно значение другой переменной, что особенно характерно для точных наук. Однако даже в физических экспериментах эмпирическая связь будет отличаться от функциональной связи в силу неучтенных или неизвестных причин: колебаний состава материала, погрешность измерения и т.п.
В психологии, как и во многих других науках, при изучении взаимосвязи признаков из поля зрения исследователя неизбежно выпадает множество возможных причин изменчивости признаков. В результате, даже существующая в реальности функциональная связь между переменными (рост и вес) выступает эмпирически как вероятностная (стохастическая) - статистическая.
Особенностью статистических связей является то, что каждому значению одной переменной может соответствовать множество значений другой переменной, то есть некоторый диапазон значений. Например, одному и тому же росту разных людей может соответствовать различный их вес, и наоборот. Такая связь называется корреляционной.
Сила, направление и надежность
Корреляционной связи
Коэффициент корреляции показывает сразу два параметра статистической связи – ее направление и тесноту. Направление связи может быть положительным, когда увеличение одной переменной связано с увеличением другой переменной и отрицательным, когда увеличение одной переменной связано с уменьшением другой.Если направление изменения одной переменной не меняется с увеличением (уменьшением) другой переменной, то такая связь называется монотонной.
|
Коэффициент корреляции всегда находится в пределах от – 1 до +1. При этом, если он оказывается положительным, то говорят о положительной корреляции между двумя переменными, а если отрицательным – то, соответственно об отрицательной.
Абсолютное значение коэффициента корреляции показывает тесноту или степень выраженности такой связи (силу связи). Связи между признаками могут быть слабыми и сильными. Количественные критерии оценки тесноты связи (шкала Чеддока) представлены в таблице.
Величина коэффициента корреляции | 0,1– 0,3 | 0,3 – 0,5 | 0,5 – 0,7 | 0,7 – 0,9 | 0,9 –1,0 |
Характеристика силы связи | слабая | умеренная | заметная | высокая | весьма высокая |
средняя | сильная |
При коэффициенте корреляции равном нулю признается отсутствие связи, но даже тогда, когда он оказывается больше нуля, еще не следует делать вывод о наличии корреляционной связи. О связи между двумя переменными можно говорить лишь в том случае, если значение коэффициента корреляции оказывается выше критического для соответствующего числа наблюдений.
Надежность (достоверность) связи определяется p-уровнем статистической значимости (чем меньше р-уровень, тем выше статистическая значимость, достоверность связи).
Основная проверяемая статистическая гипотеза в отношении коэффициента корреляции является ненаправленной и содержит утверждение о равенстве корреляции нулю в генеральной совокупности: H0: rxy= 0. При ее отклонении принимается альтернативная гипотеза: H1: rxy¹0 о наличии положительной или отрицательной корреляции между переменными в зависимости от знака.
|
Если по результатам статистической проверки H0: rxy=0 не отклоняется на уровне a, то вывод – связь между переменными не обнаружена; если H0: rxy=0 отклоняется на уровне a то вывод – обнаружена положительная (отрицательная) связь между x и y.
Теперь рассмотрим, отчего зависит уровень значимости коэффициента корреляции. В каких случаях коэффициент будет значимым?
Статистическая значимость коэффициента корреляции тем выше (р-уровень меньше), чем больше его абсолютная величина (при одном и том же объеме выборки), и чем больше объем выборки (при одном и том же значении корреляции).
При большой численности выборки (порядка 100 и больше) даже слабые связи могут достигать статистической значимости. И наоборот, при малом объеме выборки даже сильная корреляция может оказаться недостоверной.
По форме – зависимость может быть линейной и нелинейной (криволинейной).
Рисунок 16 - Формы корреляционной связи.
Виды коэффициентов корреляции
К настоящему времени разработано множество различных коэффициентов корреляции, нашедших свое применение в тех или иных исследовательских задачах. То, какой коэффициент корреляции следует использовать, зависит от того, в какой шкале представлены переменные, связи между которыми изучаются, и от характера этой связи (монотонность, линейность). Так, наиболее распространенные и незаменимые коэффициенты корреляции r-Пирсона, ρ-Спирмена и τ-Кендалла используются тогда, когда изучаемые признаки измерены в количественной шкале – порядковой или метрической.
Кроме коэффициентов корреляции Пирсона, Спирмена и Кендалла существуют и другие меры связи, которые применяются в зависимости от того, в каких шкалах были измерены переменные: коэффициент сопряженности Пирсона, φ-коэффициент сопряженности для бинарных переменных, рангово-бисериальный и точечно-бисериальный коэффициенты корреляции.
В таблице 1 приведены все варианты соотношений измерительных шкал и соответствующих им коэффициентов корреляции.
Таблица 1
Соотношения типов шкал