Кореляционная связь между признаками




30Кореляционый анализ. измерение статистической взаимозависимости между двумя или более переменными. В случае, если исследуется связь двух переменных, корреляционный анализ будет парным; если число переменных более двух — множественным.

Следует подчеркнуть, что переменные в корреляционном анализе как бы «равноправны» — они не делятся на зависимые и независимые (объясняемые и объясняющие). Мы рассматриваем именно взаимозависимость (взаимосвязь) переменных, а не влияние одной из них на другую.

Понятие «корреляционный анализ» фактически объединяет несколько методов анализа статистической связи. В фокусе нашего внимания будет находиться наиболее распространенный из них — метод Пирсона (Реагзоп). Его применение ограничено следующими условиями:

•переменные должны быть измерены, как минимум, на интервальном уровне;

• связь между переменными должна носить линейный характер, т. е. фиксироваться прямой линией. При наличии нелинейной связи корреляционный анализ Пирсона, скорее всего, не даст ее адекватного отображения;

•анализируемые переменные должны быть распределены нормально (или, во всяком случае, приближаться к нормальному распределению).

Корреляционный анализ фиксирует две характеристики статистической взаимосвязи между переменными:

• направленность связи. Как уже говорилось, по направленности связь бывает прямая (положительная) и обратная (отрицательная);

• интенсивность (плотность, теснота) связи. Эта характеристика определяет наши возможности по предсказанию значений одной переменной на основании значений другой.
31Задачи кореляционого анализа 1.Изменение степени связности (тесноты, силы, строгости, интенсивности) двух и более явлений. Корреляционный анализ может служить также инструментом для обнаружения еще не известных связей.

2. Отбор фактов, оказывающих наиболее существенное влияние на результативный признак, на основании измерения степени связанности между явлениями. Отобранные факторы используют для дальнейшего анализа.

3. Обнаружение неизвестных причинных связей. Корреляция непосредственно не выявляет причинных связей между явлениями, но устанавливает степень необходимости этих связей и достоверность суждения об их наличии.

41 кореляционые отношения В случае наличия линейной или нелинейной зависимости между двумя признаками для измерения тесноты связи применяют корреляционное отношение. Различают эмпирическое и теоретическое корреляционное отношение. Эмпирическое корреляционное отношение рассчитывается по данным группировки.

При отклонении парной статистической зависимости от линейной коэффициент корреляции теряет свой смысл как характеристика тесноты связи. В этом случае можно воспользоваться таким измерителем связи, как индекс корреляции (корреляционное отношение). Корреляционное отношение применяется в случае нелинейной зависимости между признаками и определяется через отношение межгрупповой дисперсии к общей дисперсии.

Для определения эмпирического корреляционного отношения совокупность значений результативного признака У разбивают на отдельные группы. В основу группировки кладется исследуемый фактор Х. Когда изучаемая совокупность (в виде корреляционной таблицы) разбивается на группы по одному (факторному) признаку Х, то для каждой из этих групп можно вычислить соответствующие групповые средние результативного признака. Изменение групповых средних от группы к группе свидетельствует о наличии связи результативного признака с факторным признаком, а примерное равенство групповых средних – об отсутствии связи. Следовательно, чем большую роль в общем изменении результативного признака играет изменение групповых средних (за счет влияния факторного признака), тем сильнее влияние этого признака.

Методика вычисления корреляционного отношения состоит в следующем.

Пусть группирование данных произведено, при этом k – число интервалов группирования по оси Х; — количество элементов выборки в j-ом интервале группирования; n – объем совокупности (); — общее среднее.

Вычисляют среднее значение Y в j-ой группе (интервале группирования):

(6),

где – l -ый элемент j -ой группы.

Вычисляют общую среднюю Y, используя средние значения в каждой группе:

(7)

Определяют межгрупповую дисперсию (дисперсия групповых средних или факторная дисперсия — дисперсия теоретических значений результативного признака, отражает влияние фактора х на вариацию у) и общую дисперсию:

(8, 9)

Рассчитывают корреляционное отношение η зависимой переменной Y по независимой переменной Х может быть получено из отношения межгрупповой дисперсии к общей дисперсии:

(10)

По правилу сложения дисперсий:

(11)

где – остаточная дисперсия эмпирических значений результативного признака, отражает влияние на вариацию у всех остальных факторов, кроме х.

Эмпирическое корреляционное отношение рассчитывается по формуле:

где – средняя из частных (групповых дисперсий);

– общая дисперсия;

– межгрупповая дисперсия (дисперсия групповых средних).

Теоретическое корреляционное отношение определяется по формуле:

где – дисперсия выровненных значений результативного признака, т.е. рассчитанных по уравнению регрессии;

– дисперсия эмпирических (фактических) значений результативного признака;

– остаточная дисперсия.

Величина корреляционного отношения изменяется от 0 до 1. Близость ее к нулю говорит об отсутствии связи, близость к единице – о тесноте связи.

40Множественный коэффициент корреляции трех переменных – это показатель тесноты линейной связи между одним из признаков (буква индекса перед тире) и совокупностью двух других признаков (буквы индекса после тире):

 

Эти формулы позволяют легко вычислить множественные коэффициенты корреляции при известных значениях коэффициентов парной корреляции rxy, rxz и ryz.

Коэффициент R не отрицателен и всегда находится в пределах от 0 до 1. При приближении R к единице степень линейной связи трех признаков увеличивается. Между коэффициентом множественной корреляции, например Ry-xz, и двумя коэффициентами парной корреляции ryx и ryz существует следующее соотношение: каждый из парных коэффициентов не может превышать по абсолютной величине Ry-xz.

Квадрат коэффициента множественной корреляции R2 называется коэффициентом множественной детерминации. Он показывает долю вариации зависимой переменной под воздействием изучаемых факторов.

Значимость множественной корреляции оценивается по
F –критерию:

где:

n – объем выборки,

k – число признаков; в нашем случае k = 3.

Теоретическое значение F –критерия берут из таблицы приложений для ν1 = k –1 и ν2 = n–k степеней свободы и принятого уровня значимости. Нулевая гипотеза о равенстве множественного коэффициента корреляции в совокупности нулю (H0:R = 0) принимается, если Fфакт. <Fтабл . и отвергается, если Fфакт.≥ Fтабл.

39 Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при устранении влияния других факторов, включенных в модель.

Частные показатели корреляции широко используются при отборе факторов, когда необходимо оценить целесообразность включения того или иного фактора в уравнение множественной регрессии. Кроме того, они позволяют ранжировать факторы по тесноте их связи с результатом.

Показатели частной корреляции представляют собой отношение сокращения остаточной дисперсии за счет включения в анализ нового фактора к остаточной дисперсии, имевшей место до введения его в модель.

В общем виде частный коэффициент корреляции, измеряющий влияние на у фактора хi при неизменном уровне других факторов, можно определить по формуле:

,

где - коэффициент множественной детерминации для модели с полным набором факторов;

- тот же показатель, но без введения в модель фактора xi.

При i=1 формула примет вид:

(слайд 7) Коэффициенты частной корреляции могут быть первого, второго, третьего и т.д. порядка. Это зависит от того, влияние скольких факторов элиминируется.

Частная корреляция первого порядка – когда фиксируется теснота связи двух переменных при устранении влияния одного фактора: (точка отделяет фактор, значение которого элиминируется (закрепляется на неизменном уровне)).

38 Вычисление коэфициентакореляции

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-02-13 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: