Модуль Basic Statistics/Tables ИС STATISTICA

ЛАБОРАТОРНАЯ РАБОТА № 10

ИНТЕГРИРОВАННАЯ СИСТЕМА STATISTICA.

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ ЭКОНОМИЧЕСКОЙ ИНФОРМАЦИИ

Цель работы: Приобрести практические навыки проведения корреляционного анализа с помощью специализированных модулей интегрированной системы (ИС) STATISTICA.

ТЕОРЕТИЧЕСКАЯ ЧАСТЬ

Общие сведения

Совокупность методов оценки корреляционных характеристик и проверка статистических гипотез о них по выборочным данным называется корреляционным анализом. В корреляционном анализе используются следующие основные приемы:

1) построение корреляционного поля (диаграммы рассеяния) для двух экономических показателей или двумерных сечений, если речь идет о большем их количестве;

2) определение выборочных коэффициентов корреляции или составление корреляционных матриц;

3) проверка статических гипотез о значимости связи между показателями.

Коэффициент корреляции оценивает тесноту связи между исследуемыми переменными и является мерой линейной зависимости величин.

Если оценивается связь между двумя любыми количественными переменными, используется парный коэффициент корреляции. Для оценки тесноты связи между результирующим показателем и совокупностью входных факторов используется множественный коэффициент корреляции. Для оценки тесноты связи между качественными (порядковыми) переменными используется ранговый коэффициент корреляции.

Этот коэффициент, всегда обозначаемый латинской буквой r, может принимать значения между -1 и +1, причём если значение находится ближе к 1, то это означает наличие сильной связи, а если ближе к 0, то слабой.

Если коэффициент корреляции отрицательный, это означает наличие противоположной связи: чем выше значение одной переменной, тем ниже значение другой. Сила связи характеризуется также и абсолютной величиной коэффициента корреляции. Для словесного описания величины коэффициента корреляции используются следующие градации (см. таблица 10.1).

Таблица 10.1. Градации коэффициента корреляции

Значение	Интерпретация
до 0,2	Очень слабая корреляция
до 0,5	Слабая корреляция
до 0,7	Средняя корреляция
до 0,9	Высокая корреляция
свыше 0,9	Очень высокая корреляция

Ориентировочно определить величину коэффициента корреляции можно, анализируя диаграмму рассеяния. Чем теснее расположены точки относительно некоторой прямой, тем больше по абсолютной величине он стремится к единице, и наоборот, чем более расплывчата диаграмма рассеяния, тем ближе к нулю коэффициент корреляции.

Модуль Basic Statistics/Tables ИС STATISTICA

Статистические процедуры системы STATISTICA сгруппированы в нескольких специализированных статистических модулях. В каждом модуле можно выполнить определенный способ обработки данных, не обращаясь к процедурам из других модулей.

Работа в системе STATISTICA начинается обычно с модуля BasicStatistics / Tables (Основные статистики/Таблицы). С его помощью можно провести предварительную обработку данных, осуществить разведочный анализ данных, определить зависимости между ними, разбить их различными способами на группы, просмотреть эти группы визуально и определить взаимосвязи между данными. Этот статистический модуль включает в себя различные группы статистических процедур, реализующих методы разведочного статистического анализа. Система может вычислить практически все описательные статистики, включая медиану, моду, квартили, средние и стандартные отклонения, доверительные интервалы для среднего, коэффициенты асимметрии, эксцесса (с их стандартными ошибками), гармоническое и геометрическое среднее, а также многие другие описательные статистики. Широкий выбор графиков позволяет проиллюстрировать проведенный разведочный анализ данных.

Подраздел Корреляциивключает большое количество средств, позволяющих исследовать зависимости между переменными. Возможно вычисление практически всех общих мер зависимости, включая коэффициент корреляции Пирсона, коэффициент ранговой корреляции Спирмена, коэффициент сопряженности признаков и многие другие. Корреляционные матрицы могут быть вычислены и для данных с пропусками, используя специальные методы обработки пропущенных значений.

ПРАКТИЧЕСКАЯ ЧАСТЬ

Задание 1. Проанализировать показатели хозяйственной деятельности предприятий легкой промышленности [7]. Построить корреляционную матрицу, дать графическую интерпретацию результатов. В качестве исходных данных использовать данные из таблицы П1 Приложения 1.

Y1 – производительность труда, млн. руб.;

X1 – трудоёмкость единицы продукции, час.;

X2 – удельный вес рабочих в составе ППП;

X3 – удельный вес комплектующих изделий;

X4 – коэффициент сменности оборудования;

X5 – премии и вознаграждения на одного работника, млн. руб.;

X6 – удельный вес потерь от брака в себестоимости продукции, %;

X7 – фондоотдача, руб.;

X8 – среднесписочная численность ППП;

X9 – среднегодовая стоимость ОПС, млрд. руб.;

X10 – фонд з/п ППП, млн. руб.;

X11 – фондовооруженность труда, млн. руб.;

X12 – оборачиваемость нормируемых оборотных средств;

X13 – оборачиваемость ненормируемых оборотных средств;

X14 – непроизводительные расходы.

Проведем корреляционный анализ переменных X1, X3, X7.

Для проведения корреляционного анализа необходимо выбрать модуль Basic Statiatics/Tables и далее пункт Correlation matrices (Корреляционные матрицы).

В появившемся окне Pearson Product-Moment Correlation (Корреляция Пирсона) (рис.10.1), нажав кнопку Twolists(Двасписка), следует определить, какие переменные будут находиться в строках (First variable list) – это переменные X1, X3, X7 и в столбцах (Second variable list) – это переменная Y (рис.10.2).

Рис. 10.1– Окно Pearson Product-Moment Correlation

Для подтверждения выбора и возврата в окно Pearson Product-Moment Correlation нажать ОК.

Рис.10.2 – Окно Select one or two variable list

В окне Pearson Product-Moment Correlationтакжеследует нажать кнопку ОК. На экране появится корреляционная матрица (рис.10.3).

Рис.10.3 – Корреляционная матрица

В этой матрице имеется только один столбец, так как во втором списке мы выбрали только одну переменную. В столбце даны коэффициенты корреляции между переменными Y и X1, X3, X7. Красным цветом автоматически выделены коэффициенты, значимые на уровне p<0,05. Именно на эти коэффициенты следует обратить наибольшее внимание. В рассматриваемом примере переменная Y наиболее зависима от переменных X1 (коэффициент корреляции -0,82) и X3 (коэффициент корреляции 0,64).

Чтобы построить корреляционную матрицу, отражающую тесноту связи между всеми переменными, следует в окне Pearson Product-Moment Correlationнажать кнопкуOne variable listи выбрать переменные Y, X1, X3 и X7. Затем вернуться в окно Pearson Product-Moment Correlationинажать кнопкуОК.В результате на экране появится корреляционная матрица, отражающая все парные коэффициенты корреляции для рассматриваемых переменных (см. рис.10.4). Красным цветом в ней автоматически выделены коэффициенты, значимые на уровне p<0,05.

Рис.10.4 – Корреляционная матрица

Для построения графического отображения корреляционной взаимосвязи любых двух переменных необходимо нажать кнопку 2D scatterplot (диаграмма рассеяния) в окне Pearson Product-Moment Correlationи определить, какие переменные будут расположены по горизонтальной и вертикальной оси. Построим диаграмму рассеяния для переменных Y и X1 (см. рис. 10.5).

Рис. 10.5 – Диаграмма рассеяния	Рис.10.6 – Диаграмма рассеяния
для переменных Y и X1	для переменных Y и X7

Для сравнения аналогичным образом построим диаграмму рассеяния для переменных Y и X7 (см. рис. 10.6).

В этом случае из графика видно, что зависимость нельзя признать линейной. Можно попробовать графически подобрать вид зависимости. Для этого в меню Graphs следует выбрать команду Stats 2D Graph, затем команду Scatterplots, после чего в окне Scatterplots (см. рис. 10.7) кнопкой Variables определить исследуемые переменные и выбрать вид зависимости, например полиномиальную.

Рис.10.7 – Окно Scatterplots

В результате на экране появится диаграмма рассеяния (см. рис. 10.8), построенная на базе полинома пятой степени. Интересным является факт, что степень полинома (максимальной является пятая степень) STATISTICA определяет сама в зависимости от исходного набора данных.

Рис. 10.8 – Диаграмма рассеяния для переменных Y и X7

при аппроксимации полиномом

Как и на рисунке 10.5, на этом графике (рис. 10.8) представлены функция, отражающая взаимосвязь переменных Y и X7, и корреляционное поле точек. Из графика отчетливо видно, что и полином пятой степени не описывает должным образом исходные данные. В этом случае следует воспользоваться упомянутым выше модулем Nonlinear Estimation, предоставляющим возможность пользователю создавать собственные функции для аппроксимации исследуемых данных.

Чтобы оценить все связи визуально, можно представить корреляционную матрицу в графическом виде (см. рис. 10.9). Для этого в окне PearsonProduct-Moment Correlationследует нажать кнопку Matrix, затем выбрать все переменные нажатием кнопки Select All и подтвердить выбор нажатием OК.

Рис. 10.9 – Корреляционная матрица в графическом представлении

Для получения числовых характеристик (описательной статистики) изучаемых признаков в стартовой панели модуля Basiс Statistics необходимо выбрать раздел Decriptive Statistics и нажать ОК. Кнопкой Variables выбрать переменные, для которых требуется получить числовые характеристики (рис. 10.10), затем, нажав кнопку More statistics, определить, какие характеристики должны быть рассчитаны, и нажать ОК.

Рис. 10.10 – Окно Decriptive Satistics

Выберем числовые характеристики, характеризующие распределение переменных: среднее значение (Mean), медиану (Median), дисперсию (Variance), коэффициенты асимметрии (Skewness) и эксцесса (Kurtosis). Далее следует нажать кнопку Detailed decriptive statisticsи получить результат (см. рис. 10.11).

Рис.10.11– Описательная статистика переменных X1, X3, X7 и Y

Как видно из таблицы на рис. 10.11, распределение переменных близко к нормальному.

Задания для самостоятельной работы

Задание 1. По выборочным данным (таблица 10.2) исследовать влияние факторов X1, X2 и Х3на результативный признак Y.

Построив корреляционное поле, сделать предположение о наличии и типе связи между исследуемыми факторами.

Таблица 10.2. Показатели деятельности предприятия

Номер предприятия	Выработка продукции на одного работника тыс. руб.	Новые ОПФ, %	Удельный вес рабочих высокой квалификации %	Коэффициент использования оборудования
№	Y	x1	x2	x3
		3,9		0,76
		3,9		0,78
		3,7		0,75
				0,78
		3,8		0,74
		4,8		0,81
		5,4		0,81
		4,4		0,82
		5,3		0,82
		6,8		0,82
				0,84
		6,4		0,84
		6,8		0,8
		7,2		0,8
				0,85
		8,2		0,85
		8,1		0,88
		8,5		0,87
		9,6		0,89
				0,85

Варианты заданий

Варианты 1-4: результативный признак – Y, факторный признак – X1.

Варианты 5-7: результативный признак – Y, факторный признак – X2.

Варианты 8-10: результативный признак – Y, факторный признак – X3.

Задание 2. На основании данных из таблицы П1 Приложения 1

§ Для переменных, соответствующих Вашему варианту (таблица 10.3), постройте корреляционную матрицу (в качестве первого списка переменных возьмите переменные X_i, в качестве второго списка – переменную Y).

§ Произведите графический анализ наиболее коррелированных переменных. Удалите случаи, негативно влияющие на коррелированность величин. Пересчитайте корреляционную матрицу. Сделайте вывод о том, как изменилась матрица после удаления данных.

§ Просмотрите корреляционную матрицу графически.

Таблица 10.3. Варианты заданий

№ варианта	Переменные	№ варианта	Переменные
	Y1, Y2, X4, X5		Y2, Y3, X10, X11
	Y1, Y2, X6, X7		Y2, Y3, X12, X13,
	Y1, Y2, X8, X9		Y2, Y3, X8, X9
	Y1, Y2, X10, X11		Y1, Y3, X4,X5
	Y1, Y2, X12, X13		Y1, Y3, X1, X4

Модуль Basic Statistics/Tables ИС STATISTICA

Поиск по сайту