1. Постановка задачи
Задача статистики в области изучения взаимосвязей состоит не только в количественной оценке их наличия, направления и силы, но и в определении формы влияния факторных признаков (тех, которые влияют на изменение других процессов) на результативный (тот, который изменяется под воздействием других признаков). Для её решения применяют метод корреляционно – регрессионного анализа. Корреляционно-регрессионный анализ (КР-анализ) взаимосвязи признаков является составной частью проводимого статистического исследования двух экономических показателей статистической совокупности 31-ого региона России. В данной части курсовой работы изучается взаимосвязь между факторным признаком Степень износа основных фондов в отрасли – строительство (признак Х) и результативным признаком Стоимость основных фондов в отрасли - строительство (признак Y). Для проведения автоматизированного статистического анализа совокупности данные представлены в формате электронных таблиц процессора Excel в диапазоне ячеек B4:C34.
Исходные данные
A | B | C | |
Регионы России | Степень износа основных фондов в отрасли - строительство, млн. руб. | Стоимость основных фондов в отрасли - строительство, млн. руб. | |
Белгородская область | 3224.47 | 11005.00 | |
Брянская область | 758.01 | 1919.00 | |
Владимирская область | 1092.50 | 2595.00 | |
Воронежская область | 1479.63 | 3182.00 | |
Ивановская область | 386.60 | 1065.00 | |
Калужская область | 733.04 | 1870.00 | |
Костромская область | 953.56 | 1516.00 | |
Курская область | 216.90 | 1446.00 | |
Липецкая область | 797.87 | 1797.00 | |
Московская область | 11199.97 | 25688.00 | |
Орловская область | 1109.12 | 1733.00 | |
Рязанская область | 16539.89 | 27939.00 | |
Смоленская область | 1195.29 | 2330.00 | |
Тамбовская область | 836.61 | 1855.00 | |
Тверская область | 814.43 | 1642.00 | |
Тульская область | 989.33 | 2413.00 | |
Ярославская область | 2411.03 | 5044.00 | |
г. Москва | 36129.47 | 91467.00 | |
Республика Карелия | 700.74 | 1530.00 | |
Республика Коми | 2629.31 | 6351.00 | |
Архангельская область | 2168.33 | 6285.00 | |
Вологодская область | 1098.59 | 3319.00 | |
Калининградская область | 384.71 | 747.00 | |
Ленинградская область | 1971.00 | 4380.00 | |
Мурманская область | 899.16 | 1905.00 | |
Новгородская область | 674.08 | 1314.00 | |
Псковская область | 907.41 | 2030.00 | |
г. Санкт - Петербург | 5826.66 | 13873.00 | |
Республика Адыгея | 1361.26 | 2284.00 | |
Республика Дагестан | 1364.97 | 2630.00 | |
Республика Ингушетия | 68.54 | 149.00 |
|
Необходимо:
1. Выявить наличие среди исходных данных резко выделяющихся значений признаков («выбросов» данных) с целью исключения из выборки аномальных единиц наблюдения.
2. Построить интервальный вариационный ряд и гистограмму распределения единиц совокупности по признаку Степень износа основных фондов в отрасли - строительство.
1. Строим диаграмму рассеяния – точечный график, осям X и Y которого сопоставлены два изучаемых признака единиц совокупности. Построение данной диаграммы в среде Excel осуществляется следующим образом: выделяем оба столбца B4:C34, далее Вставка – Диаграмма – Точечная - Готово, в ней данные первого столбца (Степень износа основных фондов в отрасли – строительство) автоматически сопоставляются оси X, данные второго столбца (Стоимость основных фондов в отрасли - строительство) - оси Y. Для поиска аномальных значений визуально находятся аномальные точки. При подведении к ним курсора появляется надпись, содержащая значения признаков этого наблюдения в формате (X;Y).
|
На рисунке 1 чётко видим точки, которые отстоят от основной массы точек на существенном расстоянии. Каждый «выброс» из этой массы означает аномальность единицы наблюдения либо по признаку X, либо по признаку Y.
Рис. 1. Аномальные значения признаков на диаграмме рассеяния.
В таком случае такие единицы подлежат удалению из первичных данных. Но перед этим их необходимо скопировать в таблицу 2.
Таблица 2.
Аномальные единицы наблюдения
Регионы России | Степень износа основных фондов в отрасли - строительство, млн. руб. | Стоимость основных фондов в отрасли - строительство, млн. руб. |
г. Москва | 36129.47 | 91467.00 |
Рязанская область | 16539.89 | 27939.00 |
Московская область | 11199.97 | 25688.00 |
г. Санкт - Петербург | 5826.66 | 13873.00 |
Белгородская область | 3224.47 | 11005.00 |
В данной задаче 5 аномальных единиц наблюдения.
Для удаления из исходной таблицы 1 строк с аномальными данными необходимо выделить мышью соответствующую адресную строку вместе с её номером, нажать Правка – Удалить. В итоге получаем табл. 1 и рис. 2:
Рис. 2. Диаграмма рассеяния без аномальных единиц.
Таблица 1. Исходные данные
Регионы России | Степень износа основных фондов в отрасли – строительство, млн. руб. | Стоимость основных фондов в отрасли - строительство, млн. руб. |
Брянская область | 758.01 | 1919.00 |
Владимирская область | 1092.50 | 2595.00 |
Воронежская область | 1479.63 | 3182.00 |
Ивановская область | 386.60 | 1065.00 |
Калужская область | 733.04 | 1870.00 |
Костромская область | 953.56 | 1516.00 |
Курская область | 216.90 | 1446.00 |
Липецкая область | 797.87 | 1797.00 |
Орловская область | 1109.12 | 1733.00 |
Смоленская область | 1195.29 | 2330.00 |
Тамбовская область | 836.61 | 1855.00 |
Тверская область | 814.43 | 1642.00 |
Тульская область | 989.33 | 2413.00 |
Ярославская область | 2411.03 | 5044.00 |
Республика Карелия | 700.74 | 1530.00 |
Республика Коми | 2629.31 | 6351.00 |
Архангельская область | 2168.33 | 6285.00 |
Вологодская область | 1098.59 | 3319.00 |
Калининградская область | 384.71 | 747.00 |
Ленинградская область | 1971.00 | 4380.00 |
Мурманская область | 899.16 | 1905.00 |
Новгородская область | 674.08 | 1314.00 |
Псковская область | 907.41 | 2030.00 |
Республика Адыгея | 1361.26 | 2284.00 |
Республика Дагестан | 1364.97 | 2630.00 |
Республика Ингушетия | 68.54 | 149.00 |
|
Данный пункт необходимо выполнить, так как аномальные значения нарушают статистическую закономерность изучаемого явления. Следовательно, статистическое изучение совокупности без предварительного выявления и анализа возможных аномальных наблюдений может не только исказить значения обобщающих показателей, но и привести к серьёзным ошибкам в выводах о статистических свойствах совокупности, сделанных на основе полученных оценок показателей.
2. Для построения интервального вариационного ряда выполняем следующие действия:
1. Сервис - Анализ данных - Гистограмма - ОК
2. Входной интервал – B4:B29
3. Выходной интервал – А43
4. Интегральный процент – Активизировать
5. Вывод графика – Активизировать
6. ОК
В итоге получаем (табл. 3):
Карман | Частота | Интегральный % |
3.85% | ||
580.694 | 15.38% | |
1092.848 | 61.54% | |
1605.002 | 84.62% | |
2117.156 | 88.46% | |
2629.31 | 100.00% |
Предварительно перейдя от нижних границ к верхним (табл. 4): удалим значение ячейки A44, а вместо «Ещё» введем максимальное значение первого признака.
Таблица 4. Интервальный ряд распределения областей по степени износа основных фондов в отрасли - строительство
Группа областей по степени износа основных фондов в отрасли - строительство | Число областей в группе | Накопленная частость группы.% |
68.54-580.69 | 19.23% | |
580.69-1092.85 | 61.54% | |
1092.85-1605.00 | 84.62% | |
1605.00-2117.16 | 88.46% | |
2117.16-2629.31 | 100.00% | |
Итого |
В процессе статистического исследования необходимо решить ряд задач:
1. Установить наличие корреляционной связи между признаками Х и Y методом аналитической группировки.
Построив аналитическую таблицу, отражающую результаты аналитической группировки совокупности по факторному признаку Степень износа основных фондов в отрасли – строительство, можно установить наличие корреляционной связи.
Ранжируем исходные данные.
1.Выделить исходные данные табл. 2.1 (А4:С33);
2. Данные => Сортировка;
3. Сортировать по <= Степень износа основных фондов в отрасли – строительство
4. по возрастанию/по убыванию – устанавливается в положение по возрастанию;
5. Затем и В последнюю очередь по – не активизируются;
6. Идентифицировать поля по подписям/обозначениям столбцов листа – устанавливается в положение подписям
7. ОК.
В результате указанных действий в таблице 2.1 размещаются данные, ранжированные по возрастанию признака Среднегодовая стоимость основных производственных фондов.
Распределяем регионы по группам.
1.Из всего диапазона отсортированных данных A4:C33 выделить мышью диапазон ячеек первойгруппы, для чего необходимо отсчитать в ранжированном ряду количество строк, соответствующее числу предприятий первой группы (графа 3 табл.2.2),
2.Нажать на панели инструментов кнопку ;
3.Выбрать цвет по собственному усмотрению;
4.Выполнить действия 1–3 для всех групп, выбирая контрастные цвета для цветовой заливки очередной группы.
В итоге получаем таблицу 2.1. следующего вида:
Таблица 2.1. Исходные данные
Регионы России | Степень износа основных фондов в отрасли – строительство, млн. руб. | Стоимость основных фондов в отрасли - строительство, млн. руб. |
Республика Ингушетия | 68.54 | 149.00 |
Курская область | 216.90 | 1446.00 |
Калининградская область | 384.71 | 747.00 |
Ивановская область | 386.60 | 1065.00 |
Новгородская область | 674.08 | 1314.00 |
Республика Карелия | 700.74 | 1530.00 |
Калужская область | 733.04 | 1870.00 |
Брянская область | 758.01 | 1919.00 |
Липецкая область | 797.87 | 1797.00 |
Тверская область | 814.43 | 1642.00 |
Тамбовская область | 836.61 | 1855.00 |
Мурманская область | 899.16 | 1905.00 |
Псковская область | 907.41 | 2030.00 |
Костромская область | 953.56 | 1516.00 |
Тульская область | 989.33 | 2413.00 |
Владимирская область | 1092.50 | 2595.00 |
Вологодская область | 1098.59 | 3319.00 |
Орловская область | 1109.12 | 1733.00 |
Смоленская область | 1195.29 | 2330.00 |
Республика Адыгея | 1361.26 | 2284.00 |
Республика Дагестан | 1364.97 | 2630.00 |
Воронежская область | 1479.63 | 3182.00 |
Ленинградская область | 1971.00 | 4380.00 |
Архангельская область | 2168.33 | 6285.00 |
Ярославская область | 2411.03 | 5044.00 |
Республика Коми | 2629.31 | 6351.00 |
А далее заполняем таблицу 2.2. формулами: в ячейку D44 вводим: =СУММ(C4:C7). Аналогично со следующими ячейками D45 - D48; в ячейку E44: =D44/C44.
Таблица 2.2. Зависимость стоимости основных фондов от степени износа основных фондов
Номер группы | Группы областей по степени износа основных фондов в отрасли - строительство | Число областей | Стоимость основных фондов вотрасли - строительство | |
Всего | В среднем на одну область | |||
68.54-580.69 | 3407.00 | 851.75 | ||
580.69-1092.85 | 22386.00 | 1865.50 | ||
1092.85-1605.0 | 15478.00 | 2579.67 | ||
1605.00-2117.16 | 4380.00 | 4380.00 | ||
2117.16-2629.31 | 17680.00 | 5893.33 | ||
Итого | 63331.00 | 2435.81 |
2. Оценить тесноту связи признаков Х и Y на основе:
а) эмпирического корреляционного отношения η;
б) линейного коэффициента корреляции r.
а)для вычисления эмпирического корреляционного отношения необходимо вычислить факторную и общую дисперсию, используя функции инструмента Мастер функций: ДИСПР, СУММПРОИЗВ, КОРЕНЬ.
В ячейку А66 вводим формулу =ДИСПР(C4:C29); в ячейку В66: =СУММПРОИЗВ(D55:D59;C55:C59)/C49; в ячейку С66: =A66-B66. Теперь находим эмпирического корреляционного отношения η: в ячейку D66 вводим формулу: =КОРЕНЬ(C66/A66). В итоге получаем таблицу 2.4:
Показатели дисперсии и эмпирического корреляционного отношения
Общая дисперсия | Средняя из внутригрупповых | Факторная дисперсия | Эмпирическое корреляционное отношение |
2266566.771 | 200894.76 | 2065672.01 | 0.954654939 |
Получаем η= 0.954654939.
б) для нахождения линейного коэффициента корреляции r используем инструмент Корреляция надстройки Пакет анализа.
1. Сервис => Анализ данных => Корреляция => ОК.
2. Входной интервал В4:С29;
3. Группирование – по столбцам;
4. Метки в первой строке – не активизировать;
5. Выходной интервал (А71);
6. Новый рабочий лист и Новая рабочая книга – не активизировать;
7. ОК.
В результате работы алгоритма Excel выдает оценку тесноты связи факторного и результативного признаков (табл. 2.5):
Таблица 2.5. Линейный коэффициент корреляции признаков
Столбец 1 | Столбец 2 | |
Столбец 1 | ||
Столбец 2 | 0.946358973 |
Сравним значения η и r и сделаем вывод о возможности линейной связи между признаками Х и Y: так как они располагаются в диапазоне 0,9-0,99, то связь весьма тесная (по шкале Чэддока).
3. Построить однофакторную линейную регрессионную модель связи признаков Х и Y, используя инструмент Регрессия надстройки Пакет анализ.
1. Сервис => Анализ данных => Регрессия => ОК;
2. Входной интервал Y С4:С29;
3. Входной интервал X В4:В29;
4. Метки в первой строке/Метки в первом столбце –не активизировать;
5. Уровень надежности <= 68,3;
6. Константа – ноль – не активизировать;
7. Выходной интервал А81;
8. Новый рабочий лист и Новая рабочая книга – не активизировать;
9. Остатки – активизировать;
10. Стандартизованные остатки – не активизировать;
11. График остатков –неактивизировать;
12. График подбора – активизировать;
13. График нормальной вероятности – не активизировать;
14. ОК.
В результате указанных действий осуществляется вывод в заданный диапазон рабочего файла четырех выходных таблиц и одного графика, начиная с ячейки, указанной в поле Выходной интервал: