Графический разведочный анализ данных




Анализ качественных данных:

- категоризованные радиальные диаграммы для качественных переменных;

- таблица сопряженности для качественных переменных;

- категоризованная гистограмма, трехмерная гистограмма, график взаимодействия частот;

- анализ таблиц и графиков, выводы о характере распределения данных и закономерностях обнаруженных в таблицах в терминах решаемой задачи.

Анализ количественных данных:

- категоризованная гистограмма, в качестве группирующей переменной номер группы;

- категоризованная гистограмма, в качестве группирующих переменных номер группы и заданная переменная;

- анализ гистограмм, выводы о характере распределения данных, гипотеза о виде закона распределения данных;

- матричный график, состоящий из диаграмм рассеяния и гистограмм для всех количественных переменных. Анализ графика. Предположения о характере, направлении и силе связи между переменными, гипотеза о виде закона распределения данных для каждой переменной;

- категоризованная диаграмма рассеяния для тех переменных, между которыми выявлена наиболее тесная взаимосвязь. Анализ диаграмм, предположения об общем виде функции регрессии, выводы в терминах решаемой задачи.

Предварительный разведочный анализ данных

- результаты проверки гипотезы о согласии распределения выборочных данных с моделью нормального распределения с помощью критерия согласия хи-квадрат, сопоставление с результатами, полученными при графическом анализе данных;

- таблица основных статистических характеристик количественных переменных, анализ и интерпретация в терминах решаемой задачи;

- расчет критерия хи-квадрат и рангового коэффициента корреляции Спирмена, выводы о силе и направлении связи между неколичественными переменными, сопоставление с результатами, полученными при графическом анализе данных.

- корреляционные матрицы, частные корреляционные матрицы, анализ и сопоставление с результатами, полученными при графическом анализе данных.

Выводы по работе в произвольной форме.

Вопросы к работе

1. Понятие интеллектуального анализа данных. Методы Data Mining.

2. Понятие разведочного анализа данных. В чем отличие процедуры Data Mining от методов классического статистического анализа данных?

3. Методы графического разведочного анализа данных. Средства Statistica для проведения графического разведочного анализа данных.

4. Что такое категоризованный график? Какие типы категоризованных графиков реализованы в системе Statistica?

5. Какую информацию о природе данных можно получить при анализе диаграмм рассеяния и категоризованных диаграмм рассеяния?

6. Какую информацию о природе данных можно получить на основе анализа гистограмм и категоризованных гистограмм?

7. Чем принципиально отличаются категоризованные графики от матричных графиков в системе Statistica?

8. В чем достоинства и недостатки графических методов разведочного анализа данных?

9. Какие аналитические методы первичного разведочного анализа данных вы знаете?

10. Как проверить гипотезу о согласии распределения выборочных данных с моделью нормального распределения в системе Statistica?

11. Какие основные статистические характеристики количественных переменных вы знаете? Их описание и интерпретация в терминах решаемой задачи.

12. Какие измерители связи применяются для измерения степени тесноты связи между количественными и качественными переменными? Их расчет в Statistica и интерпретация.

 

Литература

 

1. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Основы моделирования и первичная обработка данных. – М.: «Финансы и статистика», 1983. – 471 с.

2. Боровиков В.П. Популярное введение в современный анализ данных в системе Statistica. – СПб.: Питер, 2014. – 288 с.

3. Боровиков В.П. Statistica. Искусство анализа данных на компьютере: Для профессионалов. 2-е изд. – СПб.: Питер, 2003. – 688 с.

4. Боровиков В.П., Боровиков И.П. Statistica - Статистический анализ и обработка данных в среде Windows. – М.: «Филин», 1997. – 608 с.

5. Электронный учебник StatSoft по анализу данных.

 

Постановка задачи ИАД (Варианты 1-5). Задача 1. Изучаются показатели работы программистов крупной организации.Рассматриваются следующие показатели (признаки) для каждого программиста:

- пол

- возраст;

- стаж работы;

- процент разработок, выполненных в срок в рамках бюджета с требуемым функционалом (за год);

- количество ошибок, выявленных пользователем (за год);

- стаж работы по специальности в данной организации;

- степень удовлетворенности заказчика;

- качество документирования.

Необходимо провести предварительный разведочный анализ данных с целью описания характера распределения данных, выявления структуры взаимосвязей между показателями.

Программисты разбиты на две группы. Признак разделения на группы указан в варианте.

Задача 2. (Варианты 6-10). Исследуются покупатели Интернет-магазина. Было опрошено 200 клиентов, каждому анкетируемому предлагалось ответить на следующие вопросы:

- возраст;

- пол;

- количество покупок за год;

- средняя стоимость покупок за год;

- среднее число страниц, просмотренных за визит;

- количество обращений в службу поддержки за год;

- степень удовлетворенности услугами;

- степень активности (участие в Интернет-опросах)

Необходимо провести предварительный разведочный анализ данных с целью описания характера распределения данных, выявления структуры взаимосвязей между показателями.

Анкетируемые разбиты на две группы. Признак разделения на группы указан в варианте.

Задача 3. (Варианты 11-15). Исследуется рынок потребителей услуги «Подключение к сети Интернет». Было опрошено 200 потребителей услуг Интернет, каждому анкетируемому предлагалось ответить на следующие вопросы:

- возраст;

- пол;

- стаж работы в сети Интернет;

- средний доход в месяц, в тыс. руб.;

- профессиональная специализация (насколько часто используется сеть Интернет в профессиональной деятельности): не использую; кране редко; ежедневно, постоянно;

- среднее количество просматриваемых страниц в месяц;

- степень активности (участие в Интернет-опросах)

Необходимо провести предварительный разведочный анализ данных с целью описания характера распределения данных, выявления структуры взаимосвязей между показателями.

Анкетируемые разбиты на две группы. Признак разделения на группы указан в варианте.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-04-27 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: