Графический разведочный анализ данных




Постановка задачи ИАД

Цель работы:

- изучить возможности и освоить основные принципы работы в интегрированной статистической системе Statistica;

- получить практические навыки создания, анализа, визуализации данных в Statistica;

- изучить средства Statistica для проведения первичного разведочного анализа данных (методы визуализации и аналитические методы) на примере решения конкретной задачи ИАД.

Содержательная постановка задачи

Исследуются покупатели Интернет-магазина. Было опрошено 200 клиентов, каждому анкетируемому предлагалось ответить на следующие вопросы:

- возраст;

- пол;

- количество покупок за год;

- средняя стоимость покупок за год;

- среднее число страниц, просмотренных за визит;

- количество обращений в службу поддержки за год;

- степень удовлетворенности услугами;

- степень активности (участие в Интернет-опросах)

Необходимо провести предварительный разведочный анализ данных с целью описания характера распределения данных, выявления структуры взаимосвязей между показателями.

Анкетируемые разбиты на две группы. Признак разделения на группы указан в варианте.


 

Графический разведочный анализ данных

2.1 Анализ качественных данных:

2.1.1 Категоризованные радиальные диаграммы для качественных переменных.

 

Рисунок 1 – Круговая диаграмма процентного содержания мужчин и женщин в каждой группе

В группе 1 больше женщин, а в группе 2 – мужчин.

Рисунок 2 – круговая диаграмма степени удовлетворенности услугами в каждой группе и для каждого пола

Степень удовлетворенности услугами выше всего в группе 2 у женщин и ниже всего в группе 1 у женщин.

 

Рисунок 3 – Круговая диаграмма участия в Интернет-опросах каждого пола посетителей.

Участие в Интернет-опросах примерно одинаково среди обоих полов, но более активными являются женщины.

 

Рисунок 4 – Круговая диаграмма, отражающая участие клиентов каждой группы в Интернет-опросах

Участие в Интернет-опросах примерно одинаково для обеих групп, но более активна вторая группа посетителей.

 

Рисунок 5 – Круговая диаграмма, отражающая процентное содержание степени удовлетворенности услугами клиентов для каждого из полов

Женщины удовлетворены услугами больше, чем мужчины.

2.1.2 Таблица сопряженности для качественных переменных

 

Рисунок 6 – Таблица сопряженности для переменных Группа и Пол

 

Рисунок 7 - Таблица сопряженности для переменных Участие в Интернет-опросах и Пол

 


Рисунок 8 - Таблица сопряженности для переменных Степень удовлетворенности услугами и Пол

Рисунок 9 – Таблица сопряженности для переменных Степень удовлетворенности услугами и Группа

Рисунок 10 - Таблица сопряженности для участие в Интернет-опросах и Группа

2.1.3 Категоризованная гистограмма, трехмерная гистограмма, график взаимодействия частот.

a) Для переменных Пол и Группа

Рисунок 11 – Категоризированная гистограмма для переменных Пол и Группа

Рисунок 12 – Трехмерная гистограмма для переменных Пол и Группа

 

Рисунок 13 – График взаимодействия частот для переменных Пол и Группа

В первой группе преобладает больше мужчин, а во второй – женщин.

b) Для переменных Пол и Участие в Интернет-опросах

Рисунок 14 - Категоризированная гистограмма для переменных Пол и Участие в Интернет-опросах

Рисунок 15 – Трехмерная гистограмма для переменных Пол и Участие в Интернет-опросах

Рисунок 16 – График взаимодействия частот для переменных Пол и Участие в Интернет-опросах

Участие в опросах примерно одинаково для обоих полов, но активность участия выше у женщин. Трудно выдвинуть гипотезу о законе распределения.

c) Для переменных Пол и Степень удовлетворенности услугами

Рисунок 17 - Категоризированная гистограмма для переменных Пол и Степень удовлетворенности услугами

Рисунок 18 – Трехмерная гистограмма для переменных Пол и Степень удовлетворенности услугами

 

Рисунок 19 – График взаимодействия частот для переменных Пол и Степень удовлетворенности услугами

Мужчины и женщины примерно одинаково удовлетворены услугами.

Нормальный закон распределения.

 

 

d) Для переменных Степень удовлетворенности услугами и Группа

Рисунок 20 - Категоризированная гистограмма для переменных Группа и Степень удовлетворенности услугами

 

Рисунок 21 – Трехмерная гистограмма для переменных Группа и Степень удовлетворенности услугами

Рисунок 22– График взаимодействия частот для переменных Группа и Степень удовлетворенности услугами

Люди вторая группы более удовлетворены услугами. Нормальный закон распределения.

e) Для переменных Группа и Участие в Интернет-опросах

Рисунок 23 - Категоризированная гистограмма для переменных Группа и Участие в Интернет-опросах

Рисунок 24 – Трехмерная гистограмма для переменных Группа и Участие в Интернет-опросах

Рисунок 25– График взаимодействия частот для переменных Группа и Участие в Интернет-опросах

Участие в Интернет-опросах примерно одинаково для обеих групп, но более активны опрошенные второй группы. Нормальный закон распределения.


 

2.2 Анализ количественных данных

2.2.1 Категоризованная гистограмма для количественной переменной. В качестве группирующей переменной номер группы.

Рисунок 26 - Категоризированная гистограмма для переменных Группа и Возраст

В группе 1 преобладает возраст 20-25 лет. В группу 2 входят люди преимущественно в возрасте 35-40 лет.

Предполагаемый закон распределения для обеих групп – нормальный.

2.2.2 Категоризованная гистограмма, в качестве группирующих переменных номер группы и пол

Рисунок 27 - Категоризированная гистограмма для переменных Группа, Пол и Возраст

В группе 1 преобладают мужчины в возрасте 20-25 лет и женщины в возрасте 20-25 лет. В группе 2 преобладают мужчины 40-45 лет и женщины 35-40 лет.

В группе 2 явно выражен нормальный закон распределения. Для группы 1 сложно дать предварительную оценку закона распределения.

2.2.3 Матричный график

Рисунок 28 – Матричный график для переменных Возраст и Количество покупок за год

Переменные имеют сильный разброс и почти не связаны друг с другом, что можно видеть на диаграмме рассеяния. Данные неоднородны и содержат выбросы. Для переменной Возраст сложно определить закон распределения. Переменная Количество покупок за год напоминает нормальное распределение.

Рисунок 29 – Матричный график для переменных Количество обращений в службу поддержки за год и Степень удовлетворенности услугами

Переменные сильно разбросаны, но имеют некоторую связь друг с другом. Отрицательная гиперболическая корреляция Данные матричного графика для переменной Количество обращений в службу поддержки за год распределены по нормальному закону. Для переменной Степень удовлетворенности услугами сложно дать оценку о законе распределения. Частично похож на нормальный закон.

Рисунок 30 – Матричный график для переменных Количество покупок за год и Средняя стоимость покупок за год

Переменные имеют сильный разброс. Наблюдается положительная линейная корреляция.

Для переменных Количество покупок за год и Средняя стоимость покупок за год характерен нормальный закон распределения.

 

Рисунок 31 – Матричный график для переменных Среднее число просмотренных страниц и Степень удовлетворенности услугами

Наблюдается положительная линейная взаимосвязь между переменными.

2.2.4 Категоризированная диаграмма для тесно связанных переменных.

В качестве группирующей переменной – номер группы

Рисунок 32 – Категоризированная диаграмма рассеивания между переменными Среднее число просмотренных страниц Степень удовлетворенности услугами

Обе группы имеют положительную корреляцию. Общий вид функции регрессии – линейная. Имеются выбросы.


 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2023-02-16 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: