Постановка задачи ИАД
Цель работы:
- изучить возможности и освоить основные принципы работы в интегрированной статистической системе Statistica;
- получить практические навыки создания, анализа, визуализации данных в Statistica;
- изучить средства Statistica для проведения первичного разведочного анализа данных (методы визуализации и аналитические методы) на примере решения конкретной задачи ИАД.
Содержательная постановка задачи
Исследуются покупатели Интернет-магазина. Было опрошено 200 клиентов, каждому анкетируемому предлагалось ответить на следующие вопросы:
- возраст;
- пол;
- количество покупок за год;
- средняя стоимость покупок за год;
- среднее число страниц, просмотренных за визит;
- количество обращений в службу поддержки за год;
- степень удовлетворенности услугами;
- степень активности (участие в Интернет-опросах)
Необходимо провести предварительный разведочный анализ данных с целью описания характера распределения данных, выявления структуры взаимосвязей между показателями.
Анкетируемые разбиты на две группы. Признак разделения на группы указан в варианте.
Графический разведочный анализ данных
2.1 Анализ качественных данных:
2.1.1 Категоризованные радиальные диаграммы для качественных переменных.
Рисунок 1 – Круговая диаграмма процентного содержания мужчин и женщин в каждой группе
В группе 1 больше женщин, а в группе 2 – мужчин.
Рисунок 2 – круговая диаграмма степени удовлетворенности услугами в каждой группе и для каждого пола
Степень удовлетворенности услугами выше всего в группе 2 у женщин и ниже всего в группе 1 у женщин.
Рисунок 3 – Круговая диаграмма участия в Интернет-опросах каждого пола посетителей.
|
Участие в Интернет-опросах примерно одинаково среди обоих полов, но более активными являются женщины.
Рисунок 4 – Круговая диаграмма, отражающая участие клиентов каждой группы в Интернет-опросах
Участие в Интернет-опросах примерно одинаково для обеих групп, но более активна вторая группа посетителей.
Рисунок 5 – Круговая диаграмма, отражающая процентное содержание степени удовлетворенности услугами клиентов для каждого из полов
Женщины удовлетворены услугами больше, чем мужчины.
2.1.2 Таблица сопряженности для качественных переменных
Рисунок 6 – Таблица сопряженности для переменных Группа и Пол
Рисунок 7 - Таблица сопряженности для переменных Участие в Интернет-опросах и Пол
Рисунок 8 - Таблица сопряженности для переменных Степень удовлетворенности услугами и Пол
Рисунок 9 – Таблица сопряженности для переменных Степень удовлетворенности услугами и Группа
Рисунок 10 - Таблица сопряженности для участие в Интернет-опросах и Группа
2.1.3 Категоризованная гистограмма, трехмерная гистограмма, график взаимодействия частот.
a) Для переменных Пол и Группа
Рисунок 11 – Категоризированная гистограмма для переменных Пол и Группа
Рисунок 12 – Трехмерная гистограмма для переменных Пол и Группа
Рисунок 13 – График взаимодействия частот для переменных Пол и Группа
В первой группе преобладает больше мужчин, а во второй – женщин.
b) Для переменных Пол и Участие в Интернет-опросах
Рисунок 14 - Категоризированная гистограмма для переменных Пол и Участие в Интернет-опросах
|
Рисунок 15 – Трехмерная гистограмма для переменных Пол и Участие в Интернет-опросах
Рисунок 16 – График взаимодействия частот для переменных Пол и Участие в Интернет-опросах
Участие в опросах примерно одинаково для обоих полов, но активность участия выше у женщин. Трудно выдвинуть гипотезу о законе распределения.
c) Для переменных Пол и Степень удовлетворенности услугами
Рисунок 17 - Категоризированная гистограмма для переменных Пол и Степень удовлетворенности услугами
Рисунок 18 – Трехмерная гистограмма для переменных Пол и Степень удовлетворенности услугами
Рисунок 19 – График взаимодействия частот для переменных Пол и Степень удовлетворенности услугами
Мужчины и женщины примерно одинаково удовлетворены услугами.
Нормальный закон распределения.
d) Для переменных Степень удовлетворенности услугами и Группа
Рисунок 20 - Категоризированная гистограмма для переменных Группа и Степень удовлетворенности услугами
Рисунок 21 – Трехмерная гистограмма для переменных Группа и Степень удовлетворенности услугами
Рисунок 22– График взаимодействия частот для переменных Группа и Степень удовлетворенности услугами
Люди вторая группы более удовлетворены услугами. Нормальный закон распределения.
e) Для переменных Группа и Участие в Интернет-опросах
Рисунок 23 - Категоризированная гистограмма для переменных Группа и Участие в Интернет-опросах
Рисунок 24 – Трехмерная гистограмма для переменных Группа и Участие в Интернет-опросах
|
Рисунок 25– График взаимодействия частот для переменных Группа и Участие в Интернет-опросах
Участие в Интернет-опросах примерно одинаково для обеих групп, но более активны опрошенные второй группы. Нормальный закон распределения.
2.2 Анализ количественных данных
2.2.1 Категоризованная гистограмма для количественной переменной. В качестве группирующей переменной номер группы.
Рисунок 26 - Категоризированная гистограмма для переменных Группа и Возраст
В группе 1 преобладает возраст 20-25 лет. В группу 2 входят люди преимущественно в возрасте 35-40 лет.
Предполагаемый закон распределения для обеих групп – нормальный.
2.2.2 Категоризованная гистограмма, в качестве группирующих переменных номер группы и пол
Рисунок 27 - Категоризированная гистограмма для переменных Группа, Пол и Возраст
В группе 1 преобладают мужчины в возрасте 20-25 лет и женщины в возрасте 20-25 лет. В группе 2 преобладают мужчины 40-45 лет и женщины 35-40 лет.
В группе 2 явно выражен нормальный закон распределения. Для группы 1 сложно дать предварительную оценку закона распределения.
2.2.3 Матричный график
Рисунок 28 – Матричный график для переменных Возраст и Количество покупок за год
Переменные имеют сильный разброс и почти не связаны друг с другом, что можно видеть на диаграмме рассеяния. Данные неоднородны и содержат выбросы. Для переменной Возраст сложно определить закон распределения. Переменная Количество покупок за год напоминает нормальное распределение.
Рисунок 29 – Матричный график для переменных Количество обращений в службу поддержки за год и Степень удовлетворенности услугами
Переменные сильно разбросаны, но имеют некоторую связь друг с другом. Отрицательная гиперболическая корреляция Данные матричного графика для переменной Количество обращений в службу поддержки за год распределены по нормальному закону. Для переменной Степень удовлетворенности услугами сложно дать оценку о законе распределения. Частично похож на нормальный закон.
Рисунок 30 – Матричный график для переменных Количество покупок за год и Средняя стоимость покупок за год
Переменные имеют сильный разброс. Наблюдается положительная линейная корреляция.
Для переменных Количество покупок за год и Средняя стоимость покупок за год характерен нормальный закон распределения.
Рисунок 31 – Матричный график для переменных Среднее число просмотренных страниц и Степень удовлетворенности услугами
Наблюдается положительная линейная взаимосвязь между переменными.
2.2.4 Категоризированная диаграмма для тесно связанных переменных.
В качестве группирующей переменной – номер группы
Рисунок 32 – Категоризированная диаграмма рассеивания между переменными Среднее число просмотренных страниц Степень удовлетворенности услугами
Обе группы имеют положительную корреляцию. Общий вид функции регрессии – линейная. Имеются выбросы.