Предварительный разведочный анализ данных




3.1 Результаты проверки гипотезы о согласии распределения выборочных данных

Рисунок 33 – Проверка гипотезы о нормальном законе распределения по критерию согласия Хи-квадрат для переменной Возраст

Распределение выборки не соответствует нормальному закону распределения.

Рисунок 34 – Проверка гипотезы о нормальном законе распределения для переменной Количество покупок за год

Распределение выборки стремится к нормальному закону.

 

Рисунок 35 – Проверка гипотезы о нормальном законе распределения для переменной Средняя стоимость покупок за год

Гипотеза о распределении выборки по нормальному закону отвергается.

Рисунок 36 – Проверка гипотезы о нормальном законе распределения для переменной Среднее число страниц, просмотренных за визит

Гипотеза о согласии распределения выборочных данных с моделью нормального распределения подтверждается.

 

Рисунок 37 – Проверка гипотезы о нормальном законе распределения для переменной Количество обращений в службу поддержки за год

Гипотеза о нормальном законе распределения выборки потверждается.

Рисунок 38 – Проверка гипотезы о нормальном законе распределения для переменной Степень удовлетворенности услугами

Гипотеза о согласии распределения выбранных данных с моделью нормального распределения отвергается.

Вывод: выдвинутые нами гипотезы на этапе графического разведочного анализа о виде закона распределения переменных оказались верны.

 

 

3.2 Таблица основных статистических характеристик количественных переменных

Рисунок 39 – Таблица основных статических характеристик без разделения данных на группы

За 200 проведенных наблюдений для переменной Количество покупок за год были получены следующие результаты:

Среднее количество покупок - 30,87. Чаще всего покупатели в год совершали 29 покупок. Количество таких покупателей – 22. Среднее среди имеющихся значений – 30. Минимальное и максимальное количество покупок за год среди посетителей – 18 и 45 соответственно. 25% покупок - меньше 27 и 25% значений - больше 35. Разброс от среднего – 30,49. Распределение несимметрично относительно своего математического ожидания. «Длинная часть» кривой плотности расположена справа от её вершины. Пик распределения около математического ожидания гладкий.

Рисунок 40 – Таблица основных статических характеристик с разделением по группам 1-100

За первые 100 проведенных наблюдений для переменной Количество покупок за год были получены следующие результаты:

Среднее количество покупок - 27,76. Больше всего покупок совершалось в количестве 29, количество таких покупателей – 13. Среднее среди имеющихся значений – 28. Минимальное и максимальное количество покупок за год среди посетителей – 18 и 38 соответственно. 25% покупок - меньше 25 и 25% значений - больше 30,5. Разброс от среднего – 17,295. «Длинная часть» кривой плотности расположена справа от её вершины. Распределение имеет гладкую вершину.

Рисунок 41 – Таблица основных статических характеристик с разделением по группам 101-200

За вторые 100 проведенных наблюдений для переменной Количество покупок за год были получены следующие результаты:

Среднее количество покупок - 33,98. Больше всего покупок совершалось в количестве 33, число таких покупателей – 12. Среднее среди имеющихся значений – 34. Минимальное и максимальное количество покупок за год среди посетителей – 29 и 45 соответственно. 25% покупок - меньше 30 и 25% значений - больше 37,5. Разброс от среднего – 24,444. «Длинная часть» кривой плотности расположена слева от её вершины. Распределение имеет гладкую вершину.

3.3 Расчет критерия хи-квадрат и рангового коэффициента корреляции Спирмена.

Рисунок 42 – Критерий Хи-квадрат и коэффициента корреляции Спирмена для переменных Пол и Группа

Распределение выборки отличается от нормального закона. Связь линейно независима. По коэффициенту Спирмена - переменные линейно не связаны друг с другом.

Рисунок 43 - Критерий Хи-квадрат и коэффициента корреляции Спирмена для переменных Пол и Участие в Интернет-опросах

Распределение выборки отличается от нормального закона. Связь линейно независима. По коэффициенту Спирмена - переменные линейно не связаны друг с другом.

Рисунок 44 - Критерий Хи-квадрат и коэффициента корреляции Спирмена для переменных Пол и Степень удовлетворенности услугами

Распределение выборки близко к нормальному закону. Связь линейно зависима. По коэффициенту Спирмена - переменные линейно связаны.

Рисунок 45 - Критерий Хи-квадрат и коэффициента корреляции Спирмена для переменных Группа и Степень удовлетворенности услугами

Распределение выборки отличается от нормального закона. Связь линейно независима. По коэффициенту Спирмена - переменные частично линейно связаны.

Рисунок 46 - Критерий Хи-квадрат и коэффициента корреляции Спирмена для переменных Группа и Участие в Интернет-опросах

Распределение выборки имеет нормальный закон распределения. Связь линейно зависима. По коэффициенту Спирмена - переменные частично линейно связаны.

Рисунок 47 - Критерий Хи-квадрат и коэффициента корреляции Спирмена для переменных Степень удовлетворенности услугами и Участие в Интернет-опросах среди мужчин

Распределение выборки имеет нормальный закон распределения. Связь линейно зависима. По коэффициенту Спирмена - переменные тесно линейно связаны друг с другом.

Рисунок 48 - Критерий Хи-квадрат и коэффициента корреляции Спирмена для переменных Степень удовлетворенности услугами и Участие в Интернет-опросах среди женщин

Распределение выборки имеет нормальный закон распределения. Связь линейно зависима. По коэффициенту Спирмена - переменные линейно связаны друг с другом.

 

3.4 Корреляционные матрицы

Без разделения на группы

Рисунок 49 – Матрица парных корреляций без разделения на группы

 

Рисунок 50 – Матричная диаграмма рассеяния без разделения на группы

Переменные Возраст и Средняя стоимость покупок за год очень тесно связаны друг с другом. Высокая корреляция.

В то же время Количество обращений в службу поддержки за год и Средняя стоимость покупок за год имеют очень слабую отрицательную корреляцию.

 

 

Рисунок 51 – Матрица парных корреляций для выборки из 1-101 наблюдений

Рисунок 52 – Матричная диаграмма рассеяния для выборки из 1-100 наблюдений

Для группы из 1-101 опрошенных людей, переменные Возраст и Средняя стоимость покупок за год имеют слабую отрицательную корреляцию. Количество обращений в службу поддержки за год и Средняя стоимость покупок за год также имеют очень слабую отрицательную корреляцию.

 

Рисунок 53 – Матрица парных корреляций для выборки 101-200 наблюдений

Рисунок 54 – Матричная диаграмма рассеяния для выборки 101-200

Для группы из 101-200 опрошенных людей, переменные Возраст и Средняя стоимость покупок за год имеют слабую положительную корреляцию. Количество обращений в службу поддержки за год и Средняя стоимость покупок за год имеют очень слабую отрицательную корреляцию.

Можно сделать вывод, что переменные Возраст и Средняя стоимость покупок за год лишь в совокупности тесно связаны друг с другом. Переменные Средняя стоимость покупок за год и Количество обращений в службу поддержки практически не зависят друг от друга

3.5 Частные корреляционные матрицы

Для данных из группы с выборкой 1-100.

Рисунок 55 – Частная корреляционная матрица между переменной Возраст и остальными количественными переменными

Используя частный коэффициент корреляции, можно сказать, что Возраст и Средняя стоимость покупок за год имеют слабую отрицательную корреляцию. При полной корреляции связь была положительной.

 

Рисунок 56 – Частная корреляционная матрица между переменной Количество обращений в службу поддержки за год и остальными количественными переменными

В данной таблице видно, что Средняя стоимость покупок за год и Количество обращений в службу поддержки практически не связаны друг с другом. При полной корреляции был получен такой же результат. Следовательно, переменные не связаны друг с другом.

Рисунок 57 – Частная корреляционная матрица между переменной Степень удовлетворенности услугами и остальными количественными переменными

По полученным данным видно, что Степень удовлетворенности услугами и Среднее число просмотренных страниц очень тесно связаны друг с другом и имеют положительную корреляцию. При полной корреляции был получен такой же результат. Следовательно, переменные имеют сильную значимую связь.

После полученных результатов можно сказать, что применяя частный коэффициент корреляции, можно определить связь между двумя переменными, исключая влияние других переменных. Не всегда переменные, связанные полной корреляцией, имеют такую же связь при частной корреляции. Однако если наличие связь подтверждается, значит, она значима как при влиянии на неё других переменных, так и без их влияния.

 

Вывод

В ходе данной лабораторной работы были приобретены практические навыки первичного разведочного анализа данных. С помощью графических средств среды Statistica проведен визуальный анализ выборок с выдвижением гипотез о законе распределения выборок и дальнейший статистический анализ, подтверждающий или отвергающий их. Была проанализирована взаимосвязь переменных с помощью использования коэффициентов корреляции Пирсона и рангового коэффициента Спирмена. Также были построены таблицы парных и частотных корреляций,позволяющие определить взаимосвязь между переменными как при влиянии других переменных, так и без.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2023-02-16 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: