Лабораторная работа 1.
Применение методов первичного разведочного анализа данных в решении задач интеллектуального анализа данных (ИАД) средствами интегрированной системы Statistica
Цель лабораторной работы
- изучить возможности и освоить основные принципы работы в интегрированной статистической системе Statistica;
- получить практические навыки создания, анализа, визуализации данных в Statistica;
- изучить средства Statistica для проведения первичного разведочного анализа данных (методы визуализации и аналитические методы) на примере решения конкретной задачи ИАД.
Задание к лабораторной работе
Прочитайте содержательную постановку задачи для вашего варианта. В табл. 1. представлены исходные данные для решения поставленной задачи.
1. Подготовьте исходные данные для обработки в системе Statistica.
1.1. Создайте новую электронную таблицу для ввода данных (данные к л.р.1.xlsx) и введите данные.
1.2. Задайте имена переменных в соответствии с данными (данные к л.р.1.xlsx), задайте формат переменных в соответствии с их типами. Обратите внимание на механизм «двойной записи» текстовых переменных в системе Statistica.
2. Проведите графический разведочный анализ данных (визуализируйте данные). Выполните следующие задания.
2.1. Постройте категоризованные радиальные диаграммы для качественных переменных.
2.2. Постройте таблицы сопряженности для качественных переменных.
2.3. Проведите графический анализ таблицы сопряженности. Постройте категоризованную гистограмму, трехмерную гистограмму, график взаимодействия частот.
2.4. Проанализируйте полученные результаты. Сделайте предварительные выводы о характере распределения данных по группам в терминах решаемой задачи.
|
2.5. Постройте категоризованную гистограмму для одной из количественных переменных, в качестве группирующей переменной используйте
- номер группы;
- номер группы и качественную переменную.
Сделайте выводы о характере распределения данных по группам в терминах решаемой задачи. Выдвинете гипотезу о виде закона распределения данных в каждой группе.
2.6. Постройте матричный график, состоящий из диаграмм рассеяния и гистограмм для исследуемых переменных. При построении матричного графика используйте все количественные переменные. Проанализируйте график. Какие выводы можно сделать предположения о характере, направлении и силе связи между переменными? Выдвинете гипотезу о виде закона распределения данных для каждой переменной.
2.7. Постройте категоризованную диаграмму рассеяния для тех переменных, между которыми выявлена наиболее тесная взаимосвязь при визуальном анализе матричного графика. В качестве группирующей переменной используйте номер группы. На основании анализа диаграмм рассеяния исследуемых переменных предположите общий вид функции регрессии. Сделайте выводы в терминах решаемой задачи.
3. Проведите предварительный разведочный анализ данных.
3.1. Проверьте гипотезу о согласии распределения выборочных данных с моделью нормального распределения с помощью критерия согласия хи-квадрат. Сопоставьте с результатами, полученными в п. 2.6., сделайте выводы.
3.2. Рассчитайте основные статистические характеристики количественных переменных (оценку математического ожидания, оценку медианы, оценку среднего квадратичного отклонения, оценку дисперсии, оценку коэффициента асимметрии, оценку коэффициента эксцесса, минимальное выборочное значение, максимальное выборочное значение, разброс, выборочные верхнюю и нижнюю квартили) без разделения данных на группы и с разделением. Дайте содержательную интерпретацию полученных результатов.
|
3.3. Оцените степень взаимосвязи между неколичественными переменными на основе критерия хи-квадрат и рангового коэффициента корреляции Спирмена. Сделайте выводы о силе и направлении связи. Сопоставьте с результатами, полученными в п. 2.4.
3.4. Постройте корреляционные матрицы между количественными переменными без разделения данных на группы и с разделением. Сопоставьте с результатами, полученными в п. 2.6., 2.7., сделайте выводы.
3.5. Постройте частную корреляционную матрицу между количественными переменными для данных одной из групп. Сопоставьте с результатами, полученными в п. 3.4, сделайте выводы.
Методические указания к лабораторной работе
Statistica – это интегрированная система статистического анализа и обработки данных, состоящая из следующих основных компонентов:
- электронные таблицы для ввода и задания исходных данных;
- специальные таблицы для вывода численных результатов анализа;
- графическая система для визуализации данных и результатов статистического анализа;
- набор специализированных статистических модулей;
- инструментарий для подготовки отчетов;
- рабочие книги, в которых хранятся электронные таблицы с исходными данными и все результаты статистической обработки данных, связанные с электронной таблицей (графики, специальные таблицы для вывода численных результатов анализа, отчеты).
|
- встроенные языки программирования Statistica Visual Basic и SCL (Statistica Command Language).
Пояснения к п. 1.
Ввод данных
Работа в Statistica начинается с ввода данных. Данные в Statistica организованы в виде электронных таблиц – Spreadsheet. Они могут содержать как численную, так и текстовую информацию.
Для ввода данных необходимо:
- создать новую электронную таблицу, выбрав пункт меню File/New. В открывшемся диалоговом окне Create New Document выбрать вкладку Spreadsheet. Задать структуру таблицы: количество случаев – Number of cases и количество переменных - Number of variables. Далее выбрать размещение таблицы данных: либо в отдельном окне (As a standard-alone window), либо в рабочей книге (In a new Workbook). В результате в первом случае будет создана электронная таблица с именем Spreadsheet1.sta, во втором случае - рабочая книга Workbook1.stw, включающая пустую электронную таблицу.
Для удаления/добавления случаев или переменных используются кнопки на панели инструментов соответственно Cases/Vars.
- задать заголовок таблицы, дважды щелкнув в области заголовка таблицы; задать информацию о данных (дополнительную информацию),для этого необходимо щелкнуть правой кнопкой мыши на значке таблицы в рабочей книге и в выпадающем меню выбрать пункт Properties. Далее задать необходимую информацию в диалоговом окне Document properties.
- задать имена и форматы переменных. Для вызова диалогового окна, в котором задаются имена и форматы переменных, дважды щелкнуть на имени переменной в электронной таблице, либо нажать кнопку Vars на панели инструментов и выбрать команду Specs… Далее ввести имя переменной - Name, тип переменной – Type, формат – Display format и комментарии к переменной – Long name.
- задать имена случаев (в случае необходимости), дважды щелкнув на имени случая в электронной таблице.
- ввести данные в созданную электронную таблицу.
В системе Statistica для удобной работы с переменными, принимающими текстовые значения, реализован механизм «двойной записи». Согласно этому соглашению, каждому текстовому значению переменной ставится в соответствие некоторое число. Оно может быть установлено автоматически или определено пользователем: в диалоговом окне задания спецификации переменной необходимо выбрать кнопку Text Values. Для переключения между двумя формами представления необходимо выбрать кнопку «ярлычок» на панели инструментов.
Преобразование данных
В электронных таблицах Statistica можно выполнить любые преобразования данных. Для этого в диалоговом окне задания спецификации пременной, в опции Long name задается формула, в соответствии с которой выполняется преобразование. Перед формулой всегда ставится знак равенства. В случае необходимости ввода комментария к переменной, комментарий ставится после формулы через точку с запятой. Математические функции, которые можно использовать в формулах, доступны после нажатия кнопки Functions.
Выбор модуля
Все модули Statistica доступны из пункта меню Statistics. В каждом модуле сгруппированы логически связанные между собой статистические процедуры. Обычно первым выбирают модуль Basic Statistics/Tables – Основные статистики/Таблицы, так как именно в этом модуле реализованы статистические методы предварительной обработки данных.