Задача: трансформация сырых данных.




ЛЕКЦИЯ 1 10.02.2016

 

Вторая часть – Будем решать задачи. Первая часть – группа методов и процедуры.

Решение типичных задач по обработке типичных данных.

 

Задача: специфицировать переменные.

СПСС: есть разные типы данных. Можем открывать ексель, текст, разные базы данных (Лотус, Дибейс и т.д.). Все файлы имеют расширение SAV (не зависит от версии). Файлы результатов в боле старых версиях не открываются в более новых.

В СППС есть два режима: режим визуализации «Данных» и режим визуализации «Переменных».

Данные всегда надо приводить в порядок: описание спецификаций (что означают).

Спецификация переменной.

· Краткое название (компактное название) и длинное (метка – полное развернутое название).

Все названия будут использоваться сразу в статьях, дипломе.

· Типы переменных: числовая, текстовая (пол, религия и т.д.).

Кодируем как текстовую, а хотим числовые операции.

· Шкала – принимаем решение сами. По какой шкале проведено измерение.

Шкалы зависят от типов и уровней отношений, которые они выражают. Надо понимать – какой уровень измерения я получу.

Проблема: кодирую числом, но забываю, что она означает. М – 1, Ж – 2. Что стоит за двойкой – ничего. В США помнят про сексизм. Когда качественные преобразуем в числа, мы должны понять природу измерения. По школе наименований (номинативная) – если разные объекта разные числа, то есть одно свойство – отличается одно од другого. Шкала классификации.

Порядковая. Когда нужно отношение – способ сопоставить чего то, с чем то (во сколько раз, на сколько и т.д.). Например, шкала интроверсии – ставят стены. Отображают и качество и порядок.

Наименования (номинальная) – качественные различия (одно отношение)

Интервалы (количественная)– децибелы, стены, баллы. Устанавливаем насколько больше, насколько меньше. Мы вводим единицы измерения – средства измерения.

Шкала отношений. Вводится абсолютный ноль, тогда можем ввести отношения во сколько раз.

В СПСС отношений и интервалов слиты (сложно доказать абсолютный ноль). Говорим – количественные.

Например, возраст вступления в брак – отношения. Можно сравнить относительно нуля.

 

· Количество десятичных знаков.

По умолчанию добавляется 2. Нам не нужны для пола, родственников и т.д.

· Пропущенные значения.

Кто-то не пришел, потеряли. Надо сказать СПСС чтобы он пропустил эти данные, не включал. Иначе нулевое, пропущенное значение попадет в расчеты. Чтобы избегать пустых, можно ставить значение, которого не может быть – 999.

Показываем, что именно это есть пропущенное значение. Если мы не пометили. СПСС поставит сам «.» и будет знать, что это значение пропущенное.

 

Итого режим работы с переменными означает, что мы должны описать переменными, чтобы мы понимали, что они означают, чтобы СПСС понимал как с ней работает.

 

ВАЖНО: Уровень измерений определяет методы анализа, конкретный набор процедур.

 

 

Задача: Как ввести данные.

Можно ввести создав список переменных, можно копировать из екселя и ворда, промежуточный экспорт в ексель, а потом в СПСС

Вкладка «Данные».

Файл-открыть-данные-расширение выбираем и т.д. Важно чтобы переменные были подписаны, чтобы открытие было более корректным.

Результаты.

Можно открывать файлы с результатами: Вывод (графики, подписи).

Синтаксис.

Там фиксируются все команды, которые мы делаем – компактный список строк, что мы делали (можно отправить по электронной почве и тому, кому послали, может все повторить).

Скрипт.

Пишет программист (С.Бэсик, Перл). Подключаем и имеем свои статистические процедуры. Сами развиваем.

 

Задача: трансформация сырых данных.

Данные-Преобразовать (выбираем процедуры)

Например, сортировка наблюдений. Хочу отсортировать по значению какой-то переменной, убрать лишних из анализа (важно для больших списков). Выбираю слева поля в окне фильтра.

 

ВАЖНО: по срокам испытуемые по колонкам переменные (если по-другому, то делаем транспонирование матрицы, в СПСС есть).

 

Отобрать наблюдения.

Смотрим по условию, ставим «Если выполнено условие». Вставляем в строку условие. Например, пол=1. Ставим в Выводе: отфильтровать неотобранные наблюдения.

Например, отбираем молодых. До 25 лет.

 

Слить файл.

Добавить новые методики, добавить от разных экспертов которые собирают. Супервизор сливает как по горизонтали, так и по вертикале.

Четко представляем – наблюдение – по вертикале, переменные, по горизонтали.

Важно: если доливаем испытуемых, то обязательно должно совпадать количественно переменных, названия переменных. Поэтому вначале делается ШАБЛОН. Если сливаем по переменным, то набор испытуемых должен быть аналогичным. ФОРМАТ должен быть един.

 

Взвесить наблюдения.

Если данные весят по-разному (я студент, они эксперт, третий супервизор). Тогда оценкам данным одним придают большее значение, каким-то меньшее значение. В некоторых регрессионных моделях учитываются веса испытуемых.

Как делать: заводим вручную.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-08-08 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: