На основе стандартной ошибки можно рассчитать, насколько точно качество в выборке соответствует качеству в генеральной совокупности. Стандартная ошибка - это вид стандартного отклонения для выборочных средних.
По каждой из разных выборок справедливо: чем ближе качество к среднему для выборки, тем больше вероятность того, что оно появится. НО в рандомизированной (случайной) выборке для всех одинаковы шансы в нее попасть – т.е. может существовать сильно смещенная выборка, но вероятность этого мала.
Смещенная выборка – соотношение разных категорий населений не соответствует генеральной совокупности.Напр. в репрезентативной выборке «профессии Беларуси» у всех равные шансы попасть в выборку, но есть малый процент вероятности, что в выборку попадут представители какой-то одной профессии.
Т-статистика – это стандартизированная разность между заданной величиной и средним значением. Мы вычисляем, на сколько стандартных отклонений величина отличается от среднего. Стандартизация – когда нечто измеряется не в баллах, а в стандартных отклонениях (s.d.).
Формула
Правило 3 сигм (действенно ТОЛЬКО для нормального распределения) – 99% значений укладывается в рамки трех сигм/стандартизированных единиц измерения:
Доверительный интервал дает ответ на вопрос, является отклонение от среднего случайным или нет. В рамках 5% отклонение – это неизбежная погрешность измерения. А то, что выходит за рамки 5% - это значимое отклонение.
Аналитическая статистика
Критерий – мерило оценки гипотезы, т.е. с его помощью проверяется, насколько значимо отличие между теоретическими и эмпирическими значениями и т.п. Существует 2 типа критериев:
|
1) Параметрические – в вычислении этих критериев используются среднее арифметическое и дисперсия. Используются только при нормальном распределении.
2) Непараметрические – критерии, в формуле которых не фигурирует выше сказанное. Применяются на качественных шкалах и количественных шкалах с ненормальным распределением; могут так же применяться, когдараспределение близко к нормальному. С помощью некоторых из них можно проверять распределение на нормальность (напр., критерий Колмагорова-Смирнова).
Когда выборка слишком маленькая (меньше 100), проверить распределение на нормальность невозможно. Чем больше кейсов, тем проще определить нормальность распределения.
старт |
Непарам. критерий |
Шкала колич.? |
Нет |
Определить тип шкалы |
Да |
Проверить распр. на нормальность |
Распр. норм.? |
Парам. |
Непарам. |
Да |
Нет |
5 типов задач аналитической статистики
1. Гипотеза о различиях по количественному параметру.
Напр. у студентов БГУ, которые носят шляпы, степень конформности в проведенных тестах выше, чем у студентов БГУ, которые не носят шляпы. Н0 – отличий нет; Налт. – отличия есть. Степень конформности может быть выражена в баллах.
2. Изучение различий эмпирического и теоретического распределения (на номинальных шкалах).
Напр. сравниваем эмпирическое распределение с теоретическим:
· Действительно ли большинство студентов-биологов из Минска предпочитают синие рубашки, или различие не будет значимым?
· Белорусы в возрасте от 40 до 80 лет предпочитают грейпфруты. Варианты ответов в тесте дихотомические. Н0 – отличий нет; Налт. – отличия есть.
|
3. Различия между данными 2-ух эмпирических исследований (используем таблицу сопряжённости, χ2; на номинальных шкалах).
Напр. проводим тест на определение типа темперамента среди учащихся гимназии №48 и школы № 32; предполагаем, что среди гимназистов будет больше меланхоликов, чем среди школьников. Н0 – не существует различий по встречаемости типов темпераментов среди двух выборок; Налт. – существуют различия по встречаемости типов темпераментов среди двух выборок.
4. Гипотезы о связи (чем больше одного, тем меньше другого, или наоборот)
Предполагая связь, мы не знаем, что на что влияет. Корреляция не есть каузация (причинность).
Корреляция (соотношение) – количественно замеренная связь.
Напр. чем выше уровень апатии у студентов БГУ во время сессии, тем ниже уровень тревожности.Н0 – связи нет; Налт. – связь есть.
Гипотезы о влиянии.
Есть две переменные – номинальная (дихотомическая) и количественная.
Напр. когда человеку показывают изображение слона, то его ответные реакции на визуальные стимулы затормаживаются. Н0 – влияния нет; Налт. – влияние есть.
Корреляция не есть каузация(причина) – причинность.
Проблема эндогенности – не ясно, где первичные, а где вторичные причины.
Критерии различия для колич. параметров
Общие условия: 2 несвязанные выборки и 1 общий параметр.