Проверка статистических гипотез

Настройкa

1. Открыть Statistica 7.

2. Tools à Options à Output manager à Place all results in à Workbook à Workbook containing the data file.

3. Tools à Options à General à Autosave à 3 min.

4. Tools à Options à General à Autosave à Recovery path.

5. Создать файл, задать 3 столбца, 14 строк.

6. Сохранить его в свою папку.

7. Задать вывод в отчет: File à Output manager à Also send to report window à Single report.

8. Variable spec… à Задать имена.

9. Убрать столбец Правой кнопкой.

Убирать надо по одному, иначе будет сбой!

Сводка

10. Скопировать данные по винам, проверить.

11. Построить график.

11.1. Меню à Graphs à Scatterplots.

11.2. Задать переменные

11.3. Определить, что будет X, что будет Y.

11.4. Нажать OK.

11.5. Сохранить график (отчет или рисунком в Word).

12. Скопировать данные по магазинам.

13. Самостоятельно построить график.

14. Проведите групповой анализ данных.

14.1. Определите количество интервалов. Их три или

k=1+int(3,322*lg(n)) = 1+int(log₂(n).

14.2. Найдите границы интервалов

14.3. Определите параметры поблочно: все.

14.4. Результаты группировки выведите в отчет.

15. Скопировать в новую таблицу и построить scatterplot. Что видно?

16. Исследовать реальную зависимость. Возможные источники данных:

· Показатели стран https://svspb.net/sverige/statistika-stran-mira.php (Рус).

· Уровень жизни https://kakdobratsyado.ru/rejting-stran-mira-po-urovnyu-zhizni-naseleniya/ (много) (Рус).

· Продолжительность жизни https://www.statdata.ru/prodolzhitelnost-zhizni-v-stranah-mira (Рус).

· Много данных, но старовато https://mostinfo.su/665-statisticheskie-dannye-stran-mira-po-dannym-vsemirnogo-banka.html (Рус).

· Средняя зарплата https://investorschool.ru/srednyaya-zarplata-po-stranam-mira-2016 (Рус).

· Много до 2013 https://data.cemi.rssi.ru/isepweb/socpokco.htm (Рус).

· Внешний долг https://total-rating.ru/1913-vneshniy-dolg-stran-mira-za-2016-god.html (Рус).

· Много https://total-rating.ru/1889-ekonomicheskie-sociologicheskie-geograficheskie-dannye-stran-mira-2016.html (Рус).

· Индекс процветания https://gtmarket.ru/ratings/legatum-prosperity-index/info (Рус).

· Рейтинги стран и регионов https://gtmarket.ru/research/countries-ranking (Рус).

· Регионы России https://www.gks.ru/bgd/regl/b16_14p/Main.htm (Рус).

· Демография https://www.indexmundi.com/g/r.aspx?t=0&v=24&l=en (Англ).

· Кое-что https://data.worldbank.org/ (Англ).

· Вообще все https://www.nationmaster.com/ (Англ).

· По спб, но не все https://www.gks.ru/dbscripts/munst/munst40/DBInet.cgi

17. Порядок работы.

17.1. Определить количество интервалов по вышеприведенной формуле.

17.2. Определить ширину интервала, разделив размах на количество интервалов. Размах определяется ка разница между максимальным и минимальным значениями.

17.3. Определить границы интервалов, прибавляя длину интервала к минимальному значению

17.4. Определить количество элементов, попавших в каждый интервал. Значения на границе относятся к следующему интервалу.

17.5. Построить график зависимости количества интервалов от номера интервала.

17.6. Описать полученный график: какой интервал содержит наибольшее количество значений; каковы границы этого интервала; симметричен ли график.

17.7. Произвести группировку в системе Statistica.

18. Содержание отчета.

18.1. График по таблице 1

18.2. Расчет количества и размера интервалов для таблицы 2.

18.3. Результаты группировки (табличные и графические) по таблице 2.

18.4. Таблица реальных данных (в отчете фрагмент, отдельным файлом – полная).

18.5. Описание порядка группировки

18.6. Результаты группировки.

Исследование выборки

1. Взять массив больших данных из работы 1. Открыть его в программе. Исследуемая переменная должна быть абсолютной.

2. Определить объем выборки.

3. Рассчитать требуемую абсолютную точность. Она должна быть равна ±10% от размаха

4. Зафиксировать достоверность результата, равную 95%.

5. Определить сигму выборочной средней. Указать, что такое сигма. 10% от размаха соответствует 2-м сигмам выборочной средней.

6. Рассчитать сигму генеральной совокупности Размах приближенно равен 6 сигмам генеральной совокупности.

7. Определить, во сколько раз сигма генеральной совокупности больше сигмы выборки.

8. Определяем число измерений: квадрат этого значения.

Для расчетов удобно использовать таблицу 1 и производить расчеты с помощью Excel.

Таблица 1Таблица для расчетов

Наименование переменной	№ стр	Формула расчета	Примечание
Точность		0,5	Задается заказчиком исследования как абсолютное отклонение от среднего значения
Достоверность		0,95	Задается заказчиком исследования. В работе фиксировано
Мин		Минимум в столбце данных	Можно также оценить путем рассуждений
Макс		Максимум в столбце данных
Среднее	5	Среднее значение в столбце данных	Для контроля. Это то, что требуется определить по выборке
Размах		=(стр 4) - (стр 3)	Оценка для шести сигм. Считается, что практически все значения лежат внутри
Сигма ГС		=(стр 6) / 6
Точность в сигмах выборочной средней, t			Определяется по таблице нормального распределения для 95%
Сигма выборочных средних		(стр 1) / (стр 8)
Отношение сигм		(стр 7) / (стр 9)
Число элементов выборки		Целое ((стр 10) * (стр 10))

9. Подберите такие значения точности, чтобы размер выборки был бы меньше размера генеральной совокупности.

10. Дополнительно. По исходным данным произведите расчеты, учитывая малые размеры генеральной совокупности по формуле

Сравните получившиеся результаты. Выберите минимальное значение из двух оценок.

11. Произведите выборку из исходного массива данных.

11.1. Data à Subset/Random sampling à <Выбрать переменную> à Вкладка Simple Sampling à Simple random sampling.

11.2. Вкладка Options à Use Diehard-certified random number generator (note: this algorithm is slower) à Calculate based on approximate N.

11.3. Вкладка Simple Sampling à <задать число элементов выборки> à With replacement à OK. Появится новое окно с выборкой.

11.4. Добавить оба листа в новую рабочую книгу. Add to workbook.

12. Сделать всего 6 выборок аналогично п. 11.

13. Перенести все выборки в общий рабочий лист, добавив столбцы. Результат – таблица с 6 короткими столбцами = выборками.

14. Удалить лишние листы. Остается: исходная таблица и таблица выборок.

15. Провести анализ полученных результатов. Statistics à Basic statistics/Tables à t-test. Single sample à Test all means against à <введите среднее значение генеральной совокупности> à Summary t-tests.

Укажите, какие выборки дали достоверный результат.

16. Из таблицы возьмите среднее значение (Means), стандартную ошибку выборки (SE). Запишите результат для каждой выборки в формате:

<Среднее> ± 2*<Стандартная ошибка> с достоверностью 95%.

17. Дополнительно. Постройте диаграммы «ящик с усами» разных модификаций (кнопка Box & Whisker plot), объясните результаты. SD – сигма выборки, SE – сигма выборочных средних.

18. Содержание отчета:

18.1. Исходные данные (возможно, фрагмент, но должен быть также файл с полными данными).

18.2. Параметры исследования: точность, достоверность.

18.3. Порядок определения размера выборки.

18.4. Таблица всех выборок

18.5. Результаты оценки всех выборок (таблица из Statistica).

18.6. Результаты оценки среднего значения по всем выборкам.

18.7. Диаграммы «ящик с усами» и их интерпретация.

Проверка статистических гипотез

Одномерный анализ

Задача. Разработан новый продукт, выпускаемый в трех видах упаковки: маленькой, средней и большой.

Прошлый опыт производителя говорит о том, что обычно на одну проданную маленькую упаковку приходится четыре средних и три больших (нуль-гипотеза).

Требуется проверить справедливость этой гипотезы.

Имеются результаты продаж: 120 маленьких упаковок, 550 средних и 330 больших; всего – 1000.

1. Создайте таблицу вида таблицы 2. Как видно из рисунка, первая переменная содержит ожидаемые данные, а вторая – измеренные.

Таблица 2 – Данные для анализа

2. Выберите Statistics à Nonparametrics à Observed versus expected X².

3. Задайте переменные: наблюдаемую (observed) и ожидаемую (expected).

4. Нажмите OK. Результат будет представлен в следующей таблице (таблица 3).

Таблица 3.

Первые два столбца повторяют таблицу исходных данных, в третьем столбце содержится их разность, последний служит для вычисления критерия хи квадрат. Можно отметить, что если измеренные значения точно совпадают с наблюдаемыми, критерий хи квадрат будет равен нулю. В нижней клетке последнего столбца дано значение критерия хи квадрат для данной задачи.

5. Сделайте вывод по полученным результатам. В верхней части еще раз указано значение критерия хи квадрат, дано количество степеней свободы для данной задачи, а также значение р – вероятности того, что гипотеза о совпадении измеренных и ожидаемых значений верна. Видно, что она меньше 0,05, поэтому гипотеза отвергается в пользу гипотезы о том, что исходное предположение о соотношении 1:4:3 неверно.

6. Проведите аналогичный анализ для следующего примера: требуется определить, зависит ли процент первичных пациентов с кариесом от месяца рождения. Данные взяты из https://ms-intern.livejournal.com/5551.html. Количество больных по месяцам:

6, 4, 2, 1, 1, 3, 6, 6, 0, 1, 5, 4.

Рисунок 1 – количество первичных пациентов с кариесом по месяцам рождения

7. Задача: если среднее количество посетителей магазина меньше 100 человек в день, то требуется принять меры по его увеличению. В противном случае ничего предпринимать не надо. Требуется проверить гипотезу о том, что количество посетителей не больше 100 человек в день.

Наблюдение проводилось в течение 10 дней, получены следующие данные:

94, 100, 105, 106, 106, 106, 106, 107, 112, 118.

Метод: t-тест. Описание – в п. 8.

Многомерный анализ

8. Исследователь хочет узнать, есть ли разница в уровнях успеваемости студентов разных специальностей по дисциплине статистика. Для этого он выбрал по 50 студентов разных специальностей и взял их оценки. Они находятся в файле Excel. Требуется поверить, различаются ли среднее значения оценок в группах.

8.1. Скопируйте данные в Statistica.

8.2. Выберите Statistica à Basic statistics/tables à t-test, independent, by variables à OK.

Для простоты делается допущение, что дисперсии двух генеральных совокупностей равны. Данное допущение должно обосновываться. Учтет их различия усложняет анализ.

8.3. Variables à <Выберите переменные>.

8.4. Нажмите ОК, затем – Summary. Отобразится таблица

Из нее видно, что различие между средними значениями составляет 0,76 стандартных отклонений, что обеспечивает вероятность нуль-гипотезы: «различий в средних значениях нет», равную 0,44. Это не позволяет ее отвергнуть. Поэтому делается вывод о том, что средние значения одинаковы.

Исследователь хочет узнать, как влияет продолжительность лекции на успеваемость студентов. Допустим, он избрал следующий путь: из 200 студентов случайно выбрал 50 человек и в течение месяца наблюдал за их успеваемостью. Далее он увеличил продолжительность лекций на 10 минут и в течение следующего месяца смотрел на успеваемость все тех же 50 студентов. Потом он сравнил результаты каждого студента до и после увеличения продолжительности лекции. Выдвигаемая содержательная гипотеза: продолжительность лекции влияет на успеваемость студента. Отличие от предыдущего случая состоит в том, что здесь выборки зависимы: более правильно узнать разницу в оценках каждого отдельно взятого студента, а затем определить среднюю разницу среди всех студентов.

8.5. Скопируйте данные в Statictica.

8.6. Выберите Statistica à Basic statistics/tables à t-test, dependent samples à OK.

8.7. Variables à <Выберите переменные>.

8.8. Нажмите ОК, затем – Summary. Отобразится таблица

Интерпретация результатов аналогична.

Проверка статистических гипотез

Поиск по сайту