Основные описательные статистики




 

1. Вводим исходные данные – уровень рождаемости в России по регионам за 2012 год

 

2. Вычисляем основные описательные статистики

- среднее

-стандартное отклонение

-дисперсия

- максимальное и минимальное значения

-медиана

-нижняя и верхняя квартили

-мода

Mean - среднее значение(математическое ожидание выборки);

Median – возможное значение признака, которое делит ранжированную совокупность (вариационный ряд выборки) на две равные части: 50 % «нижних» единиц ряда данных будут иметь значение признака не больше, чем медиана, а «верхние» 50 % — значения признака не меньше, чем медиана;

Mode – значение во множестве наблюдений, которое встречается наиболее часто (Мода = типичность); иногда в совокупности встречается более чем одна мода; в этом случае можно сказать, что совокупность мультимодальна;

Lower&Upper Quartiles – вместе с медианой они делят вариационный ряд на 4 равные части; квартилей две, их обозначают символами Q, верхняя и нижняя квартиль; 25% значений меньше, чем нижняя квартиль, 75% значений меньше, чем верхняя квартиль;

Variance – дисперсия – это мера разброса случайной величины. Дисперсия равна 200.8, следовательно мера рассеивание величин большое.

Std. Dev – среднее квадратичное отклонение – это показатель рассеивания значений случайной величины относительно ее математического ожидания.

Skewness – коэффициент асимметрии – это величина, характеризующая асимметрию распределения случайной величины. Коэффициент асимметрии 1,89, данная цифра больше 0.5, следовательно асимметрия считается значительной. Медиана меньше среднего, следовательно асимметрия положительная.

Kurtosis – эксцесс (коэффициент островершинности) в теории вероятностей – мера остроты пика распределения случайной величины. Эксцесс равен 4,16 > 0, следовательно распределение островершинное и скачок значительный.

3. Строим гистограмму распределения частот с наложением кривой нормального распределения, определяя показатели статистик Колмогорова-Смирнова и Лилифорса

 

 

 

Одновыборочный критерий нормальности Колмогорова-Смирнова основан на максимуме разности между кумулятивным распределением выборки и предполагаемым кумулятивным распределением. Если d статистика Колмогорова-Смирнова значима, то гипотеза о том, что соответствующее распределение нормально, должна быть отвергнута. Выводимые значения вероятности основаны на тех значениях, которые табулированы Massey (1951); они допустимы, если среднее и стандартное отклонение нормального распределения известны априори и не оцениваются из данных. Однако, обычно эти параметры вычисляются непосредственно из данных. В этом случае критерий нормальности включает сложную гипотезу ("насколько вероятно получить d статистику данной или большей значимости, зависящей от среднего и стандартного отклонения, вычисленных из данных"), и поэтому вероятности Лиллиефорса нужно приводить.

Рассмотрим следующие гипотезы:

Н0-коэффициент Колмогорова-Смирнова незначимый

Н1- коэффициент Колмогорова-Смирнова значимый

Рассмотрим условие выбора гипотезы Dрас>=Dтаб.

Имея значение коэффициента Колмогорова-смирнова равным 0.24096 посмотрим табличные значения для n=10 и степени доверия 0.10. D(0.10)=0.39. Значение опытного коэффициента меньше чем табличное, на основе чего можно сделать заключение, что принимается гипотеза Но.

Следовательно, т.к. коэффициент незначимый, делаем вывод что распределение близко к нормальному, однако так как коэффициент асимметрии близок к 1, распределение асимметрично, а, следовательно, нормальным быть не может.

Часть 2

4. Выбираем в качестве данных, предположительно зависящих друг от друга, уровень безработицы и заработной платы по регионам России за 2012 год

5. Вычислим коэффициенты ранговой корреляции Спирмена и Кендалла, определим частный парный коэффициент корреляции

 

В первом столбце Valid N указано общее количество наблюдений, в столбце Spearmen R значение коэффициента ранговой корреляции Спирмена, в столбце t (N-2) соответствующая коэффициенту R t -статистика (расчетное значение), в столбце p-level соответствующий t -статистике уровень значимости.

Коэффициент ранговой корреляции Спирмена - это непараметрический метод, который используется с целью статистического изучения связи между явлениями. В этом случае определяется фактическая степень параллелизма между двумя количественными рядами изучаемых признаков и дается оценка тесноты установленной связи с помощью количественно выраженного коэффициента.

В данном случае значение коэффициента Спирмена равно -0,8. Следовательно признаки тесно связаны друг с другом обратной зависимостью.

Проверка значимости при 95% доверительной вероятности:

H0 – коэффициент Спирмена незначимый;

H1 – коэффициент Спирмена значимый.

tрасч. = -5.74682

tтабл. = 2,100922

| tрасч.| > tтабл. => коэффициент Спирмена значимый при 95% доверительной вероятности, следовательно, отвергаем гипотезу

 

 

Проверка значимости при 99% доверительной вероятности:

H0 – коэффициент Спирмена незначимый;

H1 – коэффициент Спирмена значимый.

tрасч. = -5.74682

tтабл. = 2,878440

| tрасч.| > tтабл. => коэффициент Спирмена значимый при 95% доверительной вероятности, следовательно, отвергаем гипотезу

Коэффициент ранговой корреляции Кендалла:

В первом столбце Valid N указано общее количество наблюдений, в столбце Kendall Tau значение коэффициента ранговой корреляции Кендалла, в столбце Z соответствующая Tau (τ) Z-статистика (расчетное значение), в столбце p-level соответствующий Z -статистике уровень значимости.

Коэффициент Кендалла равен -0,63, следовательно, между параметрами есть достаточно тесная обратная связь.

Проверка значимости при 95% доверительной вероятности:

H0 – коэффициент Кендалла незначимый;

H1 – коэффициент Кендалла значимый.

zрасч. = -3.89331

zтабл. = 2.570

| zрасч.| > zтабл. => коэффициент Кендалла значимый при 95% доверительной вероятности, следовательно, отвергаем гипотезу

Проверка значимости при 95% доверительной вероятности:

H0 – коэффициент Кендалла незначимый;

H1 – коэффициент Кендалла значимый.

zрасч. = -3.89331

zтабл. = 3.372

| zрасч.| > zтабл. => коэффициент Кендалла значимый при 95% доверительной вероятности, следовательно, отвергаем гипотезу

На основе проведенных исследований значений коэффициентов, можно сделать вывод, что связь между уровнем з\п и уровнем безработицы средняя

 

Частный, парный коэффициент корреляции:

 

 

Парный и частный коэффициенты корреляции характеризуют тесноту линейной зависимости между двумя переменными соответственно на фоне действия и при исключении влияния всех остальных показателей, входящих в модель. Они изменяются в пределах от -1 до +1, причем, чем ближе модуль коэффициента корреляции к 1, тем сильнее зависимость между переменными. Если коэффициент корреляции больше нуля, то связь положительная, а если меньше нуля — отрицательная. В данном случае зависимость является средней и обратной.

Частный к.к. показывает связь между ДВУМЯ переменными при исключении влияния ВСЕХ остальных (нет такого - 6 исключил, 4 оставил). Это как бы условное двумерное распределение. У него и почти все свойства такие же, как у парного...
А смысл парного и частного очень простой и важный - их СРАВНЕНИЕ позволяет сделать вывод, как влияют ОСТАЛЬНЫЕ переменные на связь между этими двумя:
- если парный больше частного - то остальные переменные усиливают связь между этими двумя переменными,
- если парный меньше частного - то остальные переменные ослабляют связь между этими двумя (бывает, что так "зашумляют", что делают ее даже незначимой, а связь тем не менее есть)
Важны оба - парный показывает связь, реально существующую в системе из множества переменных, а частный - как обстоит дело между ними без влияния всех остальных.

 

Большой разницы между критериями Кендалла и Спирмена нет, но считается что:

- коэффициент Кендалла является более «содержательным», так как он более полно и детально анализирует связи между переменными, перебирая все возможные соответствия между парами значений

- коэффициент Спирмена более точно учитывает именно количественную степень связи между переменными

 

Коэффициент конкордации

Оценим Офис по следующим 20 параметрам

 

Проведем вычисления:

Коэффициент конкордации равен 0,38843. Из этой таблицы следует, что коэффициент конкордации незначим при p<0.00817.

Таким образом, мы можем сделать вывод о том, что эксперты расходятся во мнениях относительно инфраструктуры офиса и качества работы в нем.

Проверим при p = 0,02.

H0 – коэффициент конкордации незначимый;

H1 – коэффициент конкордации значимый.

tрасч. = 36,3618

tтабл. =37,52

| tрасч.| < tтабл. => коэффициент конкордации незначимый.

 

Проверим при p = 0,03.

H0 – коэффициент конкордации незначимый;

H1 – коэффициент конкордации значимый.

tрасч. = 36, 3618

tтабл. = 36,01

| tрасч.| > tтабл. => коэффициент конкордации значимый.

 

Оценки

Рассмотрим следующие способы оценки:

-оценку методом моментов

-оценку методом максимального правдоподобия

- оценку методом порядковых статистик

СТАТИСТИЧЕСКАЯ ОЦЕНКА - функция от случайных величин, применяемая для оценки неизвестных параметров теоретического распределения вероятностей. Методы теории оценивания служат основой современной теории ошибок; обычно в качестве неизвестных параметров выступают измеряемые физические постоянные, а в качестве случайных величин - результаты непосредственных измерений, подверженные случайным ошибкам.

 

N = 10:

 

 

 

 

Можем сделать вывод, что оценка максимального правдоподобия(А2) точнее медианной оценки(А3).

 

 

N = 40:

 

 

Можем сделать вывод, что оценка максимального правдоподобия(А2) точнее медианной оценки(А3).

 

N = 160:

 

Можем сделать вывод, что оценка максимального правдоподобия(А2) точнее медианной оценки(А3).

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-04-26 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: