Федеральное агентство по образованию УФИМСКИЙ ГОСУДАРСТВЕННЫЙ АВИАЦИОННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ




СОДЕРЖАНИЕ

 

ВВЕДЕНИЕ................................................................................................................................. 4

 

ИСХОДНЫЕ ДАННЫЕ....................................................................................................... 5

 

ЗАДАНИЕ И МЕТОДИКА РЕШЕНИЯ..................................................................... 5

 

ОБЩИЕ РЕКОМЕНДАЦИИ.......................................................................................... 31

 

ОФОРМЛЕНИЕ РЕЗУЛЬТАТОВ............................................................................... 31

 

ПРОЦЕДУРА ЗАЩИТЫ.................................................................................................. 32

 

КОНТРОЛЬНЫЕ ВОПРОСЫ........................................................................................ 33

 

СПИСОК ЛИТЕРАТУРЫ................................................................................................ 33

 

ПРИЛОЖЕНИЯ..................................................................................................................... 34


 

 


ВВЕДЕНИЕ

 

Общая теория статистики включает два крупных раздела: описательную статистику и аналитическую статистику. Методы описательной статистики охватывают сбор информации, группировку данных, построение статистических таблиц и графиков, а также вычисление основных статистических показателей. К аналитической статистике обычно относят такие темы, как выборка, вариация, корреляция, регрессия, динамика, структура и индексы.

 

Задачи в составе курсового проекта по статистике позволяют освоить базовые статистические методы. Для использования этих методов требуется понимание соответствующих разделов общей теории статистики. Кроме того, здесь используются результаты соответствующих разделов теории вероятностей и математической статистики.

Расчеты в процессе курсового проектирования выполняются с помощью калькулятора, графики строятся на миллиметровой бумаге. Выполнение всех операций «вручную» позволяет получить глубокое понимание статистических методов и освоить практические навыки статистической обработки данных. Такое понимание статистических «инструментов» позволяет в дальнейшем осмысленно и осознанно использовать любые компьютерные статистические программы и легко выявлять грубые ошибки.


 


ИСХОДНЫЕ ДАННЫЕ

 

В качестве номера варианта используется номер зачетной книжки студента. Текстовый файл с исходными данными содержит пять столбцов целых чисел (табл.1).

 

Т а б л и ц а 1

 

Описание набора исходных данных

 

№ столбца Переменная Описание
N Номер элемента выборки
     
X Значения признака xi
     
Y Значения признака yi
     
Z Значения признака zi
     
G Уровни ряда динамики gt
     

 

Пример файла данных приводится в Приложении 1.

 

 

ЗАДАНИЕ И МЕТОДИКА РЕШЕНИЯ

 

Выполните статистическую обработку исходных данных, решая следующие задачи. При решении некоторых задач используются результаты решения предыдущих задач.

 

Задача 1

 

Вычислите показатели вариации по каждой из выборок X, Y, Z:

 

• среднее арифметическое;

 

• моду;

• медиану;

• размах вариации;

• дисперсию;

• стандартное отклонение;

• среднее линейное отклонение;

• коэффициенты осцилляции и вариации.

 

Методика решения

 

Показатели вариации вычисляются следующим образом.


 


Среднее значение –средняя арифметическая простая:

n

xi

 

x = i=1, n

где n – объем выборки.

Мода –значение признака,встречающееся чаще всего.Длянахождения моды необходимо расположить все исходные данные в порядке возрастания. Повторяющиеся значения записывают столько раз, сколько они попадаются в исходном массиве. Затем нужно выбрать значение с максимальной частотой:

Mo =arg max ni .

xi

Медиана –центральное значение вариационного ряда.

 

Используется построенный ранее ряд значений признака, отсортированных по величине. Если объем выборки нечетный, берем центральное значение; если объем выборки четный, берем среднее арифметическое двух центральных значений:

xn+1,   если n − нечетное  
                 
             
          .  
Me = xn + xn  
            +1    
, если n − нечетное  
       
         
             

Размах вариации –разность максимального и минимальногозначений:

R = xmax xmin .

Дисперсия –средний квадрат отклонения от среднего значения:

n

∑(xix)2

D = i=1   .  
     
    n −1  

Стандартное отклонение –квадратный корень из дисперсии:

σ= D .

Среднее линейное отклонение –средний модуль отклонения отсреднего значения:

n

xi x

    = i=1   .  
d  
     
        n  

 


Относительные показатели вариации вычисляют какотношение абсолютного показателя к среднему значению, выраженное в процентах.

 

Коэффициент осцилляции:

 

VR = R ⋅100% . x

 

Линейный коэффициент вариации:

 

Vd = d ⋅100% . x

Коэффициент вариации:

 

Vσ=σ⋅100%. x

 

Выборка считается однородной, если V < 30 %.

Для вычислений заполняется вспомогательная таблица (табл.2). Т а б л и ц а 2

 

Расчет показателей вариации

 

xi     xi x     (x   )2  
     
    x  
                i  
                       
Σ                      

 

Задача 2

 

По каждой из выборок X, Y, Z:

 

• проведите группировку данных по интервалам равной длины;

 

• составьте вариационный ряд;

• вычислите относительные частоты и накопленные частости;

• постройте полигон, гистограмму и кумуляту;

• нанесите на график кумуляты график накопленных частот без группировки.

 

Методика решения

 

Вариационный ряд –это значения признака(или интервалызначений) и их частоты. Вариационный ряд позволяет по фактическим данным оценить форму закона распределения.

 

При группировке данных вначале выбирают число интервалов группирования и границы интервалов. Интервалы должны полностью охватывать все значения признака в изучаемой выборке. Желательно


 


выбрать интервалы равной длины с «круглыми» границами. Например, если минимальное значение равно 22, а максимальное значение составляет 57, то можно выбрать следующие интервалы:

 

(20 .. 30), (30 .. 40), (40 .. 50) и (50 .. 60).

 

Ориентировочное число интервалов можно определить по формуле Стерджесса:

k =1+3,32⋅lg n ,

 

где k – число групп;

 

n –объем выборки(число единиц совокупности).

 

Поскольку группировка данных нужна для изучения формы распределения, используются следующие соображения. С одной стороны, число интервалов должно быть достаточно большим, чтобы изучить форму распределения. С другой стороны, число интервалов не должно быть слишком большим – тогда в каждый диапазон попадет несколько единиц совокупности. Желательно избегать получения малочисленных или «пустых» групп.

 

После формирования групп подсчитывают абсолютные частоты –число«попаданий»признака в каждый интервал,т.е.число объектов в каждой группе. Каждая единица совокупности xi

 

учитывается только один раз. Если значение оказывается на границе интервала, его относят к «левому» интервалу и не учитывают в «правом» интервале. Таким образом, интервалы выглядят следующим образом: [20 .. 30], (30 .. 40], (40 .. 50] и [50 .. 60] (табл.3).

 

Здесь квадратные скобки означают включение границы в интервал; круглые скобки – игнорирование граничного значения.

Т а б л и ц а 3

Группировка данных

 

xi ni ni , % Ki , %
20 .. 30      
30 .. 40      
40 .. 50      
50 .. 60    
Σ  

 

Частости –относительные частоты,выраженные в процентах:

 

ni (%)= ni ⋅100% . n

 


 


Накопленные (кумулятивные)частости:

 

Ki =∑i n j . j=1

 

Каждая накопленная частость – сумма текущей частости и всех предыдущих.

Для упрощения можно складывать текущую частость и предыдущую кумулятивную частоту:

Ki = ni + Ki1,

При этом считаем, что кумулята начинается с нуля: K0 = 0 .

 

Алгоритм расчета кумуляты представлен на рис.1.

 

Если расчеты выполнены без ошибок, сумма частостей и последняя накопленная частота будут равны 100 %.


 

n1

+

n2

 

+

n3


 

K1= n1

K2= K1+ n2

K3= K2+ n3


 

Рис. 1.Вычисление кумуляты

 

Графическое изображение вариационного ряда представляет собой эмпирическую оценку формы теоретического распределения. Гистограмма и полигон соответствуют плотности вероятности, а кумулята – функции распределения.

 

Гистограмма –столбиковая диаграмма частот.Основаниекаждого прямоугольника соответствует интервалу группировки. Высота столбика – частость.

Полигон частот –изображение вариационного ряда с помощьюломаной линии. Для построения полигона достаточно соединить отрезками прямых линий верхние стороны прямоугольников (рис.2).

Кумулята –изображение накопленных частостей,обычно в виделоманой линии. По существу, кумулята – это интеграл от гистограммы (рис.3).

График накопленных частот может быть построен и без группировки данных. Для этого выборку упорядочивают по


 

 


возрастанию; каждое новое значение признака прибавляет к накопленной частоте величину:

 

n =1⋅100% . n

 

В этом случае приращение графика кумуляты происходит скачком в каждой точке xi . Если встречается несколько одинаковых

 

значений xi , то величина приращения ∆n умножается на число одинаковых элементов. График начинается с нуля и растет до 100 %.

 

 

Рис. 2.Гистограмма и полигон

 

Рис. 3.Кумулята


 


Задача 3

 

По сгруппированным данным и графикам определите:

 

• среднее арифметическое;

 

• моду;

• медиану.

Сравните результаты с решением Задачи 1.

 

Методика решения

 

При расчетах по группированным данным учитывается относительная частота появления каждого варианта (табл.4).

 

Среднее значение –средняя арифметическая взвешенная:

k

(xi ni )

 


x = i=1


k

ni


 

.


 

i=1

Т а б л и ц а 4

 

Расчет среднего значения

 

xi       ni x i ni  
  x i  
10 .. 20        
               
             
           
50 .. 60        
             
Σ          

 

Здесь в качестве среднего значения по интервалам xi можно

приближенно принять центр интервала группирования.

 

Мода –это координата основания самого высокого столбикагистограммы, т.е. модального интервала. Распределение может иметь несколько мод. В качестве оценки моды используют не середину модального интервала, а скорректированное значение (рис.4).

 

Медиана определяется как50 %-й квантиль(рис.5).Этоаргумент функции распределения, при котором вероятность равна

0,5 = 50 %:

Me : F(Me)=0,5=50%;

Me = F 1(0,5) .

 

Медиана делит упорядоченную совокупность пополам.


 


 

Рис. 4.Графическое определение моды

 

 

Рис. 5.Графическое определение медианы

 

Оценки моды и медианы, полученные по результатам группировки могут отличаться от оценок показателей, полученных без группировки. Группировка данных – это обобщение, укрупнение, при котором могут теряться отдельные мелкие подробности, но зато становится видна «картина в целом».

 


Задача 4

 

Постройте корреляционное поле. Проведите группировку Y и Z , используя X как группировочный признак. Вычислите условные средние Yx , Z x . Нанесите линию эмпирической регрессии на корреляционное поле.

 

Методика решения

 

Корреляционное поле (поле корреляции,диаграмма рассеяния) –это графическое изображение исходных данных. Каждый изучаемый объект (единица совокупности) характеризуется парой значений {xi , yi } и изображается точкой. Поскольку объекты в составе

 

выборочной совокупности считаются независимыми, точки на графике не соединяют линями. График должен быть достаточно большим, чтобы его можно было легко анализировать. Масштаб по координатным осям выбирается так, чтобы эффективно использовать все доступное место на графике. Для этого определяют минимальное и максимальное значение для X и Y, затем округляют их в меньшую и большую сторону соответственно – до ближайшего «стандартного» круглого числа.

 

Группировка данных –это деление совокупности на группыединиц по какому-либо признаку. Этот признак называют группировочным.Группировка позволяет оценить характерзависимости между переменными путем вычисления условного среднего.

 

Условное среднее значение –это среднее значение одногопризнака при условии, что другой признак принимает заранее заданное фиксированное значение:

      k    
      yi    
y X = µ( y | x = X ) ≈ i=1 i : x = X .  
   
    k i  
         

При вычислении условных средних значений подсчитывают средние y X и zX для каждой группы единиц в зависимости от

 

значения группировочного признака х (табл.5).

Например, при изучении предприятий их можно сгруппировать по численности работников и найти средний доход для каждого вида предприятий. В этом случае численность работников X выступает в роли группировочного признака. При расчете среднего дохода по


 


каждой группе предприятий yX используются значения признака Y только для тех единиц совокупности, которые относятся к выбранной группе по X.

 

Т а б л и ц а 5

Условные средние

 

xi     niyj     z j z x  
x i y x  

10 .. 20

 

 

50 .. 60

 

 

На поле корреляции наносят линию условного среднего (эмпирической регрессии). Для этого наносят точки с координатами {xi , yxi } и соединяют их отрезками прямых линий (рис.6).

 

Рис. 6.Поле корреляции и эмпирическая регрессия

 

По внешнему виду графика можно выявить возможный характер взаимосвязи между признаками и оценить погрешность построения уравнения регрессии.

 

Задача 5

 

Найдите предельную ошибку выборки X, Y, Z; постройте доверительные интервалы для среднего, дисперсии и стандартного отклонения генеральной совокупности при доверительной вероятности р = 68 %; 95 %; 99,7 %.


 

 


Методика решения

 

Выборочное среднее значение x ,вычисляемое по выборкеограниченного объема n, будет отличаться от идеального «точного» значения µx , которое можно было бы получить для бесконечно

большой выборки. Разница между выборочным средним и математическим ожиданием (генеральным средним) называется ошибкой выборки:

∆= x −µx .

 

Ошибка выборочного наблюдения пропорциональнастандартному отклонению и обратно пропорциональна квадратному корню из объема выборки:

∆= t ⋅ σx = t σ.

n

Стандартное отклонение выборочного среднего составляет:

σx = σ .

n

 

Коэффициент доверия t находят по распределению Стьюдента(табл.6) с учетом объема выборки и заданного значения доверительной вероятности:

 

t = t 1+ p ,n .2

 

Т а б л и ц а 6 Процентные точки распределения Стьюдента t(n, p)

 

и нормального распределения z = Φ1( p)

 

          p      
n 0,5 0,6 0,7 0,8 0,9 0,95 0,99 0,999
0,2672 0,5594 0,9195 1,4759 2,0150 3,3649 5,8934
0,2602 0,5415 0,8791 1,3722 1,8125 2,7638 4,1437
0,2567 0,5329 0,8600 1,3253 1,7247 2,5280 3,5518
0,2556 0,5300 0,8538 1,3104 1,6973 2,4573 3,3852
0,2550 0,5286 0,8507 1,3031 1,6839 2,4233 3,3069
0,2547 0,5278 0,8489 1,2987 1,6759 2,4033 3,2614
0,2540 0,5261 0,8452 1,2901 1,6602 2,3642 3,1737
0,2534 0,5246 0,8420 1,2824 1,6464 2,3301 3,0984
z 0,2533 0,5244 0,8416 1,2816 1,6449 2,3263 3,0902

 

 


Для симметричного распределения достаточно определить одно значение квантиля, например, для верхней границы доверительного интервала. Противоположная граница симметрична относительно точки {0; 0,5}:

 

t 1 p ,n = −t 1+ p , n . 2 2

 

Доверительный интервал для генерального среднего:

x t σ≤µx x + t σ.

n n

 

Значение t определяет, «сколько сигм» нужно взять для построения доверительного интервала. Принцип построения доверительного интервала проиллюстрирован на рис.7.

 

 

Рис. 7.Двусторонний доверительный интервал

 

При использовании табулированного распределения приходится проводить интерполяцию, т.е. находить приближенное значение функции между известными точками (рис.8).

 

Исходные данные для интерполяции:

t1( p1 t2( p2) .

Требуется найти значение t между точками p1 и p2 :

t( p) : p1< p < p2.

 

Искомое значение t для заданного p находим по формуле:


 


t = t1 + t2 t1 ⋅( p p1).  
   
    p2 p1  

Интерполяция может проводиться дважды – по p, затем по n.

 

 

Рис. 8.Линейная интерполяция

 

Доверительный интервал для генеральной дисперсии:

(n −1)s2 ≤ σ2 (n −1)s2 ,  
     
χ12+ p     χ12 p  
         
                 

где s2 – выборочная дисперсия;

χ2p – квантиль распределения Пирсона (табл.7).

 

Доверительный интервал для генерального с.к.о.:

  n 1≤ σ ≤ s   .  
s n −1  
  χ12+ p χ12 p  
             
                 

Задача 6

 

Постройте доверительные интервалы для генерального среднего µx , µ y и µz при доверительной вероятности р = 68 %; 95 %; 99,7 %

 

упрощенным способом: «одна/две/три сигмы».

 

Методика решения

 

Величину коэффициента t можно приближенно выбрать для стандартных значений вероятности (табл.8). Для этого используются


 


процентные точки стандартной функции нормального распределения с нулевым средним и единичной дисперсией:

z ~ N (0;1).

 

              Т а б л и ц а 7
  Процентные точки распределения χn2      
                   
        n          
p    
0,001 0,2102 1,478 5,921 11,58 17,91 24,67   61,92  
0,010 0,5543 2,558 8,260 14,95 22,16 29,70   70,07  
0,050 1,145 3,940 10,85 18,49 26,50 34,76   77,93  
0,100 1,610 4,865 12,44 20,59 29,05 37,68   82,36  
0,200 2,342 6,179 14,57 23,36 32,34 41,44   87,95  
0,300 2,999 7,267 16,26 25,50 34,87 44,31   92,13  
0,400 3,655 8,295 17,80 27,44 37,13 46,86   95,81  
0,500 4,351 9,341 19,33 29,33 39,33 49,33   99,33  
0,600 5,131 10,47 20,95 31,31 41,62 51,89   102,9  
0,700 6,064 11,78 22,77 33,53 44,16 54,72   106,9  
0,800 7,289 13,44 25,03 36,25 47,26 58,16   111,7  
0,900 9,236 15,98 28,41 40,25 51,80 63,16   118,5  
0,950 11,07 18,30 31,41 43,77 55,75 67,50   124,3  
0,990 15,08 23,20 37,56 50,89 63,69 76,15   135,8  
0,999 20,51 29,58 45,31 59,70 73,40 86,66   149,4  

 

Форма распределения Стьюдента приближается к нормальному распределению при большом объеме выборки, начиная с нескольких десятков единиц. При этом погрешность от замены распределения Стьюдента нормальным не превышает единиц процентов.

 

Т а б л и ц а 8 Стандартные квантили нормального распределения

 

Вероятность Вероятность Коэффициент Ошибка Доверительный  
(округленно)   доверия выборки   интервал  
68 % 0,682689 1,000 одна сигма   µ =       ± σ  
  x  
95 % 0,954500 2,000 две сигмы   µ = x ± 2σ  
99,7 % 0,997300 3,000 три сигмы   µ = x ± 3σ  
Таким образом, получаем приближенные границы  

доверительных интервалов:


 


 

p =68% : µ =   x ± σ       ;  
x  
p =95% : µ = x ± 2σ     ;  
x  
p =99,7% : µ = x ± 3σ   ;  
x  
                         

 

Задача 7


x − σx

x − 2σx

x − 3σx


 

≤ µ ≤ x + σ              
x    
≤ µ ≤ x + 2σ     .  
x  
≤ µ ≤ x + 3σ        
x    

 


 

При уровне значимости α = 32 %; 5 %; 0,3 % проверьте гипотезы:

• σ2x = σ2y ;

• µ x = x +5;

 

• µ x = µ y .

 

Методика решения

 

Проверка статистических гипотез основана на использовании стандартных распределений.Изучаемый статистический показательпреобразуется к случайной величине с известным стандартным законом распределения. Затем задается вероятность, по которой находят квантиль.

 

Вероятность принятия ошибочного решения при проверке

гипотез называют уровнем значимости:

α = 1 − p .

 

Уровень значимости определяет, в каком проценте случаев возможна ошибка, если принять изучаемую гипотезу.

 

Можно считать, что область принятия гипотезы соответствует доверительному интервалу, а за его пределами находится критическая область.Для двустороннего интервала уровеньзначимости делится поровну между критическим областями.

критическая область   критическая
область принятия   область
    гипотезы    
         
         
u1   u2
         

доверительный

 

интервал

 

Рис. 9.Проверка статистических гипотез


 


Если фактическая статистика оказывается в критической области, например tф > t кр, то гипотезу отвергают. Если фактическая

статистика оказывается в области принятия гипотезы, то гипотезу принимают при заданном уровне значимости.

Сравнение дисперсий –проверка гипотезы о том,можно лисчитать сравниваемые выборочные дисперсии sx2 и s2y оценками

 

одной и той же генеральной дисперсии. Используется распределение Фишера. При заданном уровне значимости α должно выполняться следующее неравенство:

      α   s         α  
F ,n2     x F ,n2    
  2y  
n1     s n1      

Распределение Фишера обладает своеобразной «симметрией»:

Fn ,n (1− p) =     .  
       
       
Fn ,n ( p)  
       
           

Поэтому в табл. 9 приводится только верхняя половина распределения.

 

Т а б л и ц а 9 Процентные точки распределения Фишера Fn1,n2 ( p)

для выборок равного объема: n1 = n2

 





©2015-2017 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Нарушение авторских прав и Нарушение персональных данных

Обратная связь

ТОП 5 активных страниц!