Образец выполнения задания




Лабораторная работа № 1

§ 1.1. Краткие теоретические сведения и план

Выполнения работы.

 

Изучение свойств случайных величин методом математической статистики основано на первичной обработке результатов наблюдений,выраженных в числовой форме.

Целью первичной обработки является представление первичной числовой информации в более обозримой, сжатой форме, а также получение сведений об основных закономерностях изучаемой совокупности случайных величин.

В математической статистике различают генеральную совокупность и выборочную.

Под генеральной совокупностью понимается все мыслимое множество случайных объектов, обладающих общностью некоторого, изучаемого в данном исследовании, признака. Это множество, как правило, счетное.

Выборочная совокупность (выборка)- эта часть генеральной совокупности, которая фактически изучается.

Для того, чтобы по выборке можно было достаточно уверенно судить о свойствах генеральной совокупности она должна быть репрезентативной, т.е. достаточной по численности, случайной по отбору с соблюдением равной возможности каждого элемента генеральной совокупности попасть в выборку.

Теоретической основой выборочного метода является теорема Чебышева.

Теорема: с вероятностью, сколь угодно близкой к достоверности можно утверждать, что при достаточно большом числе наблюдений, ограниченной дисперсии генеральной совокупности попарно независимых случайных величин, разность между средним арифметическим и средним арифметическим их математических ожиданий будет сколь угодно малой, т.е.

в частности ,

где - средняя для выборочной совокупности;

-средняя для генеральной совокупности;

-как угодно малое положительное число.

Итоги эмпирических наблюдений представляют собой простой статистический ряд- таблицу числовых значений изучаемой случайной величины. Известно, что, если находить числовые характеристики, предварительно сгруппировав полученные данные, то их значения будут ближе подходить к истинным значениям аналогичных характеристик генеральной совокупности.

Первичная обработка результатов наблюдений состоит из нескольких этапов. Рассмотрим содержание каждого из них.

Этап I. Группировка данных в вариационный ряд и представление его в виде функции распределения.

Для того, чтобы статистические данные представить в виде вариационного ряда с равноотстоящими вариантами необходимо:

1.В исходной таблице эмпирических данных найти наименьшее () и наибольшее () значения.

2.Определить размах варьирования:

3. Наметить число интервалов группировки. Имея в виду, что выделением большого числа групп можно затушевать общую картину распределения, малое же число не позволит выявить характерную особенность изучаемой случайной величины. Исходя из опыта рекомендуется выделять от 5 до 20 групп так, чтобы каждая группа была достаточно наполнена значениями вариант. Можно также воспользоваться формулами:

где s -число групп, n -объем выборки.

4. Определить длину интервала

.

Если вычисленное отношение – число иррациональное, то его округляют до удобного целогозначения.

5. Записать интервалы группировок и расположить их в порядке возрастания границ

, ,………., ,

где - нижняя граница первого интервала. За берется удобное “круглое” число не большее , верхняя граница последнего интервала должна быть не меньше .Это делается для того, чтобы интервалы содержали в себе исходные значения случайной величины.

6. Разнести исходные данные по интервалам группировок, т.е. подсчитать по исходной таблице число значений случайной величины, попадающих в указанные интервалы. Если некоторые значения совпадают с границами интервалов, то их относят либо только к предыдущему, либо только к последующему интервалу.

Записать интервальный ряд частот и относительных частот.

 

7. От интервального ряда перейти к дискретному. Для этого каждый интервал заменить его средним значением, оставив частоты и относительные частоты без изменения.

8. Записать эмпирическую функцию распределения.

где - число вариант, значения которых меньше чем ;

n - число всех значений, объем выборки.

 
 


………………………..

F*(x) определяет относительную частоту события (X<x).

Замечание №1. Интервалы необязательно брать равными по длине. На участках, где значения располагаются гуще, удобнее брать более мелкие короткие интервалы, а там где реже - более крупный.

Замечание №2. Появление “граничных” значений нежелательно, это ведет к смещению эмпирического распределения от его истинного положения на числовой оси влево, либо вправо, выбирая границы, регулирования длину интервала, следует этого избегать.

Замечание №3 Если для некоторых значений получены “нулевые”, либо малые значения частот , то необходимо перегруппировать данные, укрупняя интервалы (увеличивая шаг ).

Этап II. Графическое изображения ряда и эмпирической функции распределения.

Графически интервальный вариационный ряд изображается либов виде гистограммы частот – ступенчатой фигуры, состоящей из прямоугольников, основанием которых служат интервалы группировки, а высоты равны отношению частоты к длине интервала , либо в виде гистограммы относительных частот, когда высоты прямоугольников равны отношению относительной частоты к длине интервала группировки .

Дискретный вариационный ряд графически изображается в виде полигона частот или относительных частот.

Полигон частот – это ломаная линия, отрезки которой соединяют точки с координатами ().

Полигон относительных частот – это ломанная линия, отрезки которой соединяются точками с координатами ().

Эмпирическая функция распределения графически изображается в виде линии, изменяющейся скачкообразно. На оси абсцисс откладывается значения интервалов, на оси ординат соответствующие им вероятности (значения функции), вычисляемые по формуле , где .

Скачки наблюдаются при переходе от одного интервала к другому.

Графическое изображение вариационных рядов и эмпирической функции распределения лучше уяснить на конкретном примере в разделе “Образец выполнения задания”.

Этап III. Вычисление числовых характеристик.

Вычисление числовых характеристик осуществляются по следующим формулам:

 

1. Среднее арифметическое

.

2. Дисперсия вычисляется либо по определению

либо по формуле , где и - начальные эмпирические моменты первого и второго порядков.

 

3. Среднее квадратическое отклонение

.

4. Исправленная дисперсия

 

.

 

5. Исправленное среднее квадратическое отклонение

.

 

6. Коэффициент асимметрии

,

где - центральный эмпирический момент третьего порядка, он вычисляется либо по определению

,

либо по формуле

,

где - начальные эмпирические моменты первого, второго и третьего порядков.

7. Коэффициент эксцесса

,

где - центральный эмпирический момент четвертого порядка. Он вычисляется либо по определению

либо по формуле ,

 

,

8.Коэффициент вариации

 

,

 

(, )

Замечание 1: Так как все числовые характеристики выражаются через , то удобнее вначале вычислить числовые значения , а затем значения числовых характеристик.

Замечание 2: Для упрощения расчетов, если они выполняются “вручную” удобнее перейти от данных значений вариант к условиям по формуле

,

где h – длина интервала группировки,

С – ложный нуль.

Чаще всего в качестве ложного нуля принимается либо варианта, находящаяся в середине вариационного ряда, либо мода (варианта , имеющая наибольшую частоту), либо любое другое число, упрощающее расчеты.

Если за принять какое - либо значение , то соответствующая ему условная варианта будет равна нулю, а слева и справа от нуля будут располагаться соответственно значения 1, 2, 3, 4 и т.д.

Если, например, , то вариационный ряд в условных вариантах примет вид

 

-2 -1      

 

Числовые характеристики в условных вариантах , , , вычисляют с той лишь разницей, что вместо используется .

Однако после вычисления числовых характеристик в условных вариантах необходимо перейти к первоначальным значениям вариант. Это осуществляется по формулам:

Промежуточные расчеты при вычислении числовых характеристик удобнее оформлять в виде таблицы.

Этап IV. Определение границ истинных значений числовых характеристик изучаемой величины с заданной надежностью.

 

Числовые характеристики, вычисленные по случайной выборке из генеральной совокупности, лишь приближенно характеризуют истинные значения аналогичных характеристик изучаемой генеральной совокупности. Поэтому возникает вопрос о надежности, с которой можно принять вычисленные значения и о границах допустимых значений. Частично эти вопросы решаются путем нахождения доверительных(надежностных) интервалов для основных числовых характеристик.

 

Надежностный интервал для генеральной средней имеет вид:

 

или ,

где

 

- среднее выборочное

n – объем выборки

, если большая выборка (),

t – значение аргумента функции Лапласа, при котором она равна ,

t – находится по таблицам значений функции Лапласа из условия

- вероятность суждений, называемая надежностью. Она выбирается самим исследователем. Значения =0.95, как правило, считается достаточным для большинства исследований. Надежностный интервал с вероятностью содержит в себе генеральную среднюю.

Замечание. Если выборка мала (n<30), то надежностный интервал для генеральной средней имеет вид:

 

где S – исправленное выборочное среднеквадратическое отклонение,

- число, взятое из таблицы значений по объему выборки n и надежности .

При больших n результаты нахождения надежноcтного интервала двумя указанными способами практически неразличимы.

Надежностный интервал для среднеквадратического отклонения имеет вид

,

т.е. определяется выражением q или, если левая часть отрицательна, то ее отбрасывают и интервал примет вид

,

где S - исправленное выборочное среднее квадратическое отклонение,

q – табличное значение критических точек , оно зависит от объема выборки n и заданной надежности .

Этап V. Содержательная интерпретация результатов первичной обработки данных по условию задачи.

 

Итогом первичной обработки данных служит содержательная интерпретация результатов произведенных вычислений.

Арифметическое среднее, вычисленное по выборочным данным, представляет собой обобщенную характеристику всей совокупности значений в целом. Значение - являясь как бы точкой сгущения значений, характеризует центральное положение возможных значений случайной величины.

Доверительный интервал указывает на то, что с вероятностью , генеральная средняя изучаемой случайной величины заключена в найденном интервале, или, что данный интервал с надежностью содержит в себе истинное среднее значение генеральной совокупности .

Среднее квадратическое отклонение служит показателем, который дает представление о наиболее вероятной средней ошибке отдельного, единичного наблюдения, взятого из данной совокупности.

Основные значения, ядро вариационного ряда содержится в интервале

, или .

Отклонение от , превосходящее по модулю возможны, но вероятность их уменьшается по мере удаления от , .

Надежностный интервал с вероятностью содержит в себе значение генерального среднего квадратического отклонения.

Коэффициент асимметрии - указывает на нарушение симметрии, наличие скоса.

Если , то скос наблюдается справа, если , то слева, если , то распределение симметричное.

Коэффициент эксцесса - указывает на характер вершины распределения.

Если , то распределение островершинное, это говорит о том, что значения признака не значительно разбросаны вокруг среднего значения. Если , то распределение пологое, это говорит о том, что значения признака значительно разбросаны вокруг среднего значения. Если , то распределение совпадает со стандартным нормальным.

Коэффициент вариации V – стандартное отклонение, выраженное в процентах к средней арифметической данной совокупности. Он является относительным показателем изменчивости. Если V <10%, то изменчивость считают незначительной, если 10%< V <20% то изменчивость считают средней, если V >20%, то изменчивость значительная.

Использование коэффициента вариации V как показателя колеблемости (вариации) имеет смысл только при положительных значениях вариант и совершенно не применимо, если варианты принимают как положительные так и отрицательные значения.

Рассмотренные числовые характеристики необходимо сопоставлять с вариационным рядом, его графическим изображением и интерпретировать с учетом единиц измерения и содержания, указанных в условиях задачи.

 

Образец выполнения задания

 

Вариант №0

 

Дана средняя заработная плата в рублях

 

                     
                     
                     
                     
                     
                     
                     
                     
                     
                     

 

Выполнение работы

Этап 1. Группировка данных в вариационные ряды

 

1. ,

= 120,

= 545.

2. 545 – 120 = 425

3.

4. h = 425: 9 = 47,2 (50)

5. = 100

6. = 100 +

 

100-150 150-200 200-250 250-300 300-350 350-400 400-450 450-500 500-550
                 

 

7.

                 
                 
0,01 0,03 0,10 0,20 0,33 0,17 0,11 0,04 0,01

 

8.

или

 

9. Этап ІІ. Графическое изображение

График эмпирической функции распределения.

 

 

Этап ІІІ. Вычисление числовых характеристик

 

Для упрощения расчетов перейдем к условным вариантам

 

C = 325, h = 50.

 

    -4 -4   -64  
    -3 -9   -81  
    -2 -20   -80  
    -1 -20   -20  
             
             
             
             
             
     

 

Непосредственный подсчет необходимых числовых характеристик

В условных вариантах В исходных вариантах

12.

 

13.

 

14.

 

 

15.

 

16.

 

17.

 

18.

 

19.

 

20.

 

21.

 

22.

 

23.

 

24.

 

25.

 

 

Этап IV. Определение границ истинных значений числовых характеристик

 

Надежностный интервал для генеральной средней .

Пусть =0,95, тогда Ф(t) = =0,475. По таблице значений функции Лапласа находим t =1,96.

Тогда

 

311,60< <340,40

Надежностный интервал для генерального среднего квадратического отклонения.

 

Пусть то q (100; 0,95)=0,143

 

Sq =73,85

 
 


S + Sq 73,85

 

63,29< <84,41;

 

Этап V. Содержательная интерпретация.

 

1)

Месячная заработная плата – величина случайная, ее выборочные значения изменяются в частности от 125 рублей до 525 рублей, однако среднее ее значение равно 326 рублей.

2) 311,6< <340,4

Можно утверждать с вероятностью 0,95, что изменения среднего заработка будут колебаться в пределах от 311,6 до 340,4 рублей, то есть из 100 хозяйств примерно в 95 трактористы будут иметь среднюю заработную плату колеблющуюся в указанных пределах, в интервале будут находиться основные значения заработной платы.

3) =73,48 рублей

Ошибка отклонения отдельно взятого значения заработной платы в среднем составляет 73,48 рублей.

 

4) 63,29< <84,41

Возможные отклонения с вероятностью 0,95 будут составлять значения, заключенные в промежутке .

5) =0,09

Значение , это говорит о том, что изменения заработной платы в сторону увеличения или уменьшения по отношению к среднему значению происходит неодинаково, так как =0,093>0, то наблюдается левосторонний скос, получение заработной платы выше средней- событие более достоверное.

6) =0,11

Значение 0, то есть наблюдается небольшой эксцесс, так как =0,11>0, то отклонение от нормы наблюдается в сторону завышения, хотя и не очень большого.

7) V =23%

Размах варьирования составляет 23% - это больше 20%, значит изменчивость значительная.

 

Контрольные вопросы

  1. Что является предметом и методом математической статистики?
  2. Какие основные задачи решает математическая статистика?
  3. В каком соотношении находится математическая статистика с теорией вероятностей?
  4. Какая совокупность называется генеральной (выборочной)?
  5. В чем суть выборочного метода?
  6. В чем заключаются основные требования к выборке?
  7. Какая выборка называется репрезентативной?
  8. Какие способы формирования выборки вы знаете?
  9. Когда выборка называется повторной (бесповторной)?
  10. Какая выборка считается малой, средней, большой?
  11. Какие вариационные ряды вы знаете?
  12. Можно ли от дискретного ряда перейти к интервальному и наоборот?
  13. От чего зависит число интервалов группировки?
  14. Как от простой статистической таблицы данных перейти к вариационному ряду?
  15. Как графически изобразить дискретный (непрерывный) вариационный ряд?
  16. Что определяет эмпирическая функция распределения?
  17. Каковы свойства эмпирической функции распределения?
  18. Как найти вероятность попадания случайной величины на заданный участок, если известна эмпирическая функция распределения?
  19. Какие характеристики центральной тенденции случайной величины вы знаете?
  20. Каким свойством обладает выборочное среднее?
  1. Какие виды средних кроме используются в расчетах?
  2. В каком соотношении арифметическая средняя находится с другими видами средних (мажорантность степенных средних)?
  3. Как вычислить дисперсию (среднее квадратическое отклонение) выборочной совокупности?
  4. В каком соотношении находится общая дисперсия с групповой и межгрупповой дисперсиями?
  5. Какими свойствами обладает дисперсия?
  6. Что характеризует коэффициент асимметрии и как он вычисляется?
  7. Какие методы вычисления числовых характеристик выборочной совокупности вы знаете?
  8. Как упростить расчет числовых характеристик?
  9. Какое число принимается в качество ложного нуля?
  10. По каким формулам от числовых характеристик, вычисленных в условных вариантах производится переход к числовым характеристикам в первоначальных вариантах?
  11. Какая оценка называется точечной?
  12. Каковы требования к точечной оценке неизвестного параметра распределения?
  13. Какая точечная оценка называется состоятельной (несмещенной, эффективной)?
  14. Что является точечной оценкой генеральной средней (генеральной дисперсии, генерального среднеквадратического отклонения)?
  15. Какая оценка называется интервальной?
  16. Какой интервал называется надежностным?
  17. Какая вероятность называется доверительной, надежностной? Дайте пояснения на графике нормального закона распределения.
  18. По каким формулам находится надежностный интервал для генеральной средней и генерального среднеквадратического отклонения?

40. Как найти коэффициенты , ?

  1. Как задается функция Лапласа и каковы ее свойства?
  2. Как определить минимальный объем выборки, чтобы с заданной надежностью() гарантировать определенную точность()вычисления генеральной средней?

 

  1. Как ведет себя предельная ошибка (величина отклонения), если надежность увеличивается?
  2. Как ведет себя предельная ошибка, если увеличить объем выборки?
  3. Является ли достаточным вычисление надежностного интервала для определения значения генеральной средней с заданной надежностью?
  4. Показать на полигоне расположение найденных числовых характеристик и объяснить их содержательный смысл?

 

Варианты заданий для группы Б_ЭЭ21.

Вариант № 1

Дано число больничных дней работников хозяйства

                           
                           
                           
                           
                           
                           
                           
                           

 

Вариант № 2

Дана величина заработной платы специалистов хозяйства.

 

       


Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2020-05-08 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: