РАБОЧАЯ ТЕТРАДЬ ПО МАТЕМАТИЧЕСКОЙ СТАТИСТИКЕ




Заполнил (а) студент (ка) ___ группы ______факультета ветеринарной медицины и биотехнологии, специальности (направления подготовки)_________________________

___________________________ (Ф.И.О.)

Вариант № ____

Задание № 1. Группировка и статистический анализ выборки для случайной величины Х непрерывного типа.

Замечание. Случайная величина Х в «Математической статистике» называется чаще признаком Х генеральной совокупности.

Условие задания № 1. По выборке объёма n = __ исследуется случайная величина непрерывного типа Х – ________________________________________

____________________________________________________________________.

Выборочные данные помещены в таблицу 1 на следующей странице.

ТРЕБУЕТСЯ:

1. Сгруппировать выборочные данные в интервальный вариационный ряд частот. Изобразить вариационный ряд графически, построив гистограмму частот.

2. Вычислить по сгруппированным данным точечные оценки параметров распределения: выборочную среднюю , выборочную дисперсию .

3. Проверить гипотезу о нормальном распределении случайной величины Х на уровне значимости , применяя критерий согласия Пирсона.

Решение. Поместим исходные данные в таблицу 1:

Таблица 1.Исходные выборочные данные для случайной величины Х

                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   
                   

 

1. Для непрерывной случайной величины Х (для признака Х) по результатам выборки составляется интервальный вариационный ряд. Для этого весь диапазон изменения выборочных данных – размах вариации – накрывается совокупностью 5 8 полузамкнутых интервалов или (по нашему произволу) одинаковой длины h так, чтобы значение находилось приблизительно посередине первого интервала, а значение находилось в последнем интервале. Эту длину рекомендуется вычислять по формуле Террела-Скотта: h .

В нашей задаче =_____, =_____, n = ___, поэтому, округляя результат вычислений формулы Терелла-Скотта, возьмём h = _____. Определяем левый конец первого интервала = ______________. Затем определяем границы остальных интервалов и т.д., пока значение не окажется в интервале с номером , являющимся последним. Для разнесения данных из таблицы 1 по интервалам построим таблицу 2, в которой определим частоты попадания выборочных данных в интервалы (частота - это число значений признака Х, попавших в интервал с номером ). Получим интервальный вариационный ряд частот.

Таблица 2

               
Интервалы              
Частоты              
Относительные частоты              

 

Количество интервалов оказалось равным т= ____. В таблице 2 следует осуществить контроль подсчёта частот: , где n – объём выборки,

Если контроль оказался верным, переходим к следующим этапам работы, если же нет, то заполняем (исправляем) таблицу 2 повторно до выполнения контрольного равенства.

Графическим изображением интервального вариационного ряда, отражённого в таблице 2 служит гистограмма частот. Построим гистограмму частот на рисунке 1. Для этого на оси абсцисс откладываем отрезки, изображающие интервалы изменения значений случайной величины Х (признака Х). На этих отрезках как на основаниях строим прямоугольники с высотами, равными частотам . Полученная фигура и называется гистограммой частот. Для наглядности рекомендуется использовать всю плоскость чертежа.

 

 

0

Рис. 1. Гистограмма частот интервального вариационного ряда.

2. Пусть случайная величина Х (признак Х) имеет математическое ожидание М(X) = , дисперсию и среднеквадратичное отклонение , при этом параметры , и являются неизвестными. Очередной задачей математической статистики является точечная оценка этих параметров. Для решения этой задачи вычисляем середины интервалов , придаем им соответствующие частоты из интервального вариационного ряда и преобразуем таблицу 2 в таблицу 3, соединяя в ней интервальный вариационный ряд частот(первая и третья строки) и соответствующий ему дискретный вариационный ряд частот (вторая и третья строки).

Таблица 3. Интервальный и соответствующий ему дискретный вариационный ряд частот для выборочных данных

Интервалы [ c i-1, c i)                
Середины интервалов                
Частоты                

По полученному дискретному вариационному ряду частот вычисляем точечные оценки неизвестных параметров распределения признака

Несмещённой, состоятельной и эффективной точечной оценкой математического ожидания является выборочная средняя , которая вычисляется по формуле:

,

где т равно числу интервалов. Для нашей задачи n = ___, т= ____. При этом рекомендуется (во избежание слишком больших погрешностей округлений) в результатах промежуточных вычислений брать на 2 знака после занятой больше, чем у исходных данных. Вычисляем:

=

Обязательно следует поместить значение на ось абсцисс гистограммы (на рис1.). При этом следует помнить смысл математического ожидания и его оценки - это среднее взвешенное значений признака Посмотрите – является ли значение «центром тяжести» гистограммы? Если уже визуально это не подтверждается, то дальнейшие вычисления бессмысленны. Рекомендуется этот этап вычислений согласовать с преподавателем и только после этого продолжать вычисления.

Выборочная дисперсия является состоятельной и эффективной, но немного смещённой оценкой дисперсии . Впрочем, для больших выборок смещенность не играет роли.

можно рассчитать по одной из двух формул:

, (1)

. (2)

Для малых выборок следует пользоваться несмещённой эффективной и состоятельной оценкой дисперсии , каковой является исправленная выборочная дисперсия , связанная с выборочной дисперсией следующим образом:

. (3)

Несмещённой эффективной и состоятельной оценкой среднеквадратичного отклонения является исправленное выборочное среднеквадратичное отклонение как квадратный корень из исправленной выборочной дисперсии:

. (4)

Рассчитываем выборочную дисперсию по формуле (2), вычисляя предварительно средний квадрат:

 

Для визуального контроля следует учитывать правило трех сигм нормального распределения, т.е практически вся гистограмма должна укладываться в окрестности радиуса трех Проверьте это на рис.1.

Итак, найдены оценки математического ожидания , дисперсии и среднеквадратичного отклонения :

Таблица 4.

3. Если через середины верхних оснований прямоугольников гистограммы провести плавную линию, то получим графический аналог плотности вероятности признака . Далее на уровне значимости проверим гипотезу о том, что генеральная совокупность распределена по нормальному закону.

Будем опираться на результаты группировки выборочных данных из пункта 2, которые отражены в таблице 3 и на рисунке 1. Проверка гипотезы основана на сравнении эмпирических (полученных ранее в таблице 3) частот и так называемых теоретических частот , которые рассчитываются в предположении выполнения гипотезы о нормальном распределении генеральной совокупности с параметрами из таблицы 4:

= _____, = _____. (5)

Теоретические частоты рассчитываются по формуле = , где - вероятность попадания нормальной случайной величины в интервал , которая рассчитывается с помощью функции Лапласа (см. таблицу) по следующей формуле:

, (6)

где и определяются выражениями (5). При этом при вычислениях по формуле (6) левый конец первого интервала следует отодвинуть на минус бесконечность, а правый конец последнего интервала отодвинуть на плюс бесконечность, полагая . Процесс и результаты расчёта теоретических частот заносятся в таблицу 5.


Таблица 5. Расчёт теоретических частот с помощью формулы (6).

= n
           
                 
                 
                 
                 
                 
                 
                 
    Контроль:

Замечание. Левый конец первого интервала отодвинут на минус бесконечность, т.е. . Не забудьте и правый конец последнего интервала отодвинуть на плюс бесконечность, полагая и учитывая, что .


Соединим эмпирические частоты из таблицы 3 и теоретические частоты из таблицы 5 в следующей таблице 6. Таблица 6. Теоретические и эмпирические частоты для интервалов равной длины

Интервалы [ c i-1, c i)                
Эмпирические частоты                
Теоретические частоты                

 

На рисунке 1 была изображена гистограмма частот, которые теперь названы эмпирическими. Перенесём эту гистограмму на рисунок 2 и построим на этом же рисунке также гистограмму теоретических частот, например, пунктирной линией или линией другого цвета. На рисунке 2 с данными из таблицы 7 качественно видно насколько велико или мало расхождение эмпирических и теоретических частот.

,

 

 

 


0

Рис. 2. Гистограммы эмпирических (сплошная линия) и теоретических (пунктирная линия) частот интервального вариационного ряда.

Для количественной оценки применим критерий согласия Пирсона, подчиняющийся закону распределения хи-квадрат с числом степеней свободы k=m-l- 1, где l – число параметров распределения (l =2 для нормального закона, т.е.

. (7)

Необходимо учесть следующее условие применимости критерия Пирсона: малочисленные частоты ( <5) следует присоединить к частотам соседних интервалов. В этом случае соответствующие теоретические частоты также складывают, а при определении числа степеней свободы k=m- 3 в качестве т следует принять число групп (интервалов), получившихся после объединения. Таким образом, преобразуем таблицу 6 в таблицу 7.

Таблица 7. Эмпирические и теоретические частоты после объединения

интервалов с малочисленными частотами

Эмпирические частоты            
Теоретические частоты            

 

Теперь по формуле (7) и по данным таблицы 7 вычисляем наблюдаемое значение критерия:

=

Итак, ______. Далее по таблице распределения хи-квадрат для числа степеней свободы k=m- 3=____ и уровня значимости находим из условия критическое значение критерия _____.

Поскольку < / > (ненужное зачеркнуть), то гипотеза о том, что случайная величина Х распределена по нормальному закону, принимается / отвергается (ненужное зачеркнуть).

 

Задание № 2. Однофакторный дисперсионный анализ.

Условие задания № 2.

 

Таблица 8

Уровни фактора Номер испытания (повторности) Групповые средние
           
                 
                 
                 
                 
                 

Впишем в таблицу 8 выборочные данные испытаний на данных уровнях фактора (лишние клетки не заполняем).

Однофакторный дисперсионный анализ исследует влияние одного фактора , имеющего уровней , на математическое ожидание (среднее значение) случайной величины Х. Значения случайной величины Х получают на каждом уровне фактора в группе из испытаний. Номер испытания в группе обозначим целой переменной . Таким образом, выборочные данные характеризуются двумя индексами.

Группа измерений на уровне фактора имеет групповую выборочную среднюю , или кратко групповую среднюю. Общая средняя вычисляется по формуле .

Вычисляем групповые средние (по строчкам таблицы 8) и вносим их в таблицу 8 (здесь и далее лишние заготовки формул не заполняйте):

 

Вычисляем общую среднюю:

Видим, что групповые средние разных уровней отличаются друг от друга. Это различие может носить чисто случайный характер или же отражать влияние уровней фактора. Выразим нулевую гипотезу словесно так: изменчивость групповых средних имеет чисто случайный характер, и влияние фактора несущественно на данном уровне значимости.

Для построения критерия рассматривается полная сумма квадратов отклонений выборочных данных от общей средней . Имеет место формула , где , .

Сумма называется рассеиванием по уровням фактора, т.е. характеризует изменчивость выборочных данных исключительно из-за влияния уровней фактора . Сумма называется остаточным рассеиванием и характеризует изменчивость выборочных данных из-за влияния чисто случайных, неучтённых факторов. В сравнении этих влияний и состоит суть дисперсионного анализа.

Сравнение осуществляется с помощью отношения , которое для нормальной случайной величины Х является случайной величиной, распределённой по закону Фишера-Снедекора с числом степеней свободы числителя и числом степеней свободы знаменателя .

Продолжим вычисления. Суммы и удобно вычислять по следующим упрощённым формулам: = , = , где , , . Вычисляем: =,

=

 

 

=

= =, = =.

Итак, =_______, =_______. Теперь вычисляем наблюдаемое значение критерия

.

Далее по таблицам распределения Фишера-Снедекора находим критическое значение критерия Для нашей задачи подходит _____.

Итак, оказалось, что / (ненужное зачеркнуть) и, следовательно, на данном уровне значимости фактор существенно влияет на среднее значение случайной величины Х / влияние фактора на среднее значение случайной величины Х несущественно (ненужное зачеркнуть).

 

Задание № 3. Линейная регрессия и корреляция

Условие задания № 3.

Таблица 9.

X                      
Y                      

По данным таблицы 9 построим диаграмму рассеивания на рисунке 3: по оси абсцисс откладываем значения случайной величины Х, по оси ординат откладываем значения случайной величины Y. Точки на рисунке 3 образуют диаграмму рассеивания. Рекомендуется использовать для наглядности всю площадь рисунка 3.

 


 

 


0

 

Рис. 3. Диаграмма рассеивания, прямая линейного уравнения регрессии на и прямая регрессии на

Вид диаграммы рассеивания позволяет сделать вывод о наличии линейной зависимости значений Y от значений X. Выборочное линейное уравнение регрессии Y на X имеет вид .Здесь - выборочные средние признаков X и Y, k - выборочный коэффициент регрессии Y на X, который обычно обозначается . График уравнения регрессии Y на X проходит через точку , нанесем ее на рис.3. Выборочный коэффициент регрессии выражается через выборочный коэффициент корреляции и через выборочные среднеквадратичные отклонения и случайных величин X и Y. Это выражение определяется формулой . При этом коэффициент корреляции определяется цепочкой выражений:

, , , ,

, , , .

Все вычисления удобно свести в таблицу 10.

Таблица 10

           
           
           
           
           
           
           
           
           
           
         
= = = =   =

 

В последней строке таблицы 10 получаем

=______, =_______, =_________, =_________, =__________,

откуда находим:

=, =,

= =, = =,

= =, =,

.

Находим уравнение регрессии Y на X в форме и получаем:

 

Построим график уравнения прямой регрессии на на рисунке 3, на котором было изображено поле корреляции. Для построения прямой линии достаточно определить координаты её двух точек с помощью полученного уравнения. Эти точки желательно брать далеко друг от друга, но в районе поля корреляции. Одна точка уже известна – «средняя» точка с координатами .

Поместим координаты этих двух точек в следующую табличку и построим по этим точкам прямую линию на рисунке 3.  
   
   

 

 

Видим, что построенная прямая линия проходит среди точек поля корреляции. Уравнение регрессии и его график служат для расчёта прогнозируемых значений результирующего признака Y в их зависимости от значений признака X в диапазоне его выборочных значений и за его пределами.

Выборочный коэффициент корреляции =______. Он по модулю не может быть больше 1 (проверить!) и характеризует тесноту линейной связи между случайными величинами X и Y.

Для оценки тесноты связи признаков X и Y пользуются следующей шкалой Чеддока:

Диапазон до 0,3 0,3 0,5 0,5 0,7 0,7 0,9 выше 0,9
Теснота связи X и Y слабая умеренная заметная высокая весьма высокая

В нашей задаче =_____, поэтому теснота связи X и Y _______________.

 

Кроме этого, для оценки степени линейной зависимости признаков по данным таблицы 10 составляют уравнение регрессии на

где называется коэффициентом регрессии на

Как видно, эта прямая также проходит через «среднюю» точку с координатами Итак, уравнение регрессии на имеет вид

Построив обе прямые регрессии на одном чертеже (на рис.3) увидим, что основной массив точек диаграммы рассеивания заключен между этими прямыми. Чем меньше угол между прямыми регрессии, тем сильнее линейная зависимость между признаками, т.к. угол между ними вычисляется по известной формуле угла между двумя прямыми и непосредственно зависит от коэффициента корреляции:

После того, как составлено уравнение прямой регрессии на и вычислен коэффициент корреляции обычно корреляционно- регрессионный анализ заканчивают проверкой соответствия или, как говорят, адекватности выбранной линейн



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2018-01-27 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: