Нормальный закон распределения (закон Гаусса).

Для описания реальных величин, зависящих от случая, дискретных случайных величин недостаточно. Действительно, таким величинам как температура, давление, размеры физических объектов, длительность физических процессов неестественно приписывать дискретное множество возможных значений. Естественно считать, что их возможные значения в принципе могут быть любыми числами в некоторых пределах, т.е. являться непрерывными случайными величинами.

Непрерывной называют случайную величину, которая может принимать все значения из некоторого конечного интервала. Число возможных значений непрерывной случайной величины бесконечно. Непрерывную случайную величину нельзя описать законом распределения как дискретную в виде таблицы. Однако различные области возможных ее значений все же не являются одинаково вероятными, и для непрерывной случайной величины существует «распределение вероятностей», хотя не в том смысле, что для дискретной. Для конечной оценки распределения вероятностей удобно пользоваться не вероятностью события Х=х, а вероятностью события Х ‹ х. Под выражением Х ‹ х понимают событие – «случайная величина Х приняла значение, меньшее х ».

Функцией распределения случайной величины X называется функция F(х), равная вероятности Р(Х ‹ х) того, что случайная величина X принимает значение, меньшее х: F(х) = Р(Х ‹ х).

Функцию F(х) называют еще «интегральной функцией распределения» или интегральным законом распределения. Функция F(х) является одной из форм закона распределения.

Однако в большинстве случаев для описания непрерывных случайных величин при теоретическом их изучении вводят понятие плотности распределения (плотность вероятности), которая равна производной ее интегральной функции f(x) = F'(х). Наиболее часто встречаются величины, распределенные по нормальному закону распределения (закону Гаусса), являющемуся предельным законом, к которому приближаются другие законы распределения.

Случайная величина распределяется по нормальному закону, если плотность вероятности ее имеет вид:

f(x) = ,

где μ – математическое ожидание, - среднее квадратическое отклонение.

График плотности вероятности нормального распределения носит название нормальной кривой распределения или кривой Гаусса (рис.1). В точке х = μ функция имеет максимум: f(μ) = . Форма кривой распределния зависит от σ (рис.2); μ – определяет центр рассеяния, а значит и положение распределения на оси абцисс (рис.3). При этом кривая сохраняет свою форму.

Площадь, ограниченная кривой нормального распределения всегда равна единице, поэтому при увеличении σ кривая становится пологой.

4. Статистическое распределение выборки. Гистограмма.

На практике всегда приходится иметь дело с ограниченным количеством экспериментальных данных, поэтому результаты наблюдений и их обработка содержит больший или меньший элемент случайности. Разработка методов регистрации, описания и анализа таких экспериментальных данных составляет предмет математической статистики.

В математической статистике изучение случайной величины связано с выполнением ряда независимых опытов, в которых она принимает определенное значение. Полученные значения случайной величины представляют простой статистический ряд (простая статистическая совокупность), подлежащий обработке и научному анализу. Общее число членов этого ряда называют его объёмом.

Совокупность, состоящая из всех объектов, которые могут быть к ней отнесены, называется генеральной (количество больных на земном шаре, страдающих гипертонией). Теоретически это бесконечно большая или приближающаяся к бесконечности совокупность. Число объектов генеральной совокупности называется ее объемом N.

Множество объектов, случайно отобранных из генеральной совокупности, называется выборочной совокупностью или выборкой, а число объектов выборки называется ее объемом и обозначается буквой (п).

Первой задачей статистической обработкти экспериментального материала является наведение опреленного порядка в полученном простом статистическом ряду. Поэтому целесообразно расположить данные в порядке возрастания с указанием их повторяемости – составить вариационный ряд. Если количественный признак является дискретным, подсчитывают сколько раз встречается каждое значение признака и результат представляют в виде таблицы:

X	х ₁	х ₂	х ₃	…	х _k
m	m₁	m₂	m₃	…	m _k
P* =	P*₁	P*₂	P*₃	…	P* _k

Наблюдаемые значения х ₁, х ₂, …, х_п называют вариантами. Числа m₁, m₂, …, m _n - называют частотами, а их отношение к объёму выборки относительными частотами: Р*_i= .

Сумма всех частот равна объему совокупности п: .

Таблицу, содержащую значение вариант признака, их частоты или относительные частоты, называют дискретным статистическим рядом распределения или статистическим распределением выборки.

В случае большего количества вариант и непрерывности признака дискретный ряд перестает быть удобной формой записи статистического материала. В этом случае производят группировку вариант по интервалам, при этом весь диапазон признака х делят на определенное число k интервалов шириной ∆ х, подсчитывают частоту m _i в каждом интервале, значения, попавшие на конец интервала, относят или к левому или к правому интервалу, определяют Р_i* = , и результаты заносят в таблицу, называемую статистическим интервальным рядом:

Интервал X	] х _о, х ₁[	] х ₁, х ₂[	…	] х_к- ₁, х_к [
m	m₁	m₂	…	m_k
P*	P₁*	P₂*	…	P*_k

Число интервалов определяется по формуле Стерджесса

k = 1 + 3,332 lg n,

где n – объем выборки, а ширина интервала: ∆ х = .

Имея указанную таблицу, на оси 0 х откладывают интервал длиной ∆ х, а по оси 0у откладывают плотность относительной частоты . На каждом частотном интервале строят прямоугольник с основанием ∆ х и высотой (рис.4). Площадь i -го прямоугольника S _i = . ∆ x = P _i *.

Полученную таким образом ступенчатую фигуру, состоящую из прямоугольников, называют гистограммой. Площадь всех прямоугольников будет равна единице.

При неограниченном увеличении числа наблюдений п и уменьшении ширины интервалов верхняя ломанная линия будет стремиться к плавной кривой, ограничивающей площадь, равную единице. В пределе плавная кривая будет графиком плотности вероятности, которая и характеризует плотность распределения случайной величины. При большом числе наблюдений на гистограмме появляются основные статистические закономерности:

1. Полученные в наблюдениях значения измеряемой величины симметрично расположены около некоторого среднего значения х.

2. Большие отклонения от среднего х встречаются реже, чем малые.

5. Обработка результатов прямых и косвенных измерений.

а) Погрешности измерений.

Количественная сторона процессов и явлений в любом эксперименте изучается с помощью измерений, которые делятся на прямые и косвенные.

Прямым называется такое измерение, при котором значение, интересующее экспериментатора величины находятся непосредственно из отсчета по прибору.

Косвенное - это измерение, при котором значение величины находится как функция других величин. Например, сопротивление резистора определяют по напряжению и току (R = ).

Измеренное значение х _изм. некоторой физической величины х обычно отличается от ее истинного значения х _ист.. Отклонение результата, полученного на опыте, от истинного значения, т.е. разность х _изм.– х _ист.= ∆ х – называется абсолютной ошибкой измерения, а – относительной ошибкой (погрешностью) измерения. Погрешности или ошибки делятся на систематические, случайные и промахи.

Систематическими ошибками называются такие ошибки, величина и знак которых от опыта к опыту сохраняется или изменяется закономерно. Они искажают результат измерений в одну сторону – либо завышая, либо занижая его. Подобные ошибки вызываются постоянно действующими причинами, односторонне влияющие на результат измерений (неисправность или малая точность прибора).

Ошибки, величина и знак которых непредсказуемым образом изменяются от опыта к опыту, называются случайными. Такие ошибки возникают, например, при взвешивании из-за колебаний установки, неодинакового влияния трения, температуры, влажности и т.д. Случайные ошибки возникают и из-за несовершенства или дефекта органов чувств экспериментатора.

Случайные погрешности исключить опытным путем нельзя. Их влияние на результат измерения может быть оценено с помощью математических методов статистики (малые выборки).

Промахами или грубыми погрешностями называются погрешности, существенно превышающие систематические и случайные погрешности. Наблюдения, содержащие промахи отбрасываются как недостоверные.

б) Обработка результатов непосредственных измерений.

Для надежности оценки случайных погрешностей необходимо выполнить достаточно большое количество измерений п. Допустим, что в результате непосредственных измерений получены результаты х ₁, х ₂, х ₃, …, х_п. Наиболее вероятное значение определяется как среднее арифметическое, которое при большом числе измерений совпадает с истинным значением: .

Затем определяют среднюю квадратичную ошибку отдельного измерения: .

При этом можно оценить наибольшую среднюю квадратичную ошибку отдельного измерения: S_наиб. = 3S.

Следующий этап заключается в определении средней квадратичной ошибки среднего арифметического:

Ширина доверительного интервала около среднего значения измеряемой величины будет определяться поабсолютной погрешности среднего арифметического: , где t_α_,_n– так называемый коэффициент Стьюдента для числа наблюдений п и доверительной вероятности α (табличная величина). Обычно доверительная вероятность в условиях учебной лаборатории выбирается 0,95 или 95%. Это значит, что при многократном повторении опыта в одних и тех же условиях, ошибки, в 95 случаях из 100 не превысят значения . Интервальной оценкой измеряемой величины x будет доверительный интервал , в который попадает её истинное значение с заданной вероятностью α. Результат измерения записывается: .

Эту запись можно понимать как неравенство: .

Относительная погрешность: Е ≤ 5% в условиях учебной лаборатории.

в) Обработка результатов косвенных измерений.

Если величину у измеряют косвенным методом, т.е. она является функцией п независимых величин х ₁, х ₂, …, х_п: у = f(х ₁, х ₂, …, х_п), а значит . Средняя квадратичная ошибка среднего арифметического определяется по формуле:

где частные производные вычисляются для средних значений вычисляется по формуле средней квадратичной ошибки для непосредственного измерения. Доверительная вероятность для всех погрешностей, связанных с аргументами х_i функции у задается одинаковый (Р = 0,95), такой же она задается и для у. Абсолютная погрешность среднего значения определяется по формуле: . Тогда или . Относительная погрешность будет равна Е = ≤5%.

6. Понятие о корреляционном анализе.

Функциональная зависимость величин достаточно хорошо знакома, и часто эту зависимость можно выразить аналитически:

S =πr²; S =f (r); a= ; a = f (F,m).

Однако существует зависимость между величинами, связанными не только функционально, но и статистически. При научных исследованиях изучаются зависимости, которые не слишком очевидны и не выражаются простыми однозначными формулами. Так, например, зависимость между дозой лекарственного препарата (х) и содержанием его в крови (у), которое определяется не только количеством препарата, но и массой больного, скорость выведения препарата из организма, наличием в крови других веществ и т.д.

Прослеживается связь между ростом людей и массой их тела, между погодными условиями и количеством простудных заболеваний населения. Такая, более сложная, чем функциональная, вероятностная зависимость является корреляционной зависимостью(или просто корреляция).

Корреляционная зависимость – это частный случай статистической зависимости между величинами, когда изменение одной из величин, например, Х влечет к изменению среднего значения (или математического ожидания) другой –У.

При изучении связи между Х и У каждому значению Х= х будет соответствовать несколько значений У: у₁, у₂, у₃ и т.д. Условным средним назовем среднее арифметическое значение у (или математическое ожидание у), соответствующее значению Х= х. Тогда корреляционную зависимость или корреляцию У от Х можно записать: = f(x) (1) или М(У) _х = f (x), где f (x) - некоторая функция, она называется функцией регрессии у на х.

Уравнение (1) называется уравнением регрессии у на х, а график функции – линией регрессии у на х. Аналогично можно сформулировать корреляционную зависимость Х от У: (2) или М(X)_y.=φ(y). Если обе функции (1) и (2) являются линейными, то корреляция называется линейной, в противном случае нелинейной.

Достоверность корреляционной зависимости может быть оценена коэффициентами линейной корреляции. Более подробно этот материал рассматривается в курсе социальной гигиены и организации здравоохранения.

Нормальный закон распределения (закон Гаусса).

Поиск по сайту