Меры центральной тенденции

Описательная статистика

Основные понятия математической статистики

Математической статистикой называют раздел математики, посвященный методам сбора, анализа и обработки статистических данных для научных и практических целей.

Основной целью статистического исследования является обнаружение и исследование соотношений между статистическими данными, полученными в результате обследования большого числа объектов или явлении.

Математическая статистика подразделяется на три основных раздела:

- Описательная статистика;

- Индуктивная статистика (теория статистического вывода);

- Планирование и анализ экспериментов.

Описательная статистика включает в себя табулирование, представление и описание совокупностей данных. Эти данные могут быть либо количественными, как, например, измерения роста и веса, либо качественными, как, например, пол и тип личности. Описательная статистика служит инструментом, описывающим, обобщающим или сводящим к желаемому виду свойства массивов данных.

Индуктивная статистика (теория статистического вывода)– статистическая техника, использующаяся для получения обобщений относительно генеральной совокупности на основе выборки, взятой из этой же совокупности. Задача индуктивной статистики–проверка того, можно ли распространить результаты, полученные на выборке, на всю популяцию, из которой взята эта выборка.

Планирование и анализ экспериментов – это раздел математической статистики, включающий систему методов обнаружения и проверки причинных связей между переменными.

Описательные статистики

Описательные статистики это числовые характеристики распределения измеренного признака, полученные на определенной выборке.

Таким образом, значения различных описательных характеристик, вычисленных по результатам, полученным на специально отобранной из генеральной совокупности группе объектов исследования (испытуемых), называются статистиками, а значения различных описательных мер, вычисленных для генеральных совокупностей, называются параметрами. Параметр описывает всю совокупность так же, как описательные статистики – выборку.

К основным статистическим показателям выборки мы можем отнести:

- Меры центральной тенденции (мода, медиана, среднее);

- Меры изменчивости (размах, дисперсия, стандартное отклонение, асимметрия, эксцесс);

- Квантили распределения.

Каждая отдельно взятая числовая характеристика распределения измеренного на выборке признака, отображает в одном числовом показателе свойство распределения полученных результатов. Таким образом, благодаря полученным числовым характеристикам мы заменяем множество первичных результатов измеренного признака, одним показателем, что в свою очередь позволяет исследователю интерпретировать результаты исследования.

Меры центральной тенденции

Мера центральной тенденции – это числовое значение, характеризующее выборку по уровню выраженности признака. Это показатели, характеризующие «центр» выборки. Предназначение мер центральной тенденции – служить сводными количественными характеристиками, обеспечивающими наилучшее описание множества наблюдений или оценок одним единственным числом.

Несмотря на разнообразие мер центральной тенденции, чаще всего используются такие меры, как мода, медиана и среднее.

Мода (Мо или ) – это числовое значение, которое в выборке встречается наиболее часто.

Пример: Даны следующие значения: 3, 5, 3, 4, 4, 1, 7, 4, 2.

Мода в данном случае будет Мо = 4.

Если в выборке все значения встречаются одинаково часто, то в таком случае, принято считать, что данная выборка не имеет моды.

Пример: 5, 6, 7, 7, 6, 5, 3, 3. Мо = 0.

Если два несмежных значения в группе имеют равные частоты и они больше частоты любого другого значения, то в таком случае говорят что в данном случае две моды. Говорят: группа оценок является бимодальной.

Пример: 2, 5, 5, 6, 5, 9, 7, 2, 7, 7. Мо = 5, Мо = 7.

Медиана (Мd или ) – это значение переменной, делящее упорядоченную совокупность наблюдений пополам, так что одна половина значений в этой совокупности меньше медианы, а др. их половина больше медианы.

Если совокупность значений образована нечетным числом значений наблюдаемой переменной, то медиана равна значению переменной, являющемуся серединой упорядоченной совокупности наблюдений.

Пример: 4, 6, 7, 1, 7, 9, 4. упорядочиваем данные 1, 4, 4, 6, 7, 7, 9. Мd = 6.

Если же совокупность образована четным числом значений, то медиана определяется значением, лежащим посередине между двумя значениями, находящимися в центре упорядоченной совокупности наблюдений.

Пример: 1, 4, 6, 7, 9, 9. Мd = (6+7)/2=6,5.

Среднее арифметическое (М х или ) – это наиболее часто используемый показатель центральной тенденции. Среднее арифметическое это центр выборки, вокруг которого группируются элементы выборки. Определяется как сумма значений наблюдаемой переменной, деленная на количество суммированных значений, т.е. среднее арифметическое значение, находится по формуле 1.1.

(1.1)

где: x_i – каждое значение в выборке;

n – количество переменных в выборке.

Пример: 1, 4, 6, 7, 9, 9. Следовательно

Меры изменчивости

Основными показатели меры изменчивости (рассеяния вариант) являются размах, дисперсия, стандартное отклонение, асимметрия, эксцесс.

Размах (R) – это разница между максимальным и минимальным значениями элементов выборки.

(1.2)

где: X_max – максимальное значение в выборке;

X_min – минимальное значение в выборке.

Пример: 1, 4, 6, 7, 9, 9. R = 9 – 1 =8.

Дисперсия выборки(D или S²) – это среднее арифметическое квадратов отклонений значений переменных от их среднего значения. Дисперсия это параметр, характеризующий степень разброса элементов выборки относительно среднего значения.

Чем больше дисперсия, тем дальше отклоняются значения элементов выборки от среднего значения.

Дисперсия находятся по формуле 1.3.

(1.3)

где: n – количество измеренных признаков;

x_i – каждое значение признака;

– среднее арифметическое.

Следовательно:

Стандартное отклонение (сигма) (σ) – это параметр, также характеризующий степень разброса элементов выборки относительно среднего значения. Чем больше стандартное отклонение, тем дальше отклоняются значения элементов выборки от среднего значения. Параметр аналогичен дисперсии и используется в тех случаях, когда необходимо, чтобы показатель разброса случайной величины выражался в тех же единицах, что и среднее значение этой случайной величины. Стандартное отклонение находится по формуле 1.4.

(1.4.)

где: n – количество измеренных признаков;

x_i – каждое значение признака;

– среднее арифметическое

Пример: Произведем следующие расчеты (см. таблицу 1).

Следовательно:

Асимметрия – мера отклонения эмпирического распределения частот от симметричного распределения относительно максимальной ординаты.

Асимметрия это количественная мера скошенности симметричного распределения, т.е. некоторой плавности или крутости боковой части кривой распределения.

Асимметриянаходятся по формуле 1.5.

(1.5)

где: σ – (сигма) стандартное отклонение находится по формуле 1.4;

n – количество измеренных признаков;

x_i – каждое значение признака;

– среднее арифметическое

Эксцесс – это степень отклонения эмпирической кривой распределения от теоретической кривой нормального распределения это количественная мера «горбатости» симметричного распределения, т.е. некоторой выпуклости или пологости.

Для оценки эксцесса применим формулу 1.5.

(1.6)

Квантили распределения

Одним из наиболее действенных методов описания выборки является описание с помощью квантилей и процентилей.

Квантиль (Q) – это значение, отделяющее от распределения слева или справа определенную долю объема совокупности.

Квантили – это три точки (значения признака) которыеделят упорядоченное множество данных на четыре части.

Первый квантиль (Q1),отделяет слева 25% объема совокупности. Второй квартиль (Q2),делит совокупность на две равные по объему части (по 50%),он называется медианой. Третий квартиль (Q₃) отделяет слева 75% объема совокупности или справа 25% объема.

Процентили (Р) – это точки (их 99) которыеделят упорядоченное множество данных на 100 частей.

Считается, что n -й процентиль - это такое значение, ниже которого расположено n процентов наблюдений данной переменной. Следовательно, 40-й процентиль - это значение, ниже которого расположено 40% результатов наблюдений; 50-й процентиль называется медианой, а 25-й и 75-й процентили - нижним и верхним квантилям соответственно.

Квантили и процентили используются для определения частоты встречаемости тех или иных значений (или интервалов) измеренного признака или для выделения подгрупп и отдельных испытуемых, наиболее типичных или нетипичных для данного множества наблюдений. Через квартили так же могут определяться числовые характеристики положения, рассеяния и асимметрии.

Меры центральной тенденции

Поиск по сайту