ФОРМУЛЫСТАТИСТИКИ
Средние величины
Среднее арифметическое
(невзвешенное) для несгруппированных данных,
(взвешенное) для сгруппированных данных.
Среднее гармоническое
(невзвешенное),
(взвешенное), где .
Отыскание среднего арифметического через среднее гармоническое:
, где – объем признака в группе: .
Среднее геометрическое
(невзвешенное),
(взвешенное).
Среднее квадратическое
(невзвешенное),
(взвешенное).
Структурные средние
Мода
Для дискретного вариационного ряда:
, где такое, что ,
Для интервального вариационного ряда (с интервалами равной длины):
.
Здесь – нижняя граница модального интервала, – длина модального интервала, – частота модального интервала, – частота предмодального интервала, – частота постмодального интервала. Модальный интервал – интервал, имеющий максимальную частоту.
Медиана
Для дискретного вариационного ряда:
, если n нечетное, и , если n четное.
Для интервального вариационного ряда:
.
Здесь – нижняя граница медианного интервала, – длина медианного интервала, – объем выборки, – частота медианного интервала, – накопленная частота вплоть до предмедианного интервала (включительно). Медианный интервал – первый интервал, накопленная частота которого превышает половину объема выборки.
Медианный интервал можно найти по номеру медианной единицы ряда: . Первый интервал, накопленная частота которого больше или равна , является медианным интервалом.
Меры вариации (колеблемости)
Размах вариации
.
Формула Стерджесса для определения оптимального числа групп: .
Дисперсия и среднеквадратическое отклонение
Для несгруппированных данных:
; = ;
Для сгруппированных данных:
; = ;
Общая формула: ,
где для несгруппированных данных,
или для сгруппированных данных.
Коэффициент вариации
Совокупность считается однородной, если коэффициент вариации не превышает 33% (для распределений, близких к нормальным).
Среднее линейное отклонение
; (невзвешенное),
(взвешенное).
Между средним линейным и средним квадратическим отклонениями существует следующее примерное соотношение: , если фактическое распределение близко к нормальному.
Коэффициент осцилляции
Коэффициент линейной вариации
.
Доверительные интервалы
Средняя ошибка наблюдений количественного признака (средняя ошибка среднего значения):
(повторный отбор); (бесповторный отбор).
Предельная ошибка наблюдений количественного признака (предельная ошибка среднего значения):
(повторный отбор);
(бесповторный отбор),
где t – коэффициент доверия.
Средняя ошибка наблюдений альтернативного признака (средняя ошибка доли):
(повторный отбор);
(бесповторный отбор).
Предельная ошибка наблюдений альтернативного признака (предельная ошибка доли)
(повторный отбор);
(бесповторный отбор).
Здесь t – коэффициент доверия.
Если объем выборки , то его находят из таблиц функции Лапласа как корень уравнения , где γ – заданная доверительная вероятность (надежность): .
Доверительный интервал :
Объем выборки, обеспечивающий заданную точность с заданной надежностью,
для среднего значения (количественного признака):
(повторный отбор); (бесповторный отбор);
для доли (альтернативного признака):
(повторный отбор);
(бесповторный отбор).
Можно использовать максимальное значение дисперсии альтернативного признака:
(повторный отбор); (бесповторный отбор),
т. к. , поскольку .
Малая выборка
Выборка считается малой, если объем выборки .
Исправленная дисперсия
Средняя ошибка наблюдений количественного признака (средняя ошибка среднего значения)
(повторный отбор);
(бесповторный отбор).
Средняя ошибка наблюдений альтернативного признака (средняя ошибка доли)
(повторный отбор);
(бесповторный отбор);
Предельная ошибка наблюдений количественного признака (предельная ошибка среднего значения):
(повторный отбор); (бесповторный отбор);
Предельная ошибка наблюдений альтернативного признака (предельная ошибка доли):
(повторный отбор); (бесповторный отбор).
Здесь – коэффициент доверия для малой выборки. Его находят по таблицам критических точек распределения Стьюдента для двусторонней области при , где γ – доверительная вероятность (надежность). Если коэффициент доверия ищут по таблицам распределения Стьюдента для односторонней области, то вместо нужно брать . Этот же коэффициент можно найти по специальным таблицам для .
Объем выборки, обеспечивающий заданную точность с заданной надежностью,
для среднего значения (количественного признака):
(повторный отбор);
(бесповторный отбор);
для доли (альтернативного признака):
(повторный отбор);
(бесповторный отбор).
Если использовать максимальное значение дисперсии доли, то
(повторный отбор);
(бесповторный отбор), т. к. .
Линейная регрессия.
Корреляционно-регрессионный анализ
Уравнение линейной регрессии: , где , .
Коэффициент корреляции Пирсона: ; .
Коэффициент детерминации: ,
где .
Коэффициент детерминации показывает величину вариации переменной y, которая объясняется переменной x, при наличии линейной связи этих величин. В случае строгой функциональной линейной зависимости между переменными x и y коэффициент детерминации . Если линейная зависимость между x и y отсутствует, то .
– это общая вариация переменной y.
– это вариация переменной y, которая объясняется формулой .
– это вариация переменной y, которая не объясняется формулой . Разница называется ошибкой (остатком, отклонением). Значения коэффициентов a и b в уравнении подбираются (методом наименьших квадратов) так, чтобы минимизировать сумму квадратов всех отклонений: .