Корреляционно-регрессионный анализ




ФОРМУЛЫСТАТИСТИКИ

Средние величины

Среднее арифметическое

(невзвешенное) для несгруппированных данных,

(взвешенное) для сгруппированных данных.

Среднее гармоническое

(невзвешенное),

(взвешенное), где .

Отыскание среднего арифметического через среднее гармоническое:

, где – объем признака в группе: .

Среднее геометрическое

(невзвешенное),

(взвешенное).

Среднее квадратическое

(невзвешенное),

(взвешенное).

Структурные средние

Мода

Для дискретного вариационного ряда:

, где такое, что ,

Для интервального вариационного ряда (с интервалами равной длины):

.

Здесь – нижняя граница модального интервала, – длина модального интервала, – частота модального интервала, – частота предмодального интервала, – частота постмодального интервала. Модальный интервал – интервал, имеющий максимальную частоту.

Медиана

Для дискретного вариационного ряда:

, если n нечетное, и , если n четное.

Для интервального вариационного ряда:

.

Здесь – нижняя граница медианного интервала, – длина медианного интервала, – объем выборки, – частота медианного интервала, – накопленная частота вплоть до предмедианного интервала (включительно). Медианный интервал – первый интервал, накопленная частота которого превышает половину объема выборки.

Медианный интервал можно найти по номеру медианной единицы ряда: . Первый интервал, накопленная частота которого больше или равна , является медианным интервалом.

Меры вариации (колеблемости)

Размах вариации

.

Формула Стерджесса для определения оптимального числа групп: .

Дисперсия и среднеквадратическое отклонение

Для несгруппированных данных:

; = ;

Для сгруппированных данных:

; = ;

Общая формула: ,

где для несгруппированных данных,

или для сгруппированных данных.

Коэффициент вариации

Совокупность считается однородной, если коэффициент вариации не превышает 33% (для распределений, близких к нормальным).

Среднее линейное отклонение

; (невзвешенное),

(взвешенное).

Между средним линейным и средним квадратическим отклонениями существует следующее примерное соотношение: , если фактическое распределение близко к нормальному.

Коэффициент осцилляции

Коэффициент линейной вариации

.

Доверительные интервалы

Средняя ошибка наблюдений количественного признака (средняя ошибка среднего значения):

(повторный отбор); (бесповторный отбор).

Предельная ошибка наблюдений количественного признака (предельная ошибка среднего значения):

(повторный отбор);

(бесповторный отбор),

где t – коэффициент доверия.

Средняя ошибка наблюдений альтернативного признака (средняя ошибка доли):

(повторный отбор);

(бесповторный отбор).

Предельная ошибка наблюдений альтернативного признака (предельная ошибка доли)

(повторный отбор);

(бесповторный отбор).

Здесь t – коэффициент доверия.

Если объем выборки , то его находят из таблиц функции Лапласа как корень уравнения , где γ – заданная доверительная вероятность (надежность): .

Доверительный интервал :

Объем выборки, обеспечивающий заданную точность с заданной надежностью,

для среднего значения (количественного признака):

(повторный отбор); (бесповторный отбор);

для доли (альтернативного признака):

(повторный отбор);

(бесповторный отбор).

Можно использовать максимальное значение дисперсии альтернативного признака:

(повторный отбор); (бесповторный отбор),

т. к. , поскольку .

Малая выборка

Выборка считается малой, если объем выборки .

Исправленная дисперсия

Средняя ошибка наблюдений количественного признака (средняя ошибка среднего значения)

(повторный отбор);

(бесповторный отбор).

Средняя ошибка наблюдений альтернативного признака (средняя ошибка доли)

(повторный отбор);

(бесповторный отбор);

Предельная ошибка наблюдений количественного признака (предельная ошибка среднего значения):

(повторный отбор); (бесповторный отбор);

Предельная ошибка наблюдений альтернативного признака (предельная ошибка доли):

(повторный отбор); (бесповторный отбор).

Здесь – коэффициент доверия для малой выборки. Его находят по таблицам критических точек распределения Стьюдента для двусторонней области при , где γ – доверительная вероятность (надежность). Если коэффициент доверия ищут по таблицам распределения Стьюдента для односторонней области, то вместо нужно брать . Этот же коэффициент можно найти по специальным таблицам для .

Объем выборки, обеспечивающий заданную точность с заданной надежностью,

для среднего значения (количественного признака):

(повторный отбор);

(бесповторный отбор);

для доли (альтернативного признака):

(повторный отбор);

(бесповторный отбор).

Если использовать максимальное значение дисперсии доли, то

(повторный отбор);

(бесповторный отбор), т. к. .

Линейная регрессия.

Корреляционно-регрессионный анализ

Уравнение линейной регрессии: , где , .

Коэффициент корреляции Пирсона: ; .

Коэффициент детерминации: ,

где .

Коэффициент детерминации показывает величину вариации переменной y, которая объясняется переменной x, при наличии линейной связи этих величин. В случае строгой функциональной линейной зависимости между переменными x и y коэффициент детерминации . Если линейная зависимость между x и y отсутствует, то .

– это общая вариация переменной y.

– это вариация переменной y, которая объясняется формулой .

– это вариация переменной y, которая не объясняется формулой . Разница называется ошибкой (остатком, отклонением). Значения коэффициентов a и b в уравнении подбираются (методом наименьших квадратов) так, чтобы минимизировать сумму квадратов всех отклонений: .

 

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2019-08-04 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: