Надстройка «Пакет анализа» MS Excel




Надстройка (модуль) «Пакет анализа» MS Excel предназначен для выполнения базовых операций статистического анализа. Полученные с его помощью результаты не обновляются при изменении исходных данных, поэтому после их изменения для обновления результатов требуется снова выполнить соответствующую команду.

Для активизации команд выполните команду меню СервисАнализ данных. Если эта команда недоступна, загрузите Пакет анализа.

В меню Сервис выберите команду Надстройки

1. В списке надстроек выберите Пакет анализа и нажмите кнопку OK.

2. Выполните инструкции программы установки, если это необходимо.

 

Описательная статистика

Это средство анализа служит для создания таблицы с точечными оценками одномерной выборки

Поле Входной интервал используется для ввода диапазона смежных ячеек с анализируемыми данными.

Группа переключателей Группирование используется для указания способа расположения данных по столбцам или по строкам.

Флажок Метки в первой строке используется для обозначения того, что первая строка содержит заголовки столбцов.

Раздел Параметры вывода

Выходной интервал, этот переключатель используется для указания начальной ячейки в верхнем левом углу диапазона ячеек, в которых будут располагаться полученные результаты.

Переключатель Новый рабочий лист используется для указания того, что результаты будут располагаться на новом рабочем листе с указанным именем.

Флажок Итоговая статистика используется для вывода статистических параметров.

К пункту 2. Построение интервального вариационного ряда.

 

Для того, чтобы получить первое впечатление о распределении генеральной совокупности необходимо провести некоторую обработку выборки. Простейшей операцией является построение интервального ряда. Если произвести группировку вариант по отдельным значениям признака (дискретная группировка) или по интервалам изменения признака (интервальная группировка) и результат представить рядом вариант или интервалов вариант, расположенных в порядке их возрастания, и рядом соответствующих частот, то получим вариационный ряд (соответственно дискретный или интервальный).

Под частотой значения признака или интервала понимают число членов совокупности с данной вариантой или соответственно число членов совокупности, варианты которых лежат в данном интервале.

 

Для определения числа равных интервалов k, на которые следует разбить весь диапазон значений признака , используется формула:

, (1)

где n – объем статистической совокупности.

Число интервалов должно быть не меньше 8-10 и не больше 20-25, .

Размах выборки определяется по формуле:

, (2)

а размер интервала - по формуле: . (3)

Для построения интервального ряда, количества его интервалов, размаха выборки и размера интервала используется табличный процессор EXCEL.

Пример выполнения см. в файле Лаб_раб1.xls

 

К пункту 3. Построение гистограммы, полигона, кумулянты и эмпирической функции распределения.

Для наглядного представления статистического распределения пользуются графическим изображением вариационных рядов.

1) Построение гистограммы.

По оси абсцисс откладывают интервалы значений признака, и на каждом из них, как на основании, строят прямоугольник с высотой, пропорциональной частоте интервала.

Для построения гистограммы нужно построить таблицу, в которой необходимо указать границы интервалов, найти их середины и частоту значений признака для каждого интервала.

Пример выполнения см. в файле Лаб_раб1.xls, (Лист Пример1)

Пусть объем выборки равен N =60, х1 =-2,18, х60 =12,04, h =2, k= 7.

 

Таблица 1.

№ (разряд) Границы интервала середина интервала x[i]   частота mi
левая a[i] правая b[i]
  -4 -2 -3,00  
  -2   -1,00  
      1,00  
      3,00  
      5,00  
      7,00  
      9,00  
      11,00  
      13,00  
sum        

 

Гистограмма, построенная с помощью Мастера диаграмм EXCEL, приводится на рис. 1.

Рис.1

Гистограмма, построенная с помощью надстройки EXCEL «Пакет Анализа – Гистограмма», приводится на рис. 2. Для построения выполните команду меню СервисАнализ данных. Если эта команда недоступна, загрузите пакет анализа.

В меню Сервис выберите команду Надстройки

3. В списке надстроек выберите Пакет анализа и нажмите кнопку OK.

4. Выполните инструкции программы установки, если это необходимо.

 

Рис.2.

 

2). Построение полигона.

Для построения полигона на оси абсцисс откладывают интервалы значений признака, в серединах интервалов восстанавливают перпендикуляры, длины которых пропорциональны соответствующим частотам, затем концы соседних перпендикуляров соединяют отрезками прямых, а конца крайних перпендикуляров соединяют с серединами соседних интервалов, частоты которых равны нулю. В результате получим замкнутую фигуру в виде многоугольника.

 

Полигон для интервального ряда приводится на рис.3.

Пример выполнения см. в файле Лаб_раб1.xls, (Лист Пример1)

 

Рис.3.

3). Построение кумулянты.

Накопленной частостью (частотой) в точке х называют суммарную частость (частоту) членов статистической совокупности со значениями признака, меньшими чем х.

Если в вариационном ряду вместо частот или частостей записать соответственно накопленные частоты или частости, то получится кумулятивный ряд. Для графического построения кумулятивных рядов пользуются кумулянтами.

Кумулянта строится следующим образом: на оси абсцисс отмечают точки, соответствующие границам интервалов или значениям признака, и в каждой такой точке восстанавливают перпендикуляр, длина которого пропорциональна накопленной частоте. Концы соседних перпендикуляров соединяют отрезками. Полученная ломаная линия называется кумулянтой.

Пример выполнения см. в файле Лаб_раб1.xls, (Лист Пример1)

 

4). Построение графика эмпирической функции распределения.

Эмпирической функцией распределения называется следующая функция:

. (4)

Эта формула справедлива, когда все xk различны. В общем виде, следует использовать формулу (1.11), взяв в качестве pi соответствующие относительные частоты. Таким образом эмпирическая функция распределения отличается от кумулянты только масштабом. Для построения графика на оси абсцисс отмечают точки, соответствующие значениям признака, и в каждой такой точке восстанавливают перпендикуляр, длина которого пропорциональна накопленной относительной частоты.

Пример выполнения см. в файле Лаб_раб1.xls (Лист Решение_прод).

График эмпирической функции распределения см. на рис.4.

 

 

Рис.4

 

К пункту 4.

Медианой МеХ называется значение признака, относительно которого статистическая совокупность делится на две равные по объему части, причем в одной из них содержатся члены, у которых значения признака не больше, а в другой – члены со значениями признака не меньше, чем МеХ. Другими словами, медианой называется число, разделяющее выборку пополам: 50% элементов меньше медианы, а 50% -больше.

Медиана= -й элемент упорядоченного массива.

Если распределение интервальное, то сначала находят так называемый медианный интерва л , номер которого вычисляют из неравенств

, (7)

где - накопленная частота в точке х. При предположении, что в медианном интервале признак распределен равномерно, медиана признака Х определяется по формуле:

Квартили – это показатели, которые чаще всего используются для оценки распределения данных при описании свойств больших числовых выборок. В то время, как медиана разделяет упорядоченный массив пополам, квартили разбивают упорядоченный массив данных на четыре части. Квартили вычисляются по формулам (8 и 9).

Первый квартиль Q1 –это число, разделяющее выборку на две части: 25% элементов меньше, а 75% - больше первого квартиля.

- й элемент упорядоченного массива. (8)

Третий квартиль Q3 –это число, разделяющее выборку на две части: 75% элементов меньше, а 25% - больше третьего квартиля.

- й элемент упорядоченного массива. (9)

Для вычисления квартилей применяются следующие правила.

1. Если индекс квартиля задается целым числом, значением квартиля считается элемент выборки с указанным индексом.

2. Если индекс квартиля задается величиной, представляющее собой среднее значение, вычисляемое по двум целым числам, квартиль равен среднему арифметическому, вычисленному по элементам, индексы которых равны эти двум числам.

3. Если индекс квартиля задается целым числом, которое не является целым и не кратно ½, он просто округляется до ближайшего целого. Квартилем является элемент с указанным индексом.

 

 

 

К пункту 6.

Диаграмма типа “ящик с усами”

Общие понятия

Диаграмма типа “ящик с усами” изображает важные характеристик описательной статистики на одном компактном рисунке. Она предложена Джоном Таки (John Tukey) в 1977 г. в основополагающей книге Exploratory Data Analysis. Диаграмма типа “ящик с усами” отображает перечисленные ниже характеристики описательной статистики.

 

1. Первая квартиль, медиана, третья квартиль и интерквантильный диапазон.

2. Минимальное и максимальное значения.

3. Умеренные и экстремальные выбросы.

 

Диаграмма типа “ящик с усами” дает хорошее визуальное представление изменчивости данных, а также асимметрии распределения

 

 

Интерквартиль

Первый компонент диаграммы типа “ящик с усами” называется интерквартиль или интерквартильный диапазон (interquartile range — IQR), который простирается от первой до третьей квартили.

интерквартиль -Одна из мер разброса, или рассеяния, данных. Равняется разности между верхним и нижним квартилями. IQR это ширина интервала, содержащего средние 50% выборки, так что он тем меньше, чем меньше рассеяние, причем на него слабо влияют выбросы, т.е. он является робастной характеристикой.
Пример.
Пусть дана выборка (уже в виде вариационного ряда): 2 3 4 5 6 6 6 7 7 8 9. Ее верхний квартиль равен 7, ее нижний квартиль равен 4, наконец, IQR равняется 7 - 4 = 3.


Для создания этого диапазона (интерквартили) нарисуйте прямоугольник (“ящик”) от первой до третьей квартили. Внутри ящика нарисуйте горизонтальную линию на уровне медианы (второй квартили).

 
 

 


Ограждения

После отображения интерквартильного диапазона можно приступать к вычислению внутреннего и внешнего ограждений. Внутренние ограждения (inner fences) располагаются в области больше третьей квартили + 1,5´IQR или меньше первой квартили – 1,5´IQR. Внешние ограждения (outer fences) располагаются в области больше третьей квартили + 3´IQR или меньше первой квартили – 3´IQR.

 

 

Замечание. Эта диаграмма нарисована без точного соответствия масштабу.

Выбросы

Все значения, которые лежат в промежутке между внутренним и внешним ограждениями, называются умеренными выбросами (moderate outlier) и обозначаются символами l. Все значения, которые лежат за пределами внешних ограждений, называются экстремальными выбросами (extreme outlier) и обозначаются символами ¡.

 

 

Замечание. Эта диаграмма нарисована без точного соответствия масштабу.

Усы

Это вертикальные линии, проведенные от ящика до максимального и минимального значения внутри внутреннего ограждения. Эти значения не считаются выбросами.

 

 

Замечание. Эта диаграмма нарисована без точного соответствия масштабу.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-04-11 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: