Методы вторичной обработки




Виды эксперимента.

При пассивном эксперименте информация об исследуемом объекте накапливается путем пассивного наблюдения, то есть информацию получают в условиях обычного функционирования объекта. Активный эксперимент проводится с применением искусственного воздействия на объект по специальной программе.

При пассивном эксперименте существуют только факторы в виде входных контролируемых, но неуправляемых переменных, и экспериментатор находится в положении пассивного наблюдателя. Задача планирования в этом случае сводится к оптимальной организации сбора информации и решению таких вопросов, как выбор количества и частоты измерений, выбор метода обработки результатов измерений.

Наиболее часто целью пассивного эксперимента является построение математической модели объекта, которая может рассматриваться либо как хорошо, либо как плохо организованный объект. В хорошо организованном объекте имеют место определенные процессы, в которых взаимосвязи входных и выходных параметров устанавливаются в виде детерминированных функций. Поэтому такие объекты называют детерминированными. Плохо организованные или диффузные объекты представляют собой статистические модели. Методы исследования с использованием таких моделей не требуют детального изучения механизма процессов и явлений, протекающих в объекте.

Примером пассивного эксперимента может быть анализ работы схемы, которая не имеет входов, только выходы, и повлиять на ее работу невозможно.

Хорошим примером пассивного эксперимента с диффузным объектом являются измерения метеорологических параметров (температуры, скорости ветра и т.д.) при природных катаклизмах.

Активный эксперимент позволяет быстрее и эффективнее решать задачи исследования, но более сложен, требует больших материальных затрат и может помешать нормальному ходу технологического процесса. Иногда отсутствует возможность проведения активного эксперимента (например, при исследовании явлений природы). Тем не менее, учитывая преимущества активного эксперимента, тогда, когда это возможно, предпочтение отдают ему.

При активном эксперименте факторы должны быть управляемыми и независимыми.

Активный эксперимент предполагает возможность воздействия на ход процесса и выбора в каждом опыте уровней факторов. При планировании активного эксперимента решается задача рационального выбора факторов, существенно влияющих на объект исследования, и определения соответствующего числа проводимых опытов. Увеличение числа включенных в рассмотрение факторов приводит к резкому возрастанию числа опытов, уменьшение - к существенному увеличению погрешности опыта. Фактор считается заданным только тогда, когда при его выборе указывается его область определения – совокупность значений, которые может принимать данный фактор. В эксперименте используется ограниченная часть области определения, задаваемая обычно в виде дискретного множества уровней. Выбранные факторы должны быть однозначно управляемыми и операциональными, то есть поддающимися регулированию с поддержанием на заданном уровне в течение всего опыта при соблюдении последовательности необходимых для этого действий. Должна быть назначена также точность измерения факторов в выбранном диапазоне измерения.

Совокупности факторов должны отвечать требованиям совместимости и независимости. Соблюдение первого требования означает, что все комбинации факторов осуществимы и безопасны, второго - возможность установления фактора на любом уровне независимо от уровней других факторов.

В результате пассивного или активного эксперимента получаются выборочные совокупности измеряемых величин, по своей сути имеющие случайный характер. Поэтому модели, построенные на их основе, всегда будут иметь вероятностный характер. Отсюда следует, что сбор и обработка статистических данных должны опираться на строгие методы математической статистики, методологической основой которых является теория вероятностей.

Цель математической обработки экспериментальных данных – построение аналитической модели исследуемого явления или процесса на основе конечной выборочной совокупности экспериментальных данных, (например, для возможности дальнейшего прогнозирования процесса, определение закономерностей процессов и явлений, устранение или уменьшения воздействия неблагоприятных факторов, определение факторов, улучшающих процесс).

Обработка данных направлена на решение следующих задач:

1) упорядочивание исходного материала, преобразование множества данных в целостную систему сведений (оценка числовых характеристик выборочных данных и подбор законов их распределения), на основе которой возможно дальнейшее описание и объяснение изучаемых объекта и предмета;

2) обнаружение и ликвидация ошибок, недочетов, пробелов в сведениях;

3) выявление скрытых от непосредственного восприятия тенденций, закономерностей и связей;

4) обнаружение новых фактов, которые не ожидались и не были замечены в ходе эмпирического процесса;

5) выяснение уровня достоверности, надежности и точности собранных данных и получение на их базе научно обоснованных результатов завершают процедуры обработки экспериментальных данных.

 

 

Но не всегда эксперимент заканчивается получением искомой аналитической модели. Поэтому прежде, чем строить модель, необходимо выяснить, имеет ли вообще смысл делать это на основе имеющейся совокупности. Может оказаться, что нарушены процедуры сбора данных, и полученная выборочная совокупность не отражает исследуемые свойства генеральной совокупности значений случайной величины в достаточной степени. В частности, может оказаться, что объем выборочной совокупности мал, или сами данные имеют малую точность, или данных достаточно и они достаточно точны, но при этом они неудачно сгруппированы и представляют свойства только части генеральной совокупности. Наконец, может оказаться, что выдвинутая в начале исследования гипотеза о существовании зависимости между случайными величинами неверна и устанавливать вид этой зависимости бессмысленно.

Корректность математической модели и возможность ее применения на практике зависят от того, насколько грамотно спланирован эксперимент, насколько корректно с точки зрения математической статистики проведены процедуры сбора, обработки и анализа результатов эксперимента и, наконец, насколько корректно выполнена интерпретация полученных результатов. При этом следует отметить, что любые аналитические модели, которые мы собираемся строить на основе опытных данных, не могут иметь точность, превышающую точность измерения самих данных.

 

Обработка данных имеет количественный и качественный аспек­ты. Количественная обработка есть манипуляция с измеренными ха­рактеристиками изучаемого объекта (объектов), с его «объективизированными» во внешнем проявлении свойствами.

Качественная обра­ботка — это способ предварительного проникновения в сущность объекта путем выявления его неизмеряемых свойств на базе количе­ственных данных. Качественная обработка естественным образом выливается в опи­сание и объяснение изучаемых явлений, что составляет уже следую­щий уровень их изучения, осуществляемый на стадии интерпретации результатов.

Количественная обработка направлена в основном на формальное, внешнее изучение объекта, качественная — преимущественно на со­держательное, внутреннее его изучение. В количественном исследова­нии доминирует аналитическая составляющая познания, что отражено и в названиях количественных методов обработки эмпирического ма­териала, которые содержат категорию «анализ»: корреляционный ана­лиз, факторный анализ и т. д. Основным итогом количественной обра­ботки является упорядоченная совокупность «внешних» показателей объекта (объектов). Реализуется количественная обработка с помощью математико-статистических методов.

Количественная же обработка полностью относится к эта­пу обработки данных.

Процесс количественной обработки данных имеет две фазы: первичную и вторичную.

Первичная обработка - упорядочивание информации об объекте и предмете изучения, полученной на эмпирическом этапе исследования:

группировка данных по выбранным исследователем критериям,

графическое представление данных.

Цель:

1. обнаружить и ликвидировать ошибки, совершенные при фикса­ции данных,

2. выявить и изъять из общего массива неле­пые данные, полученные в результате нарушения процедуры обследо­вания, несоблюдения испытуемыми инструкции и т. п.

3. первичное представление о характере всей совокупности данных в целом: об их однородности — неоднородности, компактности — разбросанности, четкости — размы­тости и т. д. Эта информация хорошо читается на наглядных формах представления данных и связана с понятиями «распределение данных».

К основным методам первичной обработки относятся:

табулирование, т. е. представление количественной информации в табличной форме,

построение графиков: диаграмм (рис. I), гистограмм (рис. 2), полигонов рас­пределения (рис. 3) и кривых распределения (рис. 4).

Диаграммы отра­жают распределение дискретных данных, остальные графические формы используются для представления распределения непрерывных данных.

От гистограммы легко перейти к построению частотного полигона распределения, а от последнего —к кривой распределения. Частот­ный полигон строят, соединяя прямыми отрезками верхние точки цент­ральных осей всех участков гистограммы.

Если же вершины участков соединить с помощью плавных кривых линий, то получится кривая рас­пределения первичных результатов.

Переход от гистограммы к кривой распределения позволяет путем интерполяции находить те величины исследуемой переменной, которые в опыте не были получены.

 

Методы вторичной обработки

Вторичная обработказаключается главным образом в статис­тическом анализе итогов первичной обработки.

Виды статистического анализа:

Описательная статистику - табулирование и построение графиков, вычисление мер центральной тенденции и разброса;

индуктивная статистика — осуществляет проверку соответствия данных выборки всей популяции, т. е. решает проблему репрезентативности результатов и возможности перехода от частного знания к общему;

корреляционная статистика — выявляет связи между явлениями.

Статистический анализ отвечает на три главных вопроса:

1) ка­кое значение наиболее характерно для выборки?;

2) велик ли разброс данных относительно этого характерного значения, т. е. какова «размы­тость» данных?;

3) существует ли взаимосвязь между отдельными дан­ными в имеющейся совокупности и каковы характер и сила этих связей?

Ответами на эти вопросы служат некоторые статистические показатели исследуемой выборки. Для решения первого вопроса вычисляются меры центральной тенденции (или локализации), второго — меры изменчиво­сти (или рассеивания, разброса), третьего — меры связи (или корреля­ции). Эти статистические показатели приложимы к количественным дан­ным (порядковым, интервальным, пропорциональным).

Меры центральной тенденции (м. ц. т.) — это величины, вокруг которых группируются остальные данные. Эти величины являются как бы обобщающими всю выборку показателями, что, во-первых, позво­ляет по ним судить обо всей выборке, а во-вторых, дает возможность сравнивать разные выборки, разные серии между собой.

К мерам центральной тенденции относятся: среднее арифметическое, медиана, мода, среднее геометрическое, среднее гармоническое.

Среднее арифметическое ( )

Медиана (Me) — это значение, выше и ниже которого количество отличающихся значений одинаково, т. е. это центральное значение в последовательном ряду данных.

Мода (Мо) — это значение, наиболее часто встречающееся в вы­борке, т. е. значение с наибольшей частотой.

Меры изменчивости (рассеивания, разброса) — это статистические показатели, характеризующие различия между отдельными значениями выборки. Они позволяют судить о степени однородности по­лученного множества, о его компактности, а косвенно и о надежности полученных данных и вытекающих из них результатов. Наиболее используемые в исследованиях показатели: размах, среднее отклонение, дисперсия, стандартное отклонение, полуквартилъное отклонение.

Размах (Range) —это интервал между максимальным и минимальным значениями признака. Определяется легко и быстро, но чувствителен к случайностям, особенно при малом числе данных. R=xmax –xmin

Среднее отклонение (МD) — это среднеарифметическое разницы (по абсолютной величине) между каждым значением в выборке и ее средним: МD = d / N, где: d = |xi - |; — среднее выборки; xi — конкретное значение; N — число значений (объем выборки).

Множество всех конкретных отклонений от среднего характеризует изменчивость данных, но, если их не взять по абсолютной величине, то их сумма будет равна нулю, и мы не получим информации об их изменчивости. МD показывает степень скученности данных вокруг сред­него. Кстати, иногда при определении этой характеристики выборки вместо среднего берут иные меры центральной тенденции — моду или медиану.

Дисперсия (D(x)) (от лат. dispersus — рассыпанный). Другой путь из­мерения степени скученности данных предполагает избегание нулевой суммы конкретных разниц (d = xi - ) не через их абсолютные величи­ны, а через их возведение в квадрат. При этом получают так называе­мую дисперсию:

D(x) = Σd2 / N — для больших выборок (N > 30);

D(x) = Σd2 / (N-1) — для малых выборок (N < 30).

Стандартное отклонение (σ). Из-за возведения в квадрат отдельных отклонений d при вычислении дисперсии полученная величина оказывается далекой от первоначальных отклонений и потому не дает о них наглядного представления. Чтобы этого избежать и получить ха­рактеристику, сопоставимую со средним отклонением, проделывают обратную математическую операцию — из дисперсии извлекают квад­ратный корень. Его положительное значение и принимается за меру изменчивости, именуемую среднеквадратическим или стандартным отклонением:

МД, Д и d применимы для интервальных и пропорционных данных. Для порядковых данных обычно в качестве меры изменчивости берут полуквартильное отклонение (Q), именуемое еще полуквартильным коэффициентом или полумеждуквартильным размахом. Вычис­ляется этот показатель следующим образом. Вся область распределе­ния данных делится на четыре равные части. Если отсчитывать на­блюдения, начиная от минимальной величины на измерительной шкале (на графиках, полигонах, гистограммах отсчет обычно ведется слева направо), то первая четверть шкалы называется первым квартилем, а точка, отделяющая его от остальной части шкалы, обозначается сим­волом Q,. Вторые 25% распределения — второй квартиль, а соответ­ствующая точка на шкале — Q2. Между третьей и четвертой четвертями распределения расположена точка Q3,. Полу квартальный коэффи­циент определяется как половина интервала между первым и третьим квартилями: Q = (Q3-Q1) / 2.

Понятно, что при симметричном распределении точка Q0 совпа­дет с медианой (а следовательно, и со средним), и тогда можно вычис­лить коэффициент Q для характеристики разброса данных относитель­но середины распределения. При несимметричном распределении это­го недостаточно. И тогда дополнительно вычисляют коэффициенты для левого и правого участков: Qлев= (Q2-Q3) / 2; Q прав = (Q3 — Q2) / 2.

Меры связи

Предыдущие показатели, именуемые статистиками, характери­зуют совокупность данных по одному какому-либо признаку. Этот из­меняющийся признак называют переменной величиной или просто «пе­ременной». Меры связи же выявляют соотношения между двумя пере­менными или между двумя выборками. Эти связи, или корреляции (от лат. correlatio — 'соотношение, взаимосвязь') определяют через вы­числение коэффициентов корреляции (R), если переменные находятся в линейной зависимости между собой. Но наличие корреляции не означает, что между переменными су­ществует причинная (или функциональная) связь. Функциональная зависимость— это частный случай корреляции. Даже если связь при­чинна, корреляционные показатели не могут указать, какая из двух переменных причина, а какая — следствие. Кроме того, любая обнару­женная связь, как правило, существует благодаря и дру­гим переменным, а не только двум рассматриваемым. К тому же взаи­мосвязи признаков столь сложны, что их обусловлен­ность одной причиной вряд ли состоятельна, они детерминированы множеством причин.

Виды корреляции:

I. По тесноте связи:

1) Полная (совершенная): R = 1. Констатируется обязательная вза­имозависимость между переменными. Здесь уже можно говорить о функциональной зависимости.

2) связь не выявлена: R = 0.

3) Частичная: 0<R<1. Меньше 0,2 —очень слабая связь; (0,2-0,4) — корреляция явно есть, но невысокая; (0,4-0,6) — явно выраженная кор­реляция; (0,6-0,8) — высокая корреляция; больше 0,8 — очень высокая.

Встречаются и другие градации оценок тесноты связи.

II. По направленности:

1) Положительная (прямая);

Коэффициент R со знаком «плюс» означает прямую зависимость: при увеличении значения одной переменной наблюдается увеличение другой.

2) Отрицательная (обратная).

Коэффициент R со знаком «минус» означает обратную зависимость: увеличение значения одной переменной влечет уменьшение другой.

III. По форме:

1) Прямолинейная.

При такой связи равномерным изменениям одной переменной со­ответствуют равномерные изменения другой. Если говорить не только о корреляциях, но и о функциональных зависимостях, то такие формы зависимости называют пропорциональными.

2) Криволинейная.

Это связь, при которой равномерное изменение одного признака сочетается с неравномерным изменением другого.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2019-05-16 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: