Методы вторичной обработки

Виды эксперимента.

При пассивном эксперименте информация об исследуемом объекте накапливается путем пассивного наблюдения, то есть информацию получают в условиях обычного функционирования объекта. Активный эксперимент проводится с применением искусственного воздействия на объект по специальной программе.

При пассивном эксперименте существуют только факторы в виде входных контролируемых, но неуправляемых переменных, и экспериментатор находится в положении пассивного наблюдателя. Задача планирования в этом случае сводится к оптимальной организации сбора информации и решению таких вопросов, как выбор количества и частоты измерений, выбор метода обработки результатов измерений.

Наиболее часто целью пассивного эксперимента является построение математической модели объекта, которая может рассматриваться либо как хорошо, либо как плохо организованный объект. В хорошо организованном объекте имеют место определенные процессы, в которых взаимосвязи входных и выходных параметров устанавливаются в виде детерминированных функций. Поэтому такие объекты называют детерминированными. Плохо организованные или диффузные объекты представляют собой статистические модели. Методы исследования с использованием таких моделей не требуют детального изучения механизма процессов и явлений, протекающих в объекте.

Примером пассивного эксперимента может быть анализ работы схемы, которая не имеет входов, только выходы, и повлиять на ее работу невозможно.

Хорошим примером пассивного эксперимента с диффузным объектом являются измерения метеорологических параметров (температуры, скорости ветра и т.д.) при природных катаклизмах.

Активный эксперимент позволяет быстрее и эффективнее решать задачи исследования, но более сложен, требует больших материальных затрат и может помешать нормальному ходу технологического процесса. Иногда отсутствует возможность проведения активного эксперимента (например, при исследовании явлений природы). Тем не менее, учитывая преимущества активного эксперимента, тогда, когда это возможно, предпочтение отдают ему.

При активном эксперименте факторы должны быть управляемыми и независимыми.

Активный эксперимент предполагает возможность воздействия на ход процесса и выбора в каждом опыте уровней факторов. При планировании активного эксперимента решается задача рационального выбора факторов, существенно влияющих на объект исследования, и определения соответствующего числа проводимых опытов. Увеличение числа включенных в рассмотрение факторов приводит к резкому возрастанию числа опытов, уменьшение - к существенному увеличению погрешности опыта. Фактор считается заданным только тогда, когда при его выборе указывается его область определения – совокупность значений, которые может принимать данный фактор. В эксперименте используется ограниченная часть области определения, задаваемая обычно в виде дискретного множества уровней. Выбранные факторы должны быть однозначно управляемыми и операциональными, то есть поддающимися регулированию с поддержанием на заданном уровне в течение всего опыта при соблюдении последовательности необходимых для этого действий. Должна быть назначена также точность измерения факторов в выбранном диапазоне измерения.

Совокупности факторов должны отвечать требованиям совместимости и независимости. Соблюдение первого требования означает, что все комбинации факторов осуществимы и безопасны, второго - возможность установления фактора на любом уровне независимо от уровней других факторов.

В результате пассивного или активного эксперимента получаются выборочные совокупности измеряемых величин, по своей сути имеющие случайный характер. Поэтому модели, построенные на их основе, всегда будут иметь вероятностный характер. Отсюда следует, что сбор и обработка статистических данных должны опираться на строгие методы математической статистики, методологической основой которых является теория вероятностей.

Цель математической обработки экспериментальных данных – построение аналитической модели исследуемого явления или процесса на основе конечной выборочной совокупности экспериментальных данных, (например, для возможности дальнейшего прогнозирования процесса, определение закономерностей процессов и явлений, устранение или уменьшения воздействия неблагоприятных факторов, определение факторов, улучшающих процесс).

Обработка данных направлена на решение следующих задач:

1) упорядочивание исходного материала, преобразование множества данных в целостную систему сведений (оценка числовых характеристик выборочных данных и подбор законов их распределения), на основе которой возможно дальнейшее описание и объяснение изучаемых объекта и предмета;

2) обнаружение и ликвидация ошибок, недочетов, пробелов в сведениях;

3) выявление скрытых от непосредственного восприятия тенденций, закономерностей и связей;

4) обнаружение новых фактов, которые не ожидались и не были замечены в ходе эмпирического процесса;

5) выяснение уровня достоверности, надежности и точности собранных данных и получение на их базе научно обоснованных результатов завершают процедуры обработки экспериментальных данных.

Но не всегда эксперимент заканчивается получением искомой аналитической модели. Поэтому прежде, чем строить модель, необходимо выяснить, имеет ли вообще смысл делать это на основе имеющейся совокупности. Может оказаться, что нарушены процедуры сбора данных, и полученная выборочная совокупность не отражает исследуемые свойства генеральной совокупности значений случайной величины в достаточной степени. В частности, может оказаться, что объем выборочной совокупности мал, или сами данные имеют малую точность, или данных достаточно и они достаточно точны, но при этом они неудачно сгруппированы и представляют свойства только части генеральной совокупности. Наконец, может оказаться, что выдвинутая в начале исследования гипотеза о существовании зависимости между случайными величинами неверна и устанавливать вид этой зависимости бессмысленно.

Корректность математической модели и возможность ее применения на практике зависят от того, насколько грамотно спланирован эксперимент, насколько корректно с точки зрения математической статистики проведены процедуры сбора, обработки и анализа результатов эксперимента и, наконец, насколько корректно выполнена интерпретация полученных результатов. При этом следует отметить, что любые аналитические модели, которые мы собираемся строить на основе опытных данных, не могут иметь точность, превышающую точность измерения самих данных.

Обработка данных имеет количественный и качественный аспекты. Количественная обработка есть манипуляция с измеренными характеристиками изучаемого объекта (объектов), с его «объективизированными» во внешнем проявлении свойствами.

Качественная обработка — это способ предварительного проникновения в сущность объекта путем выявления его неизмеряемых свойств на базе количественных данных. Качественная обработка естественным образом выливается в описание и объяснение изучаемых явлений, что составляет уже следующий уровень их изучения, осуществляемый на стадии интерпретации результатов.

Количественная обработка направлена в основном на формальное, внешнее изучение объекта, качественная — преимущественно на содержательное, внутреннее его изучение. В количественном исследовании доминирует аналитическая составляющая познания, что отражено и в названиях количественных методов обработки эмпирического материала, которые содержат категорию «анализ»: корреляционный анализ, факторный анализ и т. д. Основным итогом количественной обработки является упорядоченная совокупность «внешних» показателей объекта (объектов). Реализуется количественная обработка с помощью математико-статистических методов.

Количественная же обработка полностью относится к этапу обработки данных.

Процесс количественной обработки данных имеет две фазы: первичную и вторичную.

Первичная обработка - упорядочивание информации об объекте и предмете изучения, полученной на эмпирическом этапе исследования:

группировка данных по выбранным исследователем критериям,

графическое представление данных.

Цель:

1. обнаружить и ликвидировать ошибки, совершенные при фиксации данных,

2. выявить и изъять из общего массива нелепые данные, полученные в результате нарушения процедуры обследования, несоблюдения испытуемыми инструкции и т. п.

3. первичное представление о характере всей совокупности данных в целом: об их однородности — неоднородности, компактности — разбросанности, четкости — размытости и т. д. Эта информация хорошо читается на наглядных формах представления данных и связана с понятиями «распределение данных».

К основным методам первичной обработки относятся:

табулирование, т. е. представление количественной информации в табличной форме,

построение графиков: диаграмм (рис. I), гистограмм (рис. 2), полигонов распределения (рис. 3) и кривых распределения (рис. 4).

Диаграммы отражают распределение дискретных данных, остальные графические формы используются для представления распределения непрерывных данных.

От гистограммы легко перейти к построению частотного полигона распределения, а от последнего —к кривой распределения. Частотный полигон строят, соединяя прямыми отрезками верхние точки центральных осей всех участков гистограммы.

Если же вершины участков соединить с помощью плавных кривых линий, то получится кривая распределения первичных результатов.

Переход от гистограммы к кривой распределения позволяет путем интерполяции находить те величины исследуемой переменной, которые в опыте не были получены.

Методы вторичной обработки

Вторичная обработказаключается главным образом в статистическом анализе итогов первичной обработки.

Виды статистического анализа:

Описательная статистику - табулирование и построение графиков, вычисление мер центральной тенденции и разброса;

индуктивная статистика — осуществляет проверку соответствия данных выборки всей популяции, т. е. решает проблему репрезентативности результатов и возможности перехода от частного знания к общему;

корреляционная статистика — выявляет связи между явлениями.

Статистический анализ отвечает на три главных вопроса:

1) какое значение наиболее характерно для выборки?;

2) велик ли разброс данных относительно этого характерного значения, т. е. какова «размытость» данных?;

3) существует ли взаимосвязь между отдельными данными в имеющейся совокупности и каковы характер и сила этих связей?

Ответами на эти вопросы служат некоторые статистические показатели исследуемой выборки. Для решения первого вопроса вычисляются меры центральной тенденции (или локализации), второго — меры изменчивости (или рассеивания, разброса), третьего — меры связи (или корреляции). Эти статистические показатели приложимы к количественным данным (порядковым, интервальным, пропорциональным).

Меры центральной тенденции (м. ц. т.) — это величины, вокруг которых группируются остальные данные. Эти величины являются как бы обобщающими всю выборку показателями, что, во-первых, позволяет по ним судить обо всей выборке, а во-вторых, дает возможность сравнивать разные выборки, разные серии между собой.

К мерам центральной тенденции относятся: среднее арифметическое, медиана, мода, среднее геометрическое, среднее гармоническое.

Среднее арифметическое ( )

Медиана (Me) — это значение, выше и ниже которого количество отличающихся значений одинаково, т. е. это центральное значение в последовательном ряду данных.

Мода (Мо) — это значение, наиболее часто встречающееся в выборке, т. е. значение с наибольшей частотой.

Меры изменчивости (рассеивания, разброса) — это статистические показатели, характеризующие различия между отдельными значениями выборки. Они позволяют судить о степени однородности полученного множества, о его компактности, а косвенно и о надежности полученных данных и вытекающих из них результатов. Наиболее используемые в исследованиях показатели: размах, среднее отклонение, дисперсия, стандартное отклонение, полуквартилъное отклонение.

Размах (Range) —это интервал между максимальным и минимальным значениями признака. Определяется легко и быстро, но чувствителен к случайностям, особенно при малом числе данных. R=x_max –x_min

Среднее отклонение (МD) — это среднеарифметическое разницы (по абсолютной величине) между каждым значением в выборке и ее средним: МD = d / N, где: d = |x_i - |; — среднее выборки; x_i — конкретное значение; N — число значений (объем выборки).

Множество всех конкретных отклонений от среднего характеризует изменчивость данных, но, если их не взять по абсолютной величине, то их сумма будет равна нулю, и мы не получим информации об их изменчивости. МD показывает степень скученности данных вокруг среднего. Кстати, иногда при определении этой характеристики выборки вместо среднего берут иные меры центральной тенденции — моду или медиану.

Дисперсия (D(x)) (от лат. dispersus — рассыпанный). Другой путь измерения степени скученности данных предполагает избегание нулевой суммы конкретных разниц (d = x_i - ) не через их абсолютные величины, а через их возведение в квадрат. При этом получают так называемую дисперсию:

D(x) = Σd² / N — для больших выборок (N > 30);

D(x) = Σd² / (N-1) — для малых выборок (N < 30).

Стандартное отклонение (σ). Из-за возведения в квадрат отдельных отклонений d при вычислении дисперсии полученная величина оказывается далекой от первоначальных отклонений и потому не дает о них наглядного представления. Чтобы этого избежать и получить характеристику, сопоставимую со средним отклонением, проделывают обратную математическую операцию — из дисперсии извлекают квадратный корень. Его положительное значение и принимается за меру изменчивости, именуемую среднеквадратическим или стандартным отклонением:

МД, Д и d применимы для интервальных и пропорционных данных. Для порядковых данных обычно в качестве меры изменчивости берут полуквартильное отклонение (Q), именуемое еще полуквартильным коэффициентом или полумеждуквартильным размахом. Вычисляется этот показатель следующим образом. Вся область распределения данных делится на четыре равные части. Если отсчитывать наблюдения, начиная от минимальной величины на измерительной шкале (на графиках, полигонах, гистограммах отсчет обычно ведется слева направо), то первая четверть шкалы называется первым квартилем, а точка, отделяющая его от остальной части шкалы, обозначается символом Q,. Вторые 25% распределения — второй квартиль, а соответствующая точка на шкале — Q₂. Между третьей и четвертой четвертями распределения расположена точка Q₃,. Полу квартальный коэффициент определяется как половина интервала между первым и третьим квартилями: Q = (Q₃-Q₁) / 2.

Понятно, что при симметричном распределении точка Q₀ совпадет с медианой (а следовательно, и со средним), и тогда можно вычислить коэффициент Q для характеристики разброса данных относительно середины распределения. При несимметричном распределении этого недостаточно. И тогда дополнительно вычисляют коэффициенты для левого и правого участков: Q_лев⁼ (Q₂-Q₃) / 2; Q _прав = (Q₃ — Q₂) / 2.

Меры связи

Предыдущие показатели, именуемые статистиками, характеризуют совокупность данных по одному какому-либо признаку. Этот изменяющийся признак называют переменной величиной или просто «переменной». Меры связи же выявляют соотношения между двумя переменными или между двумя выборками. Эти связи, или корреляции (от лат. correlatio — 'соотношение, взаимосвязь') определяют через вычисление коэффициентов корреляции (R), если переменные находятся в линейной зависимости между собой. Но наличие корреляции не означает, что между переменными существует причинная (или функциональная) связь. Функциональная зависимость— это частный случай корреляции. Даже если связь причинна, корреляционные показатели не могут указать, какая из двух переменных причина, а какая — следствие. Кроме того, любая обнаруженная связь, как правило, существует благодаря и другим переменным, а не только двум рассматриваемым. К тому же взаимосвязи признаков столь сложны, что их обусловленность одной причиной вряд ли состоятельна, они детерминированы множеством причин.

Виды корреляции:

I. По тесноте связи:

1) Полная (совершенная): R = 1. Констатируется обязательная взаимозависимость между переменными. Здесь уже можно говорить о функциональной зависимости.

2) связь не выявлена: R = 0.

3) Частичная: 0<R<1. Меньше 0,2 —очень слабая связь; (0,2-0,4) — корреляция явно есть, но невысокая; (0,4-0,6) — явно выраженная корреляция; (0,6-0,8) — высокая корреляция; больше 0,8 — очень высокая.

Встречаются и другие градации оценок тесноты связи.

II. По направленности:

1) Положительная (прямая);

Коэффициент R со знаком «плюс» означает прямую зависимость: при увеличении значения одной переменной наблюдается увеличение другой.

2) Отрицательная (обратная).

Коэффициент R со знаком «минус» означает обратную зависимость: увеличение значения одной переменной влечет уменьшение другой.

III. По форме:

1) Прямолинейная.

При такой связи равномерным изменениям одной переменной соответствуют равномерные изменения другой. Если говорить не только о корреляциях, но и о функциональных зависимостях, то такие формы зависимости называют пропорциональными.

2) Криволинейная.

Это связь, при которой равномерное изменение одного признака сочетается с неравномерным изменением другого.

Методы вторичной обработки

Поиск по сайту