МЕТОДОЛОГИЧЕСКИЕ ОСНОВЫ ВАРИАЦИОННОЙ СТАТИСТИКИ




1. Вариационная статистика

2. Независимые и зависимые переменные

3. Типы переменных

4. Свойства зависимости между переменными.

 

1. Вариационная статистика - раздел математической статистики, изучающий распределение количественных признаков в статистических совокупностях. В однородных совокупностях имеются признаки, изменяющиеся от одной единицы к другой (диаметр отдельных деревьев в древостое, прирост высоты саженцев в лесных культурах одного года посадки и т.д.). Группировка единиц по величине варьируемого признака дает вариационные ряды, которые составляют предмет вариационной статистики. Для этих рядов вычисляются: средняя величина, среднее квадратическое отклонение, показатели меры косости (А) и крутости (Е), мода (Мо), медиана (Ме) и др.

Вариационная статистика рассматривает вопросы построения теоретических распределений, измерения связи между варьирующими признаками, количественные критерии оценки достоверности полученных показателей. В целом вариационная статистика применяется при математической обработке результатов наблюдений и дает методы объективной обработки информации для лесоводства, лесной таксации и др. В свою очередь вариационная статистика опирается на эти дисциплины, т.к. имеет дело с варьирующими признаками.

2. Одно из основных понятий статистики - переменные - это то, что можно измерять, контролировать или что можно изменять в исследованиях.

Независимыми переменными называются переменные, которые варьируются исследователем, тогда как зависимые переменные - это переменные, которые измеряются или регистрируются. Т.е. зависимость проявляется в ответной реакции исследуемого объекта на посланное на него воздействие.

В исследовании корреляций (зависимостей, связей) вы не влияете (или, по крайней мере, пытаетесь не влиять) на переменные, а только измеряете их и хотите найти взаимосвязь между некоторыми измеренными переменными, например, между высотой и диаметром дерева. В экспериментальных исследованиях, вы варьируете некоторыми переменными и измеряете воздействия этих изменений на другие переменные.

Например, исследователь может искусственно отбирать деревья определенной высоты, а затем для определенных уровней высот измерить диаметр деревьев. Анализ данных в экспериментальном исследовании также приходит к вычислению «корреляций» (зависимостей) между переменными, а именно, между переменными, на которые воздействуют, и переменными, на которые влияет это воздействие. Тем не менее, экспериментальные данные потенциально снабжают нас более качественной информацией. Только экспериментально можно убедительно доказать причинную связь между переменными.

Например, если обнаружено, что всякий раз, когда изменяется переменная х, изменяется и переменная у, то можно сделать вывод - переменная х оказывает влияние на переменную у, т.е. между переменными х и у имеется причинно-следственная связь.

3. Переменные различаются также тем «насколько хорошо» они могут быть измерены или, как много измеряемой информации обеспечивает шкала их измерений. В каждом измерении присутствует некоторая ошибка, определяющая границы «количества информации», которое можно получить в данном измерении. Другим фактором, определяющим количество информации, содержащейся в переменной, является тип шкалы, в которой проведено измерение. Различают следующие типы шкал:

•номинальная;

•порядковая (ординальная);

•интервальная;

•относительная (шкала отношения).

Соответственно, имеем четыре типа переменных:

Номинальные переменные используются только для качественной классификации. Это означает, что данные переменные могут быть измерены только в терминах принадлежности к некоторым, существенно различным классам; при этом вы не сможете определить количество или упорядочить эти классы. Типичные примеры номинальных переменных - порода, тип почвы, цвет, и т.д.

Порядковые переменные позволяют ранжировать (упорядочить) объекты, указав какие из них в большей или меньшей степени обладают качеством, выраженным данной переменной. Однако они не позволяют сказать «на сколько больше» или «на сколько меньше». Типичный пример порядковой переменной - бонитет древостоя.

Интервальные переменные позволяют не только упорядочивать объекты измерения, но и численно выразить и сравнить различия между ними. Например, диаметр, измеренный в сантиметрах или метрах, образует интервальную шкалу. Здесь можно сказать, что дерево диаметром 40 см больше, чем диаметром 30 см, но и что увеличение диаметра с 20 до 40 см вдвое больше увеличения диаметра от 30 до 40 см.

Относительные переменные очень похожи на интервальные переменные. В дополнение ко всем свойствам переменных, измеренных в интервальной шкале, их характерной чертой является наличие определенной точки абсолютного нуля, таким образом, для этих переменных являются обоснованными предложения типа: х в два раза больше, чем у. Типичными примерами шкал отношений являются измерения времени или пространства. Например, температура по Кельвину образует шкалу отношения, и вы можете не только утверждать, что температура 200 градусов выше, чем 100 градусов, но и что она вдвое выше. Интервальные шкалы (например, шкала Цельсия) не обладают данным свойством шкалы отношения. В большинстве статистических процедур не делается различия между свойствами интервальных шкал и шкал отношения.

Независимо от типа, две или более переменных связаны (зависимы) между собой, если наблюдаемые значения этих переменных распределены согласованным образом. Например, переменная высота дерева связана с его диаметром, потому что обычно высокие особи толще низких и т.д.

Конечная цель всякого исследования или научного анализа состоит в нахождение связей (зависимостей) между переменными. Философия науки учит, что не существует иного способа представления знания, кроме как в терминах зависимостей между количествами или качествами, выраженными какими-либо переменными. Таким образом, развитие науки всегда заключается в нахождении новых связей между переменными. Исследование корреляций состоит в измерении таких зависимостей непосредственным образом. Экспериментальное исследование не является в этом смысле чем-то отличным. Назначение статистики состоит в том, чтобы помочь объективно оценить зависимости между переменными.

4. Можно отметить два самых простых свойства зависимости между переменными:

Величина зависимости. Например, если любая сосна в вашей выборке имеет значение высоты выше чем любая ель, то вы можете сказать, что зависимость между двумя переменными (порода и высота) очень высокая. Другими словами, вы могли бы предсказать значения одной переменной по значениям другой.

Надежность («истинность»). Надежность говорит нам о том, насколько вероятно, что зависимость, будет вновь обнаружена (иными словами, подтвердится) на данных другой выборки, извлеченной из той же самой генеральной совокупности. Конечной целью почти никогда не является изучение данной конкретной выборки; выборка представляет интерес лишь постольку, поскольку она даст информацию обо всей генеральной совокупности. Если ваше исследование удовлетворяет некоторым специальным критериям, то надежность найденных зависимостей между переменными вашей выборки можно количественно оценить и представить с помощью стандартной статистической меры.

Величина зависимости и надежность представляют две различные характеристики зависимостей между переменными. Нельзя сказать, что они совершенно независимы. Чем больше величина зависимости (связи) между переменными в выборке обычного объема, тем более она надежна. Это можно объяснить следующим образом. Если предполагать отсутствие зависимости между соответствующими переменными в генеральной совокупности, то наиболее вероятно ожидать, что в исследуемой выборке связь между этими переменными также будет отсутствовать. Таким образом, чем более сильная зависимость обнаружена в выборке, тем менее вероятно, что этой зависимости нет в генеральной совокупности, из которой она извлечена.

Величина зависимости тесно связана с понятием статистическая значимость результата, которое представляет собой оцененную меру уверенности в его «истинности» - а (альфа) - уровень - это показатель, находящийся в убывающей зависимости от надежности результата. Более высокий а - уровень соответствует более низкому уровню доверия к найденной в выборке зависимости между переменными. Именно, а - уровень представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на всю генеральную совокупность. Например, а - уровень = 0,05 показывает, что имеется 5% вероятность, что найденная в выборке связь между переменными является лишь случайной особенностью данной выборки. Другими словами, если данная зависимость в генеральной совокупности отсутствует, а вы многократно проводили бы подобные эксперименты, то примерно в одном из двадцати повторений эксперимента можно было бы ожидать такой же или более сильной зависимости между переменными. Однако указанная связь между зависимостью и значимостью имеет место только при фиксированном объеме выборки, поскольку при различных объемах выборки одна и та же зависимость может оказаться как высоко значимой, так и незначимой вовсе.

Чем слабее зависимость между переменными, тем большего объема требуется выборка, чтобы значимо ее обнаружить. Необходимый минимальный размер выборки возрастает, когда степень эффекта, который нужно доказать, убывает. Когда эффект близок к 0, необходимый объем выборки для его отчетливого доказательства приближается к бесконечности. Другими словами, если зависимость между переменными почти отсутствует, объем выборки, необходимый для значимого обнаружения зависимости, почти равен объему всей генеральной совокупности, который предполагается бесконечным. Статистическая значимость представляет вероятность того, что подобный результат был бы получен при проверке всей генеральной совокупности в целом. Таким образом, все, что получено после тестирования всей генеральной совокупности было бы, по определению, значимым на наивысшем, возможном уровне и это относится ко всем результатам типа «нет зависимости».

Статистиками разработано много различных мер взаимосвязи между переменными. Выбор определенной меры в конкретном исследовании зависит от числа переменных, используемых шкал измерения, природы зависимостей и т.д. Большинство этих мер, тем не менее, подчиняются общему принципу. Обычный способ выполнить такие оценки заключается в том, чтобы посмотреть, как варьируются значения переменных и затем подсчитать, какую часть всей имеющейся вариации можно объяснить наличием «общей» («совместной») вариации двух (или более) переменных. Другими словами, вы сравниваете то «что есть общего в этих переменных», с тем «что потенциально было бы у них общего, если бы переменные были абсолютно зависимы».

Конечная цель большинства статистических критериев (тестов) состоит в оценивании зависимости между переменными. Эти тесты представляют собой отношение изменчивости, общей для рассматриваемых переменных, к полной изменчивости. Это отношение обычно называется отношением объясненной вариации к полной вариации. В статистике термин объясненная вариация не обязательно означает, что вы даете ей «теоретическое объяснение». Он используется только для обозначения общей вариации рассматриваемых переменных, иными словами, для указания на то, что часть вариации одной переменной «объясняется» определенными значениями другой переменной и наоборот.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2022-06-20 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: