Методы математической статистики

Несмотря на то, что уже много сказано о важности и необходимости количественного анализа, количественный анализ не является и не может быть самоцелью, поскольку не способен дать чего-либо позитивного в отрыве от качественного, сущностно-содержательного подхода, предшествующего с необходимостью количественному. Таким образом, математические методы позволяют исследователю получать те или иные характеристики изучаемых признаков, но сами по себе они ничего не объясняют.

Тем не менее, исследователь часто не может обойтись без количественных методов. Это касается работ, направленных на изучение область массовых явлений, нашедших отражение в массовых источниках. Так, например, земельное дарение в Западной Европе в Средние века в пользу церкви нашло свое выражение в оформлении грамот (картуляриев). Картулярии исчисляются десятками тысяч, в частности картулярий Лоршского монастыря. Для изучения перемещения земельной собственности из рук в руки качественный анализ недостаточен, необходимы трудоемкие операции количественного характера и свойства. Таким образом, применение методов количественного анализа диктуется характером объекта исторической науки и потребностями развития его изучения.

Историческое исследование открывает возможность применения математических методов тогда, когда оно «созревает» для этого, т.е. когда проведена необходимая работа по качественному анализу изучаемого события или явления способами, присущими исторической науке.

Первоначальной формой количественного анализа в обществоведческих исследованиях был статистический метод. Его разработка и применение связаны с возникновением статистики как общественной дисциплины, изучающей количественную сторону массовых общественных явлений и процессов — экономических, политических, культурных, демографических и др. Возникновение статистики (в первоначальном виде — «политической арифметики») относится ко второй половине XVII в. Ее родиной была Англия. Термин «статистика» входит в употребление в XVIII в. (от лат. status — государство). В исторической науке статистический метод находит широкое применение в середине—второй половине XIX в. На этот метод опирался Г. Бокль, обосновывая свое понимание законов истории, т.е. решая методологические проблемы. Гораздо более широко разновидности метода статистического анализа применялись в изучении конкретных социально-экономических проблем, и прежде всего аграрных отношений. В немецкой историографии им активно пользовались К.Т. Инама-Штернегг (1843 — 1908), К.Лампрехт и др., в дореволюционной российской историографии — В.О.Ключевский, Н.А.Рожков (1868—1927), А.Н.Савин, в советской — Н.М.Дружинин (1886—1986), Е.А.Косминский (1886-1959), М.А.Барг (1915-1991), И.Д.Ковальченко и др.

Сам по себе, вне опоры на ряд условий методологического характера, количественный анализ приводит не к достижению истины, а к ее искажению. Недаром говорят: есть маленькая ложь, есть большая ложь, а есть статистика.

К числу общих условий рационального применения статистического метода относятся:

- приоритет, первичность качественного анализа по отношению к количественному анализу;

- изучение качественных и количественных признаков в их единстве;

- выявление качественной однородности событий, подвергаемых статистической обработке1.

Простейшей разновидностью статистического анализа является описательная статистика. Его сходство с описательным методом заключается в том, что процедура описания применяется к количественным данным, совокупность которых составляет статистический факт. Сбор и обработка количественных показателей обнажают сущность статистического факта как некоторого явления со своей структурой. Например, по данным ВЦИОМ, 90 % современной молодежи 18 — 25 лет считают, что надо жить самостоятельно. 64% из них полагают, что только вдали от родителей они научатся отвечать за свои поступки, 38 % уверены, что без опеки они скорее начнут работать, а 20 % надеются, что «раздельное проживание» спасет от семейных конфликтов2.

Изучая явления прошлого по первичным статистическим данным, историк сталкивается с неупорядоченной последовательностью чисел, показателей, характеризующих тот или иной аспект явления или процесса.

Одним из наиболее распространенных приемов представления совокупности разрозненных данных в удобной для восприятия форме выступает группировка. Она является основным начальным этапом обработки данных источника, фундаментом для большинства других приемов математикостатистического анализа3.

Метод группировки заключается в разбиении исходной совокупности данных на группы, каждая из которых объединена общими показателями. Различия между единицами одной группы должны быть меньше, чем различия между единицами разных групп.

Сгруппированные данные представляются в виде таблиц или графиков. Это позволяет охарактеризовать как в целом изучаемую совокупность, так и ее части; обнаружить и зафиксировать связи между признаками; обеспечить наглядность и компактность материала. Имеющийся в распоряжении исследователя набор чисел называется статистической совокупностью. Количественные показатели, характеризующие рассматриваемый признак и принимающие различные значения - вариантами или переменными. Так, например, личные карточки студентов исторического факультета КГУ с указанием их возраста выступают в качестве статистической совокупности. Возраст - рассматриваемый признак, а конкретные его значения относительно каждого студента - варианты или переменные. Одна и та же варианта статистической совокупности может встречаться несколько раз. Величина, показывающая сколько раз (как часто) встречается то или иное значение переменной называется ее частотой.

Здесь надо отметить, что не только сгруппированные данные оформляются в таблицы. На этапе формализации содержательной стороны источника, когда выделены интересующие исследователя признаки, их конкретные значения можно заносить в таблицу. Заполняется такая таблица по мере поступления информации, по мере знакомства с историческим источником. Ее построение является первым этапом статистического изучения вариации признака (признаков)4.

Сведения источника, систематизированные в возрастающем или убывающем порядке и оформленные в виде таблицы называются ранжированным рядом.

Для того, чтобы сведенные в таблицу данные не теряли своего значения, а использование таблицы имело смысл, необходимо соблюдать определенные правила при составлении (построении) таблиц.

1. Каждая таблица должна иметь свой заголовок. При минимальном количестве слов он должен полностью отражать внутреннюю структуру таблицы.

2. В одной таблице не должно быть много признаков. Важно помнить, что чем меньше признаков, характеристик сведено в одну таблицу, тем выше ее наглядность, проще анализ, представленных данных.

3. Не строить громоздких таблиц. Нет необходимости каждой варианте признака выделять отдельную графу таблицы. Целесообразно объединять несколько граф в одну под названием "прочие", при том, что эта графа не будет охватывать более 0,1 от общего числа наблюдений.

4. Не путать употребление "итого" и "всего". "Итого" выступает итогом для определенной части совокупности, а "всего" является итогом для совокупности в целом.

5. Громоздкие числа принято округлять.

6. Каждая клеточка таблицы должна соответствовать определенному числу.

7. Таблицы сопровождаются сносками и примечаниями. Сноски относятся к части таблицы - строке, столбцу, клетке – и указывают на ограниченные обстоятельства, которые надо иметь в виду при чтении отмеченных фрагментов таблицы. Примечания относятся к таблице в целом. Чаще всего в них указывается источник информации. Если таблица авторская, следует указывать "Составлено по данным:..." Если таблица взята в готовом виде, то указывается источник информации.

Для того, чтобы не потерять информацию и в то же время составить компактную таблицу используют интервальные ряды. Здесь перед исследователем возникает проблема определения границ интервалов. Необходимо найти оптимальное число групп, количество интервалов признака и установить размер интервалов.

Решение этой задачи зависит от степени однородности рассматриваемой совокупности. В том случае, если совокупность однородна, рекомендуется брать равные интервалы. Необходимо помнить, что при описании тенденции в распределении переменных признака интервалы лучше укрупнить. В том случае, когда значение имеют конкретные данные относительно каждой группы, интервалы имеет смысл сделать небольшими.5.

Однако, существует несколько формальных способов определения оптимальной величины интервала, т.е. такого его значения, при котором просматривалась бы специфика явления и в то же время группировка не была бы громоздкой. Наиболее проста в употреблении формула, предложенная Г.Стерджессом:

K= (Xmax-Xmin)/(1+3,2lg*n), где

К - величина интервала;

Хmах - наибольшее значение признака;

Хmin - наименьшее значение признака;

n - число элементов совокупности;

lg? 0,02.

Границы интервалов для дискретных признаков устанавливаются без совпадения крайних показателей смежных интервалов. Противоположное правило применяется для дробных (непрерывных) признаков - обязательное совпадение смежных границ интервалов.

Статистика различает закрытые и открытые интервалы. В первом случае указывается верхняя и нижняя границы интервала, во втором - определена только верхняя или нижняя граница (например, "до 1 года" или "20 десятин и более")6.

Метод группировки позволяет сложное явление представить через ряд более простых, что помогает прийти к анализу всей системы в целом. Метод способствует оценке информационного потенциала источника. Методом группировки характеризуются типы явлений в их взаимных отношениях, а также вскрывается причинная зависимость между отдельными факторами и общей тенденцией развития процесса. В науке различают 3 основных вида группировок7.

Типологические - расчленяют качественно – разнородную совокупность на однородные группы, на типы. В основу группировки закладывается качественный признак. Примером типологической группировки выступает распределение промышленности периода НЭП по социальным секторам - государственная, кооперативная, частная.

Структурные - представляют качественно-однородную совокупность в виде количественных групп. В основу этих группировок закладывается количественный признак. Примером может служить распределение рабочих по стажу; - по размерам заработной платы; - по возрасту и т.п.

Деление группировок на типологические и структурные относительно и зависит от характера задач, стоящих перед исследователем. Например, если задать границы землепользования, соответствующие определенным социальным группам крестьянства, то можно изучить и структуру крестьянских хозяйств по размерам землепользования и типы хозяйств относительно размеров землепользования.

Третий вид - аналитические группировки. Они позволяют установить и на определенном уровне изучить взаимосвязь между признаками. В статистической литературе такие группировки еще называют факторными, при этом один из группировочных признаков рассматривается как результат, а другой - как фактор.

Например, дана группировка малых предприятий по размерам прибыли и продолжительности оборота средств. Ясно, что при одном и том же сроке оборота капитала предприятия могут иметь разную прибыль. Следовательно признак "оборачиваемость средств" - фактор (иными словами - условие), а признак "прибыль" - результат. Чтобы установить связь между признаками, данные группируются по признаку-фактору.

Особое место среди группировок занимают динамические ряды, отражающие изменение явления во времени.

Если ввести хронологический показатель в уравнение 1 обезьяна + 1 обезьяна, то результат не обязательно будет равен 2 обезьяны. В зависимости от времени это может быть и целая стая, и человек, и одна обезьяна (вторая может умереть) и...бесчисленное множество вариантов. (Ссылка на Маршака) С формально-логической точки зрения ответ безупречен, а это значит, что без знания того, к менялись в течение этого времени характеристики изучаемого процесса или объекта, как менялась взаимосвязь его показателей, роль и значение каждого признака или их группы получить адекватную картину исторического процесса невозможно.

Включение в группировку хронологического фактора обусловливает специфические требования к ее построению и методам анализа Динамические ряды бывают моментные, в которых время задано в виде конкретных дат (моментов времени) и интервальные, где время задано в виде промежутков - лет, месяцев, суток... Показатели временного ряда называются уровнями8.

Исследование динамических рядов начинается с доказательства нижеперечисленных требований предъявляемых к их построению.

1. Однородность явлений относительно каждой динамической группы, т.е. в один временной промежуток должны включаться одни и те же явления. Например, динамика обеспечения крестьянских дворов рабочим скотом потеряет смысл, если в одной графе - кони, в другой - волы или - в одном временном промежутке - уровень скота старше 3-х лет, а в другом - молодняка.

2. Неизменность территории, к которой относятся показатели. Это особенно важно проверить, т.к. история знает примеры, когда юридический статус территории остался прежним, а административно-территориальные границы изменились. Так, например, многократно изменялись границы Казанской губернии. Этим правилом пренебрегают, если цель исследования связана с изучением динамики тех или иных показателей в зависимости от изменения границ территории.

3. Единство методологии учета показателей. Уровни динамического ряда могут быть заданы либо абсолютными, либо относительными, либо средними величинами (соответственно подразделяются ряды динамики).

4. "Временной показатель, положенный в основу динамического ряда, в случае его интервальной разбивки должен иметь сопоставимые временные промежутки".

Показатели динамического ряда считаются сравнимыми при выполнении всех четырех условий его построения9.

Более сложной разновидностью количественного анализа является выборочная статистика, представляющая собой способ вероятностного заключения о неизвестном на основании известного. Этот способ применяется в тех случаях, когда нет полной информации о всей статистической совокупности и исследователь вынужден создавать картину изучаемых явлений на основе неполных, частичных данных или же когда информация является полной, но ее трудно охватить или ее изучение во всем объеме не дает заметных преимуществ в сравнении с выборкой. Выборочный метод находит применение и при полной информации, обработка которой во всем объеме не дает сколько-нибудь существенного преимущества при получении результатов. Применение этого метода во всех ситуациях при наличии необходимых данных источников не меняет его сути: всегда вычисляется среднее арифметическое, распространяемое на всю совокупность изучаемых явлений. Обобщения, получаемые на основе выборочного подхода, становятся обоснованными только в том случае, если они являются достаточно репрезентативными, т.е. адекватно отражающими свойства изучаемой совокупности явлений. Речь идет, прежде всего, о доказательстве их однородности, что историку удается добиться далеко не всегда ввиду случайного характера сохранившихся данных.

Выборочный статистический анализ в большинстве случаев приводит к обнаружению тенденции развития.

Использование приемов математической статистики способствует более корректному, чем при качественном анализе, изучению причинно-следственных связей и выявлению степени значимости различных причин (факторов) в свершившемся. В ходе сущностно-повествовательного анализа взаимосвязь между причиной и следствием, как и между совокупностью причин, выражается описательно с помощью таких языковых конструкций, как «больше —меньше», «существенно — менее существенно — несущественно» и т.д. Математическая статистика позволяет идти дальше, но с соблюдением условия, согласно которому результаты количественной оценки соотношения изучаемых признаков не являются абсолютными результатами вообще и не могут быть перенесены на ситуацию с иными условиями.

Допустим, историк ставит задачу выяснить зависимость размера барщинных повинностей и их динамики от состояния крестьянских хозяйств и его изменения. Очевидно, что применения описательного метода здесь недостаточно, необходима опора на количественный анализ.

В таком случае историки применяют вычисление соотношения между уровнем барщины и обеспеченностью крестьянского хозяйства рабочим скотом, между барщиной и числом трудоспособных мужчин, а затем и совокупную зависимость повинностей от поголовья тяглового скота и количества рабочей силы. Таким образом, устанавливается соотношение (коэффициент корреляции) того и другого с гораздо большей долей вероятности, достоверности, чем это может дать качественный анализ. Этот метод называется корреляционным.

При этом необходимо учитывать, что корреляционный метод не является универсальным и мало пригоден для определения сравнительной роли различных причин (факторов) в том или ином процессе.

Таковы основные приемы математической статистики, нашедшие применение в конкретно-исторических исследованиях и способствовавшие решению как простейших, так и сравнительно более сложных задач в ходе качественного анализа действительности.

Более сложными являются задачи, возникающие в связи с попыткой историка выразить в количественной форме качественные признаки общественной жизни, т.е. их измерить, и дать формализованную модель изучаемых явлений. Это — иной, более высокий уровень применения математических методов.

Методы математической статистики

Поиск по сайту