Общая характеристика выборочного метода




11.6.1. Общее понятие о выборочном методе. Множество всех единиц совокупности, обладающих определенным признаком и подлежащих изучению, носит в статистике название генеральной совокупности.

На практике по тем или иным причинам не всегда возможно или же нецелесообразно рассматривать всю генеральную совокупность. Тогда ограничиваются изучением лишь некоторой части ее, конечной целью которого является распространение полученных результатов на всю генеральную совокупность, т. е. применяют выборочный метод.

Для этого из генеральной совокупности особым образом отбирается часть элементов, так называемая выборка, и результаты обработки выборочных данных (например, средние арифметические значения) обобщаются на всю совокупность.

Теоретической основой выборочного метода является закон больших чисел. В силу этого закона при ограниченном рассеивании признака в генеральной совокупности и достаточно большой выборке с вероятностью, близкой к полной достоверности, выборочная средняя может быть сколь угодно близка к генеральной средней. Закон этот, включающий в себя группу теорем, доказан строго математически. Таким образом, средняя арифметическая, рассчитанная по выборке, может с достаточным основанием рассматриваться как показатель, характеризующий генеральную совокупность в целом.

Разумеется, не всякая выборка может быть основой для характеристики всей совокупности, к которой она принадлежит. Таким свойством обладают лишь репрезентативные (представительные) выборки, т. е. выборки, которые правильно отражают свойства генеральной совокупности. Существуют способы, позволяющие гарантировать достаточную репрезентативность выборки. Как доказано в ряде теорем математической статистики, таким способом при условии достаточно большой выборки является метод случайного отбора элементов генеральной совокупности, такого отбора, когда каждый элемент генеральной совокупности имеет равный с другими элементами шанс попасть в выборку. Выборки, полученные таким способом, называются случайными выборками. Случайность выборки является, таким образом, существенным условием применения выборочного метода

11.6.2. Области применения выборочного метода в исторических исследованиях. Сфера приложения этого метода в изучении истории обширна. Во-первых, историки могут применять выборочный метод при проведении всякого рода обследований с целью изучения различных явлений и процессов современности. Правда, сейчас такими исследованиями больше занимаются социологи, чем историки, хотя именно историки могут проводить конкретно-социологические обследования, опираясь на исторические данные, и добиваться наибольшего эффекта таких исследований.

Во-вторых, историки нередко имеют дело с сохранившимися данными ранее проведенных собственно выборочных обследований. Такие обследования стали все более широко применяться с конца XIX в. Так, при проведении ряда сплошных обследований и переписей выборочно собирались и собираются сведения по более широкой программе. Многие данные собирались только выборочно. Наиболее интересными среди них для историков являются описания разного рода хозяйственных комплексов (крестьянских хозяйств, промышленных предприятий, колхозов, совхозов и т. д.), а также бюджетные и другого рода обследования различных слоев населения.

В-третьих, в распоряжении историков имеется значительное число разнообразных первичных сплошных массовых данных, полная обработка которых весьма затруднительна даже при применении современной вычислительной техники. При изучении их может быть применен выборочный метод. Такие материалы имеются по всем периодам истории, но особенно много их по истории XIX—XX вв.

Наконец, историкам очень часто приходится иметь дело с частичными данными, так называемыми естественными выборками. При обработке этих данных также может быть применен выборочный метод. Характер естественных выборок бывает различным. Прежде всего они могут представлять собой сохранившийся остаток некогда существовавшей более или менее полной совокупности данных. Так, многие актовые материалы, документы текущего делопроизводства и отчетности представляют остатки в прошлом обширных и систематических массивов данных. Далее, при систематическом сборе тех или иных сведений отдельные показатели могли учитываться лишь частично (именно частично, а не выборочно). Так, при составлении «Экономических примечаний» к Генеральному межеванию второй половины XVIII в., которое охватило большую часть территории страны, ряд показателей (количество населения, площадь земельных угодий и др.) учитывался повсеместно, а некоторые важные данные (о величине барских запашек, размерах оброка) были собраны в силу целого ряда причин лишь частично. Многие сведения вообще собирались только частично. Это прежде всего относится к тем из них, которые не являлись нормативными и сбором которых занимались различные местные органы, научные и общественные организации и отдельные лица.

Итак, области выборочного метода в исторических исследованиях весьма обширны, а задачи, которые следует при этом решать, различны.

Так, при организации выборочного обследования и формировании выборки из имеющихся сплошных данных исследователь располагает определенной свободой маневра для обеспечения репрезентативности выборок. При этом он может опираться на хорошо разработанную в математической статистике теорию, методику и технику получения таких выборок.

При оперировании же данными ранее проведенных выборочных обследований следует проверить, в какой мере они были выполнены в соответствии с требованиями, предъявляемыми к выборочному методу. Для этого надо знать, как было проведено это обследование. Чаще всего это вполне можно сделать.

И совсем иное дело — естественные выборки данных, с которыми очень часто имеет дело историк. Прежде всего необходимо доказать их репрезентативность. Без этого экстраполяция показателей выборок на всю изучаемую совокупность будет необоснованной. Поскольку пока еще нет достаточно надежных методов математической проверки репрезентативности естественных выборок, то решающую роль здесь играет выяснение истории их возникновения и содержательный анализ имеющихся данных.

11.6.3. Виды выборочного изучения. В зависимости от того, как осуществляется отбор элементов совокупности в выборку, различают несколько видов выборочного обследования. Отбор может быть случайным, механическим, типическим и серийным.

Случайным является такой отбор, при котором все элементы генеральной совокупности имеют равную возможность быть отобранными. Другими словами, для каждого элемента генеральной совокупности обеспечена равная вероятность попасть в выборку.

Требование случайности отбора достигается на практике с помощью жребия или таблицы случайных чисел.

При отборе способом жеребьевки все элементы генеральной совокупности предварительно нумеруются и номера их наносятся на карточки. После тщательной перетасовки из пачки любым способом (подряд или в любом другом порядке) выбирается нужное число карточек, соответствующее объему выборки. При этом можно либо откладывать отобранные карточки в сторону (тем самым осуществляется так называемый бесповторный отбор), либо, вытащив карточку, записать ее номер и возвратить в пачку, тем самым, давая ей возможность появиться в выборке еще раз (повторный отбор). При повторном отборе всякий раз после возвращения карточки пачка должна быть тщательно перетасована.

Способ жеребьевки применяется в тех случаях, когда число элементов всей изучаемой совокупности невелико. При большом объеме генеральной совокупности осуществление случайного отбора методом жеребьевки становится сложным. Более надежным и менее трудоемким в случае большого объема обрабатываемых данных является метод использования таблицы случайных чисел.

Способ отбора с помощью таблицы случайных чисел рассмотрим на примере.

Пример 1. Пусть совокупность состоит из 900 элементов, а намеченный объем выборки равен 20 единицам.

Из таблицы случайных чисел отбираем числа, не превосходящие 900, до тех пор, пока не наберем нужных 20 чисел. Получаем: 146 867 505 139 653 480 426 765 478 807 47 220 522 221 835 368 275 424 703.

Выписанные числа будем считать порядковыми номерами тех элементов генеральной совокупности, которые попали в выборку.

Для очень больших совокупностей отбор с помощью таблицы случайных чисел становится трудно осуществимым, так как сложно перенумеровать всю совокупность. Здесь лучше применить механический отбор.

Механический отбор производится следующим образом. Если формируется 10%-ная выборка, т. е. из каждых десяти элементов должен быть отобран один, то вся совокупность условно разбивается на равные части по 10 элементов. Затем из первой десятки выбирается случайным образом элемент. Например, жеребьевка указала девятый номер. Отбор остальных элементов выборки полностью определяется указанной пропорцией отбора N номером первого отобранного элемента. В рассматриваемом случае выборка будет состоять из элементов 9, 19, 29 и т. д.

Механическим отбором следует пользоваться осторожно, так как существует реальная опасность возникновения так называемых систематических ошибок. Поэтому прежде чем делать механическую выборку, необходимо проанализировать изучаемую совокупность. Если ее элементы расположены случайным образом, то выборка, полученная механическим способом, будет случайной. Однако нередко элементы исходной совокупности бывают частично или даже полностью упорядочены. Весьма нежелательным для механического отбора является порядок элементов, имеющий правильную повторяемость, период которой может совпасть с периодом механической выборки.

Нередко элементы совокупности бывают упорядочены по величине изучаемого признака в убывающем или возрастающем порядке и не имеют периодичности. Механический отбор из такой совокупности приобретает характер направленного отбора, так как отдельные части совокупности оказываются представленными в выборке пропорционально их численности во всей совокупности, т. е. отбор направлен на то, чтобы сделать выборку представительной.

Механический отбор, как никакой другой, широко использовался в русской и советской статистике.

Большую ценность представляют обследования земских статистиков, которые наряду со сплошным подворным обследованием крестьянских хозяйств по сокращенной «похозяйственней карточке» изучали по расширенной программе определенную часть хозяйств, отобранных механическим способом.

Механический отбор использовался советскими статистиками для учета посевных площадей, численности скота, размеров урожая и многого другого накануне сплошной коллективизации, когда в сельском хозяйстве насчитывалось 25 млн. мелких крестьянских хозяйств (так называемый 10%-ный весенний опрос крестьянских хозяйств и 5%-ный осенний опрос).

Другим видом направленного отбора является типический отбор. Следует отличать типический отбор от отбора типичных объектов. Отбор типичных объектов применялся в земской статистике, а также при бюджетных обследованиях. При этом отбор «типичных селений» или «типичных хозяйств» производился по некоторым экономическим признакам, например по размерам землевладения на двор, по роду занятий жителей и т. п. Отбор такого рода не может быть основой для применения выборочного метода, так как здесь не выполнено основное его требование — случайность отбора.

При собственно типическом отборе в выборочном методе совокупность разбивается на группы, однородные в качественном отношении, а затем уже внутри каждой группы производится случайный отбор. Типический отбор организовать сложнее, чем собственно случайный, так как необходимы определенные знания о составе и свойствах генеральной совокупности, но зато он дает более точные результаты.

При серийном отборе вся совокупность разбивается на группы (серии). Затем путем случайного или механического отбора выделяют определенную часть этих серий и производят их сплошную обработку. По сути дела, серийный отбор представляет собой случайный или механический отбор, осуществленный для укрупненных элементов исходной совокупности.

В теоретическом плане серийная выборка является самой несовершенной из рассмотренных. Для обработки материала она, как правило, не используется, но представляет определенные удобства при организации обследования, особенно в изучении сельского хозяйства. Например, ежегодные выборочные обследования крестьянских хозяйств в годы, предшествовавшие коллективизации, проводились способом серийного отбора. Историку полезно знать о серийной выборке, поскольку он может встретиться с результатами таких обследований.

Кроме описанных выше классических способов отбора в практике выборочного метода используются и другие способы. Рассмотрим два из них.

Изучаемая совокупность может иметь многоступенчатую структуру, она может состоять из единиц первой ступени, которые, в свою очередь, состоят из единиц второй ступени, и т. д. Например, губернии включают в себя уезды, уезды можно рассматривать как совокупность волостей, волости состоят из сел, а села — из дворов.

К таким совокупностям можно применять многоступенчатый отбор, т. е. последовательно осуществлять отбор на каждой ступени. Так, из совокупности губерний механическим, типическим или случайным способом можно отобрать уезды (первая ступень), затем одним из указанных способов выбрать волости (вторая ступень), далее провести отбор сел (третья ступень) и, наконец, дворов (четвертая ступень).

Примером двухступенчатого механического отбора может служить давно практикуемый отбор бюджетов рабочих. На первой ступени механически выбираются предприятия, на второй — рабочие, бюджет которых обследуется.

Изменчивость признаков исследуемых объектов может быть различной. Например, обеспеченность крестьянских хозяйств собственной рабочей силой колеблется меньше, чем, скажем, размеры их посевов. В связи с этим меньшая по объему выборка по обеспеченности рабочей силой будет столь же представительной, как и большая по числу элементов выборка данных о размерах посевов. В этом случае из выборки, по которой определяются размеры посевов, можно сделать под выборку, достаточно репрезентативную для определения обеспеченности рабочей силой, осуществив тем самым двухфазный отбор. В общем случае можно добавить и следующие фазы, т. е. из полученной подвыборки сделать еще подвыборку и т. д. Этот же способ отбора применяется в тех случаях, когда цели исследования требуют различной точности при исчислении разных показателей.

Потребность в многофазном отборе возникла при выборочной обработке материалов профессиональной переписи 1918 года. Как показали исследования, для выявления доли рабочих Ярославской губернии, уходящих на полевые работы, требовалась выборка одного объема, тогда как для изучения общей связи рабочих с землей можно было ограничиться выборкой меньшего объема. Разные объемы выборок потребовались и при изучении групп рабочих различных отраслей промышленности Ярославской губернии. Так, предварительные расчеты показали, что для достаточно надежных выводов по группе рабочих полиграфической промышленности требовалась, по крайней мере, 5%-ная выборка, а для исследования рабочих текстильной, пищевой, металлообрабатывающей и машиностроительной промышленности достаточной оказалась 1%-ная выборка.

Изложенные выше способы формирования выборок не исчерпывают собой всех типов отбора, применяемых на практике.

Анализ взаимосвязей

Анализ взаимосвязей, присущих изучаемым процессам и явлениям, является важнейшей задачей исторических, как впрочем, и многих других, исследований. В тех случаях, когда речь идет о явлениях и процессах, обладающих сложной структурой и многообразием свойственных им связей, такой анализ представляет собой сложную задачу. Прежде всего, необходимо установить наличие взаимосвязей и их характер. Вслед за этим возникает вопрос о тесноте взаимосвязей и степени воздействия различных факторов (причин) на интересующий исследователя результат. Если черты и свойства изучаемых объектов могут быть измерены и выражены количественно, то анализ взаимосвязей может вестись на основе применения математических методов. Использование этих методов позволяет проверить гипотезу о наличии или отсутствии взаимосвязей между теми или иными признаками, выдвигаемую на основе содержательного анализа. Далее, лишь посредством математических методов можно установить тесноту и характер взаимосвязей или выявить силу (степень) воздействия различных факторов на результат.

Наиболее разработанными в математической статистике методами анализа взаимосвязей являются корреляционный и регрессионный анализ. Но прежде чем переходить к их характеристике, остановимся на вопросе о характере и форме тех взаимосвязей, которые присущи объективным явлениям природы и общества.

Функциональные зависимости. Функциональная зависимость двух количественных признаков или переменных состоит в том, что каждому значению одной переменной всегда соответствует одно определенное значение другой переменной. Например, при строительстве железных дорог на километр пути приходится вполне определенное количество уложенных рельсов. Поэтому рассматривая статистические данные по таким количественным признакам: у — длина уложенного железнодорожного пути (в км), х —количество истраченного на строительстве рельсового проката (в тоннах), мы будем иметь дело с функциональной зависимостью определенного вида. Рассмотрим эту зависимость подробнее на условном примере:

х         1,5  
у            

Соотношение между признаками, отображенное в таблице, удобно представить в наглядной графической форме, рассматривая числовые данные как координаты точек в прямоугольной системе координат.

Графическим изображением анализируемой зависимости (полученным путем соединения непрерывной линией точек, соответствующих данным таблицы) служит прямая линия. Такая зависимость называется прямой пропорциональной зависимостью. Ее аналитическим выражением является уравнение y=kx, где k — коэффициент пропорциональности (в нашем случае k = 100). Прямая пропорциональная зависимость представляет собой частный случай линейной зависимости, которая характеризуется уравнением

y=kx+b

Графическим изображением линейной зависимости также служит прямая линия.

Линейная зависимость является наиболее простой и в определенном смысле универсальной формой связи многих явлений. Ее универсальность состоит в том, что более сложные зависимости часто можно рассматривать «в первом приближении» как линейные. Здесь мы подходим к выяснению роли функциональных зависимостей в анализе статистических связей. Непосредственно функциональные зависимости в чистом виде редко встречаются в общественных явлениях. Связи обычно носят гораздо более сложный характер. Однако их описание во всей сложности часто затруднительно, да и нецелесообразно. Поэтому их рассматривают как соответствующие тем или иным видам функциональной зависимости. Простейшей формой функциональной связи является линейная зависимость, которая широко используется в регрессионном и особенно в корреляционном анализе. Гипотеза о линейной связи между исследуемыми признаками получила широкое распространение в анализе взаимосвязей. Лишь в том случае, если результаты применения гипотезы о линейной зависимости оказываются неудачными или имеются веские основания против линейной связи, используют более сложные функциональные зависимости.

Отметим наиболее употребительные формы функциональной зависимости, применяемые в статистическом анализе.

В случае если прямая линия не соответствует характеру используемых данных, можно использовать параболу. Аналитическое выражение ее имеет вид: y = a 0 + a 1 x + a 2 x 2.

Наличие в этом уравнении члена a 2 x 2 является простейшей формой учета нелинейности.

В том случае, когда мы имеем дело с затуханием роста или падения, удобно использовать гиперболические либо логарифмические зависимости. Математические выражения для гиперболической и логарифмической зависимостей выглядят так: y=k/x; y=a lgx

Процессы демографического и экономического роста описываются экспоненциальными зависимостями вида: y=keλx.

Подбор подходящей функциональной зависимости на основе графического и логического анализа является важным этапом исследования взаимосвязей, особенно в тех случаях, когда линейная связь оказалась неприемлемой.

Статистические (корреляционные) зависимости. Функциональная зависимость между признаками предполагает их изолированность, она действует, так сказать, «при прочих равных условиях». В общественной жизни такие ситуации бывают крайне редко. Как правило, воздействие одной переменной (причины) на другую не изолировано от остальных факторов, а происходит, таким образом, что на изучаемую связь прямо или косвенно влияют многие другие факторы. Здесь налицо зависимость особого вида. Для описания и изучения такого рода зависимостей в науке используется понятие статистической или корреляционной связи.

В отличие от функциональной зависимости, когда каждому значению одного признака всегда соответствует определенное значение другого, при статистической зависимости одному и тому же значению одного признака могут соответствовать различные значения другого. Это происходит в силу того, что при статистической зависимости связь устанавливается между признаками (двумя, тремя и т. д.), которые изменяются не только в силу взаимодействия между собой, но и под воздействием множества различных неучтенных факторов. В результате множественного воздействия взаимно переплетающихся факторов связь между признаками существует и проявляется не в каждом отдельном случае, как при функциональной связи, а только в тенденции, «в среднем». Поэтому здесь установить наличие взаимосвязи и определить ее количественную меру можно не на основе единичных наблюдений, а лишь применительно к определенной совокупности объектов, т. е. в среднем по отношению к тем или иным массовым объектам или явлениям. Характеризующие эти объекты количественные показатели в источниковедении и в статистике называются массовыми данными.

Задачи анализа статистических связей. Анализ статистической, или корреляционной, связи предполагает выявление формы связи, а также оценку тесноты связи. Первая задача решается методами регрессионного анализа, вторая — методами корреляционного анализа. Регрессионный анализ сводится к описанию статистической связи с помощью подходящей функциональной зависимости. Корреляционный анализ позволяет оценивать тесноту связи посредством специальных показателей, причем выбор их зависит от вида функциональной зависимости, пригодной для адекватного описания рассматриваемой статистической взаимосвязи. Как указывалось, наиболее распространенной в изучении связей является гипотеза о линейной зависимости. Соответствующие ей методы корреляционного и регрессионного анализа наиболее полно разработаны в математической статистике. Прежде чем перейти к изложению этих методов, остановимся на двух общих вопросах, относящихся к корреляционному и регрессионному анализу.

Один из важных вопросов, возникающих в изучении связей,— установление «направления» зависимости. Пусть для простоты рассматривается связь между двумя признаками y и х. Какой из этих признаков следует считать подверженным влиянию, или результативным (зависимой переменной), какой — оказывающим влияние, или факторным (независимой переменной)?

Первостепенное значение в решении этого вопроса имеет содержательный анализ. Положим, мы рассматриваем связь между производительностью труда рабочих и стажем их работы. По-видимому, результативным признаком следует признать производительность труда, а факторным — стаж рабочего. Не всегда «направление» связи проявляется столь очевидно. Тогда при решении вопроса о выборе результативного признака на первый план выступает постановка содержательной проблемы, для исследования которой используется изучение взаимосвязей. Например, устанавливая «направление» связи между такими признаками, как доходность предприятий и их энерговооруженность, мы должны исходить из того, что же мы хотим установить в действительности: влияние внедрения новой техники и технологии на доходность предприятий или же потенциальные возможности предприятий в овладении передовой техникой и технологией. В первом случае результативным признаком естественно считать доходность, во втором — энерговооруженность.

Далее, могут применяться корреляционный и регрессионный анализ, которые дают вполне корректные результаты при соблюдении определенных условий. Это однородность исходных данных, независимость отдельных значений признака друг от друга и нормальность распределения изучаемых признаков.

Анализ статистических связей позволяет в сложной структуре изучаемого явления или процесса установить наличие взаимосвязей, степени воздействия различных факторов (причин) на интересующий исследователя результат. Чаще всего этот анализ используются для проверки гипотезы о наличии или отсутствии взаимосвязей между теми или иными признаками. Количественные данные позволяют оценить тесноту и характер взаимосвязей или степень воздействия различных факторов на результат.

На ушедший XX век пришлось бурное развитие и внедрение теории вероятностей, математической статистики и их приложений в различные области научной и практической деятельности человека, которое продолжается и в настоящее время. Оказалось, что вероятностно-статистические представления, методы, с точки зрения современной науки, являются наиболее эффективными средствами познания и моделирования природных и социальных явлений, процессов, объектов и их характеристик.
Современное естествознание исходит из представлений, согласно которым все явления природы носят статистический характер, а ее законы могут получить достаточно полную и точную формулировку только в терминах теории вероятностей. Астрономия использует эти идеи в исследовании распределения материи в пространстве, потоков космических частиц, распределения во времени и на поверхности Солнца пятен и т.д. Биология привлекает вероятностные идеи для изучения передачи возбуждения, устройства памяти, передачи наследственных свойств, расселения животных на территории, взаимоотношений хищника и жертвы и т.д. Статистические методы успешно используются в исторических исследованиях, в археологии, для расшифровки надписей на древних языках.

 

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2018-12-21 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: