Тема 9. Выборочное исследование

9.1 Генеральная и выборочная совокупность

Генеральная совокупность – множество единиц, являющихся объектом исследования. При определении генеральной совокупности уточняется, какие субъекты составляют исследуемую генеральную совокупность. Поскольку субъекты неоднородны, то некоторые группы бывают упущены. Сложно представить все элементы генеральной совокупности, состоящей из организаций, поскольку не все фирмы афишируют свою деятельность. В качестве генеральной совокупности бывают представлены рынок в целом, сегмент рынка или целевая группа субъектов.

Учитывая зависимость от объема генеральной совокупности и целей исследования бывают использованы методы сплошного или выборочного обследования.

Метод сплошного обследования состоит в изучении всех единиц генеральной совокупности. Метод связан с высокими затратами на проведение исследования, его использование оправдано, к примеру, в случае малого количества потребителей, представляющих сегмент, или в случае, когда объём покупок данного клиента составляет значительную долю от емкости рынка в целом.

Метод выборочного обследования предоставляет информацию о генеральной совокупности на основании обследования только ее части, в связи с этим данные, полученные в ходе выборочного обследования, имеют вероятностный характер.
На практике это означает, что в результате исследования определяется не конкретное значение, а интервал, в котором находится искомое значение. Вероятность, с которой можно утверждать, что ошибка выборки не превысит некоторую заданную величину, принято называть доверительной вероятностью.

Выборка — это группа объектов исследования, которая является носителем характеристик всех единиц генеральной совокупности, к примеру группа потребителей, представляющих интересы и вкусы всего целевого рынка. Метод выборочного обследования обеспечивает меньшую точность по сравнению с методом сплошного обследования, однако он менее трудоемок. Целесообразно использование данного метода при наличии большого числа однородных единиц генеральной совокупности.

Свойство выборки отражать характеристики генеральной совокупности принято называть репрезентативностью. Различие между характеристиками генеральной и выборочной совокупностей принято называть ошибкой выборки, которая зависит от выбранной процедуры составления (формирования) выборки.

Процесс отбора предполагает извлечение и изучение выборочной совокупности для получения выводов о более широкой генеральной совокупности. Хорошо составленная выборка является эффективной и дает возможность сделать достоверные обобщения на генеральную совокупность.

Выборка и Генеральная совокупность - базовые понятия количественных исследований

Генеральная совокупность – совокупность (Universe) - все множество объектов (субъектов) исследования, из которого выбираются (могут выбираться) объекты (субъекты) для обследования (опроса).

ВЫБОРКА или выборочная совокупность (Sample) — это множество объектов (субъектов), отобранных специальным образом для обследования (опроса). Любые данные, полученные на основании выборочного обследования (опроса), имеют вероятностный характер. На практике это означает, что в ходе исследования определяется не конкретное значение, а интервал, в котором определяемое значение находится.

Репрезентативная выборка — выборочная совокупность, в которой основные характеристики совпадают с характеристиками генеральной совокупности. Только для этого типа выборки результаты обследования части единиц (объектов) можно распространять на всю генеральную совокупность. Необходимое условие для построения репрезентативной выборки — наличие информации о генеральной совокупности, т.е. либо полный список единиц (субъектов) генеральной совокупности, либо информация о структуре по характеристикам, существенно влияющим на отношение к предмету исследования.

Генеральная совокупность

Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей:

- Все жители Москвы (10,6 млн. человек по данным переписи 2002 года)

- Мужчины-Москвичи (4,9 млн. человек по данным переписи 2002 года)

- Юридические лица России (2,2 млн. на начало 2005 года)

- Розничные торговые точки, осуществляющие продажу продуктов питания (20 тысяч на начало 2008 года) и т.д.

Выборка (Выборочная совокупность)

Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на всю генеральную совокупность, выборка должна обладать свойством репрезентативности.

Репрезентативность выборки

Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей.

Пример:

- Выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население Москвы.

- Выборка из российских предприятий численностью до 100 человек не репрезентирует все предприятия России.

- Выборка из москвичей, совершающих покупки на рынке, не репрезентирует покупательское поведение всех москвичей.

В то же время, указанные выборки (при соблюдении прочих условий) могут отлично репрезентировать москвичей-автовладельцев, небольшие и средние российские предприятия и покупателей, совершающих покупки на рынках соответственно.

Важно понимать, что репрезентативность выборки и ошибка выборки – разные явления. Репрезентативность, в отличие от ошибки никак не зависит от размера выборки.

Пример: Как бы мы не увеличивали количество опрошенных москвичей-автовладельцев, мы не сможем репрезентировать этой выборкой всех москвичей.

9.2 Построение выборки

Задача построения выборки возникает всякий раз, когда необходимо собрать информацию о некоторой группе или большой совокупности людей. Выборку в той или иной форме используют в ориентированных на «жесткие» статистические методы опросах, в исследованиях политических и культурных элит и даже при отборе «случаев» для включенного наблюдения и качественного анализа.

Статистические (или квазистатистические) обследования населения и ресурсов, судя по всему, зародились одновременно с первыми формами централизованной социальной и политической организации: развитые аграрные общества и древние города-государства нуждались в такой информации и использовали ее при решении разнообразнейших управленческих задач —от фискальной политики до строительства общественных бань. Эти обследования иногда принимали форму сплошных переписей населения.

Первым шагом в построении любой модели отбора, включая вероятностную, является определение генеральной совокупности. Решение этой задачи далеко не всегда бывает очевидным. Прежде всего, генеральная совокупность, т. е. множество интересующих социолога объектов исследования, может быть задана и описана лишь на основе каких-то содержательных представлений. Если, например, нас интересуют политические пристрастия избирателей, естественно включить в генеральную совокупность лишь тех, кто уже достиг 18-летнего возраста. Изучение факторов, влияющих на формирование семейного бюджета горожан, потребует иного определения генеральной совокупности: интересующая исследователя популяция в данном случае будет состоять из городских семей.

Полезно также помнить о том, что идеальная генеральная совокупность, задаваемая теоретическим описанием предмета исследования, почти никогда не будет полностью совпадать с реальной совокупностью. Реальная генеральная совокупность подвержена постоянным колебаниям: «взрослое население города Воронежа на 00час 15ноября 1996года» будет отличаться от «взрослого населения города Воронежа на 00час 16ноября 1996года». Некоторые люди за день уедут из города, попадут в больницу, некоторые — вернутся домой из командировки и т. п. Поэтому столь важно при описании изучавшейся в исследовании генеральной совокупности указывать время и место проведения исследования. Следует также помнить, что идеальная генеральная совокупность — это теоретическая абстракция, более или менее совпадающая с реальной совокупностью. Выборка осуществляется из реальной популяции, переход от которой к идеальной совокупности обеспечивается не только правилами статистического вывода, но и некоторой долей теоретического воображения.

Если исследователь построил выборку, которая представляет интересующую его совокупность с приемлемой степенью точности, то полученная выборка является репрезентативной (представительной). В противоположном случае можно говорить о наличии существенной выборочной ошибки. Более строго выборочную ошибку определяют как расхождение между оценкой некоторого показателя, получаемой на основании исследования выборки, и истинным значением этого показателя в генеральной совокупности.

Значительно более серьезную проблему создает наличие систематических смещений, возникающих в результате нарушения случайного характера выборочной процедуры. Результаты такого «не вполне случайного» отбоpa могут выглядеть более или менее правдоподобно, однако сами по себе они никогда не позволят обнаружить смещение или оценить его величину.

Последнее утверждение можно проиллюстрировать на примере классического опыта с рулеткой. Если нам скажут, что вчера десять раз подряд выпало «красное», мы сможем назвать такую серию событий крайне маловероятной. Однако этот субъективно подозрительный результат сам по себе не дает оснований для каких-то суждений о величине и характере ошибок, порождаемых выборочной процедурой, т. е. об исправности механизма самой рулетки.

Систематическая ошибка выборки не обязательно является результатом злого умысла. Например, в США во время войны во Вьетнаме (до введения контрактной системы набора на армейскую службу) правительство проводило специальные лотереи для отбора призывников. Фактически случайно отбирались даты рождения: все годные к несению строевой службы юноши, родившиеся в день, который определялся в ходе такого «розыгрыша», призывались в армию. В 1970г. результаты отбора были подвергнуты острой критике. Проведенное специальной комиссией расследование показало, что в выборочной процедуре действительно присутствовало смещение. Билетики с напечатанными датами были заключены в специальные капсулы, которые затем опускали в лотерейный барабан в порядке следования месяцев, начиная с января. Из-за недостаточного перемешивания капсул внутри барабана капсулы с ноябрьскими и декабрьскими датами концентрировались в верхней части и, естественно, выпадали с заметно большей частотой⁵.

Существует две группы методов построения выборки, в той или иной степени реализующих репрезентацию мнений и позиций генеральной совокупности: Вероятностные и Детерминированные.

Первая группа методов - вероятностные основана на использовании теории вероятности и базируется на том, что репрезентация будет достигнута в случае, если каждой единице генеральной совокупности будет обеспечено равновероятное попадание в выборку.

Например, если генеральной совокупностью является все взрослое (16-85 лет) население города - 200 тысяч человек, то каждому жителю должна быть обеспечена равная вероятность стать участником исследования, попасть в выборку, равная 1/200000. В противном случае выборка будет не случайной, а смещенной, т.е. менее репрезентативной.

Реализовать это можно в случае, если все элементы генеральной совокупности могут быть тем или иным образом пронумерованы, а затем эти номера можно будет выбрать в определенной последовательности - «по воле случая». Например, в Москве около 2500 средних школ, каждая из которых имеет свой номер. Мы могли бы выбрать наугад 100 номеров и провести опрос 100 директоров (завучей, учителей физики, 10-х классов и т.п.) в этих школах.

Эти 100 номеров мы можем выбрать с помощью таблицы или «генератора случайных чисел» (есть такая специальная компьютерная программа); а также с помощью «барабана» по типу того, как это делается при проведении лотерей. Такие способы построения выборки называются «простой случайной выборкой».

Мы могли бы выбрать наугад любое число от 1 до 25, например, 12, а затем взять в выборку школы с номерами: 12, 37, 62, 87, 112, 137 и т.д. Такой метод построения называется «систематической выборкой».

Мы также могли бы сначала разделить эти школы на несколько страт (возможно и пересекающихся), например, на школы: физико-математические, спортивные, лингвистические и гуманитарные. А затем произвести случайную или систематическую выборку (по 20-30 школ) из каждой страты. Такой метод построения называется «стратифицированной выборкой».

Разновидностью стратифицированной выборки является «маршрутная выборка», суть реализации которой состоит в следующем. Город делится на 20-40 «секторов» по числу интервьюеров, задействованных в исследовании. Каждый интервьюер получат один сектор, маршрут обследования «своего» сектора и инструкцию по реализации простой случайной выборки. Например, такую: «Начать обход с улицы Баумана, с дома №2, третьего подъезда, второго этажа сверху, первой квартиры слева. Затем - дом №4, второй подъезд, третий этаж, вторая квартира справа. Затем - переулок Комсомольский, нечетная сторона……Потом - тупик Коммунизма… и т.д.»

Наконец, мы могли бы разделить генеральную совокупность на непересекающиеся кластеры, например, по муниципальным районам (их в Москве 125, и в каждом в среднем по 20 школ). Затем случайным образом выбрать пять районов и произвести обследование всех школ данного муниципального района. Такой метод построения называется «кластерной выборкой».

Однако у вероятностных методов построения выборки есть один весьма существенный недостаток. Все они исходят из предположения о том, что все элементы генеральной совокупности являются равнодоступными: и в «техническом» смысле (у всех есть телефон для телефонного опроса или доступ в интернет для он-лайн опроса) и в «психологическом». Т.е. все респонденты с примерно равной вероятностью согласятся или откажутся принимать участие в исследовании. Однако это не так!

Граждане с относительно высокими доходами менее доступны для исследователей, чем те, чьи доходы невысоки. Поэтому, все - ВСЕ выборки смещены в сторону средне- и малообеспеченных групп населения. Во ВСЕХ без исключения странах мира.

Менее образованные граждане идут на контакт с социологами менее охотно, чем лица с высшим образованием. Поэтому, в большинстве выборок доля хорошо образованных граждан, как правило, существенно выше, чем в генеральной совокупности.

Никто из сотрудников исследовательских компаний не желает общаться с бомжами, алкоголиками, наркоманами, психо- и социопатами и прочими маргиналами. И у руководителя исследования решительно нет никаких возможностей заставить своих сотрудников делать это. А, между прочим, к этим группам в России по взвешенным оценкам относится от 12% до 15% населения страны, а в некоторых населенных пунктах, особенно это касается небольших городов, поселков городского типа и сельской местности, доля маргиналов может превышать даже 50%. Следовательно, любая выборка смещена в сторону «вменяемых» граждан.

Некоторые граждане боятся отвечать на вопросы, даже самые невинные. Таких людей не много, но они есть. А вот способов заставить их это сделать, кроме силовых, нет.

Наконец, есть люди, которые просто не желают участвовать в исследовании. У них есть время, они ничего не боятся, они все понимают, но на вопросы отвечать отказываются.

Таким образом, все выборки в маркетинге и социологии являются смещенными в сторону средне и малообеспеченных, более образованных, контактных и вменяемых граждан. Они и репрезентируют общее мнение генеральной совокупности. И все исследователи рынка прекрасно это знают.

Преодолеть изложенные выше проблемы можно с помощью Метода «квот», при котором априори обеспечивается пропорциональное представительство носителей существенных признаков (пол, возраст, доход, образование и т.п.) генеральной совокупности в выборке. Это наиболее эффективный метод при проведении массовых опросов. При его использовании существенно облегчается задача поиска корреляционных связей, сравнения различных типов (групп) потребителей между собой, и экстраполяция выявленных закономерностей на генеральную совокупность. Задача достижения строгой репрезентативности не всегда является важной. Иногда целесообразно воспользоваться существенно более простыми в реализации методами:

· Нерепрезентативным (произвольным), когда опрашивают того, кто «попался под руку» интервьюеру и согласился участвовать в опросе. Несомненно, этот метод дает крайне ненадежные результаты. Однако его использование допустимо в исследованиях носящих поисковый характер, не требующих большой точности, при проведении «пилотажа» Анкеты. «Произвольность» можно компенсировать большим объемом выборки, из которой затем можно будет попробовать отобрать необходимое число «подходящих» анкет и составить уже из них репрезентативную в каких-то отношениях выборку.

· Поверхностным - когда отбор осуществляется по самым общим признакам, задаваемым исследователем интервьюерам в виде не очень строгого задания.

· «Воронки» - когда сначала отбираются наиболее «контактные», затем среди них - наиболее «компетентные», подходящие респонденты.

· «Концентрации» - на представителях отдельных, сопоставимых сегментов рынка, среди которых проводят «сплошной» опрос. Например, школьный класс 10-й «А» может представлять всех старшеклассников школы или даже города, как «обычный», «типичный» класс.

· «Снежного кома» - уже описанный ранее.

Достоверность и погрешности измерений

Поскольку массовый опрос, анкетирование как количественный метод основан на применении теории вероятности, мы имеем возможность в математических терминах оценить достоверность и допустимые погрешности каждого добросовестно проведенного исследования.

Под «достоверностью», уровнем достоверности понимают показатель вероятности того, что истинное значение изучаемого параметра генеральной совокупности попадет в доверительный интервал. Чем выше задаваемый уровень достоверности, тем больше должна быть выборка.

Под доверительным интервалом понимают диапазон, в который попадет истинное значение изучаемого параметра генеральной совокупности при данном уровне достоверности. Чем он меньше, тем больше должна быть выборка.

9.3 Определение объёма выборки

На практике решение вопроса об объеме выборки является компромиссным между предположением о точности результатов обследования и возможностями их практической реализации (т.е. исходя из затрат на проведение опроса).

На практике используется несколько подходов к определению объема выборки. Обратим внимание на самые простые из них. Первый из них называется произвольным подходом и основан он на применении «правила большого пальца».

Например, бездоказательно принимается, что для получения точных результатов выборка должна составлять 5 % от совокупности. Данный подход простой и доступный в исполнении, не позволяет получать точные результаты. Его достоинством является относительная дешевизна затрат. В соответствии со вторым подходом объем выборки может быть установлен исходя из заранее оговоренных условий. Заказчик маркетингового исследования, например, знает, что при изучении общественного мнения выборка обычно составляет 1000 – 1200 человек, поэтому он рекомендует исследователю придерживаться данной цифры.

Третий подход означает, что в некоторых случаях главным аргументом при определении объема выборки может быть стоимость проведения опроса. Хотя при этом ценность и достоверность получаемой информации не принимается в расчет.

В случае четвертого подхода объем выборки определяется на основе статистического анализа. Данный подход предполагает определение минимального объема выборки с учетом требований к надежности и достоверности получаемых результатов.

Пятый подход считается наиболее теоретически обоснованным и правильным подходом в определении объема выборки. Он основан на расчете доверительного интервала.

Доверительный интервал – это диапазон, крайние точки которого характеризуют процент определенных ответов на какой-то вопрос. Данное понятие тесто связано с понятием «среднее квадратичное отклонение получаемого признака в генеральной совокупности». Чем оно больше, тем шире должен быть доверительный интервал, чтобы включить в свой состав, например 9,5 % ответов.

Из свойств нормальной кривой распределения вытекает, что конечные точки доверительного интервала, равного к примеру 9,5 % определяются как произведение: 1,96 (нормированное отклонение) и среднего квадратичного отклонения.

Числа 1,96 и 2,58 (для 99 % доверительного интервала) обозначаются как z.

Существуют таблицы «Значение интеграла вероятности», которые дают возможность определить величины z для различных доверительных интервалов. Доверительный интервал равный 95% или 99% является стандартным при проведении маркетинговых исследований.

Индикатором степени отличия оценки, истинной для совокупности в целом, которая ожидается для типичной выборки, является средне квадратическая ошибка. К примеру, исследуется мнение потребителей о новом товаре и заказчик данного исследования указал, что его устроит точность полученных результатов, равная плюс минус 5%.

Предположим, что 30 % членов выборки высказались за новый продукт. Это означает, что диапазон возможных оценок для всей совокупности составляет 25 – 35 %. Причем, чем больше объем выборки, тем меньше ошибка. Высокое значение вариации обусловливает высокое значение ошибки и наоборот.

Формул расчета необходимого объема выборки, используемая при известном среднем отклонении (дисперсии) и заданных уровнях достоверности и точности:

N = (g² * z²) / d²

где: N — искомый объем выборки; g — дисперсия признака, ожидаемое среднее отклонение получаемых результатов от ожидаемого среднего значения; z — коэффициент уровня достоверности (2 — для 0,95, 3 — для 0,99); d — уровень точности.

Допустим, мы изучаем поведение покупателей в продовольственном магазине, в частности, мы хотим определить среднюю сумму чека. Из бесед с владельцем магазина мы узнаем, что она может быть в районе 500-700 руб., а среднее отклонение (g) может составить 200 руб. В ходе опроса мы хотели бы определить среднее значение с точностью (d) до 20 руб. при уровне достоверности (z) в 0,95. Подставляем значения формулу и получаем:

40000 * 4 / 400 = 400.

То есть нам достаточно опросить 400 покупателей. Если бы мы хотели узнать среднюю сумму чека с точностью до 10 руб.. то нам пришлось бы опросить 1600 покупателей. Если бы при этом мы хотели получить уровень достоверности в 0,99, то количество покупателей, которых необходимо опросить, составило бы 3 500 человек. И наоборот: если нас устроила бы точность ±50 руб., то нам достаточно было бы опросить в заданных условиях всего 65 человек.

На практике сначала определяют количество респондентов, которое исследователи предполагают опросить с учетом временных и финансовых ограничений, задают уровень достоверности (обычно — 0,95), а затем уже рассчитывают доверительный интервал.

Определение необходимого и достаточного объема выборки происходит на основе опыта и неформальных «конвенций» исследователей между собой. Считается, и это многократно проверено на практике, что опрос 30-50 представителей конкретной, «узкой» социально-демографической группы населения, например «ярославских замужних женщин в возрасте 30-45 лет, имеющих одного ребенка, высшее образование и совокупный семейный доход в пределах от 1 500 до 3 000 долл. в месяц», можно распространять на всю эту группу, и допустимая ошибка (доверительный интервал) не превысит 4 процентных пунктов при уровне достоверности около 0,95.

Однако полученные данные нельзя распространять, например, на незамужних женщин того же возраста, имеющих такой же доход и уровень образования. А также на женщин, имеющих иной доход, возраст или уровень образования. И уж тем более — на мужчин.

Таким образом, если в задачу исследователя входит получение информации о мнениях, знаниях, поведении или отношении к некой проблеме всех ярославских женщин, и при этом все перечисленные выше социально-демографические факторы являются значимыми, необходимо построить такую выборку, в которой были бы представлены все «узко определенные» группы. В данном случае — две группы по семейному положению, три — по наличию и количеству детей, три возрастные, три доходные, две образовательные. Итого 108 групп, в каждой из которых должно быть не менее 30 представительниц. Всего — более 3 000 респондентов.

На самом деле едва ли найдется вопрос или проблема, на которые все пять факторов будут оказывать взаимное перекрестное воздействие. В большинстве случаев вполне можно было бы обойтись опросом 400-600 респонденток, а затем провести попарный (а не перекрестный) факторный анализ. То есть отдельно исследовать влияние факторов «возраст», «образование», «доход», «семейное положение», «дети». При этом выборка каждый раз разбивалась бы на две-три группы, наполнение которых было бы не меньше 100-150 респондентов.

Репрезентативная выборка, представляющая все население России, должна состоять из 3 600-9 000 человек и 180 групп (два пола, три возраста, два образовательных уровня, три доходные группы, пять типов поселений). Доверительный интервал будет в пределах ±3 процентных пункта. Это означает, что, к примеру, если 30% (12% или 45%) наших респондентов заявили, что регулярно употребляют в пищу майонез, то долю потребителей майонеза в России можно оценить в 27-33% (9-15 или 42-48% соответственно).

Размер выборки практически не зависит от размера генеральной совокупности. И в мегаполисе с населением более миллиона человек, и в уездном городе с населением в 35 тыс. человек для построения выборки, репрезентативной по одинаковому числу параметров, потребуется опросить одинаковое число респондентов.

От чего действительно зависит размер выборки — так это от числа параметров, по которым мы желаем добиться репрезентативности. Если нас устраивает репрезентативность только по полу и возрасту, то выборки в 400 человек в одном населенном пункте будет более чем достаточно. Если параметров три, количество респондентов придется увеличить до 600. Добиться репрезентативности выборки одновременно по пяти параметрам: полу, возрасту, доходу, образованию, сфере профессиональной деятельности — можно лишь на выборке из 1 000 — 1 200 человек в одном населенном пункте.

Тема 9. Выборочное исследование

Поиск по сайту