Мужчины Женщины
моло- | 6 0 лет | моло- | 6 0 лет | |||||
же | 30-44 | 45-59 | и | же | 30-44 | 45-59 | и | |
30 лет | лет | лет | старше | 30 лет | лет | лет | старше | |
Легко | 71% | 63% | 58% | 50% | 77% | 62% | 43% | 21% |
Доволь- | ||||||||
но хорошо | 17% | 20% | 21% | 23% | 14% | 21% | 25% | 26% |
С трудом | 12% | 17% | 21% | 27% | 9% | 17% | 32% | 53% |
100% | 100% | 100% | 100% | 100% | 100% | 100% | 100% | |
N = |
В этой таблице, кроме независимой переменной (пол) и зависимой переменной (легкое или трудное засыпание), появился еще третий фактор, «контрольная переменная» — возраст.
Прежде всего в этой таблице мы находим подтверждение нашему первому предположению: возраст человека оказывает значительное влияние на то, легко или трудно люди засыпают — как мужчины, так и женщины. Теперь вернемся к вопросу, который мы только что поставили: действительно ли мужчины засыпают легче, чем женщины? Чтобы точно определить это, попробуем несколько изменить вид нашей трехмерной таблицы.
ЛЕГКОЕ И ТРУДНОЕ ЗАСЫПАНИЕ МУЖЧИН И ЖЕНЩИН РАЗЛИЧНОГО ВОЗРАСТА
ВОПРОС: «Как Вы обычно засыпаете — легко или с трудом?»
Моложе 30 | лет | 30-44 | лет | 45—59 | лет | 60 лет и старше | ||
Муж- | Жен- | Муж- | Жен- | Муж- | Жен- | Муж- | Жен- | |
чины | щины | чины | щины | чины | щины | чины | щины | |
Легко | 71% | 77% | 63% | 62% | 58% | 43% | 50% | ! 21% |
Доволь- | ||||||||
но хо- | ||||||||
рошо | 17% | 14% | 20% | 21% | 21% | 25% | 23% | 26% |
С трудом | 12% | 9% | 17% | 17% | 21% | 32% | 27% | 53% |
100% 100%100%100%100%100%100%100%N= 288282 215 260 250 307 177 239
Теперь мы видим: предположение, что мужчины засыпают легче, чем женщины, справедливо лишь в некоторой степени. Оно не подтверждается для мужчин и женщин моложе 45 лет. Оно верно для мужчин и женщин в возрасте от 45 до 59 лет, а для возраста 60 лет и старше эта тенденция выражена более четко, чем это позволяла предположить наша первая простая таблица.
|
«.Возраст — константа-»
На техническом языке анализа фактор, скрытое влияние которого на результаты хотят исследовать, называют константой. В нашем примере легкого и трудного засыпания мы считаем, что в действительности женщины засыпают не труднее мужчин. Здесь речь идет, видимо, о скрытом влиянии на результаты более высокого среднего возраста женщин в целом. Чтобы добиться ясности, мы составили таблицу, в которой возраст в четырех группах был константой: мы сравнивали мужчин и женщин в возрасте моложе 30 лет и устранили таким образом искажающий фактор «более высокий средний возраст женщин». Затем мы проделали то же самое с другими возрастными группами: мы сравнивали мужчин и женщин в возрасте от 30 до 44 лет, от 45 до 59 лет, а также мужчин и женщин старше 60 лет. Причем в последней группе возраст мужчин и женщин, без сомнения, не был константой, так как средний возраст женщин в этой последней группе был выше среднеговозраста мужчин.
Пример сразу же показал, что дли анализа удобно составление такой таблицы с тремя факторами: либо мужчины и женщины принимаются за постоянную величину и меняются возрастные группы (первое расположение), либо, наоборот, возрастные группы считаются константой, а внутри их идет сравнение мужчин и женщин. В первом случае контрольной переменной был пол. Во втором случае мы выбрали в качестве контрольной переменной возраст. Хотя цифры в таблицах при том или ином «расположении» одни и те же, преобразование таблиц яснее выявляет влияние различных факторов.
|
Небольшой шаг от простого распределения (breakdown) к «перекрестным матрицам» (cross-tabulation)[143] путем введения новой переменной, или, говоря другими словами, от двухмерной таблицы к трехмерной, является одним из важнейших приемов при анализе.
Ложная корреляция: [144] ловушкадляпроводящегоанализ
Общие результаты, как уже было сказано, представляют интерес в качестве описания, но по ним еще нельзя сделать вывод о взаимосвязях. Их можно «интерпретировать», то есть предполагать, как следует понимать выявленные обстоятельства, но насколько эти предположения оправданы, этот вопрос остается открытым. Подготавливают иривычные распределения общего результата, например, при опросах населения — распределения по полу, возрастным группам, семейному положению, по профессиям, по Доходу, по образованию, вероисповеданию, величине семьи, иногда по партийной принадлежности, по величине города или поселка, по регионам (по землям). Этому предшествует, конечно, запись соответствующих данных в интервью с каждым опрашиваемым и перенос их на перфокарты. Составляются двухмерные таблицы, благодаря которым мы не только получаем более дифференцированное описание соотношений, но в результате сравнения результатов по различным группам начинаем также выявлять взаимосвязь явлений.
Анализ былбы относительно прост,если бы многие из этих таблиц не имели двух «ловушек»:
1. Результаты в сравниваемых группах не отличаютсядруг от друга, например результаты для опрашиваемыхс начальным и средним школьным образованием: можноделать вывод, что школьное образование не влияет на мнение респондентов по данному вопросу. В действительностисовпадение результатов оказывается лишь кажущимся:школьное образование влияет на мнение, но это влияниеперекрывается противодействующим фактором, которыйодновременно связан со школьным образованием и с исследуемым вопросом и снимает эти различия. Ниже приводитсяпример.
|
2. Результатысравниваемыхгруппотличаются другот друга, и на этом основании делают вывод о наличиивзаимосвязи. В действительности нет никакой взаимосвязи,имеет место ложная корреляция, вызванная другим фактором, который имеет фактическую тесную связь со статистическим признаком, по которому произведены группировки в таблице, и с мнением по исследуемому вопросу.
Выявление таких заблуждений является одним из существенных признаков квалифицированного анализа.
Средством выявления ложных корреляций служит введение дополнительного фактора, введение контрольной переменной, вследствие чего двухмерная таблица преобразуется в трехмерную. Благодаря такой процедуре в первом случае скрытое различие проявляется, а наблюдаемое во втором случае различие становится значительно слабее, исчезает или даже превращается в свою противоположность. Для иллюстрации первого вида ловушек рассмотрим двухмерную таблицу или, как говорят, «простую корреляцию»: отношение слушателей с различным уровнем школьного образованияк радиопередачам.
ОТНОШЕНИЕ СЛУШАТЕЛЕЙ С РАЗЛИЧНЫМ ШКОЛЬНЫМ ОБРАЗОВАНИЕМ К РАДИОПЕРЕДАЧАМ
ВОПРОС: «Нравится ли Вам в общем и целом радиостанция X или не нравится?»
Слушатели с на-
Слушатели со средним школьным образованием 7% 57% 16% 11% 9% |
ным образованием (народная школа)
57% 15% 10% 10% |
Очень нравится
Нравится
Не очень нравится
Совершенно не нравится
Трудно сказать
100% 290 |
100% 1000
Итак, оказывает ли влияние школьное образование на отношение к радиостанции X? После введения нового фактора — проживает ли респондент в границах или за пределами «района взимания налогов» радиостанцией X, возникает следующая трехмерная таблица или «двойная корреляция», которая показывает другую картину.
ОТНОШЕНИЕ СЛУШАТЕЛЕЙ С РАЗЛИЧНЫМ ШКОЛЬНЫМ
ОБРАЗОВАНИЕМ К ПЕРЕДАЧАМ X В ГРАНИЦАХ ИЛИ ЗА ПРЕДЕЛАМИ РАЙОНА ВЗИМАНИЯ ЭТОЙ РАДИОСТАНЦИЕЙ
НАЛОГОВ
ВОПРОС: «Нравится ли Вам в общем и целом радиостанция X или не нравится?»
Слушатели | в 1 рани- | Слушатели | [ за преде- | |
цах района | взимания | лами района взима- | ||
налогов | ния налогов | |||
с началь- | со средним | с началь- | со средним | |
ным | школьным | ным | школьным | |
школьным | образова- | школьным | образова- | |
образова- | нием | образова- | нием | |
нием | нием | |||
Очень нравится, | ||||
нравится | 65% | 50% | 65% | 80% |
Не очень нравится, | ||||
совсем не нравится | 24% | 40% | 26% | 12% |
Трудно сказать | 11% | 10% | 9% | 8% |
100% | 100% | 100% | 100% | |
N = |
«Двойная корреляция» школьного образования и района проживания слушателей показывает, что в границах района взимания налогов слушатели со средним школьным образованием значительно более критично оценивают свою «местную передачу», которую они слушают ежедневно, чем слушатели с начальным школьным образованием.
С другой стороны, мнение слушателей со средним школьным образованием, проживающих за пределами района взимания налогов, имеет особую ценность — ведь они, вероятно (здесь начинается интерпретация — доказательств нет), слушают передачу X не всегда и включают ее, потому что она их особенно интересует, потому что о ней сложилось определенное мнение. Оба обстоятельства взаимно компенсируют друг друга при объединенном подсчете результатов с распределением по школьному образованию; простая корреляция дает, таким образом, ложную картину.
является пол. Если нам удается найти эту скрытую переменную, этот «мешающий» фактор (в английском языке он называется «spurious factor», потому что он вызывает «spurious correlation»— ложную корреляцию), и с его помощью составить трехмерную таблицу, то дело сразу проясняется.
Сначала приводим доказательства, что от пола зависит привычка курить, а также членство в спортивном клубе:
ВОПРОС: «Вы курите?» *
Женщины 24% 76% |
Мужчины 67% 33%
100% 587 |
100% 413
Курящие спортсмены
Рассмотрим противоположный случай — интересные результаты, которые в действительности являются всего лишь ложной корреляцией. Такие примеры, к сожалению, в избытке встречаются в материалах опросов и вообще в статистических данных. Возьмем, например, таблицу, которая показывает, что члены спортивных клубов курят чаще, чем нечлеиы[145].
ВОПРОС: «Вы курите?»
Члены спортивного клуба 47% 53% |
Лица, которые не являются членами спортивного клуба
Да, я курю Нет, я не курю |
41% 59%
100% 118 |
100% 882
Величина исходной совокупности: 1000 интервью в Западном Берлине, население в возрасте старше 16 лет.
В этом случае фактором, который связан как с курением, так и с членством в спортивном клубе, но который остается скрытым из-за обманчивого построения таблицы, * Репрезентативная выборка населения Западного Берлина в возрасте старше 16 лет.
ВОПРОС: «Являетесь ли Вы членом спортивного клуба?» **
Мужчины Женщины
Да, являюсь 20% 6%
Нет, не являюсь 80% 94%
100% 413 |
100% 587
** Репрезентативная выборка населения Западного Берлина в возрасте старше 16 лет.
Трехмерная таблица, в которой скомбинированы оба признака «член спортивного клуба» и «пол», помогает снять ложнуюкорреляцию:
ВОПРОС: «Выкурите?» Мужчины
Женщины
Члены НечленыЧлены Нечлены
- спортив-спортив- спортив- спортивного клуба ного клуба ного клуба ного клуба
22% 78% |
58% 42% |
24% 76% |
ОУ70 31% |
100% 81 |
Да, я курю Нет, я не курю
100% 332 |
100% 550 |
100% 37
Таким образом, члены спортивного клуба курят не больше, а меньше, чем лица, которые не являются членами спортивных клубов. Но даже в этой таблице картина не вполне ясна из-за влияния скрытого фактора, особенноотноси тельно женщин. Этот фактор — возраст. С одной стороны, более молодые женщины чаще являются членами спортивных клубов; с другой стороны, молодые женщины чаще курят. Чтобы действительно узнать, меньше ли курят женщины, являющиеся членами спортивных клубов, необходимо ввести в наш анализ новый статистический признак— возраст:
ВОПРОС: «Вы курите?»
Женщины
Старше 3 0 лет |
Моложе 30 лет
Члены НечленыЧлены Нечлены спортив- спортив- спортив- спортивного клуба ного клуба ного клуба ного клуба
Да, я курю.......................................................
Нет, я не курю......................................................................
Но здесь, как это часто бывает в подобных случаях, начинаются трудности, так как число случаев в подгруппах становится слишком маленьким. Опрос включал 1000 интервью, из них 587— с женщинами. 102 женщины были моложе 30 лет. Из них в свою очередь 16 были членами спортивных клубов. Так, анализ, который проводится по этому методу, встречает препятствие при определенных условиях, однако можно применять математические методы для определения мешающих факторов[146].
Поиски мешающегофактора.
Иной пример ложной корреляции нам уже встречался в другом разделе этой книги.. При изучении влияния интервьюера было установлено: когда женщин спрашивали о количестве употребляемой ими косметики, то результаты были выше — если в качестве интервьюеров выступали женщины, и ниже — если интервьюерами были мужчины. Анализ показал, что скрытой независимой переменной в этом случае была величина населенного пункта: в сельских местностях, где женщины употребляют меньше косметики, в качестве интервьюеров чаще выступали мужчины. Различия исчезали, как только ответы интервьюерам-женщинам, с одной стороны, и интервьюерам-мужчинам, с другой стороны, сравнивались с учетом величины населенного пункта, то есть когда фактор величины населенного пункта принимался за константу.
Возьмем еще один результат из репрезентативного опроса: женщины, которые пользуются губной помадой, больше интересуются политикой. Действительно, интересный результат. Поборов удивление, можно попытаться найти этому факту объяснения — например, может быть, эти женщины интересуются политикой, чтобы пленять собеседников-мужчин. В принципе нет таких результатов опросов, которые нельзя объяснить — даже те, которые вызваны сбоями в работе вычислительной техники. Это заставляет проверять все имеющиеся объяснения путем тщательного анализа материала, и лишь после проверки всего материала можно предложить возможное объяснение — причем не как особое достижение в исследовании, а с оговоркой, что связь между двумя известными величинами, полученными в результате опроса, осталась неизвестной и до соответствующейпроверкиостаетсяоднимизпредположений.
В примере о женщинах, которые пользуются губной помадой и очень интересуются политикой, речь идет опять о ложной корреляции. Мешающим фактором в этом случае является более высокий уровень школьного образования — это показывает следующая таблица (из репрезентативного опроса населения старше 16 лет, проведенного в ФРГ, включая Западный Берлин, в ноябре 1962 года. Выборочная совокупность: 2102 опрошенных. Алленсбахский архив, опрос № 1071):
НАСКОЛЬКО БОЛЬШЕ ИНТЕРЕС К ПОЛИТИКЕ УЖЕНЩИН, КОТОРЫЕ ПОЛЬЗУЮТСЯ ГУБНОЙ ПОМАДОЙ?
ВОПРОС: «Интересуетесьли Вы политикой?»
Женщины, которые пользуются губной помадой не пользуются
Да 15% 9%
Мало 47% 36%
Совсем нет 38% 55%
100% 100%
N= 181 376
ВОПРОС: «Насколько удовлетворяет Вас работа?»
чувствую- | чувствую- | чувствую- | чувствую- | чувствую- | чувствую- | |
щие себя | щие себя | щие себя | щие себя | щие себя | щие себя | |
очень пе- | несколько | в меру | очень | несколько | в меру за- | |
регружен- | перегру- | загружен- | перегру- | перегру- | гружен | |
ными | женными | ными* | женными | женными | ными * | |
Очень | ||||||
удов- | ||||||
летво- | ||||||
рен | 72% | 81% | 83% | 36% | 58% | 70% |
Менее | ||||||
Удов- | ||||||
летво- | ||||||
рен | 28% | 19% | 17% | 64% | 42% | 30% |
100% | 100% | 100% | 100% | 100% | 100% | |
N = |
Наряду с другими объяснениями, каждое из которых было в чем-то правильным, большинство исследователей предложило следующее: сотрудники, которые чувствовали себя уставшими, перегруженными, рассматривали это как свидетельство собственной значимости для предприятия, это подкрепляло их чувство собственного достоинства.
Ложную корреляцию — перегруженные работой сотрудники особенно довольны — можно снять следующим образом: руководящие кадры, как правило, более загружены, чем сотрудники с меньшей ответственностью. Но, несмотря на большую загрузку, руководящие кадры, как правило, более довольны своим положением, находят свою работу более интересной и в большей степени отождествляют себя с предприятием. Однако, если учесть различную степень ответственности, то оказывается, что и у руководящих работников удовлетворение от работы снижается, если онипостоянно перегружены.
Лазарсфельд дает следующую простую модель ложной корреляции (t обозначает контрольную переменную, например уровень школьного образования: наличиесреднего школьного образования, отсутствиесреднегошкольного образования.
«Объясняющая корреляция» помогает найти желающих застраховать свою жизнь
Гораздо чаще, чем исчезновение зависимости или даже ее превращение в собственную противоположность после выявления скрытогоопределяющегофактора,случается
Переломным возрастом для оформления страхования жизни является 30 лет. Подготовленный до начала анализа план обработки предусматривал далее распределение по признаку семейного положения. Вот результат:
СТРАХОВАНИЕ ЖИЗНИ У ЗАНЯТОГО НАСЕЛЕНИЯ В ЗАВИСИМОСТИ ОТ СЕМЕЙНОГО ПОЛОЖЕНИЯ
Холостые Женатые
Застраховали свою жизнь 15% 43%
N= 372 703
Не только возраст, но и семейное положение тесно связано с договором о страховании жизни; женатые работающие намного чаще страхуют свою жизнь, чем холостые.
Конечно, это просто могло зависеть от того, что женатые работающие старше, чем холостые. Точно так же, но только в обратном порядке можно было бы сказать: работающие старше 30 лет чаще страхуют свою жизнь, потому что они большей частью женаты.
Какой из двух влияющих факторов имеет большее влияние?
Чтобы выяснить это, принимаем фактор возраста за постоянную величину и вычисляем теперь еще раз наличие страхового договора в связи с семейным положением. Следовательно, мы проверяем двойную корреляцию и снова составляем трехмерную таблицу.
НАЛИЧИЕ ДОГОВОРА О СТРАХОВАНИИ ЖИЗНИ
У РАБОТАЮЩИХ РАЗЛИЧНОГО ВОЗРАСТАВ ЗАВИСИМОСТИ
ОТ СЕМЕЙНОГО ПОЛОЖЕНИЯ
Занятое население в возрасте:
18-19 | лет | 30 лет и | старше | ||
холостые | женатые | холостые | женатые | ||
Застраховали жизнь N = | свою | 15% 270 | 33% 100 | 25% 102 | 44% 603 |
После получения первого результата мы хотели дать Обществу страхования жизни совет обращаться с предложениями прежде всего к 30-летним. Теперь мы знаем, что это была бы ошибка: люди моложе 30 лет тоже готовы застраховать свою жизнь, если они завели семью. Женатые работающие в возрасте моложе 30 лет чаще страхуют свою жизнь (33 процента), чем работающие более старшего возраста, которые еще холосты (25 процентов). Наш совет страховому обществу: свои услуги предлагать прежде всего людям, которые только что поженились, и в качестве убедительного аргумента в первую очередь указывать обеспечение семьи. Связь между наличием договора о страховании жизни и возрастом остается, но только в значительно ослабленном виде. Двойная корреляция объяснила нам, почему работающие в возрасте 30 лет и старше чаще страхуют свою жизнь: потому что среди них больше женатых, а женатые хотят обеспечить свою семью.
Зависимость между возрастом и страхованием жизни не доказана как ложная, но наше описание положения вещей стало теперь точнее. Благодаря анализу с применением нескольких переменных (простейший пример многомерного анализа по-английски multivariate analysis) 25 наши знания стали более точными[147].
Может ли зависимость выглядеть как реальная и все-таки быть ложной? Схема определения
Почему мы с уверенностью можем утверждать, что полученные выше результаты: сотрудники предприятия X, которые чувствуют себя перегруженными, более довольны своей работой; женщины, которые пользуются губной помадой, больше интересуются политикой — являются ложной корреляцией? В конце концов в высказываниях есть доля истины, и, вероятно, в других исследованиях они могли быть вновь подтверждены.
Мы говорим о ложной корреляции, если нет причинной зависимости.
Цайзель на основании результатов Лазарсфельда разработал для распознавания истинной и ложной корреляции символические формы изображения: симметричная фигура X -<— X -> X для ложной корреляции, асимметричная фигура Х-> X ->- X для истинной корреляции.
Получаем симметричное расположение: большая ответственность ведет, с одной стороны, к горячке, перегрузкам, с другой стороны — к удовлетворению работой. Другое представление причинной связи невозможно, так как зависимость необратима, и изображение: горячка, перегрузки (ведут к)-> большей ответственности — было бы, очевидно, бессмысленным. Если рассматривать факторы с точки зрения временной последовательности, то «большая ответственность»предшествует,«antecedent»[148].
Истинную корреляцию между возрастом и страхованием жизни можно представить асимметрично: увеличение возраста (ведет к) ->~ женитьбе (по времени промежуточный фактор); (ведет к) -> страхованию жизни. С точки зрения последовательности во времени женитьбу следует рассматривать не как предшествующую, а как промежуточную (intervening) переменную.
Если мы захотим изобразить корреляцию между употреблением губной помады и интересом к политике (которая была снята введением контрольного фактора «школьное образование»), то в нашем анализе отсутствует еще один фактор.
Более высокий уровень школьного образования ведет, что весьма правдоподобно, к лучшим политическим знаниям и, следовательно, к большему интересу к политике — но как связать это с употреблением губной помады? Только учитывая фактор принадлежности к более высоким социальным слоям населения, который в начале 60-х годов в ФРГ вызывает то, что девушки или женщины из этих слоев, с одной стороны, чаще используют губную помаду, а с другой стороны, чаще получают среднее школьное образование.
В результате получаем:
Использование губной помадыпринадлежность к более высоким социальным слоям®среднее шк. Образ.®лучш.полит.знания
Три позиции слева образуют симметричную форму, то есть указывают ложную корреляцию. Асимметричное изображение было бы невозможно, так как обратное воздействие немыслимо: употребление губной помады не может само по себе обусловить принадлежность к высшим социальным слоям населения. Три позиции справа на схеме образуют асимметричную фигуру, то есть являются истинной корреляцией. Связь между употреблением губной помады и лучшими политическими знаниями проходит, таким образом, через ложную и истинную корреляцию. Может быть, это с самого начала придает высказыванию некий абсурдный смысл, нечто похожее на «статистический» анекдот. Однако ложные корреляции, которые можно выявить при помощи одного-единственного фактора, часто выглядят, ксожалению, оченьправдоподобно[149].
Третийслучай: условныекорреляции
Наряду с истинными корреляциями, указывающими на причинные связи, и с ложными корреляциями следует, как предлагает Лазарсфельд, различать условные корреляции (conditional correlations). Условная корреляция имеет место в том случае, если при введении контрольной переменной становится очевидным, что наблюдаемая вначале корреляция проявляется с различной степенью в зависимости от контрольного фактора. Это значит: корреляция проявляется в полной мере лишь при наличии еще одного фактора, она не просто обнаруживает себя, для этого необходимо, собственно говоря, совместное действие двух факторов (то есть: в случае наличия X действует Y, но лишь при условии, что действует также и Z).
Сначала, в первом варианте таблицы, видим обычную картину корреляции, когда один фактор — в данном случае пол — принимался за константу. При этом связь между возрастом и трудным или легким засыпанием подтвердилась. Интересная, наводящая на новые размышления картина условной корреляции отчетливо проступила лишь тогда, когда мы в следующей таблице те же данные расположили так, чтобы внутри каждой возрастной группы сравнить результаты для мужчин и женщин. При этом мы увидели, что не все женщины труднее засыпают, чем мужчины, что это зависит от возраста: до 45 лет нет различий, но с увеличением возраста все сильнее проявляется различие.