Статистический анализ неколичественных переменных




Исторические заметки

Важной задачей статистики является разработка методики статистической оценки социальных явлений, которая осложняется тем, что многие социальные явления не имеют количественной оценки. В разработке таких методик зарекомендовали себя такие учёные как Чарльз Эдвард Спирмен и Карл Пирсон. Также стоит отметить, что выдающийся русский статистик Александр Александрович Чупров внёс существенный вклад в теорию статистического анализа неколичественных переменных.

Александр Александрович Чупров родился 18 февраля 1874 года в г. Мосальске (Калужской губернии), но рос и воспитывался в Москве. Он был сыном выдающегося ученого и общественного деятеля профессора А.И. Чупрова (1842-1908).

В семье господствовал дух высокой интеллигентности, культивировалась идея служения обществу и родине и бескорыстная преданность науке. Отец имел решающее влияние на сына в формировании взглядов, в отношении направления интересов и первых шагов научной работы.

Вся система воспитания и образования Чупрова была направлена на формирование в нем качеств человека науки. Начальное образование он получил в домашней школе и лишь в возрасте 14 лет он поступил в 5-й класс гимназии №5. Эта гимназия, руководимая директором-реакционером Шварцем, судя по воспоминаниям, не способствовала развитиюучащихся, и Чупров всю жизнь вспоминал о ней с отвращением.

В 1892 году Александр Чупров окончил гимназию. К этому времени выявился склад ума Александра, сформировались его интересы, определились жизненные цели. В сферу его интересов входили занятия логикой и математикой. Но под влиянием отца и общественной среды он развил в себе вкус и интерес также к конкретному - к явлениям жизни в их сложности и своеобразии. Нужное сочетание обоих элементов давали экономика и статистика. Таким образом, основной областью исследований Чупров выбрал применение статистики и математики в исследовании общественных явлений.

Он весьма дорожил своей духовной независимостью, поэтому уже тогда у него проявлялось стремление сокращать до минимума свои потребности. Весь житейский распорядок был подчинен интересам труда. Чупров отказывался от всего, что могло помешать главному делу его жизни.

После окончания гимназии Чупров по совету отца поступил в Московский университет, избрав математическое отделение физико-математического факультета, которое окончил в 1896 году. Его кандидатское сочинение «Теория вероятностей как основа теоретической статистики», было посвящено вопросам, которые Чупров развивал в своих дальнейших работах. После окончания университета Чупров имел возможность остаться в учебном заведении для подготовки к профессорскому званию, но предпочел уехать в Германию, чтобы изучать там социальные науки. Занимался он ими очень добросовестно, что видно из его письма отцу 1900 года:

«Хорошо по парижской выставке слоняться, увлекательно лазать по швейцарским горам, а всё как с толком засядешь за свой письменный стол, оказывается, что наслаждение интенсивной мыслью самое сильное».

Неудивительно, что крупный физик, впоследствии академик и вице-президент академии наук Иоффе, вспоминал:

«Чупров отказался от семьи [так и не женился] и от родины, от лекций, от обеспеченного существования, чтобы не отрываться от науки».

Иоффе также признавался, что только у Эйнштейна он видел такую же увлечённость наукой, как у Чупрова. Однако изучение наук не всегда легко давалось Чупрову (из письма отцу 1897 года):

«Тревожит меня разнообразие моих вкусов, ни на чём не могу остановиться окончательно. […] А в то же время и вне науки интересов много: интересна и музыка, и пластические искусства, – и к жизни хочется приглядеться, и с литературой познакомиться».

Он добавил также, что боится остаться дилетантом во всём. Чуть позже, преодолев свои психологические страхи, Чупров выпустил в свет в 1902 году брошюру и защитил по ней докторскую диссертацию по государствоведению.

В том же году, вернувшись в Россию, он сдал магистерские экзамены при юридическом факультете Московского университета и смог приступить к заведыванию кафедрой статистики Петербургского политехнического института. В Петербургском политехническом институте Чупров пробыл до мая 1917 г., создав при институте статистический семинар и статистический кабинет с богатейшей библиотекой, воспитав немало талантливых учеников. В 1909 г. Чупров представил свои Очерки в Московский университет в качестве второй диссертации и успешно защитил ее, после чего стал профессором.

До 1910 года научная работа Чупрова была мало связана с математикой, но в 1910 – 1917 годах он переписывался с Марковым (русский математик, академик) по проблемам теории вероятностей, математической статистики и их приложений к практической деятельности, так что примерно с 1916 года математическая статистика стала для него столь же важна, как и экономика со статистикой.

Само возникновение математической статистики как единого целого из указанных течений статистической мысли было в определенной степени обязано Александру Александровичу Чупрову. В мае 1917 года Чупров уехал на время каникул в Скандинавию. Первая мировая война всё ещё продолжалась, и только там, в нейтральных странах, он мог продолжать своё изучение экономического и демографического положения Германии. В Россию Чупров так и не вернулся; три года он прожил в Стокгольме и Христиании (ныне Осло), затем переехал в Германию и зарабатывал на жизнь научной работой, проживая там почти как отшельник, за счёт своих гонораров. В письме 1923 года мы можем найти следующие строки:

«Пока это идёт довольно легко. Пока радуюсь, что имеется возможность довольно много времени уделять научной работе».

Затем положение Чупрова ухудшилось. Вот цитата из его письма 1924 года: «Жить в Германии на заработок пером, как жил я последние годы, стало уже невозможно ». Примерно такие же строки содержатся в двух других его письмах. В первом из них он назвал свое возможное место работы, Русский юридический факультет в Праге.

Появились и другие планы, связанные с переездом в Ригу или Осло. Однако кафедра статистики в Риге, которую Чупров имел в виду, так и не была учреждена, а переезд в Осло не состоялся, в частности потому, что Чупров как это следовало из его писем, не хотел «перебивать дорогу одному норвежцу ». В это же время издательство Teubner предложило Чупрову стать главным редактором нового статистического журнала, однако предложенная ему оплата не удовлетворила бы даже его скромным потребностям, а журнал, видимо, так и не был основан.

Здесь уместно отметить, что к концу жизни Чупров знал много языков: греческий, латынь, немецкий, французский, английский, итальянский, шведский и норвежский.

В поисках подходящего места работы, Чупров переехал в Прагу, однако и там его жизнь не сложилась. Дело в том, что Чупров поместил одну свою статью в советском издании "Вестник Статистики" и был за это ошельмован своими коллегами. В Праге он собирался баллотироваться в члены академического союза, но докладчик, который должен был огласить его кандидатуру, узнав о статье в советском журнале, отказался представить его собранию Союза. Этим дело не ограничилось, и профессорской стипендии от чехов он не получил.

Как раз в это время здоровье его сильно ухудшилось и после неудачного лечения в Италии, он уехал в Женеву, к своему самому близкому зарубежному другу, Гулькевичу, где и умер 19 апреля 1926 года.

Другим выдающимся учёным, известным по коэффициенту корреляции рангов является Чарльз Эдвард Спирмен.

Спирмен родился 10 сентября 1863 года в Лондоне. Карьера Спирмена была необычна для психолога. В юности он мечтал об академической карьере,посещал частные школы, где проявил сильный интерес к математике, естественным наукам.В своей краткой автобиографии 1930 годаонупоминает, что у него, как у подростока, было «глубокое желание исследовать вглубь природу существования, знания и добра».В колледже он специализировался в области машиностроения, интересовался индийской философией, и затем, в надежде попасть в Индию, он поступил в корпус Королевских инженеров британской армии.Однако вместо этого он был направлен в Бирму, где его выдающиеся способности в области гражданского строительства принесли ему медаль и повышение в звании до майора. Только после этого он вышел в отставку, чтобы получить докторскую степень в области экспериментальной психологии. Спирмен вспоминал о своих 15 годах службы в армии так:

«Это было самой большой ошибкой в моей жизни, причной которой было юношеское заблуждение, что жизнь длинна.Эти почти бесцельно прожитые годы, я с тех пор, оплакивал столь же горестно, как иТиберий потерюсвоих легионов ».

Для обучения Спирмен выбрал Лейпципский университет в основном потому, что в университете были очень либеральные требования к поступающим, а сам он не имел соответствующей подготовки. Он приступил к обучению в 1897 году (в возрасте 34 лет) и после некоторой задержки, вызванной тем, что его ненадолго призвали в армию в связи с войной в Южной Африке, он получил степень в 1906 году. К тому времени он уже опубликовал основополагающую статью о факторном анализе интеллекта «Общий интеллект» (1904 год).

Конечно же, сам термин «факторный анализ» был предложен другим крупным психологом – Луисом Леоном Терстоуном. Однако, создание самого метода факторного анализа, американские психометрики (учёные, занимающиеся психологическимиизмерениямии) единодушно связывают с работой Чарльза Спирмена «Общий интеллект».

Еще в период обучения Спирмен внимательно изучил работы ФрэнсисаГальтона, особенно относящиеся к вопросам тестирования и интеллекта. Влияние английской научной школы на деятельность Спирмена многократно усилилось, когда он в 1907 году продолжил свою деятельность в сфере экспериментальной психологии, в том же Университетском колледже Лондона (Лондонский университет), где работали в тесном сотрудничестве ФрэнсисГальтон и Карл Пирсон. В этом университете Спирмен проработал до выхода на пенсию в 1931 году.

Считается, что практически все положения классической теории тестов так или иначе связаны с именем Чарльза Спирмена. В частности, Спирмен ввёл понятие «надежности теста» и, что, пожалуй, более ценно, предложил способы её вычисления. Кроме того, им доказано, что использование поправок на надежность (коэффициентов надежности) при расчете коэффициентов корреляции позволяет получить более точные, и более значимые значения, чем при обычных расчетах.Если Гальтонсчитается отцом психометрии, тоСпирменаможно назвать его главным разработчиком, архитектором и инженером.

Сейчас Спирмен известен в основном разработкой коэффициента корреляции рангов, однако во время его избрания в Королевское Общество в 1924 году, была произнесена такая речь: «Доктор Спирмен произвёл множество исследований в экспериментальной психологии. Многие из его опубликованных работ охватывают широкий спектр деятельности, но особенно он выделяется своими пионерскими работами в области применения математических методов к анализу человеческого разума, и своими оригинальными исследованиями корреляции в этой сфере. Он вдохновил своими работами многих учеников».

Спирмен всегда настаивал на том, что его исследования должны применяться в психиатрии, и, хотя, некоторые попытки применения принципа факторного анализа в психиатрии были сделаны его учениками, развитие психиатрии, в целом, пошло не тем путём, на котором он настаивал. Несмотря на это, его косвенный вклад в психиатрию был значительным.

Типовые задачи

Задача 1.

Имеются данные трёх переписей населения в СССР о проценте грамотных среди городского и сельского населения по стране в целом.

 

Местожительство населения Перепись 1926 г. Перепись 1939 г. Перепись 1970 г.
грамот- ные негра- мотные сумма грамот- ные негра- мотные сумма грамот- ные негра- мотные сумма
Городское 80,9 19,1   93,8 6,2   99,8 0,2  
Сельское 50,6 49,4   84,0 16,0   99,5 0,5  
Сумма 131,5 68,5 - 177,8 22,2 - 199,3 0,7 -

На основе имеющихся данных определить коэффициенты ассоциации и контингенции.

Решение

 

Если вариация обоих атрибутивных признаков ограничена двумя группами, т.е. имеет альтернативный характер, то взаимосвязь между признаками определяется с помощью коэффициента ассоциации и коэффициента контингенции:

,

 

Для этого исходные данные сводятся в комбинационную четырёхклеточную таблицу:

Группы по признаку B   Группы по признаку А    
  a b a + b
  c d c + d
a + c b + d -

 

Данные в каждой из клеток таблицы обозначаются соответственно a, b, c, d. Считается, что коэффициент контингенции дает более строгую оценку тесноты связи.

Определим коэффициенты ассоциации и контингенции по данным таблицы:

для 1926 года:

 

для 1939 года:

 

для 1970 года:

 

В нашем примере видно, что коэффициенты ассоциации и контингенции от переписи к переписи уменьшаются. Это говорит о том, что связь между грамотностью и местожительством населения исчезает. Для 1926 года эта связь была весьма высокой, так как, если коэффициент ассоциации не ниже 0,3 можно говорить о наличии существенной связи между признаками. В 1939 году связь значительно снизилась, но была ещё заметной, а в 1970 году её практически уже не было.

Задача 2.

 

С помощью коэффициента взаимной сопряженности Чупрова определить, является ли работа на компьютере фактором ухудшения зрения.

Работа за компьютером Динамика состояния зрения Всего
не ухудшилось ухудшилось
Не работает      
Недавно работает      
Давно работает      

Решение

Для измерения тесноты связи между качественными признаками, каждый из которых состоит из двух групп и более, используем коэффициент взаимной сопряжённости Чупрова:

где k – число групп по каждому признаку.

Определим , который называется показателем взаимной сопряжённости.

Для этого необходимо произвести соответствующие расчёты и заполнить таблицу взаимной сопряжённости.

Работа за компьютером Динамика состояния зрения Всего
не ухудшилось ухудшилось
Не работает (4900) 35 (25) 0,36 35,36 0,4714
Недавно работает (3600) 25,71 (400) 5,71 31,42 0,3927
Давно работает (100) 0,71 (2025) 28,93 29,64 0,5389
Итого     1,403

В клеточках таблицы проставлено количество человек с разным уровнем зрения (частоты). В скобках показаны квадраты частот и справа – частное от деления квадратов частот на сумму частот по столбцам (например: 4900 / 140 = 35; 3600 / 140 = 25,71 и т.д.)

В итоговой графе по каждой строке даны:

- сумма частот (например: 70 + 5 = 75; 60 + 20 = 80 и т.д.)

- сумма частных от деления и отношение второй цифры к первой (например: 35 + 0,36 = 35,36; 35,36 / 75 = 0,4714 и т.д.).

В нижнем правом углу таблицы стоит сумма этих отношений по строкам: 0,4714 + 0,3927 + 0,5389 = 1,403.

Эта сумма за вычетом единицы называется показателем взаимной сопряжённости:

k1=3 – количество групп по признаку «работа за компьютером»,

k2=2 – количество групп по признаку «динамика состояния здоровья».

Рассчитаем коэффициент взаимной сопряжённости Чупрова:

Данный коэффициент изменяется от 0 до 1, но уже при значении 0,3 можно говорить о тесной связи между вариацией изучаемых признаков.

В нашем примере коэффициент взаимной сопряжённости показывает заметную связь между частотой работы на компьютере и уровнем зрения работающего.

Задача 3.

 

По восьми предприятиям имеются следующие условные данные об энерговооружённости и производительности труда.

Потребление электроэнергии на одного рабочего, кВТ-ч Выработка на одного рабочего, тыс. руб.
  2,3
  3,8
  4,0
  3,9
  4,5
  5,4
  5,1
  6,0

Измерить тесноту зависимости между потреблением электроэнергии и выработкой продукции, используя коэффициент корреляции рангов Спирмена.

Решение

Коэффициент корреляции рангов Спирмена имеет вид:

где - ранги (порядковые номера) единиц совокупности по признаку х;

- ранги (порядковые номера) единиц совокупности по признаку y,

- разность рангов и .

Для расчёта коэффициента корреляции рангов проранжируем индивидуальные значения признаков в каждом ряду, т.е. каждому значению x (энерговооружённость труда) и y (производительность труда) в порядке их возрастания присваиваем порядковый номер (ранг) и , затем находим разности рангов (di), возводим их в квадрат и суммируем. Полученную сумму подставляем в формулу.

Для расчёта коэффициента корреляции рангов воспользуемся вспомогательной таблицей.

 

  2,3        
  3,8        
  4,0 3,5   -0,5 0,25
  3,9 3,5   0,5 0,25
  4,5        
  5,4     -1  
  5,1 7,5   1,5 2,25
  6,0 7,5   -0,5 0,25
Итого: - - - -  

 

В нашем примерекоэффициент корреляции рангов Спирмена равен

Коэффициент корреляции рангов изменяется в пределах от -1 до +1 и имеет те же самые свойства, что и линейный коэффициент корреляции.

Таким образом, связь между энерговооружённостью и производительностью труда очень тесная и прямая, то есть с увеличением признака x, признак y тоже увеличивается.

Однако необходимо отметить, что расчёт коэффициента корреляции рангов для количественных признаков будет обладать меньшей информативностью по сравнению с линейным коэффициентом корреляции, вычисленным на основе конкретных эмпирических значений признака x и y. Поэтому для определения тесноты связи между количественными признаками целесообразнее использовать линейный коэффициент корреляции.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-11-22 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: