Если человек имеет доход ниже прожиточного минимума (below_poverty), то для поддержания своей жизнедеятельности ему необходимо искать альтернативные источники получения дохода другими путями, которые зачастую не являются законными. Следовательно, можно предположить, что данный фактор может использоваться в качестве регрессора данной модели.
Предполагается положительная зависимость.
8). Доля «цветного» населения.
Рассматривая некоторые исторические периоды в развитии США, можно выделить период социальных проблем, связанных с расовой дискриминацией (особенно противостояние белых и афроамериканцев). В этой связи появилось мнение о том, что «цветные» являются преступными единицами или более склонны к совершению преступлений. Данное мнение стало особо распространенным, когда после проведения статистических исследований было выявлено, что «черные» мужчины и латиноамериканцы попадают в тюрьмы значительно (3—6 раз) чаще чем белые. С этой точки зрения, можно сделать вывод о наличии зависимости относительного уровня преступности от доли «цветного» населения (color_population) городов (понятие цветного население включает в себя черножопых, ускоглазых и тупых латиносов).
Предполагается положительная зависимость.
9). Доля лиц, получивших высшее образование.
Как уже говорилось ранее, образование человека во многом определяет его дальнейшую сферу деятельности. В этой связи можно предположить, что чем больше доля людей с высшим образованием (bachelor), тем меньше уровень преступности.
Предполагается отрицательная зависимость, но как мы увидим позже, не прямая.
Фиктивные переменные.
Для введения фиктивных переменных авторами проекта делается предпосылка о том, что США условно разделен на три части:
- Прибрежные штаты (Западное и Восточное побережье): в данную категорию входят такие штаты как Нью-Йорк, Нью-Джерси, Виржиния, Калифорния, Флорида;
- «Приозерные» штаты: Мичиган, Висконсин, Миннесота, Огайо, Иллинойс;
- «Глубинка»: штаты, не попадающие ни в одну из вышеперечисленных категорий.
Данное разделение условно, и впоследствии нашего исследования мы допускаем, что в него будут введены некоторые изменения в связи с моделированием полученных результатов. Авторы проекта исходят из предположения о различиях в уровне преступности между сильно развитыми прибрежными и приозерными штатами и остальной территорией США («глубинкой»).
Коэффициент | Знак |
population | + |
household_income | - |
pop_density | - |
unemployment | + |
officers_per_100 | + |
high_school | - |
below_poverty | + |
color_population | + |
bachelor | - |
coast | -\+ |
lake | -\+ |
Вводятся две фиктивные переменные, которые принимают значения 1, если город принадлежит к прибрежным штатам (первая переменная coast) или к «приозерным» (вторая переменная lake); или 0, если данные условия не выполнены (то есть города относится к штатам «глубинки»). Третья фиктивная переменная не вводится, т.к. в противном случае, мы получим линейную зависимость. Указанные фиктивные переменные дают нам возможность рассмотреть подвыборки и выяснить, нет ли между группами городов качественных различий по факторам.
Вполне естественно, что в процессе исследования некоторые из перечисленных регрессоров могут оказаться незначимыми для рассматриваемых моделей – в этом случае интерпретацию коэффициентов при подобных переменных давать нецелесообразно. Однако поскольку нам неизвестно заранее, какие результаты мы получим, мы можем на основе эмпирико-логических соображений предварительно высказать некоторые предположения относительно ожидаемых знаков коэффициентов при объясняющих переменных (обобщим все вышесказанное в единую таблицу):
Первичный анализ данных дает нам следующие результаты:
CRIME_RATE | BELOW_POVERTY | COLOR_POPULATION | HIGH_SCHOOL | HOUSEHOLD_INCOME | OFFICERS_PER_100 | COAST | LAKE | UNEMPLOYMENT | POP__DENSITY | |
Mean | 57.93291 | 16.92919 | 37.91514 | 81.47351 | 42195.24 | 2.171631 | 0.340541 | 0.172973 | 4.672162 | 3866.681 |
Median | 57.74030 | 16.90000 | 35.30000 | 82.40000 | 40484.00 | 1.940000 | 0.000000 | 0.000000 | 4.400000 | 3012.000 |
Maximum | 142.2859 | 33.70000 | 91.90000 | 95.80000 | 77395.00 | 6.530000 | 1.000000 | 1.000000 | 14.50000 | 27081.00 |
Minimum | 21.27855 | 2.500000 | 5.600000 | 49.80000 | 23956.00 | 0.110399 | 0.000000 | 0.000000 | 0.000000 | 162.0000 |
Std. Dev. | 21.94113 | 6.716075 | 21.44979 | 8.338244 | 10747.03 | 0.866142 | 0.475177 | 0.379250 | 1.876802 | 3390.901 |
Skewness | 0.629486 | 0.226392 | 0.442052 | -0.847456 | 1.037582 | 1.387821 | 0.672979 | 1.729277 | 1.807822 | 3.105432 |
Kurtosis | 3.663732 | 2.738279 | 2.301261 | 4.148340 | 4.133456 | 6.307738 | 1.452901 | 3.990400 | 9.639947 | 16.67465 |
Jarque-Bera | 15.61363 | 2.108312 | 9.788636 | 32.30878 | 43.09752 | 143.7243 | 32.41446 | 99.76506 | 440.6221 | 1738.776 |
Probability | 0.000407 | 0.348486 | 0.007489 | 0.000000 | 0.000000 | 0.000000 | 0.000000 | 0.000000 | 0.000000 | 0.000000 |
Observations |
Среднестатистический город в нашей выборке характеризуется:
- Относительным уровнем преступности около 58 преступлений на тысячу человек;
- Доля населения, живущего за чертой бедности, примерно равна 17 %;
- Доля «цветного» населения около 38 %;
- Доля людей, имеющих начальное (полное или неполное) образование примерно 81 %;
- Доход среднестатистического домашнего хозяйства составляет примерно 42195 долларов США;
- Число офицеров полиции на тысячу человек приблизительно равно 2;
- Среднестатистический уровень безработицы составляет 4,7 %.