Предварительный анализ данных




Московский Государственный Университет имени М. В. Ломоносова

Проект по эконометрике

На тему

«Исследование российского рынка банковских услуг»

выполнил:

Бачманов Сергей

(204 группа)

Г.

 

Введение

Целью данной работы является построение адекватной модели, описывающей образование прибыли на рынке банковских услуг в зависимости от различных параметров.

Основные предпосылки и допущения:

1. рассматривается рынок банковских услуг в РФ

2. рассматриваются банки, которые не несли существенных убытков в течение продолжительного периода времени. Предполагается, что отрицательная прибыль свидетельствует о недостаточной квалификации управляющего банка, а этот параметр невозможно учесть в модели

3. предполагается, что в выборку включены банки, не связанные с теневой экономикой: образование прибыли происходит в соответствии с законодательством РФ.

При этом основными требованиями к модели являются следующие: а) выявление факторов, влияющих на прибыль банка; б) верифицируемость модели.

Работа состоит из 5 частей:

1) описание данных;

2) предварительный анализ данных;

3) построение модели;

4) анализ устойчивости модели;

5) интерпретация результатов

Описание данных

Источники данных:

Данные по количественным признакам и способу привлечения средств получены с сайтов www.banks-rate.ru и www.fundz.ru информация об уровне надежности с www.investfunds.ru. Выборка является пространственной, информация о банках собиралась 5-25 апреля, так что наблюдения можно считать одномоментными. Все количественные параметры приведены в тысячах рублей.

Данные содержали следующую информацию:

Ø чистые активы

Ø работающие активы

Ø кредиты, выданные коммерческим организациям

Ø собственный капитал

Ø фактическая прибыль

Ø средства юридических лиц

Ø средства частных лиц

Ø уставной фонд

Ø ликвидные активы

Ø суммарные обязательства

Ø обязательства до востребования

Ø средства бюджетных организаций

Ø привлеченные средства других банков

Ø выпуск кредитных карт

Ø ориентация банка на обслуживание граждан, коммерческих организаций или бюджетных организаций

Ø уровень надежности

Всего было отобрано 210 наблюдений.

Проверка однородности данных:

Сначала была проведена сортировка данных по величине прибыли, а затем построена диаграмма.

 

По графику видно, что данные неоднородны, и необходимо исключить из выборки банки, прибыль которых более 2 млрд. и менее -500 млн. рублей.

 

 

Новая диаграмма отражает плавное изменение величины прибыли и указывает на однородность данных. После сортировки в выборке остались данные по 188 банкам.

Предварительный анализ данных

Комментарии к регрессорам, включенным в первоначальную модель:

Выпуск кредитных карт (kredkart). Параметр показывает, выпускает ли банк кредитные карты, и принимает значение 1 если выпускает и 0 если нет.

Ориентация банка на обслуживание граждан, коммерческих организаций или бюджетных организаций (chastn urid budjet). Каждый параметр принимает значение 1, если банк привлекает наибольшие средства от соответствующей группы клиентов. Уровень надежности (nada nadb nadc nadd). Каждый параметр принимает значение 1, если банк принадлежит к группе с соответствующей надежностью. Уровни надежности А++, А+, А приравниваются к А. Аналогично и уровнями В и С. Такое допущение необходимо для сокращения фиктивных переменных с 10 до 4.

Чистые активы (chakt)

Ликвидные активы (likvakt)

работающие активы (rabakt)

кредиты, выданные коммерческим организациям (kredkommorg)

собственный капитал (sobkap)

фактическая прибыль (factprib)

средства юридических лиц (srurlits)

средства частных лиц (srchlits)

уставной фонд (ustfond)

суммарные обязательства (sumobaz)

обязательства до востребования (obazdovos)

средства бюджетных организаций (srbudjetorg)

привлеченные средства других банков (privsrdrbank)

Построение модели.

Ожидания относительно знаков коэффициентов параметров на основе эмпирико-логических соображений:

ожидаемые знаки коэффициентов
sobkap + privsrdrbank -
likvakt + sumobaz +
rabakt + obazdovos -
kredkommorg - chakt +
srurlits + ustfond +
srchlits + nadc nadd +
kredkart + nadb +
nada + nadd -

 

 

Сначала следует рассмотреть модель, в которую включены все регрессоры:

FACTPRIB CHASTN CHAKT C KREDKART KREDKOMMORG LIKVAKT NADA NADB NADC OBAZDOVOS PRIVSRDRBANK RABAKT SOBKAP SRBUDJETORG SRCHLITS SRURLITS SUMOBAZ URID USTFOND

 

Dependent Variable: FACTPRIB
Method: Least Squares
Date: 05/11/06 Time: 14:26
Sample: 1 188
Included observations: 188
Variable Coefficient Std. Error t-Statistic Prob.
CHASTN -38562.44 403146.5 -0.095654 0.9239
CHAKT 0.000390 0.017444 0.022374 0.9822
C -31031.80 455112.7 -0.068185 0.9457
KREDKART -126509.7 122003.9 -1.036931 0.3012
KREDKOMMORG -0.043066 0.010004 -4.304699 0.0000
LIKVAKT -0.058559 0.024442 -2.395787 0.0177
NADA 155861.6 237730.7 0.655623 0.5130
NADB 37945.04 224776.6 0.168812 0.8661
NADC 24925.58 218431.4 0.114112 0.9093
OBAZDOVOS 0.021043 0.011016 1.910313 0.0578
PRIVSRDRBANK 0.011666 0.015564 0.749547 0.4546
RABAKT -0.000148 0.012834 -0.011567 0.9908
SOBKAP 0.529484 0.042067 12.58669 0.0000
SRBUDJETORG -0.008079 0.017182 -0.470193 0.6388
SRCHLITS 0.003690 0.020046 0.184087 0.8542
SRURLITS -0.034925 0.017205 -2.029897 0.0439
SUMOBAZ 0.000706 0.002675 0.263889 0.7922
URID -17825.14 402456.1 -0.044291 0.9647
USTFOND -0.403681 0.038156 -10.57969 0.0000
R-squared 0.667580 Mean dependent var 378819.5
Adjusted R-squared 0.632174 S.D. dependent var 703430.8
S.E. of regression 426621.2 Akaike info criterion 28.86077
Sum squared resid 3.08E+13 Schwarz criterion 29.18785
Log likelihood -2693.912 F-statistic 18.85515
Durbin-Watson stat 2.081729 Prob(F-statistic) 0.000000

 

Ожидания в отношении знаков коэффициентов подтвердились только для следующих параметров: SOBKAP, NADA, NADB, KREDKOMMORG, SUMOBAZ, CHAKT. Модель показывает, что собственный капитал банка важен для получения высокой прибыли; кредиты, выданные коммерческим организациям, снижают фактическую прибыль (средства, направленные на выдачу кредитов, поступают за счет сокращения прибыли в текущем периоде).

В целом же модель неудачная, и довольно малы, значение F-статистики тоже не большое. В этой модели 13 из 19 регрессоров незначимы. Велико значение Sum squared resid (3.08E+13) и стандартных ошибок модели (426621.2).

Проверим модель на гетероскедастичность:

White Heteroskedasticity Test:
F-statistic 5.439868 Probability 0.000000
Obs*R-squared 95.81897 Probability 0.000000

 

Тест Уайта no cross terms показывает, что гипотеза о гомоскедастичности принимается с вероятностью 0% т.е. отвергается, тем самым говоря о наличие гетероскедастичности.

 

Для улучшения модели надо исключить некоторые незначимые переменные: CHASTN, CHAKT, RABAKT, PRIVSRDRBANK, NADA, NADB, NADC, SUMOBAZ.

Variable Coefficient Std. Error t-Statistic Prob.
C -37696.29 75414.85 -0.499852 0.6178
KREDKART -142891.6 117257.7 -1.218612 0.2246
KREDKOMMORG -0.038125 0.006146 -6.202821 0.0000
LIKVAKT -0.075415 0.018988 -3.971669 0.0001
OBAZDOVOS 0.028094 0.008035 3.496584 0.0006
SOBKAP 0.545392 0.035577 15.33007 0.0000
SRBUDJETORG -0.003419 0.001680 -2.035163 0.0433
SRCHLITS 0.000826 0.014256 0.057910 0.9539
SRURLITS -0.034634 0.009259 -3.740397 0.0002
URID 27537.09 91438.25 0.301155 0.7636
USTFOND -0.420058 0.032421 -12.95644 0.0000
R-squared 0.659513 Mean dependent var 378819.5
Adjusted R-squared 0.640277 S.D. dependent var 703430.8
S.E. of regression 421896.1 Akaike info criterion 28.79963
Sum squared resid 3.15E+13 Schwarz criterion 28.98900
Log likelihood -2696.166 F-statistic 34.28444
Durbin-Watson stat 2.050497 Prob(F-statistic) 0.000000

 

и уменьшились незначительно, зато значение F-статистики увеличилось вдвое. Стандартные ошибки почти не изменились.

 

White Heteroskedasticity Test:
F-statistic 7.432828 Probability 0.000000
Obs*R-squared 83.06950 Probability 0.000000

 

Тест Уайта по-прежнему показывает наличие гетероскедастичности.

Очевидно, что дальше исключать переменные бессмысленно и следует построить полулогарифмические и логарифмические модели.

 

Логарифмическая модель:

Даже если судить по графику, доказывающему однородность данных, видно, что эту выборку лучше отражает логарифмическая модель. Вернем в модель все исключенные регрессоры.

log(FACTPRIB) C log(CHAKT) CHASTN KREDKART log(KREDKOMMORG) log(LIKVAKT) NADA NADB NADC log(OBAZDOVOS) log(PRIVSRDRBANK) log(RABAKT) log(SOBKAP) log(SRBUDJETORG) log(SRCHLITS) log(SRURLITS) log(SUMOBAZ) URID log(USTFOND)

 

Variable Coefficient Std. Error t-Statistic Prob.
C -5.860698 2.403132 -2.438775 0.0168
LOG(CHAKT) 0.009676 0.818880 0.011816 0.9906
CHASTN 0.794260 0.914271 0.868736 0.3874
KREDKART -0.353906 0.260594 -1.358074 0.1780
LOG(KREDKOMMORG) -0.649195 0.243334 -2.667920 0.0091
LOG(LIKVAKT) 0.105788 0.149088 0.709568 0.4799
NADA 1.040718 0.587033 1.772844 0.0798
NADB 1.198949 0.557710 2.149770 0.0344
NADC 0.670819 0.527920 1.270682 0.2073
LOG(OBAZDOVOS) -0.206006 0.252990 -0.814285 0.4178
LOG(PRIVSRDRBANK) -0.017250 0.044849 -0.384634 0.7015
LOG(RABAKT) 0.295992 0.605443 0.488884 0.6262
LOG(SOBKAP) 1.136590 0.280941 4.045649 0.0001
LOG(SRBUDJETORG) -0.019563 0.027180 -0.719778 0.4736
LOG(SRCHLITS) 0.105197 0.146548 0.717831 0.4748
LOG(SRURLITS) 0.301929 0.301222 1.002349 0.3190
LOG(SUMOBAZ) 0.179709 0.427042 0.420822 0.6749
URID 0.439510 0.907740 0.484181 0.6295
LOG(USTFOND) -0.134627 0.077598 -1.734922 0.0864
R-squared 0.758589 Mean dependent var 11.91081
Adjusted R-squared 0.707466 S.D. dependent var 1.371162
S.E. of regression 0.741612 Akaike info criterion 2.403663
Sum squared resid 46.74897 Schwarz criterion 2.886773
Log likelihood -105.9905 F-statistic 14.83869
Durbin-Watson stat 2.210531 Prob(F-statistic) 0.000000

 

 

Эта модель заметно лучше двух предыдущих. Значения и высоки. Резко снизились значения стандартных ошибок. При этом при переходе к логарифмическому варианту стали значимы параметры NADB и NADA (близок к надежному уровню). У всех регрессоров низки их среднеквадратические ошибки.

Попробуем улучшить модель 3, убирая незначимые переменные.

Variable Coefficient Std. Error t-Statistic Prob.
C -5.851245 2.251837 -2.598432 0.0110
LOG(CHAKT) 0.567572 0.310173 1.829855 0.0706
KREDKART -0.362751 0.256686 -1.413214 0.1611
LOG(KREDKOMMORG) -0.590479 0.168095 -3.512759 0.0007
LOG(LIKVAKT) 0.033848 0.133881 0.252823 0.8010
NADA 0.986436 0.551014 1.790218 0.0768
NADB 1.182327 0.506423 2.334661 0.0218
NADC 0.664920 0.485634 1.369181 0.1744
LOG(OBAZDOVOS) -0.170145 0.213904 -0.795424 0.4285
LOG(PRIVSRDRBANK) -0.033436 0.042468 -0.787321 0.4332
LOG(SOBKAP) 1.103629 0.266809 4.136404 0.0001
LOG(SRBUDJETORG) -0.012144 0.024270 -0.500383 0.6180
LOG(SRCHLITS) 0.235952 0.095926 2.459730 0.0158
LOG(SRURLITS) 0.122124 0.199038 0.613573 0.5411
LOG(USTFOND) -0.126844 0.075840 -1.672528 0.0979
R-squared 0.753058 Mean dependent var 11.91081
Adjusted R-squared 0.714213 S.D. dependent var 1.371162
S.E. of regression 0.733010 Akaike info criterion 2.349391
Sum squared resid 47.81997 Schwarz criterion 2.730794
Log likelihood -107.1683 F-statistic 19.38634
Durbin-Watson stat 2.099624 Prob(F-statistic) 0.000000

 

Некоторые параметры не были значимы ни в одной из 4-х моделей, так что их можно исключить из рассматриваемой модели. Очевидно, что ориентация банка на обслуживание определенных групп клиентов (URID, CHASTN, BUDJET) и величина суммарных обязательств не отражается на прибыли.

Проверим модель на гетероскедастичность:

White Heteroskedasticity Test:
F-statistic 1.551641 Probability 0.075856
Obs*R-squared 33.31828 Probability 0.097534

 

Тест Уайта показывает, что с вероятностью 7,5% гипотеза о гомоскедастичности принимается. В этой модели опять присутствует гетероскедастичность.

Полулогарифмическая модель:

LOG(FACTPRIB) C CHAKT KREDKART KREDKOMMORG LIKVAKT NADA NADB NADC OBAZDOVOS PRIVSRDRBANK RABAKT SOBKAP SRBUDJETORG SRCHLITS SRURLITS SUMOBAZ USTFOND

Variable Coefficient Std. Error t-Statistic Prob.
C 10.65427 0.454848 23.42379 0.0000
CHAKT 6.59E-08 3.54E-08 1.860021 0.0646
KREDKART -0.089389 0.250501 -0.356840 0.7216
KREDKOMMORG -3.05E-08 1.87E-08 -1.625173 0.1060
LIKVAKT -9.53E-08 4.57E-08 -2.083041 0.0387
NADA 1.455838 0.498505 2.920411 0.0040
NADB 1.020678 0.477091 2.139378 0.0338
NADC 0.215731 0.463742 0.465195 0.6424
OBAZDOVOS 1.06E-08 2.07E-08 0.510300 0.6105
PRIVSRDRBANK 5.96E-09 3.27E-08 0.182004 0.8558
RABAKT -5.15E-08 2.37E-08 -2.172894 0.0312
SOBKAP 5.80E-07 8.89E-08 6.527722 0.0000
SRBUDJETORG 4.47E-08 2.94E-08 1.523607 0.1294
SRCHLITS -6.83E-09 3.64E-08 -0.187774 0.8513
SRURLITS -8.05E-08 3.60E-08 -2.234290 0.0268
USTFOND -4.88E-07 7.55E-08 -6.463891 0.0000
R-squared 0.600377 Mean dependent var 11.87388
Adjusted R-squared 0.565526 S.D. dependent var 1.375794
S.E. of regression 0.906850 Akaike info criterion 2.723586
Sum squared resid 141.4488 Schwarz criterion 2.999028
Log likelihood -240.0171 F-statistic 17.22703
Durbin-Watson stat 2.002770 Prob(F-statistic) 0.000000

 

Эта модель немного хуже предыдущей из-за уменьшившихся и , но зато стандартные ошибки очень малы и количество незначимых параметров сократилось до пяти. Проверим модель на гетероскедастичность.

Тест Уайта:

White Heteroskedasticity Test:
F-statistic 0.670657 Probability 0.884238
Obs*R-squared 18.37158 Probability 0.861839

 

White Heteroskedasticity Test:
F-statistic 0.504944 Probability 0.999452
Obs*R-squared 87.11601 Probability 0.985155

моь

Тест Уайта показал хорошие результаты: с вероятностью 88% (no cross terms) и 99,9% (cross terms) в модели отсутствует гетероскедастичность. Проведем другие тесты.

Тест Голдфелда-Квандта:

Сначала упорядочим выборку по величине собственного капитала. Возьмем первые 60 и последние 60 наблюдений и найдем их RSS.

Первые 60 наблюдений

Variable Coefficient Std. Error t-Statistic Prob.
C 9.478872 0.848203 11.17524 0.0000
CHAKT 6.32E-08 4.34E-07 0.145570 0.8851
KREDKART 0.036231 0.873700 0.041468 0.9672
KREDKOMMORG -1.28E-07 2.32E-07 -0.551190 0.5851
LIKVAKT -1.57E-07 4.19E-07 -0.375388 0.7097
OBAZDOVOS 1.80E-07 9.24E-08 1.945687 0.0600
PRIVSRDRBANK 2.84E-08 3.68E-07 0.077162 0.9389
RABAKT 8.19E-08 3.34E-07 0.245401 0.8076
SOBKAP 1.43E-06 1.19E-06 1.203372 0.2371
SRBUDJETORG -1.00E-06 5.39E-07 -1.860638 0.0715
SRCHLITS 2.74E-07 3.45E-07 0.793853 0.4328
SRURLITS 4.06E-08 3.54E-07 0.114816 0.9093
USTFOND -1.26E-06 8.64E-07 -1.460503 0.1533
R-squared 0.480953 Mean dependent var 10.72953  
Adjusted R-squared 0.251962 S.D.dependent var 1.054286  
S.E. of regression 0.911844 Akaike info criterion 2.907641  
Sum squared resid 28.26960 Schwarz criterion 3.519488
Log likelihood -56.69102 F-statistic 2.100313
Durbin-Watson stat 1.641794 Prob(F-statistic) 0.036209

 

Последние 60 наблюдений.

 

Variable Coefficient Std. Error t-Statistic Prob.
C 8.188369 0.668328 12.25203 0.0000
CHAKT 6.28E-07 3.52E-07 1.786155 0.0805
KREDKART -0.193628 0.722050 -0.268164 0.7897
KREDKOMMORG -1.46E-07 1.50E-07 -0.972834 0.3356
LIKVAKT -6.09E-08 3.69E-07 -0.164867 0.8698
OBAZDOVOS -8.61E-08 2.08E-07 -0.413992 0.6808
PRIVSRDRBANK -9.58E-08 3.17E-07 -0.302349 0.7637
RABAKT -4.60E-08 2.44E-07 -0.188680 0.8512
SOBKAP 7.02E-07 3.16E-07 2.223895 0.0310
SRBUDJETORG -2.78E-07 5.73E-07 -0.485100 0.6299
SRCHLITS 4.39E-08 3.04E-07 0.144302 0.8859
SRURLITS 3.53E-08 2.63E-07 0.134035 0.8939
USTFOND -4.27E-07 3.39E-07 -1.258141 0.2146
R-squared 0.624625 Mean dependent var 10.97100
Adjusted R-squared 0.528785 S.D. dependent var 1.177533
S.E. of regression 0.808319 Akaike info criterion 2.601416
Sum squared resid 30.70884 Schwarz criterion 3.055191
Log likelihood -65.04249 F-statistic 6.517345
Durbin-Watson stat 1.680326 Prob(F-statistic) 0.000001

 

RSS1=28.26960 и RSS2=30.70884

=30.70884/28.26960=1,08628< , значит, предположение о гетероскедастичности отвергается

Тест Бреуша-Пагана

Сначала надо сформировать в Excel вектор квадратов остатков , а затем - их логарифмов . Строим регрессию, где - объясняемая переменная.

Variable Coefficient Std. Error t-Statistic Prob.
C -1.742633 0.205461 -8.481573 0.0000
CHAKT 5.06E-09 5.23E-08 0.096786 0.9230
KREDKART -0.056200 0.557820 -0.100749 0.9199
KREDKOMMORG 2.59E-09 3.18E-08 0.081643 0.9350
LIKVAKT 5.68E-08 5.60E-08 1.014630 0.3117
OBAZDOVOS 1.01E-08 3.15E-08 0.320031 0.7493
PRIVSRDRBANK 1.79E-08 5.69E-08 0.314465 0.7535
RABAKT 1.30E-09 4.29E-08 0.030329 0.9758
SOBKAP -7.73E-08 1.00E-07 -0.770216 0.4422
SRBUDJETORG -1.43E-08 5.00E-08 -0.285660 0.7755
SRCHLITS -7.37E-09 4.11E-08 -0.179269 0.8579
SRURLITS -1.65E-08 4.77E-08 -0.345334 0.7303
USTFOND 1.58E-08 9.13E-08 0.173240 0.8627
R-squared 0.110353 Mean dependent var -1.745385
Adjusted R-squared 0.049349 S.D. dependent var 2.368217
S.E. of regression 2.309043 Akaike info criterion 4.578185
Sum squared resid 933.0438 Schwarz criterion 4.801982
Log likelihood -417.3494 F-statistic 1.608940
Durbin-Watson stat 1.934784 Prob(F-statistic) 0.049826

 

Полученное значение F-статистики и сравниваем его c табличным: , значит, гипотеза о гомоскедастичности принимается.

Тест Спирмена

Расчеты рангового коэффициента Спирмена между абсолютными величинами остатков и значениями величины собственного капитала банка приведены в прилагающейся таблице Excel.

=0,642979;

=0,642979*13,674=8,7926

Это значение больше чем 2,58, следовательно гипотеза об отсутствии гетероскедастичности отвергается при 1% уровне значимости.

Вывод

Три теста из четырех показали отсутствие гетероскедастичности, из чего можно сделать вывод, что модель достаточно устойчива.

Теперь приведем гистограмму и основные статистики остатков модели.

Как мы видим, гипотеза о нормальности отвергается со 100% вероятностью. Так могло произойти в результате действия факторов, не учитывающихся в математической модели, такие как репутация банка или большая известность.

 

Протестируем с помощью F-статистики гипотезу о том, что коэффициенты при NADB и NADC равны:

 

Null Hypothesis: C(6)=C(7)
F-statistic 29.46654   Probability 0.000000
Chi-square 29.46654   Probability 0.000000

 

Выясняется, что для банков с разными уровнями надежности нельзя применять одинаковые модели.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2020-03-31 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: