+7 (925) 966 4690
ИД «Финансы и кредит»

ЖУРНАЛЫ

  

АВТОРАМ

  

ПОДПИСКА

    
«Финансы и кредит»
 

Реферирование и индексирование

РИНЦ
Referativny Zhurnal VINITI RAS
Worldcat
LCCN Permalink
Google Scholar

Электронные версии в PDF

EBSCOhost
Eastview
Elibrary
Biblioclub

Биннинг переменных: компромисс между эффективностью модели и регулированием

Купить электронную версию статьи

т. 25, вып. 9, сентябрь 2019

Получена: 05.06.2019

Получена в доработанном виде: 19.06.2019

Одобрена: 03.07.2019

Доступна онлайн: 30.09.2019

Рубрика: Банковская деятельность

Коды JEL: G21, G28

Страницы: 2040–2053

https://doi.org/10.24891/fc.25.9.2040

Роскошенко В.В. аспирант, магистр экономики, экономический факультет, МГУ им. М.В. Ломоносова, Москва, Российская Федерация 
roskoshenkoeco@mail.ru

https://orcid.org/0000-0001-8464-9605
SPIN-код: 3260-8190

Предмет. Дискретизация факторов дефолта кредитного требования. Банковская система России успешно переняла опыт западных розничных банков по моделированию различных аспектов поведения заемщиков — физических лиц. Моделирование кредитного риска остается единственной областью, регулируемой Банком России. Несмотря на наличие предписаний регулятора и Базель II, многие аспекты контролируются экспертным суждением. Нерешенной остается проблема выбора алгоритма дискретизации факторов дефолта кредитного требования.
Цели. Выделить множество валидных в отношении кредитного скоринга алгоритмов дискретизации и выбрать из него оптимальный алгоритм. Также необходимо показать, что дискретизация является неотъемлемой частью построения предиктивной модели в случае использования метода логистической регрессии.
Методология. Использованы: статистический анализ, контент-анализ источников.
Результаты. Показано, что среди алгоритмов, соответствующих требованиям Базель II (минимум 5% наблюдений в бакете, пропущенные значения переменной в отдельном бакете, наличие обоих типов наблюдений в бакете), а также устоявшихся в практике критериев (репрезентативность разбиения, монотонность целевой переменной по бакетам), оптимальным оказался предложенный автором алгоритм (TreeR). В его основе — разбиение непрерывной переменной в результате работы алгоритма построения деревьев решений для бинарной зависимой переменной. Выводы. Данный алгоритм является принципиально новым решением задачи дискретизации непрерывной переменной. Важной особенностью TreeR выступает реализация в открытом программном обеспечении с опорой на общедоступные библиотеки.
Область применения. Результаты работы могут быть использованы в кредитном скоринге, равно как и в любом статистическом моделировании с использованием логистической регрессии.

Ключевые слова: кредитный скоринг, логистическая регрессия, дискретизация, предобработка данных, непрерывная переменная

Список литературы:

  1. Tomczak J.M., Zięba M. Classification Restricted Boltzmann Machine for Comprehensible Credit Scoring Model. Expert Systems with Applications, 2015, vol. 42, iss. 4, pp. 1789–1796. URL: Link
  2. Guégan D., Hassani B. Regulatory Learning: How to Supervise Machine Learning Models? An Application to Credit Scoring. The Journal of Finance and Data Science, 2018, vol. 4, iss. 3, pp. 157–171. URL: Link
  3. Xia Y., Liu C., Da B., Xie F. A Novel Heterogeneous Ensemble Credit Scoring Model Based on Bstacking Approach. Expert Systems with Applications, 2018, vol. 93, pp. 182–199. URL: Link
  4. Florez-Lopez R., Ramon-Jeronimo J.M. Enhancing Accuracy and Interpretability of Ensemble Strategies in Credit Risk Assessment. A Correlated-Adjusted Decision Forest Proposal. Expert Systems with Applications, 2015, vol. 42, iss. 13, pp. 5737–5753. URL: Link
  5. Salem D. Supervised Versus Unsupervised Discretization for Improving Network Intrusion Detection. International Journal of Computer Science and Information Security (IJCSIS), 2016, vol. 14, iss. 10, pp. 583–590.
  6. García S., Luengo J., Saéz J.A. et al. A Survey of Discretization Techniques: Taxonomy and Empirical Analysis in Supervised Learning. IEEE Transactions on Knowledge and Data Engineering, 2013, vol. 25, no. 4, pp. 734–750. URL: Link
  7. Kotsiantis S.B., Kanellopoulos D. Discretization Techniques: A Recent Survey. GESTS International Transactions on Computer Science and Engineering, 2006, vol. 32, iss. 1, pp. 47–58.
  8. Kohavi R., Sahami M. Error-Based and Entropy-Based Discretization of Continuous Features. In: Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining (KDD-96). Portland, AAAI Press, 1996, pp. 114–119. URL: Link
  9. Boulle M. Khiops: A Statistical Discretization Method of Continuous Attributes. Machine Learning, 2004, vol. 55, iss. 1, pp. 53–69. URL: Link
  10. Fayyad U.M., Irani K.B. Multi-Interval Discretization of Continuous-Valued Attributes for Classification Learning. International Joint Conferences on Artificial Intelligence. AAAI Press, 1993, vol. 2, pp. 1022–1027.
  11. Zighed D.A., Rabaséda S., Rakotomalala R. FUSINTER: A Method for Discretization of Continuous Attributes. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 1998, vol. 06, no. 03, pp. 307–326. URL: Link
  12. Kerber R. ChiMerge: Discretization of Numeric Attributes. Proceedings of the Tenth National Conference on Artificial Intelligence. San Jose, California, AAAI Press, 1992, pp. 123–128. URL: Link
  13. Kurgan L.A., Cios K.J. CAIM Discretization Algorithm. IEEE Transactions on Knowledge and Data Engineering, 2004, vol. 16, iss. 2, pp. 145–153. URL: Link
  14. Tay F.E.H., Shen L. A Modified Chi2 Algorithm for Discretization. IEEE Transactions on Knowledge and Data Engineering, 2002, vol. 14, iss. 3, pp. 666–670. URL: Link
  15. Hothorn T., Hornik K., Zeileis A. Unbiased Recursive Partitioning: A Conditional Inference Framework. Journal of Computational and Graphical Statistics, 2006, vol. 15, iss. 3, pp. 651–674. URL: Link
  16. Yu Sang, Heng Qi, Keqiu Li et al. An Effective Discretization Method for Disposing High-Dimensional Data. Information Sciences, 2014, vol. 270, pp. 73–91. URL: Link
  17. Tsai C.J., Lee C. I., Yang W.P. A Discretization Algorithm Based on Class-Attribute Contingency Coefficient. Information Sciences, 2008, vol. 178, iss. 3, pp. 714–731. URL: Link
  18. Gonzalez-Abril L., Cuberos F.J., Velasco F., Ortega J.A. Ameva: An Autonomous Discretization Algorithm. Expert Systems with Applications, 2009, vol. 36, iss. 3, part 1, pp. 5327–5332. URL: Link

Посмотреть другие статьи номера »

 

ISSN 2311-8709 (Online)
ISSN 2071-4688 (Print)

Свежий номер журнала

т. 28, вып. 9, сентябрь 2022

Другие номера журнала