999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混合特征選擇模型CatBoost-LightGBM的違約風險預測研究

2021-01-14 00:47:20程楠楠
現代信息科技 2021年14期

摘 ?要:疫情后,互聯網消費金融在國民經濟復蘇增長中發揮積極作用,但因其產品本身特殊性及過快的發展性,也伴隨大量的風險。文中在算法可解析性、模型應用性(識別性、準確性、低成本、穩定性)基礎上構建了混合特征選擇模型CatBoost-LightGBM,并將此模型應用于某知名信貸平臺。結果表明,混合特征選擇模型CatBoost-LightGBM在綜合評價上顯著優于單一模型,對基礎模型LR有0.19的提升,對基礎特征的LightGBM、XGboost等模型有0.03的提升。

關鍵詞:違約風險預測;消費金融;大數據風控;特征選擇;梯度提升算法

中圖分類號:TP183 ? ? ?文獻標識碼:A文章編號:2096-4706(2021)14-0116-05

Abstract: After the epidemic, internet consumer finance plays a positive role in the recovery and growth of the national economy, but due to the particularity and rapid development of its products, it is also accompanied by a large number of risks. In this paper, a hybrid feature selection model catboost-LightgBM is constructed on the basis of the analytical ability of the algorithm and the application of the model. Finally, the model is applied to a well-known credit platform. The results show that the hybrid feature selection model catboost-LightgBM is significantly better than the single model in the comprehensive evaluation. It improves the basic model LR by 0.19 and the lightgbm, xgboost and other models with basic features by 0.03.

Keywords: default risk prediction; consumer finance; big data risk control; feature selection; gradient lifting algorithm

0 ?引 ?言

我國消費金融在經歷起步、探索、發展等階段后,與互聯網和信息技術融合,呈現出新特點。但由于過快增長,也積聚了一定風險。2021年是“十四五”規劃開局之年,如何更好地利用新契機、新需求,直面存在的不足和問題,提升內生的風控能力和水平,是消費金融能否實現可持續健康發展的關鍵。

消費金融產品的特性是放款金額小,審批速度快,規模數量大,風險細節多[1]。因此構建一個高效、精準、客觀、低成本 但同時普適的風控模型非常重要,一方面不僅僅給企業自己帶來利潤的提升(減少壞賬率),還能通過賦能影響給整個系統帶來穩健性,防止大規模金融風險。

隨著大數據、人工智能的發展,機器學習逐漸應用于金融貸款風險預測中,國內外學者主要分三個研究方向:一是利用單一的機器學習模型或其改進模型,比如Lobna等人采用Logistic回歸來區分“壞”的貸款人[2],王曉燕等人通過構建logit-linear 兩部模型對銀行貸款違約預測研究[3];二是集成學習算法,集成學習方法因為具有精度高,可解釋性強等特點,近年來在風控評估模型中的應用也越來越廣泛。例如卞凌志(2021)在周志華深度森林模型的基礎上借鑒殘差學習的思想,建立了級聯殘差森林(grcForest)的模型進一步提高特征提取的多樣性[4]。李澤遠使用LightGBM對比卷積神經網絡,LightGBM模型性能和穩定性結果顯著[5]。三是深度學習的神經網絡模型,Stevenson利用Deep Learning和NLP技術建立基于文本的貸款違約預測模型并用實驗證明其有效性[6]。

在風險評估模型研究上,近三年的機器學習應用模型給本課題的研究開拓了思路。聚焦在金融風控領域,算法的“黑箱”與“歧視”[7]可能會導致監管和法律風險,因此神經網絡等復雜的模型或者深度學習模型很難在企業中實際落地。集成決策樹算法是個很好的建模方向,它可以有深度學習的準確度,也有統計學泛線性模型(例如邏輯回歸)的解釋性。目前的集成決策樹算法在信貸風險評估模型應用中可能會出現過擬合和穩定性差等問題,需要進一步深化研究,為此本課題試圖在平衡業務可解釋性、模型預測精度、穩定性及可維護性之間構建一個不降低精確度但業務成本最低的風控模型,以期更好的適配消費金融的小額信貸場景。

1 ?數據分析與數據處理

1.1 ?數據獲取與變量分析

本次實驗數據來源于國內某頭部互聯網信貸平臺的貸款記錄,總數據量超過120萬條,包含47列變量信息,其中15列為匿名變量,為用戶隱私安全考慮,特將employmentTitle、purpose、postCode和title等信息進行脫敏,部分數據變量信息如表1所示。

1.2 ?數據業務分析

基于業務邏輯理解和業務分析方法,預測用戶未來一期的還款情況,主要從以下兩個方面進行評估。一是用戶的還款意愿,二是用戶的還款能力。本文還款意愿的刻畫可以從貸款人的基本信息和信用狀況變量入手,還款能力需要綜合貸款信息、貸款人信息及貸款人的財務情況進行分析刻畫。

本實驗信貸平臺平均逾期率在20%左右。從時間維度來看2009—2017年逐年升高,2018年開始公司不斷優化自身的風險控制系統,不斷增強違約預測模型的效率來提升平臺的良性發展。具體如圖1所示。

1.2.1 ?違約用戶影響因素

1.2.1.1 ?貸款利率和貸款期限

該貸款產品業務周期持續139天,貸款期限有3年期和5年期,違約用戶更傾向于選擇5年期,5年期的逾期率32%,是3年期的2倍,表2所示。

綜合分析貸款利率和貸款期限對逾期率的影響,兩種產品違約用戶的貸款利率平均比正常用戶高2~3個點。因為前期貸款時,風險較低的借款人獲得的貸款利率較低,而風險相對較高的人拿到的貸款利率就越高,如圖2所示。其中isDefault=1代表違約。

1.2.1.2 ?貸款金額

貸款金額的分布來看,貸款金額與違約情況有比較強的相關性,違約的貸款金額均值高于正常用戶的貸款金額,也就是說單指標來看,貸款金額越高違約的風險也就越,如圖3所示。

1.2.1.3 ?工作年限

工作年限是用戶自己填寫,有部分失真,目前看和違約率關系不大,工作年限違約用戶分析圖如圖4所示。

1.3 ?數據異常分析與處理

本文用到的數據是業務給到的原始數據,存在缺失、異常等問題,并不能直接建模,需要進行一系列的數據清洗處理才可使用。

1.3.1 ?缺失值處理

首先刪除無意義的變量,比如PolicyCode只有一個值,無業務分類意義。然后對留下來的數據進行缺失值處理。其中工作年限EmploymentLength缺失率高達5.85%,部分信用指標如RevolUtil缺失率在0.07%,財務狀況指標Dti缺失率在0.03%。為保持數據集的完整性,利用均值插補法對缺失值進行填充。

1.3.2 ?類別變量處理

類別變量主要分為有序類別變量和無序類別變量,對于有序類別變量如Grade、subgrade、EmploymentLength進行1到n的序數編碼。

對日期類型變量IssueDate按照產品上市日期進行數值變化為天數。對信用類變量EarliesCreditLine字符串進行數值提取轉換。

2 ?算法模型介紹

2.1 ?混合特征選擇模型CatBoost-LightGBM

整個算法模型架構如圖5所示,將數據分成兩組,一組進行傳統的清洗、補空、數值歸一化等處理然后入模;另外一組先入模集成樹CatBoost-LightGBM模型,篩選重要特征進行構造衍生,并將其和基本特征進行混合再次入模對比試驗。

數據入模CatBoost和LightGBM算法,并給出特征重要性排序。兩種算法模型的TOP20特征如圖6所示。其中CatBoost的特征重要性原理是計算包含與不包含該特征下模型的損失函數,差別越大表明該個越重要。LightGBM的特征重要性是基于使用該特征作為分割帶來的總增益來計算。

對兩個模型TOP20重要性的特征進行重合度分析,共有12個重合特征,然后對這12個特征按照業務規則再進行特征構造。比如IssueDate進行周、月維度的構造;對貸款金額進行WOE分箱離散化;將貸款金額和工作年限做比例;對貸款金額和年收入做比例等。這樣將新特征共計87個入模LightGBM進行遞歸后向消除特征法RFE篩選,最終得到74個混合特征兩種算法模型的TOP20特征圖如圖6所示。

2.2 ?梯度提升算法Boosting

梯隊提升Boosting算法是一種集成學習思想,它是把K個專家(K個分類器)進行加權融合,形成一個新的超級專家(強分類器),讓這個超級專家做判斷。梯隊提升算法按已經被證明是一個非常重要的算法策略,許多成功的機器學習算法因Boosting而起。

2.2.1 ?XGBoost

XGBoost[8]的全稱是Extreme Gradient Boosting,由華盛頓大學的陳天奇博士提出。它是由k個基模型組成的一個加法運算式:

其中yi是第i個樣本的預測值,fk為第k個樣本的基模型。

XGBoost訓練的時候,是通過加法進行訓練,也就是每一次只訓練一棵樹出來,最后的預測結果是所有樹的加和表示。實現過程利用了預排序和近似算法可以降低尋找最優分裂點的計算量,但在節點分裂過程中仍需要遍歷整個數據集。

2.2.2 ?LightGBM

LightGBM[9]是2017年由微軟推出的可擴展機器學習系統,可以看作是XGBoost的升級豪華版,在獲得與XGBoost近似精度的同時,又提供了更快的訓練速度與更少的內存消耗。首先它基于直方圖算法進行優化,使數據存儲更加方便、運算更快、魯棒性強、模型更加穩定等。其次該算法使用了帶有深度限制的按葉子生長策略,可以降低誤差,得到更好的精度。再其次通過單邊梯度采樣來平衡數據量和算法精度。

2.2.3 ?CatBoost

CatBoost[10]是俄羅斯的搜索巨頭Yandex在2017年開源的機器學習庫,是Boosting族算法的一種。CatBoost是一種基于對稱決策樹(oblivious trees)為基學習器實現的參數較少、支持類別型變量和高準確性的GBDT框架,主要解決的痛點是高效合理地處理類別型特征,此外,CatBoost還解決了梯度偏差(Gradient Bias)以及預測偏移(Prediction shift)的問題,從而減少過擬合的發生,進而提高算法的準確性和泛化能力。

3 ?模型實驗

3.1 ?評價指標

對于二分類模型來說,經常會用AUC來度量。ROC(Receiver Operator Characteristic)即一個二維坐標軸中的曲線,AUC(Area under ROC Curve)即ROC曲線下的面積。AUC越接近1.0,檢測方法真實性越高,代表分類效果越好。但是對于不平衡數據且bad rate會有變化的數據,AUC的效果容易失真,需額外使用KS(Kolmogorov-Smirnov)值,KS值評估模型的區分度(discrimination)是在模型中用于區分預測正負樣本分隔程度的評價指標。KS的計算方法直觀就是:

KS=max(abs(TPR-FPR))

其中TPR:TP/(TP+FN)真陽率或者召回率;FPR:FP/(FP+TN)假陽率或者誤診率。

考慮到模型最終應用企業的通暢性,本實驗額外增加兩個刻畫模型成本的指標,一是模型運行耗時,二是模型穩定性(Stability)。運行耗時可通過Python內置的time庫得到。穩定性的計算公式為:

Stablity=-log(abs(AUC|test-AUC)train)

如圖7所示,該模型穩定性為:-log(abs(0.735 1-0.773 6))=1.41。圖8中的穩定性為:1-abs(0.731 5-0.740 4)×10=2.05??梢钥闯?,圖8的穩定性明顯好于圖7。

3.2 ?不平衡處理

為了增強模型的穩健性,對于風控的不平衡樣本現狀(違約用戶在總用戶中占比小,會導致模型偏向多數類,從而降低少數類的分類精度),使用SMOTE方法來對bad的部分加擾動,這樣就能平衡訓練集中的各標簽比例。

3.3 ?工具選擇

本實驗的操作系統為Windows10系統,16 GB內存,i7-8700CPU,Python版本為3.8。編程工具為Pycharm+ Anaconda3。

4 ?實驗結果分析

為了驗證混合特征選擇模型的有效性,本文選用阿里云天池公開的某信貸平臺120萬條數據作為實驗數據,并對其分別使用單分類器(邏輯回歸、決策樹、樸素貝葉斯)、集成學習算法(隨機森林、LightGBM、Catboost、XGboost)、神經網絡MLP算法對比試驗。模型參數均使用默認參數。從表3來看,混合特征入模后對比之前基礎特征八大算法效果均有提升,其中因為標準化和分箱處理的原因,邏輯回歸LR的結果提升明顯,有0.19個提升點。但是三大梯度提升樹Boosting模型因為對數值極值不敏感,且可實現自動編碼,初始入模效果也較好。

在均使用混合特征的試驗下,本實驗從模型性能、穩定性和成本等綜合維度評價分析,邏輯回歸LR耗時和穩定性是最好的,但是分類效果相較三大梯度提升算法仍有差距。MLP神經網絡也可達到很好的AUC結果但是耗時和穩定性相對較差。綜合耗時、穩定性和算法性能指標AUC、KS不難發現,LightGBM在本實驗場景下是相對較優的算法分類器,如表4所示。

5 ?結 ?論

在金融風控領域,由于銀行監管要求,風控模型需要滿足解釋型要求才能批準上線。加上消費金融產品用戶多、貸款金額小等特別,風險管控的成本和難度更大。本文通過Boosting集成思想提出了一種基于混合特征選擇的CatBoost-LightGBM集成樹模型,在描述風險影響因素、預測違約風險上是顯著有效的,且對基礎模型LR有0.19的提升,對基礎特征的LightGBM、XGboost等模型有0.03的提升。

本文僅在公開的數據表含有的特征中進行挖掘建模,未來還會綜合用戶的社交屬性、疫情災害等外部條件的約束對用戶無法按時還款造成的影響,來進一步提高模型的準確性和普適性。

參考文獻:

[1] 單良,喬楊.數據化風控 [M].北京:電子工業出版社,2018.

[2] ABID L,MASMOUDI A,ZOUARI-GHORBEL S. The Consumer Loan’s Payment Default Predictive Model:an Application of the Logistic Regression and the Discriminant Analysis in a Tunisian Commercial Bank [J].Journal of the Knowledge Economy,2018,9:948-962.

[3] 王小燕,袁騰,段湘斌.基于零膨脹分位數兩部模型的銀行貸款違約預測研究 [J/OL].中國管理科學:1-15[2021-04-25].https://doi.org/10.16381/j.cnki.issn1003-207x.2020.0441.

[4] 周波,李俊峰. 結合目標檢測的人體行為識別 [J]. 自動化學報,2020(9):1961-1970.

[5] 李澤遠.可超越評分卡模型么?基于LightGBM與卷積神經網絡在貸款違約風險預測的研究 [J].特區經濟,2021(5):67-69.

[6] STEVENSON M,MUES C,BRAVO C. The value of text for small business default prediction:A Deep Learning approach [J].European Journal of Operational Research,2021,295(2):758-771.

[7] 黃益平,邱晗.大科技信貸:一個新的信用風險管理框架 [J].管理世界,2021,37(2):12-21+50+2+16.

[8] CHEN T Q,GUESTRIN C. XGBoost:A Scalable Tree Boosting System [C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledeg Discovery and Data Mining.New York:ACM,2016:1-10.

[9] KE G L,MENG Q,FINLEY T,et al. LightGBM:a highly efficientgradient boosting decision tree [C]//Proceedings of the 30thInternational Conference on Neural Information ProcessingSystems. Red Hook:Curran Associates Inc. ,2017:3146-3154.

[10] PROKHORENKOVA L,GUSEV G,VOROBEV A,et al. CatBoost:unbiased boosting with categorical features [C]//Advances in Neural Information Processing Systems.Montreal,2018:6638-6648.

作者簡介:程楠楠(1987.12—),女,漢族,江蘇南通人,其他高級,碩士,研究方向:商業分析、機器學習、大數據風控。

主站蜘蛛池模板: 综合网久久| 精品伊人久久久大香线蕉欧美 | 国产亚洲日韩av在线| 伊人欧美在线| 99精品伊人久久久大香线蕉| 色成人综合| 91亚洲精品第一| 国产97公开成人免费视频| 露脸一二三区国语对白| 欧美精品1区2区| 亚洲欧美一区二区三区麻豆| 乱人伦中文视频在线观看免费| 精品欧美视频| 国产高清在线观看| 久久久国产精品免费视频| 中国成人在线视频| 亚洲无码免费黄色网址| 国产真实自在自线免费精品| 国语少妇高潮| 青青青国产视频手机| 亚洲无码高清视频在线观看| 中文字幕丝袜一区二区| 青青青国产在线播放| 99人妻碰碰碰久久久久禁片| 蜜臀AVWWW国产天堂| 精品伊人久久久香线蕉| 亚洲热线99精品视频| 毛片大全免费观看| 日韩高清中文字幕| 在线人成精品免费视频| 国产成人免费高清AⅤ| 国产精品无码AⅤ在线观看播放| 婷婷色丁香综合激情| 中国精品自拍| 97成人在线观看| 午夜欧美在线| 婷婷亚洲天堂| 亚洲国产精品VA在线看黑人| 国产美女一级毛片| 久久黄色视频影| 操国产美女| 久久久久久久久18禁秘 | 在线不卡免费视频| 制服丝袜在线视频香蕉| 亚洲最新地址| 欧美国产视频| 国产一区二区三区夜色 | 欧美激情视频一区二区三区免费| 亚洲中文字幕无码mv| 欧美一级黄色影院| 免费国产好深啊好涨好硬视频| 精品国产福利在线| 在线观看亚洲天堂| 天堂在线视频精品| 日韩免费无码人妻系列| 国产九九精品视频| 久久久精品无码一区二区三区| 亚洲品质国产精品无码| 一区二区三区国产| 国产凹凸一区在线观看视频| 亚洲欧美日韩色图| 老司国产精品视频91| 日韩AV无码免费一二三区| 99久久国产综合精品2020| 精品国产一二三区| 国产高清无码第一十页在线观看| 一级全黄毛片| 亚洲精品视频网| 国产精品网址在线观看你懂的| 成年人久久黄色网站| 国产成人一区在线播放| 亚洲福利视频一区二区| 欧美日韩精品在线播放| 91破解版在线亚洲| 免费一级α片在线观看| 欧美黄网站免费观看| 国产香蕉一区二区在线网站| 亚洲人成色在线观看| 国产精品成人第一区| 亚洲美女高潮久久久久久久| 国产aaaaa一级毛片| www.91在线播放|