






[摘 要]機器學習的集成算法具有重要的應用價值,其實際數據分析效果較好。本文在對信貸違約數據進行數據清洗后,分別使用AdaBoost、XGBoost、LightGBM三種集成提升方法對貸款違約情況進行預測分析,構建了相應的違約預測模型。預測結果顯示XGBoost與LightGBM的預測效果略優于AdaBoost方法,LightGBM的計算效率最高。
[關鍵詞]貸款違約;AdaBoost;XGBoost;LightGBM;預測模型;機器學習;集成學習算法;提升方法
0" " "引 言
隨著“互聯網+”戰略的實施,我國互聯網金融得到了有序和快速發展,各類金融機構相繼開展了信貸業務。互聯網金融機構根據借款人的信用水平直接發放貸款,小額信貸的審批、放款較快,可以及時滿足很多企業與個人的資金需求。但目前信息貸款違約現象比較嚴重。貸款審批是控制違約風險的重要方式,但主要依賴人工審批,隨著貸款規模的擴大,難以及時處理所有貸款申請。隨著大數據時代的到來,可以根據歷史信貸數據,利用機器學習方法,構建一個比較精準的貸款違約預測模型。這可以有效提高貸款審批效率與準確率,控制違約風險。
信貸違約預測是金融風險控制的一個重要方法。近年來,關于信貸違約預測的問題取得了一定的研究成果。談超等[1](2015)構建邏輯回歸模型,將各個特征對貸款違約的影響進行解釋。章寧和陳欽[2](2019)提出了一種集成學習的訓練方法。李天陽和牛長流[3](2020)利用帶懲罰的邏輯回歸對用戶特征進行建模與預測。張春杰[4](2020)通過卷積神經網絡進行貸款違約預測。陶艷麗[5](2020)運用改進的隨機森林模型對個人信貸違約進行預測。蔡青松等[6](2021)將三種模型融合,提升了預測結果的準確性。
根據上述研究結果可以看出,機器學習方法正被廣泛應用于貸款違約預測問題研究,并取得了較好的效果。但對于不同提升方法的預測效果與計算成本缺少對比。本文采用AdaBoost(自適應提升)、XGBoost(極端梯度提升)與LightGBM(輕量級梯度提升機)三種提升方法對貸款違約問題進行建模預測,并對比三種提升方法應用實際數據的預測效果與計算效率。
1" " "三種提升方法簡介
1.1" "AdaBoost
對于一個因變量為二分類變量的數據集,在AdaBoost算法中,首先根據該數據集學習得到一個弱分類器G1(x),計算其分類誤差率,并更新樣本權重分布,增加誤分類樣本權重。然后,計算該弱分類器在最終強分類器中的權重α1,分類誤差率越小的分類器權重越大。之后,進行下一輪的弱分類器學習。經過若干次迭代,當誤差分類率滿足一定要求后,得到最終的強分類器:
其中,M為最終獲得的弱分類器數量,sign()是一個取符號函數,將輸出結果分為兩類。
1.2" "XGBoost
XGBoost算法的基本思想是通過不斷對殘差進行擬合,建立新的樹模型以提高預測的準確度。目標函數為:
其中yi,分別表示真實值與預測值,l()為損失函數,K表示決策樹的數量,Ω( fk)為正則化項,fk為第k個決策樹模型。對于分類問題常用的損失函數為對數損失函數:
由于XGBoost方法不斷對殘差進行擬合,所以給定樣本xi時,其預測值為每棵樹對應的分數相加:
目標函數正則化項Ω( f )的形式如下:
其中,T表示葉子節點的數量,γ是一個超參數,用于控制葉子節點個數;w表示葉子節點的分數,λ是一個超參數,用于控制葉子節點的分數。γ和λ越大,決策樹的結構越趨向于簡單。
1.3" "LightGBM
XGBoost算法在實際數據分析中取得了非常好的效果,但由于需要遍歷每一個特征并計算所有可能的分割點,計算量較大。為降低計算成本,提高計算效率,LightGMB提出了單邊梯度采樣算法(GOSS)和互斥特征捆綁算法(EFB)。
GOSS是一種樣本采樣優化算法。通過梯度對樣本進行排序并賦予不同的權重,剔除小梯度樣本,保留大梯度樣本,有效地減少了數據集的大小,從而提高模型的訓練速度與準確性。
EFB算法通過構造加權無向圖,設定最大沖突比率γ作為閾值來解決將哪些特征進行捆綁的問題。通過增加一個偏置常量將不同特征的值分在不同的區間以實現特征融合,減少特征數量。
2" " "實證分析
2.1" "數據說明與清洗
本文數據來源于天池大賽——貸款違約預測。共80萬條貸款數據,47個特征,因變量isDefault表示用戶的違約情況。
2.1.1" "缺失值處理
在數據集中,有113 805個實例和22個特征值包含缺失數據。由于缺失特征占比過大,所以按實例剔除缺失值。
2.1.2" "類別特征處理
剔除不包含違約信息的id特征后,對于5個非數值型特征進行處理:grade特征的取值為A~G,將其映射為1~7;subGrade特征的取值為X1~X5,X的信息包含于grade特征中,所以僅保留其數值變量;剔除employment Length特征中的years;issueDate和earliesCreditLine兩個特征分別提取年和月作為數值變量。
經過特征處理后,得到具有48個特征的68萬多個實例。從中隨機抽取68萬個實例,將其中80%的實例作為訓練集,用于參數估計;剩余20%的實例作為測試集,用于模型評價。
2.2" "模型評價
2.2.1" "混淆矩陣與各評價指標
在混淆矩陣中,使用TP、TN分別表示真實類別為1,0且正確分類的實例數量;FP、FN分別表示真實類別為0,1但錯誤分類的實例數量。基于混淆矩陣,可以計算各個評價指標。預測準確率為:
準確率是衡量正確預測的實例在所有實例中的占比,可以非常直觀地體現預測準確度。但該指標不適合非平衡數據。
查準率和召回率是衡量分類器預測正類效果的重要指標,取值范圍為[0,1],越接近1則預測效果越好。當需要更多地關注某一類的預測情況時,查準率與召回率是很有效的指標。
F1得分綜合了查準率與召回率,可以更為全面地反映某一類別的預測情況:
2.2.2" nbsp;ROC曲線與AUC值
ROC曲線表示給定所有實例的預測概率時,在不同閾值下計算得到FPR與TPR的值所構成的曲線。FPR的計算公式為FP/(FP+TN),TPR與召回率相同。FPR越小,TPR越大,則預測效果越好。AUC值為ROC曲線下面積,取值范圍為[0.5,1],越接近1則預測越準確,對于不平衡數據來說,AUC值比準確率更有意義。
2.3" "實證結果
根據訓練集中的數據分別擬合三種模型,然后在測試集上進行預測,并計算各個評價指標。表1中給出了預測結果的混淆矩陣(AdaBoost更傾向于將實例分為1類,且此類預測錯誤率較高),表2中給出了各個評價指標的結果,根據AUC值可以看出,XGBoost與LightGBM兩者的預測效果十分接近,都優于AdaBoost,圖1中的ROC曲線也反映了這一點。但是,LightGBM算法程序運行時間僅為4秒,遠快于其他兩種方法。
3" " "結束語
本文首先對信貸實例數據進行了清洗,得到68萬個實例,每個實例有48個特征,從中隨機抽取80%的數據作為訓練集,將剩余20%的數據作為測試集,使用AdaBoost、XGBoost、LightGBM三種提升方法分別對貸款違約情況進行預測。實證結果顯示,三種提升方法的預測精度總體上差距不大,XGBoost與LighGBM的預測效果非常接近,且略優于AdaBoost方法。但是,在計算成本上,LightGBM方法的效率遠高于其他兩種方法,更適合樣本量非常多的數據。
信用貸款可以有效幫助小微企業與個人解決突發問題,對企業發展與個人成長都有幫助。但由于其缺乏抵押物,一旦發生違約情況會導致融資平臺損失較大。建立一個準確、高效的預測模型是至關重要的。
主要參考文獻
[1]談超,孫本芝,王冀寧. P2P 網絡借貸平臺中的逾期行為研究[J]. 財會通訊,2015(5):49-51.
[2]章寧,陳欽. 基于AUC及Q統計值的集成學習訓練方法[J]. 計算機應用,2019,39(4):935-939.
[3]李天陽,牛長流. 基于加權懲罰邏輯回歸的貸款違約預測[J]. 信息技術與信息化,2020(7):11-14.
[4]張春杰. 基于卷積神經網絡和生存分析的網絡貸款違約風險評估方案策劃[D]. 上海:上海師范大學,2020.
[5]陶艷麗. 隨機森林改進模型對個人信貸違約預測的研究[D].石家莊:河北經貿大學,2020.
[6]蔡青松,吳金迪,白宸宇. 基于可解釋集成學習的信貸違約預測[J]. 計算機系統應用,2021,30(12):194-201.
[收稿日期]2023-09-11
[基金項目]國家社會科學基金一般項目“基于深度學習
的金融高頻數據波動率預測及其應用研究”(19BTJ035);江蘇省自然科學基金面上項目“波動率矩陣值模型的統計推斷及其在金融高頻數據應用”(BK20221348);江蘇省高等學校自然科學研究重大項目“波動率矩陣自回歸模型統計推斷及其在金融高頻數據應用”(21KJA110003)。