李學鋒



摘要:隨著互聯網經濟的迅猛發展,個人信貸規模在近年來呈現了爆炸式增長。信用風險管控一直是金融機構研究的熱點問題。該文對集成學習算法XGBoost應用個人信貸違約預測進行了研究。通過對已有的數據進行分析,并使用XGBoost算法建立個人信貸違約預測模型。實驗結果表明,與邏輯回歸算法與隨機森林算法相比,XGBoost在性能上有更好的表現。通過使用XGBoost算法對特征的重要性進行度量,有助于快速有效地進行個人信貸風險判斷。
關鍵詞:XGBoost;集成學習;個人信貸;風險管控;違約預測
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2019)33-0192-03
1概述
近年來我國經濟迅猛發展,金融消費服務規模不斷攀升。金融公司推出了各種普惠金融服務,并通過互聯網、手機APP等渠道,讓更廣泛的人可以參與進來,極大地拓展了金融服務的廣度和深度;移動互聯網廣泛發展與應用,手機移動服務操作的簡單與便捷,讓人們的消費習慣與消費觀念與傳統相比都發生了改變,信貸比原來更容易被接受。因此,我國近幾年的信貸規模呈現了爆炸式的增長。中國人民銀行數據顯示,消費金融市場規模已由2010年1月的6798億元攀升至2018年10月84537億元。
隨著信貸規模增長,信貸風險也隨之增加。為保障信貸市場健康有序地發展,對信貸風險進行評估預測,一直是研究的熱點問題。信貸違約預測在技術上可分為兩大類,第一類主要使用統計分析的方法,如,使用線性回歸的違約預測,如文獻[1];使用Logistics回歸的違約預測,如文獻[2-3]等。另一類主要是基于機器學習進行違約預測,比如決策樹、人工神經網絡、支持向量機等。從現有的預測結果上看,相對于統計分析方法,機器學習方法的違約預測在準確度上表現更加優越。
XGBoost是一種集成式的機器學習方法,實踐證明,在回歸與分類上都有很好的表現。本文基于XGBoost算法對個人信貸違約預測模型進行分析與研究。
2xGBoost算法
XGBoost(eXtreme Gradient Boosting,極限梯度提升)是由陳天奇博士于2014年提出的一種Boosting型集成學習算法,它是一個基于CAR了回歸樹的集成學習算法。
3.3 XGBoost參數調優
XGBoost模型的參數都是實際進行調優的,其中主要參數learning_rate、n_estimators、max_depth、min_child_weight、Sub-sample、olsample_bytree、gamma、reg_alpha、reg_lambda等。
learning_rate是學習速率,控制每次迭代更新權重時的步長。n_estimators是總迭代的次數,也即決策樹的個數。
max_depth是指樹的深度,值越大,越容易過擬合;值越小,越容易欠擬合。min_child_weight是指葉子結點是最小權重和,即當葉子結點中的權值和等于或小于此值時,將不再劃分。這個參數用于避免過擬合。當它的值較大時,可以避免模型學習到局部的特殊樣本;但是如果這個值過高,會導致欠擬合。Subsample是指對于每棵樹隨機采樣的比例。減小這個參數的值,算法會更加保守,避免過擬合。但是,如果這個值設置得過小,可能會導致欠擬合。colsample_bytree是指訓練每棵樹時,使用的特征占全部特征的比例。
Gamma是懲罰項系數,用于指定節點分裂所需的最小損失函數下降值,值越大,算法越保守。reg_alpha是u正則化系數,reg_lambda是L2正則化系數,主要用于防過擬合。
3.4模型建立及其性能評估與對比
XGBoost為python環境提供了兩個接口:XGBoost原生接口和通過sklearn的XGBoost接口。兩種接口的操作基本一樣,效果也是相同的。我們采用通過sldearn的xgboost接口建立XG-Boost模型。
我們利用數據集中的數據,對模型進行訓練,然后進行測試,模型的score分值為0.98954。我們使用同樣的數據集,采用邏輯回歸分類模型進行訓練與測試,模型的score分值為0.93453。使用隨機森林模型時,模型的score分值為0.93549。通過比較,可以看出,XGBoost算法的預測效果是優于邏輯回歸分類模型與隨機森林模型的。
3.5特征重要性的度量
通過sklearn的xgboost的plot_importance方法,得到每個特征變量的重要性程度,如圖1所示。
通過上表可以看出,對于違約預測的重要性程度排在前面四位的分別是借貸人的貸款總額占授信總額的比率、過去兩年逾期30-59天的次數、過去兩年逾期超過90天的次數、借貸人的年齡等。這四個特征對最終是否違約影響較大,因此在處理貸款申請時,可以重點對借貸人的這些特征進行關注。
4結束語
本文基于機器學習的集成算法XGBoost對金融領域的個人信貸違約預測進行了研究。XGBoost算法采用集成學習方式,在其成本函數中采用了泰勒公式的兩階展開,引入正則化項,通過參數調整優化,可以有效地避免欠擬合與過擬合。XG-Boost基于回歸分類樹,在模型的解釋性與調參方面更具特點。通過實驗表明,基于XGBoost算法的個人信貸違約預測有很好的分類性,并且通過特征重要性度量,給出對違約影響較大的特征變量,本研究成果對金融領域的個人信貸違約預測有重要的參考意義。