羅雅晨
?
類別不平衡的集成學習預測P2P網貸信用風險
羅雅晨
(同濟大學經濟與管理學院,上海 201804)
國內的P2P網貸行業經監管整治后呈現出越來越重視線上風控的趨勢,機器學習等技術被廣泛應用于構建信用評價體系。而違約的和正常還款的樣本類別不平衡是建模的一大難點,有針對性地構建了一種比例平衡的隨機森林模型(Ratio-balanced Random Forest)。模型對多數類進行多次欠采樣,和少數類合并生成多個比例均衡的樣本子集,再融合隨機子空間添加屬性擾動,最后利用隨機森林構建集成的分類器模型。在拍拍貸真實借貸數據集上與機器學習單模型、集成模型和平衡的集成模型三類方法做對比實驗,結果驗證了該模型的有效性,并指出平衡的集成模型方法在解決不平衡分類問題上的優越性。
P2P網絡借貸;信用風險;違約預測;類別不平衡
隨著大數據技術的高速發展,傳統金融也更多融入了互聯網思維,這其中的典型就是P2P網絡借貸。P2P是“Peer to Peer”的縮寫,即個人對個人的借貸,指出借人與借款人之間通過網絡借貸平臺而非金融機構產生的無抵押貸款[1]。
截至2018-04,中國累計P2P網貸平臺數量達到6 114個,但尚在運營的只有1 877個,這是由于2016年政府出臺了一系列管控政策,淘汰了一大批資質不全的問題平臺,并指出平臺不得提供擔保,應秉承小額分散原則,采用信息中介這樣的發展模式。
在這種發展模式下,平臺對于借款標的的風險控制變得尤為重要。平臺風控系統對每筆借款是否會違約做出預測,并決定是否審核通過,符合機器學習中的二分類問題。于是各種統計學方法大量被用于P2P網貸領域。王會娟以人人貸為例,使用因子分析和回歸模型分析了信用認證指標和機制及其對借貸行為的影響[2]。進一步的,機器學習方法也被逐漸應用到該分類預測問題中。裴平則利用了機器學習中的貝葉斯網絡建立借款人信用評價模型[3]。
但是由于違約貸款和正常還款貸款的樣本數量是高度不平衡的,僅考慮分類準確率是不全面的,而直接套用一般的機器學習模型更有可能導致實驗失敗。類別不平衡問題已被列為數據挖掘的十大最有挑戰性難題之一。因此近期有學者針對此問題提出一些方法,尤其是集成學習。Gang Wang提出結合Bagging和隨機子空間的兩種集成模型,并在UCI德國和澳大利亞信用數據集上驗證[4],陳啟偉等提出一種考慮代價敏感和類別不平衡并引入多種參數擾動的集成學習的模型,給出用戶信用分數[5],但其實驗在UCI德國數據集上進行,未在中國平臺上驗證。
可知在不平衡的中國P2P網貸數據建立信用評價模型方面研究還很少,因此本文致力于彌補這一缺口,有針對性地構建了一種比例平衡的隨機森林模型(Ratio-balanced Random Forest)。在拍拍貸真實借貸數據集上與機器學習單模型、集成模型和平衡的集成模型這三類方法做對比實驗,并取得較好的結果。
目前解決類別不平衡問題的方法主要分為數據層面和算法層面。在數據層面主要是基于過采樣和欠采樣的重采樣技術,在算法層面結合了代價敏感的分類算法和集成學習。
在數據預處理過程中,重采樣是一種常用的方法,即對不平衡的兩類數據重新進行人工采樣使之達到平衡,主要包括過采樣和欠采樣。對少數類的過采樣可以通過簡單復制原始樣本,使少數類樣本量與多數類持平。欠采樣技術主要也分為兩類,一類是簡單隨機刪除多數類中的樣本,使兩類樣本趨于均衡;另一類通過各種算法進行有選擇性的拋棄樣本。
Boosting是一種串行地將一系列弱學習器組合成強學習器的集成學習算法。通過在每輪調節樣本分布,提高被錯分樣本的權重,使其在下一輪訓練中更有可能被抽取,如此重復從而得到最終的加權分類器。
Bagging是另一種并行的集成方法。基于bootstrap(自助采樣法,即有放回的抽樣)抽取個訓練集,相應構造個基學習器,再將這些基學習器組合,對于分類任務,最后通過簡單投票得出結果[6]。如果在Bagging構造基學習器之前或之中對樣本進行重采樣使之平衡,則可以得到不同平衡的集成學習算法。這類算法每個平衡的子集只含部分數據,但從全局來看,卻不會丟失信息。
近兩年,集成學習方法開始被用來解決P2P網貸中的類別不平衡問題。例如陳啟偉等提出一種考慮代價敏感和不平衡的多種參數擾動的結合GBDT和Bagging的模型,做用戶違約概率的回歸預測[5]。
平衡的隨機森林(Balanced Random Forest ,BRF[7])是基于隨機森林算法,針對類別不平衡問題做出的改進算法,過程描述如下:①對于隨機森林的每輪迭代,對少數類進行bootstrap采樣,相應地從多數類中有放回的取樣等量樣本,組成樣本子集。②從樣本子集中生成不剪枝的CART分類決策樹,在樹的每個節點劃分時,只從隨機挑選的部分屬性集里尋找最優劃分屬性,而不是搜索屬性全集。③重復以上兩步直至規定時間,整合各決策樹預測結果并做出最終預測。集成學習追求基分類器的“好而不同”[6],決策樹在大多數分類任務中都是一個不錯的學習器。BRF的bootstrap抽樣帶來數據樣本擾動,劃分節點時帶來屬性擾動。又由于決策樹是數據敏感的,所以不同的樣本集會生成很不相似的決策樹,因此能保證基分類器的多樣性。但BRF模型也存在一些缺點,bootstrap采樣會帶來一些重復樣本,而剩余的包外樣本沒有得到充分利用,結合P2P網貸情景來看,違約樣本量本就稀少,再舍棄一部分可能造成關鍵信息丟失,從而弱化基分類器。再加之BRF初始構建樣本子集時為重采樣至兩類平衡,但會改變數據本身的分布,過度突顯少數類的特征。尤其在信貸場景下,借款的批準與否以利潤為導向,而不是單純預測準確率導向,如果為了盡量減少違約風險而拒絕大量正常借款,也會降低整體利潤。
鑒于現有研究存在以上問題,本文基于BRF模型,做出如下改進:①為了使基分類器多樣化,在生成每棵決策樹之前,運用隨機子空間(Random subspace method,RSM[8])抽取部分特征而不是用所有特征來訓練每個分類器,添加了輸入屬性擾動,也可以進一步減小訓練模型時的搜索空間,節省時間和內存。②將欠采樣出類別平衡的子集改為構建不同類別比例的子集,增加輸入數據樣本的擾動??筛鶕唧w應用實例調整類別比例值,使分類器具有偏好,調和對類別特征的抓取關注度。③使用Bagging并行地集成CART決策樹,所以算法的時間復雜度與訓練單棵決策樹為同數量級。在保證高預測性能的同時,簡化模型框架,使之具有更強的可用性和更廣的適用范圍。
本文提出的比例平衡的隨機森林模型(Ratio-balanced Random Forest)框架如圖1所示,算法過程偽代碼如表1所示。

圖1 比例平衡的隨機森林模型(Ratio-balanced Random Forest)框架圖
本文采用拍拍貸平臺上2016-09—2016-10發布的共99 215條借款標的信息。包含Listing Id、借款金額、借款期限、借款利率、借款成功日期、初始評級、借款類型、是否首標、年齡、性別、手機認證、戶口認證、視頻認證、學歷認證、征信認證、淘寶認證、歷史成功借款次數、歷史成功借款金額、總待還本金、歷史正常還款期數、歷史逾期還款期數、標當前逾期天數、標當前狀態,共計23個屬性指標。在輸入模型訓練之前,應對樣本進行數據清洗,清洗后的數據集共有98 597個樣本,其中正例96 816個,反例1 781個。樣本不均衡比為54∶1,屬于類別高度不平衡的數據集。
對于類別不平衡的分類問題,單純使用錯誤率、精度、查準率、查全率等指標是不恰當的。例如一個數據集含正類樣本98個,反類樣本2個,那么即使分類器“傻瓜式”將全部樣本分類為正類,也可以得到98%的準確率。因此本文除了采用常規的召回率和正確率,也會采用F1、G-mean和AUC作為模型分類能力評價指標,同時記錄模型訓練時間作為模型運行能力評價指標。
表1 比例平衡的隨機森林模型算法過程偽代碼
算法:比例平衡的隨機森林模型 輸入:多數類全集N,少數類全集P,|N|<|P|, 欲合成的新子集數n, 采樣后的多數類樣本比少數類比例r, 屬性抽取比例k, 過程: For i = 1,2,…,n: 從N中隨機抽取Ni,使Ni=rp; Di=Ni+P;#合并生成新子集 ; #抽取屬性生成隨機子空間訓練子集 ; #用隨機森林中的決策樹訓練基分類器 End 輸出: 簡單投票法集成學習器 輸出預測類別
G-mean是一種追求真正例率和真反例率都高的指標,在不平衡的二分類問題評估中區分能力優秀:

為了驗證本文提出的比例平衡的隨機森林模型(記為R-Balanced RF)在中國P2P網貸信用評價上的應用,實驗采用留出法驗證,將樣本總體劃分為70%訓練集和30%驗證集。實驗比較本文模型與現有常用的信用風險預測模型結果。各類模型的具體選擇如表2所示。
表2 各類模型的具體選擇
類型模型相關文獻 單模型決策樹(DT)Arminger G. et al.(1997)[9] 邏輯回歸(LR)Arminger G. et al.(1997)[9] 樸素貝葉斯(NB)Lessmann S. rt al.(2015)[10] 支持向量機(SVM)Chow et al.(2018)[11] 集成模型AdaboostChow et al.(2018)[11] GBDT朱夢瑩等(2016)[12] BaggingAbellan and Masegosa(2010)[13] 隨機森林(RF)Raquel Florez-Lopez et al.(2015)[14] 平衡的集成模型Balanced BaggingXu-Ying Liu et al.(2009)[15] Balanced Bagging+GBDT陳啟偉等(2017)[5] Balanced RFChao Chen(2004)[7] R-Balanced RF本文
12個分類模型在驗證集上測試結果如表3所示。
表3 12個分類模型在驗證集上測試結果
模型召回率(多數類)召回率(少數類)正確率F1AUCG-mean用時/s DT0.990.560.980.9840.7770.7470.38 LR1.000.000.980.9740.5000.000*1.76 NB0.990.020.970.9690.5020.124*0.04 SVM1.000.440.990.9870.7190.662511.82 Adaboost1.000.000.980.9740.5000.000*2.03 GBDT1.000.010.980.9740.5040.088*5.05 Bagging1.000.000.980.9740.5000.000*0.15 RF1.000.420.990.9860.6960.6270.63 Balanced Bagging0.730.830.730.8290.7790.7772.27 Balanced Bagging+GBDT0.780.790.780.8600.7830.783146.51 Balanced RF0.740.800.740.8350.7690.7681.86 R-Balanced RF0.900.690.890.9300.7930.7861.80
在4個單模型中,LR和NB在高度不均衡的數據集上失效,而SVM的Accuracy和F1值最高,但花費時間過多,在數據量很大時不適宜做基分類器。實驗表明單棵決策樹是一個具有一定判別能力的弱學習器,又由于其易受擾動的特性,使其符合集成學習對于基學習器具有準確性和多樣性的要求。
在集成學習模型中,Adaboost,GBDT和Bagging這3種在各領域應用頗廣的經典模型均失效(用時加*號列),所以機器學習單模型和集成學習模型在未改造時均不適宜進行網貸違約預測。
當賦予集成學習器處理不均衡數據的能力時,其性能均得到大幅提升。平衡的集成學習模型相對于經典機器學習模型,對少數類的Recall率提高很多,但對多數類的Recall率則有下降,造成正確率的下降。本文的R-Balanced RF模型在顯著提高對少數類的識別能力的同時,將對多數類的判別仍保持在一個較高的水平上,從而保證了整體的正確率。
隨著P2P網貸領域線上模式越來越重要,機器學習方法突顯優勢。本文著眼于中國網貸平臺特點和借款違約與正常還款的樣本類別不平衡這一難點,總結前人的研究,針對性提出一種比例平衡的隨機森林模型。模型采用欠采樣的方法得到多個接近均衡比例的樣本子集,并引入樣本擾動和參數擾動,再進行隨機森林的集成學習。實驗比較了3類模型的預測及運行性能,得出平衡的集成學習方法效果更好的結論,也證實本模型分類預測更準確。
從該研究中可以得到如下啟示:①類別不平衡問題在實際應用中很常見,在應用機器學習方法時可采用本文結論靈活解決。②雖然我國P2P平臺缺少硬性個人信用數據,但充分挖掘海量的相關數據也可以達到很高的精確度。
未來的研究方向可從以下幾個方面著手:①P2P網貸領域信息不對稱性高,羊群效應顯著,如何基于此構建模型分析投資人決策心理。②如何自動化地制訂投資組合,幫助投資人分散風險。
[1]M.lin,N.R.Prabhala,S.Viswanathan.Judging Borrowers by the Company They Keep:Friendship Networks and Information Asymmetry in Online Peer-to-Peer Lending[J].INFORMS,2013(1).
[2]王會娟,廖理.中國P2P網絡借貸平臺信用認證機制研究——來自“人人貸”的經驗證據[J].中國工業經濟,2014(4).
[3]裴平,郭永濟.基于貝葉斯網絡的P2P網貸借款人信用評價模型[J].中國經濟問題,2017(2).
[4]G.Wang,J.Ma,L.Huang,et al.Two credit scoring models based on dual strategy ensemble trees[J].Knowledge-Based Systems,2012(26):61-68.
[5]陳啟偉,王偉,馬迪,等.基于Ext-GBDT集成的類別不平衡信用評分模型計算機應用研究[J] 2018(2):421-427.
[6]周志華.機器學習[M].北京:清華大學出版社,2016.
[7]C.Chen,A.Liaw,L.Breiman.Using Random Forest to Learn Imbalanced Data.http://www.stat.berkeley.edu/tech?-reports/666.pdf.2004.
[8]T.K.Ho.The random subspace method for constructing decision forests[J].IEEE transactions on pattern analysis and machine intelligence,1998(9).
[9]G. Arminger,D. Enache,T. Bonne.Analyzing credit risk data:A comparison of logistic discrimination,classification tree analysis, and feedforward networks[J].Social Science Electronic Publishing,1997(1).
[10]S.Lessmann,B.Baesens,H.-V.Seow,et al. Benchmarking state-of-the-art classification algorithms for credit scoring:An update of research, European Journal of Operational Research[J].European Journal of Operational Research,2015(1).
[11]J. C. Chow.Analysis of Financial Credit Risk Using Machine Learning[J].Papers,2018(2).
[12]朱夢瑩,鄭小林,王朝暉.基于風險和剩余價值的在線 P2P借貸投資推薦方法[J].計算機研究與發展,2016(12):2708-2720.
[13]J.Abellán,A.R.Masegosa.Bagging Decision Trees on Data Sets with Classification Noise[J].In International Conference on Foundations of Information and Knowledge Systems,2010(2):248-265.
[14]R.Florez-Lopez,J.M.Ramon-Jeronimo.Enhancing accuracy and interpretability of ensemble strategies in credit risk assessment. A correlated-adjusted decision forest proposal[J].Expert Systems with Applications, 2015(13):5737-5753.
[15]X.Y.Liu,J.Wu,Z.H.Zhou.Exploratory undersampling for class-imbalance learning[J].IEEE Transactions on Systems Man & Cybernetics Part B,2009(4):539-550.
2095-6835(2018)24-0001-04
F724.6;F832.4
A
10.15913/j.cnki.kjycx.2018.24.001
羅雅晨(1994—),女,安徽滁州人,碩士研究生,研究方向為數據挖掘與機器學習。
〔編輯:嚴麗琴〕