趙迎 何華 吳超


摘要:在金融市場中,互聯網征信是規避損失風險的重要參考依據,其中違約用戶識別率的準確性對征信來說則更為重要。從這一角度出發,本文提出了改進的隨機森林算法(CS-RF)。利用金融公司的實際數據,從隨機森林原模型基礎上加以改進,在訓練樣本生成決策樹后引入代價敏感函數,為多類樣本和少類樣本的錯誤分類賦予不同的代價,搜索出更優的決策樹集成。通過實證分析,將預測結果與Logistic回歸模型,決策樹,傳統隨機森林,BP神經網絡進行對比,得出CS-RF模型預測效果最優。
關鍵詞:互聯網征信 隨機森林 非平衡樣本 代價敏感函數
一、引言
隨著互聯網金融快速發展,各種信貸新模式不斷挑戰傳統金融領域。新型金融業態層出不窮,P2P網絡借貸,微額借貸,眾籌,互聯網公司上線金融借貸業務等,這些新模式推動了信貸模式的轉型,互聯網金融新經濟對信用風險評價提出了更高的要求。從廣義上來說,互聯網征信是指采集用戶在互聯網金融服務以及互聯網其他服務過程中留存下來的信息和數據,并結合線下渠道采集的公共信息數據,利用云計算,機器學習等技術手段進行信用評估和評價的活動。互聯網征信相對于傳統征信,數據上實時動態性更強,時時產生互聯網行為數據信用評估,即時反映用戶信用水平變化。評估指標上來源更加豐富,更能反映綜合信用水平,具有較強的社會性。技術手段上更加多元化,傳統統計學方法與新興機器學習相融合,云計算與分布式計算的發展,更是為互聯網征信的運行提供了技術保障。
隨著機器學習方法的普遍應用,已經有許多文獻把機器學習方法與統計學方法用于信用評估模型的建立,主要的方法包括神經網絡,貝葉斯網絡[1],SVM[2],Logistic回歸[3],隨機森林等。相關研究表明,對不同的算法進行有效組合形成一系列互補型的集成算法,預測效果優于單一算法。Yu et al.[2]研究了基于支持向量機的多主體集成學習方法進行風險評估的預測,根據數據集多樣性,參數多樣性,核函數多樣性建立了支持向量機不同組合的集成方法,并利用數據對違約情況進行了預測,實驗結果發現性能要優于單一原始算法模型。Xiao et al.[4]實證分析了在信用評估的應用中,隨機森林比KNN,RBF-NET,SVM等單一算法以及GBDT算法更精準和穩定。Zhou et al.[5]提出了選擇性集成的概念,是指在已有分類器中依據某種策略選擇一部分作為集成。相對于單一學習方法的預測精度不夠高,泛化性能不夠好的缺點,集成學習技術本身在很多方面都具有優越性,但并不能做到對所有樣本的平等對待。如Wang et al.[6]利用遺傳算法對隨機森林中的決策樹進行進化搜索,選出決策樹的滿意組合,這些決策樹再以某種策略相結合構成新的集成。通過對隨機森林算法的優化,即便在最后分類結果的準確率上有所提升,但是對于少類樣本的精準識別率并不是很高,這是很多算法不能解決的。
在非平衡樣本分類問題中,通常會出現兩類錯誤,第一類錯誤是將多類樣本錯誤預測為少類樣本,第二類錯誤是將少類樣本錯誤預測為多類樣本。在信用數據中,少類樣本為違約樣本,多類樣本為未違約樣本。多數文獻中,為提高總體準確率,會出現忽視第二類錯誤的問題。可以發現有些模型經過改進后,預測準確率達到了95.58%,但由于信用數據的非平衡性,導致有大量第二類錯誤發生。對于金融服務公司來說,第二類錯誤帶來的風險損失要遠遠高于第一類錯誤。本文對模型進行優化,提出隨機森林改進模型CS-RF,旨在控制和降低第二類錯誤的發生率。CS-RF模型引入代價敏感函數,以期望代價最小為原則選擇最優分類器組合。在保證總體準確率不下降的情況下,提升違約用戶的預測準確率。
二、模型與算法改進
(一)隨機森林的生成
隨機森林由LeoBreiman(2001)[7]提出,是一種集成學習技術,由大量決策樹的聚合組成,與單個決策樹相比,這種聚合形式導致方差減小。基本原理是用Bagging的方式把眾多的決策樹組合起來,最終得到一個龐大的決策模型[8]。
隨機森林算法訓練過程具體步驟如下:
步驟1:原始訓練集為N,應用bootstrap法有放回地隨機抽取k個新的自助樣本集,并由此構建k棵分類樹,每次未被抽到的樣本組成了k個袋外數據;
步驟2:設有mall個特征,則在每一棵樹的每個節點處隨機抽取mtry個特征,然后在mtry中選擇一個最具有分類能力的特征,特征分類的閾值通過檢查每一個分類點確定;
步驟3:每棵樹最大限度地生長,不做任何修剪;
步驟4:將生成的多棵分類樹組成隨機森林,用隨機森林分類器對新的數據進行判別與分類,分類結果按樹分類器的投票多少而定。
(二)改進隨機森林(CS-RF)的構建
如上所述,隨機森林算法的泛化能力比較強,而且可以進行并行運算,計算效率有明顯優勢,在諸多領域的預測精度也都很高。盡管如此,隨機森林模型應用在信貸數據上仍然存在著一定的不足。信貸數據是典型的非平衡樣本,非平衡樣本是指在數據樣本中某些類的樣本數量要遠遠少于其他類,正如信貸樣本中未違約用戶的數量是遠遠多于違約用戶的。而Silke在研究中指出隨機森林對于非平衡樣本進行預測時,分類結果會偏向多類樣本[9]。金融公司需要的則是對少類樣本的識別,因為違約行為預測為非違約時帶來的損失是遠遠超過對未違約行為進行審查的成本的。因此,針對隨機森林模型在信貸樣本這方面的不足,本文引入代價敏感學習從而進行改進。通過設置代價矩陣,對兩類錯誤設置不同的代價,提高違約樣本預測時出現誤分的代價,采用平均誤分代價最小的原則搜索出最優的分類決策樹,以投票策略結合,生成最終的新隨機森林。
代價敏感學習算法是根據不同錯誤分類產生的代價引入不同的懲罰因子,并選擇總體錯誤分類代價最小或平均錯誤分類代價最小的原理來設計分類器[10]。例如二元分類問題,正類樣本預測為正類稱為真正例(True Positive,TP,也稱真陽),反類樣本預測為反類稱為真反例(True Negative,TN,也稱真陰),相應地,另外兩種情況分別稱為偽反例(False Negative,FN,也稱假陰)和偽正例(False Positive,FP,也稱假陽)。錯誤分類代價所用的代價矩陣可以設置為如表1所示。
三、實證分析
(一)數據準備
本次實驗所用的數據來自某微額金融信息服務有限公司的微額借款用戶人的借貸數據。目的是通過對實際借款數據進行建模分析申請用戶的信用狀況,預測其未來是否會違約。本次所用到的一共有15000條觀測數據,其中包含1138個特征和一個結果標簽,標簽1的為正樣本,表示不會違約,標簽為0的為負樣本,表示會違約。1138個特征經過脫敏處理,在實驗之前對數據進行標準化處理,通過不同的算法對數據集進行分析,證明CS-RF模型有更好的效果。
(二)實驗設置
果越好,但同時計算復雜度也會增加,而且隨著樹個數的增加,效果的提升是遞減的,結合錯誤率與復雜度決策樹的個數設置為500。在代價敏感學習中,TP和TN的代價設為0,FP的錯誤分類代價因子始終為1(也就是),通過調節FN的誤分類代價因子來改變平均誤差代價,分別計算值為1,2,4,8,16,32,64時的結果。通過實驗計算發現時效果最好,因此,決策樹生成時以平均誤差代價最小化為原則進行搜索。
預測模型的好壞需要適合的衡量指標來評估。本次實驗采用常用的評價指標:敏感性,特異性,準確性,AUC值,混淆矩陣來描述詳細結果。
四、結論
互聯網征信已經成為金融市場領域的一個研究熱點。在信貸風險評價分析中信貸數據為非平衡樣本,第二類錯誤的發生率會偏高,但對于金融公司來說,第二類錯誤造成的代價是遠遠超于第一類錯誤的。傳統隨機森林無法區分兩類錯誤,針對這一問題,本文將代價敏感學習引入隨機森林中,為兩類錯誤賦予不同的代價,得出更優的決策樹集成。改進后隨機森林模型保持原有的預測效果,在精度上有所提高,考慮上對未違約用戶和違約用戶錯誤分類的實際代價,為金融公司降低損失風險提供決策,具有現實意義。
參考文獻:
[1]李旭升,郭春香,陳凱亞.最小總風險準則的貝葉斯網絡個人信用評估模型[J].計算機應用研究,2009,26(1):50-58.
[2]Lean Yu,Wuyi Yue,Shouyang Wang,etal. Support vector machine based multiagent ensemble learning for credit risk evaluation[J]. Expert Systems with Applications,2010,37:1351–1360.
[3]方匡南,范新妍.基于網絡結構Logistic模型的企業風險預警[J].統計研究,2016,33(4):50-55.
[4]蕭超武等.基于隨機森林的個人信用評估模型研究及實證分析[J].管理現代化,2014,(06),111-113.
[5]Zhihua Zhou. Ensemble methods:foundations and
algorithms[M]. Boca Raton:CRC Press,2012.72-73.
[6]Jin-Hyuk Hong,Sung-Bae Cho. The classification
of cancer based on DNA microarray data that uses diverse ensemble genetic programming[J]. Artificial Intelligence in Medicine,2006,36(1):43-58.
[7]Breiman L. Random forest[J]. Machine Learning,2001,45(1):5-32.
[8]Alam M S,Vuong S T. Random forest classification for detecting android malware[C]. Green Computing and Communications.2013:663-669.
[9]Silke Janitza,Carolin Strobl,Anne-Laure Boulesteix.
An AUC-based permutation variable importance measure for
randomforest[J]. BMC Bioinformatics,2013,14(1):119-130.
[10]Peter Harrington. Machine learning in action[M]. Beijing:PTPRESS,2013.127-133.
基金項目:國家自然科學基金資助項目(11471218)。
(作者單位:趙迎、何華任職于河北工業大學;吳超任職于中國人民銀行天津分行)