郭建山 錢軍浩



摘? 要:近些年信用卡的違約情況呈現逐年上升的趨勢,使商業銀行面臨嚴重的經營風險,商業銀行若想在信用卡業務中獲得利潤,必須控制信用卡的違約率。關于信用卡違約的研究主要圍繞信用評級展開,鑒于傳統單一分類器預測模型擬合不足或過擬合的缺陷,提出改進后的隨機森林預測模型,并在實證分析中與KNN、邏輯回歸、決策樹和GBDT相比較。模型提高了信用卡違約識別率,降低了違約風險,對提高商業銀行的風險管控能力具有積極意義。
關鍵詞:信用卡違約;邏輯回歸;GBDT;ROC曲線;隨機森林
中圖分類號:TP391? ? ? 文獻標識碼:A 文章編號:2096-4706(2020)03-0001-05
Abstract:In recent years,the default situation of credit cards has been increasing year by year,which makes commercial Banks face serious operational risks. If commercial banks want to gain profits from credit card business,they must control the default rate of credit cards. The research on credit card default mainly focuses on credit rating. In view of the deficiency or over fitting of the traditional single classifier prediction model,an improved stochastic forest prediction model is proposed and compared with KNN,logistic regression,decision tree and GBDT in the empirical analysis. The model improves the credit card default recognition rate and reduces the default risk,which is of positive significance to improve the risk control ability of commercial Banks.
Keywords:credit card default;logistic regression;GBDT;ROC curve;random forest
0? 引? 言
隨著近些年我國金融體制的改革發展以及支付方式的變革,信用卡在支付領域扮演著越來越重要的角色。從中國信用卡行業市場現狀可以發現,信用卡累計發卡量以及信用卡人均持卡量逐年增長,與此同時,信用卡應償信貸余額以及授信使用率也在逐步提高,這也導致消費額和透支額的擴大,不可避免地會產生一定的風險。因此,如何有效地利用信用卡用戶產生的數據,通過數據挖掘找到降低違約風險的方法,顯得尤為重要。
對于信用卡違約的研究,比較常用的方法是建立信用評分模型,也就是根據過去的用戶信貸記錄、個人信息以及是否違約情況,來預測將來是否會違約。國外對于這方面的研究較早也比較成熟,早在1999年,Brause[1]等就提出了將關聯規則和神經網絡結合起來預測信用卡欺詐,2018年,Mohamad Jeragh和Mousa AlSulaimi[2]研究了一種基于自動編碼器和支持向量機(OSVM)相結合的新型無監督學習模型,效果也得以改善。國內關于這方面的研究起步較晚,不過發展迅速。2004年鄒權[3]采用決策樹和邏輯回歸進行分析和評分,以此對接受的申請者給出不同的信用政策,2018年張雙全[4]在傳統智能算法的基礎上結合模糊集理論、平均影響值法和支持向量機技術,得出改進的智能算法——IFBPNN模型,結論表明該模型相比傳統模型預測效果更好。
縱觀當前的研究現狀,違約預測模型評估通常采用單一的分類器,較容易出現過擬合問題,擬合效果不是很理想。本文通過研究學習曲線,從樹的數量、最大深度、葉節點最小樣本數和最佳分割時的特征數4個方面,改進傳統的隨機森林模型,并與K近鄰算法(KNN)、邏輯回歸、決策樹(CART)和梯度提升決策樹(GBDT)這4種單一擬合效果較好的算法相比較分析,研究發現改進后的模型相比其他模型效果較好,提高了用戶信用卡違約預測的精度和識別率,某種程度上對提高商業銀行的風險管控能力具有積極意義。
筆者所學專業為計算機技術,研究方向為數據挖掘,在當前學習階段主修機器學習、人工智能等方面的課程,并有一定的實踐基礎,與本文涉及到的研究方法相關,希望對該方面的研究有一定貢獻。
1? 隨機森林預測模型
1.1? 算法原理
基本思想:隨機森林算法的基本思想基于集成學習(ensemble),也就是使用一系列學習器進行學習,并使用某種規則整合各學習結果,從而獲得比單個學習器更好的學習效果的一種機器學習方法。通過取長補短,克服了一些算法的局限性。
隨機森林算法的基本原理主要基于Bootstrapping中的Bagging。首先利用Bootstrap抽樣方法從原始數據集中抽取M個樣本,然后在每個樣本上訓練分類器ai(x),建立M個決策樹模型,再對每個單獨分類器的輸出取均值形成組合分類器,最后進行投票預測決定最終分類結果[5],即a(x)=? ,如圖1所示。
1.2? 算法流程
1.2.1? 使用隨機子空間方法構建集成模型
(1)設樣本數為n,特征維度數為d,模型數目為M。
(2)對于每個模型m,選擇特征數dm (3)對每個模型m,通過在整個d特征集合上隨機選擇dm個特征創建一個訓練集。 (4)訓練每個模型。 (5)通過組合M個模型的結果,將生成的整體模型應用于新數據中。 1.2.2? 構建N棵樹的隨機森林算法 (1)對每個k=1,…,N,生成Bootstrap樣本Xk。 (2)在樣本Xk上創建一棵決策樹[6]bk。 (3)根據設定的標準選擇最佳的特征維度。根據該特征分割樣本以創建樹的新層。重復這一流程,直到樣本用盡。 (4)創建樹,直到任何葉節點包含的實例不超過nmin個,或者達到特定深度。 (5)每次分割,首先從d個原始特征中隨機選擇m個特征,接著只在該子集上搜索最佳分割。 最終的分類器為:a(x)=,m=,nmin= 1。 1.2.3? 隨機森林的參數 本文采用scikit-learn庫中的RandomForestClassifier類,用到的參數如下: n_estimators:隨機森林中樹的數量; max_depth:隨機森林中樹的最大深度; min_samples_leaf:隨機森林葉節點的最小樣本數; max_features:尋找最佳分割時的特征數。 2? 隨機森林預測模型的實證分析 本文采用臺灣某銀行用戶信用卡數據集進行實證研究,通過多種機器學習算法分析比較,以此得出最后的結論。 2.1? 數據預處理 該數據集共有30 000條樣本,包含24個變量。前23個輸入變量描述用戶信息特征,最后一個輸出變量描述用戶次月違約情況,“0”表示履約,“1”表示違約。其中有10個變量為分類數據,14個變量為數值型數據,變量描述如表1所示。 該數據集中“X3”教育水平變量包含14個缺失值;“X4”婚姻狀態變量包含54個缺失值;“X12”中9月賬單結算金額為負數時表示有存款結余無需還款,這種情況不存在違約的可能性,但樣本卻顯示違約的數量有109個,此類數據為無效數據應舍去。經過前期處理后得到的實際樣本數為29 823條。 本文將預處理后的樣本數據隨機劃分為兩部分,其中70%作為訓練集訓練模型,剩下30%作為測試集測試模型的效果。 2.2? 實證結果分析 2.2.1? 特征選擇 由于輸入變量較多,但并不是每個變量都有助于模型的訓練預測,反而有可能因為相關性降低模型的有效性,因此需要先進行特征選擇[7],剔除重要性較低的變量。 本文通過調用SelectKBest包,采用F評分和P值兩個指標,對23個輸入變量的重要性進行評分,根據Support選出重要性較高的前10個變量:“X1”“X6”“X7”“X8”“X9”“X10”“X11”“X18”“X19”“X21”,如表2所示。 本文利用GBDT對選取的10個變量進行重要性分析,排名如圖2所示。 2.2.2? 模型評估 本文主要分析比較5種分類模型,分別是KNN、邏輯回歸、決策樹、GBDT和隨機森林,均在Python中實現。本文采用的模型評估[8]度量指標為Accuracy、F1_score和ROC曲線。 在KNN中,通過循環遍歷數組,得出正確率較高的K值為14;在邏輯回歸算法中,找到最佳正則化系數C為0.1,并以此驗證學習曲線;在決策樹算法中,分割標準選擇更優的Gini系數,通過參數調優,得出最大深度為3,最佳分割時的特征數為7;在GBDT算法中,損失函數選擇最小二乘(LS)回歸,學習速率為0.1,最大深度為7,并作出特征重要性排名;在隨機森林算法中,分割標準選擇更優的Gini系數,通過改進樹的數量、改進樹的最大深度,改進樹的葉節點最小樣本數和改進最佳分割時的特征數4個方面,找到該算法的最佳參數,分別為100、5、20、8。 本文通過特征選擇,劃分數據集,建立了相應的評分模型,并訓練模型,最后對30%的測試集進行了評估,正確率(Accuracy)和F1值(F1_score)對比如表3所示。 通過對比可以看出,決策樹、GBDT、隨機森林以及改進隨機森林模型正確率都在0.800 0以上,但改進隨機森林模型較高一些,除了KNN模型的F1值較低之外,其余的均較接近。因此改進隨機森林模型擬合效果較好。 在二元分類問題中,一般設定預測為正的正樣本為TP,預測為正的負樣本為FP,預測為正的負樣本為FN,預測為負的負樣本為TN。準確度為Accuracy,精確度為Precision,召回率(即靈敏度)為Recall,精確度和召回率的調和平均為F1_score,在F1_score計算公式中,Precision簡稱P,Recall簡稱R。具體公式如下: 根據圖3的曲線,樹的數量達到100時正確率較高,一般來說樹的數量越多擬合效果越好,但達到一定程度時泛化性能會降低,也可能出現過擬合的情況,因此取100較為合適。根據圖4的曲線,由于特征變量較多,應限制樹的最大深度,當最大深度為5時,正確率最高,擬合效果也較好。根據圖5的曲線,樹的葉節點最小樣本數達到20時正確率較高,如果再增大可能會出現偏差,取20較為合適。根據圖6的曲線,當構建決策樹達到最優模型時,最大特征數為8正確率最高,擬合效果也較好。通過改進原有的隨機森林模型,使正確率提高了0.200 0。
ROC曲線(即受試者工作特征曲線)是指在特定條件下,根據一系列不同的二分類方式(分界值或決定閾值),以假正率(False Positive Rate)為橫坐標,以真正率(True Positive Rate)為縱坐標,反映敏感性與特異性關系的曲線。ROC曲線越靠近左上角,模型的查全率就越高。各個算法對應的ROC曲線如圖7所示。
由圖7可知,相比其他模型,改進隨機森林模型的ROC曲線較光滑,沒有出現過擬合的情況,AUC(即圖例中的area,指曲線與坐標軸圍成的面積,也就是曲線下方面積。)[10]的值較高,曲線下方面積較大,正確率較高,模型的預測效果較好。
通過Accuracy、F1_score和ROC曲線三個度量指標綜合對比,可以看出決策樹類的預測效果較好,決策樹類中改進后的隨機森林模型預測效果最佳,可以認為改進隨機森林模型比其他單一分類器模型具有更好的預測效果。
3? 結? 論
在當前銀行市場,信用卡用戶的管理至關重要,充分利用過去的客戶借貸記錄,挖掘客戶違約的特征信息,有助于提高銀行對違約客戶的識別能力。本文從數據集出發,首先對數據集進行前期處理,其次通過特征選擇選取重要性較高的變量,在各個算法中對參數進行調整,最后采用Accuracy、F1_score和ROC曲線3個指標進行模型效果的評估。通過對比可以看出,雖然改進隨機森林模型的F1值不是最高的,但跟其他模型相接近,同時改進隨機森林模型的正確率最高,ROC曲線效果最好。可以得出結論,改進隨機森林模型相比其他模型擬合效果更好,違約風險預測效果更佳。
當然在研究中也發現了不少問題,比如月度賬單結算金額和月度支付金額變量存在大量為空的數據,是否應該對這些數據進行處理;主要的分類變量有性別、教育水平和婚姻狀態,是否可以考慮增加諸如收入水平或住房情況等個人信息;各種算法的變量復雜,參數調整是否達到了最優程度等等。相信這些問題在之后的研究中會得到解決。
在未來的研究中,將會嘗試更多不同的機器學習算法,應用集成學習的思想,組合單一的分類器,對現有的模型加以改進,適當提高算法復雜度,考慮并行化和樣本權重,以期實現更好的預測效果。
參考文獻:
[1] BRAUSE R,LANGSDORF T,HEPP M. Neural data mining for credit card fraud detection [C]// Tools with Artificial Intelligence,1999. Proceedings. 11th IEEE International Conference on,1999:103-106.
[2] JERAGH M,ALSULAIMI M. Combining Auto Encoders and One Class Support Vectors Machine for Fraudulant Credit Card Transactions Detection [C]// 2018 Second World Conference on Smart Trends in Systems,Security and Sustainability (WorldS4),London,England:2018:178-184.
[3] 鄒權.基于數據挖掘的信用卡申請者信用評分模型研究[D].成都:西南財經大學,2004.
[4] 張雙全.基于改進智能算法的信用卡客戶違約預測研究 [D].長春:長春工業大學,2018.
[5] 余以勝.基于隨機森林的用戶行為識別模型研究 [J].電腦知識與技術,2017,13(7):156-157.
[6] KUMAR M. S,SOUNDARYA V,KAVITHA S,et al. Credit Card Fraud Detection Using Random Forest Algorithm [C]// 2019 3rd International Conference on Computing and Communications Technologies (ICCCT),Chennai,India:2019:149-153.
[7] XIE Y,LIU G,CAO R,et al. A Feature Extraction Method for Credit Card Fraud Detection [C]// the 2ndIEEE International Conference on Intelligent Autonomous Systems(ICoIAS2019),Singapore,2019:70-75.
[8] MITTAL S,TYAGI S. Performance Evaluation of Machine Learning Algorithms for Credit Card Fraud Detection [C]// 2019 9th International Conference on Cloud Computing,Data Science & Engineering (Confluence),Noida,India:2019:320-324.
[9] MACHADO M. R,KARRAY S,SOUSA I. T. LightGBM:an Effective Decision Tree Gradient Boosting Method to Predict Customer Loyalty in the Finance Industry [C]// 2019 14th International Conference on Computer Science & Education (ICCSE),Toronto,ON,Canada:2019:1111-1116.
[10] GOY G,GEZER C,GUNGOR V. C. Credit Card Fraud Detection with Machine Learning Methods [C]// 2019 4th International Conference on Computer Science and Engineering (UBMK),Samsun,Turkey:2019:350-354.
作者簡介:郭建山(1995.11-),男,漢族,福建莆田人,碩士研究生,研究方向:數據挖掘。