999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于不平衡數據的個人信貸違約測度探索

2021-03-17 09:49:52
集美大學學報(自然科學版) 2021年1期
關鍵詞:評價模型

郭 暢

(安徽大學經濟學院,安徽 合肥 230601)

0 引言

信貸風險一直是商業銀行不可避免的信用風險之一,然而信用風險管控對風險評級模型有較高的要求,2019年來,隨著數字普惠金融模式“開放銀行+”的推進,帶來了個人、小微信貸業務的提升[1]。此時,隨著數據量的快速增多,如何對抗不平衡數據的弊端,建立更加精確的信用風險違約預測模型,降低商業銀行所遭受的客戶信貸風險,在當今金融科技浪潮下更凸顯其重要意義。信貸違約預測的目標是提前預知哪些客戶更傾向于違約。然而違約事件的發生是少數的,收集到的信貸數據往往呈現出正負樣本分布不平衡的結構。常用的機器學習算法往往建立在訓練集各個類別數目分布比例大致均等的假設上[2-3],而在非平衡數據集中的表現一般較差。因此,如何處理不平衡的信貸數據集對風控模型精度的提升顯得尤為重要。

隨著人工智能第三次浪潮來襲,以神經網絡、支持向量機和集成方法為首的機器學習算法越來越多地涌入信用風險評估領域。陳力[4]通過綜合不同的采樣方法,并結合集成學習算法和模型評價指標構建新的算法模型RHSBoost,將“數據”和“算法”兩個方面結合來對銀行信用評級的不同數據集進行分類預測并得到了不錯的效果。古平等[5]在結合“數據”和“算法”的層面上提出AdaBoost-SVM-MSA算法,按照一定規則將SVM分錯的樣本劃分為噪聲樣本、危險樣本、安全樣本三種類型,然后直接刪除噪聲樣本,取安全樣本進行SMOTE過采樣,顯著提高了模型分類準確率。董路安等[6]在文獻[5]的基礎上,運用“安全樣本”消除噪聲干擾,并將Weight-SMOTE方法應用于決策樹模型中,提升了信用評級模型的可解釋性,但對正負樣本均進行同原數據比例的SMOTE抽樣卻忽略了信用評估數據的不平衡結構。李毅等[9]分別采取過采樣[7]、欠采樣[7]、SMOTE人工合成[8]的三種方法得到三個數據集,對處理后的三個數據集分別建立三個機器學習模型,并與未處理數據的三種模型結果進行對比試驗,得出過采樣結合隨機森林模型評估的結果高于其他模型。陳啟偉等[10]從欠抽樣方法入手,從多數類樣本中反復抽取和少數類樣本量已知的樣本組成多個子數據集,對多個數據子集建立模型并采用簡單平均集成得到較好的預測性能。然而,文獻[7-9]未討論現有欠抽樣方法上的改進效果,文獻[10]未從子模型個數和模型評價效果方面進行研究。

結合上述文獻的不足,本文同時從“數據”的修正和“算法”的改進入手,選擇UCI真實業務場景的30 000條記錄23個指標的臺灣客戶信用卡信貸數據,將“數據”和“算法”兩個層面改進的Batch-US-RF集成模型、Batch-US-Xgboost集成模型與Batch-US處理后的單模型、未經Batch-US處理的單個集成模型,與單模型進行對比,并研究模型在不平衡信用卡信貸數據上的違約預測效果。

1 方法與模型

1.1 Batch-US-集成模型

批量欠采樣(Batch-US)是基于隨機欠采樣(random under sample)方法造成的多數類樣本信息缺失的改進,它對多數類樣本采取多次欠采樣,再和少數類樣本組合成一系列新樣本,來消除由于信息缺失帶來的分類器分類效果不穩定的缺陷。首先,使用欠采樣將多數類樣本劃分為多個部分,其中每部分與少數類樣本數相同;接著,將這些數據和所有少數類樣本組成新的子集;然后,對不同的訓練子集建立差異化的集成模型;最后,將每折交叉驗證的預測集預測其概率并進行簡單算數平均后再組合。算法的整體結構見圖1所示,其中本文訓練的子模型分別選擇隨機森林和Xgboost,將所有子模型的輸出概率的平均作為分類結果輸出。

輸入: 數據集D={(xi,yi),i=1,2,…,N,yi∈{0,1}}。0類(多數類)樣本數記為Nm,1類(稀有類)樣本數記為Ns,有Nm+Ns=N。

算法步驟:

1)將數據集D中的0類樣本和1類樣本分別記為Sm和Ss,k=ceil(Sm/Ss)進一取整;

2)forj=1,2,…,k,do;

3) 從1~(Ns-i+1)中隨機抽樣,取出對應序號的樣本x′;

4) 在類0樣本中取出所選樣本Ss=Ss-x′;

5) 隨機欠采樣后的數據集{Dj′=(xi,yi),i=1,2,…,N-Ss·RS/(RS+1),j=1,2,…,k,yi∈{0,1}},RS表示采樣比率;

6) 對每個Dj′訓練一個子模型,記hj(x);

7)end for;

1.2 子模型確定

1.2.1 隨機森林模型

集成學習模型有兩個重要的方面——基于Bagging的集成模型和基于Boosting的集成模型。基于Bagging的集成模型是將多個有差異的分類器取平均,能夠解決一定程度上的模型不穩定問題。隨機森林(random forest,RF)作為典型的Bagging類模型,可和采樣技術結合被用于解決類不平衡問題。本文就是利用樣本采樣技術構造平衡隨機森林[11],并對隨機森林的預測結果再次組合。

隨機森林是基于Bagging的集成學習方法,它采用bootstrap自助抽樣從數據集中抽取多個子樣本,對抽樣后的子樣本分別建立具有差異性的CART決策樹模型(每個模型隨機選取m個特征,本文選擇使模型誤差最小的m),最后對每個分類器的預測結果進行組合,組合方法采用多數表決(投票法),算法的流程如圖2所示。

1.2.2 極限梯度提升模型

基于Boosting的集成模型Xgboost[12]使用貪心算法和加法模型,每次構建一個當下最優的樹模型,將所有樹模型的最終結果求和作為最終的預測結果。其優點在于GBDT算法的求解采用了二階梯度,并加入了正則化項,由于樹模型容易過擬和,因此通過同時控制模型損失函數和模型復雜度得到更優結果。模型的原理和推導見文獻[10]。當基模型同樣選擇樹模型時算法的流程如圖3所示。

2 研究設計

2.1 指標類型

本文數據源于UCI機器學習網站(http://archive.ics.uci.edu/)公布的臺灣客戶信用卡信貸數據集,3萬條樣本數據包括來自三個方面用戶信息的23個指標數據。其中:正常客戶占數據的77.88%,違約客戶占22.12%;人口統計學特征的用戶基本屬性信息指標包括性別、年齡、教育程度、婚姻狀況等4個變量;金融特征的借貸相關信息指標包括月還款情況、月賬單、月支付金額等19個字段。由于數據存在錯誤值和離群值。對數據進行簡單預處理后,具體的數據說明見表1。

表1 變量說明表

續表

2.2 模型建立與評價

2.2.1 評價指標

對于本文正負樣本比例約3.5∶1的不均衡的數據集,傳統的基于準確率的模型評價指標已經不再適用[13-14]。基于此,本文選取F1指標和ROC曲線下面積AUC來評價模型的預測精度,用KS值(kolmogorov smirnov)[15]檢測實際風控模型的好壞。KS取值越接近1則模型區分度越高,預測能力越強。模型評價指標由表2混淆矩陣計算得出,指標計算公式為:查準率P=NTP/(WTP+NFP);查全率R=NTP/(NTP+NFN);F1=2×precision×recall/(precison+recall)。

表2 二分類結果混淆矩陣Tab.2 Confusion matrix of classification results真實情況Actual預測結果Predict0類Class 01類Class 10類Class 0TN(正負例)FP(假正例)1類 Class 1FN(假負例)TP(真正例)

2.2.2 模型建立和評估

由表1變量說明可見,本文選用的客戶信用卡信貸數據間量綱差別較大,需要對數據進行標準化處理。本文為了更好地進行模型評估,增強模型穩定性,對每個模型分別進行5折交叉驗證(模型如表3所示)。對于本文不平衡的信用卡信貸數據,經閾值調優,對未經平衡處理的數據閾值設定為0.45,處理后的數據閾值設定為0.55。

表3 模型類型及名稱Tab.3 Model type and name模型類型Model type模型名稱Model name單模型Single modelDTLRKNN單個集成模型Single ensemble modelRFXgboost單模型Batch-US-集成Single model Batch-US-EnsembleBatch-US-DTBatch-US-KNNBatch-US-LR集成模型Batch-US-集成Ensemble model Batch-US-EnsembleBatch-US-RFBatch-US-Xgboost

由于樹模型容易過擬和,本文對選擇的每個樹模型進行參數調優(見表4),并在Batch-US模型集成過程的Rstudio中構建ovun.sample隨機欠采樣函數,通過設置seed隨機種子的不同,對每一折交叉驗證數據構建多個隨機欠采樣子樣本,得到多個平衡子樣本,再加上參數調節,使每個子模型更具差異性,從而增加集成模型的泛化能力。其中對Batch-US改進的模型分別構建10個差異性的子模型。

表4 樹模型調優參數及范圍

本文對文獻[10]中的評價指標進行改進,基于準確率對不平衡數據的缺陷,選擇用F1值衡量模型精度,用AUC值評估模型的優劣,用KS值衡量模型的穩健性和風控能力。將10個模型經五折交叉驗證后的預測指標平均,匯總至表5。

表5 模型結果匯總

由表5模型結果可知,不管是單模型還是集成模型,在通過本文的Batch-US批量欠采樣集成后,在F1值、AUC值和KS值3個評價指標上都有明顯的提升。在本身就較優的集成模型上更能進一步提升模型的表現能力。Batch-US-RF模型的F1值、AUC值和KS值分別比改進前提高了3.57%、1.29%、1.61%;Batch-US-Xgboost模型的F1值、AUC值和KS值分別比改進前提高了7.11%、0.4%、0.66%。Batch-US-集成模型的精度衡量指標F1值和AUC值都是10個模型中最優的,并且觀察其區分度指標KS值也大于0.4且排名在10個模型中前三,說明模型風控能力較好。

表5評價指標結果均為本模型數量選擇k=10的結果。為了進一步研究子模型數量是否對模型精度造成影響,本文將兩個Batch-US-集成模型通過設定子模型數量k為10,20,…,110時的模型評價效果繪制學習曲線,如圖4、圖5所示。

由圖4、圖5可知,Batch-US-Xgboost模型通過增加子模型數量,其F1值和AUC值在一開始的確有一個上升幅度,但是隨著模型不斷增多,這三個評價指標均先趨于穩定而后隨子模型個數上升甚至出現輕微下降趨勢。Batch-US-RF模型通過增加子模型數量,其AUC值在一開始的確有一個上升幅度,但是隨著子模型不斷增多AUC值趨于穩定;其F1值在前60個模型的整體趨勢不斷上升,但是在60個子模型后圍繞一個固定值波動(認為其趨于穩定)。因此,子模型數量并非越多越好,兩個Batch-US-集成模型的子模型數量在60個左右能夠取得AUC和F1指標的較優和模型較穩定的結果。

3 結論

本文使用UCI臺灣客戶信用卡信貸數據,分別對數據進行單模型、集成模型和Batch-US處理后建模。由表5可以看出,基于欠采樣改進的Batch-US-集成模型的建模結果明顯優于處理之前的數據建模結果。由于在風控模型中千分之一的精度改變帶來的影響也是巨大的,對不平衡數據的處理具有較大意義,本文進行Batch-US集成后模型的確提升了模型預測效果,且Batch-US-集成模型總能表現出更好結果。

該系列模型從“數據”層面使用批量欠采樣處理修正了隨機欠采樣的弊端,從“算法”層面對多個模型采用簡單平均集成增加了分類器的穩定性。通過實證分析,結合模型評價指標,驗證了Batch-US-RF和Batch-US-Xgboost模型不管從模型精度、綜合效果方面還是從實際風控效果方面都具有較高的表現能力,尤以Batch-US-Xgboost模型有效性和精度最高。本文通過繪制不同子模型個數和模型評價指標的學習曲線,得出結論:對于Batch-US-集成模型并非子模型數量越多越好,子模型的數量可以根據模型復雜度和不同評價指標的傾向性進行選擇。

猜你喜歡
評價模型
一半模型
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
中藥治療室性早搏系統評價再評價
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
基于Moodle的學習評價
關于項目后評價中“專項”后評價的探討
保加利亞轉軌20年評價
主站蜘蛛池模板: 亚洲欧美日韩色图| 最新精品久久精品| 国产精品99一区不卡| a级毛片在线免费| 国产美女丝袜高潮| 内射人妻无套中出无码| 国产玖玖视频| 久久国产精品电影| 国产美女无遮挡免费视频网站| 国产美女精品在线| 99视频在线免费| 日韩av在线直播| 亚洲精品国产综合99| 97在线视频免费观看| 最新午夜男女福利片视频| a欧美在线| 99无码中文字幕视频| 99免费视频观看| 91久草视频| 国内精品九九久久久精品| 精品免费在线视频| 91国内视频在线观看| 亚洲日韩精品无码专区97| 欧美高清三区| 欧洲一区二区三区无码| 永久免费av网站可以直接看的| 久久婷婷五月综合97色| 人人爽人人爽人人片| 欧美黑人欧美精品刺激| 亚洲香蕉久久| 亚洲欧美不卡中文字幕| 欧美亚洲另类在线观看| 国产成人精品综合| 午夜毛片免费观看视频 | 米奇精品一区二区三区| 久热中文字幕在线观看| 91久久国产综合精品女同我| 欧美午夜在线观看| 日韩精品一区二区三区免费在线观看| 国产中文一区a级毛片视频 | 一区二区三区在线不卡免费| 欧美精品高清| 日韩精品中文字幕一区三区| 无码一区二区波多野结衣播放搜索| 在线国产资源| 国产乱子伦无码精品小说| 尤物精品视频一区二区三区| 国产成+人+综合+亚洲欧美| 久久国产V一级毛多内射| 亚洲日本中文综合在线| 91麻豆精品视频| 亚洲动漫h| 欧洲av毛片| av在线人妻熟妇| 亚洲第一区欧美国产综合| 国产精品视频白浆免费视频| 亚洲成a人片7777| 国产精品无码一二三视频| 亚洲免费成人网| 亚洲国产看片基地久久1024| 欧美日韩国产成人高清视频| 中文字幕在线日韩91| 国产精品无码AⅤ在线观看播放| 91精品国产无线乱码在线| 手机在线看片不卡中文字幕| 激情综合激情| 91福利免费| av无码久久精品| 亚洲日韩精品综合在线一区二区| 国产青青草视频| 亚洲色图欧美视频| 精品一区二区久久久久网站| 亚洲日本中文字幕乱码中文| 久久黄色小视频| 国产精品香蕉在线| 无码乱人伦一区二区亚洲一| 精品久久久久久成人AV| 亚洲国产中文在线二区三区免| V一区无码内射国产| 日本在线欧美在线| 久久综合五月| 久久久久久久蜜桃|