999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost的催收評分模型研究

2019-04-19 08:51:16高姣
科學與技術 2019年13期
關鍵詞:風險管理

高姣

摘要:催收管理是信貸風險管理工作的最后一道屏障,是防范信貸風險的重要手段,對保障信貸資產安全有著十分重要的作用。催收評分模型是目前國際先進銀行提升信用卡催收管理能力的主要依據,可以實現自動化的客戶細分,能在較低的成本下保持較好的回收水平。本文通過對債務人基本人口特征、信用歷史記錄和行為活動等數據進行分析,采用XGBoost建立催收評分模型,實現對客戶更為準確的分類,對有早期逾期行為的債務人進行提醒,降低風險并維護客戶關系。

關鍵詞:風險管理;催收評分模型;信用評分;XGBoost

1 引言

通過對國內外研究現狀進行分析,在貸后催收管理[1]中,當前針對催收信用模型所采用的數據挖掘算法主要以決策樹、神經網絡、Logistic回歸三大類算法為主[2-3]。

2 背景技術

決策樹:決策樹方法是一種非參數統計方法[4-5],以樹的形式表示目標變量與預測變量之間的關系,樹中每個節點表示預測變量,每個節點的分叉表示預測變量的不同取值,每個葉子節點代表不同路徑對應的預測值[6]。實際應用時,把新數據映射到某一個葉節點,并根據計算平均值的方式得出當前數據屬于某一類別的概率值。

圖1 決策樹示意圖

神經網絡:神經網絡是一種模仿人腦信息加工過程的智能化信息處理技術,具有自組織性、自適應性以及較強的穩健性,在結構上神經網絡劃分為輸入層、輸出層和隱含層[7-8]。輸入層的每個節點對應一個預測變量,從而全部的預測變量一起組成一個多維特征向量。輸出層的節點對應目標變量,可有多個。在信用評分場景里,輸出層的物理含義表示違約與否,所以是一個二值離散變量。通過無監督式的參數預訓練,結合監督式的參數優化來構建信用風險評價模型。神經網絡能夠很好地處理那些數據結構不太清楚的情況,預測精度相較于其他方法也比較高。

圖2 神經網絡示意圖 圖3 Logistic回歸示意圖

Logistic回歸:作為廣義線性判別統計分析技術之一,Logistic回歸需要目標變量是分類變量[9-10]。目標變量的物理含義表示違約與否,是一個二值離散變量。運用特征選擇的方法,從全部特征變量中選取與當前的目標變量最相關的一些特征變量,并且優化目標函數,得到模型參數。

決策樹模型屬于判別式分類器,能擬合任意非線性分類函數,但是容易發生過擬合;神經網絡模型搭建復雜,不容易對預測結果進行直觀解釋,另外,網絡訓練過程中,可能會陷入局部最小值點,導致無法收斂,訓練效率不高[11];Logistic回歸屬于線性分類器,所以需要嚴格挑選出跟目標變量最相關的特征變量,一旦目標變量與預測變量之間存在非線性關系,就會影響分類的效果,并且logistic回歸要求預測變量之間不能存在強相關關系,否則可能會使得預測結果誤入歧途。

3 XGBoost原理介紹

XGBoost[12]全名叫(eXtreme Gradient Boosting)極端梯度提升,是一種通用的Tree Boosting集成學習算法[13]。集成學習本身不是一個單獨的機器學習算法,而是通過構建并結合多個機器學習器來完成學習任務,使組合后的模型具有更強的泛化能力。

XGBoost的弱學習器使用CART回歸樹模型,通過多輪迭代,每輪迭代產生一個弱分類器,每個分類器在上一輪分類器的殘差基礎上進行訓練,具體過程如下:首先使用訓練集和樣本真值y訓練一棵樹,然后使用這棵樹模型預測訓練集,得到每個樣本的預測值 ,由于預測值 與真值y存在偏差,所以二者相減可以得到“殘差”;接下來訓練第二棵樹,此時不再使用真值,而是使用殘差作為擬合值來訓練;兩棵樹訓練完成后,可以再次得到每個樣本的殘差,然后進一步訓練第三棵樹,以此類推;樹的總棵數可以人為指定,也可以監控某些指標(例如驗證集上的誤差)來停止訓練。

4 數據預處理

4.1 數據準備

構建模型的第一步是獲得合適的數據。本文建模時所采用的數據集是一家小貸公司的真實信貸審批數據。該數據集包含了客戶在向小貸公司提出貸款申請時所提供的個人信息如性別、年齡、身份證信息等基本人口特征,經客戶授權后獲取的第三方信用歷史記錄數據,以及客戶的貸后行為活動等數據。建模數據集共提取了23.6萬個客戶信用信息,其中每個客戶包含109個屬性(預測變量)和1個目標變量label:

好客戶是指貸款后可以按時還款的客戶,壞客戶是指貸款后不會按時還款的違約客戶。

4.2 數據清洗

數據清洗的目的是解決數據的質量問題。因為數據建模的成功與否,將很大程度上取決于數據的質量。而現實生活中收集的信用數據一般存在噪聲數據、冗余數據、稀疏數據和空缺數據,并且表達形式多樣化,不利于進一步的數據挖掘。為提高挖掘結果的精度和有效性,在構建信用評分模型之前,必須要對數據進行清洗。

在實際中數據集最普遍的問題是數據缺失情況嚴重,處理缺失數據,首先需要分析缺失值產生的原因:

(1)因為客戶不愿透露個人信息而未填寫,例如:一位客戶沒有填寫他的婚姻狀況,這種缺失的信息也包含著數據價值。

因為APP版本等產品迭代,后期的產品中新引入某些特征,這類特征老客戶是缺失的,例如:產品更新的一版中加入了“學歷”特征,老客戶的這個特征是無法獲取的。

(2)缺失數據的處理是數據清洗過程中的重要工作,考慮到缺失值隱含的數據價值,如果直接刪除會丟失信息,所以可以將缺失數據單獨看做一類客戶處理或者做衍生變量處理,如對于“職業”缺失的數據,可以做一個變量“職業是否缺失”。

數據清洗的另一種情況是極端值的處理,通常的做法是對離群點做截斷處理,或者根據領域專家建議的特定值來代替。

4.3 數據規范化

原始數據的形式可能不利于數據分析,因此需要對數據進行規范化處理。對于離散型數據,如果類別過多需要將某些類別做合并處理。因為類別過多會造成數據過于稀疏,從而影響建模效果。然后將離散變量做啞變量處理,轉化成模型可以識別的數據格式,例如對性別做如下處理:

由于XGBoost算法屬于樹模型,可以不做數據標準化處理。

4.4 特征衍生

在建模過程中需要一些顯著性較高的特征來達到提升模型效果的作用,一般會從現有數據中結合業務需求構造出一些特征。如根據原有數據字段通過加減乘除等操作生成新的字段:

(1)單一變量的基礎轉換,如通過對單一變量進行平方、開根號、log轉換或指數轉換等。

(2)通過添加時間維度進行衍生,如:近3個月借貸平臺個數、手機入網時長、近3個月征信報告查詢次數等。

多變量的運算,兩個變量相加、相乘或變量間計算一個比率后得到新變量,如:平均借款金額、額度使用率等

5 建立模型

5.1 數據抽樣

本文將建模數據集隨機的拆分為兩部分訓練集和驗證集。在訓練集上擬合模型,獲得模型參數,并在驗證集上對模型進行校驗。如果模型在訓練集和驗證集上的效果差別大,意味著模型穩定性差或者有過度擬合發生。本文將數據集的70%用做訓練集,30%用作驗證集。

5.2 特征篩選

特征篩選是從原始特征中找出最有效的特征,這種做法的目的是降低數據冗余,減少模型計算,找出更有意義的特征。XGBoost模型的一個優點是可以直接得到每個特征的重要性得分。一般來說,重要性分數衡量了特征在模型中的價值。

特征重要性是通過對數據集中的每個特征進行計算,并進行排序后得到的。在單個決策樹中通過每個特征分裂點改進性能度量的量來計算特征重要性,由節點負責加權和記錄次數。也就說一個特征對分裂點改進性能度量越大、權值越大,被越多提升樹所選擇,特征越重要。性能度量可以是選擇分裂節點的Gini純度,也可以是其他度量函數。最終將一個特征在所有提升樹中的結果進行加權求和后做平均,得到重要性得分。一個特征越多的被用來在模型中構建決策樹,它的重要性就相對越高。

5.3 建立模型

根據XGBoost的features_importance(特征重要性)篩選出65個特征進行建模,優化目標函數,用網格搜索法調整參數。

6 模型效果評估

6.1 模型評估指標

6.1.1 KS

KS是使用同一評分標尺下,累計好客戶百分比與壞客戶百分比的最大差距。通常評分越低客戶表現越壞,而評分越高客戶的表現越好。如果評分區分好壞客戶的能力越高,KS就會越高。理論上KS的取值在0-100%之間,常見的評分模型KS的取值范圍多在25%-70%之間。

6.1.2 ROC與AUC

ROC曲線就是通過在0-1之間改變用于創建混淆矩陣的閾值,繪制分類準確的違約記錄比例與分類錯誤的正常記錄比例。AUC值為ROC曲線所覆蓋的區域面積,AUC越大,分類器分類效果越好。

6.1.3 PSI

PSI(Population Stability Index)叫做群體穩定性指標,用于衡量兩組樣本的評分是否有顯著差異。PSI = sum(實際占比-預期占比)*ln(實際占比/預期占比)。通過如下標準來判斷評分的穩定性:

6.2 XGBoost模型實際效果評估

在訓練集上ROC達到91.97%,KS達到66.39%,說明模型有良好的區分能力,分類效果良好。在驗證集上ROC達到91.01%,KS達到64.01%,且ROC和KS在兩個數據集上的變化小于5%,說明所開發的催收評分模型有效,不存在過擬合。

6.3 模型穩定評估

XGBoost催收評分模型穩定性結果如下:

由結果可知,PSI=0.0017,小于0.1,模型評分結果穩定,XGBoost催收評分模型很穩健。

6.4 模型效果比較

綜合來看,四種模型中XGBoost模型的預測能力和區分度是最好的,并且是較為穩定的。

7 結語

本文采用數據挖掘技術,運用XGBoost算法,經過數據采集、數據清洗、特征衍生、特征篩選后建立催收評分模型。從模型最終效果來看,XGBoost催收評分模型是不錯的選擇。該模型訓練集和驗證集的區分能力比較高且差距不大,模型比較穩健。此外,XGBoost模型可解釋性比較強,訓練效率比較高。在貸后管理中可以應用XGBoost催收評分模型的評分結果對客戶進行差異化的催收策略,提高回款率,保障信貸資產安全。

參考文獻

[1]呂楠.淺談信用卡的催收管理[J].財經界(學術版),2008(1).

[2]朱德志,梁世棟,黃亮,etal.催收評分技術及其在個人信貸催收管理中的應用[J].中國信用卡,2010(6):26-30

[3]朱曉明,劉治國.信用評分模型綜述[J]. 統計與決策,2007(2):103-105.

[4]CrowdProcess,Inc.Machine Learning in Credit Risk Modeling[Z].NY,USA:CrowdProcess Inc.,2017.

[5]朱毅峰,孫亞南.精煉決策樹模型在個人信用評估中的應用[J].統計教育,2008(1):5-7.

[6]呂曉丹,范宏.基于決策樹的信用評價模型及實證研究[J].市場周刊(理論研究),2013(8):80-83.

[7]Vincenzo Pacelli,Michele Azzollini. An Artificial Neural Network Approach for Credit Risk Management[J].Journal of Intelligent Learning Systems and Applications,2011,3(3):103-112.

[8]Eliana Angelini,Giacomo di Tollo,Andrea Roli.A Neural Network Approach for Credit Risk Evaluation[J].Kluwer Academic Publishers,2006.

[9]范若愚[等].大數據時代的商業建模[M].上海:上海科學技術文獻出版社出版,2013.

[10]蘇誠.基于Logistic回歸模型的商業銀行信用風險評估研究[J].中國城市經濟,2011(12):72-72.

[11]申華.基于數據挖掘的個人信用評分模型開發[D].廈門大學,2009.

[12]Chen T,Guestrin C.XGBoost:A Scalable Tree Boosting System[J].2016.

[13]Chen T.Introduction to Boosted Trees[J].2014.

(作者單位:中國人民大學)

猜你喜歡
風險管理
探討風險管理在呼吸機維護與維修中的應用
對企業合規風險管理的思考
房地產合作開發項目的風險管理
商周刊(2018年23期)2018-11-26 01:22:28
財務會計風險管理研究
消費導刊(2018年10期)2018-08-20 02:57:02
護理風險管理在冠狀動脈介入治療中的應用
我國商業銀行風險管理研究
當代經濟(2015年4期)2015-04-16 05:57:02
發達國家商業銀行操作風險管理的經驗借鑒
現代企業(2015年6期)2015-02-28 18:52:13
本地化科技翻譯的風險管理
審判風險管理初探
風險管理在工程建設中的應用
主站蜘蛛池模板: 萌白酱国产一区二区| 国产成人精品优优av| 欧美色图第一页| 国产精品短篇二区| 精品第一国产综合精品Aⅴ| 国产欧美日韩资源在线观看| 91在线中文| 亚洲国产精品无码AV| 国产欧美日本在线观看| 天天色综网| 超碰91免费人妻| 国产精品三级专区| 中文字幕中文字字幕码一二区| 亚洲天堂免费| 日韩小视频网站hq| 2020最新国产精品视频| 国产小视频a在线观看| 亚洲AV无码不卡无码| 免费毛片视频| 国产成人精品在线1区| 国产小视频a在线观看| 亚洲妓女综合网995久久 | 波多野结衣无码视频在线观看| 影音先锋亚洲无码| jizz在线免费播放| 久久精品一品道久久精品| 国产剧情伊人| 老司机精品99在线播放| 日韩专区第一页| 色精品视频| 依依成人精品无v国产| 欧美日韩免费在线视频| 国产在线视频二区| 国国产a国产片免费麻豆| 欧美日韩国产综合视频在线观看| 天堂亚洲网| 性欧美在线| 四虎成人在线视频| 伊人久久久久久久久久| 永久免费无码日韩视频| 美女高潮全身流白浆福利区| 欧美福利在线| 99精品在线视频观看| 国产免费好大好硬视频| 久久人妻系列无码一区| 日韩第八页| 久久永久精品免费视频| 久久精品无码中文字幕| 欧美日韩成人| 天天综合网站| 91福利片| 激情无码视频在线看| 在线国产91| 亚洲Av激情网五月天| 国产微拍一区二区三区四区| 爱色欧美亚洲综合图区| 久久99国产精品成人欧美| 国产黑丝视频在线观看| 亚洲综合天堂网| 香蕉99国内自产自拍视频| 亚洲免费成人网| 青青青国产精品国产精品美女| 亚洲国产一成久久精品国产成人综合| 亚洲第一视频免费在线| 欧美中日韩在线| 无码国内精品人妻少妇蜜桃视频| 国产精品第5页| 中文字幕不卡免费高清视频| 波多野结衣一二三| 99青青青精品视频在线| 成人日韩视频| 亚洲成肉网| 在线观看无码av免费不卡网站| 亚洲视频欧美不卡| 99久久精品免费看国产电影| 免费在线a视频| 无码AV日韩一二三区| 国模视频一区二区| 欧美一区二区福利视频| 伊人AV天堂| 97久久免费视频| 亚洲欧洲日韩国产综合在线二区|