基于XGBoost的催收評分模型研究

2019-04-19 08:51:16高姣

科學與技術 2019年13期

高姣

摘要：催收管理是信貸風險管理工作的最后一道屏障，是防范信貸風險的重要手段，對保障信貸資產安全有著十分重要的作用。催收評分模型是目前國際先進銀行提升信用卡催收管理能力的主要依據，可以實現自動化的客戶細分，能在較低的成本下保持較好的回收水平。本文通過對債務人基本人口特征、信用歷史記錄和行為活動等數據進行分析，采用XGBoost建立催收評分模型，實現對客戶更為準確的分類，對有早期逾期行為的債務人進行提醒，降低風險并維護客戶關系。

關鍵詞：風險管理；催收評分模型；信用評分；XGBoost

1 引言

通過對國內外研究現狀進行分析，在貸后催收管理[1]中，當前針對催收信用模型所采用的數據挖掘算法主要以決策樹、神經網絡、Logistic回歸三大類算法為主[2-3]。

2 背景技術

決策樹：決策樹方法是一種非參數統計方法[4-5]，以樹的形式表示目標變量與預測變量之間的關系，樹中每個節點表示預測變量，每個節點的分叉表示預測變量的不同取值，每個葉子節點代表不同路徑對應的預測值[6]。實際應用時，把新數據映射到某一個葉節點，并根據計算平均值的方式得出當前數據屬于某一類別的概率值。

圖1 決策樹示意圖

神經網絡：神經網絡是一種模仿人腦信息加工過程的智能化信息處理技術，具有自組織性、自適應性以及較強的穩健性，在結構上神經網絡劃分為輸入層、輸出層和隱含層[7-8]。輸入層的每個節點對應一個預測變量，從而全部的預測變量一起組成一個多維特征向量。輸出層的節點對應目標變量，可有多個。在信用評分場景里，輸出層的物理含義表示違約與否，所以是一個二值離散變量。通過無監督式的參數預訓練，結合監督式的參數優化來構建信用風險評價模型。神經網絡能夠很好地處理那些數據結構不太清楚的情況，預測精度相較于其他方法也比較高。

圖2 神經網絡示意圖圖3 Logistic回歸示意圖

Logistic回歸：作為廣義線性判別統計分析技術之一，Logistic回歸需要目標變量是分類變量[9-10]。目標變量的物理含義表示違約與否，是一個二值離散變量。運用特征選擇的方法，從全部特征變量中選取與當前的目標變量最相關的一些特征變量，并且優化目標函數，得到模型參數。

決策樹模型屬于判別式分類器，能擬合任意非線性分類函數，但是容易發生過擬合；神經網絡模型搭建復雜，不容易對預測結果進行直觀解釋，另外，網絡訓練過程中，可能會陷入局部最小值點，導致無法收斂，訓練效率不高[11]；Logistic回歸屬于線性分類器，所以需要嚴格挑選出跟目標變量最相關的特征變量，一旦目標變量與預測變量之間存在非線性關系，就會影響分類的效果，并且logistic回歸要求預測變量之間不能存在強相關關系，否則可能會使得預測結果誤入歧途。

3 XGBoost原理介紹

XGBoost[12]全名叫（eXtreme Gradient Boosting）極端梯度提升，是一種通用的Tree Boosting集成學習算法[13]。集成學習本身不是一個單獨的機器學習算法，而是通過構建并結合多個機器學習器來完成學習任務，使組合后的模型具有更強的泛化能力。

XGBoost的弱學習器使用CART回歸樹模型，通過多輪迭代，每輪迭代產生一個弱分類器，每個分類器在上一輪分類器的殘差基礎上進行訓練，具體過程如下：首先使用訓練集和樣本真值y訓練一棵樹，然后使用這棵樹模型預測訓練集，得到每個樣本的預測值，由于預測值與真值y存在偏差，所以二者相減可以得到“殘差”；接下來訓練第二棵樹，此時不再使用真值，而是使用殘差作為擬合值來訓練；兩棵樹訓練完成后，可以再次得到每個樣本的殘差，然后進一步訓練第三棵樹，以此類推；樹的總棵數可以人為指定，也可以監控某些指標（例如驗證集上的誤差）來停止訓練。

4 數據預處理

4.1 數據準備

構建模型的第一步是獲得合適的數據。本文建模時所采用的數據集是一家小貸公司的真實信貸審批數據。該數據集包含了客戶在向小貸公司提出貸款申請時所提供的個人信息如性別、年齡、身份證信息等基本人口特征，經客戶授權后獲取的第三方信用歷史記錄數據，以及客戶的貸后行為活動等數據。建模數據集共提取了23.6萬個客戶信用信息，其中每個客戶包含109個屬性（預測變量）和1個目標變量label：

好客戶是指貸款后可以按時還款的客戶，壞客戶是指貸款后不會按時還款的違約客戶。

4.2 數據清洗

數據清洗的目的是解決數據的質量問題。因為數據建模的成功與否，將很大程度上取決于數據的質量。而現實生活中收集的信用數據一般存在噪聲數據、冗余數據、稀疏數據和空缺數據，并且表達形式多樣化，不利于進一步的數據挖掘。為提高挖掘結果的精度和有效性，在構建信用評分模型之前，必須要對數據進行清洗。

在實際中數據集最普遍的問題是數據缺失情況嚴重，處理缺失數據，首先需要分析缺失值產生的原因：

（1）因為客戶不愿透露個人信息而未填寫，例如：一位客戶沒有填寫他的婚姻狀況，這種缺失的信息也包含著數據價值。

因為APP版本等產品迭代，后期的產品中新引入某些特征，這類特征老客戶是缺失的，例如：產品更新的一版中加入了“學歷”特征，老客戶的這個特征是無法獲取的。

（2）缺失數據的處理是數據清洗過程中的重要工作，考慮到缺失值隱含的數據價值，如果直接刪除會丟失信息，所以可以將缺失數據單獨看做一類客戶處理或者做衍生變量處理，如對于“職業”缺失的數據，可以做一個變量“職業是否缺失”。

數據清洗的另一種情況是極端值的處理，通常的做法是對離群點做截斷處理，或者根據領域專家建議的特定值來代替。

4.3 數據規范化

原始數據的形式可能不利于數據分析，因此需要對數據進行規范化處理。對于離散型數據，如果類別過多需要將某些類別做合并處理。因為類別過多會造成數據過于稀疏，從而影響建模效果。然后將離散變量做啞變量處理，轉化成模型可以識別的數據格式，例如對性別做如下處理：

由于XGBoost算法屬于樹模型，可以不做數據標準化處理。

4.4 特征衍生

在建模過程中需要一些顯著性較高的特征來達到提升模型效果的作用，一般會從現有數據中結合業務需求構造出一些特征。如根據原有數據字段通過加減乘除等操作生成新的字段：

（1）單一變量的基礎轉換，如通過對單一變量進行平方、開根號、log轉換或指數轉換等。

（2）通過添加時間維度進行衍生，如：近3個月借貸平臺個數、手機入網時長、近3個月征信報告查詢次數等。

多變量的運算，兩個變量相加、相乘或變量間計算一個比率后得到新變量，如：平均借款金額、額度使用率等

5 建立模型

5.1 數據抽樣

本文將建模數據集隨機的拆分為兩部分訓練集和驗證集。在訓練集上擬合模型，獲得模型參數，并在驗證集上對模型進行校驗。如果模型在訓練集和驗證集上的效果差別大，意味著模型穩定性差或者有過度擬合發生。本文將數據集的70%用做訓練集，30%用作驗證集。

5.2 特征篩選

特征篩選是從原始特征中找出最有效的特征，這種做法的目的是降低數據冗余，減少模型計算，找出更有意義的特征。XGBoost模型的一個優點是可以直接得到每個特征的重要性得分。一般來說，重要性分數衡量了特征在模型中的價值。

特征重要性是通過對數據集中的每個特征進行計算，并進行排序后得到的。在單個決策樹中通過每個特征分裂點改進性能度量的量來計算特征重要性，由節點負責加權和記錄次數。也就說一個特征對分裂點改進性能度量越大、權值越大，被越多提升樹所選擇，特征越重要。性能度量可以是選擇分裂節點的Gini純度，也可以是其他度量函數。最終將一個特征在所有提升樹中的結果進行加權求和后做平均，得到重要性得分。一個特征越多的被用來在模型中構建決策樹，它的重要性就相對越高。

5.3 建立模型

根據XGBoost的features_importance（特征重要性）篩選出65個特征進行建模，優化目標函數，用網格搜索法調整參數。

6 模型效果評估

6.1 模型評估指標

6.1.1 KS

KS是使用同一評分標尺下，累計好客戶百分比與壞客戶百分比的最大差距。通常評分越低客戶表現越壞，而評分越高客戶的表現越好。如果評分區分好壞客戶的能力越高，KS就會越高。理論上KS的取值在0-100%之間，常見的評分模型KS的取值范圍多在25%-70%之間。

6.1.2 ROC與AUC

ROC曲線就是通過在0-1之間改變用于創建混淆矩陣的閾值，繪制分類準確的違約記錄比例與分類錯誤的正常記錄比例。AUC值為ROC曲線所覆蓋的區域面積，AUC越大，分類器分類效果越好。

6.1.3 PSI

PSI（Population Stability Index）叫做群體穩定性指標，用于衡量兩組樣本的評分是否有顯著差異。PSI = sum（實際占比-預期占比）*ln（實際占比/預期占比）。通過如下標準來判斷評分的穩定性：

6.2 XGBoost模型實際效果評估

在訓練集上ROC達到91.97%，KS達到66.39%，說明模型有良好的區分能力，分類效果良好。在驗證集上ROC達到91.01%，KS達到64.01%，且ROC和KS在兩個數據集上的變化小于5%，說明所開發的催收評分模型有效，不存在過擬合。

6.3 模型穩定評估

XGBoost催收評分模型穩定性結果如下：

由結果可知，PSI=0.0017，小于0.1，模型評分結果穩定，XGBoost催收評分模型很穩健。

6.4 模型效果比較

綜合來看，四種模型中XGBoost模型的預測能力和區分度是最好的，并且是較為穩定的。

7 結語

本文采用數據挖掘技術，運用XGBoost算法，經過數據采集、數據清洗、特征衍生、特征篩選后建立催收評分模型。從模型最終效果來看，XGBoost催收評分模型是不錯的選擇。該模型訓練集和驗證集的區分能力比較高且差距不大，模型比較穩健。此外，XGBoost模型可解釋性比較強，訓練效率比較高。在貸后管理中可以應用XGBoost催收評分模型的評分結果對客戶進行差異化的催收策略，提高回款率，保障信貸資產安全。

參考文獻

[1]呂楠.淺談信用卡的催收管理[J].財經界（學術版），2008（1）.

[2]朱德志，梁世棟，黃亮，etal.催收評分技術及其在個人信貸催收管理中的應用[J].中國信用卡，2010（6）：26-30

[3]朱曉明，劉治國.信用評分模型綜述[J]. 統計與決策，2007（2）：103-105.

[4]CrowdProcess，Inc.Machine Learning in Credit Risk Modeling[Z].NY，USA：CrowdProcess Inc.，2017.

[5]朱毅峰，孫亞南.精煉決策樹模型在個人信用評估中的應用[J].統計教育，2008（1）：5-7.

[6]呂曉丹，范宏.基于決策樹的信用評價模型及實證研究[J].市場周刊（理論研究），2013（8）：80-83.

[7]Vincenzo Pacelli，Michele Azzollini. An Artificial Neural Network Approach for Credit Risk Management[J].Journal of Intelligent Learning Systems and Applications，2011，3（3）：103-112.

[8]Eliana Angelini，Giacomo di Tollo，Andrea Roli.A Neural Network Approach for Credit Risk Evaluation[J].Kluwer Academic Publishers，2006.

[9]范若愚[等].大數據時代的商業建模[M].上海：上海科學技術文獻出版社出版，2013.

[10]蘇誠.基于Logistic回歸模型的商業銀行信用風險評估研究[J].中國城市經濟，2011（12）：72-72.

[11]申華.基于數據挖掘的個人信用評分模型開發[D].廈門大學，2009.

[12]Chen T，Guestrin C.XGBoost：A Scalable Tree Boosting System[J].2016.

[13]Chen T.Introduction to Boosted Trees[J].2014.

（作者單位：中國人民大學）