結合代價敏感與集成算法的個人信用評估模型

2022-04-24 03:21:22張怡羅康洋謝曉金

軟件導刊 2022年4期

張怡，羅康洋，謝曉金

（1.上海工程技術大學數理與統計學院，上海 201620；2.華東師范大學數據科學與工程學院，上海 200062）

0 引言

隨著貸款消費的不斷發展，個人信用評估已成為銀行等金融機構密切關注的熱點。截至2019年9月底，國民貸款消費達到13.34萬億元，同比增長17.4%。2019年底突然爆發的新冠肺炎疫情給全球經濟增長帶來嚴重沖擊，社會秩序面臨巨大挑戰。面對較多的不確定性，迫切需要加強金融風險監測評估，關注金融風險邊際變化，積極穩妥防范化解金融風險。目前中小微企業遭受不同程度的沖擊，不少雇員面臨降薪甚至失業的風險，貸款償還能力大大削弱，金融風險壓力凸現。因此，對個人信用風險進行評估以便及時采取有效的規避措施，降低信用風險帶來的金融危機隱患顯得尤為重要。

個人信用評估是通過挖掘個人信用的指標數據與失信狀態之間的關聯關系構建模型，從而評估個人的信用風險。文獻［2-6］介紹了目前國內外主要的個人信用評估模型，包括專家評分模型、統計評分模型和機器學習模型；嚴鴻和等從知識工程的基本思想出發，分析了專家評分過程中的非線性規劃模型，用以確定權系數；文獻［4］針對數據集特征變量進行主成分分析，使降維后的變量無相關性，再對其進行稀疏貝葉斯分類，得出PCA-SBL具有更高的分類性能的結論；Ma等針對個人信用評估問題，在隨機森林、LightGBM和支持向量機3個分類器上進行加權投票組合，獲得了良好的分類精度；Shen等提出一種集成優化模型用于個人信用風險評估。針對個人信用數據類不平衡問題，基于代價敏感的改進算法應運而生。文獻［7］介紹了基于集成隨機森林（RF）、GBDT算法和XGBoost三種算法建立的個人信用評估模型，并依據相關多元評價指標對個人信用評估進行對比研究；文獻［8］介紹了基于代價敏感的改進算法。

以上方法都未研究離散型和連續型并存使算法運行性能降低的問題，以及不平衡數據導致模型的整體預測性能不高問題。為此，本文提出一種結合代價敏感和集成算法的分類模型，改進了大樣本不平衡數據的分類性能，有效解決了離散型和連續型數據并存的問題，提高了個人信用評估效果。

1 相關理論

1.1 集成型特征選擇算法

特征選擇指從全部特征出發，選擇符合一定評價條件的最佳特征子集，從而降低特征維度，減少模型擬合訓練的復雜性。本文利用特征分箱將連續型數據離散化，借助去不平衡思想設計集成型特征選擇算法，將每個特征的信息價值（Information Value，IV）、互信息、信息增益和基尼指數累加后進行排序，篩選出最優子集，從而對類不平衡和屬性雜糅的個人信用數據進行有效的特征選擇。

1.1.1 基于IV的特征選擇

在監督學習中WOE（Weight of evidence，WOE）是自變量的一種編碼形式。假設

（

）是第

箱中少（多）數類樣本占所有少（多）數類樣本的比例，則第

箱的WOE值為：

其中，

和

分別為第

箱中累積失信用戶和累積信用良好用戶的數量，

和

分別為所有失信用戶和所有信用良好用戶的數量。

IV指信息數據的價值，即：

IV常用于對不同特征的預測能力進行評估，IV越大，則該特征的預測準確度越高。但當IV大于0.5時，有過擬合的風險。

基于IV的特征選擇步驟為：1使用Best-KS分箱將連續型數據離散化；2對離散化后的數據進行WOE編碼；3結合每個分箱及其對應的WOE計算IV，并將其作為特征選擇的指標之一。文獻［12］介紹了針對連續型特征的分箱操作，包括等頻、等距和Best-KS最優分箱。等頻和等距分箱在不平衡數據中存在易偏向多數類的局限，因此本文采用Best-KS最優分箱算法。

1.1.2 基于互信息的特征選擇

信息熵是消除不確定性所需信息量的度量，在圖像處理、人工智能、數據挖掘等領域應用廣泛。對于任意的特征變量

，信息熵為：

其中，

(

)，

=1，2，...，

，下同。互信息本質是兩個隨機變量統計相關性的測度，通常用于特征和類別之間的測度。對于任意的特征變量

和類別

，互信息為：

其中，

(

)，

(

，

)，

=1，2，...，

，

=1，2，...，

。

(

；

)越大，特征

的分類能力越強，反之，其分類能力越弱。在不平衡數據問題中，基于互信息的特征選擇容易傾向于多數類。

1.1.3 基于信息增益率的特征選擇

信息增益率是互信息與特征信息熵之比。在分類判別中，其信息增益率為：

(

，

)越大，其分類能力越強，反之，則分類能力越弱。信息增益率可以克服互信息偏向取值較多一方的弊端，但是其不足之處在于可能存在偏向取值較少一方的隱患。

1.1.4 基于基尼指數的特征選擇

基尼指數是隨機檢測樣本被錯分的最大概率，旨在刻畫特征的不純度，其定義如下：

Gini

(

)越小，則特征的不純度越低，特征越好。基尼指數在一定程度上可以規避互信息和信息增益率的兩種偏向誤差，從而最小化錯誤率。

1.2 基于代價敏感的異質集成分類模型

傳統的分類模型在分布均衡的數據集上呈現出較好的分類性能，但在不平衡數據集中，由于多數類樣本遠大于少數類樣本，故容易傾向于多數類而忽略少數類的貢獻。在不平衡數據問題中，人們更多地關注少數類的影響。因此，從算法層面建立少數類和多數類之間的錯分矩陣，構建基于代價敏感的分類模型具有實際意義。

1.2.1 代價敏感

代價敏感指在二分類問題上將一類樣本誤分為另一類樣本所產生的損失，可有效規避重采樣技術中可能造成多數類中重要信息丟失或少數類過擬合現象的缺陷。假設

和

分別表示少數類樣本和多數類樣本數量，則少數類和多數類的錯分代價分別為：

例如，在個人信用評估中，失信用戶是需要重點關注的對象。針對分類器對失信用戶錯分的代價遠大于對信用良好用戶錯分代價的問題，本文給予失信用戶更高的錯分代價，即式（7）中Cos

遠大于Cos

。

1.2.2 異質集成分類模型

（1）Bagging集成算法。根據算法屬性是否一致，集成模型劃分為同質集成模型和異質集成模型。將基學習器之間依賴關系分為強依賴關系和弱依賴關系。強依賴關系的代表算法是Boosting系列算法，而弱依賴關系的代表算法是Bagging、隨機森林等算法。對于噪聲較大的數據集，隨機森林容易陷入過擬合。本文基于Bagging思想構建集成模型，其算法流程如圖1所示。

Fig.1 Bagging algorithm flow圖1 Bagging算法流程

（2）基于L1和彈性網邏輯回歸的基模型。通常借助正則化思想來降低二元邏輯回歸模型的過擬合風險，即在基于極大似然估計得到的損失函數中加入正則項。常用的正則化包括L1正則化、L2正則化和彈性網正則化，對應的損失函數分別為：

其中，

為懲罰項系數，

為常數系數，

為目標變量

和輸入特征

的關系矩陣。由式（8）—式（10）可知，L1—邏輯回歸和彈性網-邏輯回歸相比L2—邏輯回歸，既可降低傳統邏輯回歸模型的過擬合風險，又能對特征全集進行篩選以簡化模型。

綜上，本文將邏輯回歸模型（包含文獻介紹了：L1—邏輯回歸和彈性網—邏輯回歸）、貝葉斯模型、決策樹模型和神經網絡模型作為基模型構建異質集成模型，有助于規避單一基模型分類性能的偶然性，提高模型的泛化能力。

1.3 動態加權投票策略

集成模型的投票策略包括相對多數投票法、絕對多數投票法和加權投票法，本文對加權投票法進行改進以實現動態選取滿足精度條件的弱學習器。主要思想為：在正式投票之前，自動過濾預測精度低于隨機猜想的弱學習器，并將剩余的弱學習器利用式（11）進行加權投票，以確定最終的分類結果：

1.4 模型建立

本文通過集成IV、互信息、信息增益率和基尼指數的特征選擇算法生成最優特征子集，并以L1—邏輯回歸、彈性網—邏輯回歸、貝葉斯、決策樹和神經網絡作為基模型構建個人信用評估分類模型，如圖2所示。

Fig.2 Personal credit assessment classification model combining cost sensitive and integrated algorithm圖2 結合代價敏感和集成算法的個人信用評估分類模型

2 實證分析

2.1 數據描述與預處理

本文數據來自Kaggle官網的Give Me Some Credit數據集，主要描述個人消費類信用卡貸款數據。由表1可知，該數據集有離散型和連續型數據并存特點。其中，失信客戶（少數類）和信用良好客戶（多數類）分別為10 026個和139 975個，屬于不平衡數據集。

Table 1 Feature attribute description表1 特征屬性描述

在預處理數據時，首先計算各自變量的缺失比，小于5%者刪除對應樣本，大于5%者使用均值插補法補全，得到少數類和多數類樣本分別為8 357個和111 912個；其次，為了消除不同量綱對特征的影響，采用極大極小歸一化法對數據進行標準化處理；最后，將數據集按8：2劃分為訓練集和測試集。

2.2 實驗設置

采用原始特征集、基于mRMR特征選擇算法以及集成型特征選擇方法構建個人信用評估分類模型，對比其使用性能來驗證本文集成模型的有效性，具體通過python代碼編程實現。

2.2.1 異質集成分類模型

mRMR是常見的特征選擇算法之一，它同時考慮了特征間的冗余性以及特征與目標變量的相關性，即選擇與目標類別相關性最大、特征之間冗余性最小的特征子集。

假設特征集

中的第

個特征用

表示，則

與類別

之間最大相關最小冗余的度量方法如下：

其中，

(

，

)和

(

，

)分別表示特征

與類別

和特征

之間的相關性度量。

2.2.2 參數設置

為克服誤分類造成的代價敏感問題，多次調參后引入類權重參數class_weight。若迭代次數太少會導致模型不收斂，故設置max_iter=10 000。更多參數設置見表2。

Table 2 Integrated classification model parameter settings表2 集成分類模型參數設置

2.2.3 性能評價指標

在個人信用評估研究中，金融機構更加關注的是少數類樣本的預測準確度。在不平衡數據問題中，對少數類和多數類的整體分類精度是衡量模型優劣的重要標志。下面基于混淆矩陣構建評價模型性能指標，如表3所示。

Table 3 Confusion matrix表3 混淆矩陣

其中，TP表示少數類樣本預測正確的數量，FN表示少數類樣本預測錯誤的數量，FP表示多數類樣本預測錯誤的數量，TN表示多數類樣本預測正確的數量。少數類樣本召回率

、多數類樣本召回率

、少數類樣本查準率

、綜合分類預測能力G-means和少數類分類精確度Fvalue的定義分別表示如下：

考慮到少數類和多數類樣本的總體預測性能，Gmeans值越大說明模型綜合分類的預測性越強，可整體反應模型對不平衡數據的分類性能。F-value考慮了少數類樣本的召回率和查準率，能全面反映少數類樣本的分類精度，其值越大表明模型對于少數類樣本的識別能力越強。

2.3 個人信用數據集實驗結果與分析

在原始特征集中基于mRMR特征選擇算法和基于集成型特征選擇算法篩選出的特征子集見表4。從表4可以看出，無論從特征之間相關性、冗余性還是重要性角度，表4中的7個特征都與個人信用評估密切相關。

Table4 mRMR feature subset and integrated feature subset表4 mRMR特征子集與集成型特征子集

續表

分別將兩組特征子集的對應數據作為集成模型的輸入，預測結果如表5所示。

Table 5 Integrated model and prediction results based on mRMR model and existing literatures表5 集成型模型與基于mRMR模型和已有文獻預測結果（%）

由表5可知，本文模型和基于mRMR特征選擇構建的模型評價指標均優于基于原始特征全集模型評價指標。事實上，相比基于原始特征全集構建的模型，本文模型的G-means和F-value分別提升8%和18%，而基于mRMR特征選擇算法構建模型的性能均提升1%，可見本文模型的分類效果較mRMR特征選擇算法模型有大幅提高。此外，與文獻［23］的實證結果相比，

降低了11.94%，

增加了15.43%，G-Means、F-value和AUC的性能分別提升10.76%、21.07%和0.64%。

的增加是以犧牲多數類樣本的正確預測為代價，這表明代價敏感算法和集成特征選擇算法的結合有效降低了多數類的影響，增強了少數類的重要性，從而提升了不平衡數據整體的分類效果，但AUC指標提升較小。

3 結語

本文提出一種結合代價敏感和集成算法的異質集成個人信用評估分類模型。首先借助Best-KS分箱將連續型數據離散化；然后利用IV、互信息、信息增益率和基尼指數集成特征選擇算法；接著基于代價敏感構建L1邏輯回歸、彈性網邏輯回歸、貝葉斯、決策樹和神經網絡基模型；最后通過G-means賦權，實現動態加權投票策略。實證結果表明，本文模型的預測性能優于基于原始特征集以及利用mRMR特征選擇后構建的個人信用評估分類模型，具有一定的魯棒性。

利用本文模型將二分類問題推廣至多分類問題方案以進一步提高模型分類性能是未來的研究方向。