999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于邊界自適應SMOTE和Focal Loss函數改進LightGBM的信用風險預測模型

2022-07-29 08:08:46陳海龍楊暢杜梅張穎宇
計算機應用 2022年7期
關鍵詞:分類方法模型

陳海龍,楊暢,杜梅,張穎宇

基于邊界自適應SMOTE和Focal Loss函數改進LightGBM的信用風險預測模型

陳海龍*,楊暢,杜梅,張穎宇

(哈爾濱理工大學 計算機科學與技術學院,哈爾濱 150080)( ? 通信作者電子郵箱hrbustchl@163.com)

針對信用風險評估中數據集不平衡影響模型預測效果的問題,提出一種基于邊界自適應合成少數類過采樣方法(BA-SMOTE)和利用Focal Loss函數改進LightGBM損失函數的算法(FLLightGBM)相結合的信用風險預測模型。首先,在邊界合成少數類過采樣(Borderline-SMOTE)的基礎上,引入自適應思想和新的插值方式,使每個處于邊界的少數類樣本生成不同數量的新樣本,并且新樣本的位置更靠近原少數類樣本,以此來平衡數據集;其次,利用Focal Loss函數來改進LightGBM算法的損失函數,并以改進的算法訓練新的數據集以得到最終結合BA-SMOTE方法和FLLightGBM算法建立的BA-SMOTE-FLLightGBM模型;最后,在Lending Club數據集上進行信用風險預測。實驗結果表明,與其他不平衡分類算法RUSBoost、CUSBoost、KSMOTE-AdaBoost和AK-SMOTE-Catboost相比,所建立的模型在G-mean和AUC兩個指標上都有明顯的提升,提升了9.0%~31.3%和5.0%~14.1%。以上結果驗證了所提出的模型在信用風險評估中具有更好的違約預測效果。

信用風險;不平衡數據;過采樣;LightGBM;Focal Loss

0 引言

互聯網技術的快速發展給傳統金融行業帶來了巨大的影響,網絡借貸就是一項重要的創新成果。由于其靈活、便捷的融資方式,網絡借貸成為了越來越多的人選擇融資的渠道,但是另一方面,信用風險問題也一直制約著網貸平臺的發展,較高的違約率帶來了極大的負面影響[1],因此,建立有效的信用風險預測模型對借貸人的風險控制以及網貸平臺的持續發展具有重大的意義[2]。

近年來,許多基于統計和機器學習的方法被應用于信用風險預測模型中,其中包括邏輯回歸[3]、神經網絡[4]和支持向量機[5]等方法。國內外很多學者的研究證實了這些方法的可行性,但是在研究信用風險評估模型的實際問題中,由于發生貸款違約的樣本相對于正常還款的樣本來說數量很少,因此正負樣本比例極不平衡。利用不平衡的數據集進行模型訓練,將嚴重影響模型的分類性能,得到較差的預測效果[6]。對于解決不平衡數據集的分類問題,可以從數據和算法兩個方面入手:一是利用采樣方法處理數據,解決數據集本身分布不均的現象;二是對傳統分類算法進行改進。

1) 數據層面。比較常見的處理數據集不平衡的方法有欠采樣和過采樣方法[7]。陳啟偉等[8]利用欠采樣方法平衡數據集并與引入參數擾動的集成學習方法相結合建立信用評分模型。該方法雖然改善了由于隨機欠采樣而導致的信息丟失問題,但是對于正負樣本比例失衡比較嚴重的數據集來說,分類效果仍有待提高。Chawla等[9]提出的SMOTE(Synthetic Minority Oversampling TEchnique)方法在一定程度上改善了過擬合的問題。Niu等[10]利用SMOTE方法處理不平衡數據集,驗證了該方法在信用風險評估模型中的有效性。Khemakhem等[11]利用隨機過采樣和合成少數類過采樣方法來解決數據集不平衡問題,結果表明過采樣方法可以提高模型分類的準確率。但是SMOTE方法在生成新樣本的過程中沒有對少數類樣本進行區別選擇,并且容易出現樣本重疊的問題[12]。對此Han等[13]提出了邊界合成少數類過采樣(Borderline Synthetic Minority Oversampling TEchnique, Borderline-SMOTE)算法,改善了樣本重疊的問題。該方法只對處于邊界的少數類樣本進行過采樣,容易造成正負類邊界模糊的問題。Nakamura等[14]提出基于密度的SMOTE改進算法,根據正類樣本的分類密度形成聚類簇來控制新樣本的合成。文獻[15-16]中提出帶多數類權重的少數類過采樣方法結合隨機森林的信用評估模型,與傳統隨機森林和樸素貝葉斯相比得到了更好的預測效果。除此之外,在SMOTE方法的基礎上進行改進的還有ADASYN(ADAptive SYNthetic sampling)[17]方法,該方法根據數據分布情況為每個少數類樣本生成不同數目的新樣本,雖然改進了新樣本的分布情況,但是仍會出現樣本重疊的問題。

2) 算法層面。傳統分類算法在解決不平衡數據的分類問題時存在局限性,為此可以在算法層面上做出改進,主要方法有代價敏感學習以及集成學習方法[18-19]。代價敏感學習解決數據不平衡的方法是增加少數類樣本錯分的懲罰代價,通過優化目標函數使分類模型更關注少數類樣本的分類準確率。而集成學習方法是通過某種方式將多個基分類器集成起來,減少單個分類器對不平衡數據分類形成的誤差,從而提高分類器整體的預測效果。目前大多采用的方法是將集成學習與采樣方法或代價敏感學習方法相結合,陳白強等[20]將錯分損失函數用于集成分類算法中,極大地提高了少數類的分類性能。王俊紅等[21]提出將欠采樣方法和代價敏感相結合的分類算法,提高了在不平衡數據上的分類性能。

基于上述分析,由于對數據過采樣中未考慮樣本分布差異的影響和樣本邊界模糊的問題,以及未考慮分類算法中損失函數對分類效果的影響等問題,本文提出一種基于邊界自適應合成少數類過采樣方法(Borderline Adaptive Synthetic Minority Oversampling TEchnique, BA-SMOTE)和利用Focal Loss函數改進LightGBM (Light Gradient Boosting Machine)損失函數的算法(Focal Loss-LightGBM, FLLightGBM) 相結合的信用風險預測模型,來改善數據不平衡問題對分類效果的影響。該模型從數據和算法兩個方面進行改進,來解決信用風險預測中數據不平衡的問題。在數據方面,利用改進的過采樣方法生成新樣本來平衡數據集;在算法方面利用Focal Loss來改進LightGBM中的損失函數[22],并用改進的分類算法訓練新的數據集得到最終的預測模型。將本文提出的過采樣方法與經典的過采樣方法對比,本文模型和處理不平衡數據的分類模型RUSBoost(Random Under-Sampling with adaBoost)[23]、CUSBoost(Cluster-based Under-Sampling with adaBoost[24]和KSMOTE-AdaBoost(-means clustering SMOTE with AdaBoost)[25]以及AK-SMOTE-Catboost(AllKnn-SMOTE with Catboost)[26]對比,實驗結果表明本文提出的改進模型在信用風險預測中具有較好的分類效果。

1 改進的過采樣方法

1.1 SMOTE算法

SMOTE算法通過少數類樣本和其近鄰的少數類樣本之間進行隨機線性插值來生成新樣本,達到平衡數據集的目的。算法的原理如下:

1) 對于每一個少數類樣本X(=1,2,…,),根據歐氏距離計算出最近鄰的個少數類樣本(1,2,…,Y)。

2) 從個最近鄰樣本中隨機選擇若干個樣本,在每一個選出的樣本Y和原樣本X之間進行隨機線性插值,生成新樣本new。插值方法如式(1)所示:

其中rand(0,1)表示為(0,1)區間的隨機數。

3) 將新生成的樣本加入原數據集中。

SMOTE算法是對隨機過采樣的一種改進方法,它簡單有效,并且避免了過擬合的問題。但是SMOTE算法在生成新的少數類樣本時,只是單一地在同類近鄰樣本間插值,并沒有考慮到少數類樣本附近的多數類樣本分布情況。若新生成的少數類樣本周圍有多數類樣本,則很容易發生重疊的現象,使樣本分類時發生錯誤。

1.2 Borderline-SMOTE算法

Borderline-SMOTE算法是對SMOTE進行改進的一種過采樣方法,它只對處于邊界的少數類樣本利用隨機線性插值的方式生成新樣本。算法步驟如下:

1) 計算每個少數類樣本的個最近鄰樣本。

2) 根據近鄰樣本中多數類樣本的分布情況對少數類樣本進行分類。若個近鄰中都是多數類樣本,則認為該少數類樣本屬于噪聲樣本;若個近鄰中都是少數類樣本,則認為該少數類樣本屬于安全樣本;若個近鄰中多數類樣本個數多于少數類樣本數,則認為該少數類樣本屬于邊界樣本。

3) 對于邊界樣本中的每個少數類樣本,利用SMOTE方法生成新樣本。

1.3 BA-SMOTE算法

相較于SMOTE算法,Borderline-SMOTE算法雖然改善了樣本重疊的問題,但是生成新樣本的方式與SMOTE算法相同,對于每個少數類樣本合成的新樣本數是一樣的,并沒有考慮到樣本差異性帶來的影響;并且當對處于邊界的少數類樣本過采樣時,新生成的樣本也會處于樣本邊界,這樣容易使多數類與少數類的樣本邊界越來越模糊,難以區分。

因此,本文提出一種改進的過采樣方法,將自適應密度分布思想引入Borderline-SMOTE算法中,并且利用新的插值方式生成新樣本來解決上述問題。算法步驟如下:

1) 計算每個少數類樣本的個最近鄰樣本。

2) 若個最近鄰中多數類樣本個數多于少數類樣本數,則將原少數類樣本加入邊界樣本集合中。

4) 對于邊界樣本集合(1,2,…,X)中的每一個少數類樣本,記為X,計算出X的近鄰中多數類樣本的個數,記為N。則近鄰中多數類樣本的占比R如式(2)所示,計算多數類樣本分布情況的總和,記為。

5) 計算出邊界樣本集合中每個少數類樣本X需要合成的新樣本數g,其中r表示少數類樣本X周圍的多數類樣本占比情況。

6) 對處于邊界的少數類樣本X,利用新的插值方式,生成g個少數類樣本。

新的插值方式如下:

1) 從少數類樣本X的近鄰中隨機選擇兩個樣本,記為1、2。若1、2都是多數類樣本,則首先在1、2之間進行線性插值,生成臨時樣本X,再在XX之間進行隨機插值,生成的新樣本new放入少數類樣本集中。

2) 若1為少數類,2為多數類,則生成臨時樣本X和新樣本new的公式為:

其中:用來限制合成區域的大小,0<<1。插值區域如圖2所示,可以看出插值區域仍然靠近少數類樣本。

圖1 第一種插值方式

圖2 第二種插值方式

3) 若1,2都為少數類樣本,則根據式(6)和式(9)生成新樣本。

2 基于Focal Loss改進的LightGBM算法

2.1 LightGBM算法

LightGBM[27]是基于決策樹算法的梯度提升框架,相較于XGBoost(eXtreme Gradient Boosting)算法,速度更快,內存占用率更低。LightGBM的一個優化是利用基于Histogram的決策樹算法,將連續型的特征值離散成個值,并且形成一個寬度為的直方圖。遍歷樣本時,利用離散后的值作為索引在圖中累計統計量,然后通過遍歷直方圖中的離散值尋找最優分割點。

LightGBM的另一個優化是采用帶深度限制的葉子生長方法(leaf-wise)。與按層生長(level-wise)的決策樹生長方法不同的是,leaf-wise方法每次從當前所有葉子中找到分裂增益最大的葉子再進行分裂,可以有效提高精度,同時加入最大深度限制防止過擬合。

LightGBM算法的原理是利用最速下降法,把損失函數的負梯度在當前模型的值當作殘差的近似值,進而擬合出一棵回歸樹;經過多輪迭代,最后將所有回歸樹的結果累加得到最終結果。與GBDT(Gradient Boosting Decision Tree)和XGBoost的節點分裂方式不同的是,先將特征分桶構建直方圖再進行節點分裂計算。對于當前模型的每個葉子節點,需要遍歷所有的特征來找到增益最大的特征及其劃分值,以此來分裂該葉子節點。節點分裂步驟如下:

1) 離散特征值,將全部樣本在該特征上的取值劃分到某一段bin中。

2) 為每個特征構建一個直方圖,直方圖中存儲每個bin中樣本的梯度之和以及樣本數量。

2.2 FLLightGBM算法

Focal Loss被提出是為了解決在目標檢測中樣本不平衡影響分類效果的問題[28-29]。它在標準交叉熵損失函數的基礎上進行修改,在損失函數中調整類別權重和易分類樣本權重及難分類樣本權重來提升模型的分類準確率。交叉熵損失函數如式(11)所示:

其中:表示真實樣本的標簽,表示預測值。

Focal Loss損失函數引入類別權重因子來調節不同類別的樣本的權重大小,∈(0,1),通過增加少數類樣本權重來平衡正負樣本的重要性。引入權重因子后的損失函數變為:

FLLightGBM算法是在LightGBM算法的基礎上引用Focal Loss函數作為其損失函數。它通過調節和的值,更改樣本權重,使模型更關注少數類樣本和難分類樣本,在算法層面上改善樣本類別不平衡問題,進一步提高分類模型的準確率。

3 基于BA-SMOTE和FLLightGBM的分類模型

3.1 隨機森林特征選擇

隨機森林算法[30]構建決策樹時,每次有放回地從數據集中抽取個樣本,共抽取次,其中每次未被抽到的樣本稱為袋外數據(Out Of Bag, OOB)。利用隨機森林算法進行特征選擇時,通過最小袋外數據誤差率準則來度量每個特征的重要性程度。基本思想是對一個特征加入噪聲后,預測準確率會降低,準確率的變化決定了這個特征的重要性程度,并以此為依據對特征進行排序。特征選擇算法如下:

1) 根據組袋外數據計算每棵決策樹的誤差值,記為1(=1,2,…,)。

2) 在其余特征分布不變的情況下,對第個特征添加噪聲干擾,再次計算每棵決策樹的誤差值2(=1,2,…,)。

3) 特征的重要性與前后兩次誤差變化的平均值有關,因此第個特征的重要性如式(14)所示:

3.2 BA-SMOTE方法平衡數據集

對經過特征篩選的訓練集數據利用BA-SMOTE過采樣方法進行數據平衡處理,通過設置值來控制需要合成的少數類樣本總數,根據處于邊界的少數類樣本周圍的多數類樣本分布情況,為每個處于邊界的少數類樣本計算出需要合成的樣本數量,使新樣本的分布更加合理。針對原有插值方式易造成樣本邊界模糊的問題,利用改進的插值方法生成新樣本,通過設置值來調節插值區域大小,使新樣本更靠近原來的少數類樣本,達到區分邊界、易于分類的目的。

算法1 BA-SMOTE算法。

輸入 樣本集,控制合成樣本量的系數,控制插值區域的系數,近鄰值;

輸出 新的樣本集new。

1) 將樣本集分成多數類maj和少數類min

2)=[ ]

3)=[ ]

4)new=[ ]

5) Forinmin:

5.1) 找到的近鄰

5.2) 計算近鄰中多數類樣本數N

5.3) if/2<=N<

.append()

.append(N/)

=+R

6)=(maj-min) *

7)=sum()

8) Forin:

8.1)r=R/

8.2)g=r*

8.3) 找到的近鄰

8.3.1)Foring

1,2=random.choice(,2)

if1∈majand2∈maj:

按照式(6)和式(7)插值,并將樣本加入new中

elif1∈minand2∈min:

按照式(6)和式(9)插值,樣本加入new中

else:

按照式(8)和式(9)插值,樣本加入new中

9)new=∪new

10)Returnnew

3.3 建立模型

本文建立模型首先利用隨機森林算法篩選特征,然后通過BA-SMOTE方法生成新樣本,并加入到原訓練集中來平衡數據集,再利用改進的FLLightGBM分類算法在新的訓練集上根據篩選得到的變量特征進行訓練,最終建立BA-SMOTE-FLLightGBM模型。建模流程如圖3所示,具體實現過程如下:

1) 輸入數據集,對數據集進行預處理,包括對缺失值和異常值的處理,構成新的數據集1。

2) 利用隨機森林算法,根據決策樹誤差值的變化選擇出新的特征集合,形成新數據集2。

3) 在數據集2上應用BA-SMOTE算法合成新的少數類樣本,并加入到原數據集中,構成新數據集3。

4) 利用FLLightGBM分類算法對新數據集3進行訓練,并通過網格搜索算法確定最佳的參數組合進行模型優化,得到最終的分類模型。

5) 用測試集數據進行測試,驗證模型分類效果。

圖3 建模流程

4 實證分析

4.1 數據來源及處理

本文使用的數據來源于Lending Club網貸平臺上2018年第一季度的借貸人數據,選擇前1萬條用戶樣本,其中每條樣本涉及145個字段信息。每一條用戶樣本中包含個人屬性變量和一個目標變量。對于目標變量,有7種狀態,分別是Current(正常還款并且沒到最后一個還款日)、Fully Paid(到期還清)、In Grace Period(處于寬限期)、Late(16~30 d)(逾期了16~30 d)、Late(31~120 d)(逾期了31~120 d)、Charged Off(壞賬)和Default(違約)。定義Current和Fully Paid為“好”用戶,其余狀態為“壞”用戶,將目標變量數值化,用0表示“好”用戶,1表示“壞”用戶。貸款狀態分布如圖4所示,從圖中可以看出數據集屬于不平衡數據,比例約為17∶1,嚴重影響模型分類效果,因此需要對數據集進行不平衡處理。

圖 4 貸款狀態分布

經過對數據集的統計分析后發現,由于P2P網貸平臺沒有收集和用戶未填寫等多種原因,原始數據集中存在部分數據缺失嚴重的情況,其中部分特征全部缺失,部分連續型特征用離散型字符標記。因此在訓練模型前要先進行數據預處理,本文刪除缺失比超過60%的特征,將原本是數值型的字符型特征轉化為數值型。對分類型變量采取特殊值填充法,將空值當作一種特殊的屬性值來處理,所有的空值都用“Unknown”填充。對于數值型變量的缺失值處理采用均值填充法。然后對分類型數據進行獨熱編碼。

4.2 特征選擇

利用隨機森林算法進行特征選擇,經過重要性排序,選取前18個特征進行模型訓練,特征及其重要性如表1所示。

表1特征及其重要性

Tab.1 Features and their importances

4.3 模型評價指標

混淆矩陣也稱誤差矩陣,主要用于比較分類結果和實際測得值。二分類的混淆矩陣如表2所示。

用0表示正類即按時還款,1表示負類即違約。其中(True Positive)表示真實值為0,預測值也為0的樣本數;(False Negative)表示真實值為0,預測值為1的樣本數;(False Positive)表示真實值為1,預測值為0的樣本數;(True Negative)表示真實值為1,預測值也為1的樣本數。

表2混淆矩陣

Tab.2 Confusion matrix

模型評價指標如下。

1) 精確率(Precision)和召回率(Recall)。精確率表示在模型預測為正類的所有結果中,模型預測正確的比例;召回率表示在實際為正類的所有結果中,模型預測正確的比例。

2) 特異度(specificity)。特異度表示在所有負類中模型預測正確的比列:

3) F1值(F1-score)。可以看作是模型精確率和召回率的一種加權平均,它的最大值是1,最小值是0。

4) 幾何平均值(G-mean),可以衡量模型在兩個類別上的平均性能。

5) ROC(Receiver Operating Characteristic)曲線和AUC(Area Under Curve)值。ROC曲線的橫坐標表示假正率(False Positive Rate,),縱坐標表示真正率(True Positive Rate,)。=/(+),=/(+),分別表示為錯當成正實例的負實例占負實例總數的比值和預測正確的正實例占正實例總數的比值。但是用ROC曲線評價分類模型的預測效果不是很直觀,因此引入了AUC值。AUC值表示的是ROC曲線下方和軸上方所形成區域的面積大小,AUC值位于0.5~1。在大于0.5的情況下,AUC值越接近于1表示模型的預測效果越好。

6) KS(Kolmogorov-Smirnov)值。KS值主要驗證模型對違約用戶的區分能力,需要用到和兩個值。KS值在0~1,KS值如果小于0.2表示模型不可用,KS值大于0.3表明模型的區分能力較好。

4.4 實驗結果及分析

4.4.1參數敏感性分析

本文在數據層面提出的BA-SMOTE過采樣方法,需要設置值來控制需要生成的新樣本數量,設置值來調節生成新樣本的插值區域大小。為了評估和的取值對算法結果的影響,選擇LightGBM、XGBoost、GBDT、隨機森林(Random Forest, RF)和邏輯回歸(Logistics Regression, LR)5個分類器模型,利用Lending Club平臺的借貸人歷史數據進行測試,并且用F1-score、G-mean、AUC值和KS值等評價指標評估參數的影響。實驗過程利用PyCharm 2018平臺實現,采用五折交叉驗證的方式,將數據集分成5份,每次選擇其中4份作為訓練集,1份作為測試集,最后結果取平均值。

的取值用來控制采樣倍率,本文設置=0.5和1這兩個取值;的取值控制插值區域,值越大生成的新樣本越容易靠近多數類樣本,造成邊界模糊;值越小生成的新樣本越靠近少數類樣本。雖然有效改善了邊界模糊問題,但更易發生樣本重疊現象。因此設置取值為0.3和0.5。和的取值進行組合,將(,)組合為(0.5,0.3)、(0.5,0.5)、(1,0.3)和(1,0.5)等4組分別進行實驗,近鄰取值為5,實驗結果如表3所示,加粗部分為每組算法中效果最好的值。從表3中評價指標的結果可以看出,當(,)取值為(1,0.5)時,分類器的預測結果更好,也就是正負樣本比例平衡并且插值區域范圍限制在中間部分時,算法更易于區分正負類樣本。

表3不同,下的分類效果對比

Tab.3 Comparison of classification effect under different b, ε

在算法層面提出的FLLightGBM算法中,引入系數和,分別用來調節樣本類別權重和樣本難度權重的大小,以提升模型分類準確率。為了評估和取值對算法結果的影響,設置(,)取值為(0.75,0.2)、(0.5,0.5)、(0.25,1)、(0.25,2)和(0.25,5)幾種參數組合,同樣采用五折交叉驗證的方式,利用G-mean和AUC值作為評價指標,其中橫軸表示(,)的取值情況,結果如圖5所示。從圖中可以看出當(,)的取值為(0.25,2)時G-mean值和AUC值高于其他參數組合的值,表明此時的參數取值對FLLightGBM算法來說具有更好的分類效果。

圖5 不同(α,γ)下FLLightGBM的G-mean值和AUC值

4.4.2改進方法的階段性實驗對比

為驗證本文提出的模型在數據層面和算法層面的改進效果,實驗對原始的LightGBM模型,以及經過采樣處理的BA-SMOTE-LightGBM模型和改進完全的BA-SMOTE-FLLightGBM模型之間進行比較分析。實驗參數依據上述參數分析中的結果,(,)取值為(1,0.5),(,)的取值為(0.25,2),分類模型利用網格搜索算法優化模型參數。各模型的F1-score、G-mean、AUC值和KS值如表4所示。

從表4中的結果可以看出,與原始模型相比,經過數據層面BA-SMOTE過采樣方法處理過的模型和最終改進完全的模型的F1-score變化不大,而G-mean、AUC值和KS值都有明顯提升。其中改進完全的模型的各項指標最高,驗證了本文提出的改進方法的可行性。

表4不同改進方法的階段性實驗對比結果

Tab.4 Phase experimental comparison results of different improvement methods

4.4.3與其他分類模型的實驗對比

為了驗證基于BA-SMOTE和FLLightGBM的信用風險預測模型的分類效果,本文首先與一些經典的過采樣方法和分類算法相結合的模型作比較。其中包括SMOTE、Borderline-SMOTE和ADASYN等過采樣方法,和XGBoost、GBDT、隨機森林以及邏輯回歸等分類算法。在實驗過程中BA-SMOTE方法的參數和設置為=1,=0.5,FLLightGBM算法中參數的取值為0.25,的取值為2,并為其他過采樣方法設置與之相同的采樣倍率,且近鄰值都取為5。模型優化階段利用網格搜索算法優化模型參數。各算法的實驗結果如表5所示,不同過采樣方法的ROC曲線如圖6所示,表5中加粗部分為本文所提模型的評價指標值。

表5不同過采樣方法的實驗結果比較

Tab.5 Experimental results comparison of different oversampling methods

從表5和圖6的結果可以看出,當分類模型相同時,相較于SMOTE、Borderline-SMOTE和ADASYN等3種過采樣方法,本文提出的基于BA-SMOTE方法的分類模型的各項評價指標值都有明顯提升,預測效果更好。說明BA-SMOTE過采樣方法中區別地為邊界少數類樣本生成不同數目的新樣本以及更靠近少數類樣本的插值方式,在一定程度上避免了生成新樣本的盲目性,有效地提高了樣本的分類準確率。從表5還可以看出,采用同樣的過采樣方法處理不平衡數據時,相較于XGBoost算法、GBDT算法、隨機森林算法和邏輯回歸算法來說,基于FLLightGBM算法的分類模型的預測效果更好。其中本文提出的BA-SMOTE-FLLightGBM模型的各項評價指標均取得了較高值,與其他過采樣方法和FLLightGBM算法相結合的模型相比,AUC值最高提升了7.2%,G-mean最高提升了22.1%,KS值最高提升了22.4%,證實了本文提出的基于BA-SMOTE和FLLightGBM的信用風險預測模型的有效性。

圖6 不同過采樣方法的ROC曲線

為進一步證明所提模型的有效性,將本文模型與針對不平衡數據分類的改進算法RUSBoost、CUSBoost、KSMOTE-AdaBoost和AK-SMOTE-Catboost進行比較。設置本文模型中BA-SMOTE方法的參數為=1,=0.5,FLLightGBM算法的參數為=0.25,=2。各算法的F1-score、G-mean、AUC值和KS值如表6所示,ROC曲線如圖7所示。

表6所提模型與其他不平衡分類算法的結果比較

Tab.6 Results comparison among the proposed model and other imbalanced classification algorithms

從表6和圖7中的結果可以看出,相較于其他處理不平衡數據的分類算法,本文提出的改進模型的準確率更高,分類性能更好。與RUSBoost算法相比,本文算法的優勢更加明顯,可能由于隨機欠采樣方法的不確定性影響了RUSBoost算法的分類性能。而與CUSBoost算法、KSMOTE-AdaBoost算法和AK-SMOTE-Catboost算法相比,本文算法在4個評價指標值上均有提升,尤其在G-mean值、AUC值和KS值上提升明顯。這是由于CUSBoost算法是利用欠采樣方法處理不平衡數據,而欠采樣方法對于正負樣本比例極不平衡的數據集來說,難以提升分類效果;而KSMOTE-AdaBoost算法和AK-SMOTE-Catboost算法中仍存在樣本邊界模糊的問題,影響了模型的分類效果。通過與上述算法的比較,可以證實本文模型在數據不平衡的信用風險預測中具有較好的分類效果。

圖7 不同不平衡分類算法的ROC曲線

為了進一步驗證本文模型在其他數據集上的有效性,選擇UCI數據庫中的German數據集進行實驗。該數據集包含1 000個樣本,每個樣本有21個屬性特征,正負樣本比例為7∶3。利用German數據集,將本文模型與其他針對不平衡數據分類的算法RUSBoost、CUSBoost、KSMOTE-AdaBoost和AK-SMOTE-Catboost進行比較分析。其中本文模型的BA-SMOTE方法的參數設置為=1,=0.5,FLLightGBM算法的參數設置為=0.25,=2。實驗采用五折交叉驗證的方式,各個算法的F1-score、G-mean、AUC值和KS值如表7所示。

表7German數據集上的算法比較結果

Tab.7 Comparison results of algorithms on German dataset

從表7的結果可以看出,本文模型在4個評價指標上都取得了最高值。這也可以證實在German數據集上,相較于其他處理不平衡數據的分類算法,本文模型具有更好的信用風險預測效果。

5 結語

信用風險問題一直制約著網貸平臺的發展,一個有效的信用風險預測模型是研究的重點。在實際的研究中數據集不平衡問題嚴重影響著模型分類效果,為此本文從數據和算法兩個方面提出改進方法。在數據方面,通過BA-SMOTE過采樣方法平衡數據集,考慮了樣本分布差異的影響并改善了樣本邊界模糊的問題;在算法方面,利用Focal Loss損失函數改進LightGBM,提出FLLightGBM分類算法。通過與其他方法的對比實驗,證實了本文模型在信用風險預測中具有更好的預測效果。但是本文提出的模型仍然需要進一步改進,在未來應更關注特征選擇對結果的影響,期望進一步提高分類效果。

[1] 馬曉君,沙靖嵐,牛雪琪. 基于LightGBM算法的P2P項目信用評級模型的設計及應用[J]. 數量經濟技術經濟研究, 2018, 35(5):144-160.(MA X J, SHA J L, NIU X Q. An empirical study on the credit rating of P2P projects based on LightGBM algorithm[J]. The Journal of Quantitative and Technical Economics, 2018, 35(5): 144-160.)

[2] 謝陳昕. P2P網貸平臺借款人信用風險評估模型適應性研究[J]. 武漢金融, 2019(3):23-29.(XIE C X. Research on adaptability of credit risk assessment model for borrowers of P2P online lending platform[J]. Wuhan Finance, 2019(3): 23-29.)

[3] COSTA E SILVA E, LOPES I C, CORREIA A, et al. A logistic regression model for consumer default risk[J]. Journal of Applied Statistics, 2020, 47(13/14/15): 2879-2894.

[4] BEKHET H A, ELETTER S F K. Credit risk assessment model for Jordanian commercial banks: neural scoring approach[J]. Review of Development Finance, 2014, 4(1): 20-28.

[5] WANG T, LI J C. An improved support vector machine and its application in P2P lending personal credit scoring[J]. IOP Conference Series: Materials Science and Engineering, 2019, 490(6): No.062041.

[6] 邵良杉,周玉. 一種改進過采樣算法在類別不平衡信用評分中的應用[J]. 計算機應用研究, 2019, 36(6):1683-1687.(SHAO L S, ZHOU Y. Application of improved oversampling algorithm in class-imbalance credit scoring[J]. Application Research of Computers, 2019, 36(6): 1683-1687.)

[7] GARCíA V, SáNCHEZ J S, MOLLINEDA R A. On the effectiveness of preprocessing methods when dealing with different levels of class imbalance[J]. Knowledge-Based Systems, 2012, 25(1): 13-21.

[8] 陳啟偉,王偉,馬迪,等. 基于Ext-GBDT集成的類別不平衡信用評分模型[J]. 計算機應用研究, 2018, 35(2):421-427.(CHEN Q W, WANG W, MA D, et al. Class-imbalance credit scoring using Ext-GBDT ensemble[J]. Application Research of Computers, 2018, 35(2): 421-427.)

[9] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: Synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16: 321-357.

[10] NIU A W, CAI B Q, CAI S S, et al. Big data analytics for complex credit risk assessment of network lending based on SMOTE algorithm[J] Complexity, 2020, 2020: No.8563030.

[11] KHEMAKHEM S, BEN SAID F, BOUJELBENE Y. Credit risk assessment for unbalanced datasets based on data mining, artificial neural network and support vector machines[J]. Journal of Modelling in Management, 2018, 13(4): 932-951.

[12] 王超學,張濤,馬春森. 面向不平衡數據集的改進型SMOTE算法[J]. 計算機科學與探索, 2014, 8(6):727-734.(WANG C X, ZHANG T, MA C S. Improved SMOTE algorithm for imbalanced datasets[J]. Journal of Frontiers of Computer Science and Technology, 2014, 8(6): 727-734.)

[13] HAN H, WANG W Y, MAO B H. Border-line-SMOTE: a new over-sampling method in imbalanced data sets learning[C]// Proceedings of the 2005 International Conference on Intelligent Computing, LNCS 3644. Berlin: Springer, 2005: 878-887.

[14] NAKAMURA M, KAJIWARA Y, OTSUKA A, et al. LVQ-SMOTE — learning vector quantization based synthetic minority over-sampling technique for biomedical data[J]. BioData Mining, 2013, 6: No.16.

[15] 田臣,周麗娟. 基于帶多數類權重的少數類過采樣技術和隨機森林的信用評估方法[J]. 計算機應用, 2019, 39(6):1707-1712.(TIAN C, ZHOU L J. Credit assessment method based on majority weight minority oversampling technique and random forest[J]. Journal of Computer Applications, 2019, 39(6): 1707-1712.)

[16] BARUA S, ISLAM M M, YAO X, et al. MWMOTE — majority weighted minority oversampling technique for imbalanced data set learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(2):405-425.

[17] HE H B, BAI Y, GARCIA E A, et al. ADASYN: adaptive synthetic sampling approach for imbalanced learning[C]// Proceedings of the 2008 IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence). Piscataway: IEEE, 2008: 1322-1328.

[18] 趙楠,張小芳,張利軍. 不平衡數據分類研究綜述[J]. 計算機科學, 2018, 45(6A):22-27, 57.(ZHAO N, ZHANG X F, ZHANG L J. Overview of imbalanced data classification[J]. Computer Science, 2018, 45(6A):22-27, 57.)

[19] 吳雨茜,王俊麗,楊麗,等. 代價敏感深度學習方法研究綜述[J]. 計算機科學, 2019, 46(5):1-12.(WU Y X, WANG J L, YANG L, et al. Survey on cost-sensitive deep learning methods[J]. Computer Science, 2019, 46(5):1-12.)

[20] 陳白強,盛靜文,江開忠. 基于損失函數的代價敏感集成算法[J]. 計算機應用, 2020, 40(S2):60-65.(CHEN B Q, SHENG J W, JIANG K Z. Cost-sensitive ensemble algorithm based on loss function[J]. Journal of Computer Applications, 2020, 40(S2):60-65.)

[21] 王俊紅,閆家榮. 基于欠采樣和代價敏感的不平衡數據分類算法[J]. 計算機應用, 2021, 41(1):48-52.(WANG J H, YAN J R. Classification algorithm based on undersampling and cost-sensitiveness for unbalanced data[J]. Journal of Computer Applications, 2021, 41(1):48-52.)

[22] WANG C, DENG C Y, WANG S Z. Imbalance-XGBoost: leveraging weighted and focal losses for binary label-imbalanced classification with XGBoost[J]. Pattern Recognition Letters, 2020, 136: 190-197.

[23] SEIFFERT C, KHOSHGOFTAAR T M, VAN HULSE J, et al. RUSBoost: a hybrid approach to alleviating class imbalance[J]. IEEE Transactions on Systems, Man, and Cybernetics — Part A: Systems and Humans, 2010, 40(1):185-197.

[24] RAYHAN F, AHMED S, MAHBUB A, et al. CUSBoost: cluster-based under-sampling with boosting for imbalanced classification[C]// Proceedings of the 2nd International Conference on Computational Systems and Information Technology for Sustainable Solutions. Piscataway: IEEE, 2017: 1-5.

[25] 王忠震,黃勃,方志軍,等. 改進SMOTE的不平衡數據集成分類算法[J]. 計算機應用, 2019, 39(9):2591-2596.(WANG Z Z, HUANG B, FANG Z J, et al. Improved SMOTE unbalanced data integration classification algorithm[J]. Journal of Computer Applications, 2019, 39(9):2591-2596.)

[26] 張德鑫,雒騰,曾志勇. 基于改進的SMOTE采樣Catboost分類算法[J]. 信息通信, 2020(1):57-60.(ZHANG D X, LUO T, ZENG Z Y. Catboost classification algorithm based on improved SMOTE sampling[J]. Information & Communications, 2020(1):57-60.)

[27] KE G L, MENG Q, FINLEY T, et al. LightGBM: a highly efficient gradient boosting decision tree[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 3149-3157.

[28] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327.

[29] 宋玲玲,王時繪,楊超,等. 改進的XGBoost在不平衡數據處理中的應用研究[J]. 計算機科學, 2020, 47(6):98-103.(SONG L L, WANG S H, YANG C, et al. Application research of improved XGBoost in unbalanced data processing[J]. Computer Science, 2020, 47(6):98-103.)

[30] 姚登舉,楊靜,詹曉娟. 基于隨機森林的特征選擇算法[J]. 吉林大學學報(工學版), 2014, 44(1):137-141.(YAO D J, YANG J, ZHAN X J. Feature selection algorithm based on random forest[J]. Journal of Jilin University (Engineering and Technology Edition), 2014, 44(1): 137-141.)

CHEN Hailong, born in 1975, Ph. D., professor. His research interests include recommendation algorithm, distributed artificial intelligence.

YANG Chang,born in 1997, M. S. candidate. Her research interests include machine learning.

DU Mei,born in 1996, M. S. candidate. Her research interests include machine learning.

ZHANG Yingyu, born in 1996, M. S. candidate. Her research interests include machine learning.

Credit risk prediction model based on borderline adaptive SMOTE and Focal Loss improved LightGBM

CHEN Hailong*, YANG Chang, DU Mei, ZHANG Yingyu

(,,150080,)

Aiming at the problem that the imbalance of datasets in credit risk assessment affects the prediction effect of the model, a credit risk prediction model based on Borderline Adaptive Synthetic Minority Oversampling TEchnique (BA-SMOTE) and Focal Loss-Light Gradient Boosting Machine (FLLightGBM) was proposed. Firstly, on the basis of Borderline Synthetic Minority Oversampling TEchnique (Borderline-SMOTE), the adaptive idea and new interpolation method were introduced, so that different numbers of new samples were generated for each minority sample at the border, and the positions of the new samples were closer to the original minority sample, thereby balancing the dataset. Secondly, the Focal Loss function was used to improve the loss function of LightGBM (Light Gradient Boosting Machine) algorithm, and the improved algorithm was used to train a new dataset to obtain the final BA-SMOTE-FLLightGBM model constructed by BA-SMOTE method and FLLightGBM algorithm. Finally, on Lending Club dataset, the credit risk prediction was performed. Experimental results show that compared with other imbalanced classification algorithms RUSBoost (Random Under-Sampling with adaBoost), CUSBoost (Cluster-based Under-Sampling with adaBoost), KSMOTE-AdaBoost (-means clustering SMOTE with AdaBoost), and AK-SMOTE-Catboost (AllKnn-SMOTE-Catboost), the constructed model has a significant improvement on two evaluation indicators G-mean and AUC (Area Under Curve) with 9.0%-31.3% and 5.0%-14.1% respectively. The above results verify that the proposed model has a better default prediction effect in credit risk assessment.

credit risk; imbalanced data; oversampling; LightGBM (Light Gradient Boosting Machine); Focal Loss

This work is partially supported by National Natural Science Foundation of China (61772160), Special Research Program of Scientific and Technological Innovation for Young Scientists of Harbin (2017RAQXJ045).

TP391.9

A

1001-9081(2022)07-2256-09

10.11772/j.issn.1001-9081.2021050810

2021?05?18;

2021?09?29;

2021?10?12。

國家自然科學基金資助項目(61772160);哈爾濱市科技創新人才研究專項(2017RAQXJ045)。

陳海龍(1975—),男,黑龍江寧安人,教授,博士,CCF會員,主要研究方向:推薦算法、分布式人工智能; 楊暢(1997—),女,黑龍江綏化人,碩士研究生,主要研究方向:機器學習; 杜梅(1996—),女,山東濟南人,碩士研究生,主要研究方向:機器學習; 張穎宇(1996—),女,河北唐山人,碩士研究生,主要研究方向:機器學習。

猜你喜歡
分類方法模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲成综合人影院在院播放| 日韩精品亚洲一区中文字幕| 99在线视频网站| 91一级片| 欧美性色综合网| 久久特级毛片| 伊人久久精品亚洲午夜| 色综合a怡红院怡红院首页| 亚洲国产天堂久久九九九| 99久久成人国产精品免费| 老司机午夜精品视频你懂的| 在线五月婷婷| 亚洲va视频| 日韩在线欧美在线| 呦系列视频一区二区三区| 国产精品所毛片视频| 亚洲日韩精品无码专区| 中文字幕在线看视频一区二区三区| 国产在线视频二区| 国产xx在线观看| 欧美成人手机在线视频| 婷婷色在线视频| 伊人久热这里只有精品视频99| 精品少妇人妻一区二区| 国产精品福利社| 日韩 欧美 国产 精品 综合| 91精品专区| 狠狠躁天天躁夜夜躁婷婷| 国产一区二区福利| 国产亚洲精品91| 人妻丰满熟妇AV无码区| 国产浮力第一页永久地址| 日韩精品无码不卡无码| 在线国产91| 午夜视频免费试看| 2020国产在线视精品在| 色香蕉网站| 国产专区综合另类日韩一区| 在线免费无码视频| 中文成人无码国产亚洲| 久久久四虎成人永久免费网站| 亚洲啪啪网| 国产在线98福利播放视频免费| 久久综合AV免费观看| 国产精品第5页| 四虎亚洲精品| 亚洲第一成人在线| 久草性视频| 亚洲区欧美区| 亚洲精品爱草草视频在线| 乱系列中文字幕在线视频| 精久久久久无码区中文字幕| 欧美日韩资源| 国产一区二区网站| 1024你懂的国产精品| 国产精品hd在线播放| 58av国产精品| 一级福利视频| 少妇精品在线| 亚洲色图综合在线| 日本www色视频| 91精品综合| 久久黄色毛片| 欧美三级日韩三级| 欧美一级视频免费| 伊人AV天堂| 最新日本中文字幕| 亚洲欧美日韩天堂| 国产免费福利网站| 日本黄色a视频| 国产成人凹凸视频在线| 波多野结衣视频一区二区| 国产成本人片免费a∨短片| 国产网站一区二区三区| www.99在线观看| 国产精鲁鲁网在线视频| 国产资源站| 久久精品人妻中文系列| 久久精品女人天堂aaa| 亚洲综合第一页| 69视频国产| 伊人精品视频免费在线|