999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GBDT+LR 模型在個人信用風險評估中的研究

2021-07-16 06:13:22張麗娟
網絡安全技術與應用 2021年7期
關鍵詞:分類特征模型

◆張麗娟

(安徽大學經濟學院 安徽 230601)

隨著經濟的發展和個人消費觀念的改變,信貸業務逐漸進入人們的日常生活,在商業銀行以及很多金融機構中都是一項重點發展的業務,信用風險分析在信貸行業至關重要,信貸機構對借款人的還款能力和還款意愿進行評估,判斷是否對借款人進行貸款發放以及借貸金額和貸款期限,這有利于信貸平臺有效地減少潛在的風險。機器學習中的一些算法例如邏輯回歸,決策樹,隨機森林等都被應用于個人信用評估中,但是在數據集的維度較復雜時,這些算法如果不能進行很好的特征選擇和特征組合,且不能很好的處理一些敏感信息,那么模型的預測準確率會大大下降。

本文所提出的一種基于GBDT與LR算法構建的一種用于個人信用評估的風險控制模型,首先利用GBDT 分類器構造新特征,再用邏輯回歸模型進行預測分析,有效地解決了特征選擇和異常值問題,在一定程度上避免了模型過擬合問題。通過全球最大的P2P 平臺LendingClub 的信貸數據進行實證分析驗證了該模型在個人信用評估上具有更好的適用性和穩定性。

1 相關研究

個人信用風險評估是一個二分類問題,即對借款人進行分類判斷是否發放貸款。傳統的信用風險評估主要是依靠有豐富經驗的專業人員的人工審核借款人的基本信息。隨著數據時代和業務數量的增長,傳統人工審核方法不再適用。秦宛順[1]等構建了基于Logistic 回歸的個人信用評分模型,對客戶進行‘好壞’的分類。宋麗平[2]等重要考慮借款人的個人基本信息等指標,建立基于BP 神經網絡的個人信用評估模型,研究發現BP神經網絡在個人風險評估問題上具有可優化性。Zhang,Lian Z 等[3]認為對于個人貸款信用評估是復雜的非線性問題,通過構造個人貸款信用指數,然后利用SVM 模型進行識別分類,進而認為SVM 在個人貸款風險評估上具有重要作用。

單一的模型在計算速度、預測效果等方面各有優缺點,將不同的模型結合起來,可以充分發揮模型之間的優點,取長補短提高模型的泛化能力。王黎[4]利用GBDT 處理混合數據類型的優點,提出基于GBDT 的個人信用評估方法,通過UCI 公開數據的驗證認為GBDT的信用評估具有更好的穩定性和適用性。王小俐等[5]從P2P 網貸平臺運營風險預警指標角度進行模型研究。陳啟偉等[6]利用bagging 方法將基本分類器集成構建基于Ext-GBDT 集成的類別不平衡信用評分模型。Maoguang Wang 等[7]利用XGBoost 在特征變化上的強大功能,構建了XGBoost-LR 混合模型,有效提高了模型的預測精度。

本文在此基礎上,提出了一種集成GBDT 與LR 算法的個人信用風險評估模型,利用GBDT 對數據進行特征變換,再輸入到LR 進行分類訓練,充分利用了兩種算法的優點,并有效提高了模型的預測精度和穩定性。

2 GBDT+LR 融合模型介紹

2.1 GBDT 算法

梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)是Friedman 在1999 年提出的一種Boosting 類集成學習算算法[8]。它的主要思想是每一次建立模型是在之前建立模型損失函數的梯度下降方向。在GBDT 模型中常選用GART 回歸樹作為基學習器,每一棵樹的生成都是基于上一個回歸樹分類結果的殘差,以串行的方式向殘差減小的方向梯度迭代,最后累加所有樹的結果加權求和作為最終結果。GBDT 算法的流程如下:

第一步:取訓練集T={(x1,y1),(x2,y2),...,(xn,yn)},迭代次數M和損失函數,初始化弱分類器:

第二步:對m=1,2,...,M,執行以下步驟:

1)對i=1,2,...,n,計算近似殘差:

2)對近似殘差rmj擬合一棵回歸數,得到第m棵樹的葉節點域Rjm,j=1,2,...,Jm,即一顆由J個葉節點組成的樹。

3)對j=1,2,...,Jm計算最佳擬合值:

4)更新分類器:

第三步:得到最終強學習器:

2.2 LR 算法

邏輯回歸算法(Logistics Regression,LR)是一種基于回歸分析的分類算法[9]。線性回歸模型能夠很好處理數值問題,其公式如下:

LR 是在線性回歸的基礎上加上了Sigmoid 函數映射到(0,1)上,并劃分一個閾值,大于閾值的分為一類,小于等于閾值的分為另一類,使得邏輯回歸成為非常好的二分類算法。Sigmoid 函數表達式如下:

邏輯回歸假設數據服從伯努利分布,通過極大化似然函數的方法,運用梯度下降來求解參數以達到數據分類的目的。

2.3 GBDT+LR 融合模型

LR 算法作為廣義線性模型,模型簡單可解釋性好,計算時間小,能用于海量數據,但是LR 算法學習能力有限,對數據特征的要求比較高,容易導致欠擬合。因此在進行分類訓練之前,需要有效的特征工程對原數據進行特征提取,進而得到較好的分類結果。Facebook在2014年提出GBDT+LR的組合模型來進行CTR預估,利用Boosting Tree 模型本身的特征組合能力進行特征工程[10]。Boosting Tree 模型本身具備特征篩選的能力以及高階特征組合能力,通過GBDT 來進行特征篩選和組合,進而生成新的離散特征向量用于LR 模型的輸入,能夠得到更好的預測效果。

首先將訓練集通過GBDT 構造一系列的決策樹,組成一個強學習器,每棵樹根節點到葉子節點的路徑可以看成是不同特征進行特征組合,某個葉子節點對應一個離散特征,然后通過one-hot 編碼對特征處理傳入到LR 分類器進行二次訓練。GBDT+LR 融合模型的訓練過程如下[11]:

圖1 GBDT+LR 模型訓練示意圖

由GBDT 構建新離散特征如圖2 所示,假設fm-1和fm為GBDT算法訓練過程中生成的2 棵決策樹,分別有5 個葉結點,其中數字1表示訓練樣本x通過該決策樹預測的結果落在該葉結點上,那么對于樹fm-1,其預測的結果可以用One-Hot 編碼表示為 [ 0,1,0,0,0]。假設GBDT 算法迭代次數為x,且所有弱分類器共具有y個葉結點,對于m條原始數據,每一條都會被轉化為y維的稀疏向量,其中x個元素為1,y-x個元素為0,那么最終會形成維度為m×x×y的新訓練集。

圖2 GBDT 算法構造新特征示意圖

3 基于GBDT+LR 模型的個人信用風險評估模型

本文中選取了全球最大的P2P借貸平臺美國LendingClub 提高的公開數據作為實證數據集,選用了2019 年第一季度的數據115779條有效個人貸款數據,每個數據包含有148 個特征變量和1 個標簽變量(違約和不違約)。建立了基于GBDT+LR 融合模型的風險評估模型,該模型的主要工作流程如下圖所示。

圖3 GBDT+LR 分類器工作流程圖

3.1 數據預處理

首先對原始數據集進行數據清洗,了解數據的目標變量、分類變量以及連續性變量信息特征分布;數據集中存在嚴重的缺失值問題,對于缺失值比例大于60%的特征變量進行刪除處理,對于其余含有缺失值的特征變量進行眾數填充;數據集中特征變量的觀測值90%以上為相同特征的變量,結合變量實際意義進行篩選刪除;最后特征由148 個減少到89 個。

3.2 特征提取

通過對于文本變量進行特征編碼,將有序變量通過映射為數值型,對無序變量進行one-hot 編碼;由于模型中使用到梯度下降法,為了加快迭代速度,所以對數據進行標準化處理。

由于數據中的很多變量存在較強的相關性,通過Wrapper 方法逐步剔除不相關特征降低模型學習難度,將自變量從94 個降到30 個。在此基礎上通過皮爾森相關性圖譜找到冗余特征并將其剔除,通過相關性的圖譜進一步確定特征選擇的方向。最終篩選出18 個特征變量用于模型訓練。

圖4 入模訓練的18 個變量相關圖

3.3 實驗及結果分析

本次數據中目標變量‘loans_status’正常和違約兩種類別存在較大的數量差別,采用了SMOTE 方法對樣本進行不均衡處理,將數據集中正負樣本分布比例通過采樣調整為1:1;采用交叉驗證方法劃分數據集,將數據集劃分為訓練集和測試集;在模型優化中采用網格搜索調優參數,進行構造參數候選集合,選出最好的一組參數用于構建最優分類器模型。

本文中貸款評估為二分類問題,目標變量用0 或1 表示,將正常定義為正,違約定義為負,其混淆矩陣見表1 所示。

表1 分類結果混淆矩陣

本次實驗中,為了評估GBDT+LR 模型在貸款評估中的性能,選取了LR(邏輯回歸)、DT(決策樹)、RF(隨機森林)、GBDT(梯度提升決策樹)等四種機器學習模型進行對比分析,選用的分類器性能評估指標為Accuracy(準確率)、Recall(召回率)、F1 值、AUC值。實驗結果如表2 所示。

表2 不同機器學習模型的結果對比

從上表中可以看出GBDT+LR 模型的分類效果總體上要優于其他4 類模型。通過準確率看GBDT+LR 分類器的預測準確率最高為98.22%,其中單獨的GBDT 分類器的預測準確率為95.49%,而單獨的LR 分類器的預測準確率為89.51%,均低于GBDT+LR 分類器的預測準確率。AUC 值代表模型的分類效果,五種模型中明顯可以看出GBDT+LR 分類器的預測效果AUC 值遠遠大于其他四種分類器,說明GBDT+LR 的分類效果最優。在召回率和F1 值的得分中GBDT+LR 的分值也是最高的,說明該模型具有很好的預測性能。

4 結論

為了金融借貸機構更好更精準地對借款人的狀態進行評估,本文基于GBDT+LR 算法建立個人信用風險控制評估模型,并利用全球最大P2P 平臺LendingClub 公司2019 年第一季度真實數據進行實證分析,與常見的LR、DT、RF、GBDT 等模型進行比較,在AUC 值、準確率等各項性能指標數據可以看出基于GBDT+LR 的融合模型在個人信用風險評估上,具有更好的預測性能和穩定性。此項研究更有利于金融借貸機構有效避免潛在風險,進而更好地進行管理運營。

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 国产黄网永久免费| 福利在线一区| 亚洲女人在线| 青草视频免费在线观看| 国产日本一线在线观看免费| 国产综合色在线视频播放线视| 国产亚洲欧美在线专区| 国产成人精品一区二区三区| 免费无码网站| 国产精品浪潮Av| 久久精品日日躁夜夜躁欧美| 精品少妇人妻av无码久久| 无码aaa视频| 亚洲欧美成人影院| 99热这里只有精品在线观看| 国产情侣一区二区三区| 免费看一级毛片波多结衣| 亚洲乱伦视频| 精品色综合| 欧美一区国产| 91小视频在线观看免费版高清| 美女一区二区在线观看| 久久久久人妻精品一区三寸蜜桃| 国产aaaaa一级毛片| 国产精品人人做人人爽人人添| 欧洲av毛片| 欧美性爱精品一区二区三区| 国产欧美性爱网| 午夜视频免费试看| 亚洲第一黄色网| 中国黄色一级视频| 最新国产成人剧情在线播放| 99精品热视频这里只有精品7| 男人天堂伊人网| 欧美第一页在线| 亚洲人成网站18禁动漫无码| 日韩国产欧美精品在线| 亚洲AⅤ综合在线欧美一区| 精品国产一区91在线| 亚洲天堂自拍| 国产成人一区在线播放| 久久综合亚洲色一区二区三区| h网站在线播放| 亚洲日韩在线满18点击进入| 欧美日本在线| 亚洲小视频网站| 欧美一级在线播放| 欧美国产日韩一区二区三区精品影视| 国产91小视频在线观看| 99视频在线精品免费观看6| 亚洲系列中文字幕一区二区| 亚洲综合婷婷激情| 国产精品免费电影| 毛片一区二区在线看| 国产网站免费观看| 精品国产电影久久九九| 亚洲国产系列| 国产网友愉拍精品视频| 19国产精品麻豆免费观看| 天堂在线视频精品| 欧美国产精品拍自| 国产三级a| 精品成人一区二区三区电影 | 亚洲欧美成人在线视频| 亚洲综合狠狠| 三级国产在线观看| 国产精品亚洲日韩AⅤ在线观看| 日韩在线成年视频人网站观看| 女人18毛片水真多国产| 欧美精品亚洲精品日韩专区| 欧美视频二区| 国产丝袜无码精品| 99久久亚洲综合精品TS| 成年片色大黄全免费网站久久| 欧美人人干| 欧美在线伊人| 国产流白浆视频| 国产亚洲视频在线观看| 亚洲欧美成人影院| 国产精品白浆在线播放| 国产视频资源在线观看| 黄色国产在线|