999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost 的貸前逾期識別模型及可解釋性研究

2024-04-19 09:29:02李嘉培馬詠莉
中小企業(yè)管理與科技 2024年4期
關(guān)鍵詞:特征影響模型

李嘉培,馬詠莉

(鄭州科技學(xué)院,鄭州 450064)

1 引言

隨著經(jīng)濟(jì)社會的發(fā)展,我國信用貸款市場規(guī)模不斷擴(kuò)大,P2P 網(wǎng)貸模式日益興起。對于網(wǎng)貸平臺,風(fēng)控非常重要,而貸前逾期識別又是風(fēng)控中的關(guān)鍵環(huán)節(jié),因此對于網(wǎng)貸平臺而言,信貸逾期預(yù)測模型的重要性不言而喻。

構(gòu)建預(yù)測模型的方法主要有兩類:一類是運(yùn)用統(tǒng)計分析的方法,如線性回歸[1]、Logistics 回歸[2];另一類是基于機(jī)器學(xué)習(xí)構(gòu)建模型,如決策樹[3]、支持向量機(jī)[4]等。與這些單一分類器相比,Chen et al.[5]推出了集成式機(jī)器學(xué)習(xí)算法XGBoost,該算法是在GBDT 的基礎(chǔ)上將梯度提升樹模型進(jìn)一步優(yōu)化,在回歸與分類問題上都有很好的表現(xiàn)[6]。在此之后,XGBoost 被廣泛運(yùn)用于各個領(lǐng)域。

當(dāng)前流行的集成式機(jī)器學(xué)習(xí)算法,雖然大大提高了預(yù)測能力,但模型的可解釋性也越來越差,被稱為“黑盒”。為了更好地解釋機(jī)器學(xué)習(xí)模型的輸出,Lundberg et al.[7]介紹了SHAP解釋框架的原理,SHAP 主要將博弈論和局部解釋結(jié)合起來。Ribeiro et al.[8]提出了解釋技術(shù)LIME,主要通過局部學(xué)習(xí)來解釋模型,它可以為任意的模型提供解釋。

綜上所述,本文以LendingClub 數(shù)據(jù)庫中2019 年的貸款記錄為樣本,選擇XGBoost 算法,構(gòu)建貸前逾期預(yù)測模型,同時引入SHAP 解釋框架,更好地分析影響用戶逾期的主要因素。

2 XGBoost 模型介紹

XGBoost 的全稱是極度提升樹(eXtreme Gradient Boosting),是一種基于決策樹的分布式高效梯度提升算法,其基本思想是將幾個弱分類器進(jìn)行組合形成一個強(qiáng)的學(xué)習(xí)器,用迭代的方法降低犯錯的概率。

2.1 模型函數(shù)表達(dá)

假設(shè)所給的數(shù)據(jù)集共有n 個樣本,m 個特征,每個樣本有唯一對應(yīng)的標(biāo)簽y,則定義數(shù)據(jù)集其中xi=[xi1,xi2,…,xim]是m 維數(shù)組,表示第i 個樣本的m 個特征,yi為第i 個樣本對應(yīng)的標(biāo)簽。假設(shè)該模型共需迭代K 次,則目標(biāo)函數(shù)如下:

2.2 目標(biāo)函數(shù)優(yōu)化

在梯度提升算法的迭代中,每一次迭代會生成一個弱分類器(即一棵決策樹),假設(shè)當(dāng)前為第t 次迭代,此時目標(biāo)函數(shù)是L(t),則L(t)是由前t-1 次迭代的結(jié)果與第t 次迭代引入的決策樹ft(x)計算所得。迭代過程如下:

我們的目標(biāo)是要使得預(yù)測值盡量接近真實值y,那么本次迭代的目標(biāo)是找到一個決策樹模型ft(x)使本輪的目標(biāo)函數(shù)L[y,ft(xi)]最小。目標(biāo)函數(shù)可記為:

2.3 確定分叉方法

本文以二分類問題為例,選擇常用的Logloss 函數(shù)作為損失函數(shù),則可推導(dǎo)出:

此時,相應(yīng)的目標(biāo)函數(shù)L(t)的最小值為:

其中,目標(biāo)函數(shù)的值越小,就代表這個樹的結(jié)構(gòu)越好,只要能夠確定樹結(jié)構(gòu),就可以求得該結(jié)構(gòu)下的最優(yōu)值。

為了確定當(dāng)前根節(jié)點,首先要找到具有最大損失增益的特征節(jié)點作為當(dāng)前的根節(jié)點,在當(dāng)前根節(jié)點,把樣本集一分為二,得到兩個子節(jié)點樣本集;再分別對兩個子節(jié)點集合,重復(fù)上述過程,直到達(dá)到分裂的停止條件,即可完成第棵樹的生成。在每棵樹生成后,將其加入原有模型中,并根據(jù)上述規(guī)則不斷迭代,最終完成整個模型的構(gòu)建。

3 SHAP 解釋框架介紹

SHAP 是解決模型可解釋性的一種方法。假設(shè)第i 個樣本的第j 個特征取值為xi,j,機(jī)器學(xué)習(xí)模型對第i 個樣本的預(yù)測值是,模型的基礎(chǔ)值是φ0,xi,j的Shapley 值是φi,j,那么有下述等式成立:

SHAP 將解釋指定為如下形式:

其中,f(xi)是機(jī)器學(xué)習(xí)模型對樣本xi的預(yù)測值,F(xiàn) 是解釋函數(shù),φi,j∈R 是第i 個樣本,第j 個特征取值xi,j的Shapley值,z'i,j∈{0,1}m是特征組合向量,輸入1 表示相應(yīng)的特征值存在,輸入0 表示相應(yīng)的特征值不存在。對于樣本xi,第j 個特征值xi,j的Shapley 值φi,j的計算,滿足下面的公式:

其中,M 是數(shù)據(jù)集中所有特征的集合,其維度為m。S 是從M 中抽取出來的子集,其大小為。fx(iS)是只使用特征集合S 時模型對樣本xi的預(yù)測值,當(dāng)S 是空集時,fxi(S)的值稱為基礎(chǔ)值φ0,相當(dāng)于模型的預(yù)測值在所有樣本上的平均值。fxi(S∪{xi,j})是在特征集合S 的基礎(chǔ)之上,添加特征值xi,j時模型對樣本xi的預(yù)測值在所有樣本中的平均值。

4 實證分析

4.1 數(shù)據(jù)來源

本文使用LendingClub 庫中2019 年的貸款記錄,利用XGBoost 構(gòu)建貸款違約預(yù)測模型。原始數(shù)據(jù)共518 125 個樣本,將loan_status 作為標(biāo)簽,其余列作為變量。

數(shù)據(jù)庫中的原始特征冗余繁雜,經(jīng)過特征工程之后選取12 個特征來作為入模特征,如表1 所示。

表1 建模變量

4.2 構(gòu)建模型

數(shù)據(jù)集中共有518 125 個樣本,將loan_status 作為標(biāo)簽,將 “Fully Paid” 標(biāo)記為好樣本,“Charged Off、Late (31~120 days)、In Grace Period、Late(16~30 days)、Default”標(biāo)記為壞樣本,總樣本有134 548 個,其中好樣本97 048 個,壞樣本37 500個,好壞樣本比例約為3∶1。

將總樣本的80%劃分為訓(xùn)練集,20%劃分為測試集。通過訓(xùn)練得到最優(yōu)的XGBoost 模型,模型指標(biāo)如表2 所示。

表2 模型結(jié)果

將K-S 值作為模型區(qū)分能力的指標(biāo),其值越大代表模型的區(qū)分性越好。AUC 值越大說明模型的效果越好。

5 模型解釋

5.1 特征重要性分析

SHAP 和XGBoost 指標(biāo)重要性排序分別如圖1 和圖2所示。

圖1 SHAP 指標(biāo)重要性排序

圖2 XGBoost 指標(biāo)重要性排序

通過對上面SHAP 和XGBoost 指標(biāo)重要性順序?qū)Ρ龋梢悦黠@看出SHAP 的前12 項和XGBoost 的前12 項共同指標(biāo)有很多。

5.2 SHAP 值的解釋框架

SHAP 框架下各變量的影響分析如圖3 所示。圖3 中顯示了前12 個變量對模型影響效果,此圖客觀地展現(xiàn)了各變量由大到小變化對SHAP 的影響。例如,變量last _fico_range_low 線條有黑色變?yōu)榛疑琒HAP Value 由正到負(fù),表示隨著數(shù)值增大,變量對模型預(yù)測的負(fù)向效果越明顯,即該樣本貸前預(yù)期風(fēng)險越低。

圖3 SHAP Value 解釋框架

5.2.1 單變量影響下的SHAP 值

為了更直觀得到各變量到SHAP 值的影響關(guān)系,繪制各變量對SHAP 值影響圖(見圖4、圖5)。圖4 表明隨著installment 數(shù)值增大,SHAP 值也越來越大,違約風(fēng)險相應(yīng)增加,并且當(dāng)installment 數(shù)值大于600 時,SHAP 值為正,對模型預(yù)測為正向效果并趨于穩(wěn)定。如圖5 所示,last _fico_range_low 數(shù)值大多分布在500 ~900,且隨著last _fico_range_low 值的增加SHAP 整體上呈現(xiàn)下降趨勢,且當(dāng)last _fico_ range_low 值小于600 時,SHAP 值為正,對模型起正向影響,貸前預(yù)期風(fēng)險越高;當(dāng)last _fico_ range_low 值大于600 時,SHAP 值為負(fù),對模型起負(fù)向影響,貸前預(yù)期風(fēng)險越低。

圖4 installment 對SHAP 值的影響

圖5 last _fico_ range_low對SHAP 值的影響

5.2.2 單個樣本的SHAP 值計算

將所有樣本的目標(biāo)變量的平均值叫作整個模型的基線,用SHAP_base 表示,SHAP(xi)表示特征xi的SHAP 值,則模型對樣本y 的預(yù)測值為:

這里當(dāng)SHAP(xi)>0 時,表示該特征提升了模型預(yù)測值,當(dāng)SHAP(xi)<0 時,表示該特征使預(yù)測值降低,具有反向影響。SHAPy通過sigmoid 函數(shù)映射為模型概率下面取一個好樣本進(jìn)行分析(見圖6)。

圖6 好樣本SHAP 值可視化

圖6 展示此樣本中每個特征的各自貢獻(xiàn),將模型基礎(chǔ)SHAP 值-1.0 推到最終的-3.19<0,因此該樣本是一個好樣本。樣本中將預(yù)測值推高特征用灰色表示,推低的用黑色表示。灰黑交界處從右到左灰色特征為term=1.0,int_rate=22.0,installment=781.0,這3 個特征對模型起較大的正向影響效果,灰黑交界處從左到右黑色特征為last_fico_range_low=715.0,last_fico_range_high=679.0,這兩個特征對模型起較大負(fù)向影響效果,所有特征的SHAP 值之和為,利用公式(11)得到樣本的模型概率為0.040。

6 結(jié)論

本文使用LendingClub 庫中的數(shù)據(jù),經(jīng)過數(shù)據(jù)篩選,最終選用12 個特征入模,通過XGBoost 模型得到了變量特征重要性排序,但是并不清楚各個特征是如何影響模型。SHAP 能夠清楚反映單個變量變化對SHAP 值的影響,最重要的SHAP 能對樣本進(jìn)行量化分析,能夠直觀得到樣本中每個特征的SHAP值,從而對樣本進(jìn)行好壞評判,可以對黑盒模型進(jìn)行解釋。

猜你喜歡
特征影響模型
一半模型
是什么影響了滑動摩擦力的大小
哪些顧慮影響擔(dān)當(dāng)?
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
如何表達(dá)“特征”
不忠誠的四個特征
抓住特征巧觀察
3D打印中的模型分割與打包
擴(kuò)鏈劑聯(lián)用對PETG擴(kuò)鏈反應(yīng)與流變性能的影響
中國塑料(2016年3期)2016-06-15 20:30:00
主站蜘蛛池模板: 国产成人8x视频一区二区| 国产微拍精品| 亚洲欧美另类视频| 久久精品波多野结衣| a天堂视频| 亚洲精品中文字幕午夜| 亚洲人成网7777777国产| 国产成人av一区二区三区| 狠狠亚洲五月天| 亚洲精品在线观看91| 日韩精品高清自在线| 亚洲五月激情网| 欧美在线一二区| 国产一级在线播放| 国产xx在线观看| 91无码视频在线观看| 精品久久久久无码| 欧美一道本| 日韩小视频网站hq| 欧美一区国产| 国产成人久久综合777777麻豆| 日本欧美在线观看| 亚洲91精品视频| 这里只有精品国产| 久久精品人人做人人爽97| a欧美在线| 欧美狠狠干| 国产毛片片精品天天看视频| 亚洲国产精品日韩av专区| 国产菊爆视频在线观看| 亚洲二区视频| 思思99思思久久最新精品| 亚洲色图在线观看| 国产玖玖玖精品视频| 免费人欧美成又黄又爽的视频| 亚洲久悠悠色悠在线播放| 热99精品视频| 亚洲,国产,日韩,综合一区| 99视频在线免费观看| 亚洲精品第五页| 国产肉感大码AV无码| 亚洲日本中文字幕乱码中文 | 蜜芽一区二区国产精品| 国产亚洲男人的天堂在线观看 | 四虎永久免费地址在线网站| 99一级毛片| 日本高清有码人妻| 久久精品国产一区二区小说| 亚洲第一成年免费网站| 亚洲三级影院| 中日韩欧亚无码视频| 色综合热无码热国产| 99在线小视频| 99久久精品国产精品亚洲| 久久伊人久久亚洲综合| 久久久久亚洲AV成人人电影软件| 99偷拍视频精品一区二区| 伊人成人在线视频| 亚洲日韩国产精品综合在线观看| 欧美a在线看| 无码aaa视频| 精品一区二区三区四区五区| 本亚洲精品网站| 在线播放国产一区| 久久久久久久久久国产精品| 91精品国产福利| 欧美精品高清| 性欧美精品xxxx| h网址在线观看| 日韩欧美国产三级| 99视频有精品视频免费观看| 久久黄色毛片| 亚洲欧美自拍一区| 四虎永久免费地址| 精品夜恋影院亚洲欧洲| 国产欧美日韩另类| 91亚洲免费视频| 91麻豆精品视频| 亚洲AV成人一区国产精品| 国产一区二区丝袜高跟鞋| 影音先锋亚洲无码| 亚洲精品国产首次亮相|