999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GBDT的個(gè)人信用評(píng)估方法

2017-09-03 10:13:56廖聞劍
電子設(shè)計(jì)工程 2017年15期
關(guān)鍵詞:分類(lèi)

王 黎,廖聞劍

(1.武漢郵電科學(xué)研究院 湖北 武漢 430074;2.烽火通信科技股份有限公司 南京研發(fā)部,江蘇 南京 210019)

基于GBDT的個(gè)人信用評(píng)估方法

王 黎1,2,廖聞劍1,2

(1.武漢郵電科學(xué)研究院 湖北 武漢 430074;2.烽火通信科技股份有限公司 南京研發(fā)部,江蘇 南京 210019)

近年來(lái),個(gè)人信用評(píng)估問(wèn)題成為信貸行業(yè)的研究熱點(diǎn),針對(duì)當(dāng)前應(yīng)用于信用評(píng)估的分類(lèi)算法大多存在只對(duì)某種類(lèi)型的信用數(shù)據(jù)集具有較好的分類(lèi)效果的問(wèn)題,提出了基于Gradient Boosted Decision Tree(GBDT)的個(gè)人信用評(píng)估方法。GBDT天然可處理混合數(shù)據(jù)類(lèi)型的數(shù)據(jù)集,可以發(fā)現(xiàn)多種有區(qū)分性的特征以及特征組合,不需要做復(fù)雜的特征變換,對(duì)于特征類(lèi)型復(fù)雜的信用數(shù)據(jù)集有明顯的優(yōu)勢(shì),且其通過(guò)其損失函數(shù)可以很好地處理異常點(diǎn)。在基于兩個(gè)UCI公開(kāi)信用審核數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)表明,GBDT明顯優(yōu)于傳統(tǒng)常用的支持向量機(jī)(Support Vector Machine,SVM)以及邏輯回歸(Logistic Regression,LR)的信用評(píng)估效果,具有較好的穩(wěn)定性和普適性。

信用評(píng)估;分類(lèi)算法;GBDT

信用風(fēng)險(xiǎn)分析在信貸行業(yè)起著非常重要的作用,對(duì)信貸申請(qǐng)者的準(zhǔn)確信用評(píng)估可幫助信貸商家有效規(guī)避信用風(fēng)險(xiǎn)[1]。近年來(lái),許多分類(lèi)算法都被應(yīng)用于個(gè)人信用評(píng)估,如線性判別分析[2]、LR[3]、K-NN最近鄰算法、樸素貝葉斯、決策樹(shù)[4]、神經(jīng)網(wǎng)絡(luò)[5]、SVM[6]等。這些方法中,神經(jīng)網(wǎng)絡(luò)多數(shù)情況下具有更高的評(píng)估準(zhǔn)確率[7-8],而關(guān)于支持向量機(jī)的研究則表明,支持向量機(jī)可以克服神經(jīng)網(wǎng)絡(luò)的不足,包括結(jié)構(gòu)選擇和小樣本下泛化能力不足等問(wèn)題。然而,在數(shù)據(jù)集維度較復(fù)雜時(shí)這些算法存在不能主動(dòng)進(jìn)行特征選擇和特征組合的問(wèn)題,因此準(zhǔn)確率會(huì)受到無(wú)關(guān)維度的影響,甚至產(chǎn)生維度災(zāi)難[9],并且在數(shù)據(jù)預(yù)處理中若不剔除異常點(diǎn),也會(huì)對(duì)分類(lèi)結(jié)果的準(zhǔn)確率產(chǎn)生影響。如對(duì)于LR模型,特征組合非常關(guān)鍵,但又無(wú)法直接通過(guò)特征笛卡爾積解決,只能依靠人工經(jīng)驗(yàn),耗時(shí)耗力同時(shí)并不一定會(huì)帶來(lái)效果提升。GBDT是一種通過(guò)將弱分類(lèi)器組合來(lái)提升分類(lèi)器性能的方法[10]。GBDT算法可有效解決自動(dòng)進(jìn)行特征選擇和處理異常點(diǎn)問(wèn)題,還能在一定程度上避免模型過(guò)擬合問(wèn)題。在UCI兩個(gè)公開(kāi)信用數(shù)據(jù)集[11]上的對(duì)比實(shí)驗(yàn)有效驗(yàn)證了GBDT在個(gè)人信用評(píng)估應(yīng)用上的適用性和穩(wěn)定性。

1 GBDT介紹

GBDT模型在1999年由Jerome Friedman提出[12],是決策樹(shù)與Boosting方法相結(jié)合的應(yīng)用。GBDT每顆決策樹(shù)訓(xùn)練的是前面決策樹(shù)分類(lèi)結(jié)果中的殘差。這也是Boosting思想在GBDT中的體現(xiàn)。具體算法思想如圖1所示。

圖1 GBDT算法思想示意圖

從上圖可以看出GBDT的訓(xùn)練過(guò)程是線性的,是無(wú)法并行訓(xùn)練決策樹(shù)的。第一棵決策樹(shù)T1訓(xùn)練的結(jié)果與真實(shí)值T的殘差是第二棵樹(shù)T2訓(xùn)練優(yōu)化的目標(biāo),而模型最終的結(jié)果是將每一棵決策樹(shù)的結(jié)果進(jìn)行加和得到的。即公式(1):

GBDT對(duì)于迭代求優(yōu)常用的有兩種損失函數(shù)。一種方式是直接對(duì)殘差進(jìn)行優(yōu)化,另一種是對(duì)梯度下降值進(jìn)行優(yōu)化。從上圖也可以看出,GBDT與傳統(tǒng)的boosting不同,GBDT每次迭代的是優(yōu)化目標(biāo),boosting每次迭代的是重新抽樣的樣本。下面,以一個(gè)二元分類(lèi)為例,介紹GBDT的原理,如圖2所示。

圖2 二元分類(lèi)示例圖

對(duì)于一個(gè)待分裂的節(jié)點(diǎn)R,其輸出值以不同樣本y的平均值μ作為節(jié)點(diǎn)輸出值,即公式(2):

于是,節(jié)點(diǎn)的誤差可以表示為公式(3):

在節(jié)點(diǎn)分裂的過(guò)程中,需要選擇分裂增益最大的屬性進(jìn)行劃分,分裂增益G的計(jì)算方法如公式(4):

采用方差作為損失函數(shù),可以得到Sj,如公式(5):

于是,每個(gè)節(jié)點(diǎn)分裂問(wèn)題就變成尋找一個(gè)屬性使分裂增益最大。分別將S,Sj展開(kāi),如公式(6):

GBDT采用Shrinkage(縮減)的策略通過(guò)參數(shù)設(shè)置步長(zhǎng),避免過(guò)擬合。Shrinkage的思想認(rèn)為,每次走一小步逐漸逼近結(jié)果的效果,要比每次邁一大步很快逼近結(jié)果的方式更容易避免過(guò)擬合。即它不完全信任每一棵殘差樹(shù),它認(rèn)為每棵樹(shù)只學(xué)到了真理的一小部分,累加的時(shí)候只累加一小部分,通過(guò)多學(xué)幾棵樹(shù)彌補(bǔ)不足。Shrinkage仍然以殘差作為學(xué)習(xí)目標(biāo),但對(duì)于殘差學(xué)習(xí)出來(lái)的結(jié)果,只累加一小部分(step*殘差)逐步逼近目標(biāo),step一般都比較小,如0.01~0.001,導(dǎo)致各個(gè)樹(shù)的殘差是漸變的而不是陡變的。本質(zhì)上,Shrinkage為每棵樹(shù)設(shè)置了一個(gè)權(quán)重,累加時(shí)要乘以這個(gè)權(quán)重。

2 基于GBDT的個(gè)人信用評(píng)估方法

2.1 信用數(shù)據(jù)的獲取與預(yù)處理

由于我國(guó)個(gè)人征信體系剛剛起步,信用數(shù)據(jù)不易獲得,因此本次實(shí)驗(yàn)基于UCI的兩個(gè)公開(kāi)信用審核數(shù)據(jù)集,分別是澳大利亞信用數(shù)據(jù)集和德國(guó)信用數(shù)據(jù)集。其中澳大利亞信用數(shù)據(jù)集的特征含義被隱去以保護(hù)數(shù)據(jù)源的機(jī)密性,而德國(guó)信用數(shù)據(jù)集包含以下指標(biāo),分別是 credit history、account balance、loan purpose、loan amount、employment status、personal information、age、housing和job等。這兩個(gè)信用數(shù)據(jù)集的指標(biāo)類(lèi)型均包含數(shù)值型變量以及離散型變量。數(shù)據(jù)集的具體信息如表1所示。

表1 信用數(shù)據(jù)集

在獲得這些信用數(shù)據(jù)集后,需要首先對(duì)這些原始數(shù)據(jù)進(jìn)行一些預(yù)處理,如指標(biāo)的數(shù)值化,標(biāo)準(zhǔn)化和缺失值填補(bǔ)等。數(shù)值化即把定性指標(biāo)的屬性值轉(zhuǎn)換成數(shù)值,以UCI澳大利亞信用數(shù)據(jù)集為例,A1指標(biāo)的兩個(gè)屬性值a和b,在本文中分別被數(shù)值化為0和1。雖然GBDT算法不需要對(duì)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理,但對(duì)比實(shí)驗(yàn)中使用的SVM和LR算法中的目標(biāo)函數(shù)往往認(rèn)為數(shù)據(jù)集中的特征是標(biāo)準(zhǔn)化的并且具有同階方差的,因此為避免某一指標(biāo)因方差階數(shù)太大而主導(dǎo)了目標(biāo)函數(shù),使得目標(biāo)函數(shù)無(wú)法從其他特征進(jìn)行學(xué)習(xí),需要在預(yù)處理中統(tǒng)一對(duì)數(shù)據(jù)集指標(biāo)標(biāo)準(zhǔn)化處理。本文將數(shù)據(jù)集處理成符合高斯分布的標(biāo)準(zhǔn)數(shù)據(jù)。對(duì)缺失值的填補(bǔ),數(shù)值型變量采取中值填補(bǔ)方法,離散型變量采用眾數(shù)填補(bǔ)。

2.2 基于GBDT方法的個(gè)人信用評(píng)估

根據(jù)前面介紹的GBDT的原理可知,GBDT分類(lèi)模型的可調(diào)參數(shù)包括弱分類(lèi)器(回歸樹(shù))的個(gè)數(shù)M,每棵回歸樹(shù)的深度h,每棵樹(shù)最大葉子節(jié)點(diǎn)數(shù)N,模型學(xué)習(xí)步長(zhǎng) step,損失函數(shù)(Loss Function),每個(gè)分裂節(jié)點(diǎn)最少樣本數(shù),每個(gè)葉子節(jié)點(diǎn)最少樣本數(shù),葉子節(jié)點(diǎn)樣本的最小加權(quán)分?jǐn)?shù),子樣本分?jǐn)?shù),以及分裂節(jié)點(diǎn)的特征數(shù)等。其中學(xué)習(xí)步長(zhǎng)的范圍為,是通過(guò)Shrinkage控制模型過(guò)擬合的參數(shù),根據(jù)經(jīng)驗(yàn),較好的策略是選取較小的學(xué)習(xí)步長(zhǎng),對(duì)應(yīng)的選取較多的回歸樹(shù)。樹(shù)的深度和樹(shù)的最大葉子節(jié)點(diǎn)參數(shù)都是來(lái)控制回歸樹(shù)大小的。如果定義樹(shù)的最大深度為h,則會(huì)生成深度為h的完全二叉樹(shù),該樹(shù)至多有2h-1個(gè)葉子節(jié)點(diǎn)和2h-1-1個(gè)分裂節(jié)點(diǎn);如果定義樹(shù)的葉子節(jié)點(diǎn)數(shù)k,則會(huì)通過(guò)best-first search生成樹(shù),該樹(shù)的深度為k-1,有k-1個(gè)分裂節(jié)點(diǎn)。而后一種方法較前一種方法有更快的訓(xùn)練速度,代價(jià)是相對(duì)較高的訓(xùn)練誤差,本課題訓(xùn)練樣本數(shù)較少,暫不考慮訓(xùn)練時(shí)間的問(wèn)題,為保證盡可能低的訓(xùn)練誤差,本文選擇設(shè)置樹(shù)的深度h參數(shù),而由于GBDT的 boosting特性,訓(xùn)練的每一步都會(huì)在上一步的基礎(chǔ)上更加擬合原數(shù)據(jù),模型是可以一定程度上保證較低的偏差(bias)的,那么為了同樣保證較低的方差(variance),樹(shù)的深度h的設(shè)置不需要太大。

GBDT可以通過(guò)優(yōu)化損失函數(shù)來(lái)優(yōu)化訓(xùn)練過(guò)程,本文使用Deviance作為GBDT的損失函數(shù),那么對(duì)應(yīng)的梯度為 I(yi=Gk)-pk(xi),pk表示樣本xi屬于第k個(gè)類(lèi)別的概率,通過(guò)Softmax方法求得。因?yàn)橛衚個(gè)類(lèi)別,所以得到k個(gè)系列的回歸樹(shù),每個(gè)系列最終的預(yù)測(cè)值分別為f1(x),f2(x),…,fk(X),具體計(jì)算公式如(7)所示:

I(·)為指示函數(shù)。也就是當(dāng)預(yù)測(cè)第k個(gè)類(lèi)別的概率時(shí),如果真實(shí)類(lèi)別恰好為該類(lèi)別,梯度為1-pk(xi),否則為-pk(xi)。所以后一棵樹(shù)擬合的也就是之前預(yù)測(cè)值的殘差。

3 實(shí)驗(yàn)結(jié)果與分析

本文基于UCI公開(kāi)的澳大利亞信用數(shù)據(jù)集和德國(guó)信用數(shù)據(jù)集分別對(duì)支持向量機(jī),邏輯回歸,以及GBDT方法進(jìn)行了信用分類(lèi)性能比較實(shí)驗(yàn)。支持向量機(jī)采用的是 LIBSVM[13],核函數(shù)(kernel function)是徑向基核 (radial basis function,RBF)。 為了保證GBDT具有最好的分類(lèi)性能,每次訓(xùn)練時(shí)都在訓(xùn)練集上利用5折交叉驗(yàn)證對(duì)GBDT中的參數(shù)進(jìn)行網(wǎng)格搜索。實(shí)驗(yàn)中我們采取k折交叉驗(yàn)證(k-fold Cross Validation)的方式。所謂k折交叉驗(yàn)證指樣本集被分成k組,輪流將其中的k-1組作為訓(xùn)練集,剩下1組作為測(cè)試集,實(shí)驗(yàn)結(jié)果取這k次實(shí)驗(yàn)結(jié)果的平均值。

我們?cè)诿總€(gè)數(shù)據(jù)集上的實(shí)驗(yàn)分為5組,分別是5、10、15、20、25 折交叉驗(yàn)證, 實(shí)驗(yàn)結(jié)果如表 2 和表3。表2為基于澳大利亞信用審核數(shù)據(jù)集的各算法信用分類(lèi)結(jié)果。表3為基于德國(guó)信用審核數(shù)據(jù)集的各算法信用分類(lèi)結(jié)果。其中P、R、F分別表示Precision、Recall和 F-Score。

從表2和表3中可以看出,GBDT在澳大利亞和日本信用數(shù)據(jù)集上的各組實(shí)驗(yàn)中都獲得了比LR和SVM更高的Precision、Recall和F-Score值。而對(duì)于信用數(shù)據(jù)集中正負(fù)例非常不平衡的德國(guó)數(shù)據(jù)集,雖然3種算法的F-Score均明顯下降,但是GBDT方法依然保持相對(duì)較好的評(píng)估效果。在澳大利亞信用數(shù)據(jù)集上顯示GBDT的平均F值比LR和SVM方法分別高出4.5%和6.7%;在德國(guó)信用數(shù)據(jù)集上GBDT的平均F值比LR和SVM方法分別高出12.8%和24.9%。從德國(guó)信用數(shù)據(jù)集來(lái)看,隨著交叉驗(yàn)證的折數(shù)從 5變化到 25,LR的 F值變化了14.3%,SVM的F值變化了19%,GBDT的F值變化了10.4%。從圖3中也能看出,GBDT相較于LR和SVM隨實(shí)驗(yàn)折數(shù)的變化相對(duì)平穩(wěn)。這說(shuō)明GBDT相比于LR和SVM的信用分類(lèi)效果不僅更好,并且具有較高的穩(wěn)定性和有效性,對(duì)于正負(fù)例非均衡的數(shù)據(jù)集[15]也能保持相對(duì)較好的分類(lèi)準(zhǔn)確率。

表2 LR、SVM和GBDT在澳大利亞信用審核數(shù)據(jù)集上的評(píng)估效果(%)

表3 LR、SVM和GBDT在德國(guó)信用審核數(shù)據(jù)集上的評(píng)估效果(%)

圖3 LR、SVM和GBDT的F-Score隨折數(shù)的變化

4 結(jié)論

文中針對(duì)當(dāng)前應(yīng)用于信用評(píng)估的分類(lèi)算法大多存在只對(duì)某種類(lèi)型的信用數(shù)據(jù)集具有較好的分類(lèi)效果的問(wèn)題,提出了基于GBDT的個(gè)人信用評(píng)估方法。實(shí)驗(yàn)表明在不同類(lèi)型的信用數(shù)據(jù)集上,GBDT算法相對(duì)于工業(yè)常用的LR和SVM分類(lèi)算法能保持較高的分類(lèi)準(zhǔn)確率,以及更好的穩(wěn)定性和普適性。

[1]Burton D.Credit scoring, risk, and consumer lendingscapes in emerging markets [J].Environment and Planning A,2012,44(1):111-124.

[2]Basens B, Gestel T, Viaene S, et al.Benchmarking state-of-art classification algorithms for credit scoring [J].Journal of the OperationalResearch Society, 2003, 5(4):627-635.

[3]Sarlija N,Bensic M,Zekic-Susac M.Modeling customer revolving credit scoring using logistic regression survival analysis and neural networks[C]//Proceedings of the 7th WSEAS International Conference on Neural Networks, Cavtat, Croatia,2006.Stevens Point, Wisconsin, USA:WSEAS,2006:164-169.

[4]Bahnsen A,Aouada D,Ottersten B.Exampledependent cost-sensitive decision trees[J].Expert Systems with Applications, 2015, 42(19):6609-6619.

[5]West D.Neural network credit scoring models[J].Neural Networks in Business, 2000,27(11):1131-1152.

[6]Huang C L,Chen M C,Wang C J.Credit scoring with a data mining approach based on support vector machines [J].Expert Systems with Applications,2007,33(4):847-856.

[7]Lee T S, Chiu C C, Lu C J, et al.Credit scoring using the hybrid neural discriminant technique[J].Expert Systems with Applications, 2002,23(3):245-254.

[8]Blanco A,Pino-Mejias R,Lara J,Rayo S.Credit scoring models for the microfinance industry using neral networks:Evidence from peru [J].Expert Systems with Applications, 2013,40(1):356-364.

[9]Aryuni M,Madyatmadja E.Feature selection in credit scoring model for credit card applicant in xyz bank:A comparative study [J].International Journal of Multimedia and Ubiquitous Engineering, 2015,10(5):17-24.

[10]Florez-Lopez R,Ramon-Jeronimo J.Enhancing accuracy and interpretability of ensemble strategies in credit risk assessment.a correlated-adjusted decision forest proposal[J].Expert Systems with Applications, 2015,42(13):5737-5753.

[11]Asuncion A,Newman D.UCI machine learning repository[EB/OL].(2008)[2011-02].http://archive.ics.uci.edu/ml

[12]Friedman J H.Greedy Function Approximation:A Gradient Boosting Machine [J].Annals of Statistics,2001,29(5):1189-1232.

[13]Chang C C,Lin C J.LIBSVM:a library for support vector machines[CP/OL].(2001)[2011-02].http://www.csie.ntu.edu.tw/~cjlin/libsvm.

[14]Fawcett T.An introduction to ROC analysis[J].Pattern Recognition Letters, 2006,27(8):867-874.

[15]Brown I,Mues C.An experimental comparison of classification algorithms for imbalance credit scoring data sets[J].Expert Systems with Applications, 2012,39(3):3446-3453.

Personal credit scoring method using gradient boosting decision tree

WANG Li1,2,LIAO Wen-jian2
(1.Wuhan Research Institute of Posts and Telecommunications, Wuhan 430074,China;2.Ltd.Nanjing R&D,F(xiàn)iberHome Communications Science&Technology Development Co., Nanjing 210019,China)

In recent years,the personal credit scoring problem has become the research hotspots in the credit industry.In view of the current classification algorithms applied in credit scoring only have a good effect for some type of credit data set,a personal credit scoring method based on gradient boosted decision tree (GBDT) methods is put forward in this paper.GBDT is naturally able to deal with mixed types of data sets and find distinguishing features and feature combinations without doing complex feature transformation.GBDT shows obvious advantages for credit data set of complex data types,and by the loss function outliers can be well processed.The contrast experiment based on two UCI public credit audit data sets shows that credit scoring results of GBDT is obviously superior to the result of Support Vector Machine(SVM)and Logistic Regression(LR)with good stability and universal applicability.

credit scoring; classification algorithms; GBDT

TN02

:A

:1674-6236(2017)15-0068-05

2016-07-11稿件編號(hào):201607087

王 黎(1992—),女,湖北宜昌人,碩士。研究方向:數(shù)據(jù)挖掘。

猜你喜歡
分類(lèi)
2021年本刊分類(lèi)總目錄
分類(lèi)算一算
垃圾分類(lèi)的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類(lèi)
我給資源分分類(lèi)
垃圾分類(lèi),你準(zhǔn)備好了嗎
分類(lèi)討論求坐標(biāo)
數(shù)據(jù)分析中的分類(lèi)討論
按需分類(lèi)
教你一招:數(shù)的分類(lèi)
主站蜘蛛池模板: 丝袜美女被出水视频一区| 国产成人久久综合777777麻豆| 性视频久久| 国产成人无码久久久久毛片| 国产毛片一区| 欧美国产三级| 亚洲不卡影院| 丰满的熟女一区二区三区l| 色天天综合久久久久综合片| 91探花在线观看国产最新| 欧美性猛交一区二区三区 | 欧美在线网| 久久99热66这里只有精品一| 日韩专区第一页| 亚洲第一黄色网址| 一级毛片免费播放视频| 日本少妇又色又爽又高潮| 国产91全国探花系列在线播放| 天天综合网色中文字幕| 国产精品久久久久鬼色| 手机在线国产精品| www.精品国产| 国产人妖视频一区在线观看| 五月丁香在线视频| a在线观看免费| 97久久免费视频| 五月综合色婷婷| 六月婷婷综合| 国产激情无码一区二区免费| 久久国产精品影院| 国产成人精品高清不卡在线| 女高中生自慰污污网站| 国产偷国产偷在线高清| 国产91丝袜| 国产在线无码av完整版在线观看| 久久久久国产一区二区| 国产二级毛片| 国产成人91精品| 亚洲色婷婷一区二区| 亚洲人成人无码www| 一级毛片免费观看不卡视频| 国产免费久久精品99re不卡| 精品国产污污免费网站| 国产主播福利在线观看| 黄色污网站在线观看| 亚洲欧美激情小说另类| 亚洲成A人V欧美综合| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 精品欧美视频| 色噜噜在线观看| 国产网站免费观看| 99热这里只有精品国产99| 国产一在线| 国产xxxxx免费视频| 亚洲视频无码| 在线观看国产黄色| 一边摸一边做爽的视频17国产| 日韩成人在线视频| 久久精品人人做人人爽97| 亚洲美女一区| 无码精油按摩潮喷在线播放| 在线观看国产精品第一区免费 | 亚洲人成网站在线播放2019| 国产免费黄| 亚洲国产91人成在线| 热99精品视频| 亚洲国产中文综合专区在| 久久综合九色综合97网| 97se亚洲综合在线韩国专区福利| 99久久精品久久久久久婷婷| 成人av专区精品无码国产 | 国产精品黄色片| 91麻豆精品国产91久久久久| 18禁色诱爆乳网站| 亚洲一区免费看| 美女国产在线| 毛片在线播放a| 欧美成人亚洲综合精品欧美激情| 制服丝袜一区二区三区在线| 中文字幕无码中文字幕有码在线| 69av免费视频| 无码一区中文字幕|