999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost的信用風(fēng)險(xiǎn)分析的研究

2018-09-26 10:21:04趙天傲鄭山紅李萬龍劉凱
軟件工程 2018年6期
關(guān)鍵詞:數(shù)據(jù)挖掘

趙天傲 鄭山紅 李萬龍 劉凱

摘 要:在大數(shù)據(jù)時(shí)代如何利用數(shù)據(jù)挖掘處理海量數(shù)據(jù)從而對(duì)信用風(fēng)險(xiǎn)進(jìn)行預(yù)測分析成為了當(dāng)下非常重要的問題,本文運(yùn)用XGBoost算法建立信用風(fēng)險(xiǎn)分析模型,運(yùn)用柵格搜索等方法調(diào)優(yōu)XGBoost參數(shù),基于以AUC、準(zhǔn)確率、ROC曲線等評(píng)價(jià)指標(biāo),與決策樹、GBDT、支持向量機(jī)等模型進(jìn)行對(duì)比分析,基于德國信用數(shù)據(jù)集驗(yàn)證了該模型的有效性及高效性。

關(guān)鍵詞:信用風(fēng)險(xiǎn)分析;XGBoost;數(shù)據(jù)挖掘;柵格搜索

中圖分類號(hào):TP39 文獻(xiàn)標(biāo)識(shí)碼:A

1 引言(Introduction)

銀行信用風(fēng)險(xiǎn)的大小和質(zhì)量決定著銀行盈利水平的高低,對(duì)銀行穩(wěn)定、長遠(yuǎn)的發(fā)展有著至關(guān)重要的影響[1],銀行使用數(shù)據(jù)挖掘方法建立目的明確、層次分明的信用風(fēng)險(xiǎn)分析模型有著重要價(jià)值。

早期的信用風(fēng)險(xiǎn)研究尋求數(shù)學(xué)解決方法,Z分?jǐn)?shù)模型等都是比較具有代表性的方法[2,3]。隨著銀行信貸的大規(guī)模增長及客戶信用信息的迅速變化,形成了復(fù)雜的數(shù)據(jù)資源,信用風(fēng)險(xiǎn)的形式與日俱增。因此,Hashemi and Blanc、Guilherme Barreto Fernandes、謝宇等分別采用神經(jīng)網(wǎng)絡(luò)和粗糙集成分集合[4]、logistic模型作為解釋變量[5]、改進(jìn)BP人工神經(jīng)網(wǎng)絡(luò)模型[6]對(duì)銀行信用風(fēng)險(xiǎn)進(jìn)行預(yù)測得到了較好改進(jìn)。但以上的方法在預(yù)測精度和準(zhǔn)確性上還有待提高。

本文引入XGBoost(eXtreme Gradient Boosting)[7]算法建立信用風(fēng)險(xiǎn)分析優(yōu)化模型,基于UCI上德國信用數(shù)據(jù)集與決策樹、GBDT、支持向量機(jī)等模型進(jìn)行對(duì)比分析,驗(yàn)證了XGBoost模型應(yīng)用于信用風(fēng)險(xiǎn)分析具有更好的性能。

2 XGBoost介紹(Introduction to XGBoost)

XGBoost由陳天奇博士提出的boosting型樹類算法,能進(jìn)行多線程并行計(jì)算,通過一次次迭代生成一代代新的樹,實(shí)際上是把很多分類性能較低的弱學(xué)習(xí)器組合成一個(gè)準(zhǔn)確率高的強(qiáng)學(xué)習(xí)器,每個(gè)決策樹可能沒有良好的分類效果,但是多個(gè)分類的結(jié)果肯定會(huì)得到更準(zhǔn)確的預(yù)測。XGBoost加入正則項(xiàng)到目標(biāo)函數(shù)尋求最優(yōu)解,平衡目標(biāo)函數(shù)的下降和模型的復(fù)雜度,避免出現(xiàn)過擬合現(xiàn)象,具有運(yùn)行速度快、分類效果好、支持自定義損失函數(shù)等優(yōu)點(diǎn)。我們希望建立K棵使樹群的預(yù)測值盡量真實(shí)且泛化能力強(qiáng)的回歸樹。

XGBoost最根本就是由決策樹集成而來,我們把樹模型寫成:

式(1)中,,其中F對(duì)應(yīng)所有回歸樹的集合,xi表示第i個(gè)特征向量,每個(gè)f是樹空間F的一棵樹,每一棵樹fk對(duì)應(yīng)一個(gè)獨(dú)立的葉子權(quán)重w和樹結(jié)構(gòu)q。此時(shí)需要引入目標(biāo)函數(shù):

L部分為誤差函數(shù),表示模型擬合數(shù)據(jù)的程度,Ω表示正則項(xiàng),是所有正則化項(xiàng)累加和,用來處理復(fù)雜模型,對(duì)復(fù)雜模型進(jìn)行簡單化處理。對(duì)于模型誤差部分用additive training訓(xùn)練,通過對(duì)平方誤差泰勒展開二次項(xiàng),帶入正則化項(xiàng),得到最終目標(biāo)函數(shù)為:

其中的和是XGBoost自定義的,顯然、越大,表示希望獲得更簡單的樹,這樣處理能很清楚的理解這個(gè)目標(biāo),Obj分?jǐn)?shù)越小表示生成的樹的結(jié)構(gòu)越好。至此樹的類型已經(jīng)能夠確定,接下來需要進(jìn)行樹的分裂,采用貪心生長樹的方法,遍歷所有特征,從而找到最優(yōu)的特征分裂,到達(dá)一定深度或不能再分裂時(shí)停止,基于目標(biāo)函數(shù)值比較分裂前后的最小目標(biāo)函數(shù)值,增益最大的點(diǎn)為最優(yōu)點(diǎn),對(duì)應(yīng)特征為最優(yōu)特征。

3 基于XGBoost的預(yù)測方法(The prediction method

based on XGBoost)

3.1 數(shù)據(jù)預(yù)處理

本文使用的數(shù)據(jù)來自UCI上公開的德國信用數(shù)據(jù)集,包括24個(gè)變量。獲得該數(shù)據(jù)集后,首先標(biāo)準(zhǔn)化處理數(shù)據(jù),清理數(shù)據(jù)集中的異常值,糾正錯(cuò)誤數(shù)據(jù),通過平滑噪聲、數(shù)據(jù)規(guī)約等方式使得數(shù)據(jù)更加適用于本模型,同時(shí)添加ID屬性,對(duì)每個(gè)屬性添加屬性名并做規(guī)范化。

3.2 XGBoost的參數(shù)優(yōu)化

本文對(duì)于XGBoost涉及優(yōu)化的參數(shù)有:max_depth、min_child_weight、gamma、seed、objective。

max_depth表示樹的最大深度,能夠避免過擬合,限制樹分裂的程度,值越大,模型越容易產(chǎn)生局部最優(yōu)情況,典型值3-10;min_child_weight確定最小葉節(jié)點(diǎn)樣本權(quán)重和,值較大能夠避免局部特殊樣本的學(xué)習(xí),但是值過高會(huì)導(dǎo)致欠擬合。由于以上三種參數(shù)值都為整數(shù)值,且值的范圍較小,所以運(yùn)用柵格搜索法進(jìn)行調(diào)整尋求最優(yōu)參數(shù)值,柵格搜索法是一種窮舉搜索方法,它指定參數(shù)值,排列每個(gè)參數(shù)的可能值,列出所有可能的組合,并生成“網(wǎng)格”,然后訓(xùn)練每個(gè)組合,進(jìn)行交叉驗(yàn)證評(píng)估性能。

gamma指所需的最小損失函數(shù)下降值,滿足該值節(jié)點(diǎn)才會(huì)分裂,值越大,算法越保守;seed是隨機(jī)種子個(gè)數(shù),用于調(diào)整參數(shù)、顯示隨機(jī)數(shù)據(jù)結(jié)果。因?yàn)閮山M參數(shù)的值為隨機(jī)值或者連續(xù)值,所以隨機(jī)選取幾個(gè)合理的數(shù)值分別進(jìn)行調(diào)整,選取最優(yōu)的數(shù)值作為參數(shù)值。

objective定義需要最小化的損失函數(shù),常用值有:二分類邏輯回歸—binary:logistic;多分類器—multi:softmax。本文為二分類數(shù)據(jù),根據(jù)經(jīng)驗(yàn)值來確定參數(shù)。

3.3 XGBoost模型描述

XGBoost最根本的就是希望建立K棵回歸樹,使得準(zhǔn)確率高、泛化性好、預(yù)測誤差盡量小,葉子節(jié)點(diǎn)盡量少的目標(biāo)函數(shù)才能訓(xùn)練出更好的模型,利用貪心策略及二次最優(yōu)化確定最優(yōu)節(jié)點(diǎn)及最小的損失函數(shù),以此為依據(jù)進(jìn)行樹分裂,得到小樹苗,接下來按照上述方式繼續(xù)分裂,并繼續(xù)形成新樹,根據(jù)之前的預(yù)測每次都會(huì)建立最優(yōu)的樹,當(dāng)達(dá)到max_depth時(shí)停止迭代;此時(shí)我們得到了最基本的模型,之后使用柵格搜索等方法對(duì)幾種參數(shù)進(jìn)行優(yōu)化,從而分析數(shù)據(jù)。

優(yōu)化后的XGBoost模型如下,模型圖如圖1所示:

(1)初始化回歸樹,損失函數(shù)集合,此時(shí)模型為常數(shù)值

(2)While k on 1,2,3,...,T do

(3)do

(4)計(jì)算損失函數(shù)L的最小值m

(5)把m加到中

(6)While t on 1,2,3,...,T

(7)中選取m最小時(shí)t對(duì)應(yīng)的開始建樹

(8)采用貪心法尋找最優(yōu)分裂節(jié)點(diǎn)迭代生成新的樹

(9)If deep>max deep break

(10)得到最終模型

(11)利用Raster search等方法調(diào)優(yōu)參數(shù)

(12)優(yōu)化模型分析數(shù)據(jù)

4 實(shí)驗(yàn)分析(Experimental analysis)

本文所使用的德國信用數(shù)據(jù)集如表1所示。

使用python語言和Pycharm軟件來實(shí)現(xiàn)模型,用到了pandas、itertools、numpy等包,分別使用決策樹、GBDT、SVM及XGBoost進(jìn)行分析比較,采用K折交叉驗(yàn)證的方式(5折、10折交叉驗(yàn)證)分別處理數(shù)據(jù)集,對(duì)比幾種算法的精密度Precision(Precision=TP/(TP+FP))、召回率Recall(Recall=TP/(TP+FN))、準(zhǔn)確度AUC值、F1值(F1 Score=P*R/2(P+R)、Accuracy(Accuracy=(TP+TN)/(TP+FP+TN+FN))、真假陽性率False Positive Rate—True Positive Rate折線圖;P和R分別為Precisionl和Recal)等指標(biāo),其中TP為真陽性,F(xiàn)P為假陽性,TN為真陰性,F(xiàn)N為假陰性。

從表2和表3可以看出,XGBoost比決策樹、GBDT、SVM在各項(xiàng)指標(biāo)上的值均有不同程度的提高;同時(shí),優(yōu)化后的XGBoost在各項(xiàng)指標(biāo)上都有所提升;優(yōu)化后的XGBoost的平均Accuracy和AUC值比決策樹、GBDT、支持向量機(jī)分別高出4.19%、3.3%、3.34%;優(yōu)化后的XGBoost平均F1值比決策樹、GBDT、支持向量機(jī)分別高出7.5%、3.5%、5%;相比較其他幾種算法,準(zhǔn)確性、召回率均有提高。

圖2為XGBoost、決策樹、GBDT、SVM的ROC曲線圖(受試者工作特征曲線)。曲線下方的面積即為AUC,當(dāng)AUC越接近1時(shí),分類器越完美;由圖可知,XGBoost的ROC曲線最優(yōu),這說明XGBoost的分類效果最好。

5 結(jié)論(Couclusion)

本文研究基于XGBoost算法對(duì)信用風(fēng)險(xiǎn)進(jìn)行分析,以德國信用公開數(shù)據(jù)集作為數(shù)據(jù)源,采用K折交叉驗(yàn)證法,通過柵格搜索、經(jīng)驗(yàn)值調(diào)參等方法對(duì)參數(shù)進(jìn)行調(diào)整,基于AUC、準(zhǔn)確率、ROC曲線等評(píng)價(jià)指標(biāo),與決策樹、GBDT、支持向量機(jī)等模型進(jìn)行對(duì)比分析。實(shí)驗(yàn)表明調(diào)優(yōu)后的XGBoost算法應(yīng)用于數(shù)據(jù)集上比調(diào)參前在各方面均有明顯調(diào)整,同時(shí)XGBoost算法相對(duì)于常用的決策樹、GBDT和支持向量機(jī)算法,無論是準(zhǔn)確性還是分類效果等方向都有更加明顯的優(yōu)勢(shì),驗(yàn)證了XGBoost模型的有效性和精確度。

參考文獻(xiàn)(References)

[1] Cheng-Lung Huang,Mu-Chen Chen,Chieh-Jen Wang.Credit scoring with a data mining approach based on support vector machines[J].Expert Systems with Applications,2007,33(4):847-856.

[2] Edward I Altman,Anthony Saunders.Credit risk measurement: Developments over the last 20 years[J].Journal of Banking and Finance,1997,21(11):1721-1742.

[3] Michel Crouhy,Dan Galai,Robert Mark.A comparative analysis of current credit risk models[J].Journal of Banking and Finance,2000,24(1):59-117.

[4] R.R.Hashemi,L.A.Le Blanc,C.T.Rucks,A.Rajaratnam.A hybrid intelligent system for predicting bank holding structures[J].European Journal of Operational Research,1998,109(2):390-402.

[5] Guilherme Barreto Fernandes,Rinaldo Artes.Spatial dependence in credit risk and its improvement in credit scoring[J].European Journal of Operational Research,2016,249(2):517-524.

[6] 謝宇.基于人工神經(jīng)網(wǎng)絡(luò)的商業(yè)銀行信貸風(fēng)險(xiǎn)預(yù)警研究[D].暨南大學(xué),2010.

[7] Chen T,Guestrin C.XGBoost:A Scalable Tree Boosting System[J].KDD '16 Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2016:785-794.

作者簡介:

趙天傲(1993-),男,碩士生.研究領(lǐng)域:數(shù)據(jù)挖掘.

鄭山紅(1970-),女,博士,教授.研究領(lǐng)域:軟件工程.

李萬龍(1963-),男,教授.研究領(lǐng)域:軟件工程.

劉 凱(1991-),女,碩士生.研究領(lǐng)域:人工智能.

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
主站蜘蛛池模板: 国产人妖视频一区在线观看| 美女一区二区在线观看| 国产精品林美惠子在线播放| yjizz视频最新网站在线| 97综合久久| 国产99精品久久| 国产自无码视频在线观看| 国产激爽大片在线播放| 中文字幕 91| 欧洲一区二区三区无码| 天天色综合4| 久久精品国产精品青草app| 毛片大全免费观看| 久久伊人色| 怡春院欧美一区二区三区免费| 欧美在线精品怡红院| 国产一级在线播放| 国产chinese男男gay视频网| 亚洲国产精品美女| 极品尤物av美乳在线观看| 美女免费黄网站| 国产99久久亚洲综合精品西瓜tv| 香蕉eeww99国产在线观看| 91在线一9|永久视频在线| 91久久夜色精品| 91亚洲精选| 日韩欧美国产精品| 午夜福利网址| 欧美在线视频不卡第一页| 五月婷婷伊人网| 亚洲欧洲日产国码无码av喷潮| 日本免费福利视频| 在线免费a视频| 亚洲最猛黑人xxxx黑人猛交| 中文字幕久久波多野结衣| 秋霞一区二区三区| 色噜噜综合网| 爆操波多野结衣| 国产手机在线观看| 呦女精品网站| 国产一级毛片yw| 天天爽免费视频| 婷婷亚洲视频| 成人亚洲视频| 国产精品视频999| 日韩毛片免费观看| 欧美中日韩在线| av在线5g无码天天| 国内老司机精品视频在线播出| 尤物视频一区| 色欲国产一区二区日韩欧美| 亚洲一区无码在线| 国产精品美人久久久久久AV| 日本黄色不卡视频| 国产一区三区二区中文在线| 日韩午夜片| 亚洲av无码专区久久蜜芽| 国产日韩欧美成人| 日韩专区欧美| 中文字幕在线永久在线视频2020| 草草影院国产第一页| 被公侵犯人妻少妇一区二区三区| 9啪在线视频| 亚洲无码不卡网| 国产欧美日韩专区发布| 日韩毛片免费| 不卡午夜视频| 99精品高清在线播放| 国产亚洲精品91| 一级香蕉人体视频| 亚洲精品自产拍在线观看APP| 久久久久亚洲Av片无码观看| 国产女人18水真多毛片18精品| 高清国产在线| 亚洲精品成人福利在线电影| 国产农村1级毛片| 2020国产精品视频| 亚洲综合片| 四虎成人免费毛片| 妇女自拍偷自拍亚洲精品| 全部免费特黄特色大片视频| 国产成人免费高清AⅤ|