999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于組合特征選擇的隨機森林信用評估①

2022-05-10 12:12:44饒姍姍冷小鵬
計算機系統(tǒng)應(yīng)用 2022年3期
關(guān)鍵詞:特征方法模型

饒姍姍,冷小鵬

(成都理工大學 計算機與網(wǎng)絡(luò)安全學院(牛津布魯克斯學院),成都 610051)

當下是金融經(jīng)濟的飛速發(fā)展時代,個人信用評估數(shù)據(jù)普遍表現(xiàn)為高維度、高復雜度等特點,無關(guān)、冗余的評價因子會直接影響信用評估模型的準確性,而評價因子的優(yōu)劣取決于特征選擇方法的選擇是否合理、全面.目前常用的特征選擇方法包括過濾法(filter)、包裹法(wrapper)、嵌入法(embedded)[1].Filter 方法利用統(tǒng)計學方法評估變量與預(yù)測變量間的關(guān)系,該方法優(yōu)勢在于計算簡單、速度快;wrapper 方法通過對生成的子特征組合與其他組合進行比較,依賴于學習算法的準確度;embedded 方法是通過在訓練模型的過程中根據(jù)準確度學習并選擇出最優(yōu)的特征組合.本文選用的信息量模型(information value)與XGBoost (extreme gradient boosting)分別是Filter和Embedded 方法的實現(xiàn).結(jié)合兩種不同的特征選擇方法不僅能夠提高輸入變量的有效性同時增強了整個模型的可解釋性.

近二十年來,信用風險評估方法主要分為兩部分:統(tǒng)計學方法和機器學習方法.Fernandes 等[2]利用邏輯回歸算法建立了信用評估模型,并通過實驗證實了logistic 算法在信貸評估業(yè)務(wù)的可行性,成為了主流的統(tǒng)計學方法之一.郭暢[3]將IV與Lasso-Logistic 結(jié)合,通過IV 排除風險識別能力、穩(wěn)定性較差的變量,整體提升了信用預(yù)測模型的效果.然而隨著信息技術(shù)的迅猛發(fā)展,傳統(tǒng)的統(tǒng)計學評分模型暴露出3 個主要問題:一是模型單一;二是處理數(shù)據(jù)維度較小;三是主要以專家評價法為主,預(yù)測結(jié)果缺乏客觀性[4];為了解決這些問題,學者們嘗試將機器學習建模技術(shù)應(yīng)用在個人信用評估業(yè)務(wù)中,其中主要包括決策樹[5]、BP 神經(jīng)網(wǎng)絡(luò)[6]、支持向量機(SVM)[7]等模型,但單一機器學習模型處理的數(shù)據(jù)維度和預(yù)測精度有限,為決定該問題,集成算法逐漸應(yīng)用在個人信用評估領(lǐng)域中.Twala[8]、Zhu 等[9]使用5 類信用數(shù)據(jù)證實了集成算法在信用評估領(lǐng)域表現(xiàn)出更優(yōu)的預(yù)測效果并且多個分類器組合顯著提高了整個模型的學習能力;蕭超武等[10]基于組合分類模型隨機森林(RF),發(fā)現(xiàn)RF 模型分類準確率、穩(wěn)定性更高,并且噪聲容忍度高,訓練過程中能夠效避免過擬合現(xiàn)象.周永圣等[11]首次將XGBoost和隨機森林模型兩種不同的集成算法融入到信用評估中,證實了XGBoost 算法基于特征重要性能有效剔除信用數(shù)據(jù)冗余變量,但該實驗缺少對比實驗且變量選取較隨意、可靠性較低.李欣等[12]提出一種基于改進網(wǎng)格搜索優(yōu)化的XGBoost模型,實驗結(jié)果顯示F-score和G-mean均優(yōu)于其他機器學習模型,進一步表明集成算法的優(yōu)越性.

鑒于個人信用數(shù)據(jù)維度高、變量冗余度高的特點,本文采用IV-XGBoost 組合特征選擇方法對隨機森林模型進行優(yōu)化,不僅避免了傳統(tǒng)特征選擇方法的單一性同時能夠更好解決數(shù)據(jù)維度過高的問題;IV 值剔除冗余、無預(yù)測能力的變量,XGBoost 利用變量打分機制篩選變量,采樣逐步排除法輸出最優(yōu)特征集,相比根據(jù)特征重要性排名隨意選取的方法,該組合特征選擇模型更加合理并且可信度高;此外超參數(shù)組合會直接影響RF 模型的預(yù)測效果,利用網(wǎng)格-5 折對RF 中的重要參數(shù)進行參數(shù)尋優(yōu).最后實驗結(jié)果表明基于新型的組合特征選擇方法的隨機森林相比其他單一的機器學習方法以及原始的集成算法有著更高的穩(wěn)定性和預(yù)測準確率.

1 特征選擇理論與方法

1.1 證據(jù)權(quán)重(WOE)與信息價值(IV)

WOE (weight of evidence)即為證據(jù)權(quán)重,通過編碼的方式將自變量表示成其對目標變量的區(qū)分程度的形式.根據(jù)WOE值大小反映某屬性對目標的影響,若同一屬性的不同劃分標準計算出的WOE值越大,則表明該屬性對目標屬性的區(qū)分度越大,其計算公式:

其中,WOE(x)是變量進行分箱處理后第i組的WOE值,其中pyi是該組未響應(yīng)樣本(‘未違約客戶’)占比;pni是響應(yīng)樣本(‘違約客戶’)占比;yi是某變量第i個屬性對應(yīng)的未響應(yīng)樣本數(shù),yT是所有未響應(yīng)樣本數(shù);ni是某變量第i個屬性對應(yīng)的響應(yīng)樣本數(shù),nT是是所有響應(yīng)樣本數(shù).

信息量(IV)是基于WOE 算法改進的衡量指標,其計算本質(zhì)是某變量所有屬性的WOE值加權(quán)求和,其值大小反映了變量對目標變量的預(yù)測能力.IV 通常應(yīng)用在風控模型中評價因子的選擇,其計算公式:

其中,WOEi是某變量進行離散化處理后第i組的WOE 值;其中yi是某變量第i個屬性對應(yīng)的未響應(yīng)樣本數(shù);T是所有未響應(yīng)樣本數(shù);ni是某變量第i個屬性對應(yīng)的響應(yīng)樣本數(shù);nT所有響應(yīng)樣本數(shù).

1.2 XGBoost 特征選擇

1.2.1 算法原理

XGBoost[13]是基于梯度提升算法GBDT 改進的新型集成學習算法,其主要算法思想是將多個分類精度較低的子樹模型進行迭代組合從而構(gòu)建出準確度、穩(wěn)定性更強的模型.XGBoost 在GBDT的原目標函數(shù)上加入了正則項,因此加快了收斂效率的同時降低過擬合風險.其變換后的公式如下:

式(4)計算所有子樹的復雜度總和,其中Ω (f)是正則化項;N代表子樹中葉子節(jié)點個數(shù);λ代表了葉子節(jié)點權(quán)重O的懲罰系統(tǒng)值;γ是衡量樹的分割難度大小,用于控制樹生長.

XGBoost與GBDT的不同之處在于前者是以泰勒公式二階導展開,從而加快了函數(shù)收斂速度且提高了模型預(yù)測準確度,其變換后目標函數(shù)為:

其中,Ij∈{q(Xi)=j},hi為[l(α)]′′,gi為[l(α)]′.

1.2.2 XGBoost 特征選擇原理

機器學習中特征選擇是建模工作中至關(guān)重要的環(huán)節(jié),XGBoost 采用梯度提升的原理對樣本進行分類,該模型是根據(jù)計算各個變量的重要性來進行特征選擇,其主要原理是子樹節(jié)點在分裂的同時計算其信息增益量,并選擇差值最大的指標作為下一次的分裂屬性,直到完成全部計算.本文根據(jù)XGBoost 計算后輸出的特征重要性排名,由低到高逐個加入到特征集并計算RF模型準確度,選取準確度最高的特征集作為最終特征選擇的結(jié)果.

2 改進的隨機森林個人信用評估模型

2.1 隨機森林算法

隨機森林是Breiman[14]提出的基于樹的集成學習算法,根據(jù)特征數(shù)對每個樣本選取分裂指標進而構(gòu)建單棵子樹.隨機森林旨在集成多個弱分類器來構(gòu)建一個強分類器,各個基分類器之間相互互補,降低了方差以及過擬合的風險,從而提高模型的性能.

RF是在Bagging 集成學習和隨機子空間的基礎(chǔ)上進一步優(yōu)化的集成學習算法,由服從獨立同分步隨機向量 θi生成的i棵樹{Wi(x,θi),i=1,2,3,···},i棵子樹最終形成集成樹模型.RF 模型的最終結(jié)果采用基分類器中平均票數(shù)最多的結(jié)果作為輸出.隨機森林模型算法流程如下:

(1)采用Bootstrap 方法有放回的從總量為W的訓練集中隨機抽取形成N個子訓練集 {Ni},i∈{1,2,3,4,5,···,k}每個訓練子樣本對應(yīng)一棵CART 樹.

(2)隨機森林由i棵分類樹構(gòu)成,每棵分類樹的子節(jié)點在進行分裂時隨機選擇分裂指標數(shù)n(n≤M),其中M為總樣本的指標個數(shù),根據(jù)衡量指標大小選擇最優(yōu)分割指標進行劃分.

(3)不斷重復步驟(2),直至森林中所有的子樹構(gòu)建完成.

(4)由i棵子樹形成最終隨機森林,將待測試樣本引入構(gòu)建好的隨機森林,最終結(jié)果采用投票選舉的方式產(chǎn)生.其最終的決策函數(shù)Prf(X)由式(6)得出:

其中,w(X,θi)為單個分類決策樹;l(·)為指標函數(shù)表示滿足式子的樣本總數(shù);k為待建子樹棵數(shù);Y為目標變量,解釋為是否違約;θi是隨機變量.

隨機森林的決策結(jié)果取決于每一棵子樹的訓練結(jié)果,分裂指標的選取決定了分裂標準,隨機森林一般采用基尼指數(shù)(Gini),其大小衡量了各節(jié)點混亂程度,其計算如下:

其中,p(y|c)為客戶類別y在子樹c節(jié)點的條件概率;一般來說基尼指數(shù)越大,表明在該節(jié)點處的數(shù)據(jù)越趨向均勻分布,樣本越純;當Gini指數(shù)為0 時,表明該節(jié)點所有樣本均為一個類.

2.2 改進的RF 模型流程

基于IV-XGBoostRF的個人信用評估算法模型流程圖(如圖1),其運行步驟如下:

圖1 IV-XGBoost-RF 模型

步驟(1)剔除異常值、重復值、缺失值,對數(shù)據(jù)中的連續(xù)型變量采用最優(yōu)決策樹分箱進行離散化、歸一化.

步驟(2)采用皮爾遜相關(guān)分析排除變量間的強相關(guān)變量進而排除變量間共線性可能;同時進行WOE 編碼以及計算分箱后各變量屬性的IV 值,并通過IV 值篩選產(chǎn)生初步的特征集;根據(jù)XGBoost 輸出該特征集的重要性完成組合特征選擇.

步驟(3) 利用超參數(shù)曲線確定森林大小參數(shù)n_estimators、網(wǎng)格搜索確定其他重要參數(shù);為了減少訓練集、測試集劃分的隨機性,實驗過程采用五折交叉驗證,將數(shù)據(jù)集A隨機分為5 份訓練樣本,A1,A2,…,A5,每一個樣本Ai都逐次作為訓練數(shù)據(jù),其余為測試數(shù)據(jù).

步驟(4)模型評估.

3 實證分析

3.1 實驗數(shù)據(jù)

實驗數(shù)據(jù)集來自UCI 德國某銀行信用數(shù)據(jù),利用該數(shù)據(jù)集驗證改進的隨機森林模型的可行性,數(shù)據(jù)集主要從個人基本信息、賬戶信息、貸款信息3 個方面對客戶進行描述,樣本大小為1 000 個樣本,其中正例700 例,反例300,不平衡率為2.3,具體的指標信息如表1所示.

表1 數(shù)據(jù)集信息說明

3.2 數(shù)據(jù)預(yù)處理與分析

(1)變量分箱

選用最優(yōu)決策樹分箱,通過比較Gini系數(shù)大小決定分箱點,對數(shù)據(jù)集中R2 (貸款期限)、R5 (貸款金額)、R13 (年齡) 3 個連續(xù)型變量進行決策樹分箱同時計算IV、WOE 值,結(jié)果如表2所示.

表2 貸款期限R2與貸款金額R5 及年齡R13 證據(jù)權(quán)重

(2)皮爾遜相關(guān)分析

根據(jù)計算得到各變量間相關(guān)性系數(shù)范圍為0.01-0.4,各指標間關(guān)聯(lián)性均呈弱相關(guān),因此排除變量間共線性可能.同時結(jié)果顯示支票賬戶情況、貸款期限、信用記錄特征與是否違約相關(guān)度較高.

3.3 特征選擇

基于IV-XGBoost 進行特征篩選,具體步驟如下:

(1)根據(jù)信息價值計算公式分別計算20 個指標對應(yīng)IV 值(如表3),剔除信息量小于0.02的特征,即R17、R19、R11、R18,剩余16 個待篩選特征.

表3 各指標IV 值大小及排名

(2)根據(jù)圖2中XGBoost 對16 個特征的重要性排名結(jié)果,采用逐步減小變量個數(shù)(如表4),以準確度作為衡量標準最終選擇XGBoost 重要性排名前14的特征(加粗為準確度最高).

圖2 XGBoost 特征重要性排序

表4 特征數(shù)量選擇及模型準確度 (%)

3.4 模型性能評估

經(jīng)過信息值IV 以及XGBoost 特征選擇后保留了14 個信用評估特征,使用超參數(shù)學習曲線結(jié)合網(wǎng)格搜索確定RF 模型重要參數(shù)n_estimators=104、max_features=4、min_samples_split=3,該參數(shù)組合下的RF 評估性能最優(yōu).為了進一步驗證改進后的隨機森林模型的性能,實驗分別與其他五種機器學習模型相比較;實驗過程采用五折交叉驗證減小隨機性對結(jié)果的影響,據(jù)此作以下分析:

(1)根據(jù)表5實驗結(jié)果,改進后的隨機森林的準確度分別高于默認參數(shù)下的隨機森林、邏輯回歸、支持向量機、BP 神經(jīng)網(wǎng)絡(luò)模型0.90%、3.80%、2.70%、1.30%.

表5 5 種模型實驗結(jié)果

(2)ROC 曲線用來衡量模型分類性能優(yōu)劣的一種圖像,ROC 曲線越靠近左上方模型分類效果越好;其ROC 曲線下方于X、Y 軸圍成的面積為AUC 值,其范圍在0-1 之間,AUC 值越高表明模型性能越優(yōu).圖3顯示改進的隨機森林模型AUC 值高于其他模型,其AUC 值為到0.971,ROC 曲線更靠近左上方.

圖3 5 種模型ROC 曲線

(3)未改進的隨機森林模型F-score為0.874 2,改進后隨機森林F-score為0.895 7,有明顯的提升.

4 結(jié)論與展望

本文提出了組合特征選擇的方法,首次將傳統(tǒng)的風控指標-信息價值(IV)和新型集成學習方法XGBoost相結(jié)合,以隨機森林作為信用評估器.現(xiàn)針對提出的改進方法作以下幾點總結(jié):

(1)根據(jù)組合特征選擇結(jié)果總結(jié)出銀行系統(tǒng)應(yīng)該更關(guān)注貸款與賬戶相關(guān)信息,如支票賬戶狀態(tài)、信用記錄、貸款期限、貸款目的、儲蓄賬戶情況、固定資產(chǎn)等銀行賬戶等因素;個人基本信息中更關(guān)注就業(yè)情況、婚姻狀況因素.符合常理.

(2)基于IV-XGBoost的組合特征選擇方法相比直接通過分類算法的特征重要性排序剔除特征更加合理且符合業(yè)務(wù)邏輯;同時 IV 計算量小且簡單,當數(shù)據(jù)維度較大時,可以有效地減少模型訓練時間從而進一步提高算法整體性能.

(3)與未改進的隨機森林模型比較,改進的隨機森林模型Accuracy 平均值提高0.90%,F-score 提高了2.15%,AUC 提高了0.20%,證實本文提出的IVXGBoost 組合特征選擇方法的有效性和可行性.

不足以及未來展望:1)本文的實驗還有一些不足,由于條件有限實驗數(shù)據(jù)集較小,僅能證實特征選擇方法和集成模型有效性和可行性,在大數(shù)據(jù)集上該組合特征選擇的效率高低并未得到證實;2)面對大數(shù)據(jù)集的個人信用數(shù)據(jù),能否將大數(shù)據(jù)技術(shù)與集成學習算法相結(jié)合也是未來研究的主要方向.

猜你喜歡
特征方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产一级无码不卡视频| 欧美成人午夜在线全部免费| 国产二级毛片| 日韩精品资源| AV无码一区二区三区四区| 国产免费久久精品99re丫丫一 | 大香伊人久久| 国产精品区网红主播在线观看| 91麻豆精品国产91久久久久| 亚洲欧美日韩中文字幕一区二区三区| 香蕉蕉亚亚洲aav综合| 高潮毛片无遮挡高清视频播放| aⅴ免费在线观看| 国产精品亚洲片在线va| 国产日韩丝袜一二三区| 国产精品第三页在线看| 国产一级二级在线观看| 亚洲综合18p| 极品国产一区二区三区| 亚洲天堂色色人体| 99在线小视频| 亚洲三级a| 国产微拍精品| 美女亚洲一区| 2021最新国产精品网站| 久热99这里只有精品视频6| 青青热久免费精品视频6| 一本大道东京热无码av| 91网在线| 又黄又爽视频好爽视频| 欧美日韩国产精品va| 天天色天天综合网| 精品伊人久久大香线蕉网站| 亚洲日本www| 免费A级毛片无码免费视频| 国产精品久线在线观看| 午夜国产小视频| 不卡国产视频第一页| 中文字幕乱码二三区免费| 色窝窝免费一区二区三区| 天天综合天天综合| 伊人久久婷婷| 亚洲中文无码av永久伊人| 成人在线观看不卡| 欧美日韩一区二区三| 狠狠色噜噜狠狠狠狠色综合久| 午夜丁香婷婷| 国产午夜小视频| 四虎永久在线精品影院| 亚洲最新在线| 国产青榴视频| 国产伦精品一区二区三区视频优播| 国产在线98福利播放视频免费| 久久一日本道色综合久久| 亚洲色图欧美| 亚洲成肉网| 亚洲无码电影| 日韩无码精品人妻| 国产美女精品在线| 亚洲第一中文字幕| 一区二区三区四区日韩| 夜夜操狠狠操| 欧美日韩中文国产va另类| 亚洲欧美人成人让影院| 91po国产在线精品免费观看| 视频国产精品丝袜第一页| 欧美日韩v| 国产日韩丝袜一二三区| 国产精品女熟高潮视频| 福利国产微拍广场一区视频在线| 精品视频第一页| 国产精品网拍在线| 日本高清免费一本在线观看| 国产理论最新国产精品视频| 国产粉嫩粉嫩的18在线播放91| 五月婷婷综合在线视频| 亚洲日韩日本中文在线| 亚洲va视频| 国产伦片中文免费观看| 亚洲成人免费看| 久久黄色视频影| 色精品视频|