999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CLPSO-CatBoost的貸款風(fēng)險(xiǎn)預(yù)測(cè)方法①

2021-04-23 13:00:52濤,范
關(guān)鍵詞:特征模型

張 濤,范 博

(北京工業(yè)大學(xué) 信息學(xué)部,北京 100124)

隨著全球金融市場(chǎng)的飛速發(fā)展,小微貸款成為金融機(jī)構(gòu)的一項(xiàng)重要業(yè)務(wù).隨著貸款空間的極速膨脹,傳統(tǒng)金融機(jī)構(gòu)貸款業(yè)務(wù)范圍正不斷受到?jīng)_擊,使得互聯(lián)網(wǎng)金融高速發(fā)展.因此,需要有效地控制風(fēng)險(xiǎn)手段維持行業(yè)健康發(fā)展.大量壞賬的出現(xiàn)將會(huì)產(chǎn)生類似次貸危機(jī)的事件,對(duì)我國(guó)經(jīng)濟(jì)發(fā)展造成影響[1].隨著數(shù)據(jù)挖掘技術(shù)的逐漸發(fā)展,其在金融領(lǐng)域的應(yīng)用也更加完善.機(jī)器學(xué)習(xí)技術(shù)為貸款風(fēng)險(xiǎn)預(yù)測(cè)提供了一個(gè)統(tǒng)一、多方面且完整的標(biāo)準(zhǔn),進(jìn)而提高貸款分析的效率與質(zhì)量.

對(duì)于貸款風(fēng)險(xiǎn)預(yù)測(cè),國(guó)內(nèi)外已有較為豐富的研究.傳統(tǒng)方法主要根據(jù)相應(yīng)財(cái)務(wù)指標(biāo)、個(gè)人征信數(shù)據(jù)、借款意圖等多方面結(jié)合,根據(jù)專家意見形成模型.國(guó)內(nèi)外對(duì)于信用評(píng)估已有豐富的研究,主要根據(jù)一些財(cái)務(wù)指標(biāo)計(jì)算結(jié)合專家意見形成模型.Fernandes 等人通過驗(yàn)證提出了基于Logistic 回歸的信用評(píng)估模型,成為了用戶信用評(píng)估的主流方法之一[2].隨后在國(guó)內(nèi)金融環(huán)境里,梁琪分析國(guó)內(nèi)滬深上市公司失敗原因,指出主成分判別模型在風(fēng)險(xiǎn)監(jiān)測(cè)和信用評(píng)估上帶來很高的應(yīng)用價(jià)值[3].然而傳統(tǒng)回歸模型準(zhǔn)確率偏低,難以達(dá)到預(yù)測(cè)效果.而今,結(jié)合機(jī)器學(xué)習(xí)技術(shù)建模已成趨勢(shì).基于隨機(jī)森林的組合分類算法[4]被證明在貸款風(fēng)險(xiǎn)預(yù)測(cè)算法上有著更高的精度和穩(wěn)定性.郭春桃[5]通過比較6 種中小企業(yè)信用風(fēng)險(xiǎn)預(yù)測(cè)的方法,證明集成機(jī)器學(xué)習(xí)模型準(zhǔn)確率高于單一模型.貸款數(shù)據(jù)中包含年齡、性別等多類型數(shù)據(jù),運(yùn)用Gradient Boosting 方法有很好的表現(xiàn).CatBoost (Category Boosting)是一種基于梯度的提升樹算法,能夠很好的處理類別型特征[6].其采用組合類別特征,可有利于發(fā)掘特征之間的聯(lián)系.

粒子群算法(Particle Swarm Optimization,PSO)因其較快的收斂速度和簡(jiǎn)單的算法結(jié)構(gòu)而廣泛應(yīng)用于各大優(yōu)化問題中[7].種群所包含的粒子為問題的解,通過目標(biāo)函數(shù)選出每次迭代后粒子的個(gè)體最優(yōu)值及種群最優(yōu)值.隨后通過粒子速度v更新各個(gè)粒子的位置.然而,PSO 算法在解決多峰問題時(shí),容易陷入局部極值,最終導(dǎo)致提前收斂.Liang 等人提出了綜合學(xué)習(xí)離子群

(Comprehensive Learning Particle Swarm Optimization,CLPSO)算法[8].

根據(jù)貸款信用數(shù)據(jù)復(fù)雜非線性的特點(diǎn),本文采用CatBoost 模型對(duì)貸款風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè).由于CatBoost 自身部分超參數(shù)可解釋性較弱,超參數(shù)將會(huì)影響模型的準(zhǔn)確率.本文利用綜合學(xué)習(xí)粒子群(CLPSO)算法對(duì)CatBoost 進(jìn)行優(yōu)化.CLPSO 算法是一種具有優(yōu)良全局搜索能力的改進(jìn)粒子群算法.在一定程度上避免了粒子群算法的局部收斂問題,可以有效提高CatBoost 貸款預(yù)測(cè)模型的精度.

1 CLPSO與CatBoost 算法原理

1.1 綜合學(xué)習(xí)離子群優(yōu)化算法

傳統(tǒng)粒子群算法通過自身最優(yōu)和全局最優(yōu)兩個(gè)值來更新速度與位置,當(dāng)全局最優(yōu)值陷入局部極值時(shí),所有粒子則容易向其學(xué)習(xí)陷入局部極值中[9].CLPSO 算法的速度更新公式并未引入單一粒子向全局最優(yōu)值學(xué)習(xí)的部分,而是將所有粒子的Pbest作為學(xué)習(xí)樣本.這樣可以提高粒子在不同維度間的信息交換,從而提高了種群多樣性.其中,個(gè)體最優(yōu)值即單個(gè)粒子從開始至當(dāng)前時(shí)間k內(nèi)找到的最優(yōu)解Pbest,全局最優(yōu)值即所有粒子在當(dāng)前時(shí)間內(nèi)找到的最優(yōu)解Pglobal[10].粒子k在i時(shí)刻的速度更新公式如下所示:

根據(jù)粒子k的速度更新公式,其位置更新公式如下:

1.2 CatBoost 算法

在進(jìn)行特征工程時(shí),CatBoost 算法采用了獨(dú)有的分類模式.將所有特征按照貪婪策略進(jìn)行整合,計(jì)算特征的統(tǒng)計(jì)特性與出現(xiàn)頻率,并根據(jù)自身所設(shè)置的超參數(shù)產(chǎn)生特定的衍生字段[11].

傳統(tǒng)梯度下降決策樹(GBDT)模型訓(xùn)練弱學(xué)習(xí)器時(shí)均基于相同的數(shù)據(jù)集求得模型的精度從而導(dǎo)致梯度估計(jì)偏差,最終導(dǎo)致預(yù)測(cè)偏差[12].弱學(xué)習(xí)算法如下:

式中,ht為t代弱學(xué)習(xí)器,gt(x,y)為損失函數(shù)的梯度.面對(duì)GBDT 模型共有的預(yù)測(cè)偏移問題,CatBoost 算法通過提出ordered boosting的方式計(jì)算損失函數(shù)的梯度,從而得到無偏梯度估計(jì).對(duì)每個(gè)樣本xi,算法通過不包含樣本的訓(xùn)練集訓(xùn)練單獨(dú)的模型Mi.針對(duì)每個(gè)樣本所獲得的模型Mi,算法采用求取偏差的方式得到關(guān)于樣本的梯度估計(jì),克服了預(yù)測(cè)偏移.

在進(jìn)行預(yù)測(cè)時(shí),CatBoost 采用完全平衡樹作為基礎(chǔ)預(yù)測(cè)器.因完全平衡二叉樹的對(duì)稱結(jié)構(gòu),其葉子結(jié)點(diǎn)索引可編碼為二進(jìn)制向量,長(zhǎng)度等于樹的深度.算法可將所有特征進(jìn)行二值化用以進(jìn)行模型的預(yù)測(cè).

2 貸款風(fēng)險(xiǎn)評(píng)估模型

2.1 特征工程

本次實(shí)驗(yàn)數(shù)據(jù)選用國(guó)內(nèi)某金融企業(yè)在2016年至2019年間的車輛抵押貸款情況,總計(jì)數(shù)據(jù)26657 條,包含身份信息、車輛信息、社交數(shù)據(jù)、填寫行為多方面總計(jì)78個(gè)特征,其中正樣本21068 條,存在貸款風(fēng)險(xiǎn)的樣本5589 條.

(1)缺失值處理

現(xiàn)實(shí)數(shù)據(jù)往往因?yàn)槎喾N原因?qū)е聰?shù)據(jù)缺失.實(shí)驗(yàn)根據(jù)數(shù)據(jù)的缺失程度對(duì)數(shù)據(jù)進(jìn)行分別處理諸如車輛保險(xiǎn)金額、申請(qǐng)人工作年限等缺失率大于30%的特征,因?qū)?shí)驗(yàn)?zāi)P痛嬖谳^大影響,將其刪除.對(duì)于缺失率低于30%的特征,將使用差補(bǔ)法對(duì)其進(jìn)行補(bǔ)全.對(duì)于連續(xù)特征如審核時(shí)間,采取均值插補(bǔ)法,以特征的中位數(shù)進(jìn)行補(bǔ)充.對(duì)于類型特征如職業(yè)、學(xué)歷等以NAN 進(jìn)行補(bǔ)充.對(duì)于離散特征,如以主要手段為采用均值插補(bǔ)和眾數(shù)插補(bǔ)的方式,根據(jù)該特征其余數(shù)據(jù)預(yù)測(cè)填補(bǔ).去除缺失比例較高的特征后,實(shí)驗(yàn)數(shù)據(jù)剩余57個(gè)特征.

(2)獨(dú)熱編碼

數(shù)量大于3的類型特征通常并不存在比較關(guān)系,但仍以0、1、2 進(jìn)行表示,而實(shí)驗(yàn)算法可能將其數(shù)值大小進(jìn)行邏輯判斷.因此將類型特征進(jìn)行獨(dú)熱編碼,以性別為例,將原本的單一特征轉(zhuǎn)化為是否男性、是否女性兩個(gè)特征.

對(duì)類型變量進(jìn)行獨(dú)熱編碼,共生成48個(gè)子變量,包括性別、學(xué)歷、收入途徑、配偶狀態(tài)、申請(qǐng)渠道等.

(3)特征衍生

使用原始特征進(jìn)行訓(xùn)練所得模型的泛化能力往往較差[13],且模型很難挖掘特征之間的聯(lián)系.故通過傳統(tǒng)信用評(píng)估經(jīng)驗(yàn),從交易異常程度、用戶還款能力兩方面構(gòu)造衍生變量.

其中交易異常程度包括押品價(jià)格與貸款比例、渠道商與申請(qǐng)人是否位于同一市區(qū)、借款用途與收入途徑是否匹配等.用戶還款能力包括近360 天內(nèi)用戶逾期次數(shù)、借款金額與收入比例等.

(4)特征選擇

實(shí)驗(yàn)選用Boruta[14]算法對(duì)特征進(jìn)行選擇.Boruta是一種隨機(jī)森林包裝器,可在不調(diào)整參數(shù)的情況下對(duì)數(shù)個(gè)特征的重要性進(jìn)行估計(jì),篩選出與因變量具有相關(guān)性的特征集合.Boruta 對(duì)每個(gè)特征進(jìn)行計(jì)算,創(chuàng)建出相對(duì)應(yīng)的陰影特征,根據(jù)陰影特征的隨機(jī)性判斷特征的重要程度.

選用XGBoost 作為Boruta的學(xué)習(xí)估計(jì)器[15],定義80 分位數(shù)為選擇陰影與真實(shí)特征的比較閾值,經(jīng)過特征工程后得到以下包含4 維19個(gè)特征的數(shù)據(jù)集,如表1所示.

表1 特征信息表

2.2 實(shí)現(xiàn)流程

始化CLPSO 算法參數(shù),設(shè)定粒子總數(shù)k=20,慣性參數(shù)ω=20,維度d=3,學(xué)習(xí)因子c1=1.5;③ 使用CatBoost 訓(xùn)練模型,完成后帶入測(cè)試集,將交叉熵?fù)p失Logloss 作為適應(yīng)度函數(shù)[16];④ 粒子群算法迭代,尋找當(dāng)適應(yīng)度函數(shù)f最小時(shí),所使用的最優(yōu)參數(shù)向量;⑤ 將最優(yōu)參數(shù)帶入CatBoost 模型中訓(xùn)練.算法流程如圖1.

通過特征工程,實(shí)驗(yàn)算法已經(jīng)可以很好地識(shí)別數(shù)據(jù)進(jìn)行訓(xùn)練,但僅采用CatBoost 模型進(jìn)行訓(xùn)練在精度表現(xiàn)上仍有一定提升空間.因此使用CLPSO 算法優(yōu)化CatBoost 模型中的超參數(shù),包含學(xué)習(xí)速率、正則子參數(shù)及貝葉斯套袋控制強(qiáng)度.將實(shí)驗(yàn)數(shù)據(jù)按照4:1的比例隨機(jī)分為訓(xùn)練集與測(cè)試集,并進(jìn)行試驗(yàn),實(shí)驗(yàn)步驟如下:① 數(shù)據(jù)歸一化,得到可進(jìn)行實(shí)驗(yàn)的數(shù)據(jù)集D;② 初

圖1 CLPSO-CatBoost 算法流程圖

3 實(shí)驗(yàn)分析

3.1 評(píng)價(jià)指標(biāo)

貸款數(shù)據(jù)存在數(shù)據(jù)不平衡的特性,即違約風(fēng)險(xiǎn)樣本數(shù)量遠(yuǎn)小于正常貸款樣本數(shù)量.因此當(dāng)應(yīng)用分類準(zhǔn)確率作為最終評(píng)價(jià)指標(biāo)時(shí),往往會(huì)由于違約樣本數(shù)量過小導(dǎo)致即使誤判違約,準(zhǔn)確率也保持在很高的水平.這樣就失去了貸款違約的預(yù)測(cè)能力,然而個(gè)別貸款違約在日常生活中往往會(huì)對(duì)金融公司產(chǎn)生很大的代價(jià).因此將準(zhǔn)確率作為評(píng)價(jià)指標(biāo)在預(yù)測(cè)貸款風(fēng)險(xiǎn)的二分類模型中是不合理的.本文采用AUC 值作為評(píng)價(jià)指標(biāo).將正常貸款樣本定義為正樣本,違約樣本定義為負(fù)樣本,混淆矩陣定義如表2.

表2 混淆矩陣定義表

根據(jù)混淆矩陣,定義準(zhǔn)確率A(accuracy)、精準(zhǔn)率P(precision)與召回率R(recall),定義如下:

根據(jù)上述定義,可以求得ROC 曲線,用以考量針對(duì)不平衡樣本的預(yù)測(cè)精度.

3.2 結(jié)果分析

經(jīng)過綜合學(xué)習(xí)粒子群算法對(duì)學(xué)習(xí)速率、正則子參數(shù)及貝葉斯套袋控制強(qiáng)度的調(diào)節(jié),經(jīng)過120 次迭代,得到最優(yōu)參數(shù).將CLPSO-CatBoost與PSO-CatBoost的模型誤差率進(jìn)行對(duì)比,二者迭代過程如圖2所示.

圖2 CLPSO和PSO 尋優(yōu)迭代曲線

PSO與CLPSO 算法在優(yōu)化CatBoost 模型時(shí),二者收斂速度相差不大,均能在40 次內(nèi)獲得良好的優(yōu)化效果,但可以發(fā)現(xiàn),PSO 算法在隨后的迭代中陷入了局部最優(yōu),而CLPSO 算法表現(xiàn)出了更好的局部尋優(yōu)能力.由此說明,CLPSO 算法在優(yōu)化CatBoost 模型時(shí),能夠跳出局部最優(yōu),所得模型對(duì)數(shù)損失更小.CLPSOCatBoost 模型的準(zhǔn)確率90.42%高于并未進(jìn)行優(yōu)化的CatBoost 模型.

為驗(yàn)證CLPSO-CatBoost 模型精確度,實(shí)驗(yàn)引入?yún)?shù)優(yōu)化前的CatBoost、SVM和XGBoost 模型進(jìn)行訓(xùn)練.測(cè)試集精度如表3所示.根據(jù)結(jié)果可知,CLPSOCatBoost 模型在準(zhǔn)確率、精準(zhǔn)率等方面均有著出色的表現(xiàn).相較其他常用模型,CLPSO在精準(zhǔn)率上有著些許優(yōu)勢(shì),而信用貸款風(fēng)控因其金融屬性對(duì)精度有著較高的要求.

表3 模型性能評(píng)價(jià)表(單位:%)

根據(jù)實(shí)驗(yàn)數(shù)據(jù)繪制各模型ROC 曲線,所得曲線如圖3所示.

圖3 模型ROC 曲線

由圖3可知,CLPSO-CatBoost 模型在實(shí)驗(yàn)環(huán)境下,有著很好的表現(xiàn)能力.

該模型作為貸款風(fēng)險(xiǎn)預(yù)測(cè)模型,實(shí)際中貸款申請(qǐng)數(shù)量龐大,模型性能的提升意味著將會(huì)更能判別貸款申請(qǐng)是否具有風(fēng)險(xiǎn),從而降低金融公司的壞賬率.車貸的借款金額較大且訂單數(shù)量多,壞賬對(duì)金融公司造成的影響較為嚴(yán)重.因此,模型性能的提升意味著能夠有效的減少壞賬損失,進(jìn)而維護(hù)了金融穩(wěn)定性,減少發(fā)生信用危機(jī)的可能性.

4 結(jié)論與展望

本文針對(duì)金融機(jī)構(gòu)貸款風(fēng)險(xiǎn)預(yù)測(cè)問題,通過國(guó)內(nèi)某金融公司的車輛抵押貸款數(shù)據(jù),從數(shù)據(jù)采樣、特征工程及分類算法方面等方面做了一系列工作,得出如下結(jié)論:

1)相比于傳統(tǒng)分類模型.CLPSO-CatBoost 模型在準(zhǔn)確率、錯(cuò)誤率、召回率和AUC 曲線上,都獲得了提升.面對(duì)不平衡數(shù)據(jù)集,該模型有著出色的少數(shù)類識(shí)別率,具有很高的應(yīng)用價(jià)值.

2)CLPSO 作為粒子群算法的一個(gè)分支,通過改進(jìn)例子學(xué)習(xí)方式在一定程度上避免了粒子群算法容易陷入局部收斂的問題,提升了全局學(xué)習(xí)能力.在本實(shí)驗(yàn)場(chǎng)景下,CLPSO 算法表現(xiàn)出優(yōu)于PSO,CLPSO-CatBoost模型能夠有效地提升模型精度.

綜上所述,相比SVM 等常用的信用風(fēng)險(xiǎn)評(píng)估方法,CLPSO-CatBoost 模型能夠更有效預(yù)測(cè)貸款風(fēng)險(xiǎn).

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 婷婷综合色| 国产青青草视频| 亚瑟天堂久久一区二区影院| 亚洲成人在线网| 亚洲精品视频网| 蜜桃视频一区二区三区| 国产精品丝袜视频| 亚洲va欧美ⅴa国产va影院| 精品无码国产一区二区三区AV| www中文字幕在线观看| 97视频在线精品国自产拍| 99草精品视频| 无码内射在线| 色悠久久久久久久综合网伊人| 五月婷婷伊人网| 无码精品一区二区久久久| 国产美女在线免费观看| 亚洲综合九九| 久久香蕉欧美精品| 久草国产在线观看| 久久这里只有精品国产99| 99无码中文字幕视频| 国产毛片不卡| 四虎国产精品永久在线网址| 亚洲欧美在线精品一区二区| 中文字幕丝袜一区二区| 精品一区二区无码av| 欧美中文字幕在线视频| 成人年鲁鲁在线观看视频| 精品无码人妻一区二区| 亚洲综合在线最大成人| 第一区免费在线观看| 国产不卡网| 国产老女人精品免费视频| 狂欢视频在线观看不卡| 2021无码专区人妻系列日韩| 色有码无码视频| 国产成人无码Av在线播放无广告| 中文字幕在线视频免费| 91免费片| v天堂中文在线| 97在线观看视频免费| 国产精品视频观看裸模| 亚洲av无码人妻| 国产成人一区在线播放| 国产成人亚洲毛片| 亚洲色无码专线精品观看| 中文字幕在线永久在线视频2020| 大香伊人久久| 国产电话自拍伊人| 久久精品丝袜高跟鞋| 色妞www精品视频一级下载| 久久精品丝袜高跟鞋| 国产精品分类视频分类一区| 激情影院内射美女| 日本在线视频免费| 日韩精品欧美国产在线| 激情综合网址| 五月综合色婷婷| 日韩毛片基地| 九色在线观看视频| 亚洲综合片| 久青草国产高清在线视频| 狠狠做深爱婷婷综合一区| 国产成人亚洲无码淙合青草| 国产在线视频导航| 色综合中文字幕| 久久99热66这里只有精品一| 久久99精品国产麻豆宅宅| 男女男精品视频| 精品伊人久久久大香线蕉欧美| 国产精彩视频在线观看| 又爽又黄又无遮挡网站| 亚洲日韩精品无码专区| 久久久91人妻无码精品蜜桃HD| 亚洲无码一区在线观看| 午夜久久影院| 久久五月视频| 国产美女主播一级成人毛片| 日韩av在线直播| 精品无码国产自产野外拍在线| 无码精品一区二区久久久|