999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機(jī)器學(xué)習(xí)方法的個(gè)人信用風(fēng)險(xiǎn)評(píng)估研究

2020-02-22 06:56:25王鉻
科技創(chuàng)新導(dǎo)報(bào) 2020年30期

王鉻

摘? 要:互聯(lián)網(wǎng)金融在國(guó)內(nèi)的興起,使得個(gè)人信貸風(fēng)險(xiǎn)成為許多企業(yè)關(guān)注的熱點(diǎn)。本文通過(guò)對(duì)LendingClub網(wǎng)站中個(gè)人信用貸款數(shù)據(jù)集的探索,構(gòu)建基于xgboost和logistic regression組合算法xgboost-LR模型、隨機(jī)森林和支持向量機(jī)算法三種機(jī)器學(xué)習(xí)方法,對(duì)個(gè)人信用風(fēng)險(xiǎn)進(jìn)行全面的評(píng)估。通過(guò)實(shí)證數(shù)據(jù)分析,其中新構(gòu)建的xgboost-LR算法評(píng)價(jià)效果最好,能夠更加準(zhǔn)確地預(yù)測(cè)個(gè)人信用風(fēng)險(xiǎn)。

關(guān)鍵詞:信用風(fēng)險(xiǎn)評(píng)估? xgboost-LR算法? 隨機(jī)森林? 支持向量機(jī)

中圖分類(lèi)號(hào):F224.9? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? 文章編號(hào):1674-098X(2020)10(c)-0157-03

Abstract: With the rise of Internet finance in China, personal credit risk has become the focus of many enterprises. Based on the exploration of personal credit loan data set in LendingClub website, this paper constructed three machine learning methods based on XGBoost and Logistics regression combination algorithm xGboost-LR model, random forest and support vector machine algorithm to comprehensively evaluate personal credit risk. Through empirical data analysis, the newly constructed XGBoost-LR algorithm has the best evaluation effect and can predict personal credit risk more accurately.

Key Words: Credit risk assessment; Xgboost - LR algorithm; Random forest; Support vector machine

隨著我國(guó)金融業(yè)的日漸興盛,各種各樣的金融產(chǎn)品層出不窮。對(duì)于投資者尤其是放貸方來(lái)講,就需要綜合考慮風(fēng)險(xiǎn)控制,這也是企業(yè)運(yùn)營(yíng)的基礎(chǔ)性工作。面對(duì)海量數(shù)據(jù),從中迅速可靠地判斷貸款者的個(gè)人信用風(fēng)險(xiǎn)是非常困難的事情(見(jiàn)表1),單靠人工是無(wú)法完成的。目前機(jī)器學(xué)習(xí)方法已經(jīng)非常成熟,然而比較合理地運(yùn)用到金融領(lǐng)域的個(gè)人風(fēng)險(xiǎn)評(píng)估還不是很多。本文試圖探索利用機(jī)器學(xué)習(xí)算法來(lái)對(duì)個(gè)人信用風(fēng)險(xiǎn)進(jìn)行評(píng)價(jià)。在個(gè)人信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域,logistic regression是非常成熟的模型,它將違約概率作為標(biāo)準(zhǔn)。然而這個(gè)算法有許多的缺陷,主要對(duì)于特征變量要求很高。為了克服這一個(gè)缺點(diǎn),本文采用了xgboost算法來(lái)提取組合特征。為了訓(xùn)練機(jī)器學(xué)習(xí)模型并進(jìn)行驗(yàn)證,本文借助了LendingClub提供的歷史借貸數(shù)據(jù),首先用xgboost以CART為基學(xué)習(xí)器挖掘出反映個(gè)人信用風(fēng)險(xiǎn)組合特征,然后將xgboost通過(guò)最小化損失函數(shù)方法分割出來(lái)的組合特征加入原始數(shù)據(jù)集,構(gòu)建logistic regression個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型。通過(guò)與其余算法實(shí)際對(duì)比驗(yàn)證,發(fā)現(xiàn)新構(gòu)建的xgboost-LR算法評(píng)價(jià)效果最好,能夠在最短的時(shí)間內(nèi)完成運(yùn)算,得出預(yù)測(cè)結(jié)果,準(zhǔn)確率也令人滿意。

1? 基于機(jī)器學(xué)習(xí)方法的個(gè)人信用風(fēng)險(xiǎn)評(píng)估

1.1 xgboost-LR算法

在基于logistic regression個(gè)人信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域中,以特征變量預(yù)測(cè)能力篩選構(gòu)造的特征集往往不能充分度量信用風(fēng)險(xiǎn)。xgboost算法對(duì)于個(gè)人信用風(fēng)險(xiǎn)組合特征的挖掘能力,幾乎決定了xgboost-LR模型效果的好壞。xgboost-LR是 logistic regression和xgboost的組合模型,首先通過(guò)Xgboost模型構(gòu)造對(duì)個(gè)人信用風(fēng)險(xiǎn)具有區(qū)分性新的組合特征,然后結(jié)合原始特征訓(xùn)練logistic regression個(gè)人風(fēng)險(xiǎn)評(píng)估模型。xgboost模型十分地好用,其應(yīng)用于個(gè)人信用風(fēng)險(xiǎn)評(píng)估的時(shí)候,xgboost的參數(shù)設(shè)置需要十分的科學(xué)和合理。xgboost模型參數(shù)主要包含通用參數(shù)、任務(wù)參數(shù)和輔助參數(shù)。xgboost構(gòu)建對(duì)個(gè)人信用風(fēng)險(xiǎn)具有區(qū)分性的組合特征時(shí),采取合適的參數(shù)使模型效果大大提高效率和準(zhǔn)確性。其基本步驟如下:

Step1:xgboost模型采取合適的參數(shù),對(duì)歷史借貸數(shù)據(jù)集進(jìn)行訓(xùn)練,構(gòu)建棵決策樹(shù)。

Step2:列舉所有迭代生成的回歸樹(shù):

其中,qi表示每棵樹(shù)的葉子節(jié)點(diǎn)數(shù),表示葉子的score。

Step3:對(duì)于任意借貸客戶,其必然會(huì)落在每棵樹(shù)的某個(gè)葉子節(jié)點(diǎn)上。假設(shè)該借貸客戶在第n棵樹(shù)落在第in個(gè)葉子節(jié)點(diǎn)中,則由第n棵樹(shù)構(gòu)造的組合特征為[01,02....,1in,...,0qn],0表示該借貸客戶沒(méi)有落在此葉子節(jié)點(diǎn),1正好相反。

Step4:將Tn個(gè)組合特征加入原始數(shù)據(jù)特征集組成新的數(shù)據(jù)集,輸入到logistic regression算法中。

1.2 使用隨機(jī)森林算法的風(fēng)險(xiǎn)評(píng)估原理

Breiman(2001)首次結(jié)合了 Bagging 集成思想和決策樹(shù)算法,在隨機(jī)子空間的理論基礎(chǔ)上,提出了隨機(jī)森林(Random Forest,簡(jiǎn)稱(chēng)RF)算法。Bagging是并行式集成學(xué)習(xí)中最具有代表性的方法之一,它直接基于自助采樣法(bootstrap sampling)。RF算法在以決策樹(shù)為基學(xué)習(xí)器構(gòu)建Bagging集成的基礎(chǔ)上,在決策樹(shù)的訓(xùn)練過(guò)程中進(jìn)一步引入隨機(jī)屬性選擇。傳統(tǒng)決策樹(shù)在劃分屬性時(shí)是在當(dāng)前結(jié)點(diǎn)的屬性集合(假定有d個(gè)屬性)中選擇一個(gè)最優(yōu)屬性;而在RF中,對(duì)基決策樹(shù)的每個(gè)結(jié)點(diǎn),先從該結(jié)點(diǎn)的屬性集合中隨機(jī)選擇一個(gè)包含k個(gè)屬性的子集,然后再?gòu)倪@個(gè)子集中選擇一個(gè)最優(yōu)屬性用于劃分,對(duì)風(fēng)險(xiǎn)過(guò)大的主體進(jìn)行預(yù)警。

1.3 使用支持向量機(jī)方法的風(fēng)險(xiǎn)評(píng)估原理

為了解決分類(lèi)和回歸問(wèn)題,Vapnik于1995年提出支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱(chēng)SVM)。由于在文本分類(lèi)任務(wù)中表現(xiàn)出卓越的性能,很快成為機(jī)器學(xué)習(xí)的主流技術(shù)。SVM的基礎(chǔ)思想是推導(dǎo)出一個(gè)可以最大化兩類(lèi)間邊距的最優(yōu)超平面,SVM的一個(gè)優(yōu)點(diǎn)是通過(guò)非線性函數(shù)?將數(shù)據(jù)投影到一個(gè)高維空間,可以找到一個(gè)非線性的決策邊界。

2? 個(gè)人信用風(fēng)險(xiǎn)評(píng)估的建模分析及應(yīng)用

從LendingClub網(wǎng)站上下載2019年第1季度個(gè)人信用貸款數(shù)據(jù)集,一共包含了115675人的貸款信息,144個(gè)特征。特征包括借款人申請(qǐng)貸款金額、借款人年收入、借款人分期還款金額等;目標(biāo)變量為loan_status(貸款狀態(tài)),包括違約和不違約兩大類(lèi)。針對(duì)數(shù)據(jù)集的不平衡問(wèn)題,我們采取合成少數(shù)過(guò)采樣技術(shù)(Synthetic Minority Oversampling Technique, 簡(jiǎn)稱(chēng)SMOTE)進(jìn)行處理平衡數(shù)據(jù)。SMOTE算法克服了簡(jiǎn)單隨機(jī)過(guò)采樣算法容易導(dǎo)致的過(guò)擬合問(wèn)題,SMOTE算法的基本思想是對(duì)少數(shù)類(lèi)樣本進(jìn)行分析,并根據(jù)少數(shù)類(lèi)樣本人工合成新樣本添加到數(shù)據(jù)集中。這樣一來(lái),我們數(shù)據(jù)集足夠訓(xùn)練成熟我們的算法模型。通過(guò)SMOTE方法平衡正負(fù)樣本后樣本總個(gè)數(shù):227812;正樣本占50.00%;負(fù)樣本占50.00%。而后對(duì)模型評(píng)價(jià)指標(biāo)進(jìn)行選取。

采用傳統(tǒng)的與accruacy類(lèi)似的評(píng)價(jià)指標(biāo)時(shí)效果并不突出。為了更好地評(píng)價(jià)模型效果,指標(biāo)必須能夠做到給那些將所有樣本都判定為正樣本的模型以低分,因此,我們采用接收者操作曲線下面積(Area Under Receiver Operating Curve,簡(jiǎn)稱(chēng)AUROC)作為模型的評(píng)價(jià)指標(biāo)。AUROC的值被定義為ROC曲線下的面積,取值范圍一般在0.5和1之間。由于很多時(shí)候ROC曲線并不能清晰地說(shuō)明分類(lèi)器的效果,而作為一個(gè)數(shù)值,使用AUROC值作為評(píng)價(jià)標(biāo)準(zhǔn)分類(lèi)效果更好,并且對(duì)應(yīng)AUROC值更大的分類(lèi)器效果越好。

使用python實(shí)現(xiàn)所構(gòu)建的三種機(jī)器學(xué)習(xí)算法,運(yùn)行個(gè)人信用風(fēng)險(xiǎn)評(píng)估預(yù)警模型,可以鑒別信用風(fēng)險(xiǎn)較高的個(gè)人。所得到的三種模型的AUROC值如表2所示,可以看出xgboost-LR模型對(duì)企業(yè)風(fēng)險(xiǎn)的評(píng)估和預(yù)警效果最好,AUROC值高達(dá)0.992。RF模型與xgboost模型結(jié)果相差不大,AUROC值也達(dá)到了0.990。相比較而言,SVM的AUROC的得分值最低,但是也達(dá)到了0.917以上。

根據(jù)三種模型實(shí)驗(yàn)結(jié)果繪制的AUROC曲線,如下圖1所示。

觀察3種個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果AUROC曲線可以發(fā)現(xiàn),所選模型在此數(shù)據(jù)集上的評(píng)估表現(xiàn)都比較好,可以較快地達(dá)到評(píng)估的良好狀態(tài)。并且程序的運(yùn)行時(shí)間較短(3種方法都可以在10min內(nèi)完成),可以隨著數(shù)據(jù)更新實(shí)時(shí)多次運(yùn)行,做快速的風(fēng)險(xiǎn)評(píng)估和預(yù)警。因此基于機(jī)器學(xué)習(xí)模型對(duì)個(gè)人信用風(fēng)險(xiǎn)進(jìn)行評(píng)估和預(yù)警是有效可行的。

3? 結(jié)語(yǔ)

本文將logistic regression與xgboost組合算法xgboost-LR應(yīng)用到個(gè)人信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域,單一logistic regression模型對(duì)個(gè)人信用風(fēng)險(xiǎn)評(píng)估,由于其很難擬合特征之間交互作用對(duì)信用風(fēng)險(xiǎn)的影響,導(dǎo)致其預(yù)測(cè)精度偏低,可以通過(guò)xgboost提取對(duì)信用風(fēng)險(xiǎn)具有區(qū)分性的組合特征,避免重要信息的遺漏,提高預(yù)測(cè)精度。并且同時(shí)使用隨機(jī)森林模型和支持向量機(jī)模型評(píng)估個(gè)人信用風(fēng)險(xiǎn),AUROC值也都可達(dá)到0.9左右,具有較穩(wěn)定地判別信用風(fēng)險(xiǎn)較高的個(gè)人。在實(shí)際工作中,可以將幾種方法綜合應(yīng)用,達(dá)到更好的預(yù)測(cè)結(jié)果。

參考文獻(xiàn)

[1] Li H,Cao Y,Li S,et al. XGBoost Model and itsApplication to Personal Credit valuation.IEEEIntelligentSystems,2020.DOI:10.1109/MIS.2020.2972533.

[2] Munkhdalai L,Munkhdalai T, et al. An Empirical Comparison of Machine-Learning Methods on Bank Client Credit Assessments[J]. Sustainability, 2019,11(3):699-722.

[3] Wang S,F(xiàn)u B,Liu H, et al. Feature Engineering for Credit Risk Evaluation in Online P2P Lending[J]. 2017, 9(2):1-13.

[4] Sang H V,Nam N H,Nhan N D.A Novel Credit Scoring Prediction Model based on FeatureSelection Approach and Parallel Random Forest[J]. Indian Journal of Science & Technology,2016 :9-20.

[5] Yulian Mo,Yu Fei.The Application of Credit Approval Based on Machine Learning Classification Method [J].Hans Journal of Data Mining Vol.06 No.03 2016 :10.

[6] Chen T, He T, BenestyM. xgboost:Extreme Gradient Boosting[J].2016, 5 (9) :222-208.

[7] 徐婷婷.隨機(jī)森林在P2P網(wǎng)貸借款信用風(fēng)險(xiǎn)評(píng)估中的應(yīng)用[D].濟(jì)南:山東大學(xué),2017.

[8] Li G, ShiY,Zhang Z. P2PDefault Risk Prediction based on XGBoost, SVM and RF Fusion Model[C]// 1st International Conference on Business, Economics, ManagementScience(BEMS2019),AtlantisPress.2019.

[9] Li H,Cao Y,Li S,et al. XGBoost Model and itsApplication to Personal Credit valuation.IEEEIntelligentSystems,2020.DOI:10.1109/MIS.2020.2972533.

[10] Munkhdalai L, Munkhdalai T, et al. An Empirical Comparison of Machine-Learning Methods on Bank Client Credit Assessments[J]. Sustainability. 2019,11(3):699-722.

主站蜘蛛池模板: 亚洲无码视频图片| h网址在线观看| 亚洲第一中文字幕| 国产精品成| 国产精品第| 欧美国产三级| 亚洲欧美h| 中文成人无码国产亚洲| 欧洲熟妇精品视频| 亚洲综合片| jizz国产视频| 自拍中文字幕| 国产美女精品人人做人人爽| 老司机午夜精品视频你懂的| 日本a∨在线观看| 色网站在线视频| 国产精品美乳| 久久黄色免费电影| 久视频免费精品6| 欧美a√在线| 色九九视频| 呦视频在线一区二区三区| 色综合综合网| 亚洲动漫h| 97亚洲色综久久精品| 日本不卡视频在线| 天天视频在线91频| 国产精品网曝门免费视频| 熟女成人国产精品视频| 波多野结衣视频网站| 在线国产91| 亚洲日韩精品无码专区97| 爱爱影院18禁免费| 国产正在播放| 成人看片欧美一区二区| 亚洲国产一区在线观看| 色网站在线免费观看| AV无码一区二区三区四区| 亚洲高清日韩heyzo| 中文字幕1区2区| 香蕉视频国产精品人| 特黄日韩免费一区二区三区| 欧美a在线视频| 欧美成人精品高清在线下载| 亚洲免费人成影院| 国产麻豆福利av在线播放 | 国产97视频在线| 自偷自拍三级全三级视频 | 全午夜免费一级毛片| 无码一区中文字幕| 婷婷色中文| 亚洲无码在线午夜电影| 欧美日韩精品一区二区视频| 97色婷婷成人综合在线观看| 国产人免费人成免费视频| 青青青国产在线播放| 国产激情无码一区二区免费| 亚洲精品免费网站| 九九九国产| 免费jizz在线播放| 久久综合色视频| 国产av无码日韩av无码网站| 国产麻豆精品手机在线观看| 亚洲最新在线| 亚洲V日韩V无码一区二区| 高清精品美女在线播放| 亚洲精品欧美重口| 亚洲精品色AV无码看| 亚欧乱色视频网站大全| 日韩免费毛片| 久精品色妇丰满人妻| 亚洲精品人成网线在线| 日本a级免费| 538精品在线观看| 亚洲精品视频免费观看| 国产亚洲精品自在久久不卡| 日韩精品一区二区深田咏美| 国产亚洲视频播放9000| 国产美女自慰在线观看| 成人毛片在线播放| 狠狠综合久久久久综| 日本在线视频免费|