999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向高維數(shù)據(jù)的個人信貸風(fēng)險評估方法

2020-02-18 15:20:18廖文雄梁天愷徐雅蕓趙俊峰
計算機(jī)工程與應(yīng)用 2020年4期
關(guān)鍵詞:分類方法模型

廖文雄,曾 碧,梁天愷,徐雅蕓,趙俊峰

廣東工業(yè)大學(xué) 計算機(jī)學(xué)院,廣州510006

1 引言

隨著電子商務(wù)的不斷發(fā)展,基于互聯(lián)網(wǎng)平臺的消費信貸也迅速崛起,分期付款已經(jīng)成為吸引年輕人消費的一種必要手段[1]。2015年是互聯(lián)網(wǎng)金融發(fā)展的元年,國內(nèi)產(chǎn)業(yè)格局被互聯(lián)網(wǎng)產(chǎn)業(yè)逐漸改變,互聯(lián)網(wǎng)金融得到快速發(fā)展[2]。數(shù)據(jù)顯示,近年來中國消費信貸規(guī)模高速增長,2016年增速達(dá)32.2%,消費信貸規(guī)模達(dá)到25.0萬億元人民幣,2018年中國分期電商用戶有望增至1.7億人[3]。通過分期付款能夠加快商品的流通,為電商帶來更多的利潤;從長遠(yuǎn)的角度來看,分期付款還可以培養(yǎng)用戶借貸消費的習(xí)慣,為企業(yè)帶來更大的消費交易量。

然而,高收益往往是和風(fēng)險同時存在的,電商平臺想要永久生存必須謹(jǐn)慎經(jīng)營。一方面,由于我國征信體系不夠完備、互聯(lián)網(wǎng)金融平臺積累的歷史數(shù)據(jù)時間較短、覆蓋率不夠廣[4];另一方面,互聯(lián)網(wǎng)金融平臺助長了超前消費,使得部分用戶在分期付款時并未考慮到其欠款長期積累的金額,這對用戶和電商平臺都是一種災(zāi)難[5]。本文提出一種可以對高維用戶信貸數(shù)據(jù)進(jìn)行深入挖掘,并對用戶信貸風(fēng)險進(jìn)行有效評估的方法,可以為電商平臺規(guī)避風(fēng)險提供參考。

2 相關(guān)工作

2.1 信貸評估發(fā)展歷程

信貸評估研究已經(jīng)有60多年歷史,從發(fā)展歷史來看,主要從最初的簡單線性模型到非線性模型,再到目前的集成學(xué)習(xí)。

2.1.1 線性模型

Orgler[6]于1970年對個人信用申請評分時創(chuàng)造性地使用了線性回歸模型。而Wiginto[7]于1980年首次通過Logistic模型對用戶信用進(jìn)行評估。盡管線性模型在最初的信用評估中起了比較好的作用,但是由于線性模型在表達(dá)能力上的局限性,無法對數(shù)據(jù)集進(jìn)行較好的擬合。

2.1.2 非線性模型

用戶信貸評估主要的非線性模型有支持向量機(jī)(Support Vector Machine,SVM)[8]和神經(jīng)網(wǎng)絡(luò)。Schebesch等[9]利用SVM,在同一個數(shù)據(jù)集中研究不同特征子集和不同核函數(shù)對用戶信用評估模型的性能優(yōu)化。Harris[10]使用集群支持向量機(jī)(Clustered SVM,CSVM)開發(fā)信用積分卡,與其他的SVM技術(shù)比較,CSVM在保證分類性能的同時,又保證了高效的計算。盡管支持向量機(jī)在處理非線性問題上表現(xiàn)優(yōu)秀,但是SVM是借助二次規(guī)劃來求解支持向量的,當(dāng)樣本量很大時,計算時間會明顯增長,并且對缺失數(shù)據(jù)較為敏感[11]。Abdou等[12]于2008年對神經(jīng)網(wǎng)絡(luò)、判別分析、Logistic等傳統(tǒng)模型進(jìn)行預(yù)測效果比較,結(jié)果表明,神經(jīng)網(wǎng)絡(luò)相對于其他模型能夠取得更高的正確率。雖然神經(jīng)網(wǎng)絡(luò)的方法能夠較好地處理非線性問題,但是算法需要大量的參數(shù),而且解釋能力差。

2.1.3 集成學(xué)習(xí)

以上的線性模型和非線性模型都是基于單一模型的,由于單一分類器的局限性,使得用戶信貸評估已經(jīng)遇到瓶頸,即單一分類器已經(jīng)無法很好地提升效果。現(xiàn)在主流的思想是集成學(xué)習(xí),即通過將多個單一的弱分類器集成為一個強(qiáng)大的分類器,這一過程被證實能有效提升模型的分類性能與泛化能力。Marques等[13]于2012年將多種分類模型應(yīng)用于集成學(xué)習(xí),實驗結(jié)果表明以C4.5決策樹為基分類器的集成模型取得最佳的效果,而以樸素貝葉斯作為基分類器的集成模型取得的效果最差。另外,Abellan等[14]于2017年以Bagging方案將不同的基學(xué)習(xí)器應(yīng)用于信用評分,結(jié)果表明以決策樹作為基學(xué)習(xí)器的集成模型取得了最好的信用評分效果。

2.2 特征工程

雖然集成學(xué)習(xí)能提升信貸預(yù)測性能,但是隨著現(xiàn)代信息量的不斷增長,信貸數(shù)據(jù)的特征維度也不斷提升,如何對高維度的信貸數(shù)據(jù)進(jìn)行挖掘和風(fēng)險評估是研究的一個難點。為解決此問題,國內(nèi)外學(xué)者利用特征工程對高維度的信貸數(shù)據(jù)進(jìn)行特征提取,以降低信貸數(shù)據(jù)的維度和算法的計算代價,進(jìn)一步提升信貸評估算法的性能。

特征工程是指從原始的數(shù)據(jù)集所包含的全部特征中選擇評估指標(biāo)達(dá)到最優(yōu)的特征子集,使得該特征子集所構(gòu)造的分類或回歸模型達(dá)到與全部特征近似甚至更好的效果。根據(jù)特征選擇評估方法與后續(xù)的分類算法是否獨立,將特征選擇算法分為基于Filter的特征選擇算法、基于Wrapper的特征選擇算法、基于Embedded的特征選擇算法[15]。Filter思想中特征選擇與后續(xù)的分類算法是獨立的,先對每個特征進(jìn)行統(tǒng)計學(xué)習(xí)計量,并且給每個特征進(jìn)行評分,最后按照分?jǐn)?shù)排序輸出。Wrapper思想中特征選擇與后續(xù)的分類算法相結(jié)合,需要訓(xùn)練一個分類器,并且根據(jù)分類器的性能對特征子集進(jìn)行評價,選擇若干特征或排除若干特性。Embedded思想將特征選擇直接嵌入到分類算法中,是Filter和Wrapper方法的結(jié)合,通過分類算法得到各個特征的權(quán)值系數(shù),根據(jù)系數(shù)從大到小選擇特征。Filter方法的評價標(biāo)準(zhǔn)與分類算法無關(guān),因此在分類性能上表現(xiàn)不佳;Wrapper方法的特征選擇會驗證所有的特征組合,因此計算速度會比Filter方法慢;Embedded方法具有Filter與Wrapper的優(yōu)點,將Filter和Wrapper分別運(yùn)用于特征選擇中的不同階段[16]。

之前的信貸風(fēng)險評價研究中,都是基于較低維度的數(shù)據(jù),而且沒有提出較為有效的數(shù)據(jù)降維方法。但是在面對高維數(shù)據(jù)時,如果不進(jìn)行降維處理,容易發(fā)生維度災(zāi)難,導(dǎo)致計算量急劇上升;再者大量的冗余或者無關(guān)屬性會掩蓋重要屬性,導(dǎo)致最終的分類性能難以提升。為解決上述問題,提高處理高維數(shù)據(jù)的能力,本文提出一種基于Embedded思想的XGBoost特征選擇方法XGBFS(XGBoost Feature Selection)。

3 面向高維數(shù)據(jù)的個人信貸評估

面向高維數(shù)據(jù)的個人信貸風(fēng)險評估方法主要包括以下過程:首先將訓(xùn)練數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗、缺失值處理和數(shù)據(jù)歸一化等預(yù)處理;再基于XGBFS對數(shù)據(jù)進(jìn)行降維:最后通過XGBoost對降維后的數(shù)據(jù)進(jìn)行用戶信貸評估建模。具體流程如圖1所示。

圖1 面向高維數(shù)據(jù)的個人信貸風(fēng)險評估算法

3.1 數(shù)據(jù)預(yù)處理

現(xiàn)代信貸用戶信息中除了屬性高維外,還會存在多種類別的屬性,如離散型、連續(xù)型、文本型等。如何對各種類別的屬性進(jìn)行科學(xué)的預(yù)處理是信貸風(fēng)險評估的首要前提。針對不同類型的數(shù)據(jù)應(yīng)當(dāng)采取不同的處理方法:對于連續(xù)型屬性,直接進(jìn)行歸一化處理。對于類別型屬性,先進(jìn)行類別編碼,再進(jìn)行歸一化處理。對于離散型屬性,先進(jìn)行分段處理再進(jìn)行歸一化處理。對于文本型屬性,先進(jìn)行TF-IDF(Term Frequency-Inverse Document Frequency)提取特征,再通過LSA(Latent Semantic Analysis)[17]進(jìn)行語義分析,將分析結(jié)果進(jìn)行歸一化處理。數(shù)據(jù)預(yù)處理的流程如圖2所示。

圖2 數(shù)據(jù)預(yù)處理流程

3.1.1 類別型屬性

對于類別型屬性,先對各個類別進(jìn)行編碼,再用編碼值取代原有值。

具體如下:對于存在n個類別的類別型屬性X,對于待處理的屬性值x則有:

3.1.2 離散型屬性

為了提升模型的穩(wěn)定性,降低過擬合風(fēng)險,對于離散型屬性,先將離散值進(jìn)行分段處理,再把各段的索引值作為該屬性的特征值取代原有的離散值。

具體如下:對于離散值屬性X,要分成n段,設(shè)屬性X的最大值為Xn,最小值為X0,則需指定參數(shù)X1~Xn-1,其中X0<X1<…<Xn。對于待處理的屬性值x,取t滿足Xt≤x<Xt+1為該值對應(yīng)的索引值,并將其索引值t作為該屬性的值。

3.1.3 文本型屬性

用戶信息中含有較多的屬于文本類型的屬性,本文通過TF-IDF處理后再用LSA算法進(jìn)行潛在語義分析,并且將分析結(jié)果作為該文本屬性的特征值。

TF-IDF是通過統(tǒng)計的方法衡量一個詞在語料庫的其中一份文件中的重要性。其中TF是某個詞語在該文檔中出現(xiàn)的頻率;IDF是某個詞語普遍重要性的度量,可由文檔總數(shù)除以包含該詞語的文檔數(shù)量,再對商取對數(shù)得到。

LSA的出發(fā)點是文檔中的各個詞之間存在著某種關(guān)系,并稱這種關(guān)系為潛在的語義結(jié)構(gòu)。由于語義結(jié)構(gòu)隱含在文檔的上下文使用模式中,可以通過對大量的文本進(jìn)行統(tǒng)計計算,找到這種潛在的語義結(jié)構(gòu)。LSA就是通過統(tǒng)計方法,提取并量化這些潛在的語義結(jié)構(gòu),從而消除同義詞、多義詞的影響,提高文本表示的準(zhǔn)確性[18]。而且LSA僅依賴于上下文中詞與詞的聯(lián)系,因此不需要確定的語義編碼,通過語義結(jié)構(gòu)來表示詞和文本,便可以達(dá)到消除詞之間的相關(guān)性、簡化文本的目的[19]。

目前典型的LSA空間的構(gòu)造方法是基于奇異值分解(Singular Value Decomposition,SVD)的空間構(gòu)造方法。如圖3所示,通過對文檔集的單詞-文檔矩陣的奇異值分解,可以提取出H個最大的奇異值和對應(yīng)的左右奇異矩陣,并還原出和原來相似的單詞-文檔矩陣。

圖3 SVD對單詞-文檔進(jìn)行分解的過程

3.1.4 缺失值處理

由于用戶的信貸信息屬性一般比較多,并且存在大量的缺失值。對于缺失值比例大于40%的屬性,本文采取刪除該屬性的方法。對于存在少量(缺失比例小于或等于40%)缺失值的屬性,本文采用眾數(shù)或者均值填充。

3.2 XGBFS

本文提出的XGBFS是基于XGBoost[20]特性的一種Embedded特征選擇方法。XGBoost是Boosting算法的一個實現(xiàn),是一種改進(jìn)的GBDT(Gradient Boosting Decision Tree)算法。與傳統(tǒng)的GBDT算法比較,XGBoost對代價函數(shù)進(jìn)行了二階泰勒展開,同時用到了一階導(dǎo)數(shù)和二階導(dǎo)數(shù),而傳統(tǒng)的GBDT算法只用了一階導(dǎo)數(shù);并且XGBoost代價函數(shù)中加入了正則項,用以控制模型復(fù)雜度,防止過擬合。

3.2.1 XGBoost原理

XGBoost集成模型可用以下式子表示:

其中,logistic為logistic函數(shù);x為待分類數(shù)據(jù)的屬性;K指的是子樹數(shù)量;f代表具體某棵子樹;F表示所有子樹。圖4為具有兩棵子樹f1、f2的F。

根據(jù)XGBoost算法思想,可將信貸風(fēng)險評估模型的目標(biāo)函數(shù)定為:

圖4 信貸風(fēng)險評估模型

其中,yi表示樣本的真實標(biāo)簽,表示模型的預(yù)測標(biāo)簽,表示損失函數(shù),Ω(f)表示決策樹復(fù)雜度:

T為決策樹葉子節(jié)點的數(shù)量。‖ w‖2為L2正則化。

XGBoost采用分步優(yōu)化目標(biāo)函數(shù)的方法,求取目標(biāo)函數(shù)的最優(yōu)值。首先優(yōu)化第一棵樹,再優(yōu)化第二棵樹,直至優(yōu)化完第K棵樹。訓(xùn)練過程可用以下式子表示:

因此風(fēng)險評估模型的目標(biāo)函數(shù)可表示為:

其中,c是前t-1棵樹的復(fù)雜度。

根據(jù)二階泰勒展開公式:

令:

將式(4)、(7)、(8)代入式(6),可求得風(fēng)險評估模型的目標(biāo)函數(shù)為:

對式(9)求最小值,可得各葉子節(jié)點的最佳值:

對應(yīng)的目標(biāo)函數(shù)值為:

對于每棵決策樹,通常使用精確貪心算法來尋找最優(yōu)的樹結(jié)構(gòu)。

3.2.2 XGBFS原理

根據(jù)XGBoost原理可知,對訓(xùn)練集數(shù)據(jù)進(jìn)行建模后可得到含有K棵子樹的F,即fk∈F。通過統(tǒng)計各個屬性在F各子樹分裂節(jié)點出現(xiàn)的次數(shù)之和,便可得到各個屬性對XGBoost建模的重要性,最后根據(jù)重要性排名,選擇含有N個最重要屬性的屬性子集。具體算法流程如下所示。

算法1 XGBFS

輸入:含有M個屬性的訓(xùn)練集TS。

輸出:含有N個屬性的最佳屬性子集。

1.通過XGBoost訓(xùn)練分類器得到F

2.聲明一個含M個元素的0值數(shù)組m count

3.for f in F:

4. for node in f:

5. 根據(jù)node在m count對應(yīng)位置+1

6. End for

7.End for

8.return m count前N個最大元素對應(yīng)的屬性

4 實驗與分析

4.1 實驗環(huán)境

本文驗證實驗的運(yùn)行環(huán)境是一臺具有16 GB內(nèi)存且配有i7-7770HQ CPU的個人計算機(jī),該計算機(jī)運(yùn)行操作系統(tǒng)為Windows 10家庭中文版。本文的所有算法都采用Python語言編寫。

4.2 數(shù)據(jù)集選取

本實驗采用lending club公開的2016—2017年數(shù)據(jù)集,根據(jù)貸款狀態(tài)(loan_status)將Fully Paid標(biāo)記為履約樣本(負(fù)樣本),將Charged Off標(biāo)記為違約樣本(正樣本),其中負(fù)樣本記錄有249 462條,正樣本記錄有60 737條。除了還款狀態(tài)外,每條記錄還包含145個屬性。

4.3 實驗過程

將lending club數(shù)據(jù)加載后先進(jìn)行數(shù)據(jù)清洗,把拖欠貸款后才會產(chǎn)生的屬性、嚴(yán)重缺失的屬性、無關(guān)的屬性去除。數(shù)據(jù)清洗后還剩下35個有效屬性,各屬性如表1所示。

由于信貸的數(shù)據(jù)存在正負(fù)樣本數(shù)量嚴(yán)重失衡的問題,本文采用的是負(fù)樣本自助欠采樣的方法,如表2所示,最終正負(fù)樣本的比例為1∶1。

4.4 對比實驗與結(jié)果分析

本實驗實現(xiàn)了以下四種算法之間的比較:

表1 樣本屬性

表2 樣本分布

(1)CSFS_Logistic:基于Filter思想的卡方檢驗特征選擇方法(Chi Square Test Feature Selection,CSFS),并用Logistic作為分類算法;

(2)SVMFS_SVM:基于Embedded思想的支持向量機(jī)特征選擇方法(Support Vector Machine Feature Selection,SVMFS),并用SVM作為分類算法;

(3)RFFS_RF:基于Wrapper思想的隨機(jī)森林特征選擇方法(Random Forest Feature Selection,RFFS)[21],并用隨機(jī)森林(Random Forest,RF)[22]作為分類算法;

(4)XGBFS_XGBoost:本文的XGBFS并用XGBoost作為分類算法。

以上各算法將預(yù)處理后的信貸數(shù)據(jù)從35維降至10維,根據(jù)分類器的性能進(jìn)行比較。

4.4.1 交叉驗證與評價指標(biāo)

本實驗采用10折交叉驗證方法,并將recall、precision、F2、AUC(Area under Roc Curve)作為模型評價指標(biāo)。

4.4.2 結(jié)果分析

從表3和圖5給出的本次實驗結(jié)果來看,CSFS_Logistic性能較差但耗時最短,SVMFS_SVM比CSFS_Logistic性能有所提升但是耗時特別長。RFFS_RF性能比CSFS_Logistic和SVMFS_SVM有很大的提升,并且與SVMFS_SVM相比耗時大幅度縮短。而XGBFS_XGBoost性能比RFFS_RF提升不少,但是耗時比RFFS_RF長。

表3 各算法性能對比

圖5 各算法性能對比

對比實驗中CSFS_Logistic性能較差的原因是,CSFS是基于Filter思想的特征選擇方法,與后續(xù)的Logistic分類算法獨立,而且Logistic只是線性的分類方法,表達(dá)能力有限,但是耗時最短。而SVMFS_SVM是借助二次規(guī)劃來求解支持向量,當(dāng)樣本量很大時,SVMFS_SVM計算時間會明顯增長。相對于CSFS_Logistic和SVMFS_SVM,RFFS_RF是基于集成思想的算法,并且分類模型也是隨機(jī)森林,因此能比較大幅度地提升性能。XGBFS_XGBoost模型是基于Boosting集成算法,在訓(xùn)練時各棵子樹是“串行”訓(xùn)練的,因此耗時比RFFS_RF要長,但從其他性能指標(biāo)來看,XGBFS_XGBoost比RFFS_RF性能要好。

從實驗結(jié)果可以看出,本文所提出的XBGFS與XGBoost相結(jié)合的面向高維數(shù)據(jù)的個人信貸風(fēng)險評估方法,在處理高維數(shù)據(jù)時能夠進(jìn)行有效的降維,選擇出有利于提升分類器性能的屬性,并且分類器的性能表現(xiàn)優(yōu)于其他算法。

5 結(jié)束語

本文提出了一種面向高維數(shù)據(jù)的個人信貸風(fēng)險評估方法。本文方法包括從數(shù)據(jù)預(yù)處理、數(shù)據(jù)降維處理、信貸評估建模的一系列過程。通過對lending club公開的高維信貸數(shù)據(jù)集進(jìn)行實驗,并與傳統(tǒng)的方法進(jìn)行對比,證明了本文方法相對于傳統(tǒng)數(shù)據(jù)降維方法和信貸風(fēng)險建模算法的優(yōu)越性,可以實現(xiàn)更高的召回率和穩(wěn)定性,能夠?qū)π刨J風(fēng)險進(jìn)行相對精準(zhǔn)的評估。盡管本文在信貸數(shù)據(jù)降維中所用的XGBFS與XGBoost建模相結(jié)合的方法比傳統(tǒng)降維方法在性能上有所提升,但是所用到的XGBoost算法是基于“同質(zhì)”基學(xué)習(xí)器的集成算法,在未來的研究中,將探索“異質(zhì)”的基學(xué)習(xí)器組合,以選出更加合理的特征,從而進(jìn)一步提升性能。

猜你喜歡
分類方法模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 久久精品91麻豆| 久久美女精品| 欧美三级视频网站| 成人毛片免费观看| 亚洲网综合| 毛片三级在线观看| 欧美a在线看| 精品午夜国产福利观看| 人人妻人人澡人人爽欧美一区| 国产精品999在线| 美女啪啪无遮挡| 凹凸国产熟女精品视频| 麻豆a级片| 曰韩人妻一区二区三区| 国产中文一区二区苍井空| 亚洲人妖在线| 无码丝袜人妻| 欧美综合区自拍亚洲综合天堂| 久久国产黑丝袜视频| 欧美成人一区午夜福利在线| 五月天久久婷婷| 亚洲手机在线| 久久综合色88| 露脸国产精品自产在线播| 在线播放91| 国产精品一区二区不卡的视频| 秋霞一区二区三区| 五月婷婷欧美| 久久精品人人做人人爽97| 亚洲国产欧美自拍| 福利在线一区| 91一级片| 亚洲婷婷在线视频| 色天天综合久久久久综合片| 91久久天天躁狠狠躁夜夜| 在线播放精品一区二区啪视频| 第一区免费在线观看| 精品国产网| 九九九九热精品视频| 国产精品视频观看裸模| 久久黄色视频影| 她的性爱视频| 亚洲人成影视在线观看| 婷婷综合色| 国产精品999在线| 日本人妻丰满熟妇区| 99视频只有精品| 亚洲精品日产精品乱码不卡| 国产精品思思热在线| 美女高潮全身流白浆福利区| 亚洲欧美自拍中文| 国产精品成人第一区| 国产91小视频| 国产精品美女网站| 天堂在线视频精品| 日韩在线播放欧美字幕| 99中文字幕亚洲一区二区| 亚洲人成网站观看在线观看| 国产亚洲成AⅤ人片在线观看| 亚洲人成网址| 久久精品这里只有国产中文精品| 国产日韩欧美视频| 欧美激情视频二区| 99在线观看国产| 亚洲性影院| www.亚洲国产| 亚洲色大成网站www国产| 国产精品视频999| 中国一级毛片免费观看| 亚洲精品综合一二三区在线| 污视频日本| 一本大道无码高清| 97se亚洲综合| 5555国产在线观看| 伊人激情综合网| swag国产精品| 一本一本大道香蕉久在线播放| 亚洲大尺度在线| 无码AV动漫| 日韩精品一区二区深田咏美| 亚洲日韩久久综合中文字幕| 精品91自产拍在线|