999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

特征選擇與Logistic回歸相結(jié)合的擔(dān)保圈風(fēng)險識別方法

2019-08-13 12:38:58趙文欣內(nèi)蒙古大學(xué)計算機學(xué)院呼和浩特0002
小型微型計算機系統(tǒng) 2019年8期
關(guān)鍵詞:特征方法模型

劉 亞 ,李 華,2,鄭 冰,3,趙文欣(內(nèi)蒙古大學(xué)計算機學(xué)院,呼和浩特0002)

2(內(nèi)蒙古大學(xué)圖書與信息技術(shù)部,呼和浩特010021)

3(內(nèi)蒙古建筑職業(yè)技術(shù)學(xué)院,呼和浩特010021)

E-mail:cslihua@imu.edu.cn

1 背景

隨著DT(Data Technology,數(shù)據(jù)技術(shù))時代的到來,大數(shù)據(jù)技術(shù)在金融領(lǐng)域應(yīng)用廣泛.互聯(lián)網(wǎng)金融的出現(xiàn),使得每年產(chǎn)生過數(shù)十PB的金融數(shù)據(jù),而數(shù)據(jù)內(nèi)容有著大規(guī)模、異質(zhì)多元、組織結(jié)構(gòu)松散的特點,給金融機構(gòu)有效獲取信息和知識帶來了挑戰(zhàn).在銀行風(fēng)險管控方面,通過監(jiān)管部門的現(xiàn)場監(jiān)測,各種可疑金融交易(Suspicious Financial Transaction)行為[1]和企業(yè)信貸風(fēng)險層出不窮,如洗錢擔(dān)保圈、資金空轉(zhuǎn)行為、規(guī)避監(jiān)管的套利行為等.針對此類問題,目前行之有效的解決方法是結(jié)合各種數(shù)據(jù)分析技術(shù),對銀行交易數(shù)據(jù)、客戶數(shù)據(jù)、信用數(shù)據(jù)、資產(chǎn)數(shù)據(jù)等信息挖掘分析,識別欺詐交易、反洗錢以及信貸風(fēng)險等異常行為.面對海量的銀行數(shù)據(jù),傳統(tǒng)的分析方式需要發(fā)生重大的改變,并建立與之相應(yīng)的新的識別或預(yù)測模型.

擔(dān)保圈是指多家企業(yè)通過相互擔(dān)保或連環(huán)擔(dān)保連接到一起而形成的以擔(dān)保關(guān)系為鏈條的特殊利益體[2],其形態(tài)是由兩個或兩個以上法人客戶以保證擔(dān)保關(guān)系為紐帶而形成的網(wǎng)絡(luò)結(jié)構(gòu)[2].其主要類型有互保、聯(lián)保、循環(huán)保、擔(dān)保鏈、集團內(nèi)部擔(dān)保圈以及混合擔(dān)保圈[3].近年來受擔(dān)保圈內(nèi)企業(yè)經(jīng)營不善、資金鏈斷裂的影響,信貸風(fēng)險在我國部分區(qū)域大量暴露,較大程度地沖擊了銀行信貸資產(chǎn)安全,嚴(yán)重地影響了銀行和企業(yè)的正常運營,加劇了地方金融的不穩(wěn)定,影響了區(qū)域經(jīng)濟的健康發(fā)展[4].由于擔(dān)保圈的存在影響面較廣,究其根本是圈內(nèi)存在“高危”客戶,即破產(chǎn)風(fēng)險較高、償債能力較弱的群體,這些客戶容易發(fā)生違約行為.因此,在已知存在擔(dān)保圈的情況下,如何識別擔(dān)保圈是否存在風(fēng)險,是本文研究的主要問題.

由于銀行業(yè)務(wù)繁雜,包含的特征變量較多,若想通過數(shù)據(jù)分析建立異常識別精度較高的模型,其關(guān)鍵因素是選取具有代表性的特征變量,才能較好的反映出客戶各種行為.利用選擇出的新特征子集采用一定的方法建立風(fēng)險識別模型,實現(xiàn)擔(dān)保圈風(fēng)險的識別,降低擔(dān)保圈的“多米諾”效應(yīng)給銀行帶來的危害[5].

本文的主要貢獻如下:

1)提出一種 CSAFS(Clustering and Statistical Analysis Based on Feature Selection)特征選擇算法,該算法采用特征聚類+主成分提取的思想,避免了傳統(tǒng)聚類分析閾值K的問題,既能解決變量間的多重共線性問題[6],又能選擇出覆蓋全部或者大部分原始數(shù)據(jù)信息的、無冗余的新特征子集.

2)將CSAFS特征選擇算法和Logistic回歸相結(jié)合應(yīng)用到識別擔(dān)保圈風(fēng)險的問題中,利用人工智能算法解決金融問題,避免了傳統(tǒng)人工搭建模型的時間開銷,提高了擔(dān)保圈風(fēng)險識別的準(zhǔn)確率.通過ROC曲線對模型進行了效果評估,擔(dān)保圈風(fēng)險識別的準(zhǔn)確率達到了95.6%,具有一定的實用性.

2 相關(guān)工作

本文主要是結(jié)合特征選取和Logistic回歸方法建模進行擔(dān)保圈的風(fēng)險識別.在相關(guān)工作的研究中,將從特征選擇、Logistic回歸、擔(dān)保圈風(fēng)險識別三個方面進行描述.

2.1 特征選擇

特征選擇也稱特征子集選擇或?qū)傩赃x擇.是數(shù)據(jù)挖掘技術(shù)中一種常用的數(shù)據(jù)預(yù)處理技巧[7].在特征選擇方法的研究中[8-12],多數(shù)采用先聚類后選擇的思想,但聚類條件和特征選擇的依據(jù)不同.文獻[10]提出一種將稀疏 K-means和分層聚類相結(jié)合的特征選擇算法,該算法分為特征聚類和特征選擇兩個階段,通過聚類將原始特征集劃分成各個簇,利用 Lasso型懲罰因子在簇中進行特征選擇.文獻[11]提出了一種無監(jiān)督特征選擇方法,該方法結(jié)合最大信息系數(shù)和仿射傳播進行特征聚類,在特征選擇時,以每個簇中選取質(zhì)心作為選擇依據(jù),該方法對不同分類器的分類問題進行了驗證.文獻[12]針對無監(jiān)督特征選擇問題,提出了一種密集子圖發(fā)現(xiàn)方法,在獲取非冗余特征集的基礎(chǔ)上,以規(guī)范化的互信息為度量指標(biāo)進行特征聚類,以方差為評價指標(biāo)從每個簇中選擇具有代表性的特征.

由此可見,特征選取方法存在兩個問題:一是在樣本聚類時需要預(yù)先設(shè)定閾值 K,而K值得選擇決定特征選取的好壞;二是如何從每個簇群選取代表性特征,這個非常困難.

基于此,本文提出的CSAFS特征選擇算法有效避免了確定K值問題,并采用提取主成分的方法進行最優(yōu)特征子集選擇,選擇出的主成分可以覆蓋全部或者大部分(85%以上)原始數(shù)據(jù)的信息,能夠有效的反映出客戶的行為信息.

2.2 Logistic回歸

針對銀行業(yè)務(wù)中出現(xiàn)的異常可疑行為,利用數(shù)據(jù)挖掘方法,從已有的數(shù)據(jù)出發(fā)尋找規(guī)律,建立識別模型,從而達到對未來的數(shù)據(jù)進行預(yù)測的目的.而基于數(shù)據(jù)挖掘方法的識別預(yù)測問題,目前國際上廣泛采用的方法包括神經(jīng)網(wǎng)絡(luò)、決策樹和Logistic回歸.相較于其他兩種方法,神經(jīng)網(wǎng)絡(luò)的“黑盒”性質(zhì),不太適用于銀行風(fēng)險識別,無法解釋結(jié)論的由來.而Logistic回歸在金融領(lǐng)域、流行病研究[13]和預(yù)測地質(zhì)災(zāi)害[14]等應(yīng)用較廣.

在應(yīng)用Logistic回歸方法上[15-19],文獻[15]以新浪微博為例,從發(fā)布用戶、接受用戶、微博內(nèi)容三個方面進行特征提取,結(jié)合SVM分類器進行用戶去重、垃圾用戶濾除,將提取的特征輸入到預(yù)測算法中,建立邏輯回歸模型,實現(xiàn)對微博轉(zhuǎn)發(fā)預(yù)測,與傳統(tǒng)同類預(yù)測模型進行對比試驗,驗證本文方法的正確性與有效性.文獻[16]通過建立五種數(shù)據(jù)挖掘分類模型(Logistic模型、線性判別分析法、K-means算法、分類樹法和核密度分類方法等)與五種神經(jīng)網(wǎng)絡(luò)模型(包括專家雜合系統(tǒng)、多層感知器、徑向基函數(shù)網(wǎng)絡(luò)、模糊自適應(yīng)共振和學(xué)習(xí)向量化子等)分別對澳大利亞與德國的兩組財務(wù)數(shù)據(jù)樣本進行了兩類不同模式的分析,經(jīng)其研究發(fā)現(xiàn),Logistic模型在這10種分析方法中的判別準(zhǔn)確率最高,分別達到了87.25%與76.3%.文獻[17]是在國內(nèi)企業(yè)財務(wù)預(yù)警研究中,采用Logistic回歸模型有效預(yù)測出財務(wù)危機.

Logistic回歸模型在一定程度上較好的實現(xiàn)了風(fēng)險的識別和預(yù)警,但仍然存在一定的局限性:

1)在建立評估模型時需要設(shè)立許多假設(shè)條件,比如變量間相互獨立、不存在多重共線性問題以及目標(biāo)變量是二分類等等.

2)使用Logistic回歸方法進行識別預(yù)警是進行研究是合適的,這就要求達到一定規(guī)模的數(shù)據(jù)量.但在有限的數(shù)據(jù)且數(shù)據(jù)維度較高的情況下,基于Logistic模型的統(tǒng)計分析方法的實際應(yīng)用效果不好.

基于此,本文在進行Logistic回歸前,對數(shù)據(jù)進行特征選擇,對于大規(guī)模的數(shù)據(jù)量也可以很好的進行模型訓(xùn)練,提高了模型的識別精度.

2.3 擔(dān)保圈風(fēng)險識別

應(yīng)用大數(shù)據(jù)技術(shù)實現(xiàn)銀行的風(fēng)險控制,主要體現(xiàn)在客戶信用評估[20]以及違約風(fēng)險概率的計算[21,22]等方面,從國內(nèi)學(xué)者對于擔(dān)保圈的研究情況看,由于受到數(shù)據(jù)可得性的限制,郎咸平等[23]、呂江林[24]、杜權(quán)[25]以及吉玉雪[4]等人針對擔(dān)保圈產(chǎn)生的原因、擔(dān)保圈風(fēng)險識別及傳染機制等方面進行理論分析.在應(yīng)用大數(shù)據(jù)分析技術(shù)方面,文獻[3]基于Spark大數(shù)據(jù)計算平臺,開發(fā)出擔(dān)保圈識別與管理系統(tǒng),,可快捷完成圖構(gòu)建和最大連通圖查找,在大量信貸數(shù)據(jù)中快速識別擔(dān)保圈,具有基本的擔(dān)保圈管理功能.但沒有對擔(dān)保圈進行進一步的分割,查找擔(dān)保圈中關(guān)鍵客戶.文獻[26]描述了在銀行業(yè)現(xiàn)實數(shù)據(jù)情況下,基于大數(shù)據(jù)的客戶關(guān)聯(lián)關(guān)系族譜及風(fēng)險預(yù)警模型構(gòu)建方法,主要從知識圖譜算法來進行客戶關(guān)聯(lián)關(guān)系的描述.文獻[27]從商業(yè)銀行視角出發(fā),將矩陣識別與擔(dān)保圈網(wǎng)絡(luò)的脆弱性分析結(jié)合,提出了一種改進的脆弱性分析模型,測度了風(fēng)險閾值的合理邊界.并以2016年某省經(jīng)濟開發(fā)區(qū)內(nèi)所有信貸企業(yè)的擔(dān)保圈關(guān)系圖,進行風(fēng)險識別和預(yù)警,提出風(fēng)險化解措施.實證結(jié)果與該省商業(yè)銀行信貸監(jiān)測結(jié)果一致.

基于此,本文提出一種CSAFS特征選擇算法與Logistic回歸相結(jié)合的擔(dān)保圈風(fēng)險識別方法,實現(xiàn)了擔(dān)保圈風(fēng)險的識別,這不僅加快了數(shù)據(jù)計算的速度,并利用數(shù)據(jù)說話,科學(xué)有效.避免了傳統(tǒng)的經(jīng)濟理論分析帶來的不確定性問題.

3 擔(dān)保圈風(fēng)險識別算法描述

本文提出的CSAFS特征選擇算法和Logistic回歸算法相結(jié)合的擔(dān)保圈風(fēng)險識別方法,該方法主要分為三個階段:

1)通過遍歷數(shù)據(jù)集,識別出數(shù)據(jù)中所有的企業(yè)信貸擔(dān)保圈.對擔(dān)保圈中相關(guān)企業(yè)的貸款和資產(chǎn)等數(shù)據(jù)進行歸一化處理.

2)采用CSAFS算法,對樣本數(shù)據(jù)進行特征選擇.

3)將最優(yōu)特征子集作為輸入項進行Logistic回歸,建立風(fēng)險識別模型,定位高風(fēng)險客戶.

下面給出文中用到的相關(guān)符號的表示方法說明及算法具體描述.

3.1 相關(guān)符號說明

本文在算法設(shè)計時涉及到多種公式運算,其中使用到的符號說明如表1所示.

表1 符號及其含義Table 1 Smbols and their meanings

3.2 CSAFS 算法描述

由于銀行業(yè)務(wù)繁雜,包含的特征變量較多,如果通過數(shù)據(jù)分析建立異常識別精度較高的模型,其關(guān)鍵因素是選取具有代表性的特征變量,才能較好的反映出客戶各種行為.因此本文提出了一種特征選擇算法CSAFS,該算法主要分為三個階段:

3.2.1 計算特征的相關(guān)系數(shù)rjk

假設(shè)數(shù)據(jù)集D包含n個特征,即特征集Q={x1,x2,…,xn},每個特征由m條數(shù)據(jù)構(gòu)成,則數(shù)據(jù)集D是個n*m維的矩陣.記特征 xj的取值為 x1j,x2j,…,xmj(j=1,2,…,n),則可以用兩個變量指標(biāo)xj和 xk的樣本相關(guān)系數(shù)rjk作為它們的相似性度量(j,k=1,2,…,n),也即:為平均度量(j=1,2,…n),(1)式中的rjk具有如下性質(zhì):

1)|rjk|≤ 1,對于一切j和k;并且|rjk|越接近 1,xk和 xk相關(guān)性越強;|rjk|越接近0,xj和 xk相關(guān)性越弱;

2)rjk=rkj,對于一切j和k,特別的rjj=1,也即相關(guān)系數(shù)矩陣F是n×n維對稱矩陣.

3.2.2 特征聚類

將相關(guān)系數(shù)轉(zhuǎn)換成距離,即特征xj和xk的距離為:

即相似度越高,特征間距離越近.

將每個數(shù)據(jù)點作為一個簇,應(yīng)用公式(3)解出所有的距離構(gòu)成矩陣F.在進行聚類時,本文選擇平均距離法D(C1,C2)來度量兩個簇間的距離.平均距離法原理圖如圖1所示.

其中,C表示簇,n1和n2分別表示簇C1、簇C2中變量的個數(shù).

通過公式(4)計算,在進行特征聚類時,通過遍歷距離矩陣F,找到距離小于D(C1,C2)的所有的類簇合并成一類.按照此方法可以將源數(shù)據(jù)集分為w個新類簇,分別為C1、C2…Cw,(w <n).

3.2.3 最優(yōu)特征子集選擇

假設(shè)簇C1中包含i個特征,對i個樣本中的x進行標(biāo)準(zhǔn)化為珓x,構(gòu)成i維矩陣,即X=[珓x1,珓x2,珓x3,…,珓xI]T,然后計算X的協(xié)方差矩陣∑,即計算各維度兩兩之間的協(xié)方差,這樣各協(xié)方差∑ij組成了一個i×i的矩陣,稱為協(xié)方差矩陣.∑是個對稱矩陣.矩陣內(nèi)的元素∑ij為:

其中cov(珓xI,珓xj)是珓xI和珓xj的協(xié)方差,E是期望.協(xié)方差矩陣∑的前i個較大的特征值λ1≥λ2≥…≥λI≥0,就是前i個主成分對應(yīng)的方差,λi對應(yīng)的特征向量ui就是主成分yi的關(guān)于珓xi的系數(shù),而珓x是經(jīng)過x標(biāo)準(zhǔn)化變換后的值.根據(jù)特征向量值與x值則可以求出Logistic回歸模型的自變量的y值.即主成分y的求解為:

即:

其中y1是第一主成分,y2是第二主成分,…,yn是第n主成分.特征值λ的大小反映了各個主成分的影響力.求解公式:

計算出各個主成分對應(yīng)的方差(信息)貢獻率bj,bj用來反映信息量的大小,即

最終要選擇幾個主成分,即累計方差貢獻率αm,確定主成分個數(shù).即 y1、y2、…、ym,m 的確定是通過方差(信息)累計貢獻率αm來確定的.即:

通常當(dāng)累計貢獻率大于85%,就認(rèn)為能足夠反映原始變量的信息了.

通過公式(5)~公式(9)計算,按照特征值的大小對所有類簇主成分的特征值λ進行排序,選取特征值>1,且累計方差貢獻率達到85%的主因子構(gòu)成最優(yōu)特征子集Qbest.

CSAFS算法的具體描述如下:

輸入:某銀行信貸擔(dān)保數(shù)據(jù)集D和原始特征集Q

輸出:最優(yōu)特征子集Qbest

步驟1.對數(shù)據(jù)集D進行歸一化處理;

步驟2.通過公式(1)-公式(2),計算 Q={x1,x2,…,xn}中任意兩個特征間的相關(guān)系數(shù) rjk(j、k=1,2,…,n);

步驟3.通過公式(3),將相關(guān)系數(shù)轉(zhuǎn)換成距離 djk(j、k=1,2,…,n),存入距離矩陣F;

步驟4.重復(fù)步驟2-3,遍歷特征集 Q={x1,x2,…,xn},計算出所有的特征間距離構(gòu)成距離矩陣F;

步驟5.通過公式(4),計算出F的平均距離D;

步驟6.比較 djk與 D,如果 djk<D,則 Ck(k=1,2,…,w,w <n);

步驟7.重復(fù)步驟5-6,遍歷F,將源數(shù)據(jù)集分為w個新類簇,分別為 C1,C2,…,Cw;

步驟8.通過公式(5-9)對簇 Ck(k=1、2、…、w)進行主成分提取,求出對應(yīng)的∑、λ、bj、αp和 y,如果 λ >1 且αp>0.85,則 y 為最優(yōu)特征;

步驟9.重復(fù)步驟8,遍歷所有的簇 C1,C2,…,Cw,求解出最優(yōu)子集Qbest.

3.3 Logistic回歸算法描述

通過CSAFS算法選擇出最優(yōu)特征子集Qbest,在訓(xùn)練模型階段,最優(yōu)特征作為自變量進行Logistic回歸.

Logistic回歸分析模型可表述為:

其中,xi(i=1,2,3,…,n)代表的是最優(yōu)特征子集 Qbest的特征,α 為常數(shù)項.ci(i=1,2,3,…,n)是各影響因素的權(quán)重.P表示違約概率,0≤p≤1.如果Logistic回歸值p越接近1,則表明該行為風(fēng)險性較高;如果Logistic回歸值p越接近0,則表明該行為風(fēng)險性較低.

以銀行信貸風(fēng)險為例,假定Y表示貸款客戶/企業(yè)違約與否事件,取1或0;X1,X2,…,Xn是影響Y的自變量,則Y與X的關(guān)系可表示:

通常設(shè)違約臨界值P定為0.5,若計算所得P<0.5,則表示違約風(fēng)險較低;若P>0.5,則說明違約風(fēng)險較高,在銀行信貸方面,通常以0.5為參考值,來判斷企業(yè)是否存在違約風(fēng)險,決定是否向貸款人發(fā)放貸款.

3.4 擔(dān)保圈風(fēng)險識別算法時間復(fù)雜度分析

擔(dān)保圈風(fēng)險識別算法的時間開銷主要兩個部分:特征選擇階段和Logistic回歸階段.

在CSAFS特征選擇算法中,計算特征間相關(guān)系數(shù)的時間復(fù)雜度為O(n);特征聚類的時間復(fù)雜度為O(n2);進行特征選取的時間復(fù)雜度為O(w),則CSAFS算法的時間復(fù)雜度為O(n+n2+w),由于n>w,所以該算法的時間復(fù)雜度為O(n2).

在Logistic回歸階段,算法主要進行構(gòu)造sigmoid函數(shù),循環(huán)次數(shù)為I,計算數(shù)據(jù)集梯度,最終sigmoid函數(shù)求解分類.其時間復(fù)雜度O(n*C*I),n代表樣本數(shù)量,C代表單個樣本計算量(取決于梯度計算公式),I為迭代次數(shù),取決于收斂速度.

綜上所述,擔(dān)保圈風(fēng)險識別算法的時間復(fù)雜度O(n2+n*C*I).

4 實驗與分析

其中,P表示違約概率,即Y=1的情形,(1-P)表示沒有違約的概率,即Y=0的情形,進一步化簡得:

本次研究使用的數(shù)據(jù)集是某商業(yè)銀行五年內(nèi)的信貸數(shù)據(jù)集.通過采集30家授信企業(yè)的擔(dān)保數(shù)據(jù),使用深度優(yōu)先算法識別出26個擔(dān)保圈(層級為2),涉及到273家企業(yè).通過采集26個擔(dān)保圈內(nèi)所有企業(yè)的信貸、資產(chǎn)和交易等數(shù)據(jù),經(jīng)過數(shù)據(jù)過濾,一共包含21個自變量和一個表示違約標(biāo)識的特征.即特征集Q={x1,x2,…,x22}.通常情況下,企業(yè)的凈資本、負(fù)債、擔(dān)保或被擔(dān)保的金額、擔(dān)保企業(yè)的數(shù)量等因素關(guān)系著整個擔(dān)保圈是否穩(wěn)定,如果一家影響度較高的企業(yè)發(fā)生違約,那么極有可能會出現(xiàn)“多米諾效應(yīng)”[27].所以需要計算出圈內(nèi)每個企業(yè)的擔(dān)保金額占總擔(dān)保額的比例A1(%)以及被擔(dān)保數(shù)量占總擔(dān)保數(shù)量的比例A2(%),將A1和A2作為新的類簇進行主成分分析.

由于對于該樣本數(shù)據(jù)來說,存在樣本分布不平衡是關(guān)鍵問題,在劃分?jǐn)?shù)據(jù)時,本文主要充分抽樣法,將原數(shù)據(jù)的70%作為訓(xùn)練集用于訓(xùn)練分類器,30%作為測試集用于評估分類器性能.兩個數(shù)據(jù)集中陰性和陽性數(shù)據(jù)比例接近,約等于為3∶1.

實驗數(shù)據(jù)集以.csv格式保存在本地,實驗軟硬件環(huán)境如下:操作系統(tǒng)為 Windows 10,CPU為 Intel(R)Core(TM)2 Duo CPU E7300@2.93 GHz,內(nèi)存為 8 GB,主要實驗平臺為SPSS和jupyter notebook,語言為python 3.

4.1 建立模型

通過CSAFS算法進行特征選取,求出9個主因子構(gòu)成了新特征子集Qbest.

通過分析,將各自變量帶入Logistic回歸模型,通過SPSS進行回歸分析得到模型的分析結(jié)果如表2所示.

表2 Logistics回歸估計結(jié)果Table 2 Table of Logistics regression estimation result

4.2 模型檢驗

針對上述Logistic回歸模型,本文利用某樣本數(shù)據(jù)進行檢驗,樣本包含91組數(shù)據(jù),其中標(biāo)識為0(正常)的數(shù)據(jù)69組,標(biāo)識為1(違約)的22組.檢驗結(jié)果如表3所示.

由表2可知,B代表回歸系數(shù),表示自變量和因變量的相關(guān),通過 B 和 sig.(sig.<0.05)的值可以看出,主成分 Y1、Y3、Y5、Y7、Y9對擔(dān)保圈是否存在風(fēng)險具有顯著性影響,表明自變量可以有效預(yù)測因變量的變異.則最終得到的Logistic模型表達式為:

表3 模型檢驗結(jié)果Table 3 Table of Model checking results

從表3可知,該模型對樣本的識別準(zhǔn)確率達到了95.6%,說明該模型能夠較好地實現(xiàn)擔(dān)保圈的風(fēng)險識別.

為了進一步對模型進行評估,本文采用準(zhǔn)確性指標(biāo)ROC曲線下面積(ROC_AUC)對模型進行效果評估.相比于其他評價指標(biāo),ROC曲線不受正負(fù)樣本分布變化的影響,具有一定的穩(wěn)定性.通常情況下ROC曲線在對角線x=y的左上方,才具有一定的預(yù)測價值.ROC_AUC取值范圍為[0,1],取值越大,代表模型整體準(zhǔn)確性越好.AUC值為ROC曲線所覆蓋的區(qū)域面積,一般而言,若AUC 取值在(0.5,1]之間,AUC越大,分類器分類效果越好[29].

ROC曲線主要是通過真陽率(True Positive Rate,TPR)和假陽率(False Positive Rate,F(xiàn)PR)兩個指標(biāo)進行繪制.ROC空間將FPR定義為X軸,TPR定義為Y軸.這兩個值由前面的AUC四個值計算得到,公式如下:

其中,TP(true positive)為真正類;FP(false positive)為假正類;TN(true negative)為真負(fù)類;FN(false negative)為假負(fù)類.

感受性曲線(ROC)示意如圖2所示.

由圖2可知AUC值為ROC曲線所覆蓋的區(qū)域面積,當(dāng)AUC值大于0.5,具有一定的預(yù)測價值,由此證明該模型識別效果較好.

圖2 感受性曲線(ROC)示意圖Fig.2 Graph of receiver operating characteristic

針對模型的擬合情況進行了進一步的檢驗,檢驗結(jié)果如表4所示.

表4 模型擬合檢驗Table 4 Table of model fitting test

由表4可知,該模型的-2倍對數(shù)似然值比較理想,CoX&Snell和 Nagelkerke均接近于l,表明模型總體擬合效果較好.

4.3 方法評估

為了驗證本文方法的有效性,本文從兩個角度進行驗證,驗證CSAFS算法的有效性以及擔(dān)保圈風(fēng)險識別方法的有效性.

4.3.1 CSAFS 算法的有效性驗證

由于CSAFS算法可以解決特征間的多重共線性問題,所以通過對特征間進行多重共線性診斷來驗證CSAFS算法的有效性.首先對原始特征集(包含21個特征)進行相關(guān)性分析,求出特征間的相關(guān)系數(shù)矩陣,存在3個特征間的相關(guān)系數(shù)超過了0.9,表明原始特征集中存在多重共線性問題.

由上文知,通過CSAFS算法選取出最優(yōu)特征子集作為自變量進行 logistics回歸,最終確定主成分 Y1、Y3、Y5、Y7、Y9對擔(dān)保圈是否存在風(fēng)險具有顯著性影響.針對主成分間是否多重共線性問題,本文將通過特征間的容忍度(Tolerance)和方差膨脹系數(shù)(Variance inflation factor,VIF)兩個診斷指標(biāo)來診斷.VIF的取值大于1,是容忍度的倒數(shù),VIF越大,說明特征間存在多重共線性的可能性越大.一般而言,當(dāng)容忍度>0.5,VIF<2時,表明特征間不存在多重共線性問題.特征間的共線性診斷如表5所示.

由表5可知,各個成分特征都滿足不存在多重共線性的要求,這表明CSAFS算法在消除特征間多重共線性問題的有效性.

4.3.2 驗證本文擔(dān)保圈風(fēng)險檢測方法的有效性

本實驗選用支持向量機(SVM)算法、決策樹算法、隨機森林(RF)算法以及樸素貝葉斯算法的四種應(yīng)用較為廣泛數(shù)據(jù)挖掘算法對同一組數(shù)據(jù)集進行建模.對比實驗結(jié)果,驗證本文擔(dān)保圈風(fēng)險檢測方法的有效性.通過測試,各個模型的識別準(zhǔn)確率如表6所示.

表5 多重共線性診斷表Table 5 Table of multicollinearity diagnostic

表6 算法的識別準(zhǔn)確率對比Table 6 Comparison of algorithm recognition accuracy

由表6可知,在算法的識別準(zhǔn)確率方面,決策樹、RF、SVM和樸素貝葉斯均小于95.6%,雖然隨機森林可以通過采樣來減小計算量,并且能夠利用并行方式進行模型訓(xùn)練,可以處理大規(guī)模高維數(shù)據(jù),在擔(dān)保圈風(fēng)險的識別上比其他三種算法(SVM、決策樹、樸素貝葉斯)識別的準(zhǔn)確率高,但仍然低于本文方法的識別準(zhǔn)確率.

由此可見,本文提出的擔(dān)保圈風(fēng)險識別方法的準(zhǔn)確率最高.這五種算法的優(yōu)缺點對比如表7所示.

表7 算法對比Table 7 Comparison of algorithm

5 總結(jié)

擔(dān)保圈的存在影響面較廣,究其根本是圈內(nèi)存在“高危”客戶,即破產(chǎn)風(fēng)險較高、償債能力較弱的群體,這些客戶容易發(fā)生違約行為.本文提出一種CSAFS特征選擇算法和Logistic回歸相結(jié)合的方法,對銀行信貸業(yè)務(wù)中出現(xiàn)的“擔(dān)保圈”進行風(fēng)險識別.首先采用CSAFS特征選擇算法對原始數(shù)據(jù)集進行最優(yōu)特征子集的選擇,該算法有效避免了確定K值問題,選擇出的新特征子集可以覆蓋全部或者大部分(85%以上)原始數(shù)據(jù)的信息,能夠有效的反映出客戶的行為信息.最后將最優(yōu)特征子集作為自變量進行Logistic回歸,建立擔(dān)保圈風(fēng)險識別模型,經(jīng)測試,該模型準(zhǔn)確判別出了87組正確的樣本,誤判了4組樣本,預(yù)測結(jié)果的準(zhǔn)確率達到了95.6%.為了進一步驗證本文方法的有效性和精準(zhǔn)度,分別采用SVM算法、決策樹算法、RF算法和樸素貝葉斯算法對同一組數(shù)據(jù)集進行建模,實驗表明本文提出的方法識別率最高,具有一定的實用價值.

猜你喜歡
特征方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
抓住特征巧觀察
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 996免费视频国产在线播放| P尤物久久99国产综合精品| 伊人无码视屏| 91福利免费视频| 亚洲IV视频免费在线光看| 亚洲自拍另类| 不卡视频国产| 国产91丝袜在线观看| 日本成人福利视频| 性视频久久| 激情综合网址| 67194亚洲无码| 狠狠色噜噜狠狠狠狠色综合久| 婷婷伊人久久| 日本在线免费网站| 韩国v欧美v亚洲v日本v| 久久久久亚洲av成人网人人软件| 伊人久久精品亚洲午夜| 亚洲最新在线| 国产成人亚洲精品蜜芽影院| 国产网站黄| 中文字幕亚洲另类天堂| 国产亚洲欧美在线专区| 狠狠色噜噜狠狠狠狠奇米777| av无码一区二区三区在线| 亚洲AⅤ永久无码精品毛片| 精品人妻系列无码专区久久| 毛片三级在线观看| 一本大道视频精品人妻| 无码啪啪精品天堂浪潮av| 国产91全国探花系列在线播放| 国产又色又爽又黄| 99热亚洲精品6码| 国产一区二区色淫影院| 日韩免费视频播播| 久久人妻xunleige无码| 日韩小视频在线播放| 国产三级韩国三级理| 亚洲精品国产综合99| 白浆视频在线观看| 国产成人综合网在线观看| 一级成人a毛片免费播放| 亚洲va在线观看| 青青草原国产av福利网站| 97综合久久| 亚洲黄色高清| 一级片一区| 99在线观看精品视频| 98超碰在线观看| 欧美日韩免费| 国产九九精品视频| 天堂在线www网亚洲| 国产精品内射视频| 99热国产在线精品99| 久久精品亚洲专区| 国产成人久久综合一区| 欧美不卡二区| 色亚洲成人| 青草视频网站在线观看| 欧美视频在线第一页| 国产精品自在在线午夜| 黄色免费在线网址| 免费一级大毛片a一观看不卡| 成人av专区精品无码国产| 亚洲区欧美区| 亚洲日本一本dvd高清| 欧美中文一区| 国产精品尹人在线观看| 日本一本正道综合久久dvd | 国产污视频在线观看| 免费全部高H视频无码无遮掩| www中文字幕在线观看| 特级做a爰片毛片免费69| 亚洲一道AV无码午夜福利| 国产区福利小视频在线观看尤物| 免费毛片网站在线观看| 久久精品无码一区二区国产区| 亚洲综合激情另类专区| 日本三区视频| 免费无码AV片在线观看国产| 日韩a在线观看免费观看| 成人字幕网视频在线观看|