999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于寬深學習的P2P借款人違約風險預測

2023-07-07 03:10:06張桃寧梁雪春
計算機應用與軟件 2023年6期
關鍵詞:特征模型

張桃寧 梁雪春

(南京工業大學電氣工程與控制科學學院 江蘇 南京 211816)

0 引 言

P2P借貸市場是基于互聯網的交易平臺。相較于傳統金融交易平臺,其交易成本更低、貸款更便利[1-2]。隨著我國對P2P的監管力度不斷加深,P2P產業告別了野蠻式發展,平臺逐漸朝著健康發展的道路轉型[3]。然而,平臺與投資者之間仍然存在信息不對稱的問題,投資者易投資遭受損失,平臺也會因過多的不良貸款而逐漸失去投資人的信任[4]。從長遠來看,提高不良貸款的識別率、降低投資風險,對平臺方和投資者來說都非常必要。

章雷等[5]認為增大數據量可以減輕信息不對稱所帶來的影響,更大的數據量能更好地評估借款人資質。不平衡數據少數類存在分類精度較低的問題,增大數據量可以避免因欠采樣而導致模型過擬合[6]。通過獲取大量的借款人信息數據,挖掘借款人信息與貸款違約的關聯性可以使投資者制定更加合理的投資策略,降低投資風險。在國內P2P風險預測研究中,譚中明等[7]使用人人貸數據,采集了約900個樣本,12個特征。張衛國等[8]也采用人人貸數據,共采集了1 500個樣本,有17個特征。謝雪梅等[9]從人人貸和拍拍貸上選取了共約65 000個樣本進行預測。可以看到,由于國內大多數平臺不會公布其歷史借款人信息,研究者收集到的數據集的數據量較少,且格式不統一,不利于模型的比較分析。本文選用目前全球最大的P2P平臺Lending Club官方公開的借款人信息數據集,具有時間跨度大、數據量大和數據特征豐富的優勢,也是近年來在P2P借貸違約預測和風險評估領域內研究者們較為青睞的數據集,具有一定的基準性[10-12]。

國內外學者對借款人違約風險預測模型進行了許多研究,Teply等[13]基于Lending Club數據集,對比了10種主流分類算法的性能,其中邏輯回歸、神經網絡和線性判別分析在分類任務中性能較好。Wang等[14]對P2P網貸數據進行了特征的相關分析,研究表明,在特征數量(158個)較大的情況下,邏輯回歸分類準確率最高。吳艇帆[15]對邏輯回歸分類器進行了改進,使用基于L1正則化的邏輯回歸模型進行P2P借款人風險測度,提升了預測的準確性。Guo[16]使用BP神經網絡作為貸款的風險評估算法,通過比較后得出,基于BP神經網絡的算法優于傳統的Logistic回歸算法。上述研究表明,邏輯回歸和神經網絡在借款人違約預測的應用中都能取得較好的結果。谷歌公司Cheng等[17]提出了應用于推薦系統的寬深度學習模型,該模型結合了寬模型(即邏輯回歸模型)記憶性強和深模型泛化能力強的優點。本文采用寬深度學習模型對P2P借款人違約概率進行預測,但由于推薦系統數據集與借款人信用數據集有明顯區別,借款人信用數據集的類別型特征維數較低且原始模型沒有加入數值型特征。因此需要改善模型嵌入層的輸入并加入數值型特征。最后在數據量大、特征數多的真實借款人信息數據集上驗證該模型的預測性能。

1 模型介紹

1.1 寬模型

寬模型部分選用的是廣義線性模型,即大規模分類問題中常見的邏輯回歸模型[14]。寬模型能夠更好地捕捉特征之間的相關信息,具有良好的記憶性。設模型的輸出為y,y是一個0到1之間的概率值,表示借款人的違約概率,y越接近1表示違約概率越大。計算借款人違約概率的公式為:

y=σ(z)

(1)

(2)

式中:zwide表示寬模型的輸出;σ(·)為Sigmoid函數;借款人違約風險預測問題是一個二分類問題,標簽為1的樣本為違約樣本,標簽為0的樣本為非違約樣本,故采用二分類任務中常用的Sigmoid函數將模型的輸出轉換為0到1之間的概率值,最后將違約概率大于0.5的樣本預測為違約樣本。寬模型預測的借款人違約概率為y=σ(zwide),zwide計算方法如下:

(3)

式中:x=[x1,x2,…,xn]為特征向量;wwide=[w1,w2,…,wn]為模型權重;bwide為偏置。

組合特征不僅能獲取類別型特征之間的交互信息,而且能用線性模型學習非線性信息,提高模型的泛化性。寬模型的輸入除了原始類別型特征之外還需增加組合特征。對于借款人數據集,特征向量x包括數值型特征和類別型特征,即x=[xnum,xcat]。為豐富寬度模型的輸入,可以利用類別型特征xcat構造組合特征φ(xcat),組合特征定義如下:

(4)

式中:xcat表示所有原始的類別型特征,xi為單個類別型特征,xi∈xcat;d是組合特征的個數;cki是一個布爾型的變量,cki=1表示第i個原始特征xi參與了第k個組合特征φk的特征交叉。如特征“性別”={男,女}與特征“職業”={老師,學生}可以交叉組合成“新特征”={(男,老師),(女,老師),(男,學生),(女,學生)}。加入組合特征φ(xcat)后,式(2)改寫為:

(5)

式中:φ(xcat)=[φ1(xcat),φ2(xcat),…,φd(xcat)]為新增的d個組合特征。寬模型的結構如圖1所示。

圖1 寬模型結構

1.2 深模型

深模型部分是前饋神經網絡[16]。深模型的輸入包括數值型特征xnum、類別型特征xcat與組合特征φ(xcat)。其中,對于原始類別型特征和組合特征這類稀疏特征,需要將其映射為稠密實值向量。用embed(x,k)表示將類別型特征x映射為k維的嵌入向量,則深模型的嵌入向量為:

xemb=[embed(xcat,k1),embed(φ(xcat),k2)]

(6)

式中:k1、k2表示映射后的維度。原始類別型特征因其本身的維度較低,映射后的嵌入向量要比組合特征的嵌入向量維數更低,即k1

數值型特征xnum與映射后的嵌入向量xemb拼接后作為神經網絡的輸入接入第一層隱藏層,則第一層隱藏層的輸出z(1)為:

z(1)=f(W(1)[xnum,xemb]+b(1))

(7)

其余各層隱藏層的輸出如下:

z(l+1)=f(W(l)z(l)+b(l))

(8)

式中:l為當前隱藏層層數;z(l)、b(l)與W(l)是第l層的輸出、偏置及權重;f為激活函數,此處為線性整流函數(Rectified Linear Units, ReLU)。ReLU激活函數公式如下:

f(x)=max(0,x)

(9)

設深模型共有L層隱藏層,則最后一層隱藏層的輸出為z(L),利用式(1)計算違約概率。對于深模型,式(1)中的z=zdeep。

(10)

式中:wwide與bwide為深模型輸出層的權重和偏置。深模型結構如圖2所示。

圖2 深模型結構

1.3 寬深模型

寬深模型由寬模型和深模型共同組成[17],采用邏輯回歸損失函數來進行聯合訓練。此處寬度部分和深度部分的模型是聯合訓練,而非組合模型訓練。組合模型在訓練過程中,兩模型獨立訓練,分別優化其參數,損失函數也獨立。而在聯合訓練中,寬深度部分共享一個損失函數,在訓練過程中同時優化兩模型的參數。對于預測借款人違約概率的二分類問題,將寬模型和深模型的輸出之和輸入至式(1)計算得到違約概率:

y=σ(zwide+zdeep)

(11)

式中:zwide和zdeep分別由式(5)和式(10)給出;σ(·)為Sigmoid函數,由式(2)給出。

為了避免過擬合,增強模型的魯棒性,本文在寬模型和深模型的輸出層加入dropout隨機失活層[18],設定一個概率p,對輸出層的每個輸出都以概率p來判定是否保留該輸出,將式(5)改進為:

(12)

式中:⊙表示兩向量對應元素相乘;r=[r1,r2,…,rn],n的大小與[x,φ(xcat)]的維度一致;ri∈{0,1}通過以概率為p的伯努利分布隨機生成。

同理,將式(10)改進為:

(13)

同時,為了提高精度并加快訓練速度,避免模型過于關注取值較大的特征,在特征輸入隱藏層之前需要對數值型特征進行標準化,本文采用Z-Score標準化,標準化公式如下:

(14)

式中:μ和σ為數值型特征的均值和標準差。

本文提出的寬深模型針對借款人數據的特點加入了數值型特征,更充分地利用嵌入層對數據進行壓縮和降維,豐富了模型的輸入的同時,擴展了模型的適用性。寬深模型結構如圖3所示。

圖3 寬深模型結構

2 數據預處理

2.1 數據集

實驗選用目前全球最大的P2P平臺LendingClub的借款人信息數據集。選用的數據時間范圍跨度從2016年至2019年,共約190萬個樣本。原始借款人數據集共有144個特征,其中以“loan-status”(貸款狀態)項作為判斷借款人是否違約的目標標簽,由于還款時限和貸款策略的不同,存在貸款狀態未完結的樣本,需要剔除掉這部分無效樣本。可以看到,年份越近,有效樣本數越少,剔除掉無效樣本后,剩下約90萬條有效樣本,違約率表示違約樣本數占有效樣本數的比例,數據集相關信息如表1所示。

表1 Lending Club數據集信息

2.2 缺失值處理

由于原始數據集的缺失值較多,且存在部分取值為字符串型的類別型特征,無法直接應用到模型訓練中。因此需要對數據集進行基本的數據預處理工作。

首先刪除缺失值占比超過15%的特征,由于缺失值數目過多,這些特征對模型訓練幫助有限。其次對于缺失值占比小于5%的特征,刪除掉有缺失值的樣本。剩下缺失值占比為5%~15%的特征中,對于特征取值分布符合正態分布的數值型特征用均值填補缺失值,其余特征用0值填充。對于類別型特征,缺失值用出現頻率最高的特征值填充。

2.3 剔除冗余特征

刪除相關度高的特征,如“funded_amnt” (申請貸款金額)和“funded_amnt_inv” (實發貸款金額)特征。該數據集中借款人的貸款申請都得到了通過,因此這兩項特征的取值高度一致。

刪除特征取值頻率高于98%的特征,例如對于“policy_code”(是否公開信息)特征,取值為“1”的樣本占比高達99%。

2.4 特征工程

數據預處理完成后,將特征分為類別型特征和數值型特征分別進行簡單的特征工程。對于類別型特征,對其進行獨熱向量編碼,將一維類別型變量映射成多維的取值為0或1的特征。對于數值型特征,對其進行標準化。

最后將預處理完畢后的特征匯總成新的數據集。數據預處理部分的流程如圖4所示。

圖4 數據預處理流程

3 實驗與結果分析

3.1 實驗環境和模型參數

實驗環境為Chromium OS 9.0, Intel(R) Xeon(R) CPU @ 2.30 GHz, 8 GB內存, Tesla K80 12 GB GPU顯存, Python3.7, TensorFlow 2.2.0。在完成數據預處理后搭建訓練模型。實驗使用TensorFlow深度學習框架搭建模型。深度部分由兩層隱藏層組成,結點數分別為64和32。使用Adam優化器優化交叉熵損失函數,學習率為10-4,迭代輪次為10,每批數據有2 048個樣本。

3.2 評價指標

本文采用召回率、精確率和準確率等指標衡量模型性能。正例表示違約樣本,負例表示非違約樣本。TP表示實際是正例,預測為正例的樣本數;FP表示實際為負例,預測為正例的樣本數;TN表示實際為負例,預測為負例的樣本數;FN表示實際為正例,預測為負例的樣本數。

召回率為模型找到的違約樣本數與實際違約樣本數的比例,其定義如下:

(15)

精確率為模型找到的違約樣本數與預測違約樣本數的比例,其定義如下:

(16)

準確率的定義如下:

(17)

F1-score的定義如下:

(18)

3.3 結果分析

由于數據集特征數量較大,表2僅給出前文提到的和少數新增的包含部分特征的樣本樣例表。

表2 包含部分特征的樣本樣例表

表3 不同訓練集下3個模型的性能對比

為了驗證數據集大小及時間對模型性能的影響,本文采用按年份對數據集進行的劃分方式對模型性能進行驗證。實驗使用2016年至2018年的樣本作為訓練集,2019年的數據作為測試集,模擬投資者根據過去的信息對未來進行決策的過程。將預處理完畢后的訓練集數據以一年為單位,對數據集進行組合劃分,然后分別對寬模型、深模型、寬深模型進行訓練。

可以看出,以2018年作為訓練集得到的模型性能最佳,模型的召回率、準確率、F1-score分別為71.02%、93.27%、81.76%。此外可以看出,以2016年、2017年,2018年的樣本作為訓練集時,年份越接近2019年,模型的F1-Score、召回率、準確率越高,精確率有小幅下降。這說明由于經濟時空背景的差異,年份越久遠的樣本對預測違約概率的貢獻程度越低,使得模型在利用過去的樣本進行訓練時,得到的模型較為保守,找出違約借款人樣本的能力較差,雖然精確率較高,但投資者更為重視的召回率偏低。

同時可以看出,以2018年、2017年至2018年、2016年至2018年的樣本作為訓練集時,隨著數據集樣本數的增加,模型的F1-Score、召回率、準確率也在下降。說明盲目增加數據量并不一定能提升模型性能,反而可能會因降低了樣本質量而導致模型性能下降。

圖5展示了以2018年作為訓練集訓練得到的三個模型在訓練過程中性能指標的迭代曲線,可以看出,寬深模型在準確率和F1-score指標上的性能均優于單一的寬模型或深模型。其中,寬模型的性能最差且上升慢,需要更多的訓練迭代輪次來提升寬模型的性能,而寬深模型各項指標隨迭代次數的上升明顯快于深模型和寬模型。寬深模型準確率和F1-score分別比深模型高5.38百分點和20.5百分點,該實驗結果表明了寬深模型應用于借款人違約預測的可行性與優越性。

4 結 語

為提高不良貸款的識別率、降低投資風險。本文針對大數據時代下的借款人信息數據集數據量大和特征豐富的特點,提出一種基于寬深學習的借款人違約風險預測模型。該模型結合了寬模型的記憶性和深模型泛化性,并采用引入隨機失活層對其進行優化。在進行數據預處理后,將數據集以年份為單位劃分并訓練模型。實驗結果表明,選用最新的數據進行投資決策分析和模型訓練對投資者而言十分重要;寬深模型具有更強的識別違約樣本的能力和更好的預測性能。本文僅采用了單平臺的借款人信息數據集,后續研究可以結合多家平臺的借款人信息數據集訓練模型,提高模型的泛化能力并進一步拓展寬深模型的應用范圍。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 不卡无码h在线观看| 亚洲美女一级毛片| 香蕉久久永久视频| 国产手机在线小视频免费观看| 国产成人av一区二区三区| 国产真实乱了在线播放| 特级精品毛片免费观看| 波多野结衣一二三| 欧美在线伊人| 成人伊人色一区二区三区| 日韩精品资源| 尤物视频一区| 亚洲视频一区在线| 黄色网站在线观看无码| 爽爽影院十八禁在线观看| 国产电话自拍伊人| 国产黄色爱视频| 天堂岛国av无码免费无禁网站 | 久久久成年黄色视频| 无码福利日韩神码福利片| 欧美精品成人| 成人毛片在线播放| 人妻无码一区二区视频| 日韩精品久久无码中文字幕色欲| 久久香蕉国产线看观看亚洲片| 日韩精品一区二区三区swag| 久久女人网| 国产毛片基地| 成年午夜精品久久精品| 亚州AV秘 一区二区三区| 国产第三区| 国产乱子精品一区二区在线观看| 国产女人水多毛片18| 欧美怡红院视频一区二区三区| 伊人查蕉在线观看国产精品| 色男人的天堂久久综合| 国产91麻豆视频| 欧美日韩国产在线观看一区二区三区| 99九九成人免费视频精品| 欧美成人午夜在线全部免费| 国产亚洲欧美日韩在线一区| 国产精品亚洲一区二区三区z | 伊人激情综合网| 日韩国产一区二区三区无码| 91青青视频| 国产精品无码AV中文| 国产欧美日韩另类精彩视频| 国产成人资源| 性喷潮久久久久久久久| 精品人妻无码中字系列| 午夜福利无码一区二区| 日本91视频| 国产在线一二三区| 精品久久蜜桃| 凹凸精品免费精品视频| 永久免费无码日韩视频| 欧美精品成人| 九九热精品免费视频| 国产综合亚洲欧洲区精品无码| 欧美不卡视频在线| 91视频区| 中文字幕在线不卡视频| 2021国产在线视频| 国产一区二区福利| 欧美日韩精品一区二区在线线| 亚洲区一区| 在线观看亚洲天堂| 高清无码一本到东京热| 欧洲在线免费视频| 国产精品女人呻吟在线观看| 国产欧美在线观看视频| 男人天堂伊人网| 欧美三级自拍| 午夜国产精品视频黄 | 一本大道在线一本久道| 久久精品视频一| 国产在线观看成人91| 伊人成人在线视频| 日韩毛片免费观看| 欧美日韩激情| 亚洲A∨无码精品午夜在线观看| 伊人婷婷色香五月综合缴缴情|