基于TF-IDF算法的P2P貸款違約預測模型

2018-11-22 09:37:54章寧,陳欽,2

計算機應用 2018年10期

章寧,陳欽,2

(1.中央財經大學信息學院,北京 100081; 2.國銀金融租賃股份有限公司信息化管理部, 廣東深圳 518038)(*通信作者電子郵箱2013110160@CUFE.edu.cn)

0 引言

個人對個人P2P(Peer-to-Peer)借貸(或P2P貸款)即個人對個人的貸款行為,投資人依據借款人的個人信用,按照一定利率進行貸款投資,一旦出現違約,貸款本金將產生較大損失[1-2],具有收益固定、風險高的特點。

全球第一家在線P2P借貸平臺是2005年成立于英國的Zopa。美國兩家最知名的P2P借貸平臺,分別是成立于2006年的Prosper,以及成立于2007年的Lending Club,后者于2014年12月在紐約股票交易所掛牌上市,目前為美國最大規模的P2P借貸平臺。2007年國內出現了第一家P2P借貸平臺拍拍貸,同年10月宜信借貸平臺上線,從2011年開始,國內P2P借貸平臺進入快速發展期,伴隨而來的則是大量業務亂象。 2016年監管部門對P2P貸款的合規管理開始不斷收緊,截至2017年12月底,正常運營的P2P貸款平臺數量為1 931家,相對于2016年底減少了517家[3]。

與傳統銀行貸款不同,P2P貸款完全通過線上完成,屬于直接融資的一種,由于缺乏第三方金融中介參與,借貸雙方存在很大的信息不對稱性,投資人只能獨立對貸款未來的違約概率、預期收益等進行預測[4],以期預防投資風險,并獲得更高的投資收益。目前由于缺乏有效的P2P貸款違約預測方法和工具,投資人要么簡單遵循“大數原則”進行投資分散以規避風險,要么選擇利率更高的貸款以期獲得風險補償,這在相當程度上進一步加劇了P2P貸款中的道德風險和逆向選擇。

目前對P2P貸款違約預測方法,根據使用的信息來源不同,主要可分為基于借款人信息和基于投資人信息兩類。

1 基于借款人信息的P2P貸款違約預測

該類方法基于借款人提供的各類信息,包括年齡、性別、婚否、借款總額、收入負載比、總體負載率等,對貸款的違約概率進行預測。模型主要包括線性回歸(Linear Regression, LR)[5]、Logitics回歸(Logitics reGression, LG)[6-7]、支持向量機(Support Vector Machine, SVM)[8]、核模型(Kernel-Based Model, KBM)[8]、貝葉斯網絡(Bayesian network)[9-10]等,使用最普遍是LR、LG、SVM等模型。

但由于P2P貸款中借貸雙方信息不對稱性,借款人存在較大道德風險,其提供信息的完整性和真實性很難保證,故基于這些信息所進行預測的準確性也受到較大限制[4,11]。

2 基于投資人信息的P2P貸款違約預測

P2P貸款是多對多的投資方式,即一筆貸款由多名投資人投資,而一名投資人也可以投資多筆貸款,兩者之間的關系如圖1所示,其中psi、pfi、investi分別是投資人i的投資穩定率、投資收益率和投資貸款數量,Bidi, j和Ratei, j分別為投資人i對貸款j的投資金額和出價利率,debtj是貸款j的投資人數量。

圖1 P2P貸款與投資人之間的關聯關系Fig. 1 Relationship between P2P loans and lenders

針對借款人提供信息真實性無法得到有效保障的問題,文獻[12-14]中提出了基于貸款投資人端信息對P2P貸款違約率進行預測,并取得了較好效果。該預測模型基于投資人穩定性(Lender Stability, LS)保持不變的假設,具體如式(1)所示:

(1)

其中:wi為投資人i的權重因子,其計算方式為投資人對該筆貸款的投資金額Bidi, j占該筆貸款總金額的比例;psi為投資人歷史投資穩定率,即其投資中狀態為正常的投資金額與其總投資金額的比率;參數normali為投資人i所投資的狀態為正常的貸款數量。

LS模型利用投資人端的信息進行貸款違約預測,避免了借款人提供不真實借款信息的道德風險,但其假設投資人所投貸款穩定性趨同的假設,并未考慮P2P貸款之間以及投資人之間的差異性。不同的貸款具有不同利率,即使相同的違約概率也可能帶來不同的收益,而不同投資人由于在風險偏好、投資效用、投資能力、所掌握信息等方面存在的差異,也會影響其投資判斷和決策。另外,該模型按投資金額比例來計算投資者相對貸款的權重,并未考慮不同投資者以往在投資總量、投資分布等方面的差異。

3 模型設計及算法實現

本文基于投資效用理論,對投資人的投資偏好、投資判斷等進行量化定義和測算,提出了基于投資人效用(Lender Utility, LU)的貸款違約預測模型。同時,借鑒信息檢索中的詞頻-逆文本頻率(Term Frequency-Inverse Document Frequency, TF-IDF)算法,對投資人與貸款之間的關聯權重因子進行優化,以期進一步提升預測準確性。

表1 符號和定義Tab. 1 Symbols and definitions used in this paper

3.1 條件假設

假設1 貸款狀態只包括正常(Normal)與違約(Default),不考慮還款延遲(Late)等情況。

假設2 所有貸款為無抵押擔保,一旦出現違約,將該筆貸款的總額都記為損失,不考慮已收回還款金額。

假設3 投資者的風險偏好和投資目標是穩定和持續的,投資者將不斷學習提升投資能力,以達到自己預期的投資收益。

假設4 投資者是理性的,能充分利用自身知識和掌握的各類信息，作出自身認為最優的投資判斷和決策。

假設5 貸款成立前經過充分競價,即有足夠多的投資者提出投資意向,包括投資金額及可接受的最低利率,如果該筆貸款成立,將按照投資者提出的利息報價從低向高逐筆匹配投資金額[1,15]。

3.2 基于投資人效用的貸款違約預測模型

3.2.1 貸款收益率與違約率之間的關系

根據假設1,貸款的違約率與正常率之間滿足關系pnj=1-pdj,即預測貸款的違約率與預測其正常率實現了統一。而根據假設2,貸款預期收益率可由預期回報利率減去預期損失率得到,即profitj=rj*pnj-pdj,其中rj是貸款j最終成立時的利率,profitj是該筆貸款的預期收益率。將這兩個等式聯立,即可以得到貸款收益率與正常率之間的關系。

profitj=(1+rj)*pnj-1

(2)

3.2.2 考慮投資人投資效用的差異性

根據假設3,投資人的投資收益率pfi從長期來看將趨于穩定,可通過其歷史投資盈利(正常貸款的利息收益-減去違約貸款損失),與其歷史投資總額的比率來計算。

(3)

基于經濟學中效用理論,不同投資人有不同的投資偏好,但所有投資人都追求效用最大化,即在承擔相同風險時追求投資收益最大化,或是獲得相同投資收益時承擔最小的風險[16]。根據假設4,投資人會基于自己的投資知識和所掌握的各類信息,對貸款未來是否正常的概率pnj進行預測,然后以自己的投資目標收益率為基線,盡可能地提高利率報價,以期盡可能地獲得更高投資收益。

但與此同時,基于假設5,貸款在成立前將經過充分的利率競價過程,投資者為了投資成功,將不斷降低對該筆貸款的利率報價Ratei, j,從而該筆貸款的預期收益率也在不斷降低,直到回到投資人的目標投資收益率底線,即profitj=pfi,如果競爭進一步拉低該筆貸款的利率報價,投資人判斷預期收益率過低,將放棄投資該筆貸款。最終,該筆貸款的利率報價將實現市場出清(market clearing)[17],即所有投資人只能實現其各自的目標投資收益率,無法獲得任何超額收益。

由此,可以借助投資人的歷史收益率、貸款利率報價等信息,推算投資人是如何評估某筆貸款的正常概率的,具體方法如式(4)所示:

pfi=profitj=(1+Ratei, j)*pn_bidi, j-1 ?

(4)

在式(4)基礎上,考慮將貸款所有投資人預測的違約概率進行加權匯總,權重因子依然按照投資金額比例進行計算,可以建立基于投資人效用的P2P貸款違約預測模型，具體如式(5)所示。

(5)

3.3 借助信息檢索TF-IDF算法優化投資人權重因子

基于投資人信息的P2P貸款違約預測模型,很關鍵的一點就是更準確地度量投資人與貸款之間的相關性,即不同投資人的權重計算因子。目前研究中該因子的計算方式比較簡單,即依照投資人投入資金的比例來計算投資人對貸款的權重,該方法將所有投資人都等同看待,并未考慮不同投資人在投資總量、投資分布等方面的差異性。

信息檢索領域一個比較重要的研究內容就是詞語與文章之間關聯關系。一篇文章包含了不同的詞語,一個詞語也可以出現在多篇文章之中,兩者關系如圖2所示。對比圖1和圖2可以發現,投資人對P2P貸款進行投資,與詞語組成文章的關聯關系非常類似,本文考慮借鑒信息檢索中比較成熟的技術和算法,以期更好地利用投資人的信息對P2P貸款違約進行預測。

圖2 信息檢索研究中文章與詞語之間的關聯關系Fig. 2 Relationship between documents and words in information retrieval research

TF-IDF(Term Frequency-Inverse Document Frequency)是一種信息檢索研究中常用的加權算法,其核心思想是字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降[18-19]。

借鑒TF-IDF算法,本文對投資人相對于貸款的權重因子計算方法進行了優化,在原有的投資占比因子(類TF)基礎上,增加投資者的逆向投資比例因子(類IDF),于是在投資人效用的預測模型基礎之上,建立了基于TF-IDF算法的P2P貸款違約預測模型，其計算方法如式(6)所示。

(6)

3.4 主要算法實現

算法1 計算投資人歷史投資收益率。

算法說明遍歷投資人所有的歷史投資貸款,基于各筆貸款的違約情況、投資金額和利率,根據式(3)計算該投資人的歷史投資收益率。

輸入投資人所有貸款的集合Loani。

輸出pf。

初始化pf=0,Sum=0,Earning=0。

Fori=1 tondo

Sum=Sum+Loani.BidAmount

//記錄投資總額

IfLoani.Status=′Default′ Then

//貸款違約了

Earning=Earn-Loani.BidAmount

//全部投資金額被作為損失從投資盈利中扣減

Else

//貸款狀態正常

Earning=Earning+Loani.BidAmount*Loani.Rate

//將投資收益(投資額與利率的乘積)計入投資盈利

End if

End for

pf=Earning/Sum

//計算總的投資收益率

算法2 基于pLU2模型測算貸款正常率。

算法說明遍歷某筆貸款所有的合格投資人(投資數量或投資收益達到一定要求),基于其歷史投資收益率、利率出價、歷史投資數量等信息,根據式(6)測算該筆貸款的正常概率。

輸入貸款Loan,貸款所有競價的集合Bidi。

輸出Pn。

初始化tf=0,idf=0,Pn′=0,Pn=0。

Fori=1 tondo

IfBidi.LenderStatus=′Qualified′ Then

/*是否為合格投資人,即歷史投資數量、歷史投資收益率等滿足一定要求,設置此條件是為了避免缺乏經驗的投資人,因其投資表現波動隨機性過大,對預測結果的穩定性產生影響*/

CheckRelativity(Loan,Bidi.Lender)

/*檢查當前貸款是否計入投資人的投資歷史,如果是則將其從投資人的投資歷史中剝離,以防造成預測結果的過擬合*/

tf=Bidi.BidAmount/Loan.Sum

//計算TF權重因子

idf=Ln(Tloan/Bidi.LenderInvest+1)

/*計算IDF權重因子,分母加1的處理,是為了避免首次投資的投資人其投資數量為0的情況*/

IfBidii.LenderProfit

/*如果該投資人歷史收益率低于本筆貸款的利率,則推算的概率不高于1*/

Pn′=(1+Bidii.LenderProfit)/(1+Bidi.Rate)

/*從投資人效用角度推測的貸款正常預期概率*/

Else

Pn′=1

/*如果該投資人歷史收益率超過了本筆貸款利率,則進行修正,即推算的概率最高為1*/

End if

Pn=Pn+tf*idf*Pn′

//加權匯總所有投資人的預測結果

End if

End for

4 模型實證結果比較與分析

4.1 實驗數據說明

目前國內大部分P2P平臺貸款業務數據開放程度相對都不高,尤其是貸款違約情況、投資人投資情況等數據基本不公開。本文使用的實證數據來自美國的P2P借貸平臺Prosper.com,除了貸款、借款人、投資者、是否違約等信息外,還包括了貸款競價(Bid)過程的相關信息(如投資金額、利率出價等),這為驗證基于投資人信息的預測模型提供了數據基礎[20]。

實驗數據中貸款總數量為49 988筆,訓練數據集和測試數據集共分為10組,采取放回取樣的方式隨機進行抽取,訓練數據集大小為1 000筆,測試數據集分別為1 000筆、3 000筆、5 000筆、8 000筆和全部貸款。表2是各數據集的平均統計信息,可以發現各數據集中違約貸款的比率基本一致,不存在不平衡情況。

表2 訓練數據集與測試數據集的統計信息Tab. 2 Statistics of training datasets and test datasets

4.2 模型預測效果比較的方法

ROC(Receiver Operating Characteristic)曲線和AUC(Area Under Curve)值常被用來評價一個二值分類器(binary classifier)的優劣。ROC曲線最早運用在軍事上,后來逐漸運用到醫學領域,再被運用到統計分析研究中,其可準確反映某分析方法特異性和敏感性的關系[21-22]。

ROC曲線以下部分的面積即為AUC，AUC值可以解釋為任取一對(正、負)樣本,正樣本的預測值大于負樣本預測值的概率[23]。AUC值越高表示模型預測效果越好,而且其具有一致性和穩定性的特點,即不受判斷閾值選擇影響,且即使測試集中正負樣本分布不平衡,AUC值也能保持穩定,故本文采用AUC值對各模型的預測效果進行比較和分析。

4.3 實證結果分析

進行驗證對比的模型共6種,分別是線性回歸(LR)、Logitics回歸(LG)、支持向量機(SVM)、基于投資者穩定性(LS)、基于投資者效用(LU)、TF-IDF算法優化后的基于投資者效用(LU2)。

4.3.1 各模型預測結果ROC曲線對比

各模型預測結果的ROC曲線對比見圖3,為測試數據集為1 000筆貸款的預測結果,其中：假陽性概率(False Positive Rate, FPR)是指實際違約了的貸款(False)被預測為正常(Positive)的概率；真陽性概率(True Positive Rate,TPR)是指實際正常的貸款(True)被預測為正常(Positive)的概率,即召回率(Recall)。

圖3 各模型預測結果的ROC曲線對比Fig. 3 Comparison of ROC curves of prediction results by different models

可以看到實驗結果中基于借款人信息預測模型(LR、LG、SVM)的ROC曲線,處于基于投資人信息預測等模型(LS、LU、LU2)ROC曲線的右下部,即在相同TPR值時,前一類預測模型具有更高FPR值,也就是更容易將實際違約的貸款預測為正常,這說明了基于借款人信息的預測模型更容易受到借貸人提供不真實信息影響。而LU2模型預測結果的ROC曲線一直保持在左上區域,這表明該模型預測效果最為理想。

4.3.2 各模型預測結果的AUC值對比

各模型預測結果的AUC值見表3，可以發現基于借款人信息的預測模型表現非常接近(LG比LR稍好，SVM表現最差)，但都與基于投資人信息的幾個預測模型存在明顯的差距。本文提出的基于投資人效用(LU)模型的預測準確性明顯較高，而經過TF-IDF算法優化權重后的LU2模型，預測準確率更是進一步提升，這進一步驗證了通過投資人的信息進行預測能更有效地避免借貸雙方的信息不對稱性問題。

表3 各模型預測結果AUC值Tab. 3 AUC values of prediction results by different models

表4是LU2與其他模型在預測準確性方面的比較情況。LU2模型在不同測試數據集上都取得了最好的預測準確性，相對于基于投資人穩定性(LS)模型，LU2模型預測準確性平均提高了2.38%，而相比基于借款人信息的模型(LR、LG、SVM) 更是提高了5.76%至6.16%。

表4 LU2相比其他模型的預測準確性提高比例Tab. 4 Prediction accuracy improvement of LU2 compared to other models

5 結語

P2P貸款的業務模式要求投資者對貸款違約率進行更準確的預測。傳統方法是使用線性回歸等模型,基于借款人提供的各類信息進行預測,其效果受借貸雙方信息不對稱性限制。近期相關研究提出了利用貸款投資者端信息進行預測的方法,但并未考慮不同投資人在風險偏好、投資效用、歷史投資分布情況等方面的差異。

本文利用來自投資人的投資歷史收益率、貸款利率出價等信息,提出了一種基于投資人效用的P2P貸款違約預測模型,并借鑒信息檢索領域的TD-IDF算法,構造了投資人逆向投資比例因子,以更準確地量化和度量不同投資人對貸款違約概率預測的計算權重。通過實際P2P貸款數據的實證比較,本文所提模型的預測準確性與其他模型相比表現最優,并且在不同測試數據集上均表現穩定。后續可在通過集成學習方法[24-25]整合基于借款人信息和基于投資人信息的兩類模型,以及增加對投資人投資行為動態時序分析等方面開展進一步的研究。