□文/郝仁杰
(南京郵電大學 江蘇·南京)
[提要] 隨著大數據時代的到來,傳統的征信體系不再滿足互聯網金融對征信精度的要求。本文基于Logistic回歸、隨機森林算法的模型來預測P2P網貸中客戶的信用風險。通過爬蟲技術抓取某網貸平臺的交易數據,然后利用SMOTE重采樣技術對數據采樣,實證研究結果表明:相較于Logistic回歸模型,基于隨機森林模型的預測能顯著降低錯誤比例,提高預測正確率、召回率和特異性。本研究對P2P網貸平臺的信用風險預警具有參考意義。
隨著“互聯網+”概念興起,傳統的金融模式已經不再滿足時代的新要求,紛紛提出多式多樣的業務模式。隨之而來的是各種包括政策風險、監管風險、操作風險、網絡風險與信用風險在內的種種風險。因此,當前對于平臺而言最重要的是如何利用各自的數據,通過大數據模型精準判斷借貸人的違約風險,這對保障投資人的利益、平臺的安全和行業的穩健發展都具有很重要的現實意義。
在國外,早期的網貸信用風險評估中,借貸平臺是通過投資人而非借貸平臺來篩選確定借款人是否值得信賴,這就造成虛假陳述現象比較普遍。后來引入數學建模的形式去評估信貸風險,比較常用的包括判別分析、聚類分析、Logistic回歸等。此后對模型進行進一步探索之后,引入了ZE-TA信用風險評估模型、高斯混合模型和隨機森林等模型。在國內,近幾年內的網貸平臺良莠不齊,發展模式并沒有行業規范,帶來更嚴重的信用風險。有學者利用現代大數據中借貸人的個人特征、歷史表現、借款信息等三個方面的數據建立模型發現其對網貸信用風險存在顯著影響。繆蓮英等學者通過Logistic回歸研究發現社會資本的存在能夠降低平臺借款人的違約風險。
目前,對傳統商業銀行貸款的信用風險研究比較成熟,但隨著大數據時代的到來,互聯網金融的興起,傳統的征信體系已經不能滿足現階段對征信的要求。而且傳統的數學模型對于多變量之間共線性有嚴格的要求,并不能全面考慮各種特征,并且使用機器學習模型進行信用風險研究還處于初步階段。
Logistic回歸模型是典型的廣義線性模型,響應變量與自變量之間通過Logit函數連接,在0-1分類問題中得到廣泛應用。假設因變量Y取值為0或1,事件未發生定義為Y=0,事件發生的概率為P,事件未發生的概率為1-P,把P看成x的線性函數,Logistic回歸的公式可以表示為:

表1 變量說明一覽表

隨機森林是常見的集成學習模型,它是基于在基學習器為Bagging模型的基礎上,引入了隨機的概念。一方面是數據的隨機:在訓練模型的時候每棵樹會隨機又放回的利用訓練集數據進行訓練,大約有1/3的數據不會被選取到;另一方面在樹模型分葉的節點上,會隨機選擇一個包含k個屬性的子集,然后再從這個子集中選擇一個最優屬性用于劃分。
最后兩個模型的評價指標,本文從訓練集、測試集、未重采樣測試集根據混淆舉證計算得來的正確率、召回率、特異性、錯判率四個指標來評價模型,其中前三個指標越接近1表示模型越好,錯判率越接近0越好。

(一)數據來源與變量說明。本文選取了國內一個比較出名的網貸平臺作為研究目標。利用網絡爬蟲技術獲取平臺從一段時間爬取的借貸數據,共計8,864條樣本。樣本所含指標如表1所示,包括客戶是否為違約客戶、是否為本地籍、教育水平、婚姻狀況、收入水平、是否有公積金、個人住房貸款筆數、商品房貸款筆數、其他貸款筆數和貸記卡賬戶數。(表1)
(二)數據預處理。因為本數據集近90%的樣本是屬于非違約的,如果分類器將所有的樣本都分類為該類,盡管最后的分類精度超過90%,其實并無實際意義。所以,在數據不均衡時,評價指標的參考意義不大。針對樣本數據不平衡的情況,本文用R軟件中的SMOTE函數進行重采樣的處理方式,對大類的數據樣本進行欠采樣來減少大類的數據樣本個數,即采樣的個數少于該類樣本的個數。得到的樣本集兩個類別各近占50%。將重采樣剩余的原始數據作為整個數據集的測試集,用重采樣后的數據集的70%訓練模型,然后先用剩下的30%測試模型,最后再用整個數據集的測試集再次驗證模型的預測效果。

表2 Logistic回歸模型評價指標一覽表(單位:%)

表3 隨機森林模型評估指標一覽表(單位:%)
(三)實證分析
1、Logistic回歸模型建立與預測。將經過9個指標作為特征變量,是否違約作為目標變量來建立Logistic回歸模型。首先,考察特征變量間的多重共線性。從相關系數矩陣中發現,特征變量之間的共線性比較普遍且復雜,采用“逐步回歸”對變量進行篩選。將建立的模型分別用重采樣的訓練集與測試集以及未經重采樣數據集的測試集進行了模型的預測,通過正確率、召回率、特異性以及錯判率四種指標來檢驗模型預測效果,結果如表2所示。(表2)
由表2中的結果可知,訓練集和測試集以及未重采樣的測試集所計算得到的4個指標差異不大。平均來看,模型的預測正確率大概為64%、召回率為64%、特異性為60%以及錯判率在35%。
2、隨機森林模型建立與預測。本文采用集成學習中隨機森林的算法,此算法是目前機器學習方法中比較流行且預測效果較優的集成算法。它避免了過擬合的誤差,能夠有效地提高模型的預測能力。
圖1表示的訓練集分類的誤判率,可以看到隨著樹的數量增多,誤判率漸漸趨于平穩。到100棵樹時誤判率已有平穩趨勢,但之后還是有些許波動,最后在進行隨機森林建模時,樹的參數選為300。(圖1)
由表3中的結果可知,訓練集和測試集以及未重采樣的測試集所計算得到的四個指標有差異。訓練集的整體預測效果優于其他兩個訓練集,這是由于本身的模型是基于訓練集所建立。模型的預測正確率大概為85%、召回率為90%、特異性為70%以及錯判率在13%左右。這個驗證結果明顯比Logistic回歸預測結果的精確度有提升。(表3)
借款人違約,對出借人和P2P平臺都會造成巨大損失,更會制約行業的發展。預警借款人違約風險的有效手段是構建全國性的征信體系,同時平臺進一步完善審查監督制度,但這些都需要多個參與主體長期的共同努力才能實現。就目前來看,最有效的方法是平臺基于自身積累的大數據,構建預測準確、性能穩定的違約風險預警模型。

圖1 誤判率趨勢圖
本文基于Logistic回歸和隨機森林信用風險預警模型進行分析比較,研究結果表明:基于三個樣本集的模型評價指標,隨機森林所建立的模型計算得到的準確率、召回率和特異性比Logistic回歸的高,并且錯誤率要低。所以,在對P2P網貸信用風險預警時,選用隨機森林所構建的模型預測效果會比較好。而傳統的Logistic回歸,由于必須滿足嚴格的統計學假設,在評估客戶信用風險時可能受到較大限制,具有自身的局限性。但是,Logistic回歸模型還是有借鑒之處,比如每個特征變量對客戶違約的影響程度以及正負向關系是可以通過模型的系數可以直觀的看到,這是集成學習具有局限的地方。所以,可以將這兩種模型從不同角度去看待,但總的預測效果還是由隨機森林建立的模型更為準確,并且符合大數據時代的要求。
本文研究基于Logistic回歸與集成學習的P2P網貸違約風險預警,對P2P網貸平臺的違約風險預警具有啟示意義,有助于平臺更好地預測借款人信用風險,完善自身風控體系。另外,由于數據有限,本研究還有需進一步深入探討的地方,比如如何提升模型的泛化能力、對違約客戶的細化分類以及從更多維度的用戶特征去訓練模型。