邵蔚
(華南師范大學,廣州510006)
對P2P平臺信用風險的評估與預測
——基于決策樹模型
邵蔚
(華南師范大學,廣州510006)
對P2P平臺運營模式的國內外研究進行梳理和闡述,利用決策樹模型對樣本進行是否跑路的預測,對其信用風險做量化評估,發現決策樹預測方法準確度可達77.08%,為相關投資者提供決策依據。
P2P;信用風險;決策樹
2017年全國兩會指出,要促進互聯網金融健康發展,讓金融成為一汪活水。可見,目前,國互聯網金融業在新興金融網絡全球化的浪潮下一步步蓬勃發展,與此同時,P2P網絡信貸作為一種微型金融領域與網絡技術創新借貸模式快速發展。
近兩年,P2P平臺數量在國內迅速增長,以拍拍貸、紅嶺創投、陸金所等網絡融資平臺作為領頭羊逐漸風靡全國,截至2017年2月底,我國P2P網絡信貸公司平臺數量已達到2335家,數量巨大。目前,我國的P2P行業發展尚處于起步階段,仍然存在不少需要完善的地方。信用風險評估體系不完善、無準入門檻、無行業標準、無機構監管以及P2P平臺上演“跑路”戲碼等問題,皆為問題平臺層出不窮的原因,P2P發展勢頭雖好,卻也警鐘頻傳。
(一)國外研究綜述
1.P2P網貸信用指標研究。傳統的商業銀行要求企業必須擁有較高的信用等級才能夠貸款,但是小微企業無法滿足這點要求,因為這個原因就把其推進了P2P市場,也是促使這一市場發展的契機(Agarwaland Hauswald,2008)。Ravina(2008)通過平臺的交易記錄來研究借款人生理特征對其借款的影響,結果發現借款人種族和相貌對其是否能借到款項以及借款利率有著顯著影響。Weiss和Stiglitz指出在P2P平臺上高利率不意味著高回報,而利率越高、借款人質量越差,投資人承擔的風險越大。Siegel研究了信用風險在金融交易中的作用,即使是法律很健全的情況下,信用風險也仍然存在。Michaels(2012),Larrimoreetal(2011)的研究表明借款人的信息披露以及貸款人和借款人之間的交流情況對項目能否成功獲得融資具有重要影響。
2.國外P2P信用評估研究方法。Angelini(2008)開發了兩個神經網絡系統來進行信用風險評估,并使用意大利企業數據得到實證;Sung(2010)構建了Kohonen神經網絡模型和Cox比例風險回歸模型的混合模型,結果是該模型是能取得不錯的預測效果;Jagric等人(2011)利用學習矢量量化神經網絡構建了信用評估模型,利用Slovenian銀行的真實數據進行實證,也是取得不錯的效果;Capotorti和Barbanera(2012)提出了基于粗糙集,條件概率評估和模糊集的混合算法,研究結果表明該算法提高了在信用風險評估中標準粗糙集理論的分類性能;Mandala等人(2012)對某家不良貸款率達11.99%的農村銀行進行信用風險研究,實證結果表明利用決策樹模型的C5.0算法進行信用評估,該銀行的不良貸款率能夠下降至低于5%。
(二)國內研究綜述
相對于國外的研究成果,顯然我國起步較晚,會稍微落后一些,相關的成果會比較少,目前更多的是關注于網絡監管問題。
但是P2P網貸作為新興的互聯網模式,行業發展迅速,因而學術研究也在如火如荼進行中。一些傳統的信用評估方法也得到了創新和應用,如李旭升等人(2008)提出并設計了擴展的樹增強樸素貝葉斯網絡信用評估模型;李曉歡(2009)構建了基于粗糙集和神經網絡的中小企業信用評估體系及模型;范彥勤(2013)等人研究了基于貝葉斯分類器的個人信用評估模型,提出了新的屬性加權樸素貝葉斯分類模型和改進樹擴展貝葉斯分類模型;楊勝剛等人(2013)構建了決策樹方法與BP神經網絡模型相結合的兩階段組合模型,研究表明,基于決策樹和神經網絡構建的個人信用評估組合模型在分類預測精度方面高于單一的BP神經網絡模型。
本次研究采用的是決策樹模型,利用SPSS MODELER進行C5.0決策樹算法進行實證分析,彌補國內在此類實證分析方法的空缺。
(一)數據來源
研究初始使用爬蟲軟件對網貸天眼平臺的索引系統進行了數據爬取,并對多個頁面不同數據按照平臺名稱進行合并數據。網貸天眼給各個公司開通了信息披露窗口,數據均由各個P2P平臺上傳,樣本量為106。
(二)數據挖掘
1.決策樹模型原理。決策樹(Decision Tree)是在已知各種情況發生概率的基礎上,通過構成決策樹來求取凈現值的期望值大于等于零的概率,評價項目風險,判斷其可行性的一種決策分析方法。在機器學習中,決策樹是一個預測模型,它代表的是對象屬性與對象值之間的一種映射關系,Entropy=系統的凌亂程度,使用算法ID3,C4.5和C5.0生成樹算法使用熵。信息熵表示的是不確定度。均勻分布時,不確定度最大,此時熵就最大。當選擇某個特征對數據集進行分類時,分類后的數據集信息熵會比分類前的小,其差值表示為信息增益。信息增益可以衡量某個特征對分類結果的影響大小。研究以此來挑選每層的特征,每次都選取信息增益大的作為分類特征,生成決策樹。
最后,研究將對決策樹進行剪枝,因為在分類模型建立的過程中,很容易出現過擬合的現象。過擬合是指在模型學習訓練中,訓練樣本達到非常高的逼近精度,但對檢驗樣本的逼近誤差隨著訓練次數而呈現出先下降后上升的現象,過擬合時訓練誤差很小,但是檢驗誤差很大,不利于實際應用。
2.調用SPSSMODELER中的C5.0決策樹算法進行數據挖掘。研究把獲得的106條數據隨機一分為二,58條數據作為訓練集,48條數據留空作為測試集,以便為最后研究通過對比原始數據跟預測數據,并以此得到訓練集和測試集預測的準確率做準備。
研究先把數據導入SPSSMODELER,然后過濾掉一些不需要的數據列,并把平臺狀態標記為目標,最后選用C5.0進行模型訓練,并得到預測結果。
圖1 決策樹流程圖
經過訓練,得到以下決策樹:
圖2 P2P平臺決策樹概覽
從托管方面來看,分為deposit、無托管、第三方托管三種情況,接著根據平臺背景、平均利率、人均借款金額等來進一步判斷,得到預測結果如表所示。
表決策樹預測結果
研究所進行的數據訓練集的正確率為93.10%,測試集的正確率為77.08%,模型結果較為理想。
3.模型結果分析。由模型結果可以看出,托管方式指標的信息增益最大,第三方托管比起銀行托管和無托管的平臺要更加穩定;其次重要的是平臺背景。銀行托管和無托管的平臺中,有上市公司背景的平臺運營比較穩定,民營企業、VC/PE背景和國資背景的平臺一定程度出現問題;而在民營企業中,平均利率也是一個重要的判斷因素,平均利率高的平臺往往伴隨著比較高的風險,這也是符合研究實際的邏輯。
決策樹模型的一個最大的優點在于,它能夠在預測P2P平臺是否跑路的優勢下,還能夠找出其中的關鍵性因素,對于投資者和各方利益相關主體來說,P2P平臺的“托管方式”因素是影響P2P平臺信用風險的最重要因素,另外平臺背景、平均利率等要素也是重要影響因素。
(一)托管方式——最重要的關鍵性因素
由本次數據挖掘得到啟示,在影響P2P平臺是否具有可持續運營能力的眾多因素中,“托管方式”是最重要的因素。一般來說,有資金托管的平臺比沒有資金托管的平臺有著更高的信用,而第三方托管的平臺則比銀行托管的平臺更值得信賴。所以在對P2P平臺規范化的相關措施中,應該以“平臺托管方式”的突破口,著力促進平臺資金的管理,避免平臺形成“資金池”,降低出現問題風險,才能促使P2P行業更加穩定地發展。
(二)平臺背景、平均利率等——重要因素
對于投資者,選擇P2P平臺的時候,主要通過托管方式、平臺背景、平均利率等有關因素來判斷投資風險。另外,投資者不能盲目追求太高的平均利率,而承受較大風險。投資者應合理選擇利率,以規避平臺跑路或者停業給自己帶來經濟上的損失。
在現實生活中,廣泛利用決策樹模型對P2P網貸平臺進行信用等級以及托管方式精心一系列的核查、調研,能夠在最大程度上提升預測的正確率,從而提高企業違約率判斷的準確性,實現對于P2P平臺信用高低與否的高準確率預測。
[1]李旭升,郭春香,郭耀煌.擴展的樹增強樸素貝葉斯網絡信用評估模型[J].系統工程理論與實踐,2008(6).
[2]楊勝剛,朱琦,成程.個人信用評估組合模型的構建——基于決策樹—神經網絡的研究[J].金融論壇,2013(2).
[責任編輯:譚志遠]
F830.599
A
1005-913X(2017)09-0103-02
2017-06-07
邵蔚(1996-),女,廣東東莞人,本科學生,研究方向:金融學。