湯璇
(湖北大學 數學與統計學學院,湖北 武漢 430062)
Logistic回歸模型在P2P平臺風險評估中的應用
湯璇
(湖北大學 數學與統計學學院,湖北 武漢 430062)
在“互聯網+”計劃提出后,P2P網絡信貸蓬勃發展的同時,平臺跑路事件也層出不窮。這一現象嚴重阻礙了P2P網貸行業的健康發展,因此有效評估P2P平臺的風險,成為了互聯網金融行業關注的重點。本文基于拓爾思公司提供的樣本數據,利用Logistic回歸模型對平臺數據進行實證分析,以期為有效監控P2P網貸平臺風險提供參考依據。
P2P網絡信貸;Logistic回歸模型;平臺風險
P2P網貸是借款人和投資人在互聯網平臺完成借貸交易的新興融資模式。P2P網貸憑借其低成本、高收益、分散風險、高效率等獨有優勢,在國內融資市場發展迅速。據銀率網數據庫統計,2015年全國新成立 P2P平臺共 1862家。截至2015年12月底,全國P2P平臺累計達4329家。[1]但是,網貸行業在互聯網金融迅猛發展的同時,由于監管政策的缺失、管理者經驗的匱乏以及不良分子的惡意欺詐,P2P網貸平臺頻頻出現跑路、提現困難、停業等系列問題。這些問題不僅影響了整個金融行業的規范和發展,更動搖了投資人的信心,破壞了我國金融市場的穩定運行。
目前,對于P2P網貸這一新興行業,馮旭日,張晶晶[2]收集“網貸之家”網站49條影響網絡貸款平臺信譽等級因素的相關樣本數據,建立了基于主成分分析的網絡借貸平臺信譽等級預測的Fisher判別模型,驗證了Fisher判別法在網絡借貸平臺信譽等級的預測中具有較低的誤判率,其誤判率僅為1/12。陳建中,寧欣[3]基于人人貸平臺的3148條交易數據,采用多元線性回歸分析了個人信息對借貸成功率的影響,結果表明了個人信息對借貸成交結果有著顯著影響。在國內,關于P2P網絡借貸的研究主要集中在P2P網絡借貸平臺發展現狀、借款者信用風險評估、影響借貸成功率因素這三個方面,而對于P2P網貸平臺經營風險預測的研究較少,因此,本文將用Logistic回歸模型對處理過的50個平臺樣本數據進行判別,判別P2P網絡借貸平臺是否跑路,并用其對剩下20家測試數據進行預測,以期為P2P網貸平臺風險監控提供可行思路,為促進我國P2P行業規范發展提供有意義的借鑒。
(一)變量的選取
1.問題描述及數據來源
目前,我國互聯網金融尚處于發展階段,行業沒有形成統一的規范。因此,平臺在發展的過程中也出現了不少問題,如平臺自融、詐騙、平臺跑路等。其風險情況始終觸碰著投資人的神經,破壞了我國金融市場的穩定運行。而P2P平臺的風險主要是在運營過程中產生的,與運營數據有著密不可分的關系。因此本文旨在構建出P2P網貸平臺的經營風險模型,對P2P平臺的風險進行預測,以期為促進我國P2P平臺又好又快的發展做出貢獻。
本文研究數據來自于拓爾思(http://www.yiban.cn/project/ 2015ccf/)提供的數據,數據分為訓練數據和測試數據兩部分,訓練數據為50家P2P網貸平臺的運營數據,其中含20家暫時未出現跑路現象的平臺,30家已經跑路的平臺。測試數據為20家P2P網貸平臺的運營數據。每個平臺提供的數據包含交易項目基本信息(項目名稱、項目金額、項目說明、期限、年化收益率、還款方式、擔保公司等)、借款人基本信息(姓名、性別、年齡、學歷、婚姻狀況等)以及回報率。
2.數據處理
由于數據來自不同平臺,大部分數據格式不統一,有些數據保存格式不同打開會出現亂碼情況,還有一些數據缺失值較多,這些情況都導致數據“標準化”過程較為復雜。因此,對數據的處理過程主要如下:
(1)將各個平臺的變量類別統一。如將平臺項目狀況類別統一成正在募集項目、還款中項目、已經還款項目;將平臺項目擔保(BONDING_COMPANY)統一為有擔保項目情況和無擔保項目情況;將項目還款方式統一為一次性還款付息、分期還款。
(2)把數值型變量的單位和格式統一。如把項目貸款時間中以月為單位的時間統一轉化為以天為單位的時間。把年化收益率中后面有加額外獎勵利率的部分去掉。
(3)根據變量計算代表平臺信息的統計量。如該變量為分類變量時,計算整個平臺中該變量每個水平的比例;如果該變量為數值型變量時,算其變量在整個平臺的統計量,如最大值、最小值、平均值、總值等。如果該變量為字符型變量時,如項目說明,則算其項目說明的平均字數。
3.變量的定義
根據該互聯網P2P借貸平臺的運營數據,要構建出P2P網貸平臺的經營風險模型,需要從該數據中找出對預測具有參考價值的指標,通過查詢相關資料,在查閱相關資料的基礎之上,本報告對原始數據進行數據清洗、數據處理,整理得到與風險預測相關的新變量。用于模型預測的新變量如下表1:

表1:新變量及變量符號
(二)Logistic回歸模型構造
對二分類變量做預測的數據,可以用隨機森林、Logistic回歸、決策樹等模型進行預測,這三類模型都是研究因變量為二分類或多分類觀察結果與影響因素(自變量)之間關系的多變量分析方法,可以將因變量為二分類的結果進行歸類,文中訓練數據分為跑路和未跑路兩種結果,用這三類模型可以預測數據結果,并進行歸類。以上三種方法中,決策樹模型預測的平均絕對誤差為0.2007143,隨機森林模型預測的平均絕對誤差為0.12858,Logistic回歸模型預測的平均絕對誤差幾乎為0,因此本文采用Logistic回歸模型進行預測。
Logistic函數是由比利時學者維爾玉斯特(RF.Verhulst)于1838年第一次提出。Logistic回歸方法主要應用于對因變量為二分類結果的分類和預測,該方法在分類變量預測的應用已經非常廣泛。Logistic回歸模型基本形式如下:

Xi是自變量,βi是回歸系數,pi可以表示為:


(三)參數估計
通過隨機森林模型篩選影響風險值的重要性變量,并通過logistic回歸模型的參數估計來估計出對平臺風險值有顯著性效果的變量。從下表2可以看出,這些變量對平臺的風險值有顯著性影響,這些變量主要是從貸款時間、貸款金額、年化收益率、項目狀況、回報率提取出來的新變量。

表2:參數估計表
(四)實證結果分析
1.訓練數據實證分析。Logistic回歸在二分類預測問題中的應用已經相對成熟,因為它可以克服其他統計學模型的很多缺點,所以它被認為是諸多統計學方法中精確性、適用性和穩健性較好的模型。因此,我們運用Logistic回歸模型預測訓練數據跑路與未跑路分類的準確性,運用Logistic回歸模型得到的結果為下表3,從表中可以看出Logistic回歸模型對跑路和未跑路兩種平臺的評判的準確率為100%,評判效果很好。

表3:平臺1-50是否跑路評判結果
2.測試數據實證分析。由于利用Logistic回歸模型對訓練數據預測效果很好,因此利用該模型對測試數據集中20個P2P平臺是否跑路進行評判,評判結果如下表4所示。

表4:平臺51-70是否跑路評判結果
該結果表明測試數據集中的P2P網貸平臺出現跑路的比例大于未跑路的平臺比例,因此,加快P2P網貸平臺風險控制的步伐迫在眉睫。
由Logistic回歸模型得到的研究結論有:(1)Logistic模型對P2P平臺風險的評估有較好的適用性;(2)從貸款時間、貸款金額、年化收益率、項目狀況、回報率提取出來的新變量對平臺的風險值有顯著性影響;(3)P2P網貸平臺出現跑路的比例遠大于未跑路的平臺比例。這一研究結論,為制定有效的P2P平臺風險控制體系提供了理論的參考依據。本文認為結合其他模式的運營特點,可以將該模型應用推廣到互聯網金融其它模式的風險評估中,并參考國外較成熟的風險評估體系,構建出有中國特色的互聯網金融風險評估體系,從而推動我國的互聯網金融行業健康發展和穩定運行。
[1]http://toutiao.com/a6250537890208825602/.
[2]馮旭日,張晶晶.基于Fisher判別法的P2P網絡借貸平臺信譽等級評價模型[J].金融理論與實踐,2014,(11).
[3]陳建中,寧欣.P2P網絡借貸中個人信息對借貸成功率影響的實證研究——以人人貸為例[J].財務與金融,2013,146(6):13-17.
[4]錢金葉,楊飛.中國P2P網絡借貸的發展現狀及前景[J].金融論壇, 2012,193,(1):46-51.
[5]溫小霓,武小娟.P2P網絡借貸成功率影響因素分析——以拍拍貸為例[J].金融論壇,2014,219(3):3-8.
[6]王夢佳.基于Logistic回歸模型的P2P網貸平臺借款人信用風險評估[J].北京外國語大學,2015,(6).
[7]http://www.yiban.cn/project/2015ccf/.
[8]熊亞驊,熊一鵬,李婷.互聯網金融網貸客戶違約風險研究進展[J].金融經濟,2015,(12).
[9]吳曉光,曹一.論加強P2P網絡借貸平臺的監管 [J].南方金融,2011,(4):32-35.
湯璇(1991-),女,湖北黃岡人,湖北大學數學與統計學學院研究生,主要從事專業應用統計學研究。