






摘 ?要 ?從網貸之家網站上公布的6422家P2P網貸平臺的數據,選取平臺的運營數據(參考收益、投資期限、是否進行存管銀行、是否跑路)以及用戶對平臺的評價(提現評分、站崗評分、服務評分、體驗評分),進行分析并構建一個預測P2P平臺是否跑路的數據模型。
關鍵詞 ?P2P平臺 ?是否跑路 ?支持向量機 ?預測模型
一、引言
1983年格萊銀行創建,主要業務是通過小額信貸業務來幫助窮人擺脫貧困,這是P2P最初的線下雛形。2005年英國ZOPA公司,借助網絡將個人借貸業務直接在互聯網上進行對接,從而形成了摒棄依賴傳統金融行業的新模式。2007年國內首家P2P網絡借貸平臺在上海成立,讓很多敢于嘗試互聯網投資的投資者認識了P2P網絡借貸模式,其后一部分具有創業冒險精神的投資人隨之嘗試開辦了P2P網絡借貸平臺。一些具有民間線下放貸經驗同時又關注網絡的創業者開始嘗試開設P2P網絡借貸平臺,同時一些軟件開發公司開始開發相對成熟的網絡平臺模板。經過3年爆發試增長,一些平臺已經出現提現難的問題,以2015年12月e租寶倒臺為標志,行業風險逐漸被大眾關注。
隨著P2P網貸的投資人群越來越多,投資金額越來越大,并且爆發e租寶事件。國家相繼出臺了3大規范文件,要求P2P網貸平臺合規發展,進行詳細的信息披露、資金介入銀行存管等待,但是隨著今年全國經濟政策的縮緊,一些風控能力較差的P2P網貸平臺開始出現暴雷現象,逐漸影響了整個行業引起了一波暴雷潮,僅7月份前半個月暴雷的P2P平臺就高達131家。如何在暴雷不斷的P2P行業中進行投資優化,從中優選出來資質較好、運營較穩定的平臺,是擺在投資者眼前的一道不可不面對的門檻。本文收集網貸之家上公布的6422家P2P網貸平臺的數據,整理投資者比較關注的P2P網貸平臺數據,使用支持向量機對網貸平臺是否跑路進行分析預測,構建出一套用于預測平臺是否跑路的數據模型。
二、相關研究
隨著P2P網貸模式在國內的興起,我國學者也對P2P網貸平臺進行了大量的研究分析,但都集中在P2P網貸平臺業務以及后期風控研究,主要可以分為兩類。一是從P2P網貸業務運營進行研究,鄭國良(2018)當前P2P網貸平臺業務分析,并提出了P2P網貸平臺的選擇策略。姜琪(2018)中國P2P網貸平臺效率差異及成交量影響因素研究[1]。段錁(2018)我國P2P網貸行業的發展現狀、存在問題及對策[2]。二是從P2P網貸運營中遇到的監管及借款人信用風險進行研究[3]。馬亮(2014)P2P網貸的風險分析及防控對策[4]。陳偉; 涂有釗(2016)美國P2P網貸的發展、困境、監管及啟示[5]。李璽; 李應博; 馬一為(2018)我國P2P網貸監管中政府治理創新研究[6]。
目前我國對P2P網貸平臺投資策略中篩選優質高利率的平臺研究較少。因此本文以網貸之家公布的6422家P2P網貸平臺數據為例,從平臺運營數據、用戶評價數據出發,選取相關的樣本數據,通過支持向量機進行回歸分析構建出用于預測P2P網貸平臺是否會跑路的數據模型。
三、理論依據
支持向量機(SVM)是一種常見的判別方法。在機器學習領域,是一個有監督的學習模型,通常用來進行模式識別、分類以及回歸分析。主要思想可以概括為兩點:1、它是針對線性可分情況進行分析,對于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對樣本的非線性特征進行線性分析成為可能。2、它基于結構風險最小化理論之上在特征空間中構建最優超平面,使得學習器得到全局最優化,并且在整個樣本空間的期望以某個概率滿足一定上界。
在使用SVM進行計算時有可能會產生“維數災難”,即再把樣本向高維空間做映射時會增加計算的復雜性,維度越高,復雜性就越大。為了解決“維數災難”這一難題,SVM引入了核函數。應用核函數的展開定理,就不需要知道非線性映射的顯式表達式;由于是在高維特征空間中建立線性學習機,所以與線性模型相比,不但幾乎不增加計算的復雜性,而且在某種程度上避免了“維數災難”。SVM常用的核函數有以下4種:1、線性核函數K(x,y)=x·y;2、項式核函數K(x,y)=[(x·y)+1]^d;3、向基函數K(x,y)=exp(-|x-y|^2/d^2);4、二層神經網絡核函數K(x,y)=tanh(a(x·y)+b)。
四、數據選取與模型訓練
1.數據選取
本文研究的是基于用戶評價數據下,構建P2P網貸平臺的可信度數據模型。因此,本文以網貸之家公布的P2P網貸平臺數據為研究對象,爬取網貸之家上公開的6422家P2P網貸平臺的用戶評價數據以及平臺運營數據,作為樣本數據。
2.變量選取與模型構建
網貸之家上給用戶對每個P2P網貸平臺的評分共分為四個維度分別是:提現評分、站崗評分、服務評分、體驗評分。除此之外,網貸之家針對P2P網貸平臺還有很多其他維度的數據,我從中選取了投資人比較關注的三個維度的運營數據:參考收益、投資期限、存管銀行。
由于爬取的數據有部分缺失值以及不規則,我對各項變量進行了如下處理。對于用戶四個維度的評分數據,先進行計算各自的中位數,并使用中位數進行填充數據為空的變量。由于我國監管機構要求P2P網貸平臺進行銀行資金存管,因此對于未進行銀行存管的P2P網貸平臺不建議不進行投資,所以對于沒有收集到存管銀行名稱的的均按照未進行銀行存管處理,并對其數值化為0和1,0代表未進行存管,1代碼已進行銀行存管。對于平臺是否跑路,由于網貸之家公布了P2P網貸平臺的跑路時間,因此我根據是否有跑路時間作為平臺是否跑路的參考,對其進行數值化為0和1,0代表未跑路,1代表跑路。由于參考收益和投資期限均能爬取到且都在正常區間內,并無異常值,因此這兩個字段的值無需進行復雜的清洗,僅僅對參考收益中的百分號進行去除操作,以便于模型進行計算。
數據清洗后的部分數據如表四所示。
使用sklearn包中的模型選擇model_selection對樣本數據進行劃分,分為訓練數據集和測試數據集兩部分,并使用sklearn包中的支持向量機SVC對樣本數據中的訓練數據集進行訓練,再使用測試數據集進行測試驗證。在使用支持向量機進行分類時核函數的選擇較為重要,選擇不同的核函數,可以生成不同的SVM。本文中在使用線性核函數進行計算分類時達到了較好的效果,訓練及驗證部分代碼入表五所示。
在對模型進行評價時,訓練數據集得到了0.95分的好成績,測試數據集也得到了0.93的成績,因此認為該模式是較為可信的。為此我假設了部分數據來驗證該模型是否可行,結果如表六所示。
五、結論與建議
本文以網貸之家公布的6422家P2P網貸平臺的數據作為分析基礎,統計了7個維度的數據,包括用戶對P2P網貸平臺的評價以及P2P網貸平臺日常運營的數據。運用線性核函數的支持向量機模型對P2P網貸平臺是否跑路進行了實證檢驗,研究結果表明參考收益與平臺是否跑路呈正相關,投資期限與平臺是否跑路呈負相關。用戶評價對平臺是否跑路影響較小,并且當評分較高時平臺跑路的風險反而增加,考慮到可能是平臺存在水軍刷分的情況。而對于P2P網貸平臺是否進行銀行資金存管對P2P網貸平臺是否跑路具有較大的相關性,平臺已經進行資金存管的跑路概率筆未進行資金存管的概率要小的多,為此我對投資人選擇P2P網貸平臺進行投資時有以下建議。
1、投資時一定要選擇進行了銀行資金存管的P2P網貸平臺。
2、選擇具有合理的投資收益回報率P2P網貸平臺,較為合理年化收益的區間是6%到12%之間。
3、選擇具有合理的投資期限P2P網貸平臺,較為合理的投資期限的區間是6個月到24個月之間。
4、選擇用戶評價口碑較為適中的P2P網貸平臺進行投資,較為適中的評分在3.5到4.0之間。
參考文獻
[1]鄭國良.當前P2P網貸平臺業務分析.中國社會科學院上海研究生分院.2018(11).
[2]姜琪.中國P2P網貸平臺效率差異及成交量影響因素研究.數量經濟技術經濟研究.2018(06).
[3]段錁.我國P2P網貸行業的發展現狀、存在問題及對策.時代金融.2018(02).
[4]馬亮.P2P網貸的風險分析及防控對策.金融經濟.2014(06).
[5]陳偉;涂有釗.美國P2P網貸的發展、困境、監管及啟示.西南金融.2016(12).
[6]李璽;李應博;馬一為.我國P2P網貸監管中政府治理創新研究.西南金融.2018(03).
作者簡介:王錦,對外經濟貿易大學高級研修班。