師應來,張冰潔,姜 昊
(中南財經政法大學 統計與數學學院,武漢 430074)
新經濟業態下,P2P網絡借貸融資模式不再以傳統金融機構作為中介,借貸雙方直接通過網絡平臺達成交易,平臺以低門檻、高效便捷等優點吸引了大量用戶,交易規模和風險也在日益擴大。截至2017年10月底,P2P網貸行業歷史累計成交量達到57812.89億元,與去年同期相比上升幅度達到94.98%。盡管自2016年8月《網絡借貸信息中介機構業務活動管理暫行辦法》出臺以來,網貸行業正常運營平臺數量一直處于下降趨勢,部分平臺主動退出,現有平臺開始朝著“小額、普惠”方向轉型,P2P網貸平臺的風險仍不容小覷。截至2017年10月底,P2P網貸平臺累計數量達到5949家(含破產及問題平臺),累計破產及問題平臺達到3974家。然而,目前國內仍缺乏對P2P平臺的有效監管,如何在網貸行業加速洗牌的過程中及時有效地甄別風險顯得尤為重要。本文收集整理了我國500家P2P網貸平臺基礎數據,在變量選取過程中,除傳統結構化信息外,還通過網絡爬蟲、文本挖掘技術得到平臺的用戶評價情感得分。在模型構建過程中,為克服模型過擬合問題,利用主成分分析提取主要變量,在此基礎上構建Logistic、支持向量機、隨機森林模型對平臺風險進行甄別。研究結果能夠有效甄別和預測平臺風險,有利于投資者做出理性決策,并為政府監管提供切實有效的參考意見。
本文主要研究平臺自身運營風險,此類風險主要是由于:平臺擔保能力有限,不能完全保障出借人賬款可以收回;平臺盈利能力有限,有倒閉風險,收入可能不能覆蓋成本;政府監管不到位,難以提供公平的競爭環境。這類風險可以通過兩類變量加以識別:一類是平臺公布的、能夠直接獲得的基本信息,包括平臺成交量、平均預期收益率、平均借款期限、注冊資本、滿標用時、待還余額、資金凈流入、運營時間、投資人數、借款人數、借款標數、前十大房貸人待收金額占比、人均投資金額、前十大借款人待還金額占比、人均借款金額;另一類是外部信息,包括各平臺用戶評論的情感得分及各平臺的關注度。
網貸之家網站提供了P2P平臺近期的基本信息,包括每個平臺各時間段內的基本數據,本文根據網站的公開信息對平臺進行標注,低風險平臺定義為y=1,高風險平臺定義為y=0,在選取的500家網貸平臺數據中,共有366家屬于低風險平臺,134家屬于高風險平臺。根據影響網貸運營風險因素,并考慮數據的可獲得性,本文計算了2017年5月至2017年11月500家平臺每個指標的均值,共計15個變量。變量說明見下頁表1。
用戶評論是判斷用戶對平臺感受的重要標準之一,可以通過評論中有感情傾向的詞語來反映情感得分。本文評論信息來自第三方網貸資訊平臺(網貸之家、網貸天眼),通過網絡爬蟲技術爬取5萬余條用戶評論,對評論文本采取分詞、去除停用詞處理并進行情感分析,識別每家P2P網貸平臺的用戶情感得分。本文使用BosonNLP情感詞典作為評論文本的匹配源,其數據來源豐富,主要有微博、新聞、論壇等。對爬取的評論數據進行缺失數據處理,最終從500家網貸平臺共獲取51077條評論,遍歷每一家平臺的評論文本,得到用戶對該平臺的綜合評分。部分評分如下頁表2所示。

表1 變量說明

表2 P2P網貸平臺情感得分
為利用已有數據對P2P網貸平臺風險進行甄別,本文選取Logistic模型、SVM、隨機森林模型展開分析。通過對比三個模型預測效果,確定合適的模型對P2P平臺進行分類,并根據三個模型的結果,對影響P2P網貸平臺風險的因素進行分析。
Logistic回歸主要用于因變量為二元變量的回歸分析,自變量可以分為分類變量,也可以為連續變量。它既可以從多個變量中選出對因變量有影響的自變量,也能估計出模型用于預測。模型的基本形式為:

對其做logit變換,變形后模型形式為:

其中,x1,x2,…,xn為自變量,Y 為因變量,模型的參數估計最常采用MLE法。
支持向量機算法的依據是結構風險最小化,先由訓練樣本得到初步模型,模型具有較小誤差,這個較小的誤差在測試集中仍然可以保持。SVM分類模型可分為線性可分和線性不可分兩種情況,本文數據屬于線性不可分。模型求解的基本過程為:
設樣本為n維空間,其k個訓練樣本輸入為 x1,x2,…,xk,對應的所屬類別為兩類:yi∈{+ 1,-1},i=1,2,…,k ,其中,+1和-1分別表示兩類類別標識。假定分類的超平面為:w·x+b=0。為使樣本正確分類,超平面應滿足約束條件:f(x)=wTx+b,且滿足條件 | f(x)|≥1,求解目標要求樣本與超平面的最小距離‖w‖盡可能大,由于部分樣本不能被超平面正確分類,因此在必要時可以放寬約束,可以通過引入一個松弛變量來實現,此時的約束條件和目標函數分別為:

其中,C(C>0)為懲罰系數,用其控制錯分樣本的懲罰程度;b為分類的閾值,在約束條件下求解目標函數最優值,最終可以得到最優分類函數。
隨機森林是由Leo Breiman提出的一種分類算法。其運算的原理實質是對決策樹算法的一種改進。單棵樹分類的能力和精度都常常不能達到要求,但通過多棵決策樹(隨機產生),讓所有樹進行分類,選出支持率最高的分類結果,從而能夠在分類能力和精度上取得明顯的提升。
隨機森林算法的實現:首先構建分類樹。從訓練樣本中有放回地抽取樣本集,未被抽到的樣本則構成袋外數據。再分裂,每棵樹上都有富含信息的節點,通過隨機抽取和計算信息量并排序的方法選擇要分裂的節點。在過程中不對分類樹進行剪裁,不剪枝。最后生成隨機森林,對于解決分類問題,分類結果由樹分類器的投票多少而定。
本文初步選取了17個解釋變量,解釋變量維數較高,且一般信用風險評估本身的復雜性及風險因素之間也往往存在密切的相關性。因此無論采用經典計量方法或者機器學習算法,都存在模型的指標具有高維性和高相關性,并會導致模型參數估計無效、模型過擬合等一系列后果。因此本文在實證分析之前先采用主成分分析法對變量進行預處理,得到9個主成分,再利用得到的主成分作為解釋變量進行實證分析。
對所選取的解釋變量做KMO&Bartlett球形檢驗,KMO值為0.683(KMO>0.6),在累計方差貢獻率達80%的基礎上選取了9個主成分,得到的旋轉成分矩陣如表3所示。

表3 主成分旋轉成分矩陣
由表3可知,第一主成分在X1、X2和X3上有較大載荷,表明F1與這三個變量具有較強的相關性,基本反映了平臺的歷史交易信息,定義為歷史交易因子;第二主成分在X4、X5和X6上有較大載荷,根據其指標特征,定義為平臺現狀因子;第三主成分在X7和X8上有較大載荷,且都是反映平臺發展,定義為平臺發展因子;第四主成分在X9、X10和X11上有較大載荷,與交易人數具有很強相關性,定義為交易人數因子;第五主成分在X12上有較大載荷,定義為平臺貸款因子;第六主成分在X13上有較大載荷,定義為客戶投資因子;第七主成分在X14和X15上有較大載荷,與客戶向平臺貸款有較大相關性,定義為平臺貸款因子;第八主成分在X16上有較大載荷,定義為情感因子;第九主成分在X17上占有較大載荷,與平臺評論數有較大相關性,定義為關注度因子。
在主成分分析提取的9個因子基礎上,本文從網貸之家網絡平臺選取了500家平臺進行風險評估分析,其中低風險平臺共有366家,高風險平臺有134家,樣本比接近2:5,不存在樣本失衡問題,模型構建具有可行性。且在使用各個模型進行分析時通過軟件選擇相同的訓練集和測試集(其中訓練集與測試集樣本量比為7:3),從而保證各模型的分類結果具有可比性。
首先利用SVM模型對平臺進行分類,為了使得SVM模型能夠根據提供的訓練集訓練出最佳模型,本文選擇多類模型參數、核函數進行訓練,訓練得到的模型對預測集預測的正確率如表4所示。

表4 SVM模型參數選擇 (單位:%)
根據表4得出,在SVM模型中,選擇懲罰系數為10和徑向基核對預測集預測效果最佳,預測正確率為76.67%,預測效果較好。
其次利用隨機森林模型和邏輯回歸模型對平臺進行分類,同時將這兩種模型與SVM模型擬合結果進行對比,對比結果如表5所示。

表5 模型預測結果對比 (單位:%)
由表5可知,利用Logistic模型對平臺進行分類,發現在測試集上的預測正確率不到80%,低于支持向量機(82%)和隨機森林(100%)對訓練集的分類正確率。對于測試集,SVM的分類正確率達到76.67%,但隨機森林和Logistic回歸的分類正確率均未達到75%,對模型的分類效果均不如SVM,結合表4與表5,說明本文選取了相對合適的懲罰系數以及核函數來處理平臺風險的分類問題。
從預測結果可以看出,利用高維變量對被解釋變量進行分類時的廣義線性模型預測效果低于非線性模型SVM,原因在于本文選取的風險評估變量自身往往存在復雜的相關關系,線性模型難以估計,因而對于高維變量且之間存在復雜關系的變量進行分析時,應多考慮利用非線性模型進行估計。而隨機森林模型的預測效果優于支持向量機,原因在于隨機森林模型不需要預先設定函數形式,不進行交叉驗證,因而不易出現過擬合的現象,且可以保證預測精度。
對于本文選取的模型,雖然SVM和隨機森林模型對于平臺的分類具有較不錯的分析結果,但是缺乏可解釋性。因此綜合考慮模型對測試集預測的正確率及模型的可解釋性,本文以Logistic模型和隨機森林模型解釋各變量之間存在的聯系。
首先對于Logistic模型,本文將PCA得到的9個因子作為解釋變量與被解釋變量平臺風險狀況進行擬合,得到的模型參數估計如下頁表6所示。
由表6的模型估計結果可以看出,平臺風險狀況與主成分分析得到的主成分之間的相關關系,其中模型變量的顯著性檢驗表明,平臺發展因子、平臺貸款因子、情感因子以及關注度因子在5%的顯著性水平下顯著。原因在于:平臺發展因子主要由平臺資金凈流入和運營時間組成,一個平臺現持有的資金是其發展的基礎,其對一個平臺的持續發展具有極大的影響。而與經營時間短的平臺相比,經營時間長的平臺在一定程度上處理風險的能力更強。綜合該因子主要包含的兩個指標及該因子的參數正負性可知,該因子與平臺的風險大小負相關;對于平臺貸款因子,該因子主要由前十大放貸人待還金額占比和人均借款金額組成。對于某個平臺如果發放的貸款越多,在一定程度上可能會收到更多的傭金,但是平臺自身持有的資金將會大額減少,平臺應對突發事件的能力會隨著平臺持有資金減少而下降,對一個平臺的穩定性將產生很大影響。綜合考慮這兩項指標及因子的參數正負性可知,該指標越大,該平臺風險越大;對于情感因子,該因子主要由情感得分因子組成,顯示網民對于平臺的情感評價該指標越大表示網民對于該平臺的評價越好,即在一定程度上可根據網民正向評論反映該平臺風險較小。其次根據該參數的系數為正,綜合該指標大小及參數的正負可以得出情感因子越大,則平臺的風險較小;對于關注度因子,該因子主要由各平臺的評論數組成,因為客戶進行投資的主要目的是盈利或至少是保值。因此如果一個平臺出現嚴重問題,則客戶一般會在該平臺下簡要介紹自己遇到的各種問題,為后續投資者提出警示,且實際查看各平臺的評論發現網民主要針對平臺存在的問題發出評論。因此綜合該指標大小及參數正負得出關注度因子越大,該平臺風險越大。

表6 Logistic模型參數估計
對于隨機森林模型,根據表4可知該模型對訓練集的擬合效果很好,而且該模型在進行精確分類的基礎上還可以給出各個變量的重要性,得出各變量的重要性結果如表7所示。

表7 隨機森林變量重要性排序
從表7結果可以得出:從誤差遞減的角度,最重要的四個影響因子排名為情感因子、客戶投資因子、關注度因子、平臺貸款因子;從精確度遞減的角度,最重要的四個因子排名為交易人數因子、情感因子、平臺貸款比重因子、客戶投資因子。將該結果與Logistic結果對比發現,二者得到的重要因素基本相同。
在對網貸平臺進行風險甄別的過程中,支持向量機、隨機森林非線性模型比廣義線性模型預測效果更優。平臺發展因子、客戶投資因子、平臺貸款因子、情感因子和關注度因子對平臺的風險甄別具有重要意義。因此,非線性模型更適合構建P2P網貸平臺風險甄別體系,想進行投資的用戶更應關注平臺的發展情況、資金流及投資貸款信息,同時,用戶評論和平臺的關注度應給予足夠重視?;谏鲜鰧嵶C分析,本文提出以下建議:
政府應該增加對網貸平臺的管理力度。在數據搜集過程中,發現網絡貸款作為一種與互聯網相結合的新型金融形態,平臺披露的信息仍然很有限,相關法律法規還不夠完善,這會導致投資者面臨的投資風險增大、致使網貸平臺競爭環境喪失公平性。政府應盡快完善法律法規,保障P2P網貸的將抗發展環境,促使這種新型金融形態可持續發展。
建議相關部門對P2P平臺進行風險監測,實現風險預警??蓞⒖急疚牡姆治鼋Y果,根據上述指標建立平臺風險指數,促使各平臺定期公布,從而使各平臺良性發展。同時在大數據時代數據豐富性基礎上,選取更多的信息對模型不斷訓練,使其對平臺的風險預測更加準確,進而促使P2P交易市場更加成熟。