李 星 管河山 王 謙 劉 倩 涂 俊
(南華大學經(jīng)濟與法學學院,湖南 衡陽 421000)
P2P網(wǎng)絡(luò)借貸(Peer to Peer Lending)是投資人通過網(wǎng)絡(luò)借貸平臺將資金出借給資金需求一方的一種互聯(lián)網(wǎng)借貸方式。傳統(tǒng)的借貸則需要傳統(tǒng)金融機構(gòu)作為媒介,而P2P網(wǎng)絡(luò)借貸直接跳過該種方式是一種個人對個人的借貸模式。借款人和投資方通過在P2P網(wǎng)絡(luò)借貸平臺上注冊后,由借款人發(fā)布借款信息、投資方自由選擇合意的投資。P2P網(wǎng)貸平臺主要負責對借款人信用情況進行審查與評估并收取賬戶管理費和服務(wù)費,借款人逾期違約則P2P網(wǎng)貸平臺則有追討的責任,其本質(zhì)是一種民間借貸形式,但是借助互聯(lián)網(wǎng)將區(qū)域甚至全球的借貸行為緊密的聯(lián)系在一起。P2P網(wǎng)絡(luò)借貸作為我國多層次金融市場的重要組成部分,經(jīng)過十多年的發(fā)展,我們可以看到其在普惠金融方面帶來的價值,如解決中小借款者資金困難,為資金富裕者提供高收益的理財平臺,為資金供求方搭建了高效、快捷的資金投融資平臺。P2P網(wǎng)絡(luò)借貸平臺的發(fā)展難免遇到的問題——風險管理。P2P網(wǎng)絡(luò)借貸平臺,因其發(fā)展歷史較短、行業(yè)數(shù)據(jù)積累有限、規(guī)模所限等原因,其風險控制能力相比傳統(tǒng)的商業(yè)銀行有待提高。其所存在的風險常見有信用風險、法律風險、監(jiān)管風險、投資風險、自律風險、結(jié)算風險和信息安全風險等等。諸多風險中由于信息不對稱導致的信用風險是P2P網(wǎng)絡(luò)借貸平臺本身所面臨的最主要風險之一,國內(nèi)第一家P2P網(wǎng)絡(luò)借貸平臺拍拍貸的CEO張俊(2016)表示個人信用評估體系是核心競爭力[1]。
本文研究的主要目的在于通過P2P網(wǎng)貸平臺中借款人身份特質(zhì)信息對其進行信用進行簡單的評估,其評估的標準用流標次數(shù)來表達,即同等條件下,流標次數(shù)越多表示借款人的信用水平越不受投資者認可。P2P網(wǎng)貸平臺篩選影響借款人信用風險的主要因素,確定適當?shù)淖宰兞浚⒁粋€簡易的信用風險評估模型,以其提高平臺對借款人信用風險判別的準確度并給出一個相應的評估,從而幫助投資者提高鑒別信借款人信用風險能力,降低投資者潛在的損失。
P2P網(wǎng)貸借款人信用風險評估的影響因素首先需要對信用風險評估指標選取研究。對評估影響借款人個人信用風險指標選取的研究主要分為兩大類:如婚姻、教育、借款描述、地區(qū)、種族等定性信息;如年齡、收入、工作年限等定量信息。借貸人的生理特征甚至會影響P2P網(wǎng)絡(luò)借貸信用風險。Ravina(2007)指出,人種、性別、體重、容貌、年齡等特征是成功獲取P2P網(wǎng)絡(luò)貸款的重要因素[2]。Ravina(2008)利用Prosper平臺的交易記錄來研究借款人生理特征對其行為的影響,發(fā)現(xiàn)借款人種族和相貌對其是否能借到款項以及借款利率有著顯著影響,例如,由于部分地區(qū)存在種族歧視等問題,投資者普遍認為黑人的信用風險高、違約率高,黑人借款成功率極為低下[3]。Barasinska(2009)則從投資者角度研宄發(fā)現(xiàn)投資者性別會影響他們對借款人的選擇:女性本身比男性更厭惡風險,傾向于選擇風險較低的借款人,但女性卻不如男性理性,通常會要求較高的收益,所以在投資決策時,女性容易受到非理性問題干擾,投資于信用較差的借款人,更易出現(xiàn)逆向選擇問題[4]。但是Herzenstein等(2010)指出,種族和性別等特征對于成功獲取貸款的影響很小[5]。性別在借貸中的影響有學者對此進行了佐證。湯英漢(2014)借款人違約表現(xiàn)中性別和區(qū)域分布有一定的影響,女性要高于男性,區(qū)域分布上在網(wǎng)貸違約中表現(xiàn)出差異,西部、中部、東部依次增高,但是實證研究顯示相關(guān)性并不明顯[6]。婚姻在網(wǎng)絡(luò)P2P網(wǎng)貸中對借款者個人信用評估有一定的作用,婚姻與否,在一定程度反映借款人的工作與生活的穩(wěn)定與否以及財產(chǎn)的支配權(quán)。不同特征的人結(jié)婚,對于信用提高所起到的作用也是不相同的。男性、年輕人、低學歷結(jié)婚分別不如女性、高年齡、和高學歷的借款者結(jié)婚(郭峰,2017)[7]。學歷從某種程度上反映一個人的認知和一定的學習能力和教育水平,按照常規(guī)來說,借款人的學歷與收入呈現(xiàn)為正相關(guān),違約風險越低。但是唐藝軍等(2015)對來自陸金所P2P網(wǎng)貸平臺的借款人數(shù)據(jù)分析發(fā)現(xiàn),學歷和信用風險呈正相關(guān),這些借款人的的多數(shù)在本科以下,這可能與這些借款者長期在社會上,社會交往中更加重視個人信用不無關(guān)系[8]。借款描述往往是對借款用途、自我定義、目前現(xiàn)狀和潛在的未來希望等的狀況的一種反映,可以有效的緩解對借貸雙方的信息不對稱問題(Herzenstein et al,2011)[9]對借款描述是否會影響借款行為進行了分析,結(jié)果顯示借款人人格數(shù)量與借款成功率呈正相關(guān)。但是借款描述便不是越多越好,信用等等級越低的借款人,往往有添加借款描述的傾向。王會娟等(2015)通過人人貸P2P網(wǎng)貸交易數(shù)據(jù)中選取有借款描述的樣本,提取其中有展示借款人人格的信息,發(fā)現(xiàn)借款描述中人格描述的數(shù)量展示越多,越能吸引投標人,能用更短的時間獲得借款[10]。借款描述中的標點數(shù)量甚至都透露著借款人信用信息。Xiao Chen(2017)等研究指出數(shù)量一定的詞語中,標點符號的過度使用會使借款描述變得不正式,又降低了文本的可讀性進一步的降低投資者對借款人的信任[11]。
近些年隨著互聯(lián)網(wǎng)的發(fā)展對信用風險的評估已經(jīng)不在局限于傳統(tǒng)的數(shù)據(jù),已經(jīng)開始涉及一些網(wǎng)絡(luò)數(shù)據(jù)。喬啟昌(2014)借助于互聯(lián)網(wǎng)技術(shù)的發(fā)展,以及社交網(wǎng)絡(luò)和云計算的廣泛應用,將它們和P2P網(wǎng)貸結(jié)合起來,完全有可能促進P2P網(wǎng)貸在信用判斷環(huán)節(jié)的判斷能力,也可以提升借款人的申請效率,同時改善國內(nèi)的信用體系[12]。王楚珺等(2015)利用大數(shù)據(jù)對P2P網(wǎng)貸進行風險控制在大數(shù)據(jù)時代的背景下考慮P2P網(wǎng)貸的風險控制,研究出個人基本資料、社交網(wǎng)絡(luò)情況、電子商務(wù)平臺、借款人的資金情況這四個數(shù)據(jù)指標會影響到借款者信用[13]。當然除了這些定性分析,關(guān)于社交網(wǎng)絡(luò)等新興數(shù)據(jù)對信用風險影響定量目前也有相關(guān)研究。李明思等(2016)將Probit回歸模型運用在社交朋友網(wǎng)絡(luò)資本與借貸交易兩者之間的影響。研究發(fā)現(xiàn),借款人在P2P網(wǎng)貸市場中的社交朋友網(wǎng)絡(luò)資本的質(zhì)量的高低與其借款成功的可能性大小成正比,與支付的利率、違約的可能性大小成反比[14]。
通過爬蟲編程對拍拍貸網(wǎng)站借款人數(shù)據(jù)進行采集。采集到的數(shù)據(jù)包括借款人ID、標題、借款日期、第一次成功借款時間、借款金額(元)、借款年利率、期限(月)、借款進度、性別、年齡、文化程度、畢業(yè)院校、學習形式、成功借款次數(shù)、流標次數(shù)、成功還款次數(shù)、信用等級(AAA、AA、A、B、C、D、E、F)、認證。共采集有效數(shù)據(jù) 7144條。這些數(shù)據(jù)類型既包括刻度級如借款年利率,又包括序次級如文化程度,還包括名義級如性別,數(shù)據(jù)類型豐富。
由于采集到數(shù)據(jù)的數(shù)據(jù)不能完全符合目標數(shù)據(jù),需要對采集到的數(shù)據(jù)進行一定程度的清洗和預處理。
1.數(shù)據(jù)清洗。“文化程度”一欄中,大部分數(shù)據(jù)(6155/7144)為“無”,所以對該部分數(shù)據(jù)分析意義不大。“畢業(yè)院校”、“學習形式”因同樣原因?qū)Υ私y(tǒng)一刪除。最終清洗出來的數(shù)據(jù)如下所示,ID為借款人賬號,為保護其隱私對其ID后四位隱去,x2表借款年利率、x12表示拍拍貸平臺給他的信用的等級劃分、x13為拍拍貸平臺對他的認證個數(shù)、y表示流標次數(shù)。
2.數(shù)據(jù)預處理。“信用等級”(X12)為序次級數(shù)據(jù)。共有AAA、AA、A、B、C、D、E、F八個等級,這八個等級的信用等級逐漸降低。對八個等級分別用 1、2、3、4、5、6、7、8 八個數(shù)字標記。當信用等級在AAA、AA、A 是計為 y1=1,否則 y1=0。

表3-1 信用等級頻率分布
“認證”(X13),數(shù)據(jù)類型為刻度級。數(shù)據(jù)的屬性值分別有身份證認證、手機認證、學歷認證、戶籍認證、人行征信認證、視頻認證。每個人認證的個數(shù)不同,因此該欄包含的認證個數(shù)也不同。如果有一個認證則計為 1,兩個認證計為 2,依此類推,分別是 3、4、5、6。當“認證”個數(shù)為 0,1 或 2 時記 y2=1,否則,y2=0。

表3-2 認證個數(shù)頻率統(tǒng)計
“借款年利率”(x2),數(shù)據(jù)類型為刻度級;當借款年利率小于等于20%時計為y3=1,否則y3=0。頻率統(tǒng)計中由于0.07~0.1、0.14~0.19、0.21~0.22、0.23~0.31、0.33~0.36 區(qū)間跨度大、區(qū)間統(tǒng)計可統(tǒng)計數(shù)據(jù)少,同時為了制作表格美觀,進行了合并。借款年利率小于21%的標記為y3=1,大于等于21%的標記為y3=0。

表3-3 年利率頻率統(tǒng)計(%)
“流標次數(shù)”(y)一欄中,數(shù)據(jù)類型為刻度級。記錄著該借款人的流標次數(shù)。流標是該借款人在規(guī)定的時間內(nèi),沒有投資人投標或者投資額度不夠從而未能完成標的。在一定程度上反映了市場對該借款人的認可。而該認可主要來源于平臺對借款人信息的披露等多方面因素。因此該欄作為因變量。頻率統(tǒng)計中由于區(qū)間7~31統(tǒng)計中少同時為了制作表格美觀進行了合并。通過本次統(tǒng)計可知:流標次數(shù)分別有 0、1、2、...、31。當流標次數(shù)為 0,1,2 時,記 result=1,否則result=0。通過分類輸出變量result(流標次數(shù),1表示流標次小于3,0表示流標次數(shù)大于等于3)。現(xiàn)在主要目的就是考察前三個變量與流標次數(shù)之間的關(guān)系。

表3-4 流標次數(shù)頻率統(tǒng)計
1.Logistic回歸模型簡介。通過《SAS編程與數(shù)據(jù)挖掘商業(yè)案例》易知,假設(shè)在自變量X1,X2,...Xn下作用下,某事件發(fā)生的概率為p,則該事件不發(fā)生的概率為1-P,P/(1-P)為發(fā)生和不發(fā)生的概率之比,記做 odds,odds=p/(1-p),對 odds取自然對數(shù),得到:longit(p)=ln(odds)=ln(p/1-p);稱為P的longit變換,則longistic回歸模型為:

概率計算公式為:

Logistic回歸是一個分類模型,目標變量的值是一個分類標識,更關(guān)注觀測值和預測值之間的相對一致性,而不是絕對一致性。
2.結(jié)果分析。本文采用SAS軟件進行處理,建立Logistic回歸模型,數(shù)據(jù)分析結(jié)果如下圖:

圖3-1 SAS數(shù)據(jù)處理結(jié)果分析圖

圖3-2 SAS數(shù)據(jù)處理結(jié)果分析圖
輸出結(jié)果中模型擬合統(tǒng)計量一項是擬合優(yōu)度檢驗。主要通過Testing Global Null Hypothesis:BETA=0(測試全局零假設(shè):Beta=0)這部分來觀察是否符合要求。原假設(shè)是所有變量的參數(shù)為0,根據(jù)檢驗結(jié)果可以看出P<0.001拒絕原假設(shè),即變量的參數(shù)不全為0。參數(shù)估計一項中通過輸出的結(jié)果可以發(fā)現(xiàn)Intercept(截距)、y1,y2,y3他們的 p 值均小于 0.0001,可以說 y1,y2,y3三者均是非常顯著的解釋變量。據(jù)此可以得到回歸方程的表達式子如下:

其中參數(shù)y1,表示拍拍貸網(wǎng)貸平臺對借款人的信用評級;y2,表示拍拍貸網(wǎng)貸平臺對借款人的認證的個數(shù);y3,表示借款人發(fā)出的標的承諾的年利率。該模型,表示借款人流標次數(shù)小于3次的成功概率。

圖3-3 Logistic回歸模型實例應用
由前文分析可知:odds=p/(1-p),有p=odds/(l+odds)。假設(shè)有一借款人,發(fā)出的借款標的的年利率低于21%,拍拍貸平臺給他的信用等級劃分為.大于等于4(即其信用等級在B及B以下)、他在平臺“認證”的個數(shù)小于3個,那么他流標次數(shù)小于3次(信用水平受市場認可的概率)僅為40.64%。如圖所示。
優(yōu)比估計對比率Odds Ratio的估計。y1的odds ration的點估是0.577,對y1來說,95%的置信區(qū)間不包括1,說明y1是一個非常顯著的解釋變量(注:比率的置信區(qū)間不包括1,就跟p值小于0.05一樣是一個規(guī)則);同理,y2、y3的95%的置信區(qū)間不包括1,也是一個非常顯著的變量。
預測概率與觀測到的因變量間的關(guān)聯(lián)性這項看到一致性比率Percent Concordant為38.7%,不一致性比率Percent Discordant為26.1%,說明預測值與觀測值在現(xiàn)有水平上有較強的關(guān)聯(lián)性,回歸模型有較強的預測能力。C統(tǒng)計量度量觀測值和條件預測概率之間的相一致性。該值越大越好。C統(tǒng)計量為0.563,說明觀測值和條件預測概率之間的相一致性較高。
本文構(gòu)建了違約風險的logistic回歸該模型,可以簡易分析市場通過借款年利率、平臺給借款人的信用等級及平臺對借款人的認證數(shù)量來評估該借款人的個人信用水平受市場的認可度。未來P2P網(wǎng)貸對借款人的信用風險評估不僅僅局限于借款人的傳統(tǒng)數(shù)據(jù),將會在大數(shù)據(jù)技術(shù)之下結(jié)合借款人的傳統(tǒng)數(shù)據(jù)如年齡、性別、學歷等和網(wǎng)絡(luò)數(shù)據(jù)如社交數(shù)據(jù)、網(wǎng)上消費數(shù)據(jù)等數(shù)據(jù)的基礎(chǔ)上建立一個更為完善信用風險評估模型,以幫助P2P網(wǎng)貸平臺和投資者更好的規(guī)避潛在風險和做出正確的抉擇。