王茂光,朱子君
?
基于神經網絡模型的網絡借貸高危企業信用風險的識別研究
王茂光,朱子君
(中央財經大學信息學院,北京 100081)
網絡借貸的飛速發展在一定程度上緩解了小微型企業融資難的問題,但也暴露出網絡借貸平臺信用風險的識別問題。為充分識別高危網貸企業的特征,以中小型網貸企業為樣本,通過指標篩選,挑選出與風險識別相關度較高的指標作為指標變量。并利用BP神經網絡算法模型得出高危網貸企業在不同條件下的信用風險識別率和信用風險分類正確率。實驗結果表明,高危網貸企業的信用風險具有高度識別性,高召回率、高正確率的特點。
高危網貸企業風險識別;指標篩選;神經網絡;召回率
中小微企業融資難的問題一直是世界各國普遍關注的難點問題。隨著網絡借貸的飛速發展,雖然融資難的問題得到了極大的緩解,許多小微型公司可以通過網絡融資獲得資助,但是同時也暴露出網絡融資高風險的弊端。例如,e租寶涉嫌非法集資500多億,“校園貸”事件中,學生在多平臺借款,最后卻因無力還款而造成巨大經濟壓力等。這些網絡融資風險產生的主要原因在于目前大多數網絡融資的公司規模都較小,沒有較好的管理、經營機制以及完善的信息披露機制。公司資質參差不齊,加上相關機構監控力度弱,風險控制模型尚不成熟,無法滿足目前網絡借貸的需求,從而導致中小微型企業融資難、融資貴的問題依然沒有得到徹底解決。因此,如何在網絡借貸中運用恰當的風險識別系統是重中之重,即建立適當的風險識別體系,進行風險識別。
互聯網技術的迅速發展為網絡借貸的信用風險識別提供了有力的技術手段。尤其是大數據的快速發展,打破了傳統風險模型模式,使利用大數據進行企業風險劃分成為可能。
在國內研究中,企業的信用風險評估仍處于起步階段,許多研究已經將關注點定位在企業的風險識別和模型搭建,但是大多數的評價模型仍依賴于定性分析,缺乏量化風控模型。尤其在互聯網金融跑路現象盛行的情況下,有效的模型是人們關注的焦點。目前人們研究較多的模型算法有基于貝葉斯、決策樹、神經網絡等算法。各個學科知識也逐漸被引用到模型搭建中,如統計學、數學、計算機科學技術等。
在風險評估方面,Beaver等[1]首次將統計方法運用到企業危機預警研究中,指出現金流與負債總額之比、資產負債率是最能體現企業財務狀況的指標,并對企業的財務情況進行預測。劉新海[2]對大數據應用處于國內領先的阿里巴巴企業進行征信體系和征信預測分析。肖曼君等[3]針對P2P網絡借貸采用排序選擇模型對平臺信用風險進行實證分析。劉宇璟等[4]針對小微企業創業者素質提出了從創業人格特質、創業能力和創業知識3個維度評價小微企業創業者指標體系。鄔建平[5]構建了基于灰色關聯分析的電子商務信用風險評價模型,并對各級最終模型的評價結果提出相應的應對策略。這些方法大多屬于傳統風險評估方法,多集中于定性分析,缺乏定量分析的有效模型。
神經網絡的快速發展,促使許多學者將神經網絡方法應用到解決問題的過程中,Atiya[6]提出了將神經網絡應用于對銀行破產的信用風險評價,提出運用神經網絡的模型將傳統金融指標用于對銀行風險進行預測。葉斌等[7]總結了設計BP網絡時確定隱含層層數以及節點數的幾種傳統方法,并指出了BP網絡結構優化的新思路和未來發展趨勢。熊志斌[8]運用遺傳神經網絡模型對我國上市公司財務危機進行預測,并與BP神經網絡進行對比。翟萬里[9]針對商業銀行企業客戶信用風險的主要影響因素,基于改進的BP神經網絡建立了商業銀行信用風險模型。劉建偉等[10]論述了深度學習的新進展,對深度學習在網絡層數、激活函數選擇、模型結構等方面進行了綜述。
目前,雖然國內外對于網絡借貸的風險關注度都很高,但是風險識別評價還多停留在采用專家評價法或者定性評價法等主觀方法,缺少有效的定量模型和算法。在目前網絡借貸快速發展的時期,必須對大量的網絡數據進行模型的實證分析。
針對網貸平臺風險較高的問題,本文通過收集網貸平臺的信用風險數據以及學習出現過“跑路”“經營困難”等問題網貸企業的數據,來訓練網貸企業的風險評估模型。本文的數據來自第三方資訊平臺“網貸之家”的網貸平臺企業數據,數據中主要包含了網貸企業的各項經營和財務指標,其中涵蓋了網貸企業的資本情況數據、營業財務數據和市場的打分等各項指標。
數據共包含37個變量,各個具體屬性如表1所示。
之后本文對收集到的37個指標進行指標篩選和離散化處理。篩選時采用值和值對指標變量進行選取。
定義1 假設y為在相應屬性中高風險企業數量,n為在相應屬性中低風險企業數量,py為y占樣本中所有高風險企業的比例,pn是n占樣本中所有低風險企業的比例,則有

定義2



表1 數據變量屬性
值在值的基礎上計算得出,更加直觀地表示出該屬性值對于因變量分類之間的關系程度。
以“平臺投資期限”為例計算和值,如表2所示。平臺收益劃分為1、2、3 三檔,平臺狀態由0、1表示。平臺收益為1且平臺狀態為的共有1 051家平臺,以此類推。根據式(1)可計算得出平均收益在“1”下的1值為0.71,根據式(2)可求得1為0.33,求和后得到的為1.4。

表2 變量“平臺投資期限”的WOE和IV值
通常將值在[0.1,∞)范圍內的自變量作為提取后的指標。同時在數據處理時,本文將同類指標合并(如投資期限占比、標的金額占比)計算其加權平均數;將不便于劃分和離散的屬性(如公司法人)去除;將缺失值較多的屬性變量(如平臺的投資人數、平臺的借款人人數)去除。經過處理后,再對得到的連續性變量進行離散化處理。最后共整理出21個因變量,1個自變量(企業風險類型),有效數據2 725條。具體分類如表3所示。

表3 最終變量選取和劃分標準
本文的算法運行環境是Windows操作系統,使用Java編程語言編寫,并通過BeanShell——一種兼容Java的腳本語言,進行運行調試。BeanShell是一個小巧免費的Java源碼解釋器,支持對象式的腳本語言特性,亦可嵌入Java源代碼中。之所以選擇BeanShell的原因是BeanShell可以快速地檢驗算法調整的結果,還可以檢驗單個輸入的反饋,所以本文使用BeanShell進行實驗。
本文算法使用的模型是BP神經網絡算法,一個典型的神經網絡,主要由神經元節點與節點之間的聯系(突觸)構成:一些節點負責簡單地把數據傳入或傳出網絡,另一些節點則負責處理數據。將數據導入網絡或從網絡導出數據的層級稱為輸入層和輸出層節點,其他節點被稱為隱藏層節點。
根據數據可以得出,BP神經網絡的輸入層節點有21個,輸出層節點有1個,中間隱藏層節點數可變,共3層。BP神經網絡即后向傳播算法,通過檢查每一個訓練實例,并依結果調整自身鏈接的權值,以使輸出值與期望值之間的誤差最小化。本文通過調用updateWeight()實現權值的更新,使用sigmoid函數作為激勵函數,學習率和迭代次數均可變。
神經網絡的基本思路如下。首先將總數據分為訓練數據和測試數據兩部分,對訓練數據進行學習,再用運行測試數據得出結果并驗證訓練的準確率。一般來講,訓練數據越大,準確性會相應提高。本文使用優化的神經網絡算法,提高了神經網絡在低比例訓練數據下的學習效率。學習效率(分類正確程度)通過計算分類的正確率和召回率衡量。
定義3 計算訓練結果正確率的比值為正確率和召回率。
各變量假設如表4所示,其中,為低風險企業被模型預測為低風險企業的數量,為低風險模型預測為高風險企業的數量,以此類推。則可得


通過比較分類的正確率和召回率來分析模型分類的合理度和分類的正確程度。
本文在研究方法上主要采用實證研究法和定量分析法。在實證分析法中首先對目前網絡借貸企業的信用數據進行指標量化和離散化,進而利用神經網絡評估高風險企業,以確保高風險企業不會成為漏網之魚,實驗結果證明,高風險企業的數據具有一定特征,在神經網絡訓練過程中,學習成功率很高。
相較于其他常見的模型算法,如決策樹模型、貝葉斯模型、SVM模型等,神經網絡具有實現復雜非線性映射的優點,在大量數據訓練下具有高度自學習和自適應能力,同時具有一定的容錯能力,在部分或局部神經元受到破壞后不會影響系統的正常工作。因此,本文選擇神經網絡進行模型訓練。

表4 不同情況下的變量假設

表5 模型在不同迭代次數下對高風險企業識別的表現
本文采用實證方法來分析不同學習率(0.1, 0.5, 0.025)和神經網絡迭代次數(10, 25, 50, 100, 200, 500)對學習率的影響,并通過調整訓練數據和測試數據的比例尋找最佳的測試比例。
1) 在控制變量條件下,測試不同的迭代次數對正確率和召回率的影響,結果如表5和圖1所示。

圖1 不同迭代次數下高風險企業識別的表現
可以看出,在迭代次數的增大最初會導致正確率短暫上升,然后下降,其中在迭代次數為25達到最佳,整體數據的正確率高達83%。而召回率在不同的迭代次數下,比值都較高,表示迭代次數對高風險識別的影響并不大。
2) 在控制變量情況下,本文測試不同的學習率對正確率和召回率的影響,結果如圖2所示。

圖2 不同學習率下高風險企業識別的表現
通過圖2可以發現,學習率在[0.025,0.1]的范圍內,企業風險識別的正確率和召回率都較高。學習率對風險的敏感程度不大。
3) 在控制變量的情況下,本文測試訓練數據和測試數據比率對正確率和召回率的影響,結果如圖3所示(圖例括號中數字表示迭代次數)。

圖3 訓練數據與測試數據比率對召回率和正確率的影響
通過圖3可以發現,訓練數據與測試數據比率對召回率的影響比對正確率的影響大。在比率為1:3的情況下,召回率幾乎為零,提升到1:2后,召回率恢復到正常水平。而正確率在不同比率下一直保持在比較平穩的水平。
4) 在控制其他變量情況下,設置不同的隱藏層節點數(如5, 7, 10)來測試對高風險企業識別的正確率和召回率的影響。其中無關變量的設置為迭代次數等于10,學習率為0.025。
根據圖4可得出,在隱藏層節點數為5和7的情況下,高風險企業識別的召回率和正確率均較高;將節點數提高到10時,在召回率依然較好的情況下,正確率明顯降低。可見隱藏層節點數也不是越多越好。

圖4 隱藏層節點數對召回率和正確率的影響
5) 為了證明算法的優異性,本文又對比了在不同的算法下(樸素貝葉斯、決策樹、神經網絡算法)召回率和正確率之間的差異(訓練數據與測試數據比為1:2),結果如圖5所示。

圖5 不同算法之間召回率和正確率對比
根據圖5可以發現,不同的算法間召回率都比較高,可以保證高風險識別率較高。但是貝葉斯和決策樹的正確率明顯低于神經網絡的正確率,證明了神經網絡在少量訓練數據下良好的學習能力。
本文通過采用BP神經網絡模型,對網絡借貸高危企業進行風險識別,測試神經網絡對企業風險識別的正確率,以及高危風險企業信用正確分類的召回率。實驗結果表明,高危企業的數據有明顯的特征,高危企業被誤識別為低風險企業的可能性很低,即召回率較高。并且企業風險劃分的正確率較高,誤報率也較低,保證了模型的正確性。進而分析了在選取不同的迭代次數、學習率和訓練數據比率的情況下,對模型正確率和召回率的影響。
下一步工作是進一步識別高風險網貸企業的風險關鍵性指標,找出導致網貸企業風險較高的原因,以及探究并測試不同的神經網絡模型對風險識別的影響。
[1] BARTH M E, BEAVER W H, LANDSMAN W R. Value-relevance of banks' fair value disclosures under SFAS No. 107[J]. Accounting Review, 1996, 71(4): 513-537.
[2] 劉新海. 阿里巴巴集團的大數據戰略與征信實踐[J]. 征信, 2014, 32(10): 10-14.
LIU X H. The strategy of big data for Alibaba Group and its practices of credit reference[J]. Credit Reference, 2014, 32(10): 10-14.
[3] 肖曼君, 歐緣媛, 李穎. 我國P2P網絡借貸信用風險影響因素研究——基于排序選擇模型的實證分析[J]. 財經理論與實踐, 2015, 36(1):2-6.
XIAO M J, OU Y Y, LI Y. Research on the factors affecting credit risk of P2P lending in China: an empirical analysis based on the sort selection model[J]. The Theory and Practice of Finance and Economics, 2015, 36(1): 2-6.
[4] 劉宇璟, 林裘緒, 竇先琴. 小微企業創業者素質評價指標體系構建[J].統計與決策,2015,(20):185-188.
LIU Y J, LIN Q X, DOU X Q. The construction of the quality evaluation index system for the entrepreneurs of small and micro enterprises[J]. Statistics and Decision, 2015, (20): 185-188.
[5] 鄔建平. 電子商務信用風險評估模型[J]. 統計與決策, 2016, (11): 69-71.
WU J P. Credit risk assessment model of e-commerce[J]. Statistics and Decision, 2016, (11): 69-71.
[6] ATIYA A F. Bankruptcy prediction for credit risk using neural networks: a survey and new results[J]. IEEE Transactions on Neural Networks, 2001, 12(4): 929.
[7] 葉斌, 雷燕. 關于BP網中隱含層層數及其節點數選取方法淺析[J].商丘職業技術學院學報, 2004(6): 52-53.
YE B, LEI Y. On the method of selecting the number of hidden layers and the number of nodes in BP network[J]. Journal of Shangqiu Vocational Technical College, 2004, (6): 52-53.
[8] 熊志斌. 運用遺傳神經網絡模型對我國上市公司財務危機的預測[J]. 統計與決策, 2008, (14): 32-34.
XIONG Z B. Using genetic neural network model to predict financial crisis of Listed Companies in China[J]. Statistics and Decision, 2008, (14): 32-34.
[9] 翟萬里. 基于人工神經網絡的商業銀行信用風險評估模型研究[D].長沙: 長沙理工大學, 2013.
ZHAI W L. Research on credit risk assessment model of commercial banks based on artificial neural network[D]. Changsha:Changsha University of Science and Technology, 2013.
[10] 劉建偉, 劉媛, 羅雄麟. 深度學習研究進展[J]. 計算機應用研究, 2014, 31(7): 1921-1930.
LIU J W, LIU Y, LUO X L. Progress in research on deep learning[J]. Application Research of Computers, 2014, 31(7): 1921-1930.
Credit risk identification of high-risk online lending enterprises based on neural network model
WANG Mao-guang, ZHU Zi-jun
(School of Information, Central University of Finance and Economics, Beijing 100081, China)
The rapid development of online lending alleviates the difficulty of financing for small and micro enterprises to a certain extent, but it also exposes the credit risk identification problem of online lending platform. In order to fully identify the characteristics of high-risk network lending enterprises, small and medium-sized network lending companies were selected as samples, and indicators that were highly correlated with risk identification were chosen as indicators variables. And by using the BP neural network algorithm model, the credit risk identification rate and credit risk classification accuracy rate of high risk network lending enterprises, under different conditions, were obtained. The results show that the credit risks of high-risk network lending enterprises are highly recognized, and have the characteristics of high recall rate and high accuracy.
high risk online lending enterprise risk identification, index screening, neural network, recall rate
F49
A
10.11959/j.issn.2096-109x.2017.00222
2017-11-03;
2017-12-01。
朱子君,zzj_2017@163.com
網金中心合作基金資助項目(No.020676116004);北京大學合作基金資助項目(No.020676114004)
Cooperation Project with Network Finance Center (No.020676116004), Cooperation Project with Peking University (No.020676114004)
王茂光(1974-),男,山東招遠人,中央財經大學教授,主要研究方向為互聯網金融風控和征信、軟件工程、分布式智能系統。

朱子君(1993-),女,吉林長春人,中央財經大學碩士生,主要研究方向為互聯網金融風控和征信。