王磊
摘?要:當前互聯網金融行業飛快發展,各種P2P網絡借貸公司不斷涌現,這種新型的借貸模式具有很多優點,但是也存在相應的問題,如何做好借款人的個人信用評價是保證P2P網貸行業健康運營的最重要一環。通過對近些年國內外個人信用評價模型的研究,以拍拍貸網站的用戶數據為例,建立信用個人信用評價指標體系,利用BP神經網絡算法,建立了借款人個人信用評價模型,為了達到更好的效果,采用不同的激活函數及權值調整方法進行模型優化,最終建立基于擬牛頓算法的BP神經網絡模型,能達到對用戶信命評級96.28%的準確率。
關鍵詞:P2P網絡借貸;信用風險;BP神經網絡;指標體系
中圖分類號:TB?文獻標識碼:Adoi:10.19311/j.cnki.1672-3198.2019.03.095
1?研究背景
隨著互聯網科技的不斷進步,P2P網絡借貸應勢而生,這種互聯網創新模式主要是為了解決中小型企業融資難的問題,P2P網絡借貸為中小企業和私人資金需求者提供了高效快捷的融資渠道。在行業飛速發展的同時,問題也開始不斷顯現,出現了很多平臺倒閉、跑路、提現困難等問題,使得建立并完善P2P自身征信體系迫在眉睫。本文結合國內行業實際情況,剖析P2P業務的風險特征,借助BP神經網絡的方法評價借款人的信用風險,通過不同的訓練算法使得模型的評價結果更為準確合理,對平臺今后的信用評價起到了一定的參考作用。
2?數據準備
本文的數據取自拍拍貸,利用Python軟件,編寫爬蟲代碼,爬取1352條信用記錄。為了保證數據質量,首先對于指標缺失值過半的信用記錄進行刪除,剔除無效樣本,最終留下974條信用記錄。拍拍貸網站用魔鏡等級作為信用評價的標準,主要分為AA、A、B、C、D、E、F共7個等級,經過調研發現,魔鏡等級主要集中在AA、B、C三者中,其他等級的信用記錄相對較少甚至為零,所以,本文將信用等級分為三大類,具體劃分方法及信用記錄條數見表1。
3?構建指標體系及打分表
從拍拍貸上爬取的每條信用記錄都有31各指標,通過相關性檢驗,有13個指標通過檢驗,分別為個人基本信息:年齡、性別、文化程度、借款用途、還款來源、工作信息、收入情況、網絡借貸平臺借款余額、認證信息。歷史信用記錄:正常還清次數、逾期筆數。負債相關:待還金額、歷史最高負債。
科學完善的評估指標體系起著衡量評估結果是否公正的作用,為了盡量客觀的對定性變量進行量化打分,本文對每個指標做出各指標與借款人信用交叉表。以性別為例,表格樣式大致如表2。
通過建立借款人信用分類及性別交叉表格,可以清楚的發現女性的信用評級為良好的比重更大,而男性的信用評級則傾向于較差,所以男性賦值為0,女性賦值為1。由于本文篇幅所限,其余指標量化打分表不做贅述,指標量化打分表見表3。
根據信用評級打分表,將網站所爬取的數據進行量化處理,然后對數據進行缺失值處理、數據規范化處理。本文采用EM算法填補缺失值,采用X-min(X)/maxX-min(X)進行數據歸一化處理,從源頭保證數據質量。
4?模型的建立與調優
4.1?模型簡介
BP神經網絡又稱為誤差反向傳播神經網絡,目前廣泛應用于分類、預測等領域。BP神經網絡可以依托不同的數學函數,而做到學習和存儲大規模輸入、輸出,并且不用事先設定某種特定對應關系。完整的BP神經網絡包含了輸入、隱含、輸出三層次網絡結構。
用數學的方式將BP神經網絡模型可以表示為:
其中Y代表輸出向量,X是輸入向量,W是輸入層和隱含層間連接權向量,B1、B2分別為隱含層和輸出層的閾值向量,V為隱含層與輸出層間連接權向量,g為傳遞函數。
4.2?模型參數選擇
就本文而言,輸入指標有13個,所以輸入層節點個數為13,輸出層的指標為信用分類,只有1個,輸出節點數為1。對于隱含層的個數設置是設計的重要環節,它確定會密切影響到最后輸出結果的準確性,目前關于隱層節點的設定并沒有一個唯一的準則,公認的經驗公式有以下4種:
根據以往經驗及本文的背景,選擇第三種作為隱層節點數的確認方法,隱層節點數的范圍為[4,13]。
4.3?模型的建立
將規范化處理后的數據進行神經網絡建模,隨機抽取80%的信用記錄進行神經網絡模型的訓練,剩余20%的信用記錄對模型的結果進行檢驗。根據以往經驗,設置神經網絡模型的最大迭代次數為2000次,目標誤差值為0.0001,輸入節點數為13,輸出節點數為1,隱層節點數根據經驗公式,取值在[4,13]之間,目前不做決定,帶入不同神經網絡探索后取得。BP神經網絡具有不同的激活函數和優化訓練算法,常見的激活函數有空操作的激活函數(identity)、邏輯斯蒂函數(logistic)、雙曲正切函數(tanh)、線性整流函數(relu),常見的訓練算法有很多,結合本文的具體問題及算法特點,決定采用擬牛頓算法(lbfgs)、隨機梯度下降算法(sgd)、自適應時刻估計方法(adam)進行訓練,為了得到更好的預測分類效果,本文對以上四種激活函數、三種訓練方法進行遍歷組合。
經過綜合考慮,最終決定采用relu激活函數,13-9-1的神經網絡結構,此種網絡結構的模型10次平均迭代次數為226.9次,平均誤差為0.011206,判斷準確率為97.50%。
其余兩種方法確定過程類似,篇幅所限,不再贅述,sgd方法下選取tanh激活函數,節點數為8時模型效果最優。adam方法下選取tanh激活函數,節點數為11時模型效果最優,接下來將剩余20%數據帶入三種最優模型進行驗證。
我們選取20%的數據195條信用記錄,帶入三種最優的模型,結果如表4,列舉5位。
表5列出了所有驗證數據集的平均準確率、絕對誤差及相對誤差,可以清楚顯示基于lbfsg方法建立的BP神經網絡模型可以達到最優的模型評價效果,對數據預測的準確率能達到96.28%。
5?結論
本文通過搭建P2P個人信用評級密切相關指標體系并創建各指標交叉信用表進行更加客觀合理的打分,建立了基于lbfsg方法的BP神經網絡,實現了對借款人信用評級96.28%的準確預測。結果表明BP神經網絡模型具有良好的特征抽取和知識發現能力,具有一定的推廣性。
參考文獻
[1]李昕,戴一成.基于BP神經網絡的P2P網貸借款人的信用風險評估研究[J].武漢金融,2018,(2):33-37.
[2]鄧逸,徐曉敏.基于互聯網行為信息的P2P個人信用評價模型[J].背景信息科技大學學報,2017,32(2):90-94.
[3]涂艷,王翔宇.基于機器學習的P2P網絡借貸違約風險預警研究—來自“拍拍貸”借貸交易證據[J].統計與信息論壇,2018,33(6):69-76.