郭帥+韓勝+劉妍
摘要:隨著“互聯網+”時代的來臨,國內P2P網貸平臺迅猛發展,這種貸款模式憑借著投資高收益、低門檻和操作簡便等優點,已成為時下炙手可熱的互聯網金融新模式。但由于準入門檻低,個人信用評估體系的不完善,使得平臺面臨巨大的信用風險。本文提出了基于PCA-BP神經網絡的個人信用評估模型,利用PCA對個人信用風險評估的眾多指標進行降維,得到幾個主分量,將主分量作為BP神經網絡的輸入因子,利用BP神經網絡的自學習、自調整以及非線性映射功能,使得在個人信用評估時實現了全自動化。
關鍵詞:個人信用評估;P2P網貸;PCA;BP神經網絡;動態量化
隨著“互聯網+”時代的來臨,P2P平臺數量有了爆發式的增長,這種新模式憑借著低門檻、高收益等優點以迅雷不及掩耳之勢深入人心,但另一方面行業飛速發展的背后一定存在著一些問題,P2P行業種種“跑路”、違約風險接踵而至。我國個人信用評估體系存在個人信息不準確、個人信用觀念和個人信用評估體系不成熟等問題,由此,本文提出了一種基于PCA-BP神經網絡的個人信用評估模型和算法,在有效降低眾多指標維數的同時,利用BP神經網絡自組織、自適應、自學習的功能,使得在個人信用評估時實現了全自動化。
1.PCA與BP神經網絡算法簡介
1.1 PCA算法簡介
信息安全風險評估值的變化具有不確定性和非線性等特點。風險評估值受諸多因素的影響,并且因素之間還存在一定的相關性。傳統的線性預測方法無法正確反應風險評估值的變化規律。而PCA可以去除因素之間的相關性,減小BP神經網絡的輸入變量,優化BP神經網絡結構[1]。主成分分析法 ( principal component analysis,PCA) 是將多指標轉化為少數幾個綜合指標的一種統計分析方法。它將一組給定的相關變量通過線性變換,轉換成另一組不相關的變量,變換中保持變量的總方差不變,新變量按照方差依次遞減的順序排列。經過主成分分析,可以在保留信息安全風險因素主要信息的基礎上降低支持向量機的輸入維數。
1.2BP神經網絡算法簡介
人工神經網絡是由大量簡單的基本原件——神經元相互連接,通過模擬人的大腦神經處理信息的方式,進行信息并行處理和非線性轉換的復雜網絡系統。神經網絡的優點是多輸入多輸出實現了數據的并行處理以及自學習能力。前向反饋網絡和徑向基網絡是目前技術最成熟、應用范圍最廣泛的兩種網絡。BP神經網絡是一種多層前饋神經網絡,它的名字源于在網絡訓練中,調整網絡權值的訓練算法是反向傳播算法。圖1為含有一個隱層的BP網絡。
由圖1知,BP神經網絡拓撲結構包括輸入層、隱含層和輸出層,上下層之間實現全連接,而同一層的神經元之間無連接,每層節點的輸出只影響上一層節點的輸出,每個節點都具有單個神經元結構。
2.基于PCA-BP神經網絡的個人信用評估模型構建
2.1 基于PCA算法個人信用評估模型指標的確定
由于商業銀行個人信貸數據不公開,難以取得足夠多的樣本,所以本文選取了德國某商業銀行在個人信用評分領域比較有名的數據集[2]用于演示模型的求解及實證檢驗。該數據一共有20個指標變量,1000個樣本點,其中沒有違約的客戶為700個,違約客戶為300個。將該數據的各個指標進行賦值進行數值化處理,對20個指標利用PCA進行降維[3],得到的結果見表1。
在輸出的主成分結果中,第一列為10個主成分;第二列為對應的“特征值”,表示所解釋的方差的大小;第三列為對應的成分所包含的方差占總方差的百分比;第四列為累計的百分比。一般來說,SPSS默認選擇“特征值”大于1的成分作為主成分。在上表中,前8個成分的特征值大于1,他們的累計貢獻率為69.006%。由于所研究的指標較多,因此我們可以認為前8個成分能夠作為主成分,其余成分所包含的信息較少,故可以舍去。
2.2基于BP神經網絡構建個人信用評估模型
2.2.1數據的歸一化處理
8個影響因子作為學習樣本中的輸入因子,輸出因子為個人信用風險的評估結果。在進行樣本訓練之前,需要對數據進行歸一化處理[4],用來加快神經網絡的學習速度以及運算的結果,歸一化處理方法如下。
2.2.2 神經網絡的構建
取700組數據作為訓練樣本,300組數據作為檢驗樣本,隱層節點數設為5,輸出層有1個節點,輸出結果1表示優質客戶,2表示違約客戶。隱層采用激活函數為softmax函數,輸出層采用的函數為恒等函數。得到的輸出結果如表3所示。
3.小結
從表3可看出BP神經網絡模型對全部樣本的回判(預測)準確率為83.4%,其中對優質客戶樣本的回判準確率高達94.4%,對劣質用戶樣本的回判準確率為68.3%。從實證檢驗的過程及預測效果來看,神經網絡模型的預測精度最高并且擬合性也很好,對樣本回判測試的總準確率為83.4%。該模型對劣質客戶預測準確率偏低,是因為這里所使用的數據都是曾經通過了審核并獲得了貸款的用戶,而商業銀行更多地是保留了通過借款申請并已發放貸款的客戶的資料,對未通過借款申請的客戶的資料則保留得較少,因此造成建模樣本中劣質客戶的樣本數量不足,模型對這些樣本的預判也因而受到影響。
參考文獻:
[1]姜起源.數學模型(第三版)[M].北京:高等教育出版社,2003
[2]張健.商業銀行個人信用評估模型研究[D].2012
[3]肖智.基于主成分分析和支持向量機的個人信用評估[J].2010
[4]張道宏.基于BP神經網絡的個人信用評估模型[J].2006endprint