摘要:中小銀行在個人貸款業務快速發展的同時,面臨信用風險評估能力不足的挑戰。在當前經濟環境下,個人信用風險特征日益復雜,對中小銀行風險評估方法提出了更高要求。針對中小銀行在個人貸款信用風險評估中面臨的挑戰,文章提出了一種基于多層感知機(MLP) 神經網絡的評估方法。通過采用某農商行2023年1月到2024年12月兩年期間的每月貸款數據,構建并訓練MLP模型對個人貸款違約風險進行預測。實驗結果表明,所提出的MLP模型在訓練集上展現出較高的預測準確率(95.56%) ,為中小銀行提升個人貸款信用風險管理水平提供了有效的技術手段。
關鍵詞:MLP神經網絡;信用風險;個人貸款;中小銀行
中圖分類號:TP391" " " 文獻標識碼:A
文章編號:1009-3044(2025)21-0019-03
開放科學(資源服務) 標識碼(OSID)
0 引言
隨著我國普惠金融政策的深入推進和消費信貸市場的快速增長,中小銀行在個人貸款業務領域迎來了重要發展機遇。中國人民銀行發布的《中國區域金融運行報告(2022) 》和中國銀行業協會發布的《中國銀行業發展報告(2022) 》中指出,2022年區域性中小銀行個人貸款余額占比已超過其總資產的40%,成為支撐地方經濟發展的重要金融力量。然而,相較于大型商業銀行,中小銀行在風險管理能力、數據積累和技術應用等方面存在顯著短板。傳統信用評分模型(如Logistic回歸、專家評分法) 依賴歷史財務數據和靜態規則,難以有效應對個人貸款業務中客戶畫像復雜、風險特征動態變化等挑戰。尤其在宏觀經濟波動加劇、金融風險傳導速度加快的背景下,如何構建適應中小銀行特點的風險評估機制,已成為其亟待解決的關鍵問題。
本文應用MLP神經網絡的方法,構建了中小銀行的信用風險評估機制,改進了傳統信用評分模型中依賴財務數據和靜態規則的缺點,可以動態實時監測銀行客戶數據的變化,并及時反饋給銀行,為中小銀行提升個人貸款信用風險管理水平提供了有效的技術手段。本研究的應用價值可為中小銀行提供可落地的智能決策支持工具,助力其提升風險防控能力、優化信貸資源配置效率,同時對防范系統性金融風險、促進金融科技生態健康發展具有積極意義。
1 研究現狀
鐘金宏等[1]提出了基于組合分類策略的個人信用風險評估模型,即將決策分值、隨機森林、決策樹和支持向量機作為基分類器進行組合,提高了模型準確率;胡香[2]以S農商行的數據為樣本,對比了Stacking集成學習框架,集成了BP神經網絡、決策樹以及邏輯回歸模型,結果表明通過Stacking集成學習框架的集成模型提升了原來預測效果較弱的模型;劉慧[3]建立了基于XGBoost算法的個人貸款信用風險評估模型,實證分析表明XGBoost算法的大數據信貸風控模型的信用風險管理效率更高,分類效果更好;邱澤國、賀百艷[4]利用銀聯信用數據,通過對比Lasso-RF兩階段特征選擇與邏輯回歸、支持向量機、隨機森林、決策樹等常用的信用評估分類算法,論證了Lasso-RF兩階段特征選擇方法在個人信用風險評估上具有更好的分類效果;盧世嬌[5]和周心悅[6]采用Logistic回歸模型研究銀行個人貸款信用風險的影響因素;桂登攀[7]基于某兩家中小商業銀行個人貸款業務樣本數據,對比了Logistic回歸、神經網絡、XGBoost、隨機森林等四種信用評估模型,發現XGBoost模型在本文數據集上預測效果最佳,隨機森林模型次之,模型預測準確率均達98%以上。
現有研究多聚焦于大型金融機構或互聯網平臺的智能風控實踐,對中小銀行的適用性研究存在明顯缺口:其一,中小銀行客戶群體以小微企業和個體工商戶為主,數據維度碎片化且質量參差不齊,傳統的統計學模型易因樣本偏差導致泛化能力不足;其二,監管合規性與模型可解釋性要求更高,需在算法性能與業務邏輯透明性間尋求平衡;其三,中小銀行技術投入有限,亟須探索輕量級、低成本的智能風控解決方案。
2 數據來源與預處理
2.1 數據來源
本文數據集來源于某農商行2023年1月至2024年12月兩年期間的每月貸款數據。在剔除少量銀行錄入不完整以及對違約風險影響較小的數據信息后,共收集到325 770條貸款記錄。經專家判斷法,本文選取了對銀行貸款信用風險影響最大的10個因素,包括:借款人信用、抵押擔保、借款金額、借款年利率、借款期限、歷史借款成功次數、歷史借款流標次數、總借款數、借款者所在地、借款者還款情況。
借款人信用是指借款人在銀行貸款中因過往借款、還款等行為所積累的信用狀況和聲譽;抵押擔保是指借款人提供的資產抵押或者質押,用于緩釋信用風險的法律契約安排;借款金額是指借款人向銀行申請并最終獲得的資金數額;歷史借款成功次數是指借款人在過去一段時間內成功獲得借款的次數;歷史借款流標次數是指借款人在申請借款過程中,因各種原因未能成功獲得借款的次數;總借款數是針對某一借款項目,所有銀行表示愿意出借資金的意向次數總和;還款情況是指借款人在借款合同約定的還款期限內,按時足額償還借款本金和利息的情況。
2.2 數據規范化
從指標評價的角度可以將指標分為不同類別,不同類別的指標規范化方法也不盡相同。指標的分類主要包括效益型指標、成本型指標、固定型指標、偏理型指標和區間型指標。本文涉及的指標主要歸類為成本型指標和效益型指標。成本型指標為負向指標,數值越大,代表風險越高;效益型指標為正向指標,數值越大,代表風險越小。
效益型指標和成本型指標都可以采用極差變換法和線性變換法進行規范化。假設某一指標在信用風險評估過程的各個采樣時段取得一組值。當前需規范化其中任意指定的一個值,用iv(Indicator Value) 表示。這組值中的最大值和最小值分別用maxiv和miniv表示。iv的規范化值記為niv(Normalization Indicator Value) 。
效益型指標iv的極差變換法公式為:
[" " " " " " "[niv=iv-minivmaxiv-miniv] (1) ]
效益型指標iv的線性變換公式為:
[" " " " " " "[niv=ivmaxiv] (2) ]
成本型指標iv極差變換法公式為:
[" " " " " " "[niv=maxiv-ivmaxiv-miniv] (3) ]
成本型指標iv線性變換公式為:
[" " " " " " "[niv=1-ivmaxiv] (4) ]
性能指標是數值型指標,有些性能指標與信用風險值成正比,而另一些則與信用風險值成反比。成正比的屬于效益型指標,可用公式(1) 、(2) 進行規范化;成反比的屬于成本型指標,可用公式(3) 、(4) 規范化。本文選取的10個指標中,借款人信用、抵押擔保、歷史借款成功次數、借款人還款情況、借款者所在地屬于效益型指標;借款金額、借款年利率、借款期限、歷史借款流標次數、總借款數屬于成本型指標。
規范化的作用在于統一指標方向,統一數據量綱,以便融合成信用風險值。例如,在屬性指標體系中,貸款利率、貸款期限等指標單位不一,也沒有直接的可比性。采用規范化方法,將這些值統一轉化為0至1范圍內的無量綱比率,表示這些指標的數值。對于“借款者所在地”這一指標,規范化的處理方式為:本地設為“0”,非本地設為“1”。比率是一種可比、無單位的值,當這些指標用比率統一后,就可以輸入神經網絡進行訓練。
2.3 數據記錄類別
根據還款情況,可將數據記錄分為已還款記錄、超期記錄、未到期記錄。
已還款記錄表明貸款合約已經結束,不存在信用風險。
未到期記錄表示還在合約期內,記錄體現的是未來的風險。對未到期記錄進行預測時,預測結果可分為三種情況:按時還款、超期3個月以內、超期3個月以上。這三類記錄潛藏的風險值依次增大。本文采用MLP神經網絡預測貸款履約情況,通過貸款的其他屬性預測還款狀況。未到期記錄都存在信用風險。
超期記錄是指在還款期限到期后尚未履行還款合約的記錄,已出現信用風險。信用風險與超期時間成正比。可以將超期3個月以內(含3個月) 的記錄信用風險劃分為一個等級,超期3個月以上的記錄信用風險劃分為更高一個等級。
顯然,對于已還款記錄、預計按時還款、預計超期3個月以內還款、預計超期3個月以上還款、超期3個月以內未還款、超期3個月以上未還款這幾類對象,其信用風險是逐級升高的。
3 引入MLP神經網絡評估信用風險等級
3.1 MLP神經網絡訓練過程
MLP(Multi-Layer Perceptron,多層感知機) 是深度學習中被廣泛應用的神經網絡模型之一,其結構包括輸入層、以ReLU為激活函數的隱藏層以及以Softmax為激活函數的輸出層。具體流程如下所示:
[算法1:MLP訓練 輸入:輸入數據P,目標數據T,學習率α,訓練輪數epochs
輸出:訓練好的網絡net
1.對輸入數據P進行歸一化處理
2.初始化網絡模型 net,隨機初始化權重W和偏置b
3.for 1 to epochs:
4." "前向傳播:逐層計算Z=W*A+b
5." "計算損失 Loss,使用交叉熵損失函數
6." "反向傳播:逐層計算梯度dW和db
7." "參數更新:W=W-α.dW,b=b-a.db
8.end for
9.return net ]
3.2 劃分訓練數據集
為評估模型的泛化能力,需要將數據集劃分為訓練集、驗證集和測試集。訓練集用于模型參數學習,驗證集用于超參數調優和模型選擇(以避免過擬合) ,測試集用于最終評估模型在未見數據上的性能。
本文基于MLP神經網絡測試數據集,共計325 770條貸款記錄。其中,訓練集占70%,測試集占30%。由于訓練和測試數據的屬性值都須為已知,因此不選擇貸款未到期的記錄。在已到期的還款記錄中,可分為已還款記錄、超期3個月還款、超期3個月以上還款。
3.3 MLP神經網絡訓練結果
為檢驗構建并訓練好的神經網絡模型的應用價值,需利用該模型對訓練樣本進行仿真模擬,并將模型輸出結果與(1,0,0) 、(0,1,0) 、(0,0,1) 進行比較,以檢驗仿真的正確概率。三個輸出中的每個輸出以0.5作為判別臨界點,當輸出值大于0.5時,判別為1;當小于0.5時,判別為0。若正確率較高,說明所構建的神經網絡模型在信用風險判斷方面具有科學性和有效性,能夠在實際工作中加以應用。結果如表1所示。結果表明,該模型對訓練樣本的分類準確率達到95%以上,效果良好。由此得到的訓練樣本仿真結果如表2所示。
由判斷結果可知,已還款類別的正確判別率為96.67%,誤判為非已還款類別的概率為3.33%;超期3個月還款類別的正確判別率為91%,誤判為非超期3個月還款類別的概率為9%;超期3個月以上還款類別的正確判別率為100%,誤判為非超期3個月以上還款類別的概率為0%。總體正確率為95.99%,總體誤判率為4.01%。總體來看,MLP神經網絡模型表現出良好的仿真效果,能夠應用于中小銀行信用風險評估中。
4 信用風險值計算
根據各類對象的信用風險等級以及每種類型記錄占總記錄的百分比,可由公式(5) 計算中小銀行貸款的總體信用風險。
[" " " " " " "[R=i=1nlipi] (5) ]
其中,R表示中小銀行信用風險的總體值;n為對象信用風險等級的類別數,本研究中n=6;li表示第i類記錄的信用風險等級值;pi為第i類記錄數占總記錄的百分比。
以某農商行2024年12月31日的數據為例,共收集到12 572條交易記錄。對于已還款及超期還款記錄,可以直接根據數據對象的“還款情況”屬性判定其類別;而對于還款未到期的數據對象,因其“還款情況”屬性尚未確定,需用上述MLP神經網絡進行預測,得出其預計所屬風險類別。經此處理后,可獲得單筆貸款的信用風險分類情況,如表4所示。
每類貸款歸還情況的信用風險可以通過該類別記錄的數量與全體對象數量的比值來表征。通過上表可得,已還款記錄、預計按時還款、預計3個月以內還款、預計3個月以上還款、超期3個月以內還款、超期3個月以上還款這幾個對象類別的信用風險分別為27.2%、67.3%、1.5%、0.5%、2.5%、1%。
總體信用風險值通過公式(5) 計算:
R=0×27.2%+1×67.3%+3×1.5%+6×0.5%+10×2.5%+16×1%=1.158。
風險值介于0到9之間,數值越大表示風險越高。0表示無風險,或貸款已經還清;9為風險最高,已產生壞賬。該風險值為1.158,說明截至2024年12月31日,該農商行出現風險的概率不超過12%。
5 結論
本文基于某農商行的個人貸款業務的翔實數據樣本,采用MLP神經網絡模型,探討了中小銀行個人貸款信用風險的評估方法。得出以下結論:MLP模型的準確率超過95%,提升了傳統思路和方法下信用風險評估的準確率,達到了理想狀態,有利于中小銀行更好地把控當前個人貸款的信用風險,也為中小銀行信用風險評估優化了評估方法,提供了全新思路,提升了風險防控與預警能力,進一步優化了資源配置效率。
參考文獻:
[1] 鐘金宏,邵晶晶,李興國.基于組合分類策略的個人信用風險評估研究[J].合肥工業大學學報(自然科學版),2020,43(7):996-1002.
[2] 胡香.基于集成學習的S農商銀行消費貸款信用風險預測研究[D].成都:西南財經大學,2020.
[3] 劉慧.基于XGBoost的個人貸款信用風險分析模型研究[D].鄭州:鄭州大學,2020.
[4] 邱澤國,賀百艷.機器學習算法下信用風險評估體系構建研究:基于中國銀聯數據的個人信用風險評價分析[J].價格理論與實踐,2021(10):119-123.
[5] 盧世嬌. Q銀行個人信用類消費貸款信用風險評估研究[D].蘭州: 蘭州大學, 2022.
[6] 周心悅.CY農商銀行個人貸款信用風險評估研究[D].成都:西南財經大學,2024.
[7] 桂登攀.基于中小銀行貸款業務明細數據的信用評估實證研究[D].成都:電子科技大學,2022.
【通聯編輯:唐一東】