李響軍
摘要:隨著社會經濟的快速發展和信貸業務的增加,貸款人的信用評估也成為商業銀行信貸的重要組成部分。文章基于某商業銀行客戶信用數據集,建立支持向量機分類模型,先對數據進行預處理以后,訓練合理高效的信用評估分類器,根據改變SVM模型中的核函數和訓練樣本量,對比研究發現,SVM模型對個人信用風險的評估具有良好的分類效果,向商業銀行提出合理有效的建議,對推動我國信用制度的建設和社會主義市場經濟的發展有著重要的現實意義。
關鍵詞:商業銀行;信用貸款;信用評估;支持向量機
一、信用風險產生的原因
隨著我國經濟的蓬勃發展,更多的人選擇投資來獲取經濟利益,然而在實際生活當中投資者往往會面臨投資資金短缺等問題,此時就需要向銀行進行貸款,進而信用貸款業務也是逐年增加,使得全國各地商業銀行和金融機構得以迅速發展。商業銀行是通過發放信用貸款、吸收存款等業務盈利性金融機構,在資金供需平衡和資金流通等方面起著舉足輕重的作用。信貸業務的發展加速了我國經濟社會的發展,然而信用貸款往往會產生信用風險,信用風險的存在會給商業銀行業務的發展帶來不利的影響,而相當一部分信用風險往往是因為銀行在發放貸款時的判斷失誤導致的,所以建立一套科學合理有效的信用評估體系對于銀行的發展至關重要。傳統的信用評估往往是人為進行或者是利用簡單的信用評估,不僅評估的工作量巨大,并且極容易由于人的主觀因素的影響。隨著市場經濟的多樣化發展,信用風險的形式也變得復雜多樣,使得信用的評估也是越來越具有挑戰性。全世界范圍內都存在著信用風險,有相當一部分的商業銀行和金融信貸機構破產的重要因素之一就是信貸風險的存在。
全球范圍內各個國家的銀行早就開始慢慢進行信用風險的評估,也制定了各種信用風險的管理辦法,但隨著銀行業務的增加和多樣化發展,信用風險也在增加,在各種信用風險中,個人的信用風險顯得非常重要,個人信用風險表現為個人向銀行進行信用貸款后因為各方面因素無法按時還款而帶來的違約風險。所以信用風險評估體系的研究是一項重要而且意義重大的任務,其中個人信用風險的評估也顯得尤為重要。
由于信用風險越來越受到銀行的關注和重視,所以出現了一系列信用風險評估辦法,比如,將判別分析、線性規劃應用于信用風險的評估,隨著科技進步和理論的發展,信用風險的評估逐漸邁入機器學習的時代,深度學習等一系列信用風險評估模型開始發展。
數學規劃法是將信用評估問題進行轉化,根據數學知識分析求解,大致過程是將數據集中的樣本分為兩類,不妨計為I類樣本和II類樣本分別有N1和N2個,其中每個樣本都包含有k個評價指標,分別是xi1,xi2,…,xik,再根據相應的數學理論求出一個可以進行分類的閾值H和權重,根據閾值H和權重w=(w1,w2,…,wk)來進行分類判別,I類樣本經過加權計算后其值大于設定的閾值,即:
w1xi1+w2xi2+…+wkxik>H,i=1,2,…,N1
II類樣本經過加權計算后其值大于設定的閾值,即:
w1xi1+w2xi2+…+wkxik>H,i=1,2,…,N2
但在實際的數據分類應用中上式一般情況下是很難成立的,此時就需要引入一個非負的變量ai,將上面的問題轉化為數學中的條件最優化問題:
目標函數:
約束性條件:
w1xi1+w2xi2+…+wkxik≥T-ai,1≤i≤N1
w1xi1+w2xi2+…+wkxik≥T-ai,N1ai≥0,i=1,2,…,N2
此分類過程在信用風險評估中過程簡單也便于理解,但是后續進行目標函數的最小化計算時需要專業的數學理論知識。
還有其他一系列的信用風險評估方法,由于支持向量機在分類方面有著良好的優勢,雖然有國外專家將支持向量機應用于信用風險的評估中,但信用風險的評估還一直在發展研究當中,本文以某商業銀行信用數據進行信用風險評估。
本文將介紹SVM模型的原理和理論基礎,根據預處理后的數據進行訓練SVM分類器,并在測試集上驗證模型的分類正確率。
二、某商業銀行信用數據
本文所采用的數據是某商業銀行的個人信用數據,是貸款人向銀行申請信用貸款時提交的個人信息,該信用數據集中有1000個樣本,在樣本數據集中最后一列是貸款客戶的信用分類,若該客戶信用良好用“1”表示,反之用“2”表示,其他數據是客戶的信用指標數據,數據集中的其他數據表示客戶的信用指標的數據。對于商業銀行來說,更愿意為信用較好的客戶發放貸款,拒絕為違約風險較高信用較差的客戶發放貸款。對信用數據集中的兩類客戶進行正確區分是個人信用風險評估的重點內容也是本文所研究的內容。
(一)信用指標的描述性分析
為了解釋數據集中各樣本數據的信用指標來解釋該指標對樣本分類結果的影響,并給出一定的解釋和得到合理的評價指標,先來看個別信用指標對個人信用風險評估結果的影響。下面就該客戶歷史信用記錄的五個屬性值:無不良信用記錄(A30)、所有貸款已付清(A31)、有尚未到期的信用貸款(A32)、有信貸延遲還款記錄(A33)、信用記錄較差(A34),再結合其他信用指標銀行對該客戶做出的信用評價之間的關系
再根據表1中的數據畫出更為直觀的柱狀圖1。
由表1和圖1可以看出,對于無不良信用記錄和所有貸款已付清的客戶而言,結合其他屬性后被判別為劣質客戶的可能性稍大,這也許是因為這些客戶的信用記錄空白或者其他因素,對于歷史信用記錄稍差的客戶而言,大概率是要被判別為劣質客戶的,結合其他因素后分析,該客戶還是有可能被判別為優質客戶的。
由以上分析得到,商業銀行在進行貸款客戶的個人信用風險評估時,需要結合多種因素,利用科學的數學模型進行理論的判別分析。
(二)信用指標數據的預處理
在貸款時客戶向銀行提交的個人信息包括年齡、工作、住房、現有資產等情況,現有資產、貸款數額等數值型指標可以根據實際數額來進行分析,但對于住房情況、工作情況等字符型指標采用直接賦值的方式進行賦值,比如,就共同貸款人、擔保人情況中的A101(表示:無)、A102(表示有共同貸款人)、A103(表示有擔保人)可以直接分別賦值數字1、2、3。由于只涉及分類,賦值后的數值型指標在數學模型中只是為了方便計算,所以可以進行人為賦值,并不影響分類的結果。
將數據進行賦值以后數據集中的指標屬性均是數值型的,但是由于各指標數據不在同一個數量級上,比如銀行存款數值和賦值的數值之間量級太大,為便于計算,在原始數據不變的前提下根據以下方法進行數據的歸一化處理,使得歸一化后的數據在區間[0,1]之間:
其中,x? 表示歸一化后的樣本數據集中第i個樣本的第j個信用指標數值,max(x )、min(x )分別表示第i個指標中所有屬性值的最大值、最小值。
由于數據太多,在表2中只先列出前樣本數據集中前5個樣本通過歸一化處理后的數據結果。
三、信用風險評估的SVM模型
20世紀末Cortes和Vapnik提出了支持向量機(SVM),隨著支持向量機理論的發展和應用上的廣泛性,使得支持向量機已經被廣泛應用于機器學習中的各類數據分類問題,就支持向量機而言,既可以分析處理小樣本數據,又可以處理非線性可分的數據和高維數據,根據有限的樣本數據訓練出在模型的復雜程度和模型的學習能力上找到最佳折中從而降低模型的推廣能力。在實際問題中,數據復雜多樣,對于樣本訓練集來說,可以訓練出在樣本訓練集上有很好的判別能力,但是這樣訓練出來的模型在樣本測試集上的學習能力較差,根據統計學理論,訓練出良好的模型就需要結合經驗風險的最小化和模型的學習能力,最后尋求一個折中,使得模型中實際的期望風險最小化,也就是結構風險的最小化,結構風險包含經驗風險和置信風險。
在機器學習中的結構風險包含經驗風險和置信風險,經驗風險是在訓練分類器的過程中訓練器在訓練樣本上的誤差,置信風險指的是訓練分類器在測試樣本上的誤差,也就是分類器在測試樣本上的學習能力。經驗風險在根據訓練樣本進行訓練分類器時可以直接計算出來,而置信風險跟樣本量和模型的VC維有關,相較來說大樣本量的數據訓練出來的訓練器模型的學習能力較好,訓練器模型的VC維越大,學習能力也較差,也就是置信風險越大。
訓練器模型就是尋求經驗風險最小的函數,由于經驗風險大部分情況下會隨著訓練器函數的VC維的減小而增加,而VC維的增大一般情況下經驗風險會減小但是置信風險會增加。尋求結構風險最小也就是經驗風險和置信風險之和的最小,如圖2所示。
二分類問題是支持向量機所研究的問題中的一個最基本問題,根據數據集中各樣本的屬性值將其劃分為兩類,比如假設有n個訓練樣本,每個樣本用(xi,yi),i= 1,2,…,n表示,樣本中的xi∈Rn是一個維向量,用來表示該樣本的n個屬性值,yi={-1,+1}表示的是樣本的分類類別,可以尋求一個可以將兩個類別的樣本正確分類的超平面,該超平面兩側就是兩類樣本點,如圖3所示。
當樣本可以被線性劃分時,其實可以找到很多條直線都可以滿足樣本的分類要求,分類器的函數為g(x)=wx+b,其中w表示分類超平面的法向量,b是位移向量。需要找到最優的那個超平面,使得分類間隔最大,所謂分類間隔就是樣本點xi到超平面的間隔δi=yi(wxi+b),這樣的分類超平面既可以滿足需求也可以盡量減小置信風險。如圖4所示。
雖然與直線H1與直線H2平行且位于他們之間的任意一條直線都可以將兩類結果正確分類,位于直線H1與直線H2上的樣本點稱為支持向量,兩條平行線之間距離兩條直線都相等的直線H稱為在該支持向量機下的最優超平面,這樣的最優超平面同樣也可以找到很多組。
在多組最優分類超平面中,再選擇支持向量到H的距離最大化原則,也就是H到H1之間的距離δ= 要最大化,這樣就可以使得最優分類超平面更加準確區分兩個類別的屬性。
經過推測可以得到最優分類超平面。
f(x)=sign(w*x+b*)
=sign α y x x+b
上面是線性可分的,當然也有非線性可分時的分類器。如圖5所示。
對于有這樣異常點的樣本數據集,可以引入一個孫馳變量ξp≥0進行求解,但是,更多的時候樣本數據集復雜多樣,是非線性可分的,所以線性和近似線性可分的模型已經不再適用,這時可以考慮將數據集映射到高維數據集中,使其線性可分,再尋求最有分類器。由于高維數據計算涉及計算量大的問題,所以需要引入核函數K(xi,xj),一般和函數有線性核函數、多項式核函數、高斯核函數和Sigmoid核函數。引入核函數之后訓練分類器過程為:
1.選擇核函數和懲罰因子C>0,構造約束優化問題
αiαjyiyjK(xi,xj)- αi使得 αiyi=0, 其中0≤ai≤C
2.再利用SMO算法求解目標函數中α*向量最小值。
3.根據α*求解w*= α? yi?覬(xi)。
4.尋找支持向量,也就是滿足0<αs 得到分類超平面為: α? yiK(x,xi)+b*=0 最后得到SVM模型的分類決策函數為: f(x)=sign( α? yiK(x,xi)+b*) 四、實證分析 考慮到訓練分類器過程中會受到訓練樣本量和函數的影響,因此在實驗過程中利用交叉對比,假設固定核函數,取不同的訓練樣本量和不同的核函數進行實證分析,分析結果如表3所示。 根據表3中的結果可以得到,不同的訓練樣本量會導致不同的結果,隨著訓練樣本量的增加,模型的正確率也會增加,就商業銀行而言,第I種分類錯誤會導致銀行的盈利相對減少,但第II類分類錯誤會直接導致銀行需要承擔這些劣質客戶違約的風險,所以需要找到分類正確率更高的模型。 由上面的對比分析,訓練樣本量為800時分類器的正確率已經很高,下面就以訓練樣本量為800時改變模型的核函數,對比其預測結果: 表3中的結果明顯能夠對比三種核函數在該模型中的對測試樣本數據的影響,當訓練器中的核函數為多項式核函數和RBF核函數時,分類器對測試樣本的正確分類率影響不大并且都有良好的分類效果。 為了更加直觀觀察分類器對測試樣本分類情況,取訓練樣本量為900,核函數選取RBF核函數時分類器對測試樣本的分類結果如圖6所示。 根據圖6可以看到,在訓練器對測試樣本進行分類時,該樣本是否被正確分類,測試樣本的符號與分類器判別分類后的符號重合時,說明該樣本點已經被正確分類,反之該樣本被錯誤分類。分類器對樣本數據的判別分類正確率很高。 五、總結與建議 1. 對數據集中的數據進行賦值和進行和歸一化處理后,數據的可識別度有所提升,模型的分類效果有著良好的效果。商業銀行和信貸金融機構也需要在進行信用風險評估信息統計時,在評價指標上進行篩選,準確統計每位客戶的信用指標的屬性值,也要對指標進行篩選和甄別,并且務必做到客戶信用數據的準確性,信用指標屬性數值的準確性將直接關系到信用風險模型的準確性和學習能力,還會造成商業銀行的經濟損失。 2. 不同的訓練樣本量會影響模型在測試集上的準確程度,不同的核函數也會對影響模型在測試集上的準確程度,商業銀行在進行個人信用風險評估時可以通過比較選擇適合自己的分類器模型。 3. 不同的商業銀行在進行信用風險評估時選擇的指標也不一樣,所以在進行模型中核函數的選擇時應該根據自己的情況進行選擇,也可以根據需要更改核函數中的參數,提升模型的準確程度。 4. 商業銀行的發展在我國經濟社會快速發展的今天,對推進區域經濟社會發展等方面產生了重要的作用,是我國社會主義市場經濟體制中不可或缺的一部分,在其發展過程中,還需要在貸款策略和風險管理等方面作出合理評估。優先選擇向信用表現良好的優質客戶發放貸款,對于信用評估較差的劣質客戶進一步進行審核,并且還可以向劣質客戶增加約束性條款,必要時要求其抵押等價值或者更高價值的抵押物。 參考文獻: [1]徐長榮.巴塞爾新資本協議與我國商業銀行信用風險管理對策研究[J].商業研究,2005(03):143-145. [2]荊浩,劉埡,唐金環.基于多變量支持向量機的供應鏈需求預測分析[J].系統工程,2018,36(11):121-126. [3]郭保蘇,吳文文,付強,吳鳳和.基于支持向量機分類策略的多晶硅電池片色差檢測[J].計量學報,2019(06):1013-1019. [4]高欽姣,張勝剛,賈曉薇.基于支持向量機的股票價格預測模型研究與應用[J].課程教育研究,2016(28):227. [5]Bellotti T.Crook J.Support vector machines for credit scoring and discovery of significant features[J].ExpeR Systems with Applications,2009,36(02):3302-3308. [6]Harris T.Credit scoring using the clustered support vector machine[J].ExpeR Systems with Applications,2015,42(02):741-750. *基金項目:海軍工程大學2020年教學改革建設項目。 (作者單位:海軍工程大學)