代婷婷,單長吉,韓 艷,胡曉飛
(1.昭通學院 數學與統計學院,云南 昭通 657000;2.昭通學院 物理與電子信息工程學院,云南 昭通 657000)
偏最小二乘回歸分類法的個人信用評估
代婷婷1,單長吉2,韓 艷1,胡曉飛1
(1.昭通學院 數學與統計學院,云南 昭通 657000;2.昭通學院 物理與電子信息工程學院,云南 昭通 657000)
針對目前商業銀行的信用風險問題,提出了偏最小二乘回歸分類法的個人信用評估算法,首先,將客戶和相應的信用指標量化后做成一個矩陣;其次,建立偏最小二乘回歸分類模型;最后,利用德國信用數據在該模型進行試驗,得出結果。仿真結果表明,此方法簡單、可行、有效。
個人信用評估 ;偏最小二乘回歸分類;激活函數
隨著經濟的飛速發展,買房子貸款、買車子貸款、學生上學貸款,利用信用卡提前消費等等這些現象在生活中屢見不鮮,而且已經很普遍,且已經成為商業銀行競爭的優勢和獲取利潤的來源。[1]去年的一篇報道稱,全國目前的各項貸款中個人貸款所占的比重已經達到了47%,而且還有持續上升的趨勢,而在個人貸款中占據比例最多的是住房按揭貸款,已經在個人貸款中的比重達到了72%[2],這種情況下,個人信用風險自然會受到極大的關注。實際上,與商業風險評估相比較,我們的個人的信用評估落后很多,一般情況下,都是依據信用機構信貸員的經驗主觀下結論決定。[3]這種情況只能適用于小規模的業務量。面對日益上漲的業務量,銀行的信貸人員缺乏不足的情況下,這種授信方式需要很長的審批時間,在此期間有可能就會將認為的誤差擴大化。相應的服務水平也會不斷下降,這樣會直接導致資產質量下降,潛在客風險的管控能力也提不上去,這就嚴重影響了銀行及信用機構的競爭能力。因此,優秀的個人信用評估模型勢建立顯得非常有必要和緊迫,目的是快速的提高信用機構的授信效率,同時也使它的準確率盡可能的高。在此過程中,我們的個人信貸機制能夠盡快的完善。風險防控的能力也逐步提高加強。
信用風險問題一直伴隨存在于每一個信貸機構在開展信貸業務的過程之中,因此,它已經成為各個信貸機構預防及嚴格控制風險時最先要考慮的。于是,信用機構在貸款之前進行個人信用的評估顯得異常重要,可是,如何在繁忙的工作中提高信用評估的效率,就需要一個科學合理的評估方法,打分制與主觀經驗的結合肯定是行不通的。目前,關于如何高效率的進行個人信用評估,種統計學和人工智能方法的改進在國內比較流行。到底具體使用哪種方法?關鍵是看把個人信用評價問題歸結于那類問題而已,可以將其看作聚類問題、分類問題、回歸問題,看作不同的問題,那么研究其的方法就是不同的,目前主要的個人信用評估方法有經驗式評判法、線性判別方法、統計學方法、運籌學方法、人工智能方法以及一些非參數統計方法。[4]依據這些方法,本文提出了偏最小二乘回歸分類個人信用評估方法。
1.1 建立個人信用評估框架
個人信用評估問題實際上相當于一個分類問題,依據客戶提供的材料將客戶分成不同的類別。一般情況下,我們將其分為信用度高的客戶和信用度低的客戶,依據貸款申請人所交的材料,方方面面考慮各種能夠影響其信用的因素,嚴格盡可能準確地評估出客戶失信的幾率,從而評估出信用機構風險大小。
在信用評估體系確立好后,那么我們假定每一個客戶都會對應n個指標,記為(x1, x2, ..., xn)在這種情況下,就可以將每個客戶看成n維空間Rn中的一個點,那么Rn空間中的一類點就可以代表某一類型的客戶,于是我們就可以把空間中的超曲面當做分類的界面,依據超曲面進行客戶分類,于是信用評估問題轉化成了尋找最優分類超平面的數學問題。
在有n個客戶的已知類別情況下,可以將這已知的n個客戶看成訓練樣本,設每個客戶都會有m個標準,也就是說每一個訓練樣本具有m個維數,基于以上的假設,我們就可以把有客戶的信息用下面的矩陣來表示:

矩陣中的行表示客戶,列表示標準,(x1, x2…, xm)這一列反映了評價情況,即xij表示第i個客戶對應的第j個標準,yi刻畫了第i個客戶的信譽度,其中i = 1, 2,…, m;j = 1, 2,…, n.
基于以上內容,則個人信用評價問題就等價于這樣一個求最優解的數學優化問題:在n維空間中,我們想法設法獲得一個H(x)=0的超曲面,其滿足的條件是可以將n維空間中的m個點區分成某些類別,本文中我們 的是兩類問題,即將n維空間中的m個點區分成2類的一個超平面。假設(yi=±1,±1代表信譽度高,-1代表信譽度低),在這種訓練下倘若有一個未知類別的點x(其代表未知信譽度的客戶)我們就可以利用數學分析中的符號函數(如下)進行判別決策。

1.2 偏最小二乘回歸建模
1.2.1 數據標準化處理
數據標準化處理的目的就是重合樣本點的集合中心與坐標原點。我們文章中所有的標準化都采用z_score標準化[5]處理,它的轉化函數為:

在(4)式中,x—表示樣本的均值,S(x)代表樣本的方差,它的計算方法如下:

為了方便期間,我們將這y1, y2…, yL個因變量與y1, y2…, xm個自變量都處理成標準化的變量。那么因變量組與自變量組的n次標準化觀測數據矩陣[6]就可以表示成下面的形式:

1.2.2 提取因變量與自變量的第一對成分,以兩者之間的相關性最大為原則
設從自變量中提取出第一成分為t1,從因變量中提取出的一成分記為u1,t1可以表示為自變量集X= (x1, x2…, xm)'的線性組合;即t1=w11x1+…+w1mxm=w1'X,,u1可表示為因變量集Y=(y1…, yp)'的線性組合:u1=v11y1+…+v1pyp=v1'Y為了做出更準確的回歸分析,t1和u1的提取要求盡可能在變量組中是比較穩定的信息,即變異的信息很少。另外要求t1和u1之間要有最高的相關性。
根據因變量集的標準化觀測數據陣E0和自變量集的標準化觀測數據陣F0計算得到第一成分的得分向量,分別用t ̄和表示

因為t1和u1的協方差Cov(t1, u1)可通過第一對成分的得分向量—t1和u—1的內積計算,于是,上述問題的約束要求可轉化為數學上的條件極值問題:

1.2.3 建立y1…, yp對t1的回歸和x1…, xm對t1的回歸
設回歸模型為:

由(12)式可知E0和F0可以用殘差矩陣E1和F代替,述步驟可以重復操作。

1.2.4 回歸方程計算
設n×m矩陣E0的秩為r≤(n-1, m),存在r個成分t1, …tr使得:

將tk=wk1x1+…+ωkmxm(k=1, 2…r),和Y=t1β1+…+trβr聯立,化簡得到關于p個因變量的偏最小二乘回歸式方程:

1.3 激活函數
分類的結構性質大部分是由激活函數[7-8]決定,然而激活函數是由實際情況決定的。本文的激活函數用下面的形式簡單表示:

在(16)式中,vj表示激活電位,yD表示類別指標,U(yD, ε)是yD的ε鄰域,將其稱為激活函數的閾值。這里ε的大小可以改變,所以隨著ε大小的改變來實現控制分類個人信用評估的正確率的目的。1.4 偏最小二乘回歸分類的個人信用評估算法
面對個人信用評估這個分類問題,本文中的輸入數據就是可將客戶信息矩陣,分類標簽就是信用度,在上述理論指導下得到了文本的個人信用評估方法——偏最小二乘回歸分類,具體步驟為:
Step 1:搜集原始試驗數據,并且將其標準化;
Step 2:完善確定的評估標準規則,將收集到的數據進行數值化處理;
Step 3:得出具體的偏最小二乘回歸的模型公式,訓練已知的客戶類別得到回歸方程;
Step 4:確定激活函數,對數據進行訓練得到最小二乘回歸(即得到最小二乘回歸分類器);
Step 5:試驗檢測準確性;
Step 6:對未知的客戶信用度的樣本在此分類器上評估。
2.1 試驗數據
本文中使用的數據是UCI數據庫中的德國信用數據,該數據可以從網址:http//erfhive.ucy. uci.edu/kl/.獲得,其名稱為:UCI Bachine Meaning Reperutory.法國數據共有客戶樣本1100個,“信用度好”與“信用度差”的樣本分為700、400個,按照分類中的稱呼將其分為正負客戶樣本點。其中每個客戶樣本點具有23個屬性,和一個用于判別是否違約的類別標簽。
2.2 確定文中的激活函數
本文中說的是客戶信用度良好與否的二分情況,應該選擇類似于符號函數的函數作為本實驗中的激活函數:

式(17)中,f1(x)和f2(x)表示信用度,(類別標號),T為控制值,依具體情況而設定。
特別注意的是,我們可以設定兩個控制值,超過一定控制值時判定為“信用度良好好”;低于一定閾值時判定為“信用度較差”,介于兩個閾值之間的可以認為是信用度稍微好的,勉強可以,信用機構的風險不會很大。
2.3 實驗結果與分析
針對法國客戶信用度信用數據的23個屬性,我們采用交叉驗證方法,得到本實驗所需要的成分,經過系列的訓練擬合得到了最終的回歸方程為:
f(x)=0.0962x1+0.0030x2-0.0432x3+0.0011x4-0.0368x5-0.0131x6-0.0372x7-0.0014x8+0.0243x9-0.0014x10-0.04 71x11+0.0326x12-0.063x13-0.0243x14-0.0135x15+0.1469x16-0.1728x17+0.0565x18+0.0901x19+0.0476x20-0.0407x21-0.0855x22-0.0150x23+1.9682

圖 1 法國信用數據標準化下的回歸系數直方圖
通過畫其標準的回歸系數圖,如圖1所示。我們可以從圖上直觀的看出23個特征屬性各自在信用評估中對信用情況的作用,從圖可知第二個屬性特征對信用評估結果的反映有著較強的作用。且相當的明顯。但是,第7個及第12個屬性特征就是沒有前面的解釋作用強烈。相對來說要弱很多。與此同時,我們也將實驗結果中閾值對評判結果的影響用表1表示了出來。

表1 在不同判別閾值下德國信用數據評估結果
我們在認真研究了偏最小二乘回歸方法的基礎上,通過具體的實例構造出了類似于符號函數的激活函數,將二者整合得到了本文中的核心方法---偏最小二乘回歸分類方法,且將此方法用在信用評估之中。為了證明此方法的有效性,我們利用德國信用數據在其上進行試驗,試驗證明了本方法是合理有效的。然而,本文還存在一些不足之處:第一,本文僅使用了一個德國信用數據做實驗,而沒有使用很多的其他信用數據,對本文方法的合理性缺少更強大的支持;第二,沒有詳細研究對多等級的或者具有二維及以上的信用評估指標此方法是否仍然具有有效性?沒有通過具體的試驗進行說明。這些不足都是今后研究需要克服的。
[1]傅鉛生.信息系統分析與設計[J].系統設計技術,2010(3):46-48.
[2]朱敏,謝榮.構建我國個人信用評估體系量大問題之思考[J].黑河學刊,2013(15):42-43.
[3]孫大利.個人信用評分模型綜述與應用分析[J].中國信用卡,2011(13):12-13.
[4]Durand D.Risk elements in consumer installment financing[M].New York: The Nationl Bureau of Economic Reseach,1998:145.
[5]Altman E I. Financial Ratios,Discriminant analysis and the prediction of corporate bankruptcy[J].The Joumal of Finance, 2001(4):589-609.
[6]姜明輝,王歡,王雅琳.信用樹在個人信用評估中的應用[J].商業研究,2003(12):15-19.
[7]王雅琳,王歡,黃偉平.K近鄰判別分析法在個人信用評估中的應用[J].數量經濟技術,經濟研究,2004(2):143-147.
[8]崔偉.基于遺傳神經網絡的個人信用評估模型的研究[J].計算機工程與設計,2009(18):4272-4277.
(責任編輯 劉常福)
Least-squares regression classif i cation of personal credit evaluation
DAI Tingting, SHAN Changji, HAN Yan, HU Xiaofei
(1. School of Mathematics and Statistics, Zhaotong University, Zhaotong Yunnan 657000, China; 2. School of Physics Electronic Information Engineering, Zhaotong University, Zhaotong Yunnan 657000, China)
In view of the present commercial bank's credit problems, this paper puts forward the classif i cation based on partial least squares method of personal credit assessment, f i rst, the customer and the corresponding credit indices are made after a matrix; Second, the classif i cation ofpartialleast-squares regression model is set up; Finally, with the model experiment on German credit data, the results are obtained. Simulation results show that the method is feasible, simple and effective.
Personal credit assessment; Partial least-squares regression; The activation function
F224
A
1674 - 9200(2017)03 - 0045 - 04
2016 - 12 - 21
云南省應用基礎研究項目(青年項目)“錐度量空間的不動點理論及應用”(2016FD082)。
代婷婷,女,甘肅慶陽人,昭通學院數學與統計學院助教,碩士,主要從事機器學習與智能計算研究;單長吉,男,吉林吉林人,昭通學院物理與電子信息工程學院副教授,碩士,主要從事控制理論與建模研究;韓艷,女,湖北黃岡人,昭通學院數學與統計學院講師,碩士,主要從事非線性分析研究。