王潤華
(湖南城市學院,湖南 益陽 413000)
伴隨著我國經濟的高速發展,信用消費已經逐步浮出水面,例如住房按揭、消費信貸、汽車貸款、信用卡、教育貸款等多種消費貸款的規模越來越大[1]。在消費信貸越來越熱的形勢下,大部分商業銀行都把大力發展消費信貸看作未來發展戰略的一個重要的組成部分。但是目前國內商業銀行對消費貸款的風險管理水平較低,管理手段與方法均較落后,其中缺乏一套有效的個人信用評估方法是阻礙了個人消費信貸業務進一步開展的主要因素之一[2-4]。公民信用歷史資料的信用評估和完全交流,也為貸款人(如各商業銀行)提供了客觀的、一致的評估方法[5-8]。
個人信用評估是消費貸款的制約因素[9-11]。與國家的政策大力推動和商業銀行開展消費信貸業務的熱情形成對比的是,消費信貸在實際運作中并沒有出現人們預期的火爆場面。業內人士指出,問題的癥結是個人信用的評估問題還沒解決[12-13]。我國對企業的信用評估才剛剛起步,個人信用制度還幾乎是完全空白,銀行對個人的真實收入情況、信用水準很難掌握。為了化解風險,消費信貸的門檻不得不提高,步驟也比較繁瑣。
目前,國外商業銀行信用評估中應用最為廣泛的是多元統計分析方法。統計模型的最大優點在于其具有明顯的解釋性,存在的缺陷是過于嚴格的前提條件。隨著神經網絡技術的突破性進展,許多學者將其應用于信用評估中。由于神經網絡是一種對數據分布無任何要求的非線性技術,它能有效解決非正態分布、非線性的信用評估問題,但其缺陷是:“黑箱性”問題,即不具有解釋性;結構確定的困難性、訓練效率低下等,因此實際中神經網絡往往被作為一種“校驗性”的輔助方法。支持向量機是在統計學理論基礎上發展起來的,是借助最優化方法解決機器學習問題的新工具。支持向量機在其理論研究和算法實現方面都取得了突破性進展,在解決小樣本問題中表現出許多優勢,開始成為克服 “維數災難”和“過學習”等傳統困難的有力手段。目前,支持向量機在許多領域都獲得了成功的應用,逐步成為新的研究熱點。
假設訓練樣本集合為:(X1,y1),(X2,y2),…,(Xm,ym)
這里,yi=1表示個人信用不好,yi=-1表示個人信用良好。m個樣本可看成是n維空間中的點,如果存在一個超平面 ωX-b=0(ω,X∈Rm,b∈R)將這 m 個樣本點分開,則對于新的數據,就可以采用下列的函數判別它的類型:
f(X)=sgn(ω·X-b)
設非線性映射為:
φ:Rn→Rl(l>n)
則在高維特征空間中的判別函數為:
f(X)=sgn(ω·φ(X)-b)
其中,ω·φ(X)-b是空間Zl中的超平面。
對于訓練樣本來講,我們假設:
ω·φ(X)-b>1,if yi=1
ω·φ(X)-b<-1,if yi=-1
接下來需要尋找距離最大的兩個超平面,也就是要求解這樣一個二次規劃問題:

約束為:

應用拉格朗日乘子法:

其中ai為拉格朗日乘子。根據一階必要條件可知,在鞍點上,解(ω*,b*,a*)滿足:

即系數a*必須滿足:

最優超平面是訓練樣本在高維空間Zl中的線性組合:


由kuhn-Tucker條件可知,最優超平面的充分必要條件是:

支持向量ω*也可表示為支持向量的線性組合:

約束為:



表1 特征變量的分組結果
這里,Xi是支持向量,是拉格朗日系數,b*是最優超平面的截距:

模型構建是基于統計樣本的,在構建SVM模型之前,必須選取合適的SVM模型變量,然后根據所選取的變量進行相關的數據收集、數據整理和數據統計工作。
本文基于以下步驟來完成數據收集工作:(1)根據從銀行獲得的實際數據,標出履約和違約客戶,統計履約與違約客戶的個數。通過統計,發現有80萬個履約客戶和5萬個違約客戶;(2)抽取履約和違約客戶數據。按照時間順序將賬號進行排序,從每8千個履約客戶中選取1個樣本,得到1千個履約客戶樣本;從每50個違約客戶中抽取1個樣本,得到1千個違約客戶樣本;(3)列出抽中樣本的名字、賬號和客戶屬性信息(履約客戶或違約客戶);(4)將所有選中賬戶所對應的申請表和征信表匯總起來,最終得到建模樣本。
數據整理的主要目的包括:初步分析具有某種特征變量的客戶的信用行為和對特征變量進行合理分組。根據現有的研究成果:如果某些特征項所包含的樣本數目較少,則基于這些數據建立起來的模型的穩定性較差;如果一些特征項的“發生比”差別較小,則具有此類特征的客戶信用行為很相似,可將這些特征項進行合并。本文使用交叉表分析方法來完成對樣本數據的整理工作。采用交叉表分析方法可得到特征變量的以下指標:特征內履約客戶的分布情況、特征內違約客戶的分布情況和履約客戶發生比。根據得到的具體指標對特征變量進行重新分組。分組方法是:對樣本容量少的特征項進行合并;將“發生比”較接近的特征項予以合并。經過處理后得到的特征變量的各對應特征項分組如表1所示。在表1中,本文選取7個特征變量建立SVM模型,但這7個特征變量中性別、教育程度、單位性質、職業、婚姻是定性變量,由于SVM模型只能處理數值型變量,所以需要將定性數據進行量化處理。特征變量屬性值量化表如表2所示。
為了SVM建模的需要,還要將樣本數據轉化成SVM模型需要的格式:對于輸出結果,即信用良好(履約)還是信用不好(違約)分別采用1和-1來表示;輸入變量如下:x1表示性別,x2表示年齡,x3表示教育程度,x4表示月均收入,x5表示單位性質,x6表示職業,x7表示婚姻狀況,由此就可得到符合SVM模型識別的訓練數據。個人信用評估的SVM模型如圖1所示。本文選取1000個樣本作為訓練樣本,1000個數據作為測試樣本;同時針對不同的核函數,比較不同的核函數的分類效果的差異。

表2 特征變量屬性值量化表

本文分別用線性核、多項式核、高斯核進行分類試驗,分類精度如表3所示。計算結果表明線性核的分類效果很不理想,說明消費信貸中的個人信用評估一般都不是線性可分的。應用多項式核來實現分類的結果較好;隨著多項式次數的增加,則訓練數據的精度不斷增加,測試數據的精度卻呈現減少的趨勢。就本文實例來看,采用高斯核得到的分類效果沒有多項式好,其原因就在于參數的選取比較困難,尤其是推廣能力上還不夠理想。

表3 分類精度表
本文的主要創新點:建立了基于改進支持向量機的消費信貸個人信用評估模型,并利用部分數據對消費信貸中個人信用評估問題做了實證分析。
實驗結果表明:(1)一般情況下,消費信貸中個人信用評估不是線性可分的問題,采用線性核的分類效果不是很理想;(2)由于參數的選取難以做到恰到好處,就本文選取的實例來看,采用高斯核的分類效果不如多項式好,特別是在推廣能力上不夠理想;(3)采用多項式核來執行分類的效果較滿意,隨著多項式次數的增加,則訓練數據的精度不斷增加,測試數據的精度卻呈現減少的趨勢。
未來值得進一步研究的方向:(1)SVM采用一種“黑盒”學習方法,僅能得到分類模型;在信用評估領域,銀行更需要向客戶進一步解釋SVM模型的結果;如何對SVM模型進行解釋是未來值得研究的一個方向;(2)本文的分類結果僅限于“不好”和“良好”兩個等級,而銀行實際是將客戶分為多個等級;如何快速、有效地利用SVM模型進行多值分類是未來值得研究的一個方向;(3)SVM模型的分類性能在很大程度上依賴于核函數的選擇,如何選取一些合適的核函數也是未來值得研究的一個方向。
[1]朱小宗,張宗益,耿華丹.現代信用風險度量模型剖析與綜合比較分析[J].財經研究,2004,(9).
[2]陳東海,謝赤.關于信用風險管理模型的比較分析[J].社會科學家,2005,(3).
[3]王磊.商業銀行個人消費信貸的風險分析與對策研究[J].企業經濟,2006,(11).
[4]黃弈銘.支持向量機在雷雨天氣預報中的應用[J].廣東氣象,2006,3(1).
[5]王曉丹,王積勤.支持向量機研究與應用[J].空軍工程大學學報,2004,5(3).
[6]余艷芳,高大啟.一種改進的最小二乘支持向量機及其應用[J].計算機工程與科學,2006,28(2).
[7]鄒淑雪,王巖等.一種基于支持向量機的模糊分類系統研究[J].小型微型計算機系統,2006,27(4).
[8]馬海英,郭鈺.數據挖掘技術在信用風險評估中的應用[J].現代管理科學,2006,(11).
[9]趙曉翠,王來生.基于主成分分析和支持向量機的商業銀行信貸風險評估[J].統計與決策,2006,(7).
[10]黃儒靖.建立我國商業銀行個人信用評估體系的思考[J].云南財貿學院學報,2004,20(3).
[11]張學工.關于統計學習理論與支持向量機[J].自動化學報,2000,26(1).
[12]胡延平.商業銀行個人消費信貸面臨的問題及對策研究[J].消費經濟,2006,22(3).
[13]周瑋,楊兵兵.商業銀行信用風險管理基本要素[J].經濟理論與經濟管理,2002,(11).