劉瀟雅,王應明
福州大學 經濟與管理學院,福州 350116
隨著國民生活水平的提高,人們的消費心理與消費觀念發生翻天覆地的變化,包括個人消費貸款、個人住房貸款、信用卡等在內的個人信貸業務逐漸成為了商業銀行的一個重要的利潤增長點[1]。信用評估是指根據客戶的若干原始資料,通過綜合考察影響客戶及其家庭的內外客觀、微觀環境,使用嚴謹的分析方法,將其分為正常類和違約類,或給出一個違約概率或信用等級[2]。
除了早期通過分析員閱讀個人資料決定信用的好壞這種主觀性非常強的方法之外[3],傳統用于信用評估的主要是統計學方法比如判別分析[4]、logistic回歸[5]等,這些方法雖然簡單,但在處理非線性問題時效果較差。經過幾十年的發展,大量人工智能方法被用于信用評估領域,例如神經網絡[6]、k-近鄰判別分析[7]等,但這些方法多數基于傳統統計學理論建模,依賴海量數據并且容易出現過學習現象[8]。支持向量機(Supoort Vector Machine,SVM)在解決小樣本、非線性識別問題中表現出許多獨特優勢,且基于統計學習理論,具有很強的泛化推廣能力,近年來成為信用評估的重要方法。肖文兵等[9]將支持向量機用于信用評估領域并在交叉驗證中尋找核函數最優參數,提高分類準確率。肖智等[10]利用支持向量機建立了大學生助學貸款個人信用評價分析模型,通過實證體現了支持向量機方法在分類問題中的優越性。Abedin等[11]利用支持向量機工具對個人信用評估結果預測,并與神經網絡模型做了比較,實驗驗證了SVM泛化能力強、魯棒性好的優點。
一般認為集成模型可以綜合單個分類器的優點,分類效果更好,所以在單一支持向量機研究的基礎上發展了支持向量機的集成方法。陳云等[12]將隨機子集模型和AdaBoost兩種集成策略合成,提出SVM混合集成策略模型用于信用評估,提高了分類的準確率。吳沖等[13]建立了基于模糊積分的支持向量機集成方法,綜合考慮每個子分類器輸出的重要性,并對商業銀行的信用風險進行評估,通過實證分析得出了集成方法分類精度更高的結論。夏國斌[14]使用Bagging算法集成支持向量機信用評估結果,并與傳統判別分析與邏輯回歸做了比較。然而這些集成方法均沒有考慮到基分類器對分類結果的判斷能力的差異性和可靠性這一問題。
證據理論在不確定性信息表達和合成方面優勢突出,因此在融合不確定性結果中得到了廣泛的應用。但是基分類器的判斷結果相互沖突時,DS證據理論會得出與直觀相悖的結論。基于此,本文提出基于改進DS證據理論的支持向量機集成個人信用評估方法。利用SVM的后驗概率,混淆矩陣和類別標簽構造DS證據理論概率賦值函數。對于沖突結果,計算分類器間支持度的權重和專家權重對分類器賦權,區分可信度并修正沖突。除此外,模型訓練之前,利用C4.5決策樹信息熵增益率理論,約減冗余屬性,提高模型整體效率。實驗部分,使用UCI公開信用數據檢驗模型效果,結果表明,集成方法比單一模型分類效果更好,本文集成模型較于其他集成模型可以取得更高的預測精度,具有良好的現實意義和應用前景。
證據理論最早由Dempster提出[15],后來他的學生Shafer將理論進行了完善。對于某類判決問題,用一個完備集合Θ表示其所有的可能結果,如果集合中元素之間是兩兩互斥的,稱這個完備集合Θ為辨識框架。如果集函數m:2Θ→[ ]0,1滿足:

設m1和m2是兩個獨立的基本概率賦值,組合之后的基本概率賦值m=m1⊕m2(⊕是正交和)。設BEL1和BEL2是同一辨識框架的兩個信任函數,m1和m2分別是對應的基本概率賦值,焦元分別是A1,A2,…,Ak和 B1,B2,…,Br。
DS的組合規則如下[16]:

其中,K是沖突因子,反映了證據之間的沖突程度。

由式(1)可以看出,當K等于1時證據理論的合成規則顯然不再適用。
DS證據理論中,基本概率賦值函數(BPA)往往難以確定,本文將SVM與DS證據理論結合實現基本概率賦權。大致思路為:首先得到SVM的后驗概率輸出,作為初步的判別結果;其次通過混淆矩陣得到真實類別和預測結果之間的關系作為局部可信度估計值;然后將局部可信度加權融合到后驗概率中作為基本概率值。
使用證據理論對SVM集成時需要知道SVM預測樣本輸出的概率值,因此需要將傳統SVM輸出的類別標簽轉化為概率軟輸出。sigmoid函數可以將支持向量機輸出結果轉化為后驗概率輸出[17-18],具體方式如下:

f是標準SVM輸出結果,A和B是函數中的參數值,可以通過求解參數集合的最小負對數似然值而得:

假定類別數為k的分類問題,利用分類器l分類后所得到的混淆矩陣表示形式如下:


將分類器l的局部可信度記為PCl(wi),它表示當前的樣本屬于類別i的一種支持度,即對分類器局部的一種信任程度。

將其融入到支持向量機的概率型判別輸出Pi之中可得:

ml(wi)即表示分類器l對樣本x屬于某類i的概率賦值即BPA。
信用評估問題中,單個分類器的判別準確性往往也有限,且可能會出現泛化不佳的問題。組合多個分類器得到一個綜合的結果的集成模型,已經成為了提高信用評估分類問題準確率和穩定性的一個有效的手段。各基分類器的輸出都具有一定的不確定性,對于這些不確定性信息的集成過程也是一個不確定的推理過程。本文個人信用評估模型采用了集成方法,對DS證據理論處理沖突問題時的缺陷進行了改進,考慮基于證據間支持度的權值ρ和樣本分類精度λ并依此對分類器賦權,同時考慮屬性約減,提高模型訓練效率。
整體思想為:首先利用C4.5決策樹計算數據集屬性貢獻率,依據貢獻率大小約減屬性減少冗余;其次利用SVM構造DS證據理論的概率賦值函數BPA;然后檢驗結果是否有沖突,對沖突證據賦權;最后用DS證據理論融合規則對SVM集成完成最終決策。
由式(1)可知,當沖突因子K=1或者趨近于1時,顯然證據理論合成規則不再適用,如果繼續合成會出現與事實不符的結果。基于此,本文對沖突證據進行了改進。
假設信用評估系統有l個SVM分類器,識別框架含有N個命題,H是識別框架的任意子集。mi(i=1,2,…,j,…,l)是基本概率賦值:

相互獨立的證據體之間的夾角余弦可以用如下形式來表示[19]:

由余弦定理可知,夾角的余弦值為1時,表明兩個證據完全重合,沒有差異。隨著夾角的增大,余弦值越來越小,到90°時,余弦值為0,兩證據不相關。因此,可以用夾角余弦值表示證據之間的相似程度,它的值越小表明判別結果之間的相似度越低,證據越沖突,越大表明相似度越高。式(10)計算出的相似度值用矩陣形式表示如下:

相似矩陣行和定義為證據間的支持度,用Supi表示,支持度越高表明某個證據越為可靠,應該賦予的權重越大。以ρ表示平均支持度并作為基于證據間支持度的權重:

分類器本身分類準確率是衡量其性能最直觀的指標,因此本文還考慮了樣本在測試集上的預測準確率λ作為專家權重修正基于支持度的權重。基分類器的分類準確率越高說明其可靠性越強,應該給予的權值越大。均衡考慮分類器間差異與分類器自身分類效果優劣,定義總權重γ為:

依據總權重對基分類器的基本概率分配函數加權,即可改進在DS融合過程中可能出現的證據沖突問題。
基于改進DS證據理論和SVM的個人信用評估集成模型如圖1所示,具體步驟如下:
步驟1 C4.5決策樹約簡屬性。C4.5決策樹以信息熵增益率方法測試屬性,克服了傳統算法中屬性選擇偏向于選擇取值多的屬性的缺點。具體步驟有:
(1)設置損失比例。信用評估的實際問題中,將信用“好”的客戶誤判為信用“差”的客戶損失的可能僅僅是貸款利息,而將信用“差”的客戶誤判為信用“好”的客戶則可能遭受巨大的違約風險,二者所造成的損失不對等,決策樹模型設置損失比例將可能導致的損失引入系統的分析過程。
(2)訓練最優樹。對現有樣本迭代,增大誤判樣本被抽為訓練集的可能性,提高模型精度。確定決策樹的修剪嚴重性,生成最優樹。

圖1 改進DS證據理論的SVM集成模型
(3)計算屬性貢獻率。依據信息熵增益率原理,計算最優樹下屬性對分類結果貢獻率,約減冗余屬性。
步驟2訓練SVM基分類器。
步驟3計算SVM后驗概率及局部可信度。
步驟4利用SVM結果合成基本概率賦值函數。
步驟5若證據間存在沖突,計算基于支持度的權值ρ和基于分類準確率的權值λ,并合成最終分類器權值γ,對分類器的可信賴程度加以區分。
步驟6用DS證據理論做SVM的結果集成,并輸出最終判決。
實驗選取UCI機器學習庫的兩組真實公開信貸數據進行模型效果驗證,分別為德國信貸數據和澳大利亞信貸數據。數據集描述如表1,考慮樣本數值相差較大,實驗之前已對其歸一化處理,德國信貸數據屬性具體描述如表2所示。

表1 數據集描述
依托clementine12.0平臺,對數據集5折交叉驗證:實驗結果表明按損失比例2∶1,Boosting迭代次數10,修剪嚴重性85可生成德國數據集的最優樹,各個屬性貢獻率如圖2所示。按損失比例2∶1,Boosting迭代次數10,修剪嚴重性65生成澳大利亞數據集最優樹,各個屬性貢獻率如圖3所示。
選取對于分類結果貢獻率不為零的屬性,除去類別標簽德國數據集由24維約減為12維:變量1(0.263 4)、變量4(0.147 8)、變量2(0.135 2)、變量3(0.122 6)、變量17(0.112 2)、變量5(0.076)、變量10(0.063 1)、變量21(0.044 1)、變量 13(0.02)、變量 24(0.009 4)、變量 20(0.005 4)、變量16(0.000 8);澳大利亞數據集由14維約減為 9維:屬性 8(0.767 8)、屬性5(0.054 2)、屬性 3(0.052)、屬性 2(0.033 2)、屬性 9(0.032 6)、屬性 14(0.009 1)、屬性12(0.007 7)、屬性7(0.004 3)、屬性11(0.002 5)。

表2 德國信貸數據集描述

圖2 德國數據集屬性貢獻率

圖3 澳大利亞數據集屬性貢獻率
常見多分類器集成思路有兩個,一是將不同形式分類器集成,另一個是使用同形式的不同類型的分類器。本文選擇集成方法的第二種,選用三種基于不同核函數的支持向量機作為基分類器,這三種核函數分別為線性核、多項式核和高斯核,分別表示為SVM1、SVM2和SVM3。實驗依托Matlab 2016a平臺,使用Libsvm工具包,所有的支持向量機最優參數均用網格法通過交叉驗證求得。
為驗證本文模型效果的優越性,在兩組公開數據集上,實驗同時與不同核函數支持向量機單一模型、神經網絡模型、未改進的DS集成模型(DS-SVM)、基于bagging集成算法的SVM模型(Bagging-SVM)和基于Boosting集成算法的SVM模型(Boosting-SVM)等常見用于信用評估的模型進行了比較。同時為證明屬性約減的必要性,將計算結果分為兩類:一類是不經過屬性約減的情況,稱為情況1;另一種是考慮屬性約減的情況,稱為情況2。
本文選擇兩個指標來評估模型的效果,分別是F-score和平均準確率(Average),這兩個指標可以綜合常用于信用評估的precision查準率與recall召回率,根據表3混淆矩陣,指標的計算方法如下:


表3 混淆矩陣
不同分類器得到基于識別率的混淆矩陣表示如下:C11,C12,C13表示情況1下的 SVM1、SVM2、SVM3輸出的混淆矩陣,C21,C22,C23表示情況2下SVM1、SVM2、SVM3輸出的混淆矩陣。
德國數據集混淆矩陣為:

依據已經得到的混淆矩陣,由公式(7)計算可得兩個數據集各分類器可信度值見表4所示。

表4 局部可信度
將支持向量機的后驗概率,局部可信度利用式(8)合成概率分配函數(BPA),并按照4.2節內容計算權值λ和ρ同時合成最終賦權權值γ。測試樣本集成后分類結果和對比模型結果見表5和表6。
通過實驗從表5、表6中可以得到如下結論:
(1)比較七個模型屬性約減前后評價指標大小可知,在兩個測試數據集上,情況2各分類器的平均準確率和F評分均高于情況1。以澳大利亞數據集SVM3為例,在屬性約簡前F評分為0.810,平均準確率為78.4%;屬性約減后F評分為0.853,平均準確率為83.8%,F評分提升了0.043,平均準確率提升了5.4個百分點,說明非重要屬性的減少不會影響模型的精度,反而減少冗余屬性可以優化支持向量機受無關維度影響導致準確率下降的缺陷,從而提升模型效果。
(2)兩組實驗中,集成模型F評分和準確率明顯優于各個單一支持向量機分類器,說明了集成方法的優越性。本文提出的改進DS證據理論集成方法,充分利用了SVM輸出的所有信息,將對分類有用的類別標簽、后驗概率、混淆矩陣都進行了融合,同時改進了沖突證據引起的決策失誤,對分類器加權區分可信度,性能更明顯高于單一的模型和普通DS證據理論集成方法,在測試集上準確率可達90%左右。

表5 德國數據集實證結果

表6 澳大利亞信貸數據集
(3)基于改進DS證據理論的SVM集成方法,屬性約減前后F評分值和平均準確率均高于Bagging-SVM集成、Boosting-SVM集成方法和普通DS-SVM。說明本文提出的集成模型實用、有效,充分考慮分類器差異性,且改進沖突證據對提升模型準確率有明顯效果。
用柱狀圖直觀比較不同核函數預測精度,如圖4,圖5所示。從圖中可以看出情況2精度均明顯高于情況1,面向高維多樣本信用評估數據時,高斯核函數分類精度最佳,其次是多項式核函數,最后是線性核函數。高斯核函數由于參數較多項式函數少,計算復雜度低,且比線性核函數更適合處理多維數據,所以是信用評估方面最優的核函數選擇。

圖4 德國數據集核函數比較

圖5 澳大利亞數據集核函數比較
在信貸消費日益普及的高速信息化社會,個人信用評估的研究意義越來越重要,信用評估方法的好壞直接影響了信貸消費的走向健康與否,分類精度哪怕1%的提升都會挽回金融機構數以萬計的損失。在此背景下,本文提出了一種基于改進DS證據理論的支持向量機集成個人信用評估算法,并且考慮了冗余屬性對分類結果的影響,將屬性約減這一因素納入模型中。該模型優點是不僅集成了分類器達到了較好分類效果且有更強的“魯棒性”,并且利用數據集實際分類信息構造基本概率分配函數使得概率賦值更加可靠,同時修正了沖突證據造成的分類誤差,較單一SVM模型和傳統集成方法效能明顯提高,具有很好的泛化能力,說明此模型用于個人信用評估是可行和有效的。
未來進一步研究方向:(1)如何在保證精度的前提下將改進模型用于多分類情況中值得進一步思考。(2)本文的子分類器使用了三種不同核函數的分類器,以后可以考慮將不同類型的分類器組合集成,例如SVM、神經網絡、決策樹。