葉曉楓,許義仿
(華北水利水電大學 數學與統計學院,鄭州 450046)
信用評估是如今金融機構評估風險的主要方法,主要包括三個步驟:明確信用影響因素;獲取影響因素的動態特征;構建模型評估客戶信用等級[1-2]。當前國內外常用的信用評估方法和理論有數學規劃、統計方法、決策樹、專家系統、支持向量機、K近鄰方法、貝葉斯網絡、神經網絡等。由于樸素貝葉斯具有較強的推理能力與穩定分類效率,對缺失數據不敏感,與其他算法相比有較小的誤差率,因而被稱為是一種有效而簡單的概率分類方法。因現實世界大部分問題與樸素貝葉斯中的“獨立性假設”不符合,所以符合實際語義環境的分類器的改進起引了許多學者的研究興趣,樹增強樸素貝葉斯分類器[3](Tree Augmented Na?ve Bayesian Classifier,TAN)、通用貝葉斯網絡分類器 (General Bayesian Networks Classifier,GBN)、選擇性樸素貝葉斯分類器[4](Selective Na?ve Bayesian Classifier,SNB)、判別分析的樸素貝葉斯分類器[5](Discriminate Analysis Na?ve Bayesian Classifier,DANB)等都屬于這一類的改進。
TAN模型可以使用多項式時間復雜度找到最優的增強樹貝葉斯網絡分類結構,這不但能確保計算的可行性,而且擴展了樸素貝葉斯分類器,放寬了樸素貝葉斯“各屬性相互獨立”限制條件。然而對于信用評估模型來說,信用評估數據具有非線性、高維度、特征多等特點,如何從高維數據中提取有效的特征直接關系著評估模型的準確率。
本文在現有的基礎上提出基于Isomap的樹增強樸素貝葉斯(Isomap-TAN)信用評估模型,將數據降維作為數據預處理中的一步,簡化樹增強樸素貝葉斯分類模型的結構,并選取1069家企業的財務指標數據進行實證分析,結果表明模型的分類精度得到改善。
Isomap算法以多維尺度變換(MDS)為基礎。Isomap的主要思想是:計算最近鄰圖中的最短距離得到測地距離,之后運用MDS算法獲得嵌入在高維空間中的低維光滑流形的表示[6]。
Isomap算法[7]步驟如下:
步驟1 計算樣本點之間的歐氏距離矩陣,建立鄰域關系圖G(V,E),對每個xi(i=1,2,…,N)計算其k近鄰xi1,xi2,…xik,記為Nj,以點xi為定點,歐氏距離d(xi,xij)為邊,建立鄰域關系圖G(V,E)。
確定近鄰點有2種方法:

ii.利用k-近鄰法,事先給定近鄰個數k,然后確定近鄰點。
步驟2 計算測地距離D=(dij)n×n以達到近鄰關系圖G(V,E)中尋找最短路徑的目標,即
步驟3 對距離D=(dij)N×N運用古典MDS方法,求得最低維嵌入Y={y1,y2,…,yN}。
樹增強樸素貝葉斯分類模型(Tree Augmented Na?ve Bayesian Classifier,TAN)是定義在U*={A1,A2…An,C}上的有約束貝葉斯網,Ai是離散屬性變量,C是類變量。Pa(C)=φ,Pa(Ai)至多有一個除C以外的其他屬性可以有一個相關的邊指向它[8]。如圖1所示,Geiger[9]表示了這類模型的證明過程。由Chow等[10]的學習樹結構的貝葉斯網算法可知,若所有屬性都是離散屬性,那么可以構造出學習TAN網絡結構的算法。

圖1 樹增強樸素貝葉斯網絡結構圖
TAN算法[11]描述如下:
(1)將訓練樣本輸入并初始化變成統一的格式,然后定義屬性變量與類變量,且用離散化方法處理所有的連續變量。
(2)判斷。如果是分類任務,則轉向(4);如果是訓練任務,則轉向(3)。
(3)成立貝葉斯概率表和TAN結,然后檢驗所有的訓練樣本。
i.當i≠j時,計算每對屬性變量的條件互信息熵I(Xi;Xj|C),
ii.成立一個結點是X1,X2…Xn的加權完全無向圖,其中Xi,Xj之間的權重是I(Xi,Xj|C),i≠j。
iii.成立該無向圖的最大權重跨度樹。
iv.找到一個屬性結點當作根節點,且令所有邊的方向都變為由根節點指向外,這樣可以將無向圖變為有向圖。
v.將類結點指向加入到有向圖里,然后增加從類結點指向Xi的弧,最后得到樹增強樸素貝葉斯網絡結構。
vi.依據v產生的結構圖,建立貝葉斯概率表。
(4)調用貝葉斯概率表,得出分類結果。
運用Isomap融合樹增強樸素貝葉斯分類算法構建信用評估模型的基本想法:用Isomap算法進行數據降維作為樹增強樸素貝葉斯分類算法的前置預處理系統,對高維度、非線性的企業財務樣本進行降維處理,從而簡化樹增強樸素貝葉斯分類模型結構,縮短訓練時間,提高分類精度。
1.3.1 指標體系的選擇
財務指標是指公司總結、評估財務狀況以及經營成果的相對指標,通過分析公司的財務指標可以幫助銀行正確判斷和評價公司的經濟效益,進而決定是否貸款給這些公司。為了判斷公司是否具備按時還貸的良好信用,幫助銀行對上市公司進行準確的貸款發放,財務指標的選擇就非常重要。
通過研究其他文獻選取的有效財務指標以及大公國際信用評級的主要財務指標,本文選取了上市公司的15個財務指標,指標分類為運營能力(流動資產周轉率、應收賬款周轉率、存貨周轉率)、盈利能力(毛利率、凈資產收益率、每股主營業收入、凈利率)、償債能力指標(資產負債率、速動比率、流動比率、現金比率)、發展能力(股東權益增長率、凈資產增長率、每股收益增長率、總資產增長率)。
1.3.2 模型的構建
圖2為融合Isomap數據降維的樹增強樸素貝葉斯分類模型架構圖,算法描述如下:
(1)指標體系的構建。在財務數據庫中,抽取能夠表示企業信用等級的指標。
(2)特征提取。降低特征向量的維數用Isomap算法。
(3)建立分類器。針對樣本分類的樹增強樸素貝葉斯算法。

圖2 Isomap融合樹增強樸素貝葉斯的信用評估架構圖
本文根據在滬深交易所上市的1069家企業的財務指標數據進行實證研究,其全部實驗數據均選自新浪財經網。從中選取了15個財務指標作為關鍵變量,并且這15個指標全是數值型屬性變量,類變量有兩個狀態{good,bad},相應地將全部企業劃分為兩類:good,即“具有信用好的條件”的企業;bad,即“不具有信用好的條件”的企業。從1069個企業樣本中抽取769個作為訓練集,剩下300個樣本作為測試集。
2.2.1 離差標準化
根據源數據呈現的特征,當數據之間存在較大的變異程度,就考慮對源數據進行離差標準化。因為本文的量綱有很多不同并且數據差異很大,所以我們對源數據進行離差標準化,結果顯示數據大小標準化后比較集中,沒有變異程度很大的數據。本文在做離差標準化時,采用Matlab進行自主編程。
2.2.2 離散化
根據TAN 模型的要求,變量必須為離散型變量。所見到的信用評估問題中,經常包含混合變量,其中混合變量包括連續性的屬性變量和離散型變量,因此對離散型變量需采用離散化方法。本文采用Fayyad[12]對連續變量進行預離散化,從而滿足TAN算法的要求。
2.2.3 利用Isomap降維
利用Isomap算法能夠對高維特征數據進行低維描述,即用最近鄰居方法將k值(k=3,L30)代入,反復代入k值從而達到參數尋優,最后得到最小殘差的k值(這里k表示最近鄰居點個數)。Isomap算法是在Matlab軟件上實現的,利用Matlab軟件可以得出不同k值的低維嵌入殘差圖,然后對由不同k值得到的一系列的殘差圖進行分析,得出k=4時是最小殘差,殘差圖如圖3所示。當橫坐標維數(Isomap dimensionality)增加時,縱坐標殘差(Residual variance)是減小的,這就表示Isomap算法的使用能夠實現數據降維,而數據“內在”的真實維度是找到曲線上突然停止顯著下降的“肘”點來判斷的[13]。

圖3 殘差和Isomap維數的關系
由圖3可以看出,當維數d<3時,曲線明顯下降至“肘”點;當維數d>3時,曲線變平緩而殘差大致相同。因此能夠得出結論:Isomap算法得到的降維后的真實“內在”維數為d=4。
為驗證Isomap-TAN評估模型的性能,選擇樸素貝葉斯模型和未降維的TAN模型進行對比分析,各模型的分類精度如表1所示。

表1 分類準確率測試結果 %
本文用R軟件編寫NB和TAN的分類程序。從表1可以看出,對不同的樣本,Isomap-TAN評估模型有一定的優勢:當評估good企業時,Isomap-TAN模型優于TAN 模型;對bad企業進行評估時,Isomap-TAN模型優于NB模型。就整體而言,本文提出的Isomap-TAN信用評估模型整體預測準確率為95.75%,高于樸素貝葉斯模型和樹增強樸素貝葉斯模型。這是因為經過Isomap算法的降維處理,將原始數據從15維降到4維,減少了噪音的干擾,使柔和的重要特征指標體系更具有代表性,有效提高了分類的精度,而沒有經過降維處理的樹增強樸素貝葉斯評估模型,可能由于指標過多,指標之間存在冗余,從而影響了其分類的精度。雖然在數值上提高的精度不是很大,但是在處理大樣本數據的時候,反映到具體數據中的差別有可能就會特別大。綜上所述,基于Isomap的樹增強樸素貝葉斯分類模型在經過Isomap算法的降維處理后,不僅能簡化樹增強樸素貝葉斯分類模型的結構,降低模型的計算復雜度,而且提高了分類精度,在一定程度上可以幫助銀行對企業進行比較客觀的信用評估。
建立科學的信用評估模型,能夠為研究人員提供重要的決策支持,減少損失。本文提出的Isomap-TAN模型結合Isomap和TAN的優點,利用Isomap算法進行降維處理,從原始數據的15維變量降到了4維,將柔和的四維特征作為樹增強樸素貝葉斯模型的輸入特征,最終得到了Isomap-TAN信用評估模型。選取2015年1069家企業進行實驗分析,分析顯示此模型的分類精度比樸素貝葉斯與樹增強樸素貝葉斯模型高,這樣不但能夠將Isomap算法運用在非線性的金融數據上,而且為銀行信用評估提供了一種新的思路。
[1]Li X L,Zhong Y.An Overview of personal oredit scoring:techniques and future work[J].International Journal of Intelligence Science,2012,2(4):181-189.
[2]肖進,劉敦虎,顧新,等.銀行客戶信用評估動態分類器集成選擇模型[J].管理科學學報,2015(3):114-126.
[3]Friedman N,Dan G,Goldszmidt M.Bayesian network classifiers[J].Machine Learning,1997,29(2):131-163.
[4]Langley P,Sage S.Induction of selective bayesian classifiers[C]// Tenth International Conference on Uncertainty in Artificial Intelligence.Morgan Kaufmann Publishers Inc,2013:399-406.
[5]李旭升,郭耀煌.基于多重判別分析的樸素貝葉斯分類器[J].信息與控制,2005,34(5):580-584.
[6]趙連偉,羅四維,趙艷敞,等.高維數據流形的低維嵌入及嵌入維數研究[J].軟件學報,2005,16(8):1423-1430.
[7]段志臣,芮小平,張立媛.基于流形學習的非線性維數約簡方法[J].數學的實踐與認識,2012,42(8):230-241.
[8]李旭升,郭春香,郭耀煌.擴展的樹增強樸素貝葉斯網絡信用評估模型[J].系統工程理論與實踐,2008,28(6):129-136.
[9]Geiger D.An entropy-based learning algorithm of Bayesian conditional trees[C]// Eighth International Conference on Uncertainty in Artificial Intelligence.Morgan Kaufmann Publishers Inc,1992:92-97.
[10]Lee C H L,Liu A,Chen W S.Pattern discovery of fuzzy time series for financial prediction[J].IEEE Transactions on Knowledge & Data Engineering,2006,18(5):613-625.
[11]郭春香,李旭升.貝葉斯網絡個人信用評估模型[J].系統管理學報,2009,18(3):249-254.
[12]Fayyad U M.Multi-interval discretization of continuous-valued attributes for classification learning[C]// International Joint Conference on Artificial Intelligence,1993:1022-1027.
[13]康莉.基于流形學習的分類算法及其應用研究[D].西安:西安科技大學,2010.