(1.西南交通大學 a.經濟管理學院; b.電磁場與微波技術研究所, 成都 610031; 2.四川大學 工商管理學院, 成都 610065)
摘 要:將最小總風險準則MOR與貝葉斯網絡分類器相結合,提出了一種新型信用評估模型。在兩個真實數據集上以MOR用10層交叉驗證對貝葉斯網絡信用評估模型進行了測試,并與最小錯誤概率準則MPE的貝葉斯網絡分類器的結果進行了對比。結果表明,基于MOR的貝葉斯網絡分類模型可以有效地減小信用評估風險。
關鍵詞:個人信用評估; 最小總風險準則; 最小錯誤概率準則; 貝葉斯網絡分類器
中圖分類號:TP301.6 文獻標志碼:A
文章編號:10013695(2009)01005004
Bayesian network consumer credit scoring models
based on minimum overall risk rule
LI Xusheng1a, GUO Chunxiang2, CHEN Kaiya1b
(1.a.School of Economics Management, b.Electromagnetics Institute, Southwest Jiaotong University, Chengdu 610031, China; 2. School of Business Managerment, Sichuan University, Chengdu 610065, China)
Abstract:This paper integrated MOR(minimum overall risk rule) into Bayesian network classifiers, and proposed new credit scoring models. According to MOR, they were tested using 10fold cross validation with two real world data sets, and compared with Bayesian network classifier based on MPE. Results demonstrate that the Bayesian network classifiers based on MOR are able to reduce effectively the credit scoring risk.
Key words:consumer credit scoring; minimum overall risk rule(MOR); minimum probability of error rule(MPE); Bayesian network classifiers
近年來,隨著我國經濟的飛速發展,信用消費已逐步浮出水面,住房按揭、汽車貸款、信用卡等各種個人消費貸款都亟待信用作保。個人信用制度作為國家信用體系的一部分,正是個人信用消費得以伸展的平臺。個人信用評估作為個人信用制度的組成部分,其主要目的就是對可能引起信用風險的因素進行定性分析、定量計算,以測量消費者的違約概率,為授信方決策提供依據。
由于信用評估的重要性和問題本身的復雜性,已有許多方法和技術被建議,如判別分析、回歸分析、數學規劃法、決策樹、最鄰近方法和神經網絡等[1]。然而,所有這些模型的建立都是基于判決兩類樣本點損失相同的情況。而事實上,將違約類樣本點誤判為不違約給銀行帶來的損失和將不違約類樣本點誤判為違約類樣本點給銀行帶來的損失是不同的。以往的研究往往集中于提高模型在測試樣本上的分類精度,而沒有考慮兩類誤判成本是不同的情況,在實際使用過程中常常造成對風險估計不足。因此,有必要采用最小總風險準則(MOR)代替最小錯誤概率準則(MPE)來進行分類。
貝葉斯網絡分類器作為一種概率型分類器,繼承了貝葉斯網絡的優點,并具有良好的分類精度和語義表達能力,受到越來越多研究者的關注[2],并積極拓展它的應用領域,現已廣泛應用于模式識別、數據挖掘、垃圾郵件處理和醫學診斷[3~5]。近來,該方法也開始應用到管理領域,如客戶關系管理領域的客戶分類、客戶欺詐和對市場細分方面的研究[6,7]。由于該分類器容易結合損失函數實現最小化總風險分類的目標,本文在介紹貝葉斯分類原理、貝葉斯網絡及其分類器基本原理的基礎上,結合考慮損失函數的情況,初探將該方法運用到消費者的信用評估中,用MOR來代替MPE對兩分類問題進行識別,在最小總風險條件下給出未知類的類別;然后使用兩個真實數據進行了實證研究;最后給出了結論及今后的研究方向。
1 貝葉斯分類原理
2 最小總風險決策
在分類的決策中,使錯誤概率達到最小是重要的,但實際上,有些問題需要考慮一個比錯誤概率更為廣泛的概念——風險。在個人信用評估中,對消費者信貸的分類不僅要考慮盡可能作出正確的判斷,而且還要考慮到作出錯誤判斷時會帶來什么后果。在信用評估中,如果把信用良好的客戶誤判為信用差的客戶固然會使銀行損失一筆收益,但如果把原本是信用差的客戶錯判為信用良好,就會造成更大損失。顯然這兩種不同的錯誤判斷所造成損失的嚴重程度是有顯著差別的,后者的損失比前者更嚴重。
如果要使誤判風險最小化,就要考慮損失函數(loss function)。損失函數精確地闡述了每種行為所付出的代價大小,并且用于將概率轉換為一種判決[8]。令{α1,…,αa}表示有限的a種可能采取的行為集,損失函數λ(αi|cj)描述類別狀態為cj時采取行動αi的風險。假定觀測到某個特定模式x將采取行為αi,如果真實類別狀態為cj,定義在類別狀態為cj采取行為αi將有損失為λ(αi|cj),P(cj|x)是x實際類別狀態為cj時的概率,與行為αi相關的條件期望損失為
R(αi|x)=E[λ(αi|cj)]=∑lj=1λ(αi|cj)P(cj|x); i=1,…,a(3)
用決策理論的術語來表達,一個預期的損失被稱為一次風險,R(αi|x)稱為條件風險。由于x是隨機向量的觀察值,對于x的不同觀察值,采取決策αi時,其條件風險的大小是不同的。所以究竟采用哪一種決策將隨x的取值而定。這樣決策α可以看成隨機向量x的函數,記為α(x),其本身也是一個隨機變量,可以定義期望風險為
R=E[R(α(x)|x)]=∑R[α(x)|x]P(x)(4)
其中:期望風險R反映對所有x的取值采取相應決策α(x)所帶來的平均風險;而條件風險R(αi|x)只是反映了對某一x的取值采取決策αi所帶來的風險。顯然要求的是采取一系列的決策行動α(x)使期望風險R最小。如果在采取每一決策或行動時條件風險都最小,則對所有的x作出決策時,其期望風險也必然最小,這樣的決策就是最小總風險準則。最小總風險準則為R(αk|x)=mini=1,…,aR(αi|x),則α=αk。
使錯誤概率和總風險達到最小的兩種貝葉斯決策規則存在著密切聯系。設損失函數為
3 貝葉斯網絡分類器
3.1 貝葉斯網絡
貝葉斯網絡是由隨機變量集合U={X1,…,Xn}組成的聯合概率分布的編碼[9],形式上是一對二元組B=〈G,Θ〉。G是一有向無環圖,它的節點對應隨機變量X1,…,Xn,有向邊代表變量之間的相依性。圖的結構G編碼了獨立性假設:給定每個節點的父節點的條件下,該節點獨立于它的非自子孫節點。Θ代表了這個網絡的量化參數集,每一個參
學習貝葉斯網絡的首要任務是對一個定義在U上的訓練樣本集D={u1,…,uN},尋找最匹配D的網絡結構B。一旦獲得了網絡結構B,就可以估計參數Θ。用貝葉斯網絡作為分類工具,實際上就是用貝葉斯網絡求解式(2)。由于貝葉斯網絡表達了變量集的聯合概率分布,只要確定了變量集的貝葉斯網絡結構和屬性變量的條件概率分布,就可以求得P(cj|x1,…,xn)。根據對網絡結構的不同假定,可以分為樸素貝葉斯分類模型、通用貝葉斯分類模型以及樹增強貝葉斯分類模型。
3.2 樸素貝葉斯分類器
樸素貝葉斯分類模型(naive Bayesian classification model,NB)采用了最簡單的貝葉斯網絡結構,將類節點強制作為其他屬性的父(根)節點,并假定各屬性節點在已知類的條件下相互獨立。其拓撲結構如圖1所示。
每個屬性Xi只與類變量C相關,因此式(2)中的P(xi|x1,…,xi-1,x (14)
其中:P(xi|cj)為離散屬性變量Xi類條件概率分布;f(xk|cj)為連續屬性變量Xk的類條件概率密度函數。因子Δ出現在式(14)的每一個類,當進行正則化后,Δ將被抵消。故式(14)又可以寫為
P(cj|x1,…,xn)=β×P(cj)×∏qi=1P(xi|cj)×∏nk=q+1f(xk|cj)(15)
其中:β=1/P(x1,…,xq)×f(xq+1,…,xn|x1,…,xq)。通過屬性變量集的類條件概率分布,NB將離散屬性變量和連續屬性變量統一在概率分布中,簡潔地實現了對特征屬性的編碼。
訓練分類器時,NB首先按照類標簽把訓練樣本集分成幾個子集Dj(1≤j≤l),用訓練樣本集估計每個類的先驗概率,一般可以按P(C=cj)=Ni/N進行估算。其中:Ni是在子數據集C=ci的樣本數;N為訓練集樣本總數。然后在每個由cj標定的子集對類條件屬性的概率進行估計。對類條件屬性的概率估計方法為:
對每一個離散屬性,可以根據最大似然估計準則,取P(Xj=xjk|C=ci)=Nijk/Ni。其中:Nijk為事件Xj=xjk在子數據集C=ci上發生的頻數;N
NB的最大特點是不需要搜索網絡結構,只需簡單地計算訓練集中各個離散屬性值發生的頻率數或對連續離散屬性采用正態分布假定,就可以估計出每個屬性的概率估計值或概率密度,因而效率特別高。理論上,它在滿足其限定條件下是最優的,針對其較強的限定條件,可以嘗試著減弱它以擴大最優范圍,從而產生新的分類器。
3.3 通用貝葉斯網絡分類器
通用貝葉斯網絡分類器[2](general Bayesian network classifier,GBN)將類節點和屬性節點作為同等地位的網絡節點,根據選定的評分函數和樣本數據訓練出貝葉斯網絡,直接作為分類器。用GBN進行分類的過程實際上就是將屬性節點作為證據節點引入到貝葉斯網絡中,求得類節點后驗概率的過程。
在貝葉斯網絡中,把某節點的父節點、子節點及子節點的父節點稱為該節點的馬爾可夫覆蓋[10]。根據有向馬爾可夫覆蓋的性質,一個節點取某個值的概率只受其馬爾可夫覆蓋節點的影響,而與其余節點無關。這樣一些可能對分類有重要意義的變量,由于被歸于馬爾可夫覆蓋以外,而影響不到分類節點。多數情形下,經過學習的GBN比NB的分類效果要差,尤其當屬性較多時效果更差[2]。另外,GBN是一個無約束的貝葉斯網絡,其結構學習本身就是一個NPcomplete[11]問題,目前條件下不可能搜索整個空間。事實上,只有在屬性個數極少的情況下才具有實用價值。
3.4 樹增強型樸素貝葉斯分類器
NB直接面向分類目標,網絡結構簡潔明了,但其屬性變量間完全獨立的條件使其難以適用于實際情況。GBN克服了NB屬性變量間相互獨立假設的限制,通過對數據的學習找到它們的相關性,但卻由于馬爾可夫覆蓋節點的影響排除了某些可能對分類有意義的關鍵屬性。增強型樸素貝葉斯分類器正是基于此的改進,其中最簡單的一種為樹增強型樸素貝葉斯分類器(tree augmented naive Bayesian classifier,TAN)。該分類器以類變量作為所有屬性節點的父節點,而屬性節點之間構成一個樹型結構,如圖2所示。它的Pa(C)=,且Pa(Xi)除C以外至多有一個其他的屬性,每個屬性除由類變量指向它的弧外至多可以有一個相關的弧指向它。由于限制了相關弧的數目,可以進行有效的學習。這類模型已由Geiger[12]給出了證明,并用Chow和Liu[13]學習樹結構的貝葉斯網絡算法進行學習。
構造TAN網絡結構的算法如下[2]:
a)計算每對屬性變量i≠j的條件互信息熵I(Ai;Aj|C)。其中:I(Ai;Aj|C)=
c)建立一個最大的權重跨度樹。
d)選擇根節點,并設置所有弧的方向由根節點指出,把無向樹轉換為有向樹(根節點的選擇不改變網絡結構的對數似然)。
e)增加一個類變量節點及類變量節點與屬性節點之間的弧。
步驟a)的計算復雜度為O(n2×N),c)的計算復雜度為O(n2×log n),N為訓練樣本數。由于通常有N>log n,時間復雜度為O(n2×N)。建立最大權重跨度樹的方法是:首先把邊按權重由大到小排序;然后遵照選擇的邊不能構成回路的原則,按照邊的權重由大到小的順序選擇邊,由此構成的樹便是最大權重跨度樹。
按照以上方法構造的TAN是考慮了分類精度和計算時間復雜度的一種折中。實驗證明,通常其具有比NB更好的分類精度而所付出的代價并不大[2],因此獲得了廣泛應用。
4 結合最小總風險準則與貝葉斯網絡分類模型
對于實際問題,最小總風險貝葉斯決策可按下列步驟進行:
a)在已知P(cj)、P(x|cj)(j=1,…,l)以及給出待識別的x的情況下,根據式(1)計算出后驗概率P(cj|x)。
b)利用計算出的后驗概率及損失函數,按式(3)計算采取αi(i=1,2,…,a)的條件風險R(αi|x)。其中:
R(αi|x)=∑lj=1λ(αi|cj)P(cj|x);i=1,2,…,a(19)
c)對式(19)中得到的a個條件風險值R(αi|x)(i=1,…,a)進行比較,找出使條件風險最小的決策αk,即
R(αk|x)=mini=1,…,aR(αi|x)(20)
則αk就是最小總風險貝葉斯決策。
從上面的步驟可以看出,在已知損失函數的情況下,問題的關鍵在于要計算符合實際情況的先驗概率P(cj)和類條件概率P(x|cj)。由前面的論述可知,貝葉斯網絡可以表達全聯合概率分布,而且貝葉斯網絡的結構和參數可以通過從數據中學習的方法獲得。一旦獲得了貝葉斯網絡分類模型,再按照最小風險準則進行分類決策已經是非常簡單的問題了。下面給出用貝葉斯網絡按最小風險準則決策的算法:
a)根據訓練樣本選擇貝葉斯網絡分類模型B,并訓練分類模型B。
b)根據給定的損失函數對未知類別的樣本x計算
R(ci|x)=∑lj=1λ(ci|cj)PB(cj|x);i=1,2,…,l(21)
其中:R(ci|x)是判定x為ci類的風險;PB(cj|x)是根據貝葉斯網絡B計算得到的x為cj類的概率;λ(ci|cj)是x實際為cj而誤判為ci產生的損失。
c)比較R(ci|x)(i=1,…,l),選擇R(ci|x)值最小的ci作為x對應的類。
5 實驗
5.1 數據集
本文以德國和澳大利亞信用數據[14]為例進行了實證研究。其中德國信用數據記錄1 000條;定義了兩類人,第一類(good credit)樣本700個,第二類(bad credit)樣本300個,每個樣本有20個屬性(信用信息指標),詳細指標如表1所示。其中25811131617為定量屬性,其余的為定性屬性。澳大利亞信用數據與德國信用數據相似,但兩類人的數量相對比較均衡,第一類為307,第二類為383。為了保護商業機密,公開的數據對屬性名和定性的屬性值作了符號代換,共有15個屬性。其中,定量屬性6個;定性屬性9個。下面的實驗對以上兩個數據集均采用德國信用數據中的成本矩陣,即λ11=λ22=0,λ12=1,λ21=5。
表1 屬性名稱
正如前文所述,GBN分類性能通常較差且在巨大的結構空間進行結構搜索本身就是NPcomplete問題,因此本文僅對NB與TAN進行實證研究。由于TAN不能處理連續屬性,采用了Fayyad等人[15]基于信息熵的離散化方法對連續變量進行了離散化處理;各類的先驗概率,即式(2)中的P(ci)按訓練樣本中的各類占訓練樣本總數的比例計。為了客觀地評價分類器的性能,最小化數據間相關性的影響,改進計算結果的可靠性,采用10層交叉驗證進行了計算。樣本按比例隨機分成10個等份,每次保留獨立的一份作為測試集,取其余的九份作為訓練集,輪換計算10次。每次的測試集均不相同,分別采用MPE和MOR進行了計算,用10次計算誤分率的平均值作為最終誤分率,結果如表2所示。表2中good和bad分別為第一類和第二類人的誤分率,overall為總誤分率,loss為分類錯誤產生的總損失。
表2 信用評估誤分率和總損失
分注:表中的數值是10層分層交叉驗證結果的平均值。總損失loss=N1×Pe1×λ21+N2×Pe2×λ12。其中:N1、Pe1為第一類人的總數和誤分率;N2、Pe2為第二類人的總數和誤分率。
從表2的結果來看,TAN和NB在這兩個數據集上各有優勢;同時從表2中可以看出,由于損失函數考慮了將第二類人誤分為第一類人的成本高于將第一類人誤分為第二類人的成本,λ21是λ12的5倍,按最小總風險準則分類時,NB和TAN在兩個數據集中表現為第二類人的誤分率均有明顯下降。在德國信用數據中NB的誤分率從0.486 7降至0.200,下降了58.91%,TAN從0.506 7降至0.240 0,下降了52.63%;在澳大利亞信用數據集中,NB從0.080 9降至0.065 3,下降了19.28%,TAN從0.133 2降至0.041 8,下降了68.62%,均取得了明顯效果,分類錯誤產生的總損失減少了。但應注意到這是以第一類人的誤分率提高為代價的。實際工作中,可以根據具體情況通過調節損失函數實現對兩類人誤分率的有效控制。另外,由于兩類人的數量在澳大利亞信用數據中相近,各種情況的總體分類精度要好于德國信用數據集。在選用數據集時應盡可能保證樣本對等,這樣有利于提高總體分類精度。
6 結束語
本文對貝葉斯最小錯誤率準則和最小風險準則以及貝葉斯網絡分類器進行了系統介紹,闡述了三種常用的貝葉斯網絡分類器的優缺點,并將貝葉斯網絡分類器與兩種不同的分類準則相結合應用于個人信用評估中,使用兩個真實的數據集進行劃分兩類的實證研究,對兩種準則產生的分類結果進行了對比。實驗結果表明,使用最小總風險準則的貝葉斯網絡分類器進行個人信用評估取得了較好的效果。由于貝葉斯網絡分類器作為概率型分類器,容易結合最小風險準則進行分類,可以實現對信用評估中風險的有效控制,便于銀行在個人信用評估中進行風險管理,是信用分類問題的理想選擇,在個人信用評價領域具有廣闊的應用前景。
此外,貝葉斯網絡分類器不但有嚴格的數學基礎,還具備完備的語義表達能力,可以充分結合專家知識和數據信息,具有同時處理定性屬性和定量屬性共同刻畫對象的能力,特別適用于解決復雜的商業問題。基于貝葉斯網絡的優良性能,拓展在其他管理領域的應用是進一步的研究方向。
參考文獻:
[1]THOMAS L C. A survey of credit and behavioural scoring: forecasting financial risk of lending to consumers[J]. International Journal of Forecasting, 2000,16(2):149172.
[2]FRIEDMAN N, GEIGER D, GOLDSZMIDT M. Bayesian network classifiers[J]. Machine Learning, 1997,29(23):131163.
[3]KANE M J, SAVAKIS A A. Bayesian network structure learning and inference in indoor vs. outdoor image classification[C]//Proc of the 17th International Conference on Pattern Recognition. Washington DC:IEEE Computer Society, 2004:479482.
[4]NG G, ONG K. Using a qualitative probabilistic networks to explain diagnostic reasoning in an expert system for chest pain diagnosis[J]. Computers in Cardiology, 2000,27:569573.
[5]SAHAMI M, DUMAIS S, HECKERMAN D, et al. A Bayesian approach to filtering junk email,WS9805[R]. Madison: AAAI, 1998.
[6]BAESENS B, VERSTRAETEN G, POEL D V, et al. Bayesian network classifiers for identifying the slope of the customer lifecycle of longlife customers[J]. European Journal of Operational Research, 2004,156(2):508523.
[7]CHICKERING D M, HECKERMAN D. A decision theoretic approach to targeted advertising, MSRTR200017[R].Redmond: Microsoft Research, 2000.
[8]DUDA R O, HART P E, STORK D G. Pattern classification[M]. 影印版. 北京: 中信出版社, 2003.
[9]HECKERMAN D, GEIGER D. Learning Bayesian networks:the combination of knowledge and statistical data, MSRTR9409[R].Redmond:Microsoft Research, 1994.
[10]NEAPOLITAN R E. Learning Bayesian networks[M]. New York: Prentice Hall, 2003.
[11]CHICKERING D M. Learning Bayesian network is NPcomplete[C]//FISHER D, LENZ H J. Proc of Learning from Data: Artificial Intelligence and Statistics V. London: Springer,1996:121130.
[12]GEIGER D. An entropybased learning algorithm of Bayesian conditional trees[C]//Proc of the 8th Annual Conference on Uncertainty Artificial Intelligence. San Francisco: Morgan Kaufmann Publisher, 1992:9297.
[13]CHOW C, LIU C. Approximating discrete probability distributions with dependence trees[J]. IEEE Trans on Information Theory, 1968,IT14(3): 462467.
[14]ASUNCION A, NEWMAN D J. UCI machine learning repository[EB/OL].(2007).http://www.ics.uci.edu/~mlearn/MLRepository. html.
[15]FAYYAD U M, IRANI K B. Multiinterval discretization of continuousvalued attributes for classification learning[C]//Proc of the 13th International Joint Conference on Artificial Intelligence. San Francisco: Morgan Kaufmann Publisher, 1993:10221027.