[摘 要]本文以銀行信用風險管理為例,將粗糙集和決策樹兩種具有互補優勢的數據挖掘方法相結合,對客戶信用做出歸類分析判斷,最后利用決策樹生成決策規則。實踐證明,這種方法忠于原始數據,提高了分類準確度,減小了決策樹規模,具有良好的性能。
[關鍵詞]粗糙集;決策樹法;銀行信用風險
doi:10.3969/j.issn.1673-0194.2009.15.033
[中圖分類號]F830.51[文獻標識碼]A[文章編號]1673-0194(2009)15-0108-04
1 引 言
近來,由美國引發的信貸危機表明,世界銀行業對信用風險管理環節還缺乏較為有效的測量和評估手段。面對海量銀行客戶數據,如何從中發現有價值的信息或知識,成為一項重要的任務。數據挖掘作為一種潛在的、功能強大的新技術,能夠幫助銀行在大量的、隱含的、事先未知的數據中找到重要的和有價值的信息,使銀行信貸活動具有前瞻性,有助于銀行做出基于客戶信息的決策。
被廣泛應用于信用風險研究的模型主要有數值統計模型和人工智能模型兩類[1] 。傳統的統計模型有多元判別分析、logistic回歸分析等。20世紀80年代以來,人工智能得到了大力的發展,專家系統、神經網絡、SVM等人工智能技術被引入信用風險評估中,克服了統計方法對假設要求嚴格的缺點。但是這些新方法又各有不足,神經網絡法的網絡結構難以確定,訓練時容易陷入局部極值,訓練效率不高;SVM要求在機器學習過程中正反兩類樣本數據的數量盡量接近,這和信用風險的實際情況不相符,會有一定的主觀性和局限性。針對這些缺點,本文提出使用數據挖掘中最為成熟并被廣泛使用的決策樹理論算法建立模型,使用粗糙集對數據進行預處理,經過實證分析,取得了較好的效果。
2 粗糙集計算方法和決策樹方法概述
2.1 粗糙集計算方法
對于信息系統S={U,A=C∪D,V,f},其中,U為有限對象集合,即論域;C為條件屬性集合, D為決策屬性集合,且滿足C∩D=,則稱S為決策系統;V為C和D的值域;函數f(x,q)∈Vq,q∈A,x∈U。這樣U中的每一個對象x都可以用一個基于屬性值A的矢量表示,而屬性值A表明對象x可以獲得的知識信息。在一個決策系統中,各個條件屬性之間往往存在著某種程度上的依賴和分類,約簡可理解為在不丟失信息的前提下,以最簡單地表示決策系統的決策屬性對條件屬性集合的依賴和分類[2]。
設P和Q為U中的等價關系(IND(P)),Q的P正域記為POSp(Q),即POSp(Q)=UPX,x∈U/Q, Q的正域是U中所有根據分類U/P的信息,可以準確地劃分到關系Q的等價類中去的對象的集合。C1稱為C相對于決策屬性集D的約簡,即C的D約簡,如果滿足:
C1C, C1≠;
POSIND(C1)(IND(D))=POSIND(C)(IND(D));
不存在C2C1,使POSIND(C2)(IND(D))=POSIND(C1)(IND(D)) ,
則 C的所有D約簡的集合記為REDD(C),C的所有D約簡的交集稱為核,即CORED(C)=∩REDD(C),可以利用C相對于D的任一約簡來代替C,而不會對決策有任何影響,這就是粗糙集屬性約簡的原理。
2.2 決策樹方法
作為數據挖掘中核心算法之一,決策樹算法通常被用于從海量數據中挖掘出有效的、正確的且可理解的信息。決策樹的優點是不受原始數據的約束,可以是數值型的和非數值型的數據,因為有用戶界面,所以操作直觀,容易理解。構建決策樹的基礎算法為貪婪演算法,即在判斷屬性節點時,總是選取信息增益最高的屬性作為下一個節點并創建分支,由此得到的決策樹規模最小、外觀友好,適于規則的歸納掌握。
國際上最有影響和最早的決策樹方法是J . R. Quinlan 提出的ID3 方法, 它計算信息增益的方式以熵值為基礎,設屬性A 具ν個不同值{a1,a2,…,aj,…,aν},可以用屬性A將S劃分為ν個子集{s1,s2,…,sj,…,sν},其中Sj包括S中這樣一些樣本,它們在A上具有值aj,如果A選作測試屬性,則這些子集對應于包括集合S的節點長出來的分枝。設si,j是子集Sj中類Ci的樣本數,由A劃分成子集的熵為:
E(A)=∑νi=1si,j+…+sm,jsI(si,j,…,sm,j)。
其中,si,j+…+sm,js為第j子集的權重。
E(A)值越小,子集純度越高。I(s1,j,s2,j,…,sm,j)=∑mi=jPi,jlog2(pi,j),其中,Pi,j=S1,j/|Sj|是Sj中的樣本屬于類Ci的概率,在A上分枝獲得的信息增益是:G(A)=I(s1,s2,…,sm)-E(A)。
由ID3算法可以知道,在決策樹構建過程中,G(A)是由于屬性A的值導致的信息增益的期望壓縮。利用算法計算每個屬性的信息增益,具有最高信息增益的屬性選作給定集合S的測試屬性,創建一個節點, 并以該屬性標記,對屬性的每個值創建分枝,并據此劃分樣本算法使用同樣的過程,遞歸形成每個劃分上的樣本判定樹,一旦一個屬性出現在一個節點上,就不必再考慮該屬性出現在此節點的任何后代上[3]。
3 基于粗糙集和決策樹的數據挖掘新方法
從以上分析中可以看出,粗糙集理論在處理大數據量,消除冗余信息等方面具有一定的優勢,因此廣泛應用于數據挖掘的數據預處理、屬性約簡等方面。但是,由于粗糙集理論的分類通常是確定的,且缺乏交互驗證功能,所以其結果往往不穩定,精度不高。決策樹是一種類似于流程圖的樹狀結構,這種方法具有速度快,易于轉換成簡單、便于理解的分類規則,易于轉換成數據庫查詢語言等優點。然而,當數據集中的屬性過多時,用決策樹分類易出現結構性差,難以發現一些本來可以找到的、有用的規則信息等情況[4-5]。由于粗糙集和決策樹具有很強的優勢互補性,因此,如果將兩種方法有機結合,即采用粗糙集進行數據約簡,去除冗余屬性,然后利用決策樹方法來產生分類規則,則有可能形成新的有效分類方法。具體構造方法如下:
設決策表由決策屬性Q 和條件屬性CR,在進行條件屬性集的選擇時,首先要進行數據預處理,刪除帶噪聲的數據,對缺省值進行補齊,并將數據值離散化。
(1) 進行屬性約簡,即刪除冗余屬性。
(2) 計算各條件屬性的等價劃分類, R′={a1,a2,…,an}為新的條件屬性集。
(3) 求核屬性,計算POSIND(R′)(|IND(Q)|),求出不可分辨關系。
(4) 選擇屬性作為決策樹的節點,從核屬性集合中取屬性A,計算POSIND(A)(IND(Q))。
(5)取POSIND(A)(IND(Q))|U|≥α,α為一預先給定的值,是啟發式條件。選擇滿足啟發式條件的條件屬性A1∩A2∩…∩An作為決策樹的根節點或子節點。
(6) 建立節點R′的后繼節點。
(7) 對所有后繼節點,若為葉節點,停止擴展此節點;否則遞歸執行(1)~(6) 。
4 基于粗糙集和決策樹的數據挖掘方法在銀行信用風險評估中的應用
目前我國銀行信貸風險問題主要有:①不良貸款持續新增,比率居高不下;②社會信用環境亟待改善;③貸款違約率高,違約回收率低,信用損失大等。這些風險的存在將導致我國銀行信貸業務處于惡性循環的狀態之中,因此采用良好的客戶信譽管理手段,尋求一種較優的銀行信用管理方法是降低銀行和客戶損失的一種保障。下面將以某銀行個人貸款客戶信用評估數據庫為例,運用基于粗糙集和決策樹的數據挖掘方法對其進行風險評估分析。
4.1 數據轉換和預處理
以銀行個人住房貸款為例,銀行個人住房貸款客戶信用評估指標體系分為若干項,經研究身份證號X1 ,年齡X2,學歷X3 ,還貸收入比X4 ,單位效益情況X5, 房貸收入比X6,保險情況X7,贍養情況X8共8個項目作為主要評價依據(見表1)。現隨機抽取20 名客戶的信息進行訓練以生成決策樹。經過數據轉換和預處理,得到貸款客戶信用評估知識信息系統(見表2) 。
4.4 選擇決策樹的根節點和子節點
計算POSIND(A)(IDN(Q))|U|。根據熵值選取啟發因子α,挑選滿足POSIND(A)(IDN(Q))|U|≥α的屬性,作為信息增益最大的屬性節點。故選作X4和X6的合取作根節點,所得信息增益值最大,得到多屬性決策樹,如圖1所示。
4.5 規則知識描述
當X4∧X6=11時,評估等級一定為高;當X4∧X6
=33時評估等級為差;X4∧X6=22或23時評估等級為中。該決策樹完全概括了客戶的信用等級的20個記錄。規則知識描述如下:凡是還貸收入比和房價收入比低的客戶,其綜合信用評估等級高。
5 結束語
決策樹是常用的分類和預測工具,但在應用中存在著屬性的描述語言不當、噪聲數據的存在以及在構建的決策樹中存在著結構完全相同的重復子樹等問題,這將會導致決策樹過大,使用戶難以理解。采用粗糙集理論的啟發式算法,可以對決策樹進行優化,有效地降低了算法的復雜度,降低了樹的高度,提高了搜索的效率。通過在銀行信用風險分析中應用不難發現,將粗糙集和決策樹結合應用,在客戶信用評價中具有一定的優勢。
主要參考文獻
[1] 趙靜嫻,杜子平. 基于神經網絡和決策樹相結合的信用風險評估模型研究[J].北京理工大學學報,2009,11(1):76-79.
[2] 溫坤禮. 粗糙集入門與應用[M]. 臺北:五南圖書出版公司, 2008.
[3] 曾憲雄.資料探勘[M]. 臺北:旗標出版股份有限公司,2005.
[4] Yi Jiang, Xiyue Zhou, Defu Zhang. A New Approach Based on a Rough Set and a Decision Tree to Bank Customer Credit Evaluation[C]. Proceedings of 2008 IEEE International Symposium on IT in Medicine and Education, 2008:61-65.
[5] 趙衛東,盛昭瀚,何建敏. 粗糙集在決策樹生成中的應用[J]. 東南大學學報:自然科學版,2000(7).
A New Method for Estimating Bank Credit Risk
YAN Yan1,2, CHEN Rung-Ching2
(1.School of Economics and Management, University of Science and Technology Beijing, Beijing 100083;2.Department of Information Management, Chaoyang University of Technology, Taiwan 41349)
Abstract: Stating from the complement between rough sets and decision tree classification algorithm, it proposes a new method of data mining based on rough sets and decision tree classification algorithm, and applies it in the estimating of bank credit risk. Practice has proved that this new method of date mining retains the internal features of the original data, speeds up the process of access to knowledge, improves the classification accuracy rate, enhances the interpretability of the rules, and achieves satisfactory results.
Key words: Rough Sets; Decision Tree Classification Algorithm;Bank Credit Risk