王夢菊 胡曉旭
摘要:組合數據挖掘技術正在成為研究的一個熱點。組合方法是信用評估的一種新趨勢,目標是提高模型的分類準確性。因此,介紹了信用評估的概念、信用評估指標體系建立的原則,以及常用信用評估方法的比較。最后,對目前信用評估模型中的組合方法進行了比較分析,為以何種角度構建組合信用評估模型提供了思路。
關鍵詞:信用評估;數據挖掘;組合算法
中圖分類:TP311.13文獻標識碼:A文章編號:1673-291X(2012)23-0129-02
一、信用評估的定義
信用評估是統計學和運籌學在金融和銀行業中最成功的應用之一,也是最早開發的金融風險管理工具之一。信用評估通常定義為一種用于預測貸款申請者或現存借款人將發生違約或拖欠概率的統計或定量方法,廣泛應用于消費信貸到商業貸款的各類信用分析中。信用評估的本質是模式識別——將企業或個體消費者按照其歷史資料和相應的數據劃分為履約(即“好”客戶)和違約(即“壞”客戶)兩類。各種信用評估方法的思路在本質上是相同的,即運用數據挖掘技術、統計學和運籌學等方法,通過對消費者基本特征、信用記錄、行為記錄等大量數據進行系統的分析,挖掘數據中蘊含的行為模式、信用特征,獲取歷史信息和未來信用表現之間的關系,發展出預測性的模型,來綜合評估消費者未來的某種信用表現即事先確認某些決定違約(與償還款項相反的行為)概率的關鍵因素,然后將它們加以聯合考慮或加權計算出一個數量化的分數。根據分數或一個關鍵點把潛在的客戶分成“好”客戶與“壞”客戶兩組,用于是否貸款的決策審批。信用評估成為是否發放貸款、貸款額度、產品定價、以及提高放貸機構贏利性和操作戰略的決策支持工具。
二、信用評估指標體系建立的原則
評估指標體系的選擇己經成為信用評級工作的首要問題,它關系著評估工作的成敗。尋找一種較為科學的指標選取的方法是信用評估研究和探索的重點之一。為使指標的選取更為客觀、可信,待選指標體系的確定必須在正確的指導原則下進行,本文歸納如下。
1.準確性原則。指標的選擇、數據的選取、計算必須以公認的科學理論為依據。
2.全面性原則.。指標體系要全面反映貸款申請人的各方面特征,在考核過去表現的同時,更要預測未來的發展趨勢,既要考慮評估對象的情況,還要研究社會經濟環境及其發展的影響。信用風險的評估要覆蓋貸款業務的每個行業及行業內的每一筆貸款業務。
3.可操作性原則。要求指標體系的設置避免過于繁瑣,同時還要考慮指標體系所涉及指標的量化及數據獲取的難易程度和可靠性。
4.獨立性原則。確定評估指標在考慮全面性的基礎上,要使采用的指標盡可能相互獨立,指標間的獨立性越好,評估的準確性越高。
5.可量化原則。為了克服主觀評價所帶來的不確定性和盲目性,評價要盡量做到以量化研究為主,同時定性評價與定量評估相結合。
6.靈活性原則。評價指標體系應具有足夠的靈活性,以便各銀行可根據自己的放貸方式和用途以及本地區的實際情況,對指標靈活進行運用。
7.公正性原則。信用評估指標體系的建立,要符合客觀事實,能正確反映評估對象信用等級的真實面貌,指標體系和計算方法不能偏向評估對象或授信方的任何一方,評估機構和評估人員不能根據個人愛好,任意改變指標項目,計算方法和評估標準。
8.動態性原則。信用風險的評估不是簡單靜態的一次度量,而是連續動態的調整過程,因為隨著貸款企業在生產環節中的每個過程都在動態發生變化,企業的經營成果也隨著發生改變,變化中的財務和非財務數據就直接地影響到信用風險評估結果。因此,信用風險的評估是要不斷地進行調整的,基于國內銀行和企業的財務制度,建議一個季度進行動態調整一次。
三、基于數據挖掘技術的信用評估算法
David Durand(1941)從Fisher的一項試驗中獲得啟示,意識到可以采用把整個客戶群分為好與壞兩種不同類別的方式來處理放貸問題。在隨后的發展和演變過程中,個人信用評始終被看做是一個分類問題。到目前為止,主要的評估方法大致可以分為以下幾類:經驗式評判法、統計學方法、運籌學方法以及人工智能方法中的數據挖掘技術。
信用評估的本質是分類,因此,信用評估是數據挖掘技術非常重要的一個應用領域。數據挖掘從大量數據中提取或“挖掘”知識,用于信用評估,可對客戶進行分類、聚類、關聯規則發現、預測、偏差檢測等;其中,多數用分類、關聯規則發現和預測方法進行個人信用評估。目前,用于信用評估的分類算法主要包括判別分析、Logisitic回歸、決策樹、線性規劃、神經網絡、遺傳算法、支持向量機等算法。
1.判別分析。是一種信用評估中使用最早的算法,其本質是一種線性回歸,它通過對己知客戶進行分類形成若干母體,然后根據這些母體的特征得出判別函數來判斷對象屬于哪個母體。由于判別分析的假定條件過于嚴格如要求解釋變量呈多元正態分布,如果客戶樣本存在一定偏差性,則不是很適合使用該算法進行信用評估。
2.Logisitic回歸。是線性回歸的變形,通過采用極大似然估計的迭代方法,找到“最可能”系數的估計,適用于解釋變量為定性指標的問題。該算法不受解釋變量分布假設的嚴格限制是其優于判別分析之處,但評分的結果和判別分析的差別并不大。
3.線性規劃。線性規劃是一種運籌學的方法,采用最小絕對誤差或最小化最大誤差作為目標對客戶進行分類。但許多學者通過研究比較之后認為該方法在信用評分領域的效果并不比統計方法優越,所以線性規劃的實際應用并不多。
4.K近鄰判別。K近鄰判別是一種非參數統計方法,Chatterje等把這種方法引入信用評分領域,在申請者數據上選取一個矩陣來測量申請者的信用差距,其常用來解決概率密度函數的估計和分類問題,在應用中不受樣本偏差的限制,但模型參數的選擇有很大隨機性,在信用評估中應用較少。
5.決策樹法。是20世紀80 年代末提出的一種利用機器學習技術發展起來的符號方法,是一種非參數統計方法。決策樹是一個類似流程圖的樹型結構,其中樹的每個內部結點代表對一個屬性(取值)的測試,其分支就代表測試的輸出結果;這樣,樹的每個葉結點就代表一個類別。從決策樹的根結點到葉結點的一條路徑就形成了對相應對象的類別預測。決策樹可以很容易轉換為分類規則?;緵Q策樹算法是一個貪心算法,采用自上而下、分而治之的遞歸方式來構造。構造決策樹的經典算法有 ID3、C4.5。