[摘要] 本文以對商業銀行信用卡歷史客戶數據為研究對象,介紹了數據挖掘方法中決策樹C4.5算法和關聯規則Apriori算法的應用,并通過weka軟件進行實證分析,從而為銀行信用卡客戶信用程度評定提供了決策支持。
[關鍵詞] 數據挖掘 決策樹 關聯規則
隨著我國信用卡業務的不斷發展,銀行信用卡業務中存有的大量的客戶信息已經構成了一個信息數據庫,分析這些數據也不再是單純為了研究的需要,更主要是為銀行決策提供真正有價值的信息。信用卡額度的大小依賴于客戶信用程度的高低,信用程度是依據申請人申請信用卡時所填寫的資料和提供的相關證明文件綜合評定核給的。銀行對申請人的信用程度進行評定審核時,會考慮年齡、職業、存款、資產和住房等各種因素,并對每一項都按照一定的標準予以考核,銀行在評估這些因素及相應風險以后就可以決定申請人的信用卡額度大小。
一、分類和決策樹方法中的C4.5算法
1.基本概念
數據挖掘中分類的概念是在已有數據的基礎上學會一個分類函數或構造出一個分類模型, 即所說的分類器(classifier)。該函數或模型能夠把數據庫中的數據記錄映射到給定類別中的某一個,從而用于預測。
決策樹是利用一系列規則構建一棵樹,它可高度自動化地建立起易于為用戶所理解的模型,并且具有較好地處理缺省數據及帶有噪聲數據等能力。
不確定性的最佳評估方法是平均信息量,即信息熵(Entropy):
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文