摘要:客戶分類管理,對于銀行有效地實施客戶關系管理具有重要意義。由于目前分類準確度存在問題,如何有效地對客戶進行分類預測就成了十分重要并亟待解決的課題。本文以銀行豐富的客戶基本信息以及交易行為為對象,建立客戶分類預測模型,改進單一或簡單組合分類器模型,提出一種基于SOM聚類和決策樹的組合分類器方法,建立了客戶分類預測模型并對模型進行優化,并探討該模型的實際應用。
關鍵詞:客戶關系管理;客戶分類;SOM;決策樹;組合分類器
一、 研究方法概述
本文采用數據挖掘技術對重慶某銀行客戶信息進行分析,采用SOM聚類方法對該銀行已出現過風險的客戶進行基于風險程度的聚類,將客戶分為中風險客戶和高風險客戶,而未出險風險的客戶設為低風險客戶。通過決策樹分類器方法對三種風險客戶建立分類預測模型,得出對該銀行客戶風險分類預測效果較好的分類模型,以便及時有效的發現低風險和高風險客戶,并對不同風險客戶采取相關管理措施,以指導該銀行的客戶關系管理。
分類器技術是模式識別及機器學習的重要研究領域。通過研究發現,某些模式識別問題,通常有多個特征可用于表征和識別模式,如果特征之間的差異太大,則難以將它們集中到單一分類器中進行決策。有效融合SOM與決策樹分類的優勢,是本文在技術改進方面研究的側重點。
1. 數據模型。數據模型是對客戶風險聚類和建立客戶風險分類預測的數據挖掘模型的前提和條件。
聚類數據模型主要屬性包括客戶代碼(ID)、第一、二、三、四季度收益(C1,C2,C3,C4)及一年的收益(all),屬性類型均為interval。
分類數據模型主要屬性(及屬性類型)為客戶ID(Nominal)、性別(Binary)、年齡(Interval),以及年初余額、各季度筆數POS消費、金額POS消費、筆數柜臺存款(均為Interval),和風險客戶分組group1、group2、 group3(Binary)等。
2. SOM。SOM網絡算法是一種聚類算法,它能根據其學習規則對輸入的模式進行自動分類,即在無監督的情況下,對輸入模式進行自組織學習,通過反復地調整連接權重系數,最終使得這些系數反映出輸入樣本之間地相互關系,并在競爭層將分類結果表示出來。因此,SOM神經網絡在結構上模擬了大腦皮層中神經元是二維空間點陣的結構,并在功能上通過網絡中神經元間的相互作用和相互競爭,模擬了大腦信息處理的聚類功能、自組織和學習功能。該算法被廣泛應用于各種模式識別和分類問題中。其聚類效果評估如下:
簇內部指標的有效性的度量都基于簇凝聚度和簇離散度。而簇的凝聚度通常以誤差平方和SSE來度量;簇離散度通常以總組間變差SSB來度量。相應公式如下:
其中ci表示簇Ci的質心;c表示總體質心;mi表示簇 Ci中有mi個個體。
3. 決策樹。決策樹方法是較為常用的分類方法,它的預測效果較好且以樹形結構表示,樹的節點處給出對結果預測起較為重要作用的屬性,結果形象直觀,便于獲得更多的挖掘信息以及應用。C4.5方法是在國際上影響較大的決策樹方法。因此本文采用C4.5決策樹方法,對客戶建立價值預測分類模型。
決策樹C4.5算法采用信息增益率(Gain Ratio)作為決策樹模型中的屬性選擇的測試條件,可有效避免傳統方法中熵和Gini指標可能產生大量輸出的測試條件的情況,提高模型的性能。研究中采用后剪枝方法,在該方法中,初始決策樹按照最大規模生長,然后進行剪枝的步驟,按照自底而上的方式修剪完全增長的決策樹。當模型不能再改進時終止剪枝步驟。分類效果評估如表1所示,顯示了混總分類模型正確和不正確預測的實例數目的混淆矩陣。
(1)對整個模型來說正確率和錯誤率為主要評估指標:
正確率Accuracy=(TP+TN)/(TP+TN+FN+FP)
錯誤率Error rate=( FN+FP)/(TP+TN+FN+FP)
(2)對于更為重視類別,在混淆矩陣中主要有以下幾種指標:
真正率(True Positive Rate,TPR)或靈敏度(Sensitivity)定義為被模型正確預測的正樣本的比例,即:TPR=TP/(TP+FN)
假負率(False Negative Rate,FNR)定義為被預測為負的正樣本比例,即:FNR=FN/(TP+FN)
召回率(Recall)是一個廣泛適用的度量,用于成功預測一個類比預測其他類更重要的應用。具體公式如下:r= TP/(TP+FN)
以上公式同樣可以推廣到3類以上的模型評估。
二、 案例分析
1. 客戶數據。本文以XX銀行重慶分行為例,從XX銀行重慶分行數據庫中隨機抽取2007年1月至12月重慶地區部分客戶的數據。原始數據包含了6 079個客戶約600 000條交易記錄。
2. 數據預處理。將樣本數據中的空缺值以0來填充,并且將同一客戶的交易記錄匯總,最后每個客戶在銀行的不同活動(如:POS消費、網上消費)的交易記錄在一個月中只出現一次。
計算客戶每個季度以及一年的利潤,同時將收益屬性視為相同,將其歸一化。得到聚類分析的數據模型。
將每個季度中的相同屬性值合并,形成以季度為單位數據值。同時采用1-1類標號處理方法對原始數據中的三個類別進行類標號處理。得到分類預測的數據模型。
3. 聚類分析。
(1)研究思路。首先基于聚類數據模型,進行第一次聚類分析。因為本研究主要目的要正確鑒定銀行中的三類客戶,即低價值客戶、一般價值客戶和高價值客戶。為了在客戶分類上盡量少的將部分價值相對高的客戶歸為價值相對低的一類,研究中在第一次聚類中選擇了四類,以便根據結果合理的進行價值歸類。然后在第一次聚類結果中發現,第二、三、四類客戶的價值遠大于第一類客戶,但是在數量上卻遠少于第一類,綜合考慮下,將第一類客戶進行再次聚類分析,從中找出價值相對高一點的一般價值客戶,為銀行盡量多的找到有價值客戶。而同樣為了在客戶分類上盡量少的將部分價值相對高的客戶歸為價值相對低的一類,研究中在第二次聚類中選擇了三類,以便根據結果合理的進行價值歸類。最后通過對兩次聚類結果的綜合分析,得出銀行客戶的最終類別。
(2)聚類模型結果評估。在SAS Enterprise Miner中,建立“SEMMA”分析流程圖,模型輸出第一次和第二次聚類結果,評估如下:
第一次聚類結果的統計,得出4個簇的誤差平方和:
3個簇的總SSB的值相對組內誤差平方和值較大,說明簇與簇之間的分離性較好。
綜合3個類的誤差平方和SSE和總組間變差SSB評價指標,可以判定該聚類模型效果較好。
4. 客戶類別。基于第一次聚類結果,在聚類結果的利潤標準化均值中二、三、四類客戶給銀行帶來的利潤標準化均值遠遠大于總平均值,故將其歸為同一類。綜合三類客戶四個季度及一年總利潤的標準化均值分別為:0.065 028、0.036 970 89、0.037 092、0.040 28、0.110 159。同樣從第二次聚類結果三類客戶的利潤標準化均值中可以看到,第一類客戶的價值遠小于客戶的此類客戶總體平均價值,而第二、三類客戶的標準化平均價值卻遠高于此類客戶總體標準化平均價值,故將此兩類歸為同一類。綜合第二次聚類結果中的第二、第三類客戶四個季度及一年總利潤的標準化平均值分別為:0.008 663、0.004 690 9、0.005 585、0.007 153、0.016 079。而第二次聚類結果中的第一類客戶四個季度及一年總利潤的標準化平均值分別為:0.001 170 961、0.000 594、0.000 809、0.000 975、0.002 186。整個樣本數據中的客戶四個季度及一年總利潤的標準化平均值分別為:0.007 991、0.004 437、0.004 811、0.005 555 5、0.014 016。
基于兩次聚類結果的綜合分析,將所有客戶分成三類:第一次聚類中的第二、三、四類客戶為高價值(第3類)客戶,共475位;第二聚類結果中的第二、三類客戶為一般價值(第2類)客戶,共1 485位;第二次聚類結果中的第一類客戶為低價值(第1類)客戶,共4 119位,都可通過代碼標記。
5. 分類模型分析。
(1)分析思路。研究中分類模型中的目標變量共有三類,即屬于多目標分類模型。而決策樹分類模型以兩個目標變量的分類為基礎,兩個目標變量的分類模型相對與多目標的分類模型準確率有較大提高,因此本研究采用二叉決策樹組合分類器方法得出最終分類預測模型,研究中在基于聚類結果和分類數據模型的基礎上,在SAS Enterp-rise Miner平臺中采用決策樹C4.5算法,對銀行客戶建立分類預測模型,并通過混淆矩陣對模型進行相關評估。本文用樣本數據中的60%用來做分類模型,40%用來做測試值,建立客戶分類預測模型。在建模過程中,以相同的4 079客戶數據建立模型,以剩下的2 000個客戶數據作為測試數據,來評估分類器的預測效果。
(2)決策樹模型。單個分類器的決策樹模型的輸出結果,如圖1、圖2、圖3所示。
6. 模型評估。本文采用測試數據建立混淆矩陣確定模型的總體正確率和錯誤率以及對三類價值客戶的真正率、假負率、召回率等指標。通過模型的總體正確率以及對三類價值客戶的真正率、假負率、召回率等指標對客戶價值分類預測模型進行評估。
(1)單個分類器的預測結果。組合分類器的三次分類預測結果(見表2)所示。
(2)投標轉換。類標號投票及轉換結果(見表3)。
(3)模型評估。在SAS軟件中沒有給出組合分類器的混淆矩陣,因此本文在評估組合分類器時通過預測值與實際值相比較的方法,經過統計得出組合分類器的混淆矩陣,從而通過所得混淆矩陣對組合分類器的結果進行評估。
客戶分類預測結果與真實結果的比較,數值有一定的出入。通過預測值和實際值的對比,得出組合分類器模型的混淆矩陣,如表4所示。
從混淆矩陣中得出各種評價指標如下所示。
對整個模型:
正確率Accuracy=131+228+1 394/2 000=87.65%
錯誤率Error rate=1-87.65%=12.35%
對第3類客戶:
真正率TPR=131/165=79.4%
真負率TNR=228+1 394/389+1 446=88.4%
假正率FPR=1-88.4=11.6%
假負率FNR=1-79.4=20.6%
精度P=131/131+26+16=75.7%
召回率R=131/165=79.4%
從以上評價指標可以看出,該模型的預測效果較好,可以接受此模型。
三、 模型的應用
應用該模型可以對銀行現有客戶進行科學、準確、快速的分類預測,同時可以對將來的新客戶進行及時分類,確定銀行的客戶類別,以便銀行對所有客戶采取有效的管理措施,最大可能降低銀行的風險,進而提高銀行的收益。同時通過該模型還可以看出與銀行客戶價值聯系較為緊密的客戶屬性有哪些,同時以細分市場理論為指導,通過不同的物理渠道、不同產品組合和不同的人力資源配備來分層次對低價值客戶、一般價值客戶、高價值客戶進行差別化服務。如從該模型中可以看出:客戶年初余額、第四季度柜臺存款金額、第一季度柜臺存款金額、第三季度柜臺存款金額屬性與銀行客戶價值相關聯較大。
四、 結論
第一,數據挖掘技術在銀行業中被越來越多的應用,成為各銀行進行有效管理,降低銀行成本提高競爭力的重要工具。
第二,改進了組合分類器的簡單組合模式,該組合分類器具有良好的組合分類效果,提高了分類預測結果的準確度。
第三,采用了聚類與分類相結合的組合分類器建立客戶分類預測模型,研究探討了使用數據挖掘方法建立基于客戶價值的銀行客戶分類模型的可行性。
第四,研究為銀行業在客戶關系管理方面提供了一個科學有效的分析思路與框架。
參考文獻:
1. 范瑩,計華,張化祥.一種新的基于模糊聚類的組合分類器算法.計算機應用,2008,28(5): 1204-1207.
2. 張乃堯,閻平凡. 神經網絡與模糊控制. 北京;清華大學出版社, 1998.
3. Haykin. Neural network - Aeom Prehensive foun- dation. Zed Edition. Beijing: Tsinghua University Press, 2001.
4. Pang-Ning Tan, Michael Steinbach, Vipin Kumar. 范明,范宏建等譯. 數據挖掘導論.北京: 人民郵電出版社, 2006.
5. 范明,孟小峰譯. 數據挖掘——概念與技術. 北京: 機械工業出版社, 2001.
6. 史忠植. 知識發現. 北京: 清華大學出版社, 2002.
基金項目:重慶市自然科學基金項目(csct,2008BB2 041);重慶市哲學社會科學規劃項目(2008-zh11)。
作者簡介:李勇,博士,重慶大學經濟與工商管理學院副教授、碩士生導師;許曉曉,重慶大學經濟與工商管理學院碩士生;趙金濤,重慶金科房地產開發有限公司總經理助理。
收稿日期:2009-12-12。