吳虹穎, 鄭山紅, 蘇 珂
(長春工業大學 計算機科學與工程學院, 吉林 長春 130012)
近年來,精準營銷理念越來越受到公眾的關注。如何利用好現有數據挖掘出客戶的潛在需求,并以正確的方式將其推送給正確的人,已成為影響銀行發展的戰略性問題[1]。
現階段,客戶分類問題結合數據挖掘方法尤為普遍,常見的算法如K-means、決策樹以及SOM神經網絡等。鄭焱[2]利用決策樹算法對商務網站的客戶分類,但這種算法過程過于冗余;任昌濤[3]、張祿等[4]利用 K-Means 方法建立客戶細分模型對客戶進行細分;陳倩舒[5]、包志強等[6]構建RFM模型,用層次分析法確定指標權重,再用K-means算法對客戶進行分類。但上述方法中K-means聚類容易陷入局部最優,需要人為確定K值,K值將直接影響聚類結果。王珺等[7]建立銀行信貸資源動態分配優化模型,對影響銀行最優放貸量的重要參數進行分析;胥學峰等[8]用PCA將指標降維,再用SOM神經網絡對房地產客戶價值進行細分;孫銘[9]采用SOM算法對天然氣生產企業用氣客戶進行實證分析,但是傳統的SOM神經網絡其學習速率難以判斷。
文中在傳統SOM基礎上對學習速度進行改進,動態設置模型學習速度,在保證模型穩定性的同時,提高收斂速度。并將改進后的SOM與快速K中心點算法進行組合,提出一種適用于對大量銀行客戶進行快速聚類的SOM-Kmedoid-CH聚類算法。該算法利用SOM神經網絡的輸出表征輸入模式的特點,結合快速K中心點對噪聲數據敏感性小且時間復雜度低的特性,先用SOM對數據量大、特征多的銀行客戶數據進行訓練,再用快速K中心點算法對SOM輸出的原型向量聚類,同時用CH指標判定最優聚類個數,以克服上述研究的不足,實現對大量銀行客戶進行快速有效細分。
客戶細分的主要思路是找出具有相似行為、價值特征的客戶群[10]。通過對銀行客戶進行深度細分,可以了解銀行不同客戶的消費特點,從而識別價值客戶,然后針對不同類型的客戶提供差異化服務,提高服務水平,爭取更好的客戶資源。文中在SOM-Kmedoid-CH算法聚類結果基礎上,基于客戶價值[11]對銀行客戶進行二次分類,依據客戶的當前價值和潛在價值兩個維度來劃分,每個維度分為兩個檔,將銀行客戶分為重點客戶、發展客戶、普通客戶和不穩定客戶4類,客戶價值矩陣如圖1所示。
自組織神經網絡(Self-Organizing Maps, SOM)是一種無監督神經網絡,由Kohonen T[12]提出。它同時具備矢量量化功能和矢量投影功能,能夠對樣本進行自動聚類。SOM神經網絡結構如圖2所示。

圖1 客戶價值矩陣

圖2 SOM神經網絡結構
該網絡結構只有兩層,分別是輸入層和輸出層(競爭層)。第一層是輸入層,負責數據的輸入,第二層是輸出層也是競爭層,排列方式為二維節點矩陣,輸入節點處于其下方。
SOM由排列在低維空間(稱為輸出層)的m個神經元(結點)組成,每個神經元用一個d維權向量Wi=(Wi1,Wi2,…,Wid)表征(d代表輸入數據的維度),該權向量被稱為原型向量。SOM使用連續迭代的無監督學習對輸入數據進行訓練,目的是為了將輸入數據映射到與其相似度最高的原型向量表示的結點中,并保持其拓撲結構不變,適用于樣本量大的數據。但SOM神經網絡輸出的聚類結果不確定,學習效率受到網絡連接權重和學習速率等影響,“噪聲”數據也會影響聚類效果[12]。
針對傳統SOM學習效率易受到學習速率影響問題,文中將學習速率設置為關于時間t的單調遞減函數,這樣能保證在訓練剛開始時以較快的速度對模型進行學習,在訓練即將結束時,學習速率趨近于0,保證模型訓練的穩定性。學習速率為

(1)
式中:λ(0)----模型初始學習速度;
T----學習步長。
該方法能夠在提高SOM學習速度的同時,保證訓練過程收斂的必然性,以及SOM神經網絡的穩定性。
細分技術未來的發展趨勢是將不同算法的優點進行結合[13],所以將改進的SOM算法和快速K中心點算法結合,并用CH指標自動判定最佳聚類個數,提出改進的SOM-Kmedoid-CH混合聚類算法??焖貹中心點算法克服了K-means算法對孤立點和噪聲數據敏感的問題,以及PAM時間復雜度高、計算代價大的問題。Calinski-Harabaz(CH)指標是常用的聚類效度指標[14],CH值最大的所對應的聚類個數即為最優聚類數目。SOM-Kmedoid-CH混合聚類算法在快速學習和穩定性的要求中取得了平衡,解決了傳統SOM算法在學習速度上的問題,還可以有效解決噪聲數據影響聚類效果問題,同時減少人為確定聚類個數的盲目性和主觀性。其次,在快速K中心點以設定聚類數目的范圍[Kmin,Kmax]代替直接指定最終聚類數,使細分結果有意義。
SOM-Kmedoid-CH聚類算法可以分為兩個步驟:
1)一次聚類。對大量原始數據使用改進的SOM先進行“粗聚類”,得到數據量遠小于輸入數據量的原型向量;
2)二次聚類。再用快速K中心點對這些原型向量進行正式聚類,同時使用CH指標自動判別最優聚類數目,以保證聚類效果。
算法流程如圖3所示。

圖3 SOM-Kmedoid-CH算法流程
采用UCI中不同規模的數據集對SOM-Kmedoid-CH改進聚類算法進行性能測試,測試結果見表1。
在不同數據量的測試數據集上,改進的SOM-Kmedoid-CH算法具有最高正確率,并能準確判斷最佳個數;在運行時間上,由于SOM-Kmedoid-CH和SOM-Kmeans-CH需要先構建SOM網絡并訓練,所以處理小樣本時K-means算法效率最高。當樣本量增大時,SOM-Kmeans-CH算法運行時間最短,但比SOM-Kmedoid-CH并沒有顯著優勢。綜合考慮運行時間、分類正確率和CH指標有效性三方面可知,改進的SOM-Kmedoid-CH算法優于傳統聚類算法。

表1 UCI數據集測試結果
文中選取的數據是Kaggle官網Standard銀行客戶數據中fecha_alta屬性為2014年的119 783個客戶數據,包括用戶的個人基本信息和產品歷史購買記錄等共48個屬性。文中刪除了對此次聚類意義不大的屬性,最終選取14個屬性指標,見表2。

表2 客戶指標
為防止數據出現不一致性,文中按照指標的實際意義對全部客戶的部分指標數據進行量化,使量化值準確反映指標內容。具體指標量化情況見表3。

表3 指標量化
為消除數據間由于量綱不同對聚類結果產生的影響,對原始數據進行MIN-MAX標準化處理。
使用改進SOM-Kmedoid-CH混合聚類算法對經過預處理的銀行客戶數據進行聚類,第一次聚類時,SOM網絡結點數為150,按照[15×10]矩陣排列,迭代周期T=400;第二次聚類時,將最終簇數目的區間范圍指定為[4,15]。最大的CH值對應的最佳聚類個數為8。所以通過SOM-Kmedoid-CH聚類方法將銀行客戶分成8類,每類的樣本量以及中心點分布見表4。
第1列為類編號,第2列為每類包含的客戶數量,其他各列對應各類的中心點在各細分變量的取值和占比。
通過表4可以看到,數據樣本被分成8類。為使銀行能夠更直觀地觀察每類客戶的特征,從而為之提供差異化服務,現將聚類結果參照巴雷托分析法[15]與客戶價值矩陣進行進一步分類,最終將8類客戶群劃分為四大類,并為不同客戶群提供針對性的經營策略。具體分類如下:
Ⅰ類客戶:第5類和第6類為重點客戶,占比為11.5%。其表現為年紀偏大,活躍度高且收入高,VIP客戶相對較多,有較多的財富累積,較高的風險承擔能力。針對該類客戶群,銀行應該投入主要精力和資源,設計并實行個性化保持策略,進一步鞏固客戶粘性。

表4 各類樣本量及中心點分布
Ⅱ類客戶:第1類為發展客戶,占比為26.4%。其表現為有一定年紀,活躍度較高,收入較高,有一定的財富累積,各種理財產品都有所涉及,有一定的風險承擔能力。針對該類客戶群,銀行應當提供豐富多樣的產品供其選擇,或者為客戶制定相符合的理財計劃,進而增加銀行收入。
Ⅲ類客戶:第2類、第3類和第4類為普通客戶,占比為29.31%。其表現為有一定年紀,但活躍度和收入較為一般,VIP客戶相對較少,風險承擔能力較低。這類客戶對理財需求較低,不會輕易購買理財產品,針對該類客戶群體,銀行應提供更快捷的服務渠道,幫助客戶了解銀行不同類型的產品,進而提升該類客戶對銀行產品的認可度和喜愛度。
Ⅳ類客戶:第7類和第8類為不穩定客戶,占比為32.6%。其表現為比較年輕,活躍度低并且收入低,財富累積較少,風險承擔能力低。這類客戶對理財類金融服務可能還不夠了解。針對這類客戶,銀行可以邀請他們參加一些不同的理財產品推廣會和座談會,同時為其提供差異化的理財產品。
近年來,加入WTO后,金融改革和外資銀行的引入對本土銀行產生了巨大影響。如何有效地對數量龐大的銀行客戶進行準確劃分,是銀行制定服務對策的前提。文中提出改進的SOM-Kmedoid-CH聚類算法可以彌補傳統聚類算法影響聚類結果準確性的不足。首先利用SOM算法對數據進行“粗聚類”得到表征數據主要特征的原型向量以壓縮數據量,再使用快速K中心點算法對所獲得的原型向量正式聚類并用CH指標識別最優聚類數目,減少人為指定聚類個數的盲目性和主觀性。采用UCI上不同規模數據對算法性能進行了測試,實驗結果表明,同傳統聚類算法比,改進的SOM-Kmedoid-CH具有最高分類正確率并能正確判定聚類個數。將其應用于Standard銀行客戶細分,將客戶分為8類,然后結合客戶價值矩陣將客戶群再次劃分,最終將客戶群劃分為四大類,分別代表重點、發展、普通及不穩定客戶群。并從服務和營銷角度為銀行提供針對不同客戶群的營銷策略。