龍 林
(山西財經大學 山西 太原 030000)
銀行信貸客戶的聚類
龍 林
(山西財經大學 山西 太原 030000)
本文著重研究了對傳統的K-means算法它在銀行客戶分類方向的應用與實現。首先介紹了數據挖掘的基礎理論,然后介紹了聚類分析算法的基礎理論,詳細介紹了K-means聚類算法,分析了該算法的優缺點,之后定義了銀行客戶進行聚類。最后,本文按照已經建立的銀行客戶分類模型,對來自東北某家銀行財務部的詳細交易數據,進行實際的銀行客戶聚類實驗。最后對聚類結果進行了詳細的分析和總結。
數據挖掘;聚類算法;銀行;K-means聚類算法
信貸是業務是我國商業銀行收入的主要來源,信貸風險也成為其面臨的主要風險。在目前的社會環境下、經濟環境和法制環境,銀行必須對現有的技術充分利用,更好的學習與借鑒其他成功的銀行案例,在此基礎上,我們必須健全和完善內部的信貸風險管理機制,提高銀行的市場競爭力和生存能力。為了更好的進行信貸風險管理機制,我們選擇了把不同的客戶類型進行分類管理,以提高我們對客戶的管理以及維護客戶的關系,讓資源最大化。
對于不同的客戶群體,我們該如何進行有效的劃分,聚類是數據挖掘的主要方法之一,是一個搜索簇的無監督學習過程,它從大量無序的數據中發現隱含的、有效的、有價值的、可理解的模式[1]。從聚類的定義可以看出,聚類算法非常適合用于對銀行客戶進行分類。
(一)K-Means聚類算法的目標函數
對于給定的一個包含n個d維數據點的數據集X={x1,x2,…,xi,…},其中xi∈Rd,以及要生成的數據子集的數目K,K-Means聚類算法將數據對象組織為K個劃分C={ck,i=1,2,…K}。每個劃分代表一個類ck,每個類ck有一個類別中心ui。選取歐氏距離作為相似性和距離判斷準則,計算該類內各點到聚類中心μi的距離平方和:

顯然,根據最小二乘法和拉格朗日原理,聚類中心uk應該取為類別ck類各數據點的平均值。
K-means聚類算法從一個初始的K類別[2]劃分開始,然后將各數據點指派到各個類別中,以減小總的距離平方和。因為K-means聚類算法中總的距離平方和隨著類別個數K的增加而趨向于減小 (當K=n時,J(C)=0)。因此,總的距離平方和只能在某個確定的類別個數K下,取得最小值。
(二)k-means算法的缺點
1.聚類個數值k值的確定。K的值是希望通過聚類產生k個類,是初始的數據凝聚點的個數。k值由人為輸入決定。大多數時候,應該分成多少個類簇是未知的,只是憑經驗進行決定,由此產生的聚類結果往往偏差較大。
2.初始數據凝聚點的選擇影響最終結果。傳統的K-means算法的凝聚點是隨機選取的,如果初始凝聚點不一樣,最終的聚類結果也將有很大差異。
(一)類別個數K的選擇
Elbow方法[3-4]:對于不同的聚類個數k,計算出每個k下的損失函數E=的變化趨勢:

最初由于K較小,類型的分裂 (增加)會使J值迅速減小,但當K增加到一定數值時,J值減小速度會減慢,直到當K等于總樣本數N時,J=0,這時意味著每類樣本自成一類,每個樣本就是聚類中心。如圖3所示,曲線的拐點A對應著接近最優的K值,最優K值是對J值減小量、計算量以及分類效果等進行權衡得出的結果。而在實際應用中,經常對同一數據集,取不同的K值,獨立運行K-means聚類算法,然后由領域專家選取最有意義的聚類劃分結果。
(二)初始聚類中心的選取
經典的K-means聚類算法的初始聚類中心是隨機選取的。我們選擇了隨機重啟動K-means聚類算法[5-6]是目前工程中應用最廣泛的初始聚類中心選取方法,其過程如圖4所示。

多次重啟動k-means聚類算法流程圖
本文主要研究銀行客戶聚類。銀行客戶通常分為企業客戶和個人客戶。本文以銀行的個人客戶為研究對象,進行客戶聚類的具體應用。
根據實驗的效果,進行對結果進行了分析:

(一)第一類客戶:黃金優質客戶
客戶特征:已實現價值很高,未來價值很高,忠實度很高。在銀行已實現了很大交易額,已經給銀行帶來了豐厚的利潤,未來仍然能夠有潛力給銀行帶來大量利潤,且客戶的流失風險非常小。的營銷策略:應該不斷保持與此類客戶的積極溝通,隨時關注客戶的心理需求,提供最好的服務和優惠政策,以期得到此類客戶的滿意度和更高的忠實度。
(二)第二類客戶:一般價值客戶
客戶特征:此類客戶在過去的時間段內并沒有給銀行帶來很大的收益,也不具有很大的未來價值,但對本銀行具有很高的忠實度,比較信賴和滿意本銀行,經常在本銀行進行小筆交易。營銷策略:不必對此類客戶進行過多關注,只需要進行正常服務就好,可以偶爾進行小額產品推銷,沒必要在此類客戶身上花費過多成本。
(三)第三類客戶:潛在優質客戶
客戶特征:這一類客戶在本銀行的已實現價值并不理想,可是具有較明朗的未來價值和很高的忠實度。營銷策略:必須提高為這類客戶提供的服務的質量,給予這類用戶更高的關注度,時刻關注其購買需求,適時對其推行新的產品,使這類客戶的滿意度和信賴感逐漸上升,以期發展未來的長久客戶關系,竭力將其發展成黃金優質客戶。
(四)第四類客戶:完全無價值客戶
客戶特征:這個類別的客戶已實現價值很小,未來價值也很小,且對銀行的忠實度非常低。
本文的主要內容以及創新工作如下:
首先介紹核函數的一些性質及判定準則,從而提出一種能適應人們需求的核函數構造方法。
其次對于一般的降維方法,往往會丟失數據之間的相關信息,在本文提出使用多維尺度變換的方法,不僅降維效果明顯,而且最大程度的保留了數據之間的相關信息,使聚類效果更好。
然后提出一種新的衡量聚類結果的有效性評價指標,既考慮類內關系又考慮了類間的關系,在此基礎上提出一種自適應的K均值聚類算法,避免了K均值聚類算法對聚類數K敏感的問題。
最后對于半監督的K均值聚類算法,提出使用自適應算法預估聚類數K,在利用最優目標函數法進行調整,進而得到最佳的聚類中心,與最大最小距離法相比復雜度大大的降低,而且可以處理不完備標記的半監督數據集合。
[1]關卓威.基于臨近空間平臺的立體信息獲取及可視化技術研究[D].哈爾濱工業大學博士學位論文,2014.
[2]李博雷.超越交易重塑銀行與客戶關系——互聯網時代銀行業客戶體驗管理策略探索[J].清華金融評論.2014(9).
[3] K uo R.J.Integration of self-organizing feature maps neural network and genetic K -means algorithm for market segmentation[J].Expert Systems with Applications,2006(30):313-324.
[4] Hai-Jun Rong,Yew -Soon Ong,Ah-Hwee Tan,Zexuan Zhu.A fast pruned-extreme learning machine for classification problem [J].Neural computing,2008,72(3):359-366.
[5] Gerbard R,Goldman O,Spiegler I.Investigating diversity of clustering methods:An empirical comparison[J].Data& K nowledge Engineering,2007,63(1):155 -166.
[6] Jain AK,Dubes RC.Algorithms for C lustering Data[M].Prentice-Hall Advanced Reference Series,1998.1-334.
龍林 (1994-),男,漢族,重慶市開州人,碩士研究生,碩士,在山西財經大學就讀于計算機應用技術專業,研究方向:主要從事數據挖掘分析方面。