李克威
摘 要:本文考慮到現有CRM的局限性,引入了模糊數學相關算法,給數據對象的隸屬度加上一個權值,以及在算法中用有效性函數來自動確定聚類數目C,理論分析與實驗結果表明,在CRM環境下所引入的改進模糊聚類算法比傳統模糊聚類算法有更好的聚類效果,更快的聚類速度。
關鍵詞:聚類;CRM;模糊
目前,很多企業都認識到客戶和市場在競爭中的重要性,越來越多的企業正在提高客戶對企業的中邀請。逐步建立以客戶和市場為方向的經營模式。隨著計算機計算的快速發展,很多科研機構把CRM作為重點研究對象,CRM系統和一定服務系統的結合,提高客戶滿意度和忠誠度,能給企業帶來長久發展的一種理念。
1 CRM簡介
客戶關系管理(CRM)就是為企業提供全方位的管理視角,給企業完善的客戶交流能力,最大化客戶的收益。對CRM我們可以這樣理解。一方面,從經營管理觀念方面考慮,CRM是一種以客戶為中心的理念,通過信息化,重新規劃各個功能模塊達到縮減銷售成本,開拓新的市場。另一方面,CRM對以客戶為中心的商業模型提供支持的一套軟件系統,包含多種與客戶交流的方式,如見面談或者電話談,這樣企業可以根據客戶的喜歡采用合適的方法與他們溝通。
2 模糊聚類算法
通常見到的聚類是硬聚類,具有非此即彼的特點。Dunn把硬聚類算法推廣到了模糊的情況下,Bezdk給模糊聚類的隸屬度引入了權重m這個概念[1-2]。模糊聚類通過讓最小化目標函數從而得到最優聚類結果,模糊聚類是根據樣本之間的特征、親疏程度和相似性,通過建立類別之間的模糊分類,作為數理統計中的一種多元分析方法[3],已廣泛應用于諸多領域。
對于數據的類別劃分,定義一個硬劃分矩陣U,V={V,V2,…VC}是特征空間的矢量集合,Vi表示第i類的聚類中心,dik表示第i類中樣本Xk到第i類聚類中心的距離,硬聚類的目標函數為
J1(U,V)是各個數據與其聚類中心的誤差平方和,(U,V)表示聚類準則的最佳配對,通過迭代求J的近似最小值使得J1滿足最小。
FCM聚類算法基本步驟如下[4]:
⑴設定劃分類別數c(2≤c≤n,n是數據個數);設置算法計算停止閾值為0.01;給聚類中心P(0)設置初值;
⑵計算劃分矩陣U(b)的結果;
⑶求中心矩陣P(b+1);
⑷若 ,則算法數據劃分類別陣和聚類的中心,否則讓迭代計數器加1。
3 改進模糊聚類算法
傳統的模糊聚類算法也存在一些問題:(1)難以判斷離群點的歸屬(2)提前確定劃分類別數目和權重因子(3)因為FCM算法的收斂性,很容易陷入局部極小點或者鞍點,從而得不到全局最小值。
3.1 減少離群點的作用
為了減小離群點對聚類中心的干擾,給隸屬矩陣添加一個權重因子,讓隸屬度低的點對聚類中心起的作用比較小,把隸屬度調整為為 。
3.2 對劃分類別書的確定
人為確定劃分類別不太準確,有可能讓聚類過程很緩慢。我們把聚類的有效性函數添加到FCM算法中,利用有效性函數來決定劃分類別數的值。改進的模糊聚類算法如下所示:
初始化:設定迭代的計算閾值ε,聚類原型P(0),迭代次數為b=0;
步驟1:計算劃分矩陣U(b);
對于 ,k,若 >0, ,r,使得 =0,則有 =1,且對 , =0。
得到改進的隸屬度:
步驟2:重新計算聚類原型P(b+1);
步驟3:若 ,則算法計算完畢,得到劃分矩陣U和聚類原型P,否則,算法跳轉到1繼續執行。
步驟4:求聚類有效性函數的結果,若已經達到最小值,則得到數據聚類類別數目,否則跳轉到1重新執行程序。
4 實驗
數據是采用隨機抽取的50個樣本信息,由于客戶的數據有17個參數:公司年齡、行業、規模、公司性質、盈利情況、員工數量、信譽度、年銷售量、產品市場定位、新產品數量、流動資金、平均訂購規模、年采購量、購買渠道、主要客戶、對待產品的態度、對待服務的態度,各個數據的量綱不同,或者量綱相同,但是數量級不同,直接用原始數據計算會出現“大數吃小數”的現象,所以,在實驗之前,對數據進行標準化處理[4]。應用改進模糊聚類算法,設定加權參數為2,停止閾值為0.0001,差異度采用歐幾里得距離公式計算。下表列出了聚類中心陣和聚類結果的檢測指標。
表1 聚類結果
Tab.1 The Result of Clustering
聚類結果中心陣 測試指標
分類結果系數 平均模糊熵
0.05286 0.2200 0.25967
0.11245 0.1538 0.18617
0.09971 0.1185 0.11290
0.15048 0.1362 0.17140
0.19056 0.0392 0.03571 0.942751 0.071643
實驗得到的劃分矩陣表明用戶對各個類別的隸屬程度,對其中兩組用戶數據分析:
用戶1:0.0013,0.9263,0.0722,0.0002,0.0000
用戶2:0.1475,0.8451,0.0001,0.0056,0.0017
隸屬度矩陣的每列數據表示該客戶對一個類別的隸屬程度,每一列之和為1,表示該客戶對所有類別的隸屬度之和為1。根據樣本判定的選擇原理,該客戶數據對某個類別的隸屬度大,我們就認為該客戶屬于這個類別。從上面數據可以看出。用戶1對類別2的隸屬度為0.9263,我們認為用戶1屬于第2類,樣本2對類別2的隸屬度為0.8451。我們認為用戶2屬于第2類,同時樣本2對類別1有0.1475的隸屬度,所以用戶2還具有類別1的特征。
本實驗把企業的客戶劃分成不同的種類,區別出不用種類的特點。下表對5類用戶進行了的特征進行了總結:
表2 用戶特征分析
Tab.2 The Analysis of Customer Feature
分類 個數 特點
1 9 交往比較多,交易量比較大,
2 27 購買金額大,但接觸次數較少
3 6 于企業接觸時間較近,接觸次數少
4 5 可能是流失危險的有價值用戶
5 3 長時間和企業不打交道,估計會流失
對于表2的分析結果,我們可以看到采用近度、頻率和金額度作為客戶分類的參數,從劃分出的類別能看出不同客戶類別對企業的忠誠度,對企業利潤的貢獻大小和客戶估計要流失的可能性。這次實驗是根據客戶的消費記錄進行聚類的,客戶最近的消費記錄對結果的影響很大。企業通過CRM,能挖掘出對企業利潤貢獻大的客戶,對不同的客戶類別,實施不同的經營策略,提高客戶對企業的滿意度,吸引能給企業帶來巨大利潤的客戶,留住現有的客戶,避免客戶的流失,提高企業的經濟效益。本文改進的模糊聚類算法能夠實現初始化聚類類別參數自動生成,減少了人工干預初始化聚類數目的影響,有比較好的聚類結果和收斂速度。
[參考文獻]
[1]張躍.模糊數學方法及其應用[M].北京:煤炭工業出版社.1992.
[2]高新波.模糊聚類分析及其應用[M].西安:西安電子科技大學出版社.2004.
[3]何清.模糊聚類分析理論與應用研究進展[J],模糊系統與數學.1998,12(2):89-94.
[4]林輝.改進模糊聚類在數據流中的應用.河南科學.2012.9.