張線媚(西安思源學院 工學院,陜西 西安 710038)
數據挖掘在電信行業客戶流失預測中的應用
張線媚
(西安思源學院 工學院,陜西 西安 710038)
客戶流失是電信行業發展過程中所面臨的一個嚴重問題,直接影響到運營商的企業效益。本文主要介紹了對電信行業客戶流失情況進行數據挖掘的過程,改進了已有模型存在的缺乏靈活性、難以處理高維度數據的缺點,根據運營商的歷史數據資料,利用SAS/EM模塊對客戶的固有特征和行為特征進行挖掘分析,采用決策樹分類算法的CART算法建立了聚類分析模型和包括評估模塊在內的一套完整的流失預測模型,能夠直觀地顯示出流失客戶的基本特征,并且可以對任意的數據集進行分析,有效提高了模型的普遍應用性和準確性。
客戶流失;數據挖掘;決策樹;CART算法;聚類分析;SAS/EM模塊;客戶流失預測模型
在電信這個服務型行業中,客戶關系管理工作直接關系著企業的經濟效益、聲譽和信譽,而在客戶關系管理工作中,開發一個新客戶的成本比挽留一個老客戶的成本要高出很多倍[1]。
傳統上國內外移動運營商認為新客戶在最初兩個月內流失的概率最大,大約為10%左右,所以運營商會建立一個呼叫中心,在客戶使用移動電話一個月左右后,主動和客戶聯系[2],但這樣的方法不切實際。因此,近年來好多電信運營商都開始建立客戶流失預測模型。
目前主要的做法有采用 SPSS公司的 Clementine工具,使用節點連接的方式,分別用分類回歸樹(CART)算法和 C5.0算法建立流失預測模型[3]。還有一種采用Weka工具的決策樹分類器,應用一趟聚類算法進行聚類分析,將分析后的簇群號作為新的特征增加到原數據集中,對新的數據建立決策樹分類模型[4]。該模型準確率較高,但是模型考慮的變量因素比較少、數據量比較小,缺乏普遍性,對于客戶流失的原因分析具有一定的局限性。
本文采用 SAS軟件,在對大規模、高維度的歷史數據引入屬性選擇、特征提取和特征選擇的基礎上,對數據進行處理,然后利用新的數據源建立包括模型評估在內的完整的流失預測模型。模型中添加了評估模塊,可以對流失預測的結果進行檢測優化,提高流失預測的準確率;克服了單一評價標準的缺陷,結合了是否流失和流失概率兩個基本的評價標準;而且對于最終的預測結果有詳細的報告存儲路徑,以便查看和應用于日后的市場運營策略的改進工作中,從而有效地采取挽留措施,減少客戶的流失量,做好客戶關系管理工作,提高企業的經營效益,獲得企業持續經營的成功。
要建立靈活、普遍性高的客戶流失預測模型,必須采集大量的客戶信息資源數據,同時需要對其進行數據的預處理,得到構建模型所需的數據形式。因此,在這個階段需要對模型所需的原始數據 (訓練數據和測試數據)進行分析處理,以便能充分挖掘出客戶的關鍵性行為特征[5]。
1.1樣本選擇和數據描述
以某地區聯通運營商的客戶業務數據作為實驗數據(包括訓練樣本集和測試樣本集),該樣本數據集中總共包含了 695 689條(包含正常客戶和流失客戶)記錄,每條記錄由33項客戶基本信息和48項客戶行為特征(12種業務,4個月,共48項)以及1項客戶類別特征組成。
(1)客戶基本信息:主要是客戶資料數據。客戶基本信息數據是客戶的靜態數據(如表1所示),相對來說比較穩定,但是由于這些數據在客戶入網填寫時會包含大量的缺失值,甚至是假的錯誤的信息,所以需要進行大量的數據清洗和轉換工作。

表1 客戶基本特征表
(2)客戶消費行為特征:主要是客戶在過去4個月的消費行為數據。客戶消費行為特征的每條記錄包含了客戶在過去4個月的消費情況,包括12個基本消費行為,所以該樣本總共包含了 48(12×4=48)項數據記錄,如表2所示。
(3)客戶類別特征:主要用來標注客戶的狀態。實驗樣本數據集中包含了一個可以判定類別信息的類別特征(如表3所示),根據類別信息可以知道每個客戶的基本狀態。

表2 客戶消費行為特征表(一個月份)

表3 客戶類別特征
1.2數據預處理
數據預處理的效果會直接影響到模型的性能和流失預測的結果,一方面,通過對數據格式和內容的調整、完善,可以使得建立的模型更簡單、準確,而且便于理解;另一方面,可以根據整理好的數據的特點以及不同算法的要求,選擇合適的執行算法,從而降低算法的時間和空間復雜度。為了克服已有模型存在的缺乏靈活性缺陷,此處的數據預處理是根據數據的屬性特點分開進行,主要包括數據清洗、特征構造和特征選擇等過程[6]。
(1)數據清洗
主要是補全缺失的數據、處理不一致的數值、除去錯誤的數據。例如:如果某條記錄中存在大量的缺失值,而且這些數據很難用正常的方法來補全,則可以考慮刪除整條記錄數據;又或者記錄數據的某項缺失,在不影響整體樣本數據集的情況下,可以考慮用均值來補全缺失值。
(2)數據轉換
主要包括構造新的衍生特征信息和對連續型數據進行規范化。在采集的數據信息中,消費行為特征只有過去4個月的消費記錄,這幾個特征不能充分體現客戶在這4個月以及將來的消費情況。所以,在對數據集進行處理時,對于12項月消費行為的記錄采用了構造衍生特征的措施,構造了24項月均消費信息和月均消費趨勢的信息。例如:
月均消費行為:為過去4個月的費用的平均值,表示為mb_fee,即:

月消費趨勢:為過去4個月的消費記錄中后2個月的總消費與前2個月的總消費的比值,表示為trend_fee,即:

(3)特征選擇
這個步驟將會直接影響到分類預測模型的性能。通過選擇相關性強的特征,從原始數據集中刪除不相關或者相關性很小的特征項,保留與目標特征相關性大的特征項,可以減少樣本的維度,從而大大減少計算量,降低時間和空間的復雜度,簡化學習模型。
經過對數據進行預處理,最終整理了高維度、大規模的、用于實驗數據集的樣本,總共包含了 631 590條記錄,每條記錄包含33項客戶基本信息和114項客戶消費行為特征 (構造的24項月均消費行為特征、24項月均消費趨勢特征和17項通話行為特征、21項不同時段通話頻率行為特征、20項服務消費行為特征以及8項手機上網行為特征)以及1項類別特征,總共148項。
因為本案例主要應用兩種模型來進行數據挖掘,所以在建立模型時需要考慮可實施性來建立合理的模型。在這里采用SAS/EM模塊來搭建整個模型,將聚類分析模型和流失預測模型布置在同一個工作區中,兩個模型各自執行不同的功能,最終完成對數據的挖掘工作。所建立的模型如圖1所示。

圖1 客戶聚類分析和流失預測模型
2.1聚類分析模型
聚類分析模型通過對客戶的合理劃分來反映客戶的整體特征,根據劃分后的類別簇群來判斷不同客戶的固有信息及消費特點。
從聚類分析模型的顯示結果(如圖2所示)可以看出,所有的客戶被分為10個簇群,從各個簇群的類別分布情況來看,有6個簇(簇1、簇2、簇4、簇5、簇8、簇9)的客戶基本是由正常客戶組成,其他4個簇的客戶基本是由流失客戶組成,而且通過與每個特征分布的均值對比,可以發現10號簇群的差異性最大[7-8]。
2.2流失預測模型
對數據進行聚類分析是流失預測的基礎,目的是將客戶劃分為不同的類別,這樣可以在不同的客戶群體上進行預測分析,從而根據各記錄的類別編號判定流失客戶的所屬類別。所以在進行流失預測分析之前,將每條記錄所在的類別編號作為一項特征添加到實驗數據表中,用于流失預測建立模型的數據集中總共包含了150項特征(148項基本特征+1項聚類編號+1項目標特征)和631 590條數據記錄。選取其中2/3的數據作為訓練集,剩余1/3的數據作為測試集,這樣分開預測主要是后面便于檢測預測模型的準確度。

本案例使用SAS/EM的決策樹分類節點作為客戶流失預測的基本工具,選用決策樹分類算法中的分類與回歸樹(Classification and Regression Tree,CART)算法構建聚類分析模型,該算法采用Gini系數來度量對某個屬性變量測試輸出的兩組取值的差異性,采用“最佳評估值”方法來進行樹剪枝。
在 SAS/EM模塊流失預測模型的分析結果中,圖 3為混淆矩陣,直觀顯示訓練集和測試集的預測數據結果,圖 4為 Gini系數均方誤差曲線圖,通過訓練集和測試集Gini系數的均方誤差曲線對比來反映模型的誤分率情況。

圖3 混淆矩陣圖

圖4 Gini系數均方誤差曲線圖
如圖5所示為流失預測的樹狀圖,顯示決策樹深度為3,從頂部開始,直到獲得了最佳分類結果時才停止分支,當其達到最佳結果并且獲得了按同一規則分類的客戶時,便會在底部出現葉子節點。每個葉子節點的產生所依據的最重要的變量依次為[9]:客戶平均每個月的總消費(MB_TOTAL_FEE)、月均本地通話次數(CS_LOCAL_COUNT)和月均新業務費(MB_NEW_FEE)等。
下面根據圖5所顯示的規則,結合聚類分析模型的應用來說明被分類為流失客戶的一個分支節點,流失客戶基本上具備以下特點:
(1)平均每個月的總消費小于 0.015元,流失概率為94.5%;
(2)平均每個月本地通話次數小于 0.125,流失概率為95.2%;
(3)平均每個月的新業務費小于 6.25元,流失概率為96.0%。

圖5 流失預測模型的樹狀結構圖
從預測模型的目標分類來看,目標客戶主要分為2類(正常客戶和流失客戶),應用CART算法來進行流失預測分析,那么Gini系數的最大值為0.5。理想的分類應該盡量使樣本輸出變量取值的差異性總和達到最小,即“純度”最大,也就是使得輸出變量的取值差異性下降最快,“純度”增加最快。從圖4所示的Gini系數均方誤差曲線圖來看,曲線的下降速度很快,而且Gini系數的均方誤差取值很小,也就是說,建立的流失預測模型性能很好,接近理想的分類。
對已知客戶狀態的數據利用模型來進行預測分析,將得到的預測結果和實際客戶的狀態進行對比,可以計算出預測的準確度。流失預測模型的評估結果如圖6所示,計算出準確度為 96.8%,從整個模型的預測結果和評估結果來看,建立的客戶流失預測模型比較接近理想模型,具有一定的實踐意義。
本文應用數據挖掘技術,采用聚類分析和決策樹分類算法對電信行業中的客戶流失情況進行了分析。利用SAS/EM模塊,在建立了分類模型后,應用 CART算法建立了客戶流失預測模型,結合2種模型的預測結果,對流失客戶所具備的基本特征做了總結,并且對建立的流失預測模型進行了評估測試和優化。建立的這套完整的模型改進了現有流失預測模型缺乏靈活性、難以處理大規模高維度數據的缺陷,有效地提高了模型的準確性(準確性高達 96.8%)和普遍應用性。

圖6 流失預測模型的評估結果
[1]劉飛.我國通信企業客戶流失預測研究綜述[J].企業科技與發展,2011(7):273-275.
[2]夏國恩.客戶流失預測的現狀與發展研究[J].計算機應用研究,2010,27(2):151-153.
[3]師江波,胡建華.基于數據挖掘的電信客戶流失預測分析[J].山西電子技術,2009(1):48-50.
[4]蔣盛益,王連喜.面向電信的客戶流失預測模型研究[J].山東大學學報(理學版),2011,46(5):77-81.
[5]李陽,劉勝輝,趙洪松.數據挖掘在電信行業客戶流失管理中的研究與應用[J].電腦知識與技術,2010,6(3):518-521.
[6]吳志勇,戴曰章,鞠傳香.數據挖掘在電信客戶流失中的應用[J].山東理工大學學報(自然科學報),2007,21 (5):28-31.
[7]蔣盛益,李霞,鄭琪.數據挖掘原理與實現[M].北京:電子工業出版社,2011.
[8]楊池然,仲文明,周志勇.SAS9.2從入門到精通[M].北京:電子工業出版社,2011.
[9]MACLENNAN J,Tang Zhaohui,CRIVAT B.Data mining with Microsoft SQL Server 2008(2nd edition)[M].北京:清華大學出版社,2010.
The application of data mining to client churning prediction in telecom
Zhang Xianmei
(School of Industry,Xi′an Siyuan University,Xi′an 710038,China)
Client churning is a serious problem in the development of telecommunication industry,and it has immediate influence to the profit of a company.This paper mainly introduces the whole procession of data mining in client churning of telecommunication.According to the data in the provider′s database,by analyzing and mining the natural attribution and action attribution among the clients,we set up a clustering model and an integrated prediction model,including assessment module,which is based on CART algorithm of decision tree in SAS EM module for client churning.The new model improves the disadvantages of the existed models,such as lack of flexibility,unable to process data with high dimensionality,even shows the essential features of customers lost visually.Using this model can analyse arbitrary datasets effectively and it enhances the generational applicability and the prediction accuracy rate.
client churn;data mining;decision tree;CART algorithm;cluster analysis;SAS/EM module;direction model for client churn
TP393
A
1674-7720(2015)15-0099-04
張線媚.數據挖掘在電信行業客戶流失預測中的應用[J].微型機與應用,2015,34(15):99-102.
2015-04-08)
張線媚(1987-),女,碩士,助教,主要研究方向:無線傳感器網路及計算機應用、數據挖掘。