李偉 孫新杰 陳偉
摘要:客戶流失是企業(yè)要面臨的重要問題之一,為了能夠有效幫助企業(yè)預(yù)防客戶流失,提出基于企業(yè)的交易數(shù)據(jù)庫,通過數(shù)據(jù)挖掘方式來分析客戶的消費行為,構(gòu)建客戶流失特征,采用CART算法構(gòu)造決策樹模型,編程實現(xiàn)程序來處理流失特征數(shù)據(jù),以來對客戶流失行為進行預(yù)測。實驗運行結(jié)果表明,該方法對客戶流失預(yù)測效果較好。
關(guān)鍵詞:數(shù)據(jù)挖掘;客戶流失;決策樹;CART算法
中文分類號:TP391.3 文獻標識碼:A
文章編號:1009-3044(2019)10-0007-02
開放科學(資源服務(wù))標識碼(OSID):
Research on Customer Churn Prediction Based on Data Mining
LI Wei, SUN Xin-jie, CHEN Wei
(College of mathematics and information engineering, Liupanshui Normal University, Liupanshui 553004, China)
Abstract: Customer churn is the enterprise will face one of the important problems, in order to be able to effectively help enterprises to prevent customer defections, based on enterprise's transaction database, through the data mining methods to analyze customer's consumption behavior, building customer churn characteristics, by using the CART algorithm to construct the decision tree model, programming implementation program to process the data description, since to predict customer churn behavior. The experimental results show that the method has a good prediction effect on customer churn.
Key words: Data Mining; Customer Churn; Decision Tree; CART Algorithm
在當今市場競爭環(huán)境下,客戶有了更多的消費選擇和渠道,客戶異動變得十分普遍,企業(yè)要保持好已經(jīng)擁有的客戶資源才能更好地盈利,因此如何提高客戶的忠誠度來防止客戶流程已經(jīng)成為企業(yè)急需解決的問題。夏國恩等[1]研究了引入網(wǎng)絡(luò)客戶價值特征和情感特征,來構(gòu)建基于客戶行為特征分析的網(wǎng)絡(luò)客戶流失預(yù)測模型結(jié)構(gòu)。于小兵等[2] 建立了客戶流失預(yù)測模型,提出了改進粒子群優(yōu)化算法,對電子商務(wù)客戶樣本進行實證研究。但是對于企業(yè)而言,在實踐上還存在一些問題。
本文通過數(shù)據(jù)挖掘方式來分析客戶的消費行為,選取客戶流失的特征,采用CART算法構(gòu)造決策樹模型,來對客戶進行流失預(yù)測,為企業(yè)管理客戶流失提供決策依據(jù)。
1 相關(guān)技術(shù)
決策樹[3]在ID3算法被提出了之后,在機器學習和數(shù)據(jù)分析領(lǐng)域更得到快速發(fā)展。決策樹是一種樹狀結(jié)構(gòu),每個葉子節(jié)點代表一個分類,非葉子節(jié)點是在某個特征上的劃分,根據(jù)樣本數(shù)據(jù)在該特征上的不同取值劃分成多個子集。當進行分類時,學習構(gòu)造決策樹是一個自上而下的過程。決策樹是一種監(jiān)督學習,構(gòu)造它的關(guān)鍵問題是在每一步如何選擇適合的特征來拆分樣本。
CART決策樹是一種高效的非參數(shù)分類和回歸方法,已經(jīng)廣泛應(yīng)用在統(tǒng)計領(lǐng)域和數(shù)據(jù)挖掘技術(shù)中。由CART 模型構(gòu)建的預(yù)測樹在很多情況下比常用的統(tǒng)計方法構(gòu)建的代數(shù)學預(yù)測準則更加準確,當數(shù)據(jù)越復(fù)雜且變量越多,算法的優(yōu)越性就越明顯。CART決策樹從訓練樣本數(shù)據(jù)中學習決策樹,通過構(gòu)建樹、修剪樹和評估樹來構(gòu)建二叉樹。如果終節(jié)點為分類變量,那么該樹為分類樹,CART采用GINI值衡量節(jié)點純度,GINI值的計算公式為:
[GINI=1-i∈Ip2i]
當GINI值越大時,代表節(jié)點越不純,節(jié)點分類或者預(yù)測的效果就越差。如果終節(jié)點為連續(xù)變量,則該樹為回歸樹,采用樣本方差衡量節(jié)點純度,回歸方差計算公式為:
[σ=i∈Ixi-μ2=i∈Ix2i-nμ2]
當方差的值越大時,代表該節(jié)點的數(shù)據(jù)越分散,預(yù)測的效果就越差。
2 構(gòu)建客戶流失特征
客戶流失是指客戶與企業(yè)不再有交易的關(guān)系,客戶流失的原因主要有產(chǎn)品因素、服務(wù)因素、競爭者因素和客戶自身因素等。企業(yè)客戶流失的特征主要體現(xiàn)在如下三個方面:消費次數(shù)越來越少、平均消費金額越來越低和很長時間沒有消費記錄,因此可構(gòu)造的三個客戶流失特征[4]有總消費次數(shù)(frequency)、平均消費金額(average)以及最近一次消費時間距離當前的天數(shù)(recently)。選取交易數(shù)據(jù)庫中客戶信息表和訂單表,并對這兩個表進行連接操作,通過分組聚合的方式進行查詢得到每個客戶的總消費次數(shù)、平均消費金額和最近一次的消費時間,以來構(gòu)建預(yù)測客戶流失的特征。添加一個表示客戶流失類型字段type后,得到的新表模式為(UID,frequency,average,recently,type),并基于該表的數(shù)據(jù)進行客戶流失預(yù)測。
3 設(shè)計實現(xiàn)
將構(gòu)建客戶流失特征后的數(shù)據(jù)分為訓練集和測試集兩部分,采用CART算法構(gòu)造決策樹模型,對準流失的客戶進行預(yù)測。算法的程序流程如圖1所示,當選擇分裂屬性進行分裂時,要遍歷三個客戶流失特征屬性,并且選擇每個屬性的最優(yōu)分裂方法,對比每個屬性的分裂效果,最后選擇該節(jié)點最優(yōu)的分裂屬性。比較最優(yōu)的分裂屬性需要計算每個分裂屬性分裂后的GINI值或樣本方差,前面已經(jīng)給出它們的計算公式。構(gòu)造完成決策樹后,再采用代價復(fù)雜度(CCP)的方法,選擇表面誤差率增益值最小的非葉子節(jié)點進行剪枝[5]。
4 實驗分析
執(zhí)行編寫的CART決策樹算法程序,對構(gòu)建客戶流失特征表數(shù)據(jù)進行處理分析,得到表中每個客戶的流失類型值。實驗預(yù)測結(jié)果如表1所示,流失類型有三個值是非流失、已流失和準流失,非流失客戶為還將有消費的正常客戶,已流失客戶為很長時間沒有消費記錄的客戶,準流失客戶為預(yù)測將要流失的客戶。企業(yè)應(yīng)對準流失客戶引起高度重視,采取必要措施挽留客戶,例如保證產(chǎn)品質(zhì)量、提高服務(wù)水平和推薦新的產(chǎn)品等,以來更好地實現(xiàn)盈利目標。
5 結(jié)語
本文提出對客戶的消費行為進行數(shù)據(jù)挖掘,構(gòu)建客戶流失特征,采用CART決策樹算法進行編程,分析處理客戶流失特征數(shù)據(jù),對客戶流失進行預(yù)測,為企業(yè)下一步的決策提供參考。未來工作中研究的重點是采用大數(shù)據(jù)技術(shù)對處理算法進行并行化改進,以來加快程序的處理速度。
參考文獻:
[1] 夏國恩, 馬文斌, 唐嬋娟, 張顯全. 融入客戶價值特征和情感特征的網(wǎng)絡(luò)客戶流失預(yù)測研究[J]. 管理學報, 2018, 15 (3):442-449.
[2] 于小兵, 盧逸群. 電子商務(wù)客戶流失預(yù)警與預(yù)測[J]. 系統(tǒng)工程, 2016, 34(9):37-43.
[3] Jiawei Han, MIcheline Kamber, Jian Pei.數(shù)據(jù)挖掘:概念與技術(shù)[M]. 北京: 機械工業(yè)出版社, 2012.
[4] 李偉, 秦鵬, 胡廣勤, 張毓福. 基于商業(yè)大數(shù)據(jù)的客戶分類方案[J].六盤水師范學院學報, 2017, 29(6):38-41.
[5] 李國和, 王峰, 鄭陽, 吳衛(wèi)江, 洪云峰, 周曉明. 基于決策樹生成及剪枝的數(shù)據(jù)集優(yōu)化及其應(yīng)用[J]. 計算機工程與設(shè)計, 2018, 39(1): 205-211.
【通聯(lián)編輯:王力】