白桐 趙鈺
20世紀90年代,學者們才開始研究客戶流失預測。我國的學者則是在21世紀初期才開始做的客戶流失預測研究。從本質上講,客戶流失預測就是一個分類問題,根據已經分類好的客戶指標,去判別未分類的客戶屬于哪一類或者哪幾類。
1.第一階段
第一階段的客戶流失預測在21世紀初期這一時間段,主要采用的傳統統計學的預測方法。包括:決策樹算法(Decision Tree)、邏輯回歸(logistic regression)、貝葉斯分類器(naive Bayesian classifiers)以及聚類分析(clustering analysis)。這些模型的主要特點是可以分析連續性、離散型以及定類的客戶數據,解釋能力比較強。
邱義堂(2000)在《通信資料庫之資料挖掘:客戶流失預測之研究》中以臺灣的某一家公司GSM系統移動電話的客戶為研究對象,使用了C4.5決策樹算法確立預測客戶流失的模型,這一模型的主要作用是可以在10%的客戶群體中預測50%以上的客戶流失情況,可以用最少的數據預測更多的客戶流失情況,實現了高效處理數據。
LOUIS A.C(2002)在《data mining and causal modeling of customer》中使用決策樹模型與邏輯回歸模型進行對比分析。
CARDELLN.S,GOLOVNYA。M,STENBERG.D在《churn modeling for mobile telecommunications》中采用的也是決策樹模型,對美國的某個公司進行客戶流失預測,其結果不僅有較高的準確率,并且研究出了有效客戶的流失規則,便于對客戶進行管理,以及盡可能的規避了客戶流失的風險。
朱世武、崔嵬、謝邦昌在《移動電話客戶流失數據挖掘》中使用的是CHAID決策樹算法, 他們主要是對移動電話號碼和電話類型進行了分析, 發現客戶性別、年齡、籍貫及職業四個人口統計變量在不同的流失類別上有顯著影響,為后續研究提供了理論基礎。
盛昭瀚、柳炳祥在《客戶流失危機分析的決策樹方法》中,采用的是加權熵的 ID3 決策數算法,開創了客戶流失預測模型的新算法,新思路。
王維佳、繆柏其、魏國省在《數據挖掘:電信客戶流失分析預測》利用的是決策樹算法和 RBF 預測算法,以分類和預測概率為目標, 對某公司的客戶流失進行了調查研究, 分析了影響客戶流失的主要因素。
QI Jia yin、ZHANG Yang ming、ZHANG Ying ying,在《tree logit model for customer churn prediction》中使用ADTree 和 logistic regression 相結合的模型, 與 TreeNet 預測模型進行對比分析,發現該模型的預測準確率會比較高。
LUO Bin、SHAO Pei ji、LIU Juan在《customer churn prediction based on the decision tree inpersonal handyphone system service》采用決策樹算法, 改變數據集延遲周期, 對國內某電信公司的潛在流失客戶進行了預測。
KM H.S、YOON C.H在《determinants of subscriber churn and customer loyalty in the Korean mobile telephony market》中使用的是邏輯回歸算法,判定了用戶流失和客戶忠誠度間的相關因素。
YANG Yi ming、WANG Hui、LI Lei在《multi-dimensional model-based clustering for user-behavior mining in telecommunications industry》中采用的是序列聚類方法, 對客戶流失情況進行了非監督分類。
以上研究方法均有以下不足之處:
(1)真實數據中的客戶類別是非對稱的, 極大的影響了預測效果。
(2)對數據量大、非線性關系、非正態分布以及時間序列的數據處理準確度較低
(3)缺乏靈活性,無法根據數據特性進行處理。
2.第二階段
由于上述方法的種種不足之處,學者們將研究方法進行了更新,進入了第二階段,這一階段是基于人工智能的方法進行預測。包括:人工神經網絡( artificial neuralnetwork, ANN) 、自組織映射( self organizing maps, SOM) 和進化學習( evolutionary learning, EL) 等的算法。
MASAND B、DATTA P、MANID R在《CHAMP:a prototype forautomated cellular》中,以及DATTA P、MASAND B、MANI D。R在《Automated cellular modeling and prediction on a large scale》中均使用了 CHAMP客戶流失分析方法, 通過對美國 GTE 公司的客戶流失證實發現, 神經網絡預測模型能有效地預測客戶流失概率,為公司的決策提供方向。
YAN Lian、MILLER D J、 MOZER M C《Improving prediction of customer behavior in nonstationary environments》中從多個時間窗口提取數據, 并引入 ANN 建立預測模型, 是的客戶流失的預測的準確性有所提高。
AUW.H、CHENK C.C、 YAO Xin在《 A novel evolutionary data mining algorithm with applications to churn prediction》中采用的是 EL 算法對客戶流失進行了預測, 并且與決策樹 C4. 5、SCS 和 GABL 算法進行比較,得出EL算法預測客戶流失的準確率最高。
MOZER M.C、WOLNIEWICZ R在《Predicting subscriber dissatisfaction and improving retention in the wireless telecommunications industry》中通過對數據進行過抽樣, 利用 ANN 技術和引入收益計算方法,發現這一算法可以得到更大的收益。
JORGE B.F、ELLASCO M、PACHECO M A. 在《Data mining techniques on the evaluation of wireless churn》中提出了客戶保留成本,通過對神經網絡、決策樹、遺傳算法、模糊神經這一系列算法的比較, 得出神經網絡所建預測模型預測結果更準確這一結論。
以上研究方法也存在不足之處,如下所示:
(1)采用訓練的模式進行預測,使得預測結果并不穩定。
(2)這些方法的使用時建立在兩類樣本點損失的情況相同,即流失客戶與非流失客戶,但實際上不存在這樣的數據。
(3)這些算法在使用過程中沒有經過嚴格的證明,盲目的追求誤差最小化。
3. 第三階段
為了提高預測的精度以及穩定性,學者們的研究進入的第三階段,這一階段是基于統計學學習原理的預測方法。這一階段主要使用的是支 持 向 量 機 ( support vector machine,SVM) 以及判別分析算法(Latent Dirichlet Allocation,簡稱LDA)。
趙宇、李兵、李秀 在《基于改進支持向量機的客戶流失分析研究》中改進了 SVM 模型,以預測未來可能流失的客戶, 這一模型預測客戶流失的準確率較高。
SHAO Jin bo、 LI Xiu、 LIU Wen-huang在《the application of Adaboost in customer churn prediction》中使用了三種 AdaBoost 算法, 并且用SVM方法建立了預測模型,提高準確性,
夏國恩在多篇文章中選擇使用結構風險最小化準則的 SVM 進行客戶流失預測, 以提高機器學習方法的預測能力, 同時與人工神經網絡、決策樹、貝葉斯分類器等算法進行了對比, 得到這一算法的準確率最高,以及最為穩定。
參考文獻
[1] 夏國恩,陳云,金煒東.電信企業客戶流失預測模型[J].統計 與決策,2006(20):163-165.
[2] 夏國恩,金煒東.客戶流失預測中兩類錯誤的平衡控制研究 [J].營銷科學學報,2006,2(4):1-7.
[3] 夏國恩,金煒東.基于支持向量機的客戶流失預測模型[J].系統工程理論與實踐,2008,28(1):71-77.
[4] 李萍,齊佳音,舒華英.移動流失客戶挽留價值估算模型探討 [J].北京郵電大學學報:社會科學版,2005,7(3):39-43.
[5] 夏國恩,邵培基.改進的支持向量機在客戶流失預測中的應用 [J].計算機應用研究,2009,26(5):1789-1792.
[6] 夏國恩.基于核主成分分析特征提取的客戶流失預測[J].計算機應用,2008,28(1):149-152.
[7] 龔文.畜牧企業客戶流失原因分析[].中國牧業通訊,2007
[8] 任如.減低中低端大客戶流失半[J].通信企業管理,2004
[9] 成愛武, 姚璐,王穎.大客戶流失原因及其影響因素分析[J].西安工程大學學2009
[10] 張素珍.防范企業老客戶流失的探討[J].機械管理開發,2006
[11] 鄔少清.郵政企業防止大客戶流失對策探討[J].郵政研究,2010
[12] 何安華.基于決策樹的渠道客戶流失風險預警[J].市場論壇,2008