(北京工業大學 經濟與管理學院, 北京 100124)
摘 要:針對客戶流失數據集的非平衡性問題和錯分代價的差異性問題,將代價敏感學習應用于Veropoulos提出的采用不同懲罰系數的支持向量機,建立客戶流失預測模型,對實際的電信客戶流失數據進行驗證。通過與傳統SVM、C4.5和ANN對比研究,結果顯示此方法在精確度、命中率、覆蓋率和提升度均有所改善,表明此方法有效地解決了數據集的非平衡性和錯分代價問題,是進行客戶流失預測的有效方法。
關鍵詞:客戶流失;支持向量機;非平衡數據;代價敏感
中圖分類號:TP393.04 文獻標志碼:A
文章編號:10013695(2009)02052103
Study of telecom customer churn prediction based on cost sensitive SVM
JIANG Guorui,SI Xuefeng
(School of Economics Management, Beijing University of Technology, Beijing 100124, China)
Abstract:To deal with the problem of unbalanced data classification and asymmetry misclassification cost in customer churn prediction,applied cost sensitive learning to the improved SVM which Veropoulos suggested it could handle the problem unbalanced data classification well to the model of customer churn prediction. The cost sensitive SVM was compared with traditional SVM, C4.5 and ANN through real telecom customer churn data. And found that it has a distinct improvement in accuracy rate, hit rate, covering rate and lift coefficient. It can be used as an effective measure for customer churn prediction.
Key words:customer churn;support vector machine(SVM);unbalanced data;cost sensitive
0 引言
產品多樣化、用戶需求個性化、世界扁平化的趨勢等諸多因素加劇了市場競爭的激烈程度,企業不斷推出新的產品和業務來滿足客戶不同需求的同時,多樣化的選擇空間也帶來了嚴重的客戶流失問題。在諸多行業如電信業、銀行業、保險業、出版業、醫療保健行業、網絡服務行業等,識別流失客戶并進行挽留對于公司發展和利潤的增長舉足輕重。Reichheld等人[1]研究表明,客戶流失率減少5%,能給企業帶來30%~85%的利潤增長。相比客戶挽留,發展新客戶的成本是挽留客戶的5~7倍,而挽留客戶的成功率卻是發展新客戶成功率的16倍[2]。在電信行業,歐洲電信業客戶流失率每年為25%,美國為37%,而在亞洲高達48%[3]。在美國由于客戶流失所造成的損失每年超過40億美元。而在國內,中國聯通CDMA的客戶流失率約為17.9%,GSM約為32%,中國移動的客戶流失率為12.6%,中國電信小靈通的客戶流失率約為10%[4]。因此,識別流失客戶并對其挽留對企業的發展意義重大。
針對客戶流失預測問題,國內外學者通過數據挖掘技術如決策樹、神經網絡、支持向量機[5~8]等建立預測模型取得了一定的成效,但預測效果并不理想。客戶流失數據集具有典型的非平衡性,當采用傳統支持向量機(SVM)進行分類時,為了最大化超平面間隔的同時又能降低經驗風險水平,分類超平面向樣本數較少的一側偏移,造成SVM過擬合樣本點數較多的一類,而低估樣本點數較小的一類。Veropoulos通過對兩類樣本施加不同懲罰系數的方法,改進了傳統SVM,解決了數據集的非平衡性問題,提高了分類性能。對于客戶流失預測,不僅要考慮數據集的非平衡性問題,還涉及到錯分的代價問題。本文針對客戶流失預測的分類錯分代價問題,采用代價敏感方法改進Veropoluos提出的SVM模型。通過真實的電信客戶流失樣本數據進行實證研究,結果表明,此方法很好地解決了客戶流失預測中的非平衡性和錯分代價問題。
1 客戶流失簡介
1.1 客戶流失定義
客戶流失與客戶挽留(customer retention)是同一問題的兩個方面,客戶流失管理的目標是要實現客戶挽留率的最大化與客戶流失率的最小化。客戶流失概念界定對于不同行業有一定差別,一般定義為客戶不再重復購買或終止服務,轉而去選擇另一家公司[3]。
1.2 客戶流失因素分析
根據客戶流失的意愿類型,可分為主動流失和被動流失[2]。被動流失是指公司主動放棄的客戶,被動流失主要是由客戶的欺詐行為、拖欠或濫用服務等因素所致。主動流失客戶一般占流失客戶的80%左右,是客戶流失預測的重點,主動流失又可分為無意流失與蓄意流失。無意流失是由客戶地點變更、財務變化或生活巨變等因素引起的,如因居住地變遷而無法獲得現有服務或客戶無力支付現有的服務,無意流失往往只占主動流失的一小部分。蓄意流失客戶是流失預測建模要識別的目標對象,客戶蓄意流失主要受企業產品或服務的技術因素、經濟因素等影響。
1.3 客戶流失預測
對于客戶流失預測問題,目前多采用數據挖掘方法建立預測模型來分析客戶流失的行為、影響因素及預測出哪些客戶將要流失。基于數據挖掘的客戶流失預測是一個典型的分類問題,多采用決策樹和神經網絡等方法。但客戶流失數據集具有其自身的特點:a)它是一個二分類問題,即預測客戶是否流失;b)數據的非平衡性問題,即流失客戶數據量與未流失客戶數據量相差很大,而常規的數據挖掘方法往往是基于兩類樣本數據量相差不大的假設前提;c)錯分代價差異性大,把流失客戶預測為非流失客戶所付出的挽留代價遠遠大于把未流失客戶預測為流失客戶所付出的挽留代價;d)數據量大,且數據維數較多。總之,針對客戶流失預測問題,傳統的數據挖掘方法尚存在很多不足。
2 代價敏感SVM
2.1 SVM算法原理
SVM算法是由Cortes等人[9]提出的,由于其在解決小樣本、非線性及高維模式識別問題中表現出許多特有的優勢,得到了廣泛的研究和應用。SVM以訓練誤差作為優化問題的約束條件,以置信范圍值最小化作為優化目標,即SVM是一種基于結構風險最小化準則的學習方法。針對兩分類問題,其主要思想是通過一個核函數把非線性問題映射到高維空間,在高維空間中尋找一個超平面,使它能夠最大限度地把兩類數據正確地分開。
對于兩分類問題,設樣本數據集(xi,yi),xi∈Rd,yi∈{-1,+1},i=1,2,…,N。
能被分類超平面f(x)=w×xi+b=0劃分為兩類,求最優分類面問題轉換為下列優化問題:
min:1/2×wTw+C(Ni=1ξi)
s.t. yi(wTxi+b)≥1- ξi,ξi≥0(1)
其中:w為權重向量;ξi為松弛因子;C為用于平衡經驗風險和結構風險的懲罰系數;b為偏置系數。
2.2 不同懲罰系數的SVM
由式(1)可知,懲罰系數C對于不同類別的樣本數據取值是相同的,當處理樣本量相差很大的數據時就會造成SVM過擬合樣本點較多的一類,而對于樣本點較少的數據學習不足,降低了SVM的分類性能。為此,Veropoluos等人[10]提出了對兩類樣本數據施加不同懲罰系數的方法,降低了兩類樣本數據量相差較大時對整體分類性能的影響。
min:1/2×wTw+C+N{i|yi=+1}ξi+C-N{i|yi=-1}ξi
s.t. yi(wTxi+b)≥1- ξi,ξi≥0(2)
其中:C+與C-為正負樣本的懲罰系數, 用于平衡正負樣本的經驗風險和結構風險。
2.3 基于代價敏感的支持向量機
針對客戶流失數據自身的特點,不僅要考慮正負樣本量相差較大的問題,還要考慮由錯分代價帶來的挽留成本問題。為此,本文采用代價敏感學習對式(2)進行改進,提出了一種代價敏感的SVM。
設樣本集為(xi,yi,costi),xi∈Rd,yi∈{-1,+1},costi≥0(i=1,2,…,N)。其中costi為第i個樣本被錯分的代價,與yi相關。其分類問題可描述為
min:1/2×wTw+C+N{i|yi=+1}costi ξi+C-N{i|yi=-1}costi ξi
s.t. yi(wTxi+b)≥1- ξi,ξi≥0(3)
構造Lagrange函數
L=1/2×wTw+C+N{i|yi=+1}costi ξi+C-N{i|yi=-1}costi ξi-
Ni=1αi(yi(wTxi+b)-1+ξi)-Ni=1βiξi(4)
由L/w=0,L/b=0,L/ξi=0,并滿足KKT條件:
αi(yi(wTxi+b)-1+ξi)=0
Ni=1αiξi=0(5)
解得此改進SVM,得到其對偶Lagrange表達式為
max:Q(α)=Ni=1αi-1/2Ni=1
Nj=1αiαjyiyjk〈xi,xj〉
s.t. Ni=1αiyi=0
0≤αi≤costi C+如果yi=+1
0≤αi≤costi C-如果yi=-1 (6)
3 實證研究
3.1 數據準備
數據集采用從某電信公司2006年4月~9月間隨機抽取的樣本9 148條數據,其中未流失類型客戶數據8 100條,主動流失類型客戶數據1 048條。在本實驗中,對于被動流失類型客戶在ETL階段進行了過濾,所以此數據集僅包含未流失客戶與主動流失客戶,并且根據客戶是否流失進行了標注。客戶狀態:1表示未流失,-1表示主動流失。特征的選擇考慮專家建議方法[4,6],主要包括客戶基本信息(性別、年齡、職業、籍貫、入網品牌)、客戶通話情況(通話時段、通話類型、平均通話時間、漫游類型、客戶價值類別等)、客戶服務情況(線路故障情況、投訴情況)、客戶狀態等屬性。
3.2 模型建立
應用本文提出的代價敏感SVM、傳統SVM、C4.5、ANN建立預測模型。其中代價敏感SVM與傳統SVM的實現參考Chang等人[11]的LibSVM2.8,在MATLAB7.1環境中完成。針對客戶流失數據非線性的特點,SVM核函數采用徑向基核函數K(X,Y)=exp(-‖X-Y‖/σ2)。對于代價敏感SVM,C+=CN_/(N++N_),C-=CN+/(N++N_)。其中根據經驗和多次實驗C的取值為10。對于錯分代價的取值,如果把流失客戶錯分為未流失客戶,錯分代價costi=5;如果把未流失客戶錯分為流失客戶,錯分代價costi=2,否則costi=0。C4.5和ANN在MATLAB7.1采用相應的工具箱來實現。其中C4.5采用常規模型,ANN模型采用包含兩個隱藏層的BP算法,把目標誤差設為0.05。
3.3 實驗結果
實驗結果的性能采用常規的數據挖掘指標,如精確度、命中率、覆蓋率和提升度進行評價。模型評價標準由分類矩陣(表1)得到。
表1 分類矩陣
流失情況預測未流失預測流失
實際未流失TPFP
實際流失FNTN
準確率:(TP+TN)/(TP+FP+FN+TN)
命中率:TN/(TN+FP)
覆蓋率:TN/(TN+FN)
提升度:命中率/實際的流失率
各模型的實驗結果由表2給出。分析可知,代價敏感的SVM在精確度、命中率、覆蓋率和提升度上均有所提高,表明此模型在預測客戶流失問題時,對于流失客戶有更好的命中率和覆蓋率,能夠使挽留成本投資在真正的流失客戶身上,最大可能地進行有效的挽留。
表2 實驗結果數據
預測模型精確度命中率覆蓋率提升度
代價敏感SVM0.738 10.288 00.801 42.513 0
SVM0.710 60.242 10.661 62.113 2
C4.50.711 40.235 20.623 32.053 2
ANN0.665 70.178 60.643 81.558 4
4 結束語
客戶流失預測是客戶關系管理中的重要一環,傳統的數據挖掘方法對于客戶流失問題預測效果并不理想。針對客戶流失數據非平衡的特點和錯分代價問題,本文將代價敏感學習方法應用于不同懲罰系數的SVM建立預測模型,通過實證結果分析表明,此模型的覆蓋率顯著提高,并且精確度、命中率和提升度也有不同程度的改善。說明此模型對于處理考慮錯分代價的非平衡數據具有良好的預測性能。
參考文獻:
[1]
REICHHELD F F,SASSER W E.Zero defections:quality comes to service[J].Harvard Business Review,1990,68(5):105111.
[2]WEI C P,CHIU I T.Turning telecommunications call details to churn prediction:a data mining approach[J].Expert Systems with Applications,2002,23(2):103112.
[3]MOZER M C,WOLNIEWICZ R,GRIMES D B,et al.Predicting subscriber dissatisfaction and improving retention in the wireless telecommunications industry[J].IEEE Trans on Neural Networks,2000,11(3):690696.
[4]王雷,陳松林,顧學道.客戶流失預警模型及其在電信企業的應用[J].電信科學,2006,22(9):4751.
[5]朱世武,崔嵬,謝邦昌.移動電話客戶流失數據挖掘[J].數理統計與管理,2005,24(1):6268.
[6]HADDEN J,TIWARI A,ROY R,et al.Computer assisted customer churn management:stateoftheart and future trends[J].Computers and Operations Research,2005,34(10):29022917.
[7]KIM S,SHIN K S,PARK K.An application of support vector machines for customer churn analysis: credit card case[C]//Proc of the 1st International Conference on Natural Computation.2005:636647.
[8] 應維云,覃正,趙宇,等.SVM方法及其在客戶流失預測中的應用研究[J].系統工程理論與實踐,2007,27(7):105110.
[9]CORTES C,VAPNIK V.Support vector networks[J].Machine Learning,1995,20(3):273297.
[10]VEROPOULOS K,CAMBELL C,CRISTIANINI N.Controlling the sensitivity of support vector machines[C]//Proc of the International Joint Conference on AI.1999:5560.
[11]CHANG C C,LIN C J.LIBSVM:a library for support vector machines[EB/OL].(2008).http://www.csie.ntu.edu.tw/~cjlin/libsvm/index.html.