余路
(1. 西南大學 計算機與信息科技學院, 重慶 北碚 400715;2. 重慶涪陵廣播電視大學 教務(wù)處, 重慶 涪陵 408000)
?

電信客戶流失的組合預(yù)測模型
余路1,2
(1. 西南大學 計算機與信息科技學院, 重慶 北碚 400715;2. 重慶涪陵廣播電視大學 教務(wù)處, 重慶 涪陵 408000)
針對電信行業(yè)客戶流失的問題,設(shè)計基于決策樹C5.0、BP神經(jīng)網(wǎng)絡(luò)及 Logistic 回歸算法的組合預(yù)測模型,并對某電信企業(yè)進行客戶流失預(yù)測.預(yù)測結(jié)果表明:與單一客戶流失預(yù)測模型相比,組合預(yù)測模型命中準確率高,預(yù)測效果好,更能直觀地顯示出流失客戶的基本特征.
客戶流失; 預(yù)測模型; 電信企業(yè); 決策樹C5.0; BP神經(jīng)網(wǎng)絡(luò); Logistic回歸算法
電信市場的競爭愈來愈激烈,為使企業(yè)的利潤最大化,各通信運營商都把爭取更多的客戶作為營銷的最終目標.但是隨著競爭的不斷加劇,客戶流失成為各企業(yè)運營過程中面臨的主要問題,不僅使市場份額減少,還會出現(xiàn)客戶惡意離網(wǎng)產(chǎn)生欠費行為,增加了企業(yè)的運營成本,造成嚴重的經(jīng)濟損失[1].有分析稱,開發(fā)一個新的客戶比挽留一個老的客戶所產(chǎn)生的成本高很多倍[2].因此,做好客戶關(guān)系管理,防止客戶流失是通信行業(yè)提升企業(yè)核心競爭力的有效手段.針對以往客戶關(guān)系管理過程中無法監(jiān)控客戶流失的問題,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到通信客戶流失預(yù)警分析中,利用其強大的數(shù)據(jù)分析手段,建立客戶消費特征等屬性與客戶流失可能性之間的關(guān)聯(lián)模型,可實現(xiàn)對客戶狀態(tài)的實時監(jiān)控.因此,尋求一種有效的建模與評估方案是研究人員關(guān)注的重點[3-5].針對決策樹、神經(jīng)網(wǎng)絡(luò)及邏輯回歸3種單一算法的模型特點和預(yù)測效果,本文嘗試建立一種基于3種算法的組合預(yù)測模型,并應(yīng)用所建模型對某電信企業(yè)進行客戶流失預(yù)測,以驗證模型的有效性.
1.1數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是利用數(shù)據(jù)分類算法在海量的、隨機分布的數(shù)據(jù)中提取隱含在數(shù)據(jù)當中的,能為人們提供決策作用的信息的過程[6].數(shù)據(jù)挖掘包含兩方面含義:一是能夠處理海量數(shù)據(jù);二是具有挖掘探索的能力.因強調(diào)從海量數(shù)據(jù)中獲取信息的過程,所以數(shù)據(jù)挖掘技術(shù)更側(cè)重于后者.
1.2數(shù)據(jù)挖掘算法
1.2.1決策樹分類方法決策樹基于信息增益理論,通過分析樣本中的數(shù)據(jù)挖掘其中的知識和規(guī)律,是目前應(yīng)用最廣泛的數(shù)據(jù)分類算法之一.決策樹結(jié)構(gòu)包含了若干個節(jié)點和分支,其中,節(jié)點表示某個屬性上的測試,分支則表示測試的結(jié)果.常見的決策樹算法有ID3,C4.5/C5.0等[7-9],主要用于事件的預(yù)測分析.決策樹預(yù)測過程分兩步進行:一是利用訓練集建立并進化一棵決策樹;二是測試各節(jié)點的屬性值,對輸入數(shù)據(jù)進行分類,用該類的屬性值完成預(yù)測對象的估計.

圖1 神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.1 Model structure of neural network
1.2.2神經(jīng)網(wǎng)絡(luò)分類方法作為一種人腦思想仿真的數(shù)據(jù)分析模式,神經(jīng)網(wǎng)絡(luò)以海量數(shù)據(jù)并行處理和計算為基礎(chǔ),用于描述認知,決策等智能控制行為.典型的神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)包括輸入層、隱含層和輸出層,由若干神經(jīng)元連接而成,如圖1所示.BP神經(jīng)網(wǎng)絡(luò)是應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)算法,其輸出表達式[10-11]為
(1)
式(1)中:wi,j為連接權(quán)系數(shù);fj為激勵函數(shù);θj為神經(jīng)元的閾值;xi為神經(jīng)元的輸入.
BP神經(jīng)網(wǎng)絡(luò)采用有師學習方的式進行訓練,能夠?qū)崿F(xiàn)任何復(fù)雜非線性映射的功能,其訓練過程以輸出誤差最小為原則,逐層修正各連接權(quán)系數(shù)和閾值,其訓練過程如圖2所示.

圖2 神經(jīng)網(wǎng)絡(luò)的訓練過程Fig.2 Training process of neural network
1.2.3邏輯回歸分類方法邏輯回歸的思想來源于多元線性回歸,與多元回歸連續(xù)性變量不同,邏輯回歸的因變量是非連續(xù)性的變量.邏輯回歸主要用來預(yù)測某種情況下事件發(fā)生的概率,一般用于處理二值型因變量,一般用“1”或“0”代表預(yù)測結(jié)果[12-13].
設(shè)事件發(fā)生的影響因素為m個變量,用向量X′=(X1,X2,X3,…,Xm)表示;根據(jù)觀測量相對于某事件發(fā)生的概率為條件概率,用P(Y=1|x)=p表示,則邏輯回歸的模型可表示為
(2)
2.1組合預(yù)測模型的建立
針對典型分類算法的特點,在開放式數(shù)據(jù)挖掘工具Clementine 中建立基于決策樹、神經(jīng)網(wǎng)絡(luò)及邏輯回歸算法的組合客戶流失模型,構(gòu)造Lagrange函數(shù)[14]為
(3)
式(3)中:xi,yi,zi分別為C5.0,BP和Logistic 回歸算法單一模型的預(yù)測值;λ為Lagrange 算子;αk為組合預(yù)測的權(quán)重系數(shù),且k=1,2,3.

步驟1將預(yù)處理后得到的數(shù)據(jù)集進行劃分:文中的劃分比例為訓練集占60%,測試集占40%.
步驟2 選用決策樹C5.0、BP神經(jīng)網(wǎng)絡(luò)及邏輯回歸3個基本分類模型分別對訓練集進行建模.
步驟3 將測試集中的樣本數(shù)據(jù)帶入前面建好的模型中進行預(yù)測,得到預(yù)測分析結(jié)果.
步驟4分別將3種單一模型的預(yù)測結(jié)果帶入構(gòu)造好的Lagrange函數(shù),得到多算法組合預(yù)測模型的權(quán)重系數(shù),從而建立組合預(yù)測模型.
步驟5計算預(yù)測結(jié)果.
基于Lagrange 函數(shù)的多算法組合模型的預(yù)測流程,如圖3所示.

圖3 組合模型預(yù)測流程Fig.3 Forecasting process of combination model
2.2模型評價
分別采用單一算法模型與多算法組合模型進行預(yù)測分析,預(yù)測結(jié)果如表1所示.由于論文篇幅的限制,這里僅列出其中的10個預(yù)測結(jié)果.為進一步分析不同模型算法的預(yù)測準確程度,對表1中各預(yù)測結(jié)果進行統(tǒng)計,結(jié)果表明:C5.0模型的命中率為88.95%;LR模型的命中率為87.38%;BP模型的命中率為87.11%;組合模型的命中率為92.07%.
基于Lagrange的多算法組合預(yù)測模型集合了各單一模型的預(yù)測優(yōu)勢,大大提高了客戶流失的預(yù)測命中率,達到92.07%,比單一模型的預(yù)測命中率提升了近5%.
假設(shè)某電信運營企業(yè)的流失客戶數(shù)為300 000個,根據(jù)各模型算法的預(yù)測命中率進行計算,分別得到單一模型和組合模型預(yù)測客戶流失的數(shù)量及誤判率,如表2所示.表2中:m為流失數(shù)量;n為誤判人數(shù);η為誤差率;w為誤判損失.

表1 不同模型算法的客戶流失預(yù)測結(jié)果

表2 組流失量預(yù)測及誤判率對比結(jié)果
由表2可知:在客戶流失數(shù)量的預(yù)測中,多算法組合模型的誤判人數(shù)明顯減小,預(yù)測誤差率僅為實際數(shù)量的5.5%;設(shè)每個人的月均消費為30元,那么由組合模型所造成的誤判損失也將大大降低,僅是單一模型預(yù)測損失的一半左右.由此可見,與單一客戶流失預(yù)測模型相比,基于Lagrange的多算法組合模型預(yù)測效果好,可有效預(yù)測客戶流失和流失傾向,達到預(yù)測期望,企業(yè)可針對預(yù)測結(jié)果制定相應(yīng)的避免客戶流失的對策.
客戶流失是通信行業(yè)運行過程中常見的問題,直接影響到運營商的企業(yè)效益.數(shù)據(jù)挖掘可以根據(jù)客戶信息、消費行為等歷史數(shù)據(jù)判斷客戶流失的可能性,避免因營銷手段的盲目性造成的成本浪費.對決策樹C5.0、BP神經(jīng)網(wǎng)絡(luò)和Lagrange回歸算法3種典型數(shù)據(jù)分類方法進行分析,針對單一模型客戶流失預(yù)測建模的特點,建立了基于Lagrange 函數(shù)的組合預(yù)測模型.預(yù)測結(jié)果表明:所建立的組合模型對電信客戶流失預(yù)測命中率大幅提高,預(yù)測效果好,能有效獲取客戶的流失傾向,使電信企業(yè)營銷方案的制定更具針對性.
[1]夏國恩.客戶流失預(yù)測的現(xiàn)狀與發(fā)展研究[J].計算機應(yīng)用研究,2010,27(2):151-153.
[2]張線媚.數(shù)據(jù)挖掘在電信行業(yè)客戶流失預(yù)測中的應(yīng)用[J].微型機與應(yīng)用,2015,34(15):99-102.
[3]劉光遠,苑森淼,董立巖.數(shù)據(jù)挖掘方法在用戶流失預(yù)測分析中的應(yīng)用[J].計算機工程與應(yīng)用,2007,43(9):154-156.
[4]郭俊芳,周生寶.基于聯(lián)合決策樹的客戶流失預(yù)測模型設(shè)計[J].計算機與現(xiàn)代化,2010(5):5-7.
[5]尹婷,覃錫忠,賈振紅,等.基于WEKA 的客戶流失預(yù)測研究[J].激光雜志,2013,34(5):44-46.
[6]仲繼.電信企業(yè)客戶流失預(yù)測模型研究[D].西安:西安科技大學,2011:21-22.
[7]張曉濱,高峰,黃慧.基于客戶細分的客戶流失預(yù)測研究[J].計算機工程與設(shè)計,2009,30(24):5755-5758.
[8]王曉華.電信數(shù)據(jù)挖掘的數(shù)據(jù)質(zhì)量評估技術(shù)研究[D].杭州:浙江大學,2010:7-10.
[9]潘大勝,屈遲文.一種改進ID3型決策樹挖掘算法[J].華僑大學學報(自然科學版),2016,37(1):71-73.
[10]CONG H E, REN Lihong, DING Yongsheng. Performance prediction of carbon fiber protofilament based on SAGA-SVR [J].Journal of Donghua University,2014,31(2):92-97.
[11]李愛群,喬晗,王汝傳,等.基于分布式混合數(shù)據(jù)挖掘的電信客戶流失分析[J].計算機技術(shù)與發(fā)展,2010,20(10):43-46.
[12]朱龍.利潤約束的關(guān)聯(lián)規(guī)則挖掘算法[J].華僑大學學報(自然科學版),2015,36(9):522-526.
[13]THANGAPARVATHI B,ANANDHAVALLI D,SHALINIE S M.A high speed decision tree classifier algorithm for huge dataste[C]∥IEEE-International Conference on Recent Trends in Information Technology.[S.l.]:IEEE Press,2011,10(6):695-700.
[14]遲準.電信運營企業(yè)客戶流失預(yù)測與評價研究[D].哈爾濱:哈爾濱工程大學,2013:73-74.
(責任編輯: 陳志賢英文審校: 吳逢鐵)
Combination Forecasting Model of Customer Churns in Telecom Industry
YU Lu1,2
(1. School of Computer and Information Science, Southwestern University, Chongqing 400715, China;2. Teaching Affair Office, Chongqing Fuling Radio and television University, Chongqing 408000, China)
According to telecommunication customer churn problem, the forecasting model based on decision tree C5.0, BP (back-propagation) neural network and logistic regression algorithm combination is designed, and according to orecasting of the customer churns in some telecom companies, the accuracy is higher and prediction effect is good in combination forecasting model compared to a single customer churn prediction model. It shows the basic features of the customer churn more directly.
customer churn; forecasting model; telecom industry;decision tree C5.0; back-propagation neural network; logistic regression algorithm
10.11830/ISSN.1000-5013.201605022
2016-06-20
余路(1972-),男,講師,博士,主要從事計算機數(shù)據(jù)庫技術(shù)的研究.E-mail:flddyl@126.com.
重慶市自然科學技術(shù)研究項目(KJ131302)
TP 311.5
A
1000-5013(2016)05-0637-04