摘 要:隨著4G時代的到來,通信運營商的競爭越來越激烈,在市場容量逐漸飽和,終端產品和通訊資費相對平穩的情況下,存量客戶的保有顯得更加重要,如何防止用戶流失,是各運營商關注的焦點問題。本文以某地區運營商的數據為依據,結合Modeler的CRISP-DM數據挖掘流程,運用決策樹C5.0算法建立用戶流失預測模型,并運用SPSS軟件進行分析,最后根據預測結果提出有針對性的維系策略。
關鍵詞:電信行業 客戶流失 預測研究
隨著4G牌照的發放、虛擬運營商的出現,給通信行業帶來了新的發展機遇和挑戰,市場競爭變得更加激烈。運營商的經營模式已從“生產型”向“利潤型”轉變,存量和增量是電信運營商發展客戶時最看重的兩個指標。但是隨著互聯網交友軟件的高速發展尤其是微信的普及,對傳統通信行業產生碾壓式的沖擊。因此存量客戶的保有顯得更加重要,只有確保存量市場的基本穩定,才能夠真正放開手去拓展增量市場,而影響存量市場穩定的最大因素就是客戶流失。
據某市運營商2016年3到5月的數據統計顯示,后付費用戶的流失率達到5.9%,而預付費流失率則達到9.8%,每個月總體有4萬多的用戶在流失,如果能將流失率減少一個百分點,就可以減少增量約4000戶,從而減少增量的成本。鑒于此,本文結合Modeler的CRISP-DM數據挖掘流程,重點研究基于決策樹C5.0算法的用戶流失預測模型,希望能精準抓取即將流失的目標用戶,盡早介入,并配合適當的政策,改善服務、提升用戶消費感知、降低流失規模。
一、文獻研究回顧
客戶流失問題已越來越引起電信運營商的重視,面對激烈的競爭,各運營商紛紛采用現代客戶關系管理理論提高客戶服務水平,以此來提高客戶的滿意率和忠誠度,從而有效減少客戶流失。數據挖掘是通過對大量數據的分析,來發現隱藏在數據內的有價值的信息,強大的數據分析能力已被應用到電信運營商的客戶關系管理中。采用數據挖掘方法進行客戶流失預測,在國內外已經開展了大量的研究工作。
美國的Sprint公司、法國電信、美國電話電報公司、加拿大移動通信局和比利時移動通信局等,都已經針對移動通信行業開展了客戶流失的數據挖掘工作。Wei等人以假設數據類別是對稱的條件為前提,使用客戶信息以及客戶通話行為信息作為研究樣本,在構建流失預測模型時選擇決策樹算法,并且獲得相對較高的提升度。Kitayama使用決策樹算法首先對客戶資料分類,進而將客戶分類為重要客戶和一般客戶,再根據客戶的其他行為特征對客戶進行分類,據此來識別客戶價值比較高的客戶,持續關注這類客戶的客戶關系流失前重點挽留。
國內也有不少學者展開了研究,應用C5.0決策樹算法、CART決策樹算法、RBF神經網絡建立固網客戶的收入流失預警模型,開展提前、有效的挽回營銷工作,最大程度減少客戶流失。基于決策樹C5.0、BP神經網絡及 Logistic回歸算法的組合預測模型,對某電信企業進行客戶流失預測,驗證了模型的有效性。針對基于我國電信運營商的數據運用決策樹等算法分別建立了相應的預測模型,并給出了維系客戶的對策。
由上述文獻可知,數據挖掘技術在電信行業客戶流失預測方面的研究和應用已經取得了很大的成果。但是,由于電信行業自身的特點,如數據量大、數據維度高、業務發展快等,用于建模的數據也產生了較大的變化,例如原來常用的語音類行為數據,在當前的移動互聯網時代,已不能全面反映出用戶的使用特征,用戶對于流量的使用情況已成為很重要的特征。因此,結合當前的業務實際,全面分析用戶的行為數據,有效掌握用戶的行為特征和興趣愛好,將更有效地提高客戶流失預警的準確率,從而降低客戶流失規模,節省營銷成本。
二、建模準備
CRISP-DM將挖掘過程分為商業理解、數據理解、數據準備、建立模型、評估模型、發布模型等六個子過程,其中這六個子過程可以反復迭代,直至達到商業理解的要求或建立出理想的模型為止。本文運用某地區開放的大數據平臺進行數據提取。通過對比用戶流失前后用戶信息、終端信息、上網行為、消費行為等方面特征, 分析影響客戶流失的重要因素,利用2016年3月出賬用戶及其4-6月的流失結果建立C5.0決策樹,預判2016年6月出賬用戶在7-9月的潛在流失情況。為下一步維系準流失用戶,提升用戶價值,做精準的數據支撐。
1.業務理解。流失客戶一般是指具有流失傾向,并且在未來的很短一段時間(如一個月)內極有可能真正流失的在網客戶。客戶在真正流失之前往往會有很多特征表現出來,比如通話費用和次數突然大幅下降,設置呼叫轉移到其他的號碼上,向其他運營商咨詢業務等。本文將數據流失定義為本月出賬用戶在接下來3個月任意一個月不出賬(數據庫月報表中,lost_tag=1),則為流失用戶。
用戶會受到如資費、服務、優惠活動、個人收入、工作等各方面的因素影響,這些客觀因素加上自身的體驗感知從而產生流失行為。欲流失用戶在消費行為上通常會有一定的表現特征,本文將流失用戶場景主要歸納為三種,如表1所示:
2.數據理解。數據理解的目的是在業務理解的基礎上,圍繞業務問題收集原始數據,明確數據含義,清晰數據的各種差異,并通過技術手段實現數據的一致化和集成化。另外,數據理解還包括數據質量的評估和調整,數據的多維度匯總瀏覽等,其目的是把握數據的總體質量,了解變量取值的大致范圍。
在電信行業,不同時期各運營商提供的產品、促銷、服務不盡相同,客戶體驗也有所差異,流失客戶表現出來的特征在不同時期也有較大差異。因此,建模用的訓練數據和測試模型用的測試數據應當取連續的一段時間或相近的一段時期,以保證預測的準確性。鑒于此,本文以某地市2016年3月出賬且入網1年以上的43.3萬全網語音用戶為建模目標用戶群,預測6月出賬且入網1年以上的42.2萬全網語音用戶流失情況。并且以上用戶群均剔除無語音、無短信、無流量用戶,以及極低使用(使用10分鐘、10M和10條短信以下)、純增值業務使用、純贈款使用用戶。
根據業務理解的流失場景分析及數據庫的現有指標信息,從3月出賬用戶數據中選取出相應的基礎指標,共選擇105個字段,其中1個目標字段:
(1)基礎信息:用戶編碼、用戶號碼、用戶性別、用戶年齡、在網時長、品牌名稱、套餐名稱等;
(2)消費行為(近3個月數據):流量使用情況、通話情況、短信發送情況、充值情況、網絡使用情況、終端類型、繳費情況等;
(3)用戶狀態及粘性信息:實時余額、是否停機、是否流失——輸出、是否銀行托收、套餐固定月租、增值月租出賬收入等;
(4)用戶標簽:社交達人、微信使用次數、國內長途強需求用戶、個人氣質類型、消費流量類型、港澳漫游需求用戶等;
3.用戶分群。鑒于本次涉及用戶規模較大,且用戶資費、人群有較大不同,針對提取的建模目標用戶群體,按照業務經驗,分別從用戶消費金額、合約情況、入網月數、付費方式等各角度對流失情況進行透視統計,得出用戶入網月數、付費方式不同的用戶流失率有較大區別,詳見表2、3。
(1)按入網月數分析。
顯然,隨著網齡的增加,用戶流失率逐步降低。網齡在兩年內的用戶是流失高發群體。對于網齡一年以上用戶,入網兩年內用戶的流失占比明顯高于入網兩年以上的用戶。
(2)按付費方式分析。
由表3知,后付費用戶的流失比例遠低于預付費,符合業務邏輯。
根據數據分析結果,本文要對建模目標用戶群體進行分群,再對每個細分的用戶群體分別進行建模,主要分成以下4類用戶群:預付費且入網2年內、預付費且入網2年以上、后付費且入網2年內、后付費且入網2年以上。
4.數據預處理。數據預處理是建模前的數據準備工作,數據預處理的目的一方面保證建模的數據是正確的,另一方面,通過對數據格式和內容的調整、轉化、衍變等使建立的模型更加準確和有效。本文數據預處理的工作主要包括對數據的選擇、清洗、缺失值的處理、屬性轉化、衍生變量的生成、離散化、抽樣等等。
(1)數據清洗。對2016年3月出賬用戶數據進行整理,共選擇105個字段,其中1個目標字段。對現有變量定義缺失值并進行數據審核,剔除缺失超過50%的字段。同樣,對新的衍生變量,計算波動值后需再一次進行數據清洗,經數據清洗后的數據完整字段達53.33%,完整記錄達56.54%,較未清洗前完整字段率有效提高5.29%,完整記錄有效提高56.54%。
(2)變量趨勢化。由于欲流失用戶在消費行為上會有一定的變化,尤其是在充值金額、充值次數、ARPU、流量、短信條數、通話時長、閑時流量、閑時通話、信用度等連續變量上體現一定程度的衰減變化。因此,對于近三個月的連續變量,以T-2、T-1月均值作為用戶正常的消費行為為基準,計算T-0月用戶因流失消費行為的波動值,綜合成新變量,即:
(3)變量離散化。極端值和離群值在建模時常常會使模型的參數擬合不準確,影響模型效果,離散化可以有效的降低異常數據對模型的影響。對于連續變量:余額、累計充值金額、增值業務出賬、微信使用次數存在不合乎常理的值,因此對連續變量進行最優離散化操作。使用IBM SPSS Statistics 19.0的的“最優分箱化”操作處理連續變量,指定根據流失標簽自動優化分箱,得到需要離散的變量有余額、累計充值金額、增值業務出賬、微信使用次數,最終處理結果見表4。
(4)變量寬表。根據以上原則和方法進行數據準備,最終得到模型輸入,部分內容見表5。
三、模型創建
1.模型建立。通過多種建模方式比較,本文選擇總體精準度較高的決策樹C5.0為最佳建模方法。利用2016年3月出賬用戶數據建立C5.0模型,并作以下操作,相應參數設置見圖1:
(1)將樣本集進行分割,選擇使用分區數據選項,并接入分區接點,選擇70%為訓練集,30%為測試集;
(2)為使輸出結果精度提高,組符號選項置空;
(3)為提高模型預測的穩健性,選擇使用boosting(自舉法),助推模型數量定為10個,交互驗證10次;
(4)模式使用簡單模式;
(5)模式支持普遍性,防止過度擬合;
(6)前期統計整體數據完整性,指定訓練集中的噪聲數據為20%。
2.模型評估。由于用訓練集擬合模型,而總體精確度是利用所有樣本進行計算,因此模型的預測能力會有所影響,本文通過測試分區對模型進行訓練,得出流失預測模型的預測能力,見表6。測試集精確度=(測試集正確預測流失用戶數+測試集正確預測不流失用戶數)/測試集預測數。
3.模型輸出及查全查準率分析。對于2016年6月出賬且入網一年以上用戶進行相同的數據預處理,得到與建模時相同的變量,利用變量通過C5.0模型預測后付費2年以上、后付費2年內、預付費2年以上和預付費2年內四個用戶群體的流失用戶,預測結果同步上傳到相應的數據庫,并對結果進行查全查準率計算,結果見表7。
四、模型應用
1.模型剪枝。為便于后期模型固化輸出,根據以上建模過程及思路,上述所建立的C5.0樹并未經過修剪。為了應用模型結果,提煉模型規則,將對C5.0進行剪枝。考慮到數據量較大,也為避免過度擬合的情形發生,設置為專家模式。
(1)后付費修剪嚴重性(純度)設定85,預付費2年以上修剪嚴重性(純度)設定為95,預付費2年內修剪嚴重性(純度)設定為100;
(2)每個子分支最小記錄數均為15;
(3)選擇全局修剪;
(4)因收入因子較多,選擇辨別屬性避免過度擬合。
2.形成決策樹。針對四類不同的用戶群體,分別運行模型形成對應的四棵C5.0決策樹,以下以后付費2年內用戶群為例進行展示,如圖2所示:
3.結果分析。
(1)結果可靠性分析。
C5.0模型輸出預測結果和置信度,置信度即為預測結果的可靠程度。通過比較置信度80%以上和80%以下的用戶,如表8所示,置信度較高的用戶判別準確率明顯高于置信度較低的用戶。因此,只針對置信度高于80%且判別為流失的用戶投放維系資源,這對于維系政策的精準投放,維系成本的有效控制具有重要作用。
(2)特征分析。
對2016年6月出賬預測為流失用戶從使用舒適度方面進行分析,如表9、10、11所示,制定相應的維系策略。
4.維系策略。
針對置信度高于80%且判別為流失的用戶,結合上述分析:
(1)后付費前期有超出套餐,但衰退用戶:該類用戶對套餐資源有一定需求,且對資費較為敏感,可通過存費送大流量、承諾最低消費送流量等業務增加用戶粘性;
(2)后付費無超出套餐且流量、語音衰退用戶:該類用戶對套餐資源需求較低,針對衰退30%以下用戶,需進一步分析用戶畫像人群,通過存費送機或通信類禮品對用戶進行捆綁;衰退30%以上用戶,采用人工介入輔導,通過降低套餐方式進行維系;
(3)預付費:超出套餐占比較低,整體流量使用率不高的用戶,可采取充值送話費方式進行維系。
隨著競爭的加劇,存量客戶的保有直接關系到各電信運營商的效益。如何在客戶即將流失之前有效發現并刻畫其重要特征,對于運營商留住客戶、提升自身競爭力具有重要意義。本文以CRISP-DM數據挖掘方法論為框架,從實際業務理解出發,通過分類預測模型中決策樹C5.0的算法建立了客戶流失預測模型,從預測結果看,有效獲取了客戶的流失傾向,對電信運營商營銷方案的制定提供了重要參考依據。
參考文獻:
[1]高洋.基于數據挖掘的電信客戶流失預測系統研究[D].昆明理工大學,2013,4.
[2]Chih-Ping Wei,I-Tang Chiu. Turning telecommunications call details to churn prediction: a data mining approach[J].Expert Systems with Applications, 2002,23(2).
[3]M Kitayama,R Matsubara,Y lzui. Application of data mining to customer profile analysis in the power electric industry[C].2002 IEEE Power Engineering Society Winter Meeting,2002.
[4]何躍等.基于數據挖掘的固網大客戶流失紀合預警[J].軟科學,2012(10).
[5]余路.電信客戶流失的組合預測模型[N].華僑大學學報,2016,9.
[6]郭俊芳.電信領域客戶流失預測模型的研究與實現[D].大連海事大學,2007,10.
[7]遲準. 電信運營企業客戶流失預測與評價研究[D].哈爾濱工程大學,2013,1.
作者簡介:徐文瑞(1980—)女,河南南陽人。廣東科學技術職業學院講師。研究方向:電子商務。