999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據技術的電信客戶流失預測模型研究及應用

2018-05-07 01:56:04許乃利
信息通信技術 2018年2期
關鍵詞:數據挖掘用戶模型

許乃利

中國聯合網絡通信有限公司安徽省分公司 合肥 230061

基于大數據技術的電信客戶流失預測模型研究及應用

許乃利

中國聯合網絡通信有限公司安徽省分公司 合肥 230061

為減少用戶流失,提高用戶保有率,文章介紹一種基于智慧運營平臺,將大數據技術和數據挖掘技術相結合,對電信客戶流失進行預測的模型。該模型利用大數據技術處理用戶離網前的海量數據信息,分析流失用戶特征,建立用戶流失預測,提前鎖定流失風險較高的用戶,有針對性地制定維挽策略,精準開展維系挽留活動,能夠有效降低用戶離網率。

大數據;流失預測;數據挖掘;客戶流失;維系挽留

引言

隨著移動通信成本逐步下降,移動用戶滲透率超過100%,新增市場趨于飽和,面對新增市場的激烈競爭,存量用戶的保有顯得越來越重要。一項調查數據表明,爭取1位新客戶的成本是保住1位老客戶的5倍。面對新的競爭形勢,運營商需要從傳統只重視增量發展模式向“增存并重”發展模式轉變。如何最大限度地降低客戶的流失并挽留客戶,成為決策者關注的話題。

客戶流失給運營商帶來了巨大損失,成功挽留一個即將流失的客戶比重新發展一個客戶節約大量成本。減少客戶流失的關鍵是提前預測潛在的流失客戶,采取相關措施提高客戶的滿意度,實現該預測的關鍵是數據挖掘[1]和大數據技術。基于大數據技術的數據挖掘就是從海量的客戶資料、使用行為、消費行為、上網軌跡等信息中提取有用的信息進行組合關聯,準確判斷客戶流失的現狀或傾向,可以讓企業及時并有針對性的對客戶進行挽留[2];因此,利用大數據技術進行數據挖掘,預測客戶流失、減少客戶流失的發生成為電信行業研究的重點。

1 國內外研究現狀

在數據挖掘方面,國外有很多案例和做法值得學習,比如:文獻[3]中運用決策樹、Logistic回歸、人工神經網絡等算法建立了移動用戶流失預測模型。Lightbridge[4]公司運用CART算法分析了新英格蘭的一家移動服務商的數據并建立了客戶流失模型。AT&T公司很早就開始在大數據上的探索[5],2009年開始與Teradata公司合作引進天睿公司的大數據解決方案。

在過去的幾十年中,中國企業都扮演著技術跟隨者的角色,現階段我國互聯網企業在數據挖掘、大數據處理以及人工智能、云計算等領域都有了巨大的發展。比如文獻[6]中使用K-means聚類算法對電信客戶進行細分,在此基礎上探索了客戶細分在營銷中的實際應用。文獻[7]中利用神經網絡算法建立用戶流失預測模型,分析用戶流失特征。文獻[8]中利用Spark平臺實現了多種神經網絡算法,對用戶流失問題提出了快速精確的模型。

國內的電信企業雖然都建立了客戶流失預測、客戶分群等模型,但大多都是基于數據挖掘軟件如SPSS、SAS等應用,使用的數據量有限,不能全面分析用戶流失行為。

2 大數據平臺及技術

安徽聯通構建基于B域、O域和M域數據融合的大數據平臺——智慧運營平臺,實現數字化轉型及全業務流程的智慧運營。智慧運營平臺通過企業級大數據平臺實現企業全量數據的接入及治理,當前包括Hadoop、Universe、實時流處理三大資源池,共計140多個節點,存儲容量3PB、2200核CPU、8T內存計算資源,實現資源動態管理;流處理平臺具備百萬級別消息并發處理能力,支持1分鐘級別提供用戶位置能力(見圖1)。

圖1 智慧運營平臺架構圖

智慧運營平臺接入BSS、CBSS、OSS、SEQ、上網等全網多種數據源,利用BDI(Big Data Integration,數據集成套件)和Flume進行離線數據及日志數據的抽取、轉換、加載等數據采集功能,實現高性能海量數據處理和存儲。利用Hadoop、Universe、實時流處理三大資源池,有效支撐上層各種應用的開發和運行。利用基于大數據分析平臺構建的新一代智能數據挖掘系統SmartMiner進行自動化數據挖掘,實現各種算法模型的訓練和預測。借助智慧運營平臺強大的大數據分析和處理能力,結合現網客戶運營的經驗,建立有效的用戶流失預測模型,實現用戶的流失預警、維系策略匹配、客戶反饋優化等一整套流程,能夠有效降低用戶流失。

3 離網預測模型構建

3.1 離網預測原理

離網預測模型[9]主要是根據歷史數據特征,通過數據挖掘算法,建立預測模型,并將模型應用于現網用戶,預測出離網概率高的用戶。其主要包括數據準備、模型訓練和驗證、離網預測三大部分[10]。如圖2所示,數據準備階段,根據出賬和充值規律定義離網規則,通過對電信業務和用戶行為的理解,從運營商各域數據里提取數據,并篩選離網預測特征字段,構建離網預測特征庫。模型訓練和驗證階段,選取數據挖掘算法,進行模型訓練、評估和調優,訓練出最佳模型。離網預測階段,將訓練的最佳模型應用于現網數據,實現準確的流失預測。進一步通過有效的維系手段,對預測流失用戶進行精準維系,減少用戶離網,提升在網用戶價值。

圖2 離網預測模型構建示意圖

3.2 隨機森林算法

傳統數據挖掘中進行流失預測多采用決策樹算法[11],它的特點有訓練時間復雜度低、預測的過程比較快、模型容易展示等。但是單決策樹容易過擬合,雖然可以通過剪枝等方法減少這種情況的發生,但仍有不足。2001年Leo Breiman在決策樹的基礎上提出了隨機森林算法[12]。

隨機森林是由多個決策樹構成的森林,算法分類結果由這些決策樹投票得到,決策樹在生成過程中分別在行方向和列方向上添加隨機過程,行方向上構建決策樹時采用有放回抽樣(bootstrapping)得到訓練數據,列方向上采用無放回隨機抽樣得到特征子集,并據此得到其最優切分點。從圖3中可以看到,通過K次訓練,得到K棵不同的決策樹{T1,T2,…,TK},再將這些樹組合成一個分類模型系統,隨機森林是一個組合模型,內部仍然是基于決策樹,同單一的決策樹分類不同的是,隨機森林通過多個決策樹投票結果進行分類,算法不容易出現過度擬合問題。

圖3 隨機森林算法示意圖

3.3 數據準備

3.3.1 離網定義及數據需求

為了進一步提前鎖定離網傾向用戶,經過歷史數據的比對,結合用戶使用行為的分析,決定將過繳費期10天未繳費的用戶定義為流失用戶。根據傳統數據挖掘實現的離網預測案例的經驗,考慮到大數據系統的處理能力,通過對連續3個月內離網的用戶進行離網打標,增加離網用戶的樣本量,提高離網預測的準確率;通過對目標用戶中隔月后離網的用戶進行打標,預留1個月的預測結果干預期,進行維系挽留。如圖4所示,采用連續7個月的歷史數據,對第N-6月的數據進行隔月后的連續3個月(N-4月、N-3月、N-2月)離網用戶打標,取N-6月、N-5月、N-4月連續3個月的正負樣本并集,解決了傳統打標負樣本量不足和維系干預期太短等問題。

圖4 正負樣本打標示意圖

3.3.2 數據特征提取

根據業務經驗,選取與用戶流失可能存在相關性的所有屬性,進行數據審查,篩選存在相關性較大的特征屬性。本次建模數據特征主要采用B域用戶通信及消費行為等基本屬性、衍生屬性(匯總、比例、趨勢和波動)、挖掘屬性等,增加O域樣本數據,如上網行為、終端屬性指標(換機、應用偏好、掉話率、上網協議響應成功率等)。如表1所示,數據維度包括基礎信息維度、通信行為信息、賬務信息、消費行為變化維度、交往圈信息、呼叫異網維度、投訴維度、通信行為維度及上網軌跡、掉話率等。根據這些維度數據合并匯總成數據挖掘特征寬表,用于模型訓練和驗證。

表1 特征寬表部分屬性

3.4 建立模型

流失客戶預測模型的建立,具體包括原始數據處理、特征寬表構建、模型訓練、模型評估和模型調優五個部分。如圖5所示,智慧運營平臺通過連接全網數據的接口,獲取建模所需的BSS系統(業務支持系統)數據和OSS系統(運營支持系統)數據。BSS系統是運營商向用戶開展業務的主要IT組成部分,OSS系統是電信服務提供商用來管理通信網絡的主要系統。BSS數據包括CRM(客戶關系)、Billing(賬單數據)、詳單數據及投訴數據,OSS數據包括分組交換數據(Package Switch,PS)、測量報告數據(Measurement Report,MR)和電路交換數據(Circuit Switch,CS)。其中PS數據描述了用戶連接網絡的情況,如上網速度、掉線率和移動搜索文本信息;MR數據可以用來給用戶定位,獲取用戶運動軌跡;CS數據描述的是用戶的通話質量,如掉話率等。

我們將獲取的原始數據存儲到Hadoop分布式文件系統中(HDFS),然后再利用Hive進行特征生成和處理工作。HDFS可以處理PB級別的超大文件,Hive可以提供簡單的SQL查詢功能,并能將SQL語句轉化為MapReduce任務分布式運行。

圖5 模型構建框架圖

特征寬表生成后,我們利用Spark的高效計算能力,在SmartMiner中選取隨機森林算法進行流失預測模型的訓練,經過訓練結果的多次驗證和評估,我們將隨機森林設置為200顆樹,SQR采樣方法,樹的最大深度為15層,葉子最小樣本數100個,最大分箱數32,進行模型建立。將分類器訓練出來的模型應用到現網數據,可以預測未來3個月有離網傾向的用戶,按照離網傾向的高低排名,鎖定維系挽留的目標客戶。

3.5 模型評估

訓練模型的好壞可以通過對歷史流失數據的檢驗來驗證,模型評估參數一般包括準確率和覆蓋率,準確率越高、覆蓋率越大,模型效果越好,其中:準確率=預測流失準確的客戶數 / 預測為流失的客戶數;覆蓋率=預測流失準確的客戶數 / 實際流失的客戶數。

如圖6所示,我們根據建模訓練數據的規則,可以在第N月預測第N+2月、N+3月、N+4月的流失用戶,第N+1月為我們的維系窗口期。

我們選取2016年1~6月數據進行訓練,對7~10月數據進行模型預測,如圖7所示,經過2016年9月至2017年2月數據的驗證,可以得到7~10月的預測數據TOP50 000中查準率基本在80%,查全率40%。

圖6 模型預測示意圖

圖7 7~10月模型預測評估情況

4 離網根因分析

通過對離網用戶的特征屬性進行聚類分析,離網用戶大致原因可以分為:資費原因、合約感知原因、社會交往影響原因、終端換機原因、地域變更原因、服務質量原因、通信質量原因、棄卡原因、新入網質量原因及其他原因等。如表2所示,提取2016年11月數據預測2017年1~3月離網概率top400 000用戶,對其離網情況進行驗證,其準確率達到52%以上。

5 應用

5.1 策略匹配

通過對流失用戶的根因分析,結合現有維系業務,將預測的離網用戶,根據業務特征進行分類,匹配相應策略指導市分VIP維系客戶經理進行外呼維系。如表3所示,將離網傾向較高的用戶分為話務異常、業務異常和服務異常三類,針對話務異常用戶,重點進行優惠活動介紹,增加用戶黏性;對于業務異常用戶,推薦合約續約及更換SIM卡;對于服務異常用戶,進行及時安撫并給予一定贈送。

表2 離網特征驗證

表3 維系策略匹配表

5.2 維系效果

針對三星級以上用戶,我們利用在網維系系統進行了針對性的維系挽留。從2017年1月開始,我們將大數據系統預測出的離網傾向較高的高價值用戶通過在網維系系統下發到市分VIP客戶經理處,根據匹配的策略進行精準維系。如圖8所示,2015年9月至12月,高價值用戶準離網率平均值為2.04%,全網準離網率為3.6%。模型應用后,高價值離網率從2017年2月開始持續降低,如圖9所示,截至2017年7月下降到1.35%,平均準離網率為1.49%,相比應用前的2.04%下降了0.55%,每月多挽留客戶8230戶,高價值戶均ARPU按90元計算,月均減少損失74萬元,年減少損失888萬元。

圖8 實施前高價值用戶流失情況

圖9 實施后高價值用戶流失情況

6 小結

本文闡述了利用智慧運營大數據平臺,對流失客戶的特征進行的分析和研究,利用SmartMiner分析系統選取隨機森林算法,建立客戶流失預測模型,通過多次的訓練和優化,逐步提高流失預測模型的準確性。通過對離網用戶的根因分析,制定相應維系策略,匹配到相應的離網傾向用戶,在全網進行了系統化的精準維系,有效提升了用戶保有率。下一步將結合維系效果,繼續優化模型參數,完善訓練模型,進一步提升流失預測的準確率和覆蓋率,繼續研究用戶流失根因,根據離網根因匹配維系策略,進一步降低用戶流失,增強用戶黏性,提升客戶價值。

[1] 王瑾. 基于數據挖掘的電信客戶流失預測研究[D]. 西安:西安電子科技大學, 2012:35-42

[2] 劉志超,王雷,谷壘,等.基于數據挖掘技術的客戶流失預警模型[J].微計算機信息,2011,(2):176-177

[3] Mozer MC,Wolniewicz R,Grimes DB.et al. Predicting Subscriber Dissatisfaction and Improving Retention in the Wireless Telecommunications Industry[J]. IEEE Transactions on Neural Networks, 2000,11(3):690-6

[4] TADESSE T,WILHITE DA,HARMS SK,et al. Drought Monitoring Using Data Mining Techniques: A Case Study for Nebraska,USA[J].Natural Hazards,2004,33(1):137-59

[5] 全球十大電信如何玩大數據[EB/OL].[2017-12-12].http://www.199it.com/archives/210931.html

[6] 朱姍姍.數據挖掘在電信行業客戶細分的應用研究[D].沈陽:遼寧大學,2012

[7] 孫碧穎.基于神經網絡算法構建電信用戶流失預測模型的研究[D].蘭州:蘭州大學,2016:5-10

[8] 鄭杰文.基于Spark平臺的通信網用戶流失預測研究[D].合肥:中國科學技術大學,2017.2-6

[9] 王建仁,李妮,段剛龍.基于信息融合的電信客戶流失預測研究[J].計算機工程與應用,2016,(10):64-70

[10] 楊遠佳.數據挖掘在電信客戶流失預測中的應用[D].長沙:湖南大學,2016:8-16

[11] 張宇,張之明.一種基于C5.0決策樹的客戶流失預測模型研究[J].統計與信息論壇,2015,(1):89-94

[12] 邱一卉.基于剪枝隨機森林的電信行業客戶流失預測[J].廈門大學學報(自然科學版),2014,(6):817-822

許乃利

碩士,工程師,安徽省通信學會大數據分會副秘書長、中國聯通IT戰略人才骨干人才、中國聯通牛人實驗室大數據技術與應用學習小組組長。目前主要從事客戶分析、數據挖掘、大數據精準營銷及客戶運營等工作。

編者按本欄目關注信息通信行業最新動態及趨勢的分析評論,刊登通信企業、行業專家在管理運營、策略規劃、業務創新等方面的研究成果。

Ovum是一家在世界電信產業界富有權威性的獨立/中立咨詢顧問公司;本期選取了Ovum關于德電數字化戰略的研究(本文由Ovum提供并翻譯,原文請見http://www.unicomlabs.cn/ICT.jsp);本期還選取了華為運營商市場部關于視頻戰略發展演進的解析,供大家參考。

Research and Application of Telecom Customer Churn Prediction Model Based on Big Data Technology

Xu Naili

Anhui Branch of China United Network Communications Co., Ltd., Hefei 230061, China

Finding better ways for customer churns to reduce users' loss and improving customer experiences has become one of the critical competitive abilities for telecom operators. This paper introduces atelecom customer churn prediction model and its applications by using big data mining and artificial intelligence technologies. This model uses the vast amount of call detail records to find the reasons of customer losses and analyzes the characteristics of the lost customers. A customer churn prediction model is established based on these analyses as a tool to help field sales predict possible customer losses. The model is also used to create specific promotions, policies and sales strategies to retain these customers, thus significantly reduces customer losses.

Big Data; Churn Analysis; Data Mining; Customer Churn; Customer Retention

猜你喜歡
數據挖掘用戶模型
一半模型
探討人工智能與數據挖掘發展趨勢
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 在线看国产精品| 无码精品国产dvd在线观看9久| 在线观看国产小视频| 亚洲男人天堂久久| 五月激情综合网| 国产亚洲精久久久久久无码AV| 狠狠五月天中文字幕| 国产经典三级在线| 国产麻豆91网在线看| 黄色网在线| 日本人妻一区二区三区不卡影院 | 71pao成人国产永久免费视频| 亚洲色图欧美激情| 在线欧美日韩| 精品偷拍一区二区| 国产真实二区一区在线亚洲| 欧美精品成人一区二区视频一| 国产精品亚洲一区二区在线观看| 国产成人毛片| 999国内精品视频免费| 欧美日韩福利| 1024国产在线| 日韩第一页在线| 国产不卡在线看| 狠狠色噜噜狠狠狠狠色综合久| 国产人成在线观看| 国产大片黄在线观看| 国产精品无码一二三视频| 欧美高清视频一区二区三区| 青草视频免费在线观看| 激情無極限的亚洲一区免费 | 丰满人妻一区二区三区视频| 极品av一区二区| 最新国产精品鲁鲁免费视频| 午夜欧美在线| 五月婷婷综合色| 另类重口100页在线播放| 91久久青青草原精品国产| 色婷婷国产精品视频| 中日无码在线观看| 国产精品极品美女自在线网站| 中文字幕亚洲电影| 99久久99这里只有免费的精品| 高清久久精品亚洲日韩Av| 国产成人AV男人的天堂| 国产男人天堂| 色综合天天综合中文网| 欧美亚洲国产日韩电影在线| 欧美在线导航| 中日韩一区二区三区中文免费视频 | 无码中文字幕精品推荐| 欧美一区二区自偷自拍视频| 中国丰满人妻无码束缚啪啪| 一本一道波多野结衣一区二区| 欧美翘臀一区二区三区| 国产黄色片在线看| 国产av色站网站| 伊人久久福利中文字幕| 3344在线观看无码| 免费一级大毛片a一观看不卡| 久久精品日日躁夜夜躁欧美| 中文字幕乱码中文乱码51精品| 久久国产乱子| 国产成人一区在线播放| 国产精品页| 亚洲国产综合精品一区| 99精品视频九九精品| 免费观看国产小粉嫩喷水| 中文字幕va| 毛片网站在线看| 国产一区二区福利| 午夜性爽视频男人的天堂| 国产欧美视频一区二区三区| 中文字幕无码电影| 色综合天天综合| 伊人精品成人久久综合| 国产理论精品| 亚洲天堂2014| 成人免费一区二区三区| 国产成人AV综合久久| 亚洲成年人片| 这里只有精品免费视频|