999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人工數據合成法下的通訊客戶預警模型

2021-08-06 19:34:19余婉露
計算機時代 2021年7期
關鍵詞:數據挖掘案例模型

余婉露

摘? 要: 如何幫助企業提前識別高風險流失客戶,已成為許多管理者關心的問題。許多數據挖掘方法用于通訊客戶流失案例中時,存在因變量的分布不均勻導致算法精度下降的問題。文章采用人工數據合成法來解決該問題,提出四種客戶流失預警模型:GLM-logistic回歸模型,GAM-logistic回歸模型,Sem-parameter GAM-logistic回歸模型和隨機森林模型。以AUC和覆蓋率-捕獲率作為評價指標進行比較,構建出最合適該案例的Sem-parameter GAM-logistic預警模型,以幫助企業減少不必要的客戶流失及由此帶來的企業損失。

關鍵詞: 人工數據合成法; 預警模型; Sem-parameter GAM-logistic; 覆蓋率-捕獲率

中圖分類號:O213? ? ? ? ? 文獻標識碼:A? ? ? 文章編號:1006-8228(2021)07-06-04

Communication customer churn prediction model with synthetic data generation

Yu Wanlu

(Jinshan College of Fujian Agriculture and Forestry University, Fuzhou, Fujian 350002, China)

Abstract: How to help enterprises identify high-risk customer churn in advance has become one of the concerns of many enterprise managers. When many data mining methods are used in communication customer churn cases, the uneven distribution of dependent variables leads to the decline of algorithm's accuracy. In this paper, synthetic data generation is used to solve this problem, and four customer churn early warning models are put forward, i.e. GLM-logistic regression model, GAM-logistic regression model, Sem-parameter GAM-logistic regression model and random forest model. And AUC and coverage rate-capture rate are used as evaluation indexes to build the most suitable Sem-parameter GAM-logistic early warning model for the case, so as to help the enterprise reduce unnecessary customer churn and the losses caused thereby.

Key words: synthetic data generation; prediction model; Sem-parameter GAM-logistic; coverage rate-capture rate

0 引言

隨著大數據處理和分析技術的不斷發展,客戶選擇產品以及服務的形式越來越多樣化,所以,企業如何對客戶數據進行深度挖掘,減少現有客戶群流失且發現新的客戶群體,顯得十分重要。以通訊運營商企業為例,通訊企業想要在日益激烈的市場環境下穩定快速發展,并收獲最大經濟、社會效益,就離不開高質量的企業客戶維系管理[1],因此,通訊客戶流失量預測與分析成為各大運營商關注的焦點問題。

數據挖掘技術不斷進步,越來越多的客戶流失預警模型都用到了數據挖掘技術。在眾多預警模型中,常用的數據挖據算法有邏輯回歸模型、廣義可加模型、支持向量機、決策樹、神經網絡、隨機森林等[2-3]。正確選擇以及處理預警模型對模型預測的準確性及效率有著很大影響。

本文深入分析和研究了一些常用客戶流失預警模型的相關算法[4],比較各種模型的優勢和不足。目前有許多數據挖掘方法還僅限于理論研究,在客戶資源流失預測領域的運用仍存在著許多的缺失。①大多數現實案例選用的流失預警模型的算法單一,預測效果不佳,無法幫助企業精準識別高風險流失客戶,也因此影響了客戶流失預警模型的一般性。②客戶流失量數據是一種典型的不平衡數據,流失客戶為小規模用戶,在客戶流失預警模型的預測過程中,容易掩蓋流失客戶數據行為的大量變化特征,使得客戶流失量預測的準確性降低。③針對客戶流失預警模型的評價方法缺乏合理性。對模型采取的評價指標不同,會影響對模型效果好壞的判定,最終影響企業管理者對高風險流失客戶的保護策略。

為解決上述問題,本文以通訊客戶為案例,基于人工數據合成法的基礎上,提出四種客戶流失預警模型:GLM-logistic回歸,GAM-logistic回歸,Sem-parameter GAM-logistic回歸模型,隨機森林。

1 數據說明及處理

1.1 樣本及其來源

文章研究數據來自某移動通信公司,隨機選取5萬個左右VIP(平均每月花費大于80元)客戶,2014-2015年月度的基礎通訊數據和通話詳單數據為樣本,數據來源于文獻《自我網絡特征對電信客戶流失的影響》[5]。樣本量為48393,隨機取30000個數據為訓練集;18393為測試集。

1.2 數據說明及處理

1.2.1 因變量說明及處理

文章研究的因變量表示客戶是否流失,為1-0變量,1表示客戶流失,0表示客戶不流失,具體的因變量介紹見表1。

從表1可以發現,流失客戶為小規模用戶,在客戶流失的預測過程中流失客戶的數據行為的大量變化特征將被掩蓋,不平衡數據使得算法精度下降,尤其對于小類的預測精度會很低,所以本文采用人工數據合成法(Synthetic Data Generation),解決數據的不平衡問題。該方法是利用生成人工數據,而不是重復原始觀測來解決不平衡性。借助R語言統計分析軟件[6]實現人工數據合成法,得到改善后的因變量見表2。

從表2可以看出,借助人工數據合成法(Synthetic Data Generation),客戶流失率從1.34%提升到49.6%,有效解決數據的不平衡問題。

1.2.2 自變量說明及處理

文章研究的因變量包括在網時長、當月費用、費用的變化率、聯系強度、個體的度、個體度的變化率、個體信息熵,自變量說明見表3。

自變量的生成方法以及推導過程,可參考文獻[5]。由于自變量皆為連續變量,在后文的模型建立中,所有自變量數據作標準化處理。

2 通訊客戶流失預警模型的實證研究

為了給通訊企業提供性價比高的客戶識別方案,對于客戶是否流失這樣的分類問題,建立以下四種分類模型,來做分析比較。

2.1 GLM-logistic回歸模型

GLM-logistic回歸模型的一般形式如下:

[logitPY=1=logp1-p=β0+β1x1+β2x2+…+βmxm] ⑴

公式⑴可計算得出在給定一系列[X]取值時[Y=1]的概率,系數[βi]的大小可以用來反映用來反映因變量[Y]與自變量[X]之間的某種關聯。針對本案例數據,GLM-logistic回歸模型具體如下:

[logitPY=1=β0+β1tenure+β2expense+? ? ? ? ? ? ? ? ? ? ?β3degree+β4tightness+β5entropy+]

[? ? ? ? ? ? ? ? ? ? ?β6chgexpense+β7chgdegree] ⑵

使用該模型在測試集上的混淆矩陣結果見表4。

2.2 GAM-logistic回歸模型

GAM模型是一種非參數模型,該模型相比參數模型的優勢在于其不需要假設某種函數形式,只需要滿足自變量對因變量的影響是獨立即可。該模型的一般形式如下:

[gμ=β0+f1(x1)+f2(x2)+…+fm(xm)]? ⑶

其中,[μ=E(Y|X1,X2,…Xm)]。在客戶流失的案例中,因變量通常表示客戶是否流失,所以文章采用GAM模型與logistic回歸分析相結合的方法,對通訊客戶案例進行客戶流失預警分析。GAM-logistic回歸模型的一般形式如下:

[logitPY=1=logp1-p=β0+f1(x1)+f2(x2)+…+fm(xm)] ⑷

在公式⑷中,[fi(xi)]為平滑函數,[ i=i,2,…,m],用來代替有固定參數的傳統線性項。針對本案例數據,GAM-logistic回歸模型具體如下:

[logitPY=1=? ?β0+f1tenure+f2expense+? ? ? ? ? ? ? ? ? ? f3degree+f4tightness+f5entropy+? ? ? ? ? ? ? ? ? ?f6(chgexpense)+f7(chgdegree)]? ⑸

使用該模型在測試集上的混淆矩陣結果見表5。

2.3 Sem-parameter GAM-logistic回歸模型

在現實的應用中,所有的變量作線性假設往往不太合理,為了增加模型的可解釋性和靈活性,半參廣義可加模型是基于統計模型方法的較好選擇。綜合考慮廣義可加模型的回歸結果,[entropy]、[expense]這兩個變量線性成分明顯,其他的變量非線性成分均明顯,所以,在本部分分別將[entropy]、[expense]作為線性成分處理,其他變量均以非線性形式出現在模型中。

[logitPY=1=β0+f1tenure+β2expense+? ? ? ? ? ? f3degree+f4tightness+β5entropy +]

[? ? ? ? ? ? f6(chgexpense)+f7(chgdegree)]? ⑹

使用該模型在測試集上的混淆矩陣結果見表6。

2.4 隨機森林

隨機森林(random forest)是一種有監督學習方法,隨機森林模型中可以同時生成多個預測模型,并匯總模型的結果以提升分類準確率。該方法的優勢在于不存在過擬合問題,并且分類性能好[7]。本模型采用隨機森林進行分析。利用R語言統計分析軟件,可以得到變量的重要性度量,如圖1所示。

由圖1可以看出幾個變量重要程度都較高,其中最重要的變量分別為個體的度和個體度的變化率,這說明客戶通話人數對該客戶流失與否的影響很大,通訊企業應重點關注客戶這兩個變量的情況。使用該模型在測試集上的混淆矩陣結果見表7。

3 模型評價

文章采取兩個指標對模型進行評價,第一個指標是測試集上的AUC;第二個指標是在測試集上計算覆蓋率—捕獲率[5]。

3.1 指標1——AUC

在數據挖掘領域,AUC值是作為客戶流失預警模型的常用評價指標之一。AUC值越大,效果越好。本案例中四個模型最終得到的AUC值如表8所示。

由表8可知,若以AUC值為評價指標,Sem-parameter GAM-logistic回歸模型效果最佳。

3.2 指標2——覆蓋率-捕獲率

本研究還采用覆蓋率-捕獲率作為評判模型預測精度的指標。覆蓋率-捕獲率曲線指的是在給定成本下,我們根據模型或者隨機選取一定的客戶,能找到真正流失的客戶占總流失客戶的比例,這個值越高,表明模型越好。

假設通訊企業選取20%的客戶進行保護,則采用不同預警模型抽中流失客戶的比例也不同。具體結果如表9所示。

從表9可知,若以覆蓋率-捕獲率作為評判模型預測精度的指標,可發現半參GAM-logistic回歸模型效果最好,GLM-logistic回歸模型的效果最差。

4 結論

客戶流失管理正越來越受到企業的關注和重視。客戶流失預警作為一種有效的客戶流失管理方法,對潛在流失客戶進行預測分析,及時預警并采取相應挽留措施,可以有效減少不必要的客戶流失,一定程度上減少企業損失。在這樣的背景下,本文提出了基于數據挖掘的客戶流失預警模型研究,通過對比模型的預測效果,發現無論是從指標1還是指標2來看,Sem-parameter GAM-logistic回歸模型在是否流失的分類問題上,效果均顯示較好。此外,無論使用哪種預測模型,預測效果均明顯優于不使用模型的隨機預測效果。

因此,建議企業可采取的措施有:借助客戶流失預警模型,根據成本預算來選擇不同的覆蓋率,對客戶進行預測,設定閾值,一旦預測的流失概率超過了設定的閾值,那么企業應重點關注該客戶。

本研究還存在著一些不足和需要改進的地方,如所構建的四種流失預警模型的拓展性不強,當現實案例出現新的數據集時,預測效果缺乏穩定性。因此,我們下一步的研究方向是在不同領域尋找最優的客戶流失預警模型算法。

參考文獻(References):

[1] 羅彬,邵培基,羅盡堯等.基于預算限制和客戶挽留價值最大化的電信客戶流失挽留研究[J].管理學報,2012.9(2):280

[2] 盛昭瀚,柳炳祥.客戶流失危機分析的決策樹方法[J].管理科學學報,2005.8(2):20-25

[3] Hastie T,Tibshirani R, Friedman J. The Elements of

Statistical Learning Data Mining,Inference,and Prediction, Second Edition[M].世界圖書出版公司,2009.

[4] YANG Q, WU X. 10 challenging problems in data mining

research[J].International Journal of Information Technology & Decision Making,2006.5(4):597-604

[5] 周靜,周小宇,王漢生.自我網絡特征對電信客戶流失的影響[J].管理科學,2017.5.

[6] 方匡南,朱建平,姜葉飛.R數據分析方法與案例詳解[M].電子工業出版社,2015.

[7] LI X K, CHEN W, ZHANG Q, et al. Building auto-encoder

intrusion detection system based on random forest feature selection[J]. Computers & Security,2020.95:101851

猜你喜歡
數據挖掘案例模型
一半模型
案例4 奔跑吧,少年!
少先隊活動(2021年2期)2021-03-29 05:40:48
探討人工智能與數據挖掘發展趨勢
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
隨機變量分布及統計案例拔高卷
發生在你我身邊的那些治超案例
中國公路(2017年7期)2017-07-24 13:56:38
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
3D打印中的模型分割與打包
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 精品国产香蕉伊思人在线| 亚洲动漫h| 国产剧情一区二区| 亚洲无限乱码| 91在线精品麻豆欧美在线| 色婷婷亚洲综合五月| 亚洲乱码精品久久久久..| 久久国产精品影院| 美女无遮挡免费网站| 国产农村1级毛片| 蜜臀AV在线播放| 最新国产你懂的在线网址| 亚洲天堂777| 欧美日韩精品一区二区视频| 国产福利一区在线| 国产免费人成视频网| 久久亚洲中文字幕精品一区| 国产真实乱子伦视频播放| 国产日韩AV高潮在线| 中文字幕免费在线视频| 亚洲午夜福利精品无码不卡| 丁香五月激情图片| 天堂网国产| 午夜精品福利影院| 欧美成人精品在线| 日韩在线欧美在线| 日韩少妇激情一区二区| 亚洲成人在线网| 一级毛片免费观看久| 日本午夜视频在线观看| 日本在线亚洲| 国产精品护士| 中文字幕在线看视频一区二区三区| 色噜噜久久| 亚洲无限乱码一二三四区| 免费A级毛片无码免费视频| 国产原创第一页在线观看| 91无码人妻精品一区二区蜜桃| 亚洲婷婷丁香| 天天综合亚洲| 99久久99视频| av一区二区无码在线| 在线观看精品国产入口| 亚洲午夜综合网| V一区无码内射国产| 福利国产在线| 久久永久精品免费视频| 亚洲女同一区二区| 中文字幕欧美日韩| 国产小视频免费观看| 国产福利拍拍拍| 国产精品乱偷免费视频| 国产大片黄在线观看| 干中文字幕| 国内精品久久九九国产精品 | 精品久久人人爽人人玩人人妻| 91香蕉国产亚洲一二三区 | 国产精品久久自在自线观看| 少妇露出福利视频| 99热国产在线精品99| 国产精品视频系列专区| 看国产一级毛片| 91久久精品日日躁夜夜躁欧美| 亚洲一区网站| 日韩免费成人| 操美女免费网站| 美女啪啪无遮挡| 中文字幕亚洲电影| 97在线国产视频| 亚洲IV视频免费在线光看| 久久黄色影院| 国产久操视频| 无遮挡国产高潮视频免费观看| 国产波多野结衣中文在线播放| 国产成人精品亚洲日本对白优播| 国产精品国产三级国产专业不 | 亚洲人成人伊人成综合网无码| 伊大人香蕉久久网欧美| 中国一级特黄视频| 亚洲中文制服丝袜欧美精品| 日韩第一页在线| 久久亚洲欧美综合|