999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于神經網絡算法的電信客戶流失預測

2023-06-22 21:08:10于明鑫鄭雅勻
現代信息科技 2023年2期
關鍵詞:模型

于明鑫 鄭雅勻

摘? 要:電信客戶流失預測能夠有效地幫助運營商制定有用的挽留策略。文章收錄了來自某開源數據平臺的電信公司數據集,該數據集包含了22個字段,20個特征變量。文章通過SPSSModeler對數據集進行分析,通過比較貝葉斯網絡、神經網絡算法和C5.0算法的預測準確率、ROC值以及ROC曲線下面積,最終發現神經網絡算法通過訓練2次后的效果較好。

關鍵詞:C5.0;貝葉斯網絡;電信客戶流失預測;神經網絡

中圖分類號:TP18? ? 文獻標識碼:A? 文章編號:2096-4706(2023)02-0030-04

Telecom Customer Churn Prediction Based on Neural Network Algorithm

YU Mingxin, ZHENG Yayun

(Chengdu College of University of Electronic Science And Technology of China, Chengdu? 611731, China)

Abstract: Telecom customer churn prediction can effectively help operators develop useful retention strategies. This paper includes a data set of telecom companies from an open source data platform, which contains 22 fields and 20 characteristic variables. This paper analyzes the data set through SPSSModeler, and compares the prediction accuracy, ROC value, and area under the ROC curve of Bayesian network, neural network algorithm, and C5.0 algorithm. Finally, it is found that the neural network algorithm has a better effect after twice training.

Keywords: C5.0; Bayesian network; telecom customer churn prediction; neural network

0? 引? 言

近年來,電信業務呈現飛躍式增長,這離不開工作人員的努力。但是在這一行中,始終存在著流失與潛在客戶,或者更換運營商。用戶手機欠費、停機等都可以認為是用戶流失,這種損失是對業務業績有著較大影響的,因為我們并不清楚用戶的意圖,無論是相關業務人員的任期、是否已經開通相關服務,客戶端的網絡服務供應商還是否開通與之相關的服務,都在一定程度上反映了客戶是否流失,但不同的影響因素對電信客戶的影響程度是不同的。

對于電信客戶流失的分析,主要是為了分析流失客戶的行為特征,選擇22個字段中的特征變量進行分析,能提高預測的準確性和真實性,能有效預測電信客戶流失,以此為基礎已達到有效挽留客戶的目的。

本文通過使用神經網絡算法、貝葉斯網絡、C5.0算法對電信客戶流失進行了預測,比較三種算法的結果,再對神經網絡算法所建立的模型進行訓練,通過進行兩次訓練,直到無法進一步降低誤差,再對最優化模型通過bagging算法和boosting算法進行優化,通過再次比較這幾種算法,從而更清晰的判斷算法的準確性。

1? 文獻綜述

對于電信客戶流失的研究,近年來都有很大的進展,利用決策樹研究電信客戶流失是一個很常見的方法,喬健[1]等利用隨機森林CART特征改進算法對電信客戶流失進行了預測,對不均衡數據的二分類問題作出了解決。曹寧[2]等通過改進局部神經網絡算法對電信客戶流失進行了預測,將elman算法與灰色系統結合,將該模型與遺傳算法優化神經網絡模型和支持向量機(SVM)、以及卷積神經網絡(CNN)模型進行比較,改進后的模型效果較好。楊成義、林瑞瓊[3]通過使用Python,利用算法庫實現了邏輯回歸,支持向量機,K-means等算法,最終通過比較,制定了合理方案。張蕓[4]等通過對數據集缺失值的加工,對數據集使用了隨機森林算法進行了預測。李兵、陳俊才[5]利用TMRF算法與C4.5和傳統隨機森林進行比較,再對隨機森林進行訓練,結果顯示TMRF算法的效果較為優異。蔣溢[6]等通過使用lasso提取流失用戶特征輸入,通過構造性算法建立神經網絡,用邏輯回歸、支持向量機算法對該方法進行驗證,解決了類別偏斜分布對分類的影響。本文通過使用貝葉斯網絡、C5.0算法與神經網絡算法所建立的模型做比較,再對缺失值和極值進行替換或者舍棄,對缺失值進行處理,再通過比較幾種算法的模型預測準確性和AUC值,再比較ROC曲線下面積的大小,通過比較,C5.0算法的預測準確率較高,AUC值和ROC曲線下面積卻小于兩次訓練后的神經網絡算法所建立的電信客戶流失預測模型。

2? 數據與方法

2.1? 數據選擇和數據描述

本數據集來自某開源數據平臺,以電信公司5 986個數據為基礎構成,該數據集包含了客戶性別(gender)、客戶是否退休(seniorcitizen)、客戶是否已婚(partner)、客戶ID(customerID)、家屬(dependents)、任期(tenure)、是否已連接電話服務(PhoneService)、是否已連接多條電話線(MutipleLines)、客戶端的internet供應商(DSL、光纖、否)(InternetService)、是否已連接在線安全服務(onlinesecurity)、是否激活在線備份服務(onlineebackup)、客戶是否有設備保險(deviceprotection)、是否已連接技術支持服務(techsupport)、是否已連接流媒體電視服務(streamingtv)、客戶合同類型(contract)、客戶是否使用無紙化計費(paperlessbilling)、付款方式(paymentmethod)、當前每月付款(mothlycharges)、客戶在整個時間內為服務支付的總金額(totalchargers)等字段,目標變量為是否有流失(churm)。

2.2? 數據處理

本文利用SPSSModeler進行數據分析,如圖1所示,導入電信用戶數據集,并對數據集接入類型節點,在節點中輸入數據,變更數據類型,并設定churm為目標變量,對類型節點進行數據審核,排除極值和離群值影響,再對輸出結果進行數據審核。

確認無離群值和極值影響后,接入特征選擇節點,對22個字段的重要性進行評估,設定值>0.95為重要,其中multiplelines、gender、field1三個字段不重要,輸入結果如圖2所示。

3? 模型設定及算法研究

3.1? 算法概述

3.1.1? C5.0算法

C5.0算法是決策樹算法中的一種。其核心與C4.5相同,執行效率和內存使用優于C4.5。決策樹模型也被稱為推理模型,通過對訓練樣本的學習,建立分類規則,通過分類規則再對新樣本進行分類,決策樹分類是基于邏輯的。

決策樹C5.0的優點:能夠處理數據遺漏等主觀問題,模型簡單易于理解,能夠有較高的精度,有較高的確定性。

決策樹C5.0算法的缺點:C5.0算法只能解決分類問題。

3.1.2? 貝葉斯網絡

貝葉斯網絡是一種概率圖模型,是模擬人類推理過程中處理因果關系的不確定處理模型,期網絡拓撲結構是一個有向無環圖

貝葉斯網絡不支持環形網絡,對數據量較高,計算速度較慢。但具有強大的處理不確定數據的能力,能夠表達各個影響因素間的關系,能有效地將多元數據進行融合,再將故障診斷和維修決策納入網絡結構。

3.1.3? 神經網絡算法

神經網絡模型是一種模擬動物神經網絡行為特征,進行分布式并行信息處理的算法數學模型。該算法能大規模并行處理,有極高的運算速度。

神經網絡模型具有很強的非線性擬合能力,可以分析復雜的非線性關系,通過模仿動物神經元的工作系統,因此具有很強大的學習能力。但是沒能力解釋自己的推理過程和推理依據,將特征變量轉換成數據,容易造成數據丟失。

3.2? 模型建立

選擇進行特征選擇后的變量為輸出變量,選擇分區節點,設置訓練集、測試集分別為70%和30%,并分別連接貝葉斯網絡節點、C5.0節點、神經網絡節點,建立神經網絡模型后,對模型進行兩次訓練得到最優模型,再分別用bagging算法和boosting算法對模型進行優化,再判斷模型的優劣性,并對模型進行評估、繪制ROC曲線。模型如圖3所示。

4? 模型評價指標

4.1? 召回率

召回率衡量了在所有模型中正確的概率,即召回率越高,漏報率越小。

(1)

4.2? 精確率

精度也稱正確率,精確度衡量了所有模型中鎖預測為正確的概率,精確率與誤報率相對。

(2)

4.3? 混淆矩陣

混淆矩陣是機器學習中總結分類模型預測結果得到的分類表。

TP:將正類預測為正類數,真實為真,預測也為真。

FN:將正類預測為負類數,真實為真,預測為假。

FP:將負類預測為正類數,真實為假,預測為真。

TN:將負類預測為負類數,真實為假,預測也為假。如表1所示。

4.4? ROC曲線

縱坐標為真正率(TPR),橫坐標為假正率

(3)

(4)

ROC曲線反映了排序知量的好壞,即結果的好壞,ROC曲線的量化指標:AUC(曲線下面積),AUC越大越好。

5? 各特征變量對電信客戶流失的預測模型

比較三個模型的AUC值,$N2-Churn模型訓練集的AUC值為0.845,$N2-Churn是$N-Churn訓練兩次得到的結果,$N3-Churn、$N4-Churn模型是分別用bagging和boosting算法改進后得到的結果,AUC值均小于$N2-Churn模型。對比模型如表2所示。

比較訓練后的神經網絡算法與C5.0算法的準確率,如表3、表4所示。C5.0算法的爭取率均高于神經網絡算法。神經網絡算法的AUC值和GINI系數均高于C5.0算法。

ROC曲線下的面積在一定程度上反映了模型預測的準確率,神經網絡算法的ROC曲線下面積最大,模型效果好,如圖4所示。

即神經網絡算法預測效果最好,神經網絡算法經過兩次訓練,直到無法進一步降低誤差的,其準確性為81.1%。如圖5所示。

比較神經網絡算法中各個預測變量的重要性,可以發現用戶任期(tenure)對目標變量用戶流失(churm)非常重要,為0.21,用戶合同類型(contract)對目標變量用戶流失(churm)較為重要,為0.16。是否有伴侶(partner)和家屬(dependents)對目標變量用戶流失的重要性較小,為0.02,是否已連接技術支持服務(techsupport)及其他因素重要性多集中在0.03到0.09之間,對電信客戶流失的預測影響較為一般。結合圖6的ROC曲線所示,經過兩次訓練后的神經網絡算法對電信客戶流失預測的有效性和可行性,可以根據神經網絡算法對用戶流失制定相關方案。

6? 結? 論

通過分析5 986個樣本數據,通過研究22個變量客戶性別(gender)、客戶是否退休(seniorcitizen)、客戶是否已婚(partner)、客戶ID(customerID)、家屬(dependents)、任期(tenure)、是否已連接電話服務(PhoneService)、是否已連接多條電話線(MutipleLines)、客戶端的internet供應商(DSL、光纖、否)(InternetService)、是否已連接在線安全服務(onlinesecurity)、是否激活在線備份服務(onlineebackup)、客戶是否有設備保險(deviceprotection)、是否已連接技術支持服務(techsupport)、是否已連接流媒體電視服務(streamingtv)、客戶合同類型(contract)、客戶是否使用無紙化計費(paperlessbilling)、付款方式(paymentmethod)、當前每月付款(mothlycharges)、客戶在整個時間內為服務支付的總金額(totalchargers)等對電信客戶流失(churm)的預測,使用了貝葉斯網絡、C5.0算法和神經網絡算法對預測結果進行了輸出,分別對比其模型預測準確率、AUC值和ROC曲線,通過對神經網絡建立的模型進行兩次訓練與利用boosting算法和bagging算法進行模型優化,直到無法進一步降低誤差,通過使用特征選擇節點,增大了預測的準確性和精確性,通過比較優化后的模型和訓練后的模型,最終得到經過兩次訓練后的神經網絡模型預測效果最好,具有一定的實用價值。

參考文獻:

[1] 喬健,諸佳慧,嚴康桓.基于隨機森林CART特征選擇改進算法的電信客戶流失預測模型 [J].電信工程技術與標準化,2022,35(3):78-82.

[2] 曹寧,王雨薇,高瑩,等.基于改進Elman模型的電信公司客戶流失分析 [J].西安文理學院學報:自然科學版,2022,25(1):50-55.

[3] 楊成義,林瑞瓊.數據挖掘在電信客戶流失預警模型中的應用 [J].現代信息科技,2021,5(17):32-34.

[4] 張蕓,宋雙.非完備數據的寬帶客戶流失預測 [J].中國新通信,2021,23(14):125-126.

[5] 李兵,陳俊才.基于TMRF算法的電信客戶流失預測方案研究 [J].數字技術與應用,2021,39(4):116-121.

[6] 蔣溢,伍書平,胡昆,等.基于Lasso和構造性覆蓋算法的不均衡數據分類方法 [J/OL].計算機應用,2022[2022-08-12].http://www.joca.cn/CN/10.11772/j.issn.1001-9081.2022040490.

作者簡介:于明鑫(2001—),男,漢族,四川遂寧人,本科在讀,研究方向:數據挖掘;通訊作者:鄭雅勻(1994—),女,漢族,遼寧大連人,講師,碩士,研究方向:機器學習。

收稿日期:2022-08-21

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 91视频99| 依依成人精品无v国产| 欧美国产中文| 亚洲中文字幕久久精品无码一区| 欧美日韩国产精品va| 亚洲福利视频网址| 精久久久久无码区中文字幕| 色悠久久综合| 久草网视频在线| 日日噜噜夜夜狠狠视频| 国产香蕉97碰碰视频VA碰碰看| 波多野结衣一区二区三视频| 亚洲精品福利视频| 激情国产精品一区| 日韩无码黄色| 国产三级韩国三级理| 一级毛片无毒不卡直接观看| 18禁影院亚洲专区| 亚洲成a人片| 亚洲区第一页| 日本精品一在线观看视频| 午夜影院a级片| 亚洲国产日韩视频观看| 国内视频精品| 国语少妇高潮| 91亚洲视频下载| 97av视频在线观看| 在线国产你懂的| 伊人丁香五月天久久综合 | 色偷偷综合网| a天堂视频| 亚洲一区波多野结衣二区三区| 91人人妻人人做人人爽男同| 成人精品视频一区二区在线| 国产尤物在线播放| 免费一级毛片不卡在线播放| 99久久国产自偷自偷免费一区| 亚洲中文字幕久久精品无码一区| 欧美成人免费| 91亚洲免费| 国产乱人视频免费观看| 国产福利不卡视频| 成人国产免费| 天天摸夜夜操| 国产免费久久精品44| 国产小视频免费| av在线手机播放| 乱人伦视频中文字幕在线| www中文字幕在线观看| 国产无码在线调教| 国产精品成人第一区| 国产一区二区三区视频| 国产美女91呻吟求| 成人综合网址| 亚洲美女一区| 在线观看免费人成视频色快速| 国产99在线| 国产精品3p视频| 婷婷六月综合网| 无码中文字幕乱码免费2| 伊人91在线| 18禁高潮出水呻吟娇喘蜜芽| 国产男女免费完整版视频| 国产在线98福利播放视频免费| 99无码熟妇丰满人妻啪啪| 久久久亚洲色| a毛片基地免费大全| 欧美成a人片在线观看| 午夜国产大片免费观看| a级毛片在线免费| 国产迷奸在线看| 欧美日韩国产精品va| 精品久久久久成人码免费动漫| 国产日韩精品欧美一区喷| 亚洲精品无码日韩国产不卡| 欧美精品在线视频观看| 激情六月丁香婷婷四房播| 成人综合在线观看| 欧美啪啪视频免码| 免费在线观看av| 久久精品欧美一区二区| 精品视频一区在线观看|