999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于神經網絡算法的電信客戶流失預測

2023-06-22 21:08:10于明鑫鄭雅勻
現代信息科技 2023年2期
關鍵詞:模型

于明鑫 鄭雅勻

摘? 要:電信客戶流失預測能夠有效地幫助運營商制定有用的挽留策略。文章收錄了來自某開源數據平臺的電信公司數據集,該數據集包含了22個字段,20個特征變量。文章通過SPSSModeler對數據集進行分析,通過比較貝葉斯網絡、神經網絡算法和C5.0算法的預測準確率、ROC值以及ROC曲線下面積,最終發現神經網絡算法通過訓練2次后的效果較好。

關鍵詞:C5.0;貝葉斯網絡;電信客戶流失預測;神經網絡

中圖分類號:TP18? ? 文獻標識碼:A? 文章編號:2096-4706(2023)02-0030-04

Telecom Customer Churn Prediction Based on Neural Network Algorithm

YU Mingxin, ZHENG Yayun

(Chengdu College of University of Electronic Science And Technology of China, Chengdu? 611731, China)

Abstract: Telecom customer churn prediction can effectively help operators develop useful retention strategies. This paper includes a data set of telecom companies from an open source data platform, which contains 22 fields and 20 characteristic variables. This paper analyzes the data set through SPSSModeler, and compares the prediction accuracy, ROC value, and area under the ROC curve of Bayesian network, neural network algorithm, and C5.0 algorithm. Finally, it is found that the neural network algorithm has a better effect after twice training.

Keywords: C5.0; Bayesian network; telecom customer churn prediction; neural network

0? 引? 言

近年來,電信業務呈現飛躍式增長,這離不開工作人員的努力。但是在這一行中,始終存在著流失與潛在客戶,或者更換運營商。用戶手機欠費、停機等都可以認為是用戶流失,這種損失是對業務業績有著較大影響的,因為我們并不清楚用戶的意圖,無論是相關業務人員的任期、是否已經開通相關服務,客戶端的網絡服務供應商還是否開通與之相關的服務,都在一定程度上反映了客戶是否流失,但不同的影響因素對電信客戶的影響程度是不同的。

對于電信客戶流失的分析,主要是為了分析流失客戶的行為特征,選擇22個字段中的特征變量進行分析,能提高預測的準確性和真實性,能有效預測電信客戶流失,以此為基礎已達到有效挽留客戶的目的。

本文通過使用神經網絡算法、貝葉斯網絡、C5.0算法對電信客戶流失進行了預測,比較三種算法的結果,再對神經網絡算法所建立的模型進行訓練,通過進行兩次訓練,直到無法進一步降低誤差,再對最優化模型通過bagging算法和boosting算法進行優化,通過再次比較這幾種算法,從而更清晰的判斷算法的準確性。

1? 文獻綜述

對于電信客戶流失的研究,近年來都有很大的進展,利用決策樹研究電信客戶流失是一個很常見的方法,喬健[1]等利用隨機森林CART特征改進算法對電信客戶流失進行了預測,對不均衡數據的二分類問題作出了解決。曹寧[2]等通過改進局部神經網絡算法對電信客戶流失進行了預測,將elman算法與灰色系統結合,將該模型與遺傳算法優化神經網絡模型和支持向量機(SVM)、以及卷積神經網絡(CNN)模型進行比較,改進后的模型效果較好。楊成義、林瑞瓊[3]通過使用Python,利用算法庫實現了邏輯回歸,支持向量機,K-means等算法,最終通過比較,制定了合理方案。張蕓[4]等通過對數據集缺失值的加工,對數據集使用了隨機森林算法進行了預測。李兵、陳俊才[5]利用TMRF算法與C4.5和傳統隨機森林進行比較,再對隨機森林進行訓練,結果顯示TMRF算法的效果較為優異。蔣溢[6]等通過使用lasso提取流失用戶特征輸入,通過構造性算法建立神經網絡,用邏輯回歸、支持向量機算法對該方法進行驗證,解決了類別偏斜分布對分類的影響。本文通過使用貝葉斯網絡、C5.0算法與神經網絡算法所建立的模型做比較,再對缺失值和極值進行替換或者舍棄,對缺失值進行處理,再通過比較幾種算法的模型預測準確性和AUC值,再比較ROC曲線下面積的大小,通過比較,C5.0算法的預測準確率較高,AUC值和ROC曲線下面積卻小于兩次訓練后的神經網絡算法所建立的電信客戶流失預測模型。

2? 數據與方法

2.1? 數據選擇和數據描述

本數據集來自某開源數據平臺,以電信公司5 986個數據為基礎構成,該數據集包含了客戶性別(gender)、客戶是否退休(seniorcitizen)、客戶是否已婚(partner)、客戶ID(customerID)、家屬(dependents)、任期(tenure)、是否已連接電話服務(PhoneService)、是否已連接多條電話線(MutipleLines)、客戶端的internet供應商(DSL、光纖、否)(InternetService)、是否已連接在線安全服務(onlinesecurity)、是否激活在線備份服務(onlineebackup)、客戶是否有設備保險(deviceprotection)、是否已連接技術支持服務(techsupport)、是否已連接流媒體電視服務(streamingtv)、客戶合同類型(contract)、客戶是否使用無紙化計費(paperlessbilling)、付款方式(paymentmethod)、當前每月付款(mothlycharges)、客戶在整個時間內為服務支付的總金額(totalchargers)等字段,目標變量為是否有流失(churm)。

2.2? 數據處理

本文利用SPSSModeler進行數據分析,如圖1所示,導入電信用戶數據集,并對數據集接入類型節點,在節點中輸入數據,變更數據類型,并設定churm為目標變量,對類型節點進行數據審核,排除極值和離群值影響,再對輸出結果進行數據審核。

確認無離群值和極值影響后,接入特征選擇節點,對22個字段的重要性進行評估,設定值>0.95為重要,其中multiplelines、gender、field1三個字段不重要,輸入結果如圖2所示。

3? 模型設定及算法研究

3.1? 算法概述

3.1.1? C5.0算法

C5.0算法是決策樹算法中的一種。其核心與C4.5相同,執行效率和內存使用優于C4.5。決策樹模型也被稱為推理模型,通過對訓練樣本的學習,建立分類規則,通過分類規則再對新樣本進行分類,決策樹分類是基于邏輯的。

決策樹C5.0的優點:能夠處理數據遺漏等主觀問題,模型簡單易于理解,能夠有較高的精度,有較高的確定性。

決策樹C5.0算法的缺點:C5.0算法只能解決分類問題。

3.1.2? 貝葉斯網絡

貝葉斯網絡是一種概率圖模型,是模擬人類推理過程中處理因果關系的不確定處理模型,期網絡拓撲結構是一個有向無環圖

貝葉斯網絡不支持環形網絡,對數據量較高,計算速度較慢。但具有強大的處理不確定數據的能力,能夠表達各個影響因素間的關系,能有效地將多元數據進行融合,再將故障診斷和維修決策納入網絡結構。

3.1.3? 神經網絡算法

神經網絡模型是一種模擬動物神經網絡行為特征,進行分布式并行信息處理的算法數學模型。該算法能大規模并行處理,有極高的運算速度。

神經網絡模型具有很強的非線性擬合能力,可以分析復雜的非線性關系,通過模仿動物神經元的工作系統,因此具有很強大的學習能力。但是沒能力解釋自己的推理過程和推理依據,將特征變量轉換成數據,容易造成數據丟失。

3.2? 模型建立

選擇進行特征選擇后的變量為輸出變量,選擇分區節點,設置訓練集、測試集分別為70%和30%,并分別連接貝葉斯網絡節點、C5.0節點、神經網絡節點,建立神經網絡模型后,對模型進行兩次訓練得到最優模型,再分別用bagging算法和boosting算法對模型進行優化,再判斷模型的優劣性,并對模型進行評估、繪制ROC曲線。模型如圖3所示。

4? 模型評價指標

4.1? 召回率

召回率衡量了在所有模型中正確的概率,即召回率越高,漏報率越小。

(1)

4.2? 精確率

精度也稱正確率,精確度衡量了所有模型中鎖預測為正確的概率,精確率與誤報率相對。

(2)

4.3? 混淆矩陣

混淆矩陣是機器學習中總結分類模型預測結果得到的分類表。

TP:將正類預測為正類數,真實為真,預測也為真。

FN:將正類預測為負類數,真實為真,預測為假。

FP:將負類預測為正類數,真實為假,預測為真。

TN:將負類預測為負類數,真實為假,預測也為假。如表1所示。

4.4? ROC曲線

縱坐標為真正率(TPR),橫坐標為假正率

(3)

(4)

ROC曲線反映了排序知量的好壞,即結果的好壞,ROC曲線的量化指標:AUC(曲線下面積),AUC越大越好。

5? 各特征變量對電信客戶流失的預測模型

比較三個模型的AUC值,$N2-Churn模型訓練集的AUC值為0.845,$N2-Churn是$N-Churn訓練兩次得到的結果,$N3-Churn、$N4-Churn模型是分別用bagging和boosting算法改進后得到的結果,AUC值均小于$N2-Churn模型。對比模型如表2所示。

比較訓練后的神經網絡算法與C5.0算法的準確率,如表3、表4所示。C5.0算法的爭取率均高于神經網絡算法。神經網絡算法的AUC值和GINI系數均高于C5.0算法。

ROC曲線下的面積在一定程度上反映了模型預測的準確率,神經網絡算法的ROC曲線下面積最大,模型效果好,如圖4所示。

即神經網絡算法預測效果最好,神經網絡算法經過兩次訓練,直到無法進一步降低誤差的,其準確性為81.1%。如圖5所示。

比較神經網絡算法中各個預測變量的重要性,可以發現用戶任期(tenure)對目標變量用戶流失(churm)非常重要,為0.21,用戶合同類型(contract)對目標變量用戶流失(churm)較為重要,為0.16。是否有伴侶(partner)和家屬(dependents)對目標變量用戶流失的重要性較小,為0.02,是否已連接技術支持服務(techsupport)及其他因素重要性多集中在0.03到0.09之間,對電信客戶流失的預測影響較為一般。結合圖6的ROC曲線所示,經過兩次訓練后的神經網絡算法對電信客戶流失預測的有效性和可行性,可以根據神經網絡算法對用戶流失制定相關方案。

6? 結? 論

通過分析5 986個樣本數據,通過研究22個變量客戶性別(gender)、客戶是否退休(seniorcitizen)、客戶是否已婚(partner)、客戶ID(customerID)、家屬(dependents)、任期(tenure)、是否已連接電話服務(PhoneService)、是否已連接多條電話線(MutipleLines)、客戶端的internet供應商(DSL、光纖、否)(InternetService)、是否已連接在線安全服務(onlinesecurity)、是否激活在線備份服務(onlineebackup)、客戶是否有設備保險(deviceprotection)、是否已連接技術支持服務(techsupport)、是否已連接流媒體電視服務(streamingtv)、客戶合同類型(contract)、客戶是否使用無紙化計費(paperlessbilling)、付款方式(paymentmethod)、當前每月付款(mothlycharges)、客戶在整個時間內為服務支付的總金額(totalchargers)等對電信客戶流失(churm)的預測,使用了貝葉斯網絡、C5.0算法和神經網絡算法對預測結果進行了輸出,分別對比其模型預測準確率、AUC值和ROC曲線,通過對神經網絡建立的模型進行兩次訓練與利用boosting算法和bagging算法進行模型優化,直到無法進一步降低誤差,通過使用特征選擇節點,增大了預測的準確性和精確性,通過比較優化后的模型和訓練后的模型,最終得到經過兩次訓練后的神經網絡模型預測效果最好,具有一定的實用價值。

參考文獻:

[1] 喬健,諸佳慧,嚴康桓.基于隨機森林CART特征選擇改進算法的電信客戶流失預測模型 [J].電信工程技術與標準化,2022,35(3):78-82.

[2] 曹寧,王雨薇,高瑩,等.基于改進Elman模型的電信公司客戶流失分析 [J].西安文理學院學報:自然科學版,2022,25(1):50-55.

[3] 楊成義,林瑞瓊.數據挖掘在電信客戶流失預警模型中的應用 [J].現代信息科技,2021,5(17):32-34.

[4] 張蕓,宋雙.非完備數據的寬帶客戶流失預測 [J].中國新通信,2021,23(14):125-126.

[5] 李兵,陳俊才.基于TMRF算法的電信客戶流失預測方案研究 [J].數字技術與應用,2021,39(4):116-121.

[6] 蔣溢,伍書平,胡昆,等.基于Lasso和構造性覆蓋算法的不均衡數據分類方法 [J/OL].計算機應用,2022[2022-08-12].http://www.joca.cn/CN/10.11772/j.issn.1001-9081.2022040490.

作者簡介:于明鑫(2001—),男,漢族,四川遂寧人,本科在讀,研究方向:數據挖掘;通訊作者:鄭雅勻(1994—),女,漢族,遼寧大連人,講師,碩士,研究方向:機器學習。

收稿日期:2022-08-21

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产91高清视频| 一级毛片基地| 欧美无专区| 国产精品成人免费综合| 久久精品电影| a亚洲天堂| 精品日韩亚洲欧美高清a| 国产精品性| 国产黑丝视频在线观看| 妇女自拍偷自拍亚洲精品| 欧美不卡二区| 凹凸国产分类在线观看| 韩日免费小视频| 波多野结衣第一页| 九九九精品成人免费视频7| 高清无码不卡视频| 国产亚洲欧美日本一二三本道| 亚洲国产高清精品线久久| 国产精品自拍合集| 日日拍夜夜嗷嗷叫国产| 她的性爱视频| 亚洲福利视频一区二区| 最新国产午夜精品视频成人| 91高清在线视频| 欧美精品成人| 免费黄色国产视频| 五月天婷婷网亚洲综合在线| 国产乱肥老妇精品视频| 国产精品美女网站| 国产www网站| 中文字幕久久波多野结衣| 国产免费羞羞视频| 欧美午夜视频| 国产女人水多毛片18| 色综合a怡红院怡红院首页| 免费欧美一级| 狠狠色婷婷丁香综合久久韩国| 亚洲女人在线| 欧美第一页在线| 亚洲人在线| 麻豆精品在线| 中文字幕精品一区二区三区视频| 亚洲国产91人成在线| 91福利免费| 一级毛片免费播放视频| 午夜不卡视频| 99re视频在线| 国产一区二区三区在线无码| 黄色国产在线| 亚洲第一福利视频导航| 最新加勒比隔壁人妻| 欧美一级视频免费| 欧美日韩va| 国产精品一区二区久久精品无码| 欧美国产菊爆免费观看 | 毛片久久网站小视频| 日韩第一页在线| 在线中文字幕网| 这里只有精品在线播放| 一级毛片不卡片免费观看| 精品国产成人a在线观看| 中文字幕在线看| 91探花在线观看国产最新| 精品国产毛片| 国产麻豆精品在线观看| 国产欧美日韩综合一区在线播放| 四虎亚洲国产成人久久精品| 国产丝袜无码精品| 国产精品短篇二区| 亚洲an第二区国产精品| 亚洲免费福利视频| 久久香蕉国产线看精品| 国产日韩精品欧美一区喷| 国产在线观看成人91| 欧美成人精品高清在线下载| 日日碰狠狠添天天爽| 日本一区二区不卡视频| 天堂亚洲网| 99re在线视频观看| 亚洲中文在线看视频一区| 亚洲伊人天堂| 免费啪啪网址|