999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進粒子群的隨機森林優化算法客戶流失預測研究

2021-05-16 16:34:58張三妞張智斌
現代信息科技 2021年22期

張三妞 張智斌

摘? 要:針對客戶流失在電信中檢測率低的問題,文章提出了一種改進粒子群的隨機森林模型。首先對數據的每個屬性進行分析,選取合適的特征,再用SMOTE技術處理數據不均勻問題,然后運用決策樹、隨機森林、支持向量機等監督算法得出其中最優模型,其中隨機森林算法最優,最后用改進PSO算法中的慣性權重和學習因子優化隨機森林的參數。經實驗驗證該模型比隨機森林和粒子群優化后的隨機森林數據要高,準確率高達91%,召回率高達95%。

關鍵詞:客戶流失;隨機森林;粒子群算法

中圖分類號:TP18? ? ? ? ?文獻標識碼:A文章編號:2096-4706(2021)22-0075-04

Abstract: Aiming at the low detection rate of customer churn in telecommunications, this paper proposes a random forest model based on the improved particle swarm optimization. Firstly, each attribute of the data is analyzed, the appropriate characteristics are selected, and SMOTE technology is used to deal with the problem of uneven data. Then, the optimal model is obtained by using the supervision algorithms such as decision tree, random forest and support vector machine, in which the random forest algorithm is the best. Finally, the parameters of random forest are optimized by using the inertia weight and learning factor in the improved PSO algorithm. Experiment results show that the effect of the model is higher than random forest and random forest optimized by improved particle swarm optimization, the accuracy is up to 91%, and the recall rate reaches 95%.

Keywords: customer churn; random forest; particle swarm optimization

0? 引? 言

電信公司通常將客戶流失作為一個關鍵的業務指標來預測離開電信服務提供商的客戶數量,直接影響到服務提供商的競爭力。客戶流失是指客戶離開服務提供商的比例,又因為獲取新客戶的成本既高又難,保持已有顧客的成本遠遠小于贏得新顧客的成本,因此對于給定的特定參數,顧客是否會流失變得尤為重要。國內外有大量的文獻研究了客戶流失預測,研究領域涉及極廣,主要包括電信[1]、銀行[2]、超市[3]以及游戲客戶的流失等??蛻袅魇ьA測經過多年的研究,客戶流失預測研究領域取得了諸多成果??蛻袅魇У默F有算法主要可分為四種:基于傳統統計學方法、基于人工智能、基于統計學習理論以及基于集成分類器的預測算法。

電信客戶流失預測包含用戶屬性分析、服務屬性分析以及合同屬性分析特征。大部分是一些高維數據集,在數據的特征選擇上,主流方法主要有:肖進等提出了一種集成的模型,這種模型將Bagging集成學習、半監督學習和元代價敏感學習等技術結合,提出了代價敏感的客戶流失預測模型[4];2019年王澤宇為了提升客戶流失預測效果,利用粒子群優化算法分別優化貝葉斯和BP神經網絡算法,構建客戶流失預測模型,對電信客戶進行分類預測[5]。本文重點闡述了改進粒子群算法中的慣性權重和學習因子優化隨機森林中的參數,達到提高準確率和召回率的目的。

1? 改進粒子群的隨機森林優化算法

基于改進PSO的RF優化算法,本文選用Kaggle網站上電信客戶流失的公用數據集,首先對數據集進行特征提取,接著用合成少數類過采樣技術SMOTE(Synthetic Minority Oversampling Technique)處理數據不平衡,然后對處理好的數據運用邏輯回歸、支持向量機、隨機森林、K近鄰、AdaBoost以及Bagging算法對客戶流失進行初預測,選取其中最優的一個算法,接著用改進的粒子群對該算法進行優化,得到最終模型,最后對該模型進行評估。具體流程如圖1所示。

1.1? 數據不平衡SMOTE算法

合成少數類過采樣技術SMOTE(Synthetic Minority Oversampling Technique)用于處理數據類別不平衡問題(Imbalanced class problem)[6],是傳統隨機過抽樣計算的一種改進方法,具體如式(1):

A-B為二者間的歐式距離,rand(0,1)為隨機在0~1之間取值。C為新的樣本。

1.2? 隨機森林算法

隨機森林是一種集成算法(Ensemble Learning)[7],它隸屬于Bagging類,隨機森林能夠獲得如此了不起的成就,關鍵是因為“隨機”和“森林”,一種使其擁有抗過擬合,一種則使其變得更為準確。

隨機森林算法可以對特征進行打分,為此我們可以評判特征的重要性,我們可以將特征變量重要性評分(variable importance measures)用VIM表示,用G表示Gini指數,假設有m個特征X1,X2,X3,…,Xm。需要計算每一個特征的Gini指數評分,也就是第j個特征在RF所有決策樹中節點分裂后不純度的平均改變量。Gini指數的計算公式如式(2)所示:

其中,K表示類別有K個,Pmk?表示節點m中類別k所占的百分比。

直觀地說,是指隨便從節點m隨意選取二個樣本,其類型標志為不相同的概率大小。特征Xj在節點m的重要性,即節點m分支前后的Gini指數變化量為

其中,Gl和Gr分別代表了分支后的二個新節點的Gini指數。

最后,再將所求的重要性評分做個歸一化處理。本文中得到的特征重要性如圖2所示。

從圖2可看出,tennure和MonthlyCharges的重要性最高,其他特征一次遞減,由此可選取特征重要性打分高的作為選取的特征,其他特征則舍棄,以提高客戶流失的準確率和召回率。

1.3? 改進PSO對隨機森林進行優化

PSO算法不僅具有規則簡單、容易快速實現、參數小且用戶無須直接獲得離散梯度優化信息的三大特點[8],在用于進行連續離散梯度優化和進行連續性離散優化的各種問題分析中都同樣可以同時取得良好的優化效果,PSO算法容易陷入早熟和局部最優的問題[9]。為避免陷入這些問題,本文從以下兩個方面改進PSO:

(1)引入動態慣性權重,定義為如式。

式中k代表當前的迭代數,D代表較大的迭代數,rand(0,2)代表區間[0,2]均勻分布的隨機數。取ω1為0.3,ω2為1.1,迭代100次得到了如圖3所示的動態慣性權重。

由圖3可發現,在整體搜尋的前期,ω取大值的概率大,說明全局搜尋能力增強,而后期ω取較小值的概率大,局部開發的能力受到了加強。提高了種群的多樣性,提高了局部搜索的能力。

(2)更改因子。c1、c2為提升前期全局搜尋能力,從而使搜尋后期粒子收斂為全局最優解。對因子做如下更改如式(5)所示:

式中c1i、c1j、c2i、c2j均為常數。

2? 實驗驗證

本文使用的電信流失客戶數據集來自Kaggle平臺,一共提供了7 043條用戶樣本,每條樣本包含21列屬性,由多個維度的客戶信息以及用戶是否最終流失的標簽組成,其中未流失客戶有5 174人,流失客戶有1 869人,客戶信息具體如下:

(1)基本信息:性別、年齡、經濟情況、入網時間等。

(2)開通業務信息:是否開通電話業務、互聯網業務、網絡電視業務、技術支持業務等。

(3)簽署的合約信息:合同年限、付款方式、每月費用、總費用。

由于屬性繁多,其中包括了無用的特征,需要對這些特征逐個進行分析,分析示例如圖4、圖5所示。

根據每一個特征的分析圖分析,可以得出高流失率用戶的特征為:

(1)用戶特征屬性:老齡使用者、未婚使用者、無親屬使用者更易喪失。

(2)服務特征屬性:在網時間不足半年、有電話業務、光纖使用者、光纖使用者附加流媒體電視和電影等業務,無網絡增值業務。

(3)合同特征屬性:雙方簽訂的合同期較短,使用電子支票付款,電子票據,月租費大約為70 ~ 110元的客戶較易流失。

(4)其他屬性對用戶流失影響較小,在本文做刪除處理,與以上特征保持相對獨立。

對保留下來的數值型特征采用皮爾遜相關系數矩陣計算特征之間的相關性,如圖6所示。

由圖6可知TotalCharges與tenure、MonthlyCharges相關性較大,容易引起預測結果降低,所以對TotalCharges做刪除處理。

對于電信用戶流失預測問題,通常更關心真正流失的用戶,因此需要尋找一個能夠較好地衡量這一現象的評價指標,為此我們用精確率、召回率等來評價預測結果。

結合本文,精確率代表的意義是:在所有預測為流失的樣本中,真正流失的樣本數;召回率代表的意義是:在真正流失的樣本中,預測到多少樣本。顯而易見,召回率是我們關心的指標,即寧可把未流失的用戶預測為流失用戶而進行多余的留客行為,也不漏掉任何一名真正流失的客戶。在此依舊采取準確率、召回率以及綜合兩者的F1值,但關注的中重點仍然放在召回率上。

對處理好的數據用決策樹(LR)、支持向量機(SVM)隨機森林(RF)、K近鄰(KNN)、Bagging以及AdaBoost進行分類,分類結果如表1所示。

對于最優的隨機森林模型,采用未改進的粒子群算法和改進的粒子群算法分別對隨機森林模型優化參數,結果如表2所示。

從表2可看出本文改進過的粒子群優化隨機森林的模型效果較好,相比未改進的粒子群優化隨機森林準確率提高6%,召回率提高4%。相比單個隨機森林模型準確率提高8%,召回率提高5%。

3? 結? 論

在電信客戶流失中,對粒子群優化隨機森林結構進行改進、優化隨機森林參數等有助于提高精度。本文提出一種改進的PSO優化隨機森林參數的分類算法。對電信客戶流失的數據進行預測分析,與PSO-RF分類器進行對比,結果表明本文算法能提高電信客戶流失的分類準確率。

參考文獻:

[1] 周榮鑫,趙娟娟,靳夢華.基于貝葉斯網絡的電信客戶流失預測分析 [J].軟件,2019,40(2):187-190.

[2] 時丹蕾,杜寶軍.基于BP神經網絡的銀行客戶流失預測 [J].科學技術創新,2021(27):104-106.

[3] HU X,YANG Y F,CHEN L H,et al. Research on a Customer Churn Combination Prediction Model Based on Decision Tree and Neural Network [C]//2020 IEEE 5th International Conference on Cloud Computing and Big Data Analytics(ICCCBDA).Chengdu:IEEE,2020:129-132.

[4] 肖進,李思涵,賀小舟,等.代價敏感的客戶流失預測半監督集成模型研究 [J].系統工程理論與實踐,2021,41(1):188-199.

[5] 王澤宇.基于粒子群優化算法的電信客戶流失預測模型的設計與實現 [D].北京:中國科學院大學,2019.

[6] 王文博,曾小梅,趙引川,等.基于SMOTE-XGBoost的變壓器缺陷預測 [J].華北電力大學學報(自然科學版),2021,48(5):54-60+71.

[7] 丁敬國,郭錦華.基于主成分分析協同隨機森林算法的熱連軋帶鋼寬度預測 [J].東北大學學報(自然科學版),2021,42(9):1268-1274+1289.

[8] 楊澤民.基于PSO的電信業數據關聯規則挖掘 [J].軟件,2013,34(6):44-46.

[9] XUE Z H,DU P J,SU H J. Harmonic Analysis for Hyperspectral Image Classification Integrated With PSO Optimized SVM [J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2014,7(6):2131-2146.

[10] BHUSE P, GANDHI A, MESWANI P, et al. Machine Learning Based Telecom-Customer Churn Prediction [C]// 2020 3rd International Conference on Intelligent Sustainable Systems (ICISS), Thoothukudi:IEEE,2020,1297-1301.

作者簡介:張三妞(1997—),女,漢族,河南周口人,碩士在讀生,主要研究方向:大數據;張智斌(1965—),男,漢族,四川會理人,副教授,學士,主要研究方向:基于網絡的計算機軟件技術、工業控制技術。

主站蜘蛛池模板: 麻豆国产精品一二三在线观看| 欧美日韩中文字幕在线| 国产黄视频网站| 精品一区二区三区水蜜桃| 啪啪啪亚洲无码| 亚洲va视频| 亚洲视频黄| 高清精品美女在线播放| 国产成人麻豆精品| 久久久久人妻一区精品色奶水| 久久免费观看视频| 毛片网站观看| 就去色综合| 性喷潮久久久久久久久| 亚洲av无码成人专区| 亚洲成a人在线观看| 国产91小视频在线观看| 丝袜美女被出水视频一区| 四虎影视永久在线精品| 精品国产成人av免费| 日韩精品久久无码中文字幕色欲| 国产剧情国内精品原创| 亚洲欧美色中文字幕| 国内精品小视频在线| 国产欧美日韩在线一区| 一级爆乳无码av| 色欲不卡无码一区二区| 亚洲中文字幕精品| 国产打屁股免费区网站| 日本亚洲成高清一区二区三区| 麻豆国产精品视频| 人妻丰满熟妇αv无码| 青青青伊人色综合久久| 免费网站成人亚洲| 日韩a级片视频| 高清国产va日韩亚洲免费午夜电影| 日韩无码黄色网站| 亚洲天堂免费观看| 久久综合五月婷婷| 国产成人高清精品免费| 老司国产精品视频91| 欧美另类精品一区二区三区| 国产在线观看91精品亚瑟| 97精品久久久大香线焦| 伊人婷婷色香五月综合缴缴情| 久久精品嫩草研究院| 亚洲视屏在线观看| 国产91视频免费| 91欧洲国产日韩在线人成| 久草青青在线视频| 国产人成乱码视频免费观看| 亚洲美女久久| 综合色天天| 亚洲国产精品无码AV| 国产午夜不卡| 久久这里只有精品免费| 无码免费视频| 香蕉蕉亚亚洲aav综合| 色噜噜在线观看| 成人日韩欧美| 国产自在自线午夜精品视频| 不卡网亚洲无码| 最新亚洲人成无码网站欣赏网 | 免费福利视频网站| 青青青国产在线播放| 久久综合色视频| 亚洲天堂.com| 深夜福利视频一区二区| 亚洲日本韩在线观看| 国产一二三区视频| 国产午夜福利在线小视频| 日韩天堂视频| 国产美女免费网站| 扒开粉嫩的小缝隙喷白浆视频| 亚洲日韩日本中文在线| 国产成人精品综合| 精品国产自在现线看久久| 国产后式a一视频| 亚洲一区国色天香| 国产第一页免费浮力影院| 五月天天天色| 97在线观看视频免费|