張三妞 張智斌













摘? 要:針對客戶流失在電信中檢測率低的問題,文章提出了一種改進粒子群的隨機森林模型。首先對數據的每個屬性進行分析,選取合適的特征,再用SMOTE技術處理數據不均勻問題,然后運用決策樹、隨機森林、支持向量機等監督算法得出其中最優模型,其中隨機森林算法最優,最后用改進PSO算法中的慣性權重和學習因子優化隨機森林的參數。經實驗驗證該模型比隨機森林和粒子群優化后的隨機森林數據要高,準確率高達91%,召回率高達95%。
關鍵詞:客戶流失;隨機森林;粒子群算法
中圖分類號:TP18? ? ? ? ?文獻標識碼:A文章編號:2096-4706(2021)22-0075-04
Abstract: Aiming at the low detection rate of customer churn in telecommunications, this paper proposes a random forest model based on the improved particle swarm optimization. Firstly, each attribute of the data is analyzed, the appropriate characteristics are selected, and SMOTE technology is used to deal with the problem of uneven data. Then, the optimal model is obtained by using the supervision algorithms such as decision tree, random forest and support vector machine, in which the random forest algorithm is the best. Finally, the parameters of random forest are optimized by using the inertia weight and learning factor in the improved PSO algorithm. Experiment results show that the effect of the model is higher than random forest and random forest optimized by improved particle swarm optimization, the accuracy is up to 91%, and the recall rate reaches 95%.
Keywords: customer churn; random forest; particle swarm optimization
0? 引? 言
電信公司通常將客戶流失作為一個關鍵的業務指標來預測離開電信服務提供商的客戶數量,直接影響到服務提供商的競爭力。客戶流失是指客戶離開服務提供商的比例,又因為獲取新客戶的成本既高又難,保持已有顧客的成本遠遠小于贏得新顧客的成本,因此對于給定的特定參數,顧客是否會流失變得尤為重要。國內外有大量的文獻研究了客戶流失預測,研究領域涉及極廣,主要包括電信[1]、銀行[2]、超市[3]以及游戲客戶的流失等??蛻袅魇ьA測經過多年的研究,客戶流失預測研究領域取得了諸多成果??蛻袅魇У默F有算法主要可分為四種:基于傳統統計學方法、基于人工智能、基于統計學習理論以及基于集成分類器的預測算法。
電信客戶流失預測包含用戶屬性分析、服務屬性分析以及合同屬性分析特征。大部分是一些高維數據集,在數據的特征選擇上,主流方法主要有:肖進等提出了一種集成的模型,這種模型將Bagging集成學習、半監督學習和元代價敏感學習等技術結合,提出了代價敏感的客戶流失預測模型[4];2019年王澤宇為了提升客戶流失預測效果,利用粒子群優化算法分別優化貝葉斯和BP神經網絡算法,構建客戶流失預測模型,對電信客戶進行分類預測[5]。本文重點闡述了改進粒子群算法中的慣性權重和學習因子優化隨機森林中的參數,達到提高準確率和召回率的目的。
1? 改進粒子群的隨機森林優化算法
基于改進PSO的RF優化算法,本文選用Kaggle網站上電信客戶流失的公用數據集,首先對數據集進行特征提取,接著用合成少數類過采樣技術SMOTE(Synthetic Minority Oversampling Technique)處理數據不平衡,然后對處理好的數據運用邏輯回歸、支持向量機、隨機森林、K近鄰、AdaBoost以及Bagging算法對客戶流失進行初預測,選取其中最優的一個算法,接著用改進的粒子群對該算法進行優化,得到最終模型,最后對該模型進行評估。具體流程如圖1所示。
1.1? 數據不平衡SMOTE算法
合成少數類過采樣技術SMOTE(Synthetic Minority Oversampling Technique)用于處理數據類別不平衡問題(Imbalanced class problem)[6],是傳統隨機過抽樣計算的一種改進方法,具體如式(1):
A-B為二者間的歐式距離,rand(0,1)為隨機在0~1之間取值。C為新的樣本。
1.2? 隨機森林算法
隨機森林是一種集成算法(Ensemble Learning)[7],它隸屬于Bagging類,隨機森林能夠獲得如此了不起的成就,關鍵是因為“隨機”和“森林”,一種使其擁有抗過擬合,一種則使其變得更為準確。
隨機森林算法可以對特征進行打分,為此我們可以評判特征的重要性,我們可以將特征變量重要性評分(variable importance measures)用VIM表示,用G表示Gini指數,假設有m個特征X1,X2,X3,…,Xm。需要計算每一個特征的Gini指數評分,也就是第j個特征在RF所有決策樹中節點分裂后不純度的平均改變量。Gini指數的計算公式如式(2)所示:
其中,K表示類別有K個,Pmk?表示節點m中類別k所占的百分比。
直觀地說,是指隨便從節點m隨意選取二個樣本,其類型標志為不相同的概率大小。特征Xj在節點m的重要性,即節點m分支前后的Gini指數變化量為
其中,Gl和Gr分別代表了分支后的二個新節點的Gini指數。
最后,再將所求的重要性評分做個歸一化處理。本文中得到的特征重要性如圖2所示。
從圖2可看出,tennure和MonthlyCharges的重要性最高,其他特征一次遞減,由此可選取特征重要性打分高的作為選取的特征,其他特征則舍棄,以提高客戶流失的準確率和召回率。
1.3? 改進PSO對隨機森林進行優化
PSO算法不僅具有規則簡單、容易快速實現、參數小且用戶無須直接獲得離散梯度優化信息的三大特點[8],在用于進行連續離散梯度優化和進行連續性離散優化的各種問題分析中都同樣可以同時取得良好的優化效果,PSO算法容易陷入早熟和局部最優的問題[9]。為避免陷入這些問題,本文從以下兩個方面改進PSO:
(1)引入動態慣性權重,定義為如式。
式中k代表當前的迭代數,D代表較大的迭代數,rand(0,2)代表區間[0,2]均勻分布的隨機數。取ω1為0.3,ω2為1.1,迭代100次得到了如圖3所示的動態慣性權重。
由圖3可發現,在整體搜尋的前期,ω取大值的概率大,說明全局搜尋能力增強,而后期ω取較小值的概率大,局部開發的能力受到了加強。提高了種群的多樣性,提高了局部搜索的能力。
(2)更改因子。c1、c2為提升前期全局搜尋能力,從而使搜尋后期粒子收斂為全局最優解。對因子做如下更改如式(5)所示:
式中c1i、c1j、c2i、c2j均為常數。
2? 實驗驗證
本文使用的電信流失客戶數據集來自Kaggle平臺,一共提供了7 043條用戶樣本,每條樣本包含21列屬性,由多個維度的客戶信息以及用戶是否最終流失的標簽組成,其中未流失客戶有5 174人,流失客戶有1 869人,客戶信息具體如下:
(1)基本信息:性別、年齡、經濟情況、入網時間等。
(2)開通業務信息:是否開通電話業務、互聯網業務、網絡電視業務、技術支持業務等。
(3)簽署的合約信息:合同年限、付款方式、每月費用、總費用。
由于屬性繁多,其中包括了無用的特征,需要對這些特征逐個進行分析,分析示例如圖4、圖5所示。
根據每一個特征的分析圖分析,可以得出高流失率用戶的特征為:
(1)用戶特征屬性:老齡使用者、未婚使用者、無親屬使用者更易喪失。
(2)服務特征屬性:在網時間不足半年、有電話業務、光纖使用者、光纖使用者附加流媒體電視和電影等業務,無網絡增值業務。
(3)合同特征屬性:雙方簽訂的合同期較短,使用電子支票付款,電子票據,月租費大約為70 ~ 110元的客戶較易流失。
(4)其他屬性對用戶流失影響較小,在本文做刪除處理,與以上特征保持相對獨立。
對保留下來的數值型特征采用皮爾遜相關系數矩陣計算特征之間的相關性,如圖6所示。
由圖6可知TotalCharges與tenure、MonthlyCharges相關性較大,容易引起預測結果降低,所以對TotalCharges做刪除處理。
對于電信用戶流失預測問題,通常更關心真正流失的用戶,因此需要尋找一個能夠較好地衡量這一現象的評價指標,為此我們用精確率、召回率等來評價預測結果。
結合本文,精確率代表的意義是:在所有預測為流失的樣本中,真正流失的樣本數;召回率代表的意義是:在真正流失的樣本中,預測到多少樣本。顯而易見,召回率是我們關心的指標,即寧可把未流失的用戶預測為流失用戶而進行多余的留客行為,也不漏掉任何一名真正流失的客戶。在此依舊采取準確率、召回率以及綜合兩者的F1值,但關注的中重點仍然放在召回率上。
對處理好的數據用決策樹(LR)、支持向量機(SVM)隨機森林(RF)、K近鄰(KNN)、Bagging以及AdaBoost進行分類,分類結果如表1所示。
對于最優的隨機森林模型,采用未改進的粒子群算法和改進的粒子群算法分別對隨機森林模型優化參數,結果如表2所示。
從表2可看出本文改進過的粒子群優化隨機森林的模型效果較好,相比未改進的粒子群優化隨機森林準確率提高6%,召回率提高4%。相比單個隨機森林模型準確率提高8%,召回率提高5%。
3? 結? 論
在電信客戶流失中,對粒子群優化隨機森林結構進行改進、優化隨機森林參數等有助于提高精度。本文提出一種改進的PSO優化隨機森林參數的分類算法。對電信客戶流失的數據進行預測分析,與PSO-RF分類器進行對比,結果表明本文算法能提高電信客戶流失的分類準確率。
參考文獻:
[1] 周榮鑫,趙娟娟,靳夢華.基于貝葉斯網絡的電信客戶流失預測分析 [J].軟件,2019,40(2):187-190.
[2] 時丹蕾,杜寶軍.基于BP神經網絡的銀行客戶流失預測 [J].科學技術創新,2021(27):104-106.
[3] HU X,YANG Y F,CHEN L H,et al. Research on a Customer Churn Combination Prediction Model Based on Decision Tree and Neural Network [C]//2020 IEEE 5th International Conference on Cloud Computing and Big Data Analytics(ICCCBDA).Chengdu:IEEE,2020:129-132.
[4] 肖進,李思涵,賀小舟,等.代價敏感的客戶流失預測半監督集成模型研究 [J].系統工程理論與實踐,2021,41(1):188-199.
[5] 王澤宇.基于粒子群優化算法的電信客戶流失預測模型的設計與實現 [D].北京:中國科學院大學,2019.
[6] 王文博,曾小梅,趙引川,等.基于SMOTE-XGBoost的變壓器缺陷預測 [J].華北電力大學學報(自然科學版),2021,48(5):54-60+71.
[7] 丁敬國,郭錦華.基于主成分分析協同隨機森林算法的熱連軋帶鋼寬度預測 [J].東北大學學報(自然科學版),2021,42(9):1268-1274+1289.
[8] 楊澤民.基于PSO的電信業數據關聯規則挖掘 [J].軟件,2013,34(6):44-46.
[9] XUE Z H,DU P J,SU H J. Harmonic Analysis for Hyperspectral Image Classification Integrated With PSO Optimized SVM [J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2014,7(6):2131-2146.
[10] BHUSE P, GANDHI A, MESWANI P, et al. Machine Learning Based Telecom-Customer Churn Prediction [C]// 2020 3rd International Conference on Intelligent Sustainable Systems (ICISS), Thoothukudi:IEEE,2020,1297-1301.
作者簡介:張三妞(1997—),女,漢族,河南周口人,碩士在讀生,主要研究方向:大數據;張智斌(1965—),男,漢族,四川會理人,副教授,學士,主要研究方向:基于網絡的計算機軟件技術、工業控制技術。