















摘" 要: 隨著5G基礎設施的逐步完善及中國廣電作為第四大運營商的進場,四大運營商之間的競爭越來越激烈,對于5G潛在用戶的精準識別問題成為了四大運營商的公共問題。文中從某地市運營商的實際數據出發,采用網格搜索方法對XGBoost模型的超參數進行優化改進,建立了5G潛客智能識別模型,并與邏輯回歸、KNN、決策樹、隨機森林、LightGBM、XGBoost等主流模型進行了對比實驗。結果顯示了改進的XGBoost模型的優越性,利用SHAP可解釋性模型對特征重要性進行排名。研究結果可對營銷工作效率、運營商的5G市場競爭力的提升提供理論依據。
關鍵詞: 5G; 潛在用戶; XGBoost; 隨機森林; 網格搜索; 特征重要性; SHAP; 營銷策略
中圖分類號: TN919?34" " " " " " " " " " " " " "文獻標識碼: A" " " " " " " " " " " " 文章編號: 1004?373X(2025)03?0167?07
5G potential customer intelligent identification model based on improved XGBoost
CHAI Hua, FAN Xinyue
(Department of Mathematics, School of Mathematics and Statistics, Guizhou University, Guiyang 550025, China)
Abstract: With the gradual improvement of 5G infrastructure and the entry of China Radio and Television as the fourth largest operator, the competition among the four major operators is becoming increasingly fierce, and the precise identification of potential 5G users has become a public issue for the four major operators. In this paper, the grid search method is used to optimize and improve the hyperparameters of the XGBoost model, and establish a 5G potential customer intelligent identification model on the basis of the actual data of the operators of a certain city. And then, comparative experiments with mainstream models such as logistic regression model, KNN model, decision tree model, random forest model, LightGBM model and XGBoost model are conducted. The results demonstrate the superiority of the improved XGBoost model. The SHAP (Shapley additive explanations) interpretability model is utilized to rank feature importance. The research results of this article can provide theoretical basis for improving marketing efficiency and the 5G market competitiveness of operators.
Keywords: 5G; potential user; XGBoost; random forest; grid search; feature importance; SHAP; marketing strategy
0" 引" 言
智慧城市是建設數字中國、智慧社會的核心載體,智慧城市建設是未來中國城市發展的必然趨勢,是推動城市治理體系和治理能力現代化的必由之路。我國5G網絡的商用化進程仍然受限于5G網絡規模小而發展緩慢,從而影響智慧城市的構建。2024年1月22日,中國聯通公布了2023年12月份運營數據。至此,三大運營商2023全年的運營數據均已披露。5G套餐用戶方面,中國移動5G套餐客戶數累計達到7.945 03億戶,2023年全年凈增1.8億戶,用戶滲透率率先突破80%;中國電信5G套餐客戶數累計達到3.186 6億戶,2023年全年凈增5 070萬戶,用戶滲透率約為78.1%;中國聯通5G套餐客戶數累計達到2.596 38億戶,2023年全年凈增4 691.3萬戶。消費不斷增長,5G應用向縱深推進。5G用戶持續增長,折射出我國數字經濟蓬勃向上的發展活力,數字產業規模穩步增長,數字技術和實體經濟融合深入推進,數字企業創新發展動能不斷增強,各行各業積極擁抱數字經濟發展新機遇,高質量發展有望再上新臺階。文獻[1]基于O域信令數據、B域用戶基礎數據、MR位置數據等進行大數據分析,預測全網5G終端非5G套餐用戶中高概率更換為5G套餐的用戶清單。文獻[2]利用隨機森林算法提升潛在5G用戶的識別率算法,從而預測用戶未來是否有5G訂閱需求。文獻[3]應用LightGBM模型對高緯度、大樣本的5G套餐用戶數據集進行分類識別,將XGBoost、GBDT、LightGBM三種算法進行模型對比,得出LightGBM模型較優越。文獻[4]基于預置DPI探針模塊,采集網絡質量、終端質量和用戶行為等多維數據,識別質差用戶,分析用戶側網絡質量,提取用戶上網數據,識別并挖掘潛在客戶,解決用戶感知問題,為前端營銷提供潛在客戶分析支撐。文獻[5]為了解決數據差異,使用SMOTE進行數據平衡操作;其次由于SMOTE處理未考慮到類間不平衡,使用SOM+凝聚層次聚類算法來解決此類問題;最后將處理完的數據集使用深度神經網絡(DNN)進行預測,實驗結果表示,使用優化后的數據集的預測結果效果更好。使用DNN預測優化后的數據集準確率和[F1]值達到了88.97%和86.39%,均優于其他處理方法。文獻[6]通過對5G資費套餐用戶的畫像分析,采用余弦相似度算法結合用戶特征就近匹配推薦相應的5G資費套餐,在實際數據中套餐資費開通率提升5%。文獻[7]提出以提升5G駐留比為抓手,利用AARRR規范化模型,對市場用戶遷轉、用戶駐留5G行為進行引導。同時,借助RNN循環神經網絡進行用戶行為預測,明確網絡優化方向,以實現4G用戶向5G用戶快速遷轉。文獻[8]基于農業灌溉系統的通用行為規律,利用數據標簽與特征關聯度構建用戶識別模型,采用密度聚類算法和隨機森林方法構建農業灌溉用戶分類模型,實現了農業灌溉用戶的精準識別,準確率達到90%以上,為優化水資源利用效率提供了重要支撐。文獻[9]構建了醫藥供應鏈金融信用風險評估體系,利用梯度提升決策樹(GBDT)模型對醫藥中小企業信用風險進行評估,在與其他模型對比中證實了其在供應鏈金融領域的優越性和有效性。文獻[10]提出了一種基于行為的用戶異常檢測方案,通過機器學習算法在邊緣計算架構中對用戶行為進行建模和分類識別,有效提高了邊緣網絡的安全性,并在實驗中展現了較高的分類準確率和低誤報率。文獻[11]利用XGBoost算法與隨機森林算法構建了電信客戶流失模型,XGBoost模型對電信流失客戶的識別準確率優于隨機森林模型。文獻[12]構建了XGBoost、ADaBoost、邏輯回歸、隨機森林4個模型對電信流失用戶進行預測識別,XGBoost模型優于其他模型。文獻[13]提出我國智慧城市建設已進入全面提升新階段,更加重視統籌協調與集約建設,著重以組織扁平化、數據共享化、業務協同化為切入點,進行一體化推進。文獻[14]提出要加強5G行業標桿案例的宣傳和推廣,增強廣大用戶更大范圍地應用5G等數字技術加快數字化轉型的動力。5G套餐用戶數的快速增長以及覆蓋面的提升,充分彰顯出我國5G建設工作的積極成果。隨著5G網絡正式在中國商用,大量的5G終端涌進市場,5G終端占有量日益增長,但其中相當一部分5G終端仍然使用的是非5G套餐,精準預測5G套餐潛在用戶對5G業務發展具有重要意義。
基于此,本文根據某地市運營商實際用戶數據,利用改進的XGBoost模型進行5G潛在用戶的識別,并結合SHAP(SHapley Additive exPlanations)可解釋模型進一步解釋特征重要性,針對不同用戶提出建議,提高運營商的市場競爭力,模型效果均優于其他經典算法。預計2024年5G套餐用戶滲透率將進一步提升,5G應用的亮點可能會集中在B端市場,隨著5G網絡建設的完善,5G用戶規模將進一步擴大,各大運營商之間也會制定多種套餐和策略,搶抓新用戶,維系老用戶,進一步鞏固用戶市場。
1" 相關模型
1.1" XGBoost模型
XGBoost模型屬于Boosting算法中的一種集成模型,它的主要思想是將多個分類器組合成一個,是對梯度提升算法的改進,求解損失函數極值時使用了牛頓法,將損失函數泰勒展開到二階,另外損失函數中加入了正則化項。訓練時的目標函數由兩部分構成,第一部分為梯度提升算法損失,第二部分為正則化項。目標函數如式(1)所示:
[Obj(t)=i=1nlyi,y(t-1)+ft(xi)+Ω(ft)+C] (1)
式中:[t]為決策樹的數量;[y(t-1)]表示保留前面[t]-1輪的模型預測;[ft(xi)]為一個新的函數;[C]為常數項。將目標函數進行泰勒展開,針對原來的目標函數,定義兩個變量如式(2)所示:
[gi=?y(t-1)l(yi,y(t-1))hi=?2y(t-1)l(yi,y(t-1))] (2)
目標函數可以改寫為:
[Obj(t)≈i=1nlyi,y(t-1)+gift(xi)+12hif2t(xi)+Ω(ft)+C] (3)
模型訓練時,目標函數可以用公式(4)表示:
[Obj(t)=j=1ti∈Ijgiωj+12i∈Ijhi+λω2j+γT] (4)
定義:
[Gj=i∈Ijgi," " Hj=i∈Ijhj] (5)
將式(5)代入式(4)中,得到:
[Obj(t)=j=1tGjωj+12(Hj+λ)ω2j+γT=-12j=1tG2jHj+λ+γT] (6)
XGBoost算法在多個方面進行優化增強:一是將損失函數進行二階泰勒展開;二是在目標函數中加入了正則化項;三是采取了Shrinkage and Column Subsampling,Subsampling方法對之前的每一棵樹進行了收縮使得后面的樹有更多的優化空間,Column Subsampling方法選取部分特征進行建樹;四是增加了對缺失值的處理和在迭代過程中內部使用交叉驗證方法。近年來,XGBoost算法因其優越的性能在機器學習領域得到了廣泛應用。
1.2" 改進的XGBoost模型
在機器學習中,模型的性能往往受到其超參數設置的影響。不同于模型參數,超參數不是在訓練過程中學習得到的,而需要事先設定。網格搜索通過嘗試參數網格中的所有可能組合來找到最佳的超參數設置,以此提高模型的性能。
改進的XGBoost模型在網格搜索算法的步驟如下:首先,定義一個或多個超參數的網格,這個網格是一個字典,其中鍵是參數的名稱,值是嘗試的參數值的列表;然后,選擇一個機器學習模型來應用這些超參數;接下來,選擇一個或多個評分標準,用于評估模型的性能,常見的評分標準包括準確率、召回率、精確率和[F1]分數等。網格搜索可以表示為:
[params*=arg maxparamsscoremodel(params),X,y] (7)
式中:params*是使得評分最高的參數組合;params是待調優的參數組合;score是評分函數,用于評估模型的性能;model(params)是根據給定參數構建的模型;[X]是包含訓練樣本的矩陣;[y]是包含訓練樣本目標值的向量。為了對模型性能進行穩健估計,網格搜索通常與交叉驗證結合使用。交叉驗證通過將訓練集分成較小的子集,然后在這些子集上訓練和驗證模型,來評估模型在未知數據上的表現。這樣做可以減少過擬合的風險,并提供對模型性能的更準確估計,計算公式如式(8)所示:
[CV=1Kk=1Kscoremodel,traink,valk] (8)
式中:CV是交叉驗證的評分;[K]是交叉驗證的折數;model是待評估的機器學習模型;[traink]是第[k]折的訓練集;[valk]是第[k]折的驗證集;score是評分函數,用于評估模型驗證集上的性能。
通過遍歷參數網格中的所有可能組合,對于每一組參數,使用交叉驗證來評估模型的性能。最后,在嘗試了所有參數組合后,選擇表現最好的參數組合作為最佳參數。“最好”的標準是基于選擇的評分標準來決定的,本文選擇在交叉驗證中準確率最高的模型作為最佳模型。改進XGBoost模型流程圖如圖1所示。
2" 實驗分析及結果
2.1" 數據來源
本文所用數據為某地市運營商的客戶數據,該數據集包括297 228條客戶數據,26個特征。數據特征集的字段說明如表1所示。
其中包含203 506條5G用戶數據,93 722條非5G用戶數據。首先刪除“用戶標識”字段,根據本文需要,將“標簽”字段設為目標變量,該字段表明用戶是否為5G用戶。經檢查,數據中部分字段存在較多缺失值,對于缺失值采用眾數填補的方法進行處理,并確定分類變量,數值變量,目標變量。將是否為5G用戶作為目標變量,將其他變量中按取值種類進行劃分,取值種類小于10種的變量劃分為分類變量,大于10種的劃分為數值變量。通過卡方檢驗進行特征選擇,最終選取了22個特征子集。
2.2" 數據分析
經過數據預處理后,根據全部特征變量,分析各變量與目標變量之間的相關性,結果如圖2所示。可以發現,“三個月出賬均值”“出賬收入”“用戶星級為五星級”“套餐月租”為正相關的前4名特征,其中3個月出賬均值、出賬收入、套餐月租都屬于消費行為信息,由圖2可以看出,消費行為信息越高的用戶更容易成為5G用戶,因為此類用戶消費價值高,對新業務的接受程度較高。而用戶星級是運營商對客戶評定的等級,星級越高,對運營商越重要。由圖2可知,用戶星級為5與成為5G用戶有較強的相關性,因為用戶星級越高,通常說明該用戶注冊年限時間長而且資費水平高且穩定,對運營商的信任度更高,對于新業務的適應和接受程度高于其他用戶。
根據隨機森林算法給出的特征重要性如圖3所示。可以看出“套餐月租”“出賬收入”“三個月出賬均值”排名前三的特征重要性,這三個特征變量都屬于用戶消費行為信息,可以表明5G套餐的推廣應該重點關注消費行為信息高且穩定的用戶。
以用戶的平均5G辦理率68%為參考,觀察圖4的柱狀圖,提升5G辦理率的屬性有:流量連續三個月沒有超套,語音連續三個月沒有超套,用戶星級為五星級,用戶是合約用戶,用戶是融合用戶,男性5G辦理率略高于女性。
由此可以發現,語音和流量在沒有三個月連續超套用戶下辦理率會提高,說明這部分用戶極有可能對自己的套餐較為滿意,消費積極性高,更易辦理業務。另外,可以發現簽約會極大提升5G辦理率,可以合理猜測簽約中可能包含綁定5G套餐用戶。
2.3" 實驗結果
混淆矩陣如表2所示。
采用準確率(Accuracy)、AUC值、召回率(Recall)、[F1]分數([F1]?Score)作為模型評價指標。
準確率,即預測正確的樣本占總體樣本的比例。
[Accuracy=TP+TN TP+FP+TN+FN] (9)
召回率為準確預測為5G用戶的樣本數占所有5G用戶樣本數的比例。
[Recall=TN TN+FP] (10)
[F1]分數是精確率和召回率的調和平均數,最大為1,最小為0。
[F1?Score=2×Precision?RecallPrecision+Recall] (11)
本文在前期數據預處理工作的基礎上,采用改進XGBoost算法建立5G潛客識別模型。
采用網格搜索方法對影響XGBoost模型較大的3個超參數進行最優值尋找,網格搜索最優參數結果如表3所示。圖5為通過網格搜索算法尋找最優參數的可視化結果。
同時,與邏輯回歸(Logistic Regression)、最近鄰算法(KNN)、決策樹(Decision Tree)、隨機森林(Random Forest)、輕量的梯度提升機(LightGBM)、極度梯度提升樹(XGBoost)進行實驗結果對比。將處理后的數據按照8∶2進行劃分,其中80%作為訓練集,20%作為測試集,模型實驗后各項指標結果如表4所示。
表4中,其他模型的隨機種子數為42,其余參數均為默認參數。從表中結果可以看出,改進的XGBoost在4項評價指標中整體均優于其他模型,Accuracy、AUC值、Recall、[F1]?Score值分別為87.73%、85.49%、91.54%、91.08%。圖6~圖8分別為基于改進的XGBoost模型的5G潛客智能識別模型實驗結果的混淆矩陣、AUC曲線以及[P?R]曲線圖。
2.4" 變量重要性和SHAP貢獻分析
為了進一步探究變量對5G潛客用戶識別的影響,通過變量重要性確定主要驅動因子并采用SHAP分析了各變量對5G潛客用戶識別的貢獻方向,模型的變量重要性如圖9所示。
SHAP是一種用于解釋機器學習模型預測的方法,基于合作博弈論中的Shapley值理論,將每個特征對于模型預測的貢獻進行分解,并提供了對模型預測的直觀解釋。SHAP的基本思想是將每個特征的值作為一個玩家,預測結果作為一個聯盟,然后計算每個特征值對于預測結果的貢獻。具體來說,對于每個樣本,SHAP值表示了每個特征值相對于預測結果的貢獻程度,正值表示對預測結果的正面影響,負值表示對預測結果的負面影響。圖10是利用SHAP對各變量正向和負向重要性的可視化結果。由圖10可知,套餐月租和出賬收入向右傾斜,表示增加這些特征的值會對模型的預測結果產生正向影響,即增加這些特征的值會使模型更傾向于預測更高的輸出值。流量收入向左傾斜,表示增加該特征的值會對模型的預測結果產生負向影響,即增加流量收入的值會使模型更傾向于預測更低的輸出值。
可以發現,套餐月租的大小對于5G潛客識別的影響最大,其次是出賬收入,查閱相關資料可以發現5G套餐通常比4G套餐費用高,一個用戶套餐月租高的用戶屬于高價值用戶,對于成為5G潛客用戶屬于正向反饋。流量收入和上上月流量超套金額、語音收入等重要性也排在前列,語音收入的費用大小也說明了用戶的類別。對比之前隨機森林算法給出的重要性,可以發現用戶的消費行為信息對于挖掘5G潛客用戶具有較大的影響。針對上述結果,后續可以根據用戶分層展開針對性營銷策略,提高5G用戶轉化率。
3" 結" 論
本文基于某地市運營商的用戶數據,經過數據預處理后,建立了改進XGBoost的5G潛客識別模型,并與邏輯回歸、KNN、決策樹、隨機森林、LightGBM、XGBoost主流模型進行實驗結果對比,驗證了改進XGBoost模型的優越性。實現將營銷工作集中在最有可能轉化的高價值潛在用戶上,降低5G套餐營銷不精準的可能性,從而提升運營商的5G市場競爭力。最后根據SHAP可解釋性模型,對本文數據集進行特征重要性分析,發現套餐月租、出賬收入、流量收入為特征重要性中排名前三的特征。這與實際業務需求相符合,運營商相關部門可以針對不同消費人群進行用戶畫像,制定合理準確的營銷策略,制定相應的5G套餐產品。但數據特征也存在時效性,后續研究可以考慮結合時間序列相關模型進行更為精準的潛客識別。對于潛在用戶的識別根據數據集的格式可以采取更多前沿的技術方法,通過自然語言處理技術和推薦算法可以進一步細化用戶類型,提高各類用戶對運營商的滿意度。
注:本文通訊作者為范馨月。
參考文獻
[1] 董瑩瑩,葛陽,李坤樹,等.人工智能算法在5G套餐潛在用戶識別中的應用[J].江蘇通信,2021,37(6):105?109.
[2] 張明超.基于隨機森林的潛在5G用戶預測分析[J].電子技術,2023,52(10):34?35.
[3] 力小勇.基于LightGBM算法的5G套餐的潛客識別[J].信息技術與信息化,2022(1):4?7.
[4] 徐洋,孫長秋,杜長斌.基于DPI探針技術識別家庭潛在客戶[J].通信管理與技術,2022(3):29?32.
[5] 朱軍,烏偉,謝虹銘,等.基于DNN的不平衡5G潛客的識別研究[J].電腦編程技巧與維護,2023(6):116?118.
[6] 魏國華,郭翔宇,康志強.基于大數據能力的5G資費潛在客戶挖掘方法[J].長江信息通信,2021,34(6):229?232.
[7] 畢君平.5G用戶遷轉方案的協同研究[J].山東通信技術,2021,41(4):16?18.
[8] 張晶,馮波,康之增,等.基于海量用電數據的農業灌溉用戶識別方法[J].河北電力技術,2023,42(5):90?94.
[9] 劉平山,曾梓銘.基于GBDT的醫藥供應鏈金融信用風險評價[J].會計之友,2021(16):24?31.
[10] 張偉成,衛紅權,劉樹新,等.面向5G MEC基于行為的用戶異常檢測方案[J].計算機工程,2022,48(5):27?34.
[11] CHEN H, TANG Q, WEI Y F, et al. Churn prediction model of telecom users based on XGBoost [J]. Journal on artificial intelligence, 2021, 3(3): 115?121.
[12] JIAO G E, XU H. Analysis and comparison of forecasting algorithms for telecom customer churn [J]. Journal of physics: Conference series, 2021, 1881(3): 032061.
[13] 趙艷軻.智慧城市發展八大趨勢[J].軟件和集成電路,2022(z1):24?25.
[14] 胡世良.5G邁向更高質量發展新階段[J].中國電信業,2023(6):12?15.