999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成學習算法的5G用戶流失預警方法研究

2024-02-21 07:53:11路明丁麗
中國市場 2024年4期
關鍵詞:特征用戶模型

路明 丁麗

摘?要:隨著5G技術的發展,5G用戶的流失預警已成為移動運營商的重要任務。然而,傳統的用戶流失預警方法在5G營銷領域存在準確性和可靠性不高的問題。為了解決5G用戶流失預測問題,文章將集成九大機器學習算法,結合5G降檔以及離網用戶的標簽數據和消費行為,構建一個基于集成學習算法的用戶流失預警模型。研究結果表明,基于集成學習算法的5G用戶流失預警方法具有較高的準確率、實時性和可靠性,可以有效地提高5G用戶流失預警的效率。

關鍵詞:集成學習算法;5G營銷;用戶流失預警

中圖分類號:F832.4????文獻標識碼:A?文章編號:1005-6432(2024)04-0195-04

DOI:10.13939/j.cnki.zgsc.2024.04.049

5G技術的發展為用戶提供了更快的網絡速度、更多的應用服務、更高的網絡安全性,以及更低的網絡延遲,然而,由于用戶的使用習慣和消費需求的變化,5G用戶的流失率也不斷增加,這對移動運營商的業務發展構成了巨大的挑戰。因此,如何通過海量用戶數據準確地預判5G用戶的流失趨勢并針對性地挽留,已經成為當前5G市場營銷領域研究的熱點。文章旨在探索基于集成學習算法的5G用戶流失預警方法,首先,收集了5G用戶的使用習慣和消費水平數據,并對數據進行預處理,以便進行后續的分析。其次,文章提出了一種基于集成學習算法的5G用戶流失預警方法。集成學習算法是一種有效的機器學習方法,可以將多個機器學習模型結合起來,提高模型的準確性。基于安徽移動公司2022年的用戶數據,文章構建了一個基于用戶標簽的預警模型,并采用集成學習的方法,將隨機森林、神經網絡、Xgboost以及Catboost等九大機器學習算法結合起來,最后對集成學習算法進行評估,驗證了模型的有效性和可靠性。

1?研究現狀

隨著5G技術的發展,通信行業面臨著市場競爭激烈、產品同質化嚴重、客戶流失等諸多問題,5G用戶流失問題已經成為當前研究的熱點。目前,已有一些關于移動通信客戶流失的研究,對客戶流失預測方法進行了前期研究,以單一機器學習模型和數據挖掘為主。例如,徐草等通過語氣算子的運用、信息轉換公式等,把模糊語言變成精確概率,并將其應用于客戶流失的預警與分析[1];鄧小龍等引入人工智能遺傳演化思想,對基于心理學擴散模型的SPA預測流失算法進行改進,提出一種遺傳演化預測算法,增強了預測模型泛化能力[2];林濤綜合運用了統計方法和機器學習方法,利用正則化邏輯回歸算法,對客戶流失預測的準確率基本達到89%以上[3];李兵等利用決策樹和K-Means++聚類,對傳統的隨機森林算法進行了改進,獲得了高精度、低相似預測算法[4];王小超等以電信運營商為對象,分別使用支持向量機、隨機森林、KNN、BP神經網絡4種算法進行研究,對比各種模型的準確率與召回率,發現采用BP神經網絡算法構建的數據模型預測效果良好[5];喬健等將客戶生命周期價值指標引入隨機森林CART分類樹算法特征選擇過程,有效地提高了客戶流失預測模型準確率[6]。

近年來,很多學者運用集成學習模型進行用戶流失預測,例如,余路將Logistic回歸、BP神經網絡與決策樹三種模型相結合,與單一模型預測結果相比,組合模型的預測效果更好[7];Jayaswal等人以電信用戶的數據為研究對象,分別構造決策樹模型、隨機森林與GBDT的集成模型,證明隨機森林與GBDT明顯好于單個決策樹;武小軍等人提出了支持向量機、CW-SVM、BP神經網絡和改進的SMOTE+AdaBoost用于用戶流失預測,改進后的方法能夠有效地確定類別中高價值的客戶群體,并提高流失客戶及非流失預測準確性[8];汪明達等人提出了兩個混合模型來預測電信用戶的損失,分別為神經網絡與機器學習集成模型、樸素隨機過采樣與投票結合的集成模型,研究表明,樸素隨機過采樣投票集成模型準確率較高;Ahmed等人對邏輯回歸、樸素貝葉斯、多層感知機、決策樹、隨機森林等、GBDT分別進行檢驗,研究表明,隨機森林模型與GBDT模型預測效果明顯好于其他單一模型。為進一步增強該模型預測能力,采用Stacking方法實現了模型集成。

從上述文獻可以看出,用戶流失預測領域研究已經取得了顯著的進步,研究人員對用戶流失的預測方法和思路存在一定差異。隨著5G通信技術和產品的迭代,現有的用戶流失模型缺乏針對5G套餐用戶的預測。在5G市場中,降檔和離網是用戶流失的關鍵預警行為,對于研究5G用戶流失預警模型是非常有必要的。因此,本研究通過降檔離網用戶和非降檔離網用戶在近幾個月內的相關數據,驗證最核心的機器學習算法,通過核心標簽指標和集成學習模型,進行用戶流失預測分析,從而準確定位營銷時機,高效采用營銷策略,全面提升營銷效率。

2?研究設計

2.1?數據提取

本研究數據來自安徽移動GBase數據庫,隨機抽取了762191條用戶數據,其中降檔離網用戶僅有4243人。為了更好地進行模型預測,需要平衡降檔離網人數和非降檔離網人數,分成兩步提取數據。第一步:提取2022年10月“是否降檔離網”標記為0,同時2022年11月“是否降檔離網”標記為1的用戶500000人,作為正樣本;第二步:提取2022年10月“是否降檔離網”標記為0,同時2022年11月“是否降檔離網”也標記為0的用戶500000人,作為負樣本。由于上次提取的762191條數據中也含有“11月降檔離網用戶”(3905人)和“10月和11月均未降檔離網用戶”(254022人),將這部分用戶也加入樣本中,最終得到降檔離網用戶503905人(正樣本),未降檔離網用戶754022人(負樣本)。

2.2?數據清洗

在數據生產、運輸、存儲的過程中可能會產生大量的噪聲點,如缺失、重復、錯誤、異常等情況。數據清洗就是要將無效數據清洗干凈,從而提高數據質量,增強預測結果的可信度。首先對初始標簽進行缺失值判斷,查看標簽是否完整,發現部分標簽缺失較多數據,因此選擇直接刪除這部分用戶。除了缺失值,在收集數據時也發現有部分標簽的值中含有“不詳”(以“Z”表示)的部分,因此將該標簽視作無效標簽刪除。剩余標簽中,“Z”的存在較少,因此這樣的標簽仍然具有預測能力,只需要把標簽未知的這部分用戶刪除即可。

2.3?數據標準化

數據標準化指的是將樣本的屬性縮放到某個指定的范圍。在采集的數據中不同屬性的數據具有不同的量級,標準化后可以讓不同維度之間的標簽在數值上有一定比較性,尋優過程范圍變小,更容易收斂到最優解。文章采用Z-score的方法對數據進行標準化處理。

2.4?特征工程

特征工程是從用戶基本數據、訂購數據、行為數據中篩選用戶信息,讓其最大限度地表征用戶的所有標簽,并盡可能地剔除冗余數據的過程。可以從以下幾個方面考慮選擇特征:

方差篩選:在數理統計中,方差是各變量值與其均值離差平方的平均數,是測算數值型數據離散程度的最重要的方法。方差越大,數據的波動就越大,方差越小,數據的波動就越小。如果一個特征不發散,也就是說樣本在這個特征上基本沒有差異,這個特征對于預測就沒有什么用。因此需要消除方差為0或較小的特征。在本研究中設置閾值為0.01,然后篩選掉方差小于閾值的特征,剩余46個標簽。

相關性分析:首先與目標高相關的特征應該優先選擇,與目標低相關的特征應該適當舍棄。其次特征之間如果存在某種相關或者高度相關的關系,會產生多重共線性的問題,使模型估計失真或難以估計,最后需要進行剔除。變量相關性剔除的方法有很多,本研究主要通過計算兩兩特征的相關系數,采用皮爾遜相關系數計算,皮爾遜相關系數定義為兩個變量之間的協方差和標準差的商。設置相關系數的閾值為0.7,若兩特征的相關系數大于0.7則代表他們高度相關,需要刪除其中一個。計算所有特征兩兩之間的相關系數,將大于閾值的特征進行剔除,最終剩余36個標簽。

卡方檢驗:卡方檢驗專門針對分類問題的相關性過濾,可以對離散型特征進行篩選,是用來檢驗定性自變量對定性因變量的相關性,構建統計量χ2進行估計。之后根據自由度來對照卡方分布的臨界值表進行判斷,自由度為K-1。χ2就是自變量對因變量的相關性,按照計算出的卡方統計量由高到低排列。文章對卡方檢驗p值大于0.05的特征進行篩除,最終保留31個標簽。

IV值篩選:在進行特征工程之前需要對特征進行重要性篩選,由于標簽較多,所以需要用一種方法幫助衡量什么變量應該進入模型,什么變量應該舍棄,本研究使用了IV值篩選方法,IV值的含義是信息價值或信息量。對于變量來說,IV值越大就表示預測能力越強。由于連續變量與非連續變量計算方式不同,因此首先將連續變量與非連續變量分離,最終得到連續變量18個,非連續變量13個。然后將連續變量分箱計算IV值,篩選出IV值大于0.03的標簽進行保留,最終保留18個標簽。對非連續變量不需要進行分箱,直接計算最終保留8個標簽,因此通過IV值計算最終保留26個標簽。篩選結果如表1所示。

2.5?模型構建

經過特征工程后,將提取的標簽作為輸入,構建一個基于集成學習算法的模型,采用決策樹、隨機森林模型、Xgboost、Catboost、支持向量機、邏輯回歸模型、最近鄰(KNN)算法、樸素貝葉斯算法、BP神經網絡算法,用于5G用戶流失預警推薦。

決策樹:作為機器學習算法中一種基本的分類和回歸算法,決策樹學習是以實例為基礎的歸納學習。模型呈樹形結構,主要由節點和有向邊組成,代表的是對象屬性與標簽值之間的一種映射關系。

隨機森林:隨機森林是由多個決策樹組成。在處理分類問題時,隨機森林本質上是對許多決策樹進行打包處理(bagging),最后以所有決策樹的投票來確定最終分類結果。文章中通過python的sklearn庫調取模型進行應用,隨機森林決策樹數量為1000,最大深度為40。

Xgboost:Xgboost算法屬于GBDT梯度提升決策樹的一種,通過對決策樹進行提升(boosting)處理來實現集成。隨機森林對決策樹進行打包時最終輸出的結果由所有決策樹投票產生,而Xgboost每一次迭代都會在上一次迭代的基礎上進行。文章中Xgboost樹的數量為1000,最大深度為40。

Catboost:Catboost是嵌入了自動將類別型特征處理為數值型特征的創新算法。首先對分類特征做一些統計,計算某個類別特征出現的頻率,之后加上超參數,生成新的數值型特征,且使用了組合類別特征,可以利用特征之間的聯系,豐富了特征維度。

支持向量機:通過一條支持向量來實現對數據的劃分,并且力求使向量到兩類數據最近的樣本距離最大。它是機器學習中最流行的模型之一,特別適用于復雜的中小型數據集分類。

邏輯回歸模型:邏輯回歸也被稱為廣義線性回歸模型,是一種簡單的二分類模型,與線性回歸模型的形式基本上相同。邏輯回歸在線性回歸的基礎上,套用了一個邏輯函數。

最近鄰:最近鄰算法從現有特征出發,如果i與某一類別的群體比較相似,則i就屬于這一類。因此,在最近鄰算法中最重要的是K值的選取和點距離的計算,本研究通過交叉驗證的方式最終確定K值選取為5時預測效果最好。

樸素貝葉斯:樸素貝葉斯算法對于給出的待分類項目,求解在此項目出現的條件下各個類別出現的概率,哪個最大就認為此待分類項屬于哪個類別。只需要求出在特定特征下某個新值是某個類別的概率即可。

神經網絡模型:神經網絡大體可以分為輸入層、隱藏層以及輸出層。為了充分地利用數據中的信息,可以通過在輸入層與輸出層之間加入隱藏層的方式來將數據投影到高維空間中,并在高維空間對數據進行劃分來更好地對數據進行線性劃分。文章中神經網絡設置兩層隱藏層,每層具有50個隱藏神經元,正則化懲罰系數為10-5,求解方式為隨機梯度下降。

3?實驗結果

3.1?模型評估

在模型評估方面,從precision、recall、accuracy、f1score四個角度來使用10折交叉驗證對模型進行評估。

查準率(precision):指被分類器判定正例中的正樣本的比重。

查全率(recall):指的是被預測為正例的占總的正例的比重。

準確率(accuracy):代表分類器對整個樣本判斷正確的比重。

f1score:查準率和查全率的綜合。

交叉驗證:指在給定的建模樣本中,拿出其中的大部分樣本進行模型訓練,留小部分樣本用剛建立的模型進行預測,并求這小部分樣本的預測誤差,記錄它們的平方加和。這個過程一直進行,直到所有的樣本都被預測了一次而且僅被預測一次,比較每組的預測誤差,選取誤差最小的那一組作為訓練模型。表2展示了交叉驗證結果:

由表2可知,按模型效果大體可以將模型分為三個層次:邏輯回歸和樸素貝葉斯位于第三梯隊;最鄰近、支持向量機、決策樹有效性位于第二梯隊;隨機森林、神經網絡、XGBoost以及CatBoost有效性處于第一梯隊。

3.2?模型進一步處理

為了提高模型穩健性,現選擇隨機森林、神經網絡、CatBoost以及XGBoost模型以打包(bagging)的形式進行集成,集成后的學習模型采取以下規則對客戶是否為潛在降檔離網客戶進行判斷:對客戶k來說,分別用隨機森林、神經網絡、XGBoost以及CatBoost對當前客戶進行預測,如果有三個或三個以上模型預測客戶k為潛在流失客戶,則認為客戶k為潛在流失客戶,否則認為客戶k不是潛在流失客戶。

經測試,得到多模型的準確率為0.93220,遠高于上述所有單個模型,但由于高準確率是由嚴格的條件而來的,因此查全率的表現平平,查全率為0.80593,f1score值為0.86447,總體上略低于CatBoost和XGBoost,因此是否運用多模型,需要考慮準確與查全的平衡,若要求高準確率,則可使用多模型預測,若既要求準確也要求查全,則使用單模型CatBoost或XGBoost是較好的選擇。

4?結論

隨著5G技術的發展,5G用戶流失預警方法的研究受到了越來越多的關注。文章研究了基于集成學習算法的5G用戶流失預警方法,具體來說,提出了一種基于集成學習算法的5G用戶流失預警方法,該方法利用多種機器學習算法,從查準率、查全率、準確率、F1值多指標維度對模型進行評估,發現隨機森林、神經網絡、XGBoost以及CatBoost效果最好,效果在所測試模型中處于第一梯隊。另外,為了提高預測的穩健性,文章對測試效果較好的模型進行打包集成處理,并將集成后的模型作為最終預測模型。

本研究主要貢獻有以下幾點:首先,構建了5G市場用戶標簽庫,通過不斷優化標簽,最終形成一個精準的標簽庫,從而使模型產生更好的預測效果;其次,構建了5G用戶流失預測模型,對約100萬用戶數據進行了訓練,幫助運營商找到合適的客戶進行針對性營銷,降低5G業務的用戶流失率。未來的研究應該更加注重技術的可擴展性和可維護性,以滿足不斷變化的市場需求。例如,可以采用增量學習或聯合學習的方法,以更好地適應市場的變化。也可以改進標簽選擇和標簽組合技術,提高用戶標簽庫的準確性和效率。

參考文獻:

[1]徐草,李敏.模糊貝葉斯網在通信行業客戶流失預測中的應用研究[J].合肥工業大學學報(自然科學版),2010,33(10):1567-1571.

[2]鄧小龍,王柏,吳斌,等.遺傳演化SPA流失預測算法及并行化[J].計算機科學與探索,2011,5(5):433-445.

[3]林濤.基于Logistic回歸的電信寬帶客戶流失預警分析[J].中國新通信,2019,21(11):147-148.

[4]李兵,陳俊才.基于TMRF算法的電信客戶流失預測方案研究[J].數字技術與應用,2021,39(4):116-121.

[5]王小超,張勇.基于BP神經網絡的電信用戶流失預測研究[J].綏化學院學報,2021,41(11):148-151.

[6]喬健,諸佳慧,嚴康桓.基于隨機森林CART特征選擇改進算法的電信客戶流失預測模型[J].電信工程技術與標準化,2022,35(3):78-82.

[7]余路.電信客戶流失的組合預測模型[J].華僑大學學報(自然科學版),2016,37(5):637-640.

[8]武小軍,孟蘇芳.基于客戶細分和AdaBoost的電子商務客戶流失預測研究[J].工業工程,2017,20(2):99-107.

[基金項目]本文系安徽移動公司研發項目“安徽移動5G業務互聯網鏈路營銷體系研究研發服務合同”的階段性成果(項目編號:202101243)。

[作者簡介]路明(1980—),男,漢族,安徽蕪湖人,碩士,中國移動通信集團有限公司安徽分公司工程師,研究方向:5G業務;丁麗(1989—),女,漢族,安徽六安人,中國移動通信集團有限公司安徽分公司中級經濟師,研究方向:5G業務。

猜你喜歡
特征用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 欧美午夜在线观看| 日本www色视频| 国产精品一区在线麻豆| 国产精品亚洲一区二区三区在线观看| 91口爆吞精国产对白第三集| 97综合久久| 少妇高潮惨叫久久久久久| 一区二区三区高清视频国产女人| 中文字幕有乳无码| 99精品免费欧美成人小视频| 精品综合久久久久久97超人该| 亚洲v日韩v欧美在线观看| 国产真实乱子伦视频播放| 久久人体视频| 亚洲国产看片基地久久1024| 国产毛片片精品天天看视频| 国模极品一区二区三区| 亚洲色婷婷一区二区| 国产手机在线小视频免费观看 | 无码中字出轨中文人妻中文中| 97精品国产高清久久久久蜜芽| 国产人成网线在线播放va| 久久国产拍爱| 免费毛片全部不收费的| 四虎成人精品| 国产成人h在线观看网站站| 国产人成乱码视频免费观看| 2020亚洲精品无码| 日韩一区二区三免费高清 | 人妻无码一区二区视频| 亚洲欧美色中文字幕| 婷婷午夜天| 日韩a在线观看免费观看| 久久永久精品免费视频| 九色视频线上播放| 在线视频亚洲欧美| 日本精品一在线观看视频| 日韩123欧美字幕| 视频国产精品丝袜第一页| 国产精品欧美激情| 国产毛片基地| 一级毛片在线播放| 99精品欧美一区| 亚洲天堂色色人体| 国产成人精品一区二区秒拍1o| 欧美成a人片在线观看| 国产精品亚洲一区二区三区z | 日本一本正道综合久久dvd| 又黄又爽视频好爽视频| 成人韩免费网站| 怡红院美国分院一区二区| 亚洲天堂视频在线免费观看| 久久亚洲国产视频| a级免费视频| 国产在线小视频| 午夜小视频在线| 免费国产无遮挡又黄又爽| 亚洲人成网线在线播放va| 香蕉视频在线观看www| 国产成人AV男人的天堂| 狠狠v日韩v欧美v| 91青青草视频| 亚洲欧洲天堂色AV| 色婷婷久久| 日韩国产 在线| 国产一在线| 国产99免费视频| 色综合色国产热无码一| 国产成年女人特黄特色毛片免| 国产日韩欧美精品区性色| 国产自在线播放| 精品亚洲麻豆1区2区3区| 国产在线精品99一区不卡| av一区二区三区在线观看| 国产精品女人呻吟在线观看| 国产成人精品一区二区秒拍1o| 国产成人91精品| 国产丝袜无码精品| 国产真实乱了在线播放| 国产一级做美女做受视频| 青青热久免费精品视频6| 国产成年无码AⅤ片在线 |