


摘要:近年來隨著公司攜號轉(zhuǎn)網(wǎng)工作的深入落實(shí),攜號轉(zhuǎn)網(wǎng)用戶越來越多,攜出用戶成了用戶流失的一大因素。為了減少用戶攜出,通過Python中的機(jī)器學(xué)習(xí)算法分析攜出用戶特征,建立易攜出用戶模型預(yù)測,提前定位易攜出客戶,進(jìn)行維穩(wěn)挽留,有效降低了攜出用戶的概率。
關(guān)鍵詞:攜號轉(zhuǎn)網(wǎng)、機(jī)器學(xué)習(xí)算法、攜出客戶、模型預(yù)測
一、引言
近年來隨著智能手機(jī)的普及,客戶規(guī)模不斷增大,通信企業(yè)新增市場趨于飽和,存量客戶維穩(wěn)顯得尤為重要。尤其是攜號轉(zhuǎn)網(wǎng)工作在通信企業(yè)的落地執(zhí)行,對存量用戶有著不小的沖擊。文獻(xiàn)[1]對攜號轉(zhuǎn)網(wǎng)做了全面的概述,用戶在不變更號碼的同時(shí)可以選擇不同的通信運(yùn)營商,方便靈活。文獻(xiàn)[2]研究了攜號轉(zhuǎn)網(wǎng)對我國移動(dòng)通信市場的影響,闡述了攜號轉(zhuǎn)網(wǎng)用戶的關(guān)注點(diǎn)及轉(zhuǎn)網(wǎng)的原因剖析,為通信企業(yè)的決策提供了參考。
我們關(guān)注的重點(diǎn)是如何挽留用戶,降低攜出用戶的概率,從而減少用戶流失率。提前鎖定要攜出的用戶,精準(zhǔn)開展維穩(wěn)挽留活動(dòng),可以有效降低用戶攜出的可能性。文獻(xiàn)[3]對Python數(shù)據(jù)分析的研究進(jìn)行了詳述,開拓了分析工作的思路,本文提出了通過Python中的分類算法對易攜出用戶進(jìn)行預(yù)測,既能提高分析效率,又能提供準(zhǔn)確的模型預(yù)測。
二、目前數(shù)據(jù)分析簡述
目前工作中最常用的數(shù)據(jù)分析、模型預(yù)測都是數(shù)據(jù)庫和excel相結(jié)合的方式開展的。先通過數(shù)據(jù)庫提取出指定用戶特征的用戶群,通過統(tǒng)計(jì)語句進(jìn)行相關(guān)特征用戶的匯總,最后通過excel呈現(xiàn)出折線圖、柱狀圖等一些直觀的數(shù)據(jù)表現(xiàn)形式,分析出特定的用戶模型。
三、Python機(jī)器學(xué)習(xí)算法建模優(yōu)勢
Python中pandas 庫里的相關(guān)函數(shù),能夠輕松完成數(shù)據(jù)導(dǎo)入、清洗、預(yù)處理,數(shù)據(jù)分類、篩選、匯總、透視等常見的操作。Sklearn庫包括了分類,回歸,降維和聚類四大機(jī)器學(xué)習(xí)算法,可以進(jìn)行特征提取,數(shù)據(jù)處理和模型評估。Matplolib庫中的方法可以進(jìn)行直觀的圖形化數(shù)據(jù)展示。Python 通過函數(shù)式編程完成數(shù)據(jù)處理、統(tǒng)計(jì)匯總及分析工作。Python語言本身簡潔高效易上手,函數(shù)豐富,對大數(shù)據(jù)的處理分析能力相當(dāng)強(qiáng)大。將Python的機(jī)器學(xué)習(xí)算法應(yīng)用到數(shù)據(jù)分析工作中,使繁雜的分析工作變得輕松自如。
四、易攜出用戶模型建立
易攜出用戶模型就是要從用戶攜出現(xiàn)的海量數(shù)據(jù)中,找到共同特征,建立預(yù)測模型,并將模型應(yīng)用于在網(wǎng)用戶,預(yù)測出攜出概率高的用戶。通過有效的維穩(wěn)政策,對用戶進(jìn)行精準(zhǔn)維系,減少用戶攜出,提升用戶價(jià)值。
(一)數(shù)據(jù)的選取和處理。
本數(shù)據(jù)集選取2021年11月狀態(tài)正常且均為9月之前入網(wǎng)的用戶數(shù)據(jù)10000條,其中次月仍正常用戶隨機(jī)抽取8000條,次月攜出用戶隨機(jī)抽取2000條,選取的用戶特征列為性別、年齡、入網(wǎng)時(shí)長、套餐檔次、通話、流量等基本屬性和前滾2個(gè)月的消費(fèi)、通信行為的變化等衍生屬性。數(shù)據(jù)集特征字段說明見表1。
本數(shù)據(jù)集放入yxc5.csv文件中,通過pandas庫中的函數(shù)read_csv()讀入數(shù)據(jù)集,isnull()查找缺失值(其中PRICE列共5個(gè)缺失值,CREDIT_RANK列共2個(gè)缺失值),dropna()刪除缺失值所在行,最后數(shù)據(jù)集剩9993行。
(二)特征可視化分析
本數(shù)據(jù)集除了USER_ID是用戶唯一標(biāo)識列,共7列連續(xù)型特征值,18列離散型特征值。離散型特征值列可用seaborn庫中的計(jì)數(shù)直方圖countplot()展示與IS_XC列的關(guān)系,見下圖1,連續(xù)型特征值列可用seaborn庫中的密度函數(shù)圖kdeplot()展示與IS_XC列的關(guān)系,見下圖2。
從計(jì)數(shù)直方圖中可以看出,異網(wǎng)雙卡客戶、DOM下降客戶、非合約套餐客戶、非身份證開卡客戶(性別未知客戶)、合約到期客戶、非寬帶客戶、非電視客戶的攜出占比較高;MOU是否下降客戶與攜出與否無差異。
從和密度圖中可以看出,入網(wǎng)10-15年客戶、套餐檔次50元以下客戶、年齡50-60歲客戶的攜出較集中;客戶月消費(fèi)、流量、通話時(shí)長與是否攜出無差異。
(三)特征選擇和模型訓(xùn)練
由前面結(jié)果可知,USER_ID表示每個(gè)客戶的唯一標(biāo)識,對后續(xù)建模不影響,IS_MOU 、TOTAL_FEE、VOLUME、CALL_DURATION 與攜出的相關(guān)性低,均可刪除。
現(xiàn)實(shí)情況下,一個(gè)數(shù)據(jù)集往往有多個(gè)特征,如何在其中選擇對結(jié)果影響最大的幾個(gè)特征,以此來縮減建立模型時(shí)的特征數(shù)是我們比較關(guān)心的問題。文獻(xiàn)[4]中詳述了隨機(jī)森林進(jìn)行特征選擇的方法,我們通過隨機(jī)森林函數(shù)feature_importances查找剩下特征列的重要性并進(jìn)行排序,見下圖3。
從上圖中可知,JOIN_DURATION,AGE,PRICE列的重要度最高,而LLB_FLAG,HYJ_FLAG,RED_FLAG列的重要度最低,可將其刪除。
文獻(xiàn)[5]和文獻(xiàn)[6]提出了隨機(jī)森林對分類不平衡數(shù)據(jù)的優(yōu)勢,現(xiàn)實(shí)中攜出用戶遠(yuǎn)遠(yuǎn)低于正常在網(wǎng)用戶,所以數(shù)據(jù)集是不平衡的;而且隨機(jī)森林算法對數(shù)據(jù)集的適應(yīng)能力強(qiáng),既能處理離散型數(shù)據(jù),也可以處理連續(xù)型數(shù)據(jù),數(shù)據(jù)集無需規(guī)范化,故選擇隨機(jī)森林分類算法是最合適的分類算法。選擇出與攜出特征相關(guān)性強(qiáng)的特征值列,建立訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,用RandomForestClassifier()進(jìn)行模型訓(xùn)練。模型訓(xùn)練準(zhǔn)確率可達(dá)0.897,具體運(yùn)行結(jié)果見下圖4。
選擇與攜出相關(guān)性強(qiáng)的特征列,用隨機(jī)森林進(jìn)行建模,訓(xùn)練出來的模型準(zhǔn)確率比較高。
五、模型應(yīng)用效果評估
通過以上的特征分析和選擇,為了驗(yàn)證模型,我們在2022年1月份選取了2021年12月的狀態(tài)正常、入網(wǎng)時(shí)間在10-15年、套餐檔次50元以下、年齡50-60歲,并且沒有開通寬帶和高清電視的客戶共10萬戶。在1月份對這部分客戶通過微客服的微信公眾號推送寬帶智家產(chǎn)品、流量大禮包、商超代金券等各類優(yōu)惠活動(dòng),吸引客戶參與,提升客戶黏性;通過推送專屬活動(dòng)為客戶送流量或話費(fèi)福利,提升客戶滿意度。效果在2月份顯現(xiàn)出來,2月的攜出客戶占離網(wǎng)客戶的比例由12月份的14.16%降低到12.81%,降低了1.35PP。
六、結(jié)束語
本文提出了使用Python的機(jī)器學(xué)習(xí)算法分析攜出用戶特征,找出強(qiáng)相關(guān)的特殊值,建立易攜出客戶模型,提前定位易攜出客戶,并通過微客服對目標(biāo)客戶推送優(yōu)惠活動(dòng)或?qū)俑@黾恿丝蛻麴ば裕嵘丝蛻魸M意度,有效降低了攜出用戶的概率。
作者單位:尹清? ? 中國移動(dòng)通信集團(tuán)河南有限公司新鄉(xiāng)分公司
參? 考? 文? 獻(xiàn)
[1] 胡文玉,竇曉燕.全面實(shí)施攜號轉(zhuǎn)網(wǎng)對我國移動(dòng)通信市場影響[J].電信科學(xué),2019(9):124-134.
[2] 鄭煒楠.攜號轉(zhuǎn)網(wǎng)的影響及應(yīng)對策略[J].現(xiàn)代營銷理論,2018(09).
[3] 韓文煜.基于python數(shù)據(jù)分析技術(shù)的數(shù)據(jù)整理與分析研究[J].科技創(chuàng)新與應(yīng)用,2020(4).
[4] 王全才.隨機(jī)森林特征選擇[D].大連:大連理工大學(xué),2011.
[5] 肖堅(jiān).基于隨機(jī)森林的不平衡數(shù)據(jù)分類方法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2013.
[6] 徐少成.基于隨機(jī)森林的高維不平衡數(shù)據(jù)分類方法研究[D].太原:太原理工大學(xué),2018.