袁 江,沈佳成,居新星
(中國電信股份有限公司金華分公司,浙江 金華 321000)
隨著5G 牌照的發放,2021 年進入我國5G 消費者(2C)發展加速年,5G 移動通信網絡處于高速發展階段,各運營商5G 建設也步入高峰,競爭非常激烈,全年新增約58 萬個5G 基站。與此同時,5G 手機銷售占比也快速提升,如圖1 所示,預計2021 年底,5G 終端占總銷售終端的80%,2022—2024 年5G 快速成為主力軍,預計2024 年底5G 用戶占總移動網用戶將達近80%,5G 終端數量的爆發式增長必然帶動5G 登網用戶大幅增加[1]。

圖1 5G 現狀與預測
圖2 為某省4G 和5G 用戶平均每月上網流量(Dataflow of usage,DoU)均值對比,可以看出,5G DoU 均值24G,相比4G 提升50%~80%,5G 的發展給運營商帶來經濟價值的提升。

圖2 4G 和5G DoU 均值對比
隨著5G 網絡建設、5G 終端發展、5G 用戶增多,讓用戶獲得良好的業務感知是運營商關注的焦點,也是競爭中勝出的關鍵,這就需要一種成熟的指標評估5G 用戶發展和體驗情況,5G 分流比的概念呼之欲出。5G 分流比的提升一方面可以讓5G 用戶更多使用5G 網絡,另一方面可以有效降低4G 的負荷[2]。某省的分流比數據如圖3 所示,5G 分流比僅占3%,與5G 用戶的終端占比還有很大的差距,然而當前業界還沒有比較全面的評估提升5G 分流的方法和手段。本文基于運營域(O 域)和業務域(B 域)數據,采用隨機森林算法,從市場和網絡兩方面出發,市場方面注重4G 至5G 用戶遷移,網絡方面側重點為提升駐留比,將分流比從3%提升至11.35%[3]。

圖3 5G 用戶、5G 終端、5G 流量對比
5G 分流比定義為:用戶產生的5G 網絡流量與非5G 網絡流量和5G 網絡流量之和的比例。分流比的提升與5G 終端滲透率、5G 開關打開比例、5G DoU 系數和5G 流量駐留比相關,下文詳細論述了5G 分流比與市場側和網絡側的關系。
5G 分流比的計算方式為:

式中:5G 終端數量為a;非5G 終端數量為b;5G終端產生的5G 流量為c;5G 打開比例為g;打開開關的5G 終端DOU為DOU1;其余用戶DOU 為DOU0。
進一步推導:

式中:h為5G DOU 系數,即為打開5G 開關的DOU與其他普通用戶的DOU的比,DOU1/DOU2。
進一步推導,引入5G 終端滲透率k,SA 滲透率k1,NSA 滲透率k2,

進一步得到5G 分流比與終端滲透率的關系:

進一步換算:

5G 駐留比用Z表示,開關開啟5G 終端產生的5G 流量比上開關開啟5G 終端產生的總流量,分為SA 流量駐留比Z1和NSA 流量駐留比Z2,推導駐留比關系為:

駐留比與終端滲透率的關系表示為:

B 域為業務域(business support system)的數據域。B 域有用戶數據和業務數據,比如用戶的消費習慣、終端信息、平均每用戶收入(Average Revenue Per User,ARPU)的分組、業務內容,業務受眾人群等。
O 域為運營域(operation support system)的數據域,O 域有網絡數據,比如信令、告警、故障、網絡資源等[4-5]。
根據數據分析,5G 分流比與5G 終端滲透率、5G 開關打開比例、5G DoU 系數和5G 流量駐留比相關,分解推導為:

式中:T為SA 用戶占全網5G 用戶的比例。
式(8)中,5G 分流比與總體流量駐留比呈線性正相關,流量駐留比提升多少倍,分流比相應提升多少倍。5G 分流比與5G 終端滲透率、5G 開關打開比例都呈非線性正相關,二者對5G分流比貢獻度一樣,推動5G 開關打開與發展5G 終端用戶數作用等效。結合某運營商本地數據在可預見的將來,開關打開比例可提升1.5 倍左右,滲透率當前基數還很低,可提升5 倍左右,可提升空間比較大,因此發展5G 終端提升滲透率是重點。5G 分流比與打開開關的5G 終端DoU 系數呈非線性正相關,在用戶業務類型、行為習慣無明顯差異下,該系數一般在2 倍左右。
式(9)中,5G分流比與獨立5G用戶(standalone,SA)占比呈線性正相關,SA 用戶占比越高,分流比越高;因此,發展用戶時,重點要提升SA 駐留比。同理,SA 駐留比越高,分流比越高。
綜上所述,分流比的提升需要市場側加大精準營銷力度,網絡側重點提升駐留;然而傳統的市場營銷僅僅考慮用戶行為并沒有結合網絡數據,缺乏精準性和效率性,5G 駐留比的提升當前也沒有統一的方法和理論支撐。當前運營商同時擁有用戶數據(B 域)和網絡數據(O 域),如果能夠綜合考慮兩方面因素,分流比提升的節奏必然大大加快[6]。
本文綜合考慮B 域數據與O 域數據,一方面結合換機用戶的終端、網絡行為及網絡體驗3 個方向建模,通過算法挖掘4G 終端用戶的5G 換機潛力值,指引市場側加速5G 用戶發展;另外一方面,從4G工參、4G 測量報告(Measurement Report,MR)、5G 工參、5G MR、5G 話統出發,結合市場用戶數據,指引網絡側精準建站和網絡優化,提升駐留比[7-8]。
市場側5G 精準營銷從換機用戶的終端、網絡行為及網絡體驗3 個方向建模,涉及到用戶側B 域數據。其中,終端數據包括終端上市時間、價位、品牌;網絡行為可以分為視頻偏好用戶、游戲偏好用戶、網頁瀏覽偏好用戶、電話偏好用戶等;網絡體驗可以分為上行感知速率、下行感知速率、DoU、語音質量。綜合以上數據進行建模實現4G高潛用戶的精準識別。網絡側駐留比提升數據源包括4G MR 和5G MR,在5G 網絡中,MR 數據和4G網絡中類似,同樣也分為事件型和周期型MR,除了4G 中具有的參考信號接收功率(Reference Signal Received Power,RSRP)、跟蹤區(tracking area,TA)等信息外,還增加了波束信息及下行信號干擾噪聲比(signal to interference plus noise ratio,SINR)等信息,網絡側綜合以上數據對區域精細5G 價值建站判斷,實現精準規劃建設輔助5G 網絡優化,實現分流比提升[9]。
在之前的分析中,不管是市場側的數據還是網絡側的數據都是極為龐大,傳統的營銷模式和網絡規劃優化并沒有綜合考慮B 域和O 域數據,缺乏針對性和實時性。本文通過機器學習算法的數據分析方法建立精準的高潛用戶識別模型和精準規劃5G站點模型,將極大程度提升駐留比提升的效率。
隨機森林是一種比較新的機器學習模型(非線性基于樹的模型)集成學習方法。上世紀八十年代Breiman 等人發明了分類樹算法,該算法通過反復二分數據進行分類或回歸,計算量大大降低。2001年Breiman把分類樹組合成隨機森林,即在變量(列)的使用和數據(行)的使用上進行隨機化,生成很多分類樹,再匯總分類樹結果。隨機森林在運算量沒有顯著提高前提下提高了預測精度;此外,隨機森林對多元共線性不敏感,結果對缺失數據和非平衡數據比較穩健,可以很好地預測多達幾千個解釋變量的作用[10]。隨機森林算法如圖4 所示。
如圖4 所示,隨機森林是由多個決策樹分類模型組合而成。這多個決策樹都由原始樣本有放回的隨機抽樣形成的新樣本訓練而來,全量數據通過有放回的抽樣形成K個新樣本,并訓練出K個決策樹模型。這K個決策樹即構成了整個隨機森林。后續,新樣本則會放入各個決策樹中進行結果判斷,各個決策樹具有平等投票權,根據多數原則最終決定模型輸出。在本文研究構建的問題模型中,模型輸出即為判定該用戶是否為4G 高潛用戶和該柵格是否有價值進行5G 規劃建設。

圖4 隨機森林算法
此次建模的主要目的是通過各字段數據,預測出該用戶是否為4G 高潛用戶和該柵格是否有價值進行5G 規劃建設。該問題屬于有監督類學習中的分類問題,且具有數據體量大、數據字段多、各字段數據非線性分布的特點;因此,在本次研究選擇隨機森林算法進行模型構建。
本次研究采取5 段式循環迭代的方式進行。首先,將全網O 域和B 域數據進行采集、計算和關聯形成原始分析數據,得到可以輸入機器學習模型的規范化訓練數據;其次,導入隨機森林算法模型進行訓練,根據查準率和查全率對模型進行評估;最后,提煉模型中的經驗邏輯關系并指導下一次迭代分析。
市場策略的研究數據主要來源于某運營商O 域和B 域數據,市場側模型整體字段情況如表1 所示。

表1 研究數據字段表
本次研究的隨機森林模型通過R 語言進行構建,樣本采用市場側用戶B 數據與網絡側O 域數據,將以上數據進行組合生成1 000 組樣本數據,其中訓練集與測試集按照7:3 比例進行分割,森林內決策樹數量設置為500。整體模型預判項為4G 升級為5G 高潛用戶標志,將除“高潛用戶”字段以外的數據作為模型的輸入,“高潛用戶”作為模型的輸出。將已有的市場數據導入隨機森林算法進行訓練,分析提煉12 個輸入項和是否高潛用戶之間的深層邏輯關系;然后以此邏輯關系指導下一次迭代過程[11]。
在市場側根據O 域和B 域數據,通過隨機森林算法建立準確的4G 到5G 用戶遷移模型,實現5G用戶數的提升,與此同時,網絡也需要同步配合市場側的需求做好5G 駐留的優化提升。5G 駐留比能夠比較客觀地反映5G 網絡質量情況,提升5G 駐留比能夠有效提升用戶感知和運營效益。網絡側以5G駐留比指標為切入點,從精準規劃補點提升基礎網絡覆蓋,優化4G 和5G 互操作策略兩個角度出發。
本文在5G 高價值建站區域的選取上,綜合O域和B 域數據,考慮的關鍵要素如表2 所示。

表2 研究數據字段表
模型訓練過程與市場策略相似,將除“5G 高價值建站標識”字段以外的數據作為模型的輸入,“5G 高價值建站標識”作為模型的輸出,將此導入隨機森林算法進行訓練,得出圍繞投資收益和用戶體驗的精準建站模型,從而精確識別5G 優先建設區域,達到提升5G 流量提升分流比的目的。
網絡因素除了精準規劃建站以外,4G 和5G 網絡互操作策略也影響駐留比,從而影響分流比。隨著5G 的商用部署及技術演進,聯通、電信網絡出現多制式、多頻點并存的情況,網絡結構日益復雜,4G 和5G 網間移動性策略及配置不統一、不合理導致用戶駐留5G 困難。此外,4G 和5G 網間互操作邊界多,場景復雜,現網如果存在配置不合理、電聯配置不一致的情況,將會導致用戶無法基于業務和5G 覆蓋迅速返回5G 網絡;因此,合理的互操作參數設置將影響著用戶駐留網絡,決定了5G 駐留比水平。
針對移動市場飽和,結合O 域和B 域數據,從換機用戶的終端、網絡行為及網絡體驗3 個方向建模,并通過隨機森林算法深度挖掘4G 終端用戶的5G 換機潛力值,以加速5G 用戶發展。
從圖5可以看出,通過某城市數據分析,換出排名靠前4G 終端型號是iphone 7p 和iphone 6,2017 年的終端換出率最高,換出終端1000~3000 元價格分布是最高的。接下來對換出用戶的網絡行為及網絡體驗做分析。


圖5 某城市4G 終端換出數據
從圖6 可以看出,視頻偏好用戶中換機用戶的400 KB 啟動時延普遍高于不換機用戶。如圖7 所示游戲偏好用戶中換機用戶的下行RTT 時延波動普遍高于不換機用戶。

圖6 視頻偏好用戶換機與不換機對比

圖7 游戲偏好用戶換機與不換機對比
基于已經成功換機的254 個用戶數進行模型建立,并將某城市的數據導入模型分析模型識別換機高潛用戶12.46 萬,其中真實換機用戶9.85 萬,準確率79%[13],如圖8 所示,從2 月17 日到6 月15 日,某城市5G 活躍用戶數從1.83 萬提升至11.68 萬。

圖8 某城市5G 活躍用戶數變化
網絡側通過隨機森林算法模型建模,識別優先建設區域,多維度特征分析識別高優先級建設區域,綜合考慮價值終端、熱點業務、體驗維度和口碑場景,如圖9。

圖9 多維度特征分析識別區域
如圖10 所示,根據模型輸出的高價值區域,以某區域柵格為例,當前已規劃145 宏站,13 個微站,在現網共站址加站1 個宏站、38 個微站,新建站7個宏站、1 個微站。如圖11 所示,從2 月17 日到6月15 日區域內5G 駐留比從9.31%提升至38.37%。

圖10 模型輸出規劃結果

圖11 駐留比提升效果
綜合市場策略和網絡策略,從圖12、圖13 中可以看出,從2 月份起整體5G 流量從4.03 TB 提升至54.61 TB,分流比從2%提升至11.35%。

圖12 5G 流量變化

圖13 分流比變化
本文基于B 域和O 域數據體量大、數據字段多、各字段數據非線性分布的特點,采用隨機森林算法建立市場模型和網絡模型,準確地將5G 分流比提升的工作精準定位到用戶級。同時輔以網管、基站數據等O 域數據,可以將用戶與網絡有機結合起來,實現5G 分流比的大幅度提升,極大地減少了4G 負荷,提升了5G 基站的利用率。