岳烈驥 孫 偉 侯 普 呂程程 陳 凱
1 中國移動通信集團北京有限公司 北京 100027
2 中國信息通信研究院 北京 100191
5G時代隨著用戶和設備規模的持續上升,多網絡融合、多設備互聯、多業務并發,5G得到越來越廣泛的應用[1]。與此同時,5G網絡的復雜性也在持續增加,故障所造成的影響范圍也越來越廣。實際業務中,針對5G網絡的運維,存在故障發現被動、根因定位困難等一系列問題,各專業運維支撐系統面臨開發周期長、閉環流程自動化程度低的技術瓶頸,難以做到主動維護和根因自動定位。在日常網絡運維中,依靠人工處理的傳統方式,存在分析工作量大、投訴根因定位難、跨部門溝通成本高等問題,特別是復雜故障場景下往往需要多次上站排查才能找到故障根因,費時費力,對于VIP站點或重點保障站點,一旦發生故障容易引發關鍵用戶投訴。由于5G投訴涉及終端、錨點、5G站點等各種因素,迫切需要形成一套統一標準的5G投訴定位流程,提高5G投訴分析效率,并最終基于5G投訴根因情況監控全網質量波動,持續提升移動網絡的質量和端到端的運營能力[2]。
近年來,大數據、深度學習等技術的發展推動了人工智能產業的進步,人工智能在各行各業都取得了落地應用的成果。大數據分析和機器學習是實現人工智能的重要技術手段。本文利用大數據分析、特征工程和無監督機器學習算法,根據歷史用戶投訴信息、投訴地點周邊站點狀態、規劃站點情況以及用戶常駐站點、4/5G流量駐留比、異常事件、關鍵性能指標等數據,使用人工智能機器學習算法,構建特征指標和根因之間的關系模型,快速定位5G投訴的根因,實現5G用戶投訴處理的自動化和智能化。
在業務系統中收集歷史5G用戶投訴工單,對于每份投訴工單,提取投訴的時間和地點信息,其中地點信息包含投訴時刻經度和緯度的坐標值。根據包含所有基站經緯度坐標、方位角信息的工參數據,基于距離和方位角兩個維度,定位出每份投訴工單關聯的基站。距離閾值設置為500米,方位角閾值設置為正負30度。用戶投訴位置和基站之間的距離使用Haversine公式[3]進行計算:
用戶投訴位置和基站之間的方位角計算方式為
針對每份5G投訴,基于距離和方位角兩個維度查找出投訴時刻的關聯基站,進一步地,對于每個關聯基站,提取基站的特征指標數據,構建5G投訴特征指標候選集合,如圖1所示。

圖1 特征指標候選集合示例
特征指標候選集合具體包括投訴工單265個特征、5G不滿意用戶22個特征、5G BI系統313個特征和無線感知540個特征。
結合常駐地點數據、業務專家經驗以及統計科學中的信息增益準則和皮爾遜自相關分析算法[4],從5G投訴特征指標候選集合中篩選出指標候選子集。
信息增益準則基于信息熵的概念,隨機變量的信息熵定義為:
熵的大小只依賴隨機變量X的分布,而與的取值無關,隨機變量的不確定性越大,其計算出的熵值越大。信息增益表示得知特征的信息而使得基站類別信息的不確定性減少的程度,根據特征和基站類型的信息增益值進行排序,篩選出信息增益大的特征指標。
皮爾遜相關系數是用來檢測兩個連續型變量之間線性相關的程度,計算公式為:
根據上述篩選準則,篩選出相關性高的128個特征指標,構成特征指標候選子集。進一步地,使用隨機森林算法模型[5]收集關鍵性能指標集合。具體地,收集1 000個投訴關聯基站和1 000個正常基站的指標數據,構建出包含128項特征維度的2 000例樣本,構建隨機森林模型,預測數據集中的每個樣本的類別,判定該樣本屬于正常基站還是投訴關聯基站。訓練隨機森林模型直至模型收斂。模型訓練結束后,將128項性能指標按照隨機森林模型給出的特征重要性得分進行排序,最終篩選出和5G投訴強相關的34項性能指標。篩選出的性能指標以及各自的權重值,如圖2所示。

圖2 5G投訴關鍵特征指標示例
對于每條5G投訴關聯的基站,從業務系統數據庫中收集投訴時刻的34項關鍵性能指標數據,并從中定位出異常指標集合,結合業務專家經驗,得出投訴的根因。對于異常指標的定位,在綜合評估比較各個算法模型的性能之后,選擇采用無監督[6]的孤立森林[7]機器學習算法模型。
收集5 000條投訴關聯基站在投訴當天的34項特征指標數據,另外再收集5 000條其它正常基站在任意某天的34項特征指標數據,構建出包含10 000個元素的數據集S。在數據預處理上,對于數據集中的缺失值,采用正常基站的均值進行填充。
基于數據集S,隨機構建100棵獨立的二叉樹。對于每顆二叉樹,在10 000個訓練樣本中隨機選擇1 000個樣本,放入樹的根節點中。在34項特征指標集合中,隨機選擇一個特征指標F,在F的數值范圍中,隨機產生一個切割點p,如果某個樣本在F特征指標上的值小于p,則將該樣本分配到節點左子樹中,反之,分配到節點右子樹中。遞歸重復上述過程,直至無法再進行切割,或者達到二叉樹預設的20的高度。100棵二叉樹構建完畢后,即構建出檢測異常指標的孤立森林模型M[8]。圖3給出了模型構建的整體算法流程。

圖3 異常指標定位模型算法流程
對于每個樣本X,將X輸入進孤立森林模型M,計算X的得分,計算公式為:
其中E(h(X)) 表示樣本X在孤立森林模型M中的平均高度,n表示構建每顆樹的樣本數量也即1 000,c(n)的計算方式為:
其中H代表諧波函數[9]。如果S(X)的得分大于0.8,判定X為異常基站指標數據,反之判定X為正常基站指標數據。對于異常基站指標數據X,計算所有100棵樹的平均高度EM,并篩選出路徑長度低于0.2×EM的葉子節點,這些葉子對應的特征指標,即為X中的異常指標集合。
對于每條5G用戶投訴,基于距離和方位角兩個維度查找出投訴時刻的關聯基站,提取出關聯基站的34項特征指標數值,輸入進異常指標定位模型M,預測得出異常指標集合。對于模型預測出的異常特征指標,根據業務專家規則,轉換得出5G投訴的根因。圖4給出了根據異常指標定位5G根因的規則流程。

圖4 異常指標和投訴根因關聯規則
對于覆蓋異常根因,基于投訴位置附近有無站點、SA用戶覆蓋不滿意指標和Top n常駐小區MR覆蓋率三個因素進行判定。對于投訴位置附近是否存在站點,根據用戶投訴的經緯度位置和工參表中所有5G站點的經緯度位置,計算用戶投訴一定距離范圍內是否存在站點,如果投訴位置附近不存在站點,則判定為覆蓋異常根因。對于SA用戶覆蓋不滿意指標,計算SA用戶覆蓋不滿意指標是否大于閾值,其中閾值由數據集S中正常基站的SA用戶覆蓋不滿意指標的均值計算得出。對于Top n常駐小區MR覆蓋率,計算Top n常駐小區MR覆蓋率是否小于閾值hmr,閾值hmr由數據集S中正常基站的MR覆蓋率指標的均值計算得出。滿足上述三者中任何一項,判定5G投訴根因是覆蓋異常。
對于干擾異常根因,基于重疊覆蓋度和小區NI指標兩個因素進行判定。對于重疊覆蓋度,判斷異常特征集合中重疊覆蓋度指標是否大于閾值hoverlap,閾值hoverlap由數據集S中正常基站的重疊覆蓋度指標的均值計算得出。對于小區NI指標,判斷小區NI指標是否大于閾值,閾值由數據集S中正常基站的NI指標的均值計算得出。滿足上述兩者中任何一項,判定5G投訴根因是干擾異常。
對于容量異常根因,判斷異常特征集合用戶數指標是否大于閾值hnum,閾值hnum由數據集S中正常基站的用戶數指標的均值計算得出。如果大于閾值,判定5G投訴根因是容量異常。
對于站點故障根因,根據故障站點表中的站點經緯度位置,判斷投訴位置附近是否存在距離小于500米的故障站點,如果存在,判定5G投訴根因是站點故障。
上述四個條件均不滿足,判定5G投訴根因是其它異常。
文章給出了5G用戶投訴根因定位方法,方法包括5G投訴關鍵指標集合篩選、異常指標定位模型構建、異常指標和投訴根因轉換規則構建等流程。驗證階段,選取6 564個5G投訴工單,5 384個正常的模擬工單,構建出11 948個測試工單集合。對于每個工單,根據工單中的經緯度信息,按照方法流程預測得出5G投訴根因,并以人工定位的結果作為基準,進行準確率的驗證,其中10 428單和人工定位的結果一致,定位準確率為87.3%。表1展示了模型在各個根因類別上的預測結果。

表1 用戶投訴根因定位各個類別準確率
該方法上線投入實際應用之后,通過對接網優基礎數據庫,對于每條5G投訴拉取關聯基站指標數據輸入進模型,并基于模型的預測結果和轉換規則得出用戶的投訴根因,將結果輸出進EMOS平臺派發工單流轉至分公司優化解決,同時基于5G投訴感知根因情況監控全網質量波動,持續提升了5G的服務質量。