王亞楠,陳毅敏,李佳袁*
(1.中國移動通信集團設計院有限公司,北京 100080;2.北京市第一中西醫結合醫院,北京 100026)
以5 G為代表的新一代信息通信技術,正成為引領新一輪科技革命和產業變革的核心引擎。一方面,5 G網絡自身的發展雖融入了開放化、智能化等特性,但越來越復雜的網絡同樣急需運維模式的革新;另一方面,網絡智能化的程度也隨著業務層面的不斷創新而日益加深[1-3]。
隨著無線通信技術的快速迭代和網絡規模的不斷擴大,用戶對網絡質量的要求越來越高,傳統被動響應式的基站告警處理方式已越來越不能滿足運營商對網絡告警,尤其是影響網絡質量的重要告警的管理需求。
為了減少基站退服事件的發生,降低基站退服時長,本文提出了一種基于詞向量的退服告警預測方法,通過對高隱患基站的精準定位,為基站巡檢和隱患的提前排障做出有力指導,從根本上實現了基站退服的主動預防,提升了網絡運維的效率和質量。
現階段的維護方式,導致基站或小區不可避免地在運維實施期間停止服務,極大地影響了客戶的感知和體驗,并有大量投訴隨之產生。
退服處理中最主要的分析依據就是基站的告警數據。告警數據能夠及時反映當前基站的運行狀態,而重要退服類告警的發生常常伴隨著次要告警、性能指標波動等,現有的分析方法僅依靠經驗粗粒度估計大面積退服發生的風險,預測的準確性不高,也難以為巡檢隱患排查、運維資源針對性調度等提供科學依據。
如何利用海量的歷史運維數據挖掘退服規律,準確預測退服基站,提前進行故障隱患排查,已成為減少退服事件發生率、降低運維成本、實現運維思路從被動處理向主動預防轉變的關鍵。
針對上述問題,本文提出了一種基于詞向量的退服告警預測方法。該方法首先利用Word2Vec模型,對基站級別的故障、性能、動環告警等數據進行全面分析,重點探究基站歷史發生的退服告警及退服告警發生前后基站告警數據的變化情況,盡可能地挖掘次要告警和退服告警數據之間的內在關聯。
Word2Vec是一種結構特殊的神經網絡,其出發點是考慮了上下文相似的兩個詞,它們的詞向量也應該是相似的,一舉解決了傳統的One-Hot編碼無法代表語義且維度過高的問題。Word2Vec有兩大常用模型:以上下文詞匯預測當前詞匯的CBOW(Continuous Bag-of-Word)模型以及以當前詞匯預測其上下文詞匯的Skip-gram模型。模型結構如圖1所示,以上下文窗口為3舉例說明。

圖1 Word2Vec常用模型原理
本文所提出的方法以退服告警序列作為預測模型的特征輸入,并結合了兩種方法生成退服告警序列:
(1)對每個基站的所有告警序列按時間排序,以每固定1~n天無任何告警發生的時間為間隔劃分所有告警序列,生成序列語料庫,再將所有基站的語料庫合并。(2)對每個基站的所有告警序列按時間排序,以每一個退服告警的樣本為中心,取前面n1天的所有告警和后n2天的所有告警,按順序排列,作為一個告警組。將所有的告警組合并,形成告警類型編碼語料庫。
對生成的告警序列語料庫使用Word2Vec模型,訓練不同告警的上下文信息編碼模型。其參數如表1所示。

表1 Word2Vec模型參數
特征樣本生成主要有以下3個步驟:
1.3.1 特征數據生成
在完成Word2Vec模型的訓練后,輸入每個告警標題,將其與模型訓練得到的權重矩陣W相乘得到的對應告警的詞向量。在生成的詞向量空間中,兩個向量夾角間的余弦值可以衡量兩個個體之間差異的大小:
(1)
余弦值接近1,夾角趨于0,表明兩個向量越相似,余弦值接近于0,夾角趨于90°,表明兩個向量越不相似。因此,通過計算非退服告警向量與退服告警向量之間的余弦距離,可以得出其他次要告警i與退服告警j之間的相似度δij,其中負值統一置成0。最后,將告警i與J類退服類告警之間的相似度相加,得到告警i的編碼:
(2)
1.3.2 標簽標注
根據需要預測的天數M(如3天),以該天數M為滾動窗口,遍歷統計告警數據,計算每個窗口期間基站是否發生了退服告警。如果發生退服告警則標注為1,如果沒有發生退服告警則標注為0。
1.3.3 樣本生成
將上述過程產生的特征數據和標簽數據按基站與日期相關聯,生成訓練樣本,訓練數據使用了試點地市1—10月共10個月的歷史告警數據,并以同樣的方式生成預測樣本,只含輸入特征數據,不含標簽數據。基站退服告警預測樣本生成流程如圖2所示。

圖2 基站退服告警預測樣本生成流程
本文使用基于XGBoost算法和LightGBM算法的二分類模型進行退服告警預測,二者都是基于梯度下降樹(Gradient Boosting Decision Tree,GBDT)的提升方法。使用XGBoost和LightGBM的二分類模型進行退服告警預測,具體算法流程如圖3所示。

圖3 基于XGBoost和LightGBM模型的基站退服告警預測流程
首先對樣本按照其所在周數進行分組,采用Group-Kfold進行交叉驗證,將原始樣本分割成K個子樣本集,每一個單獨的子樣本集被保留作為驗證模型的數據,其他K-1個樣本集用來訓練XGBoost和LightGBM模型,且保證同一周的樣本不會同時出現在訓練集和測試集上。然后重復K次,使得每個子樣本集均被驗證一次,同時生成K個模型。Group-Kfold通過避免同一周的樣本出現在訓練集和測試集上,提高了模型的泛化能力。
此外,為了解決數據集正負樣本比例嚴重失衡的問題,采用Focalloss代替傳統的交叉熵損失函數。二分類的交叉熵損失函數如下:
(1-yi)log(1-pi)]
(3)
Focalloss通過引入參數α和γ對負樣本和易分樣本進行懲罰,其函數形式如下:
(4)
其中,γ>0用于減少易分類樣本的損失,使得模型更關注于困難的、錯分的樣本。例如γ= 2,對于正類樣本而言,預測結果為0.95,肯定是簡單樣本,所以(1-0.95)γ就會很小,這時損失函數值就變得更小。而預測概率為0.3的樣本其損失相對很大。此外,加入平衡因子α,加大正樣本的權重,平衡正負樣本本身的比例不均。
完成K個子模型的訓練后,根據其在驗證集上的精確率,計算各個模型的權重。預測時,通過輸入對當前基站過去一段時間的歷史告警數據、工參數據,根據已訓練得到的告警編碼、歷史退服特征、基站屬性特征,按時間窗進行滑動形成輸入樣本,輸入XGBoost和LightGBM的各個子模型,即可獲取未來一段時間內退服告警發生的概率。最后,根據計算出的模型權值,融合子模型上的預測結果,得出最終的退服告警概率預測值,對未來一段時間內(通常為1~3天)發生退服告警的概率進行準確預測,為隱患提前排查和日常精準巡檢提供依據,提升基站排查效率,指導運維人員的巡檢工作。
以陜西移動部分基站為例,進行基于詞向量的基站退服告警預測算法應用。并通過f1分數(f1-score)、準確率(Accuracy)、精確率(Precision)、召回率(Recall)及混淆矩陣(Confusion)5個指標對已經訓練好的退服告警預測模型,使用獨立的數據集做驗證,輸出驗證結果如表2所示。模型輸出的預測結果如表3所示。

表2 退服告警預測模型輸出結果驗證

表3 退服告警預測模型輸出結果
其中,date為預測周期的第一天,pred_probability為預測的退服告警發生概率,pred_label為是否發生退服告警(1為發生退服,0為未發生退服)。其中,pred_label 通過指定的分類閾值(如表3中取0.5),由pred_probability計算得到。
將訓練好的基于詞向量的基站退服告警預測模型應用于陜西省某地市試點基站進行退服預測,得到的試點地市模型輸出結果驗證如表4所示。

表4 試點地市退服告警預測模型輸出結果驗證
可見,在試點地市應用基站退服告警預測模型后,預測結果精確率達到96%,召回率約為12%~13%。本方法已經在陜西省移動公司進行了試點應用,通過對高隱患基站的精準定位,為基站巡檢和隱患的提前排障做出有力指導,10個地市在試點期內平均退服基站預測準確率大于88%。
基于詞向量的基站退服告警預測方法,在試點省份預測基站未來一段時間內發生重要退服告警的概率,準確率大于88%,可明顯提升基站智能運維的主動性。同時,及時發現設備或服務的相關告警信息,可以對退服故障進行早排查、早修復,從而可以有效地減少因退服故障而帶來的經濟損失。本算法通過系統性引入AI技術,對大量運維數據進行分析,構建面向無線基站的重要故障預測工具,為網絡數智化轉型提供新的支持手段。