國網北京市順義供電公司 徐 震 呂昕宇 朱達川 仇遠航 賈夢頔
網絡設備出現故障后,關聯設備無法利用網絡設備發送信息,也不能確定故障實際情況,在短期內會產生較多的告警信息,主要包括主告警和衍生告警,豐富網管設備的告警信息,同時增加了告警處理工作的難度,管理人員很難根據告警信息確定故障根網元[1]。
當前確定故障根網元的過程中主要采用人工分析法和告警關聯分析法,此外可劃分告警關聯分析法為基于規則的關聯和基于案例的關聯等。其中基于專家經驗和規則及案例的關聯缺乏適應性和拓展性,不利于精確性的定位問題;根據數據挖掘和人工神經網絡的關聯方法綜合考慮網絡結構和網元特性,關聯結構缺乏準確性,因此無法滿足實際工作需求。引入新業務和新技術的過程中,不利于發揮出傳統告警關聯的作用。當前網絡監控工作運營中,業務增長和關聯處理工作缺乏適應性。
不斷增多告警量,卻沒有提高告警監控效率,因為告警量和故障量之間缺乏對應性,從而嚴重浪費人力資源。發生單個故障將會產生大量的告警信息,監控人員需要逐條處理告警信息,因此延長了工作時間,且很難定位根因網元[2]。因為通信網絡具有復雜的結構,同時涉及到巨大的數據量,不斷擴大網絡規模后將會增加網絡異常告警處理難度。持續性的引入新技術和新業務后將會加劇網絡結構的復雜性,告警信息將會呈現出爆炸式增長,故障定位難度也會因此增加,在未來發展過程中很難提高運維效率。
當前主要是根據關聯規則和傳統維護經驗實現告警關聯和故障定位,但已缺乏挖掘價值,而利用基于大數據關聯算法缺乏精確性,無法在實際生產中利用。通過分析多次故障,可根據告警關聯模式和傳統工作經驗提出基于距離的告警關聯大數據分析算法。
因為網絡事件之間缺乏關聯性,因此大數據分析的核心是利用相關關系分析法,量化不同數據的數理關系,可根據網絡時間段距離分析網絡時間的相關性,通常距離較小說明相關性較大,因此可根據距離度量兩條告警信息的相關性[3]。網絡事件間的發生事件差和實踐發生位置的拓撲關系影響到網絡實踐距離,針對告警信息,告警發生時間差和發生位置間拓撲距離關系關系到告警距離。因此通過自定義告警距離和自學習最優距離閾值,利用機器學習算法聚類和分類海量的告警信息,可自動關聯同一類別的告警。

圖1 基于距離的告警關聯算法
根據告警時間和現網拓撲定義兩條告警信息的距離:d(a1,a2)=W1×d(t1,t2)+W1×d(ne1,ne2),告警距離數值d(a1,a2)處于0~1范圍內,獲得數值較小說明兩條告警直接具有很強的關聯性。如果距離數值在0.4以內說明兩條告警屬于同一種告警;時間距離d(t1,t2):結合兩條告警的時間差判斷是否處于時間窗t范圍內,如差值小于時間窗說明兩條告警具有很強的關聯度,反之說明二者缺乏關聯性。
網元距離d(ne1,ne2):根據告警網元,提取告警信息特征和資源數據,因此計算網元距離,提取的信息包括網元名稱和網元類型等,網元距離計算框架主要主要包括兩個判斷邏輯獨立的部分,可結合實際情況合理調整[4]。其中第一部分為精細化計算網元距離,主要是判斷網元是否相等、是否存在鏈路關系,需根據鏈路表完成判斷工作;第二部分是大粒度計算網元距離。如難以獲得精確性的計算結果,需根據專業業務相關性邏輯完成判斷。可拓展并定制每部分的業務邏輯。實現告警關聯,需根據網元類型接口字典表判斷上位樹立的專業。
根據告警相異度確定告警距離,利用機器學習算法聚類和分類海量的告警信息。如可利用DBSCAN聚類算法自動化定量定簇告警特征。利用K-近鄰分類算法確定輸入樣本最接近的K個鄰居,因此完成告警分類,每個告警具有唯一類編號簇。樣本數量直接關系到算法的時間復雜度,需要比較樣本個體[5]。
利用智能監控應用平臺主要包括采集和計算及應用三方面:采集層可互通全網故障管理系統和EOMS工單系統告警以及工單數據;計算層可聚類和分析海量數據,同時可實時算法挖掘;應用層主要包括PC端和手機端兩種方式。平臺上層主要包括多維告警分析和告警實時關聯以及故障定位。
多維告警分析。接入全網告警,可在多個維度提取告警特征,因此確定特征向量。在多個方面訓練特征向量可建立預測模型,因此確定問題網元,并在日常監控生產流程中納入問題網元,閉環解決問題[6];告警實時關聯和規則挖掘。根據告警時間和線網拓撲等維度,建立告警距離核心算法模型,實時分析每一條告警,并確定唯一的標簽,確定相近時間內網元告警的關聯性。根據平臺輸出的實時關聯規則可精確性的判斷故障,持續性的優化告警關聯規則,可提高告警壓縮比例,故障命中率也會因此提高;快速定位故障。問題網元具有唯一的故障根網元,根據告警關聯輸出信息可塊定位故障根網元。平臺利用電信網絡智能監控功能,有利于提高一線網絡運維水平,可專項分析告警和工單等運維數據,一體化的發現、定位、處理問題。打通網絡監控生產流程的各個環節。
聚合原有關聯規則:以下是2020年12月12日某運營商4個試點省運行結果,利用基于距離的告警關聯算法,智能監控應用平臺可聚合原有規則:專業內無線(A省)、核心(B省)、承載(C省)、傳輸(D省)及跨專業核心-承載(B省)的傳統告警關聯規則數量(個)、新規則刷領(個)、規則準確性驗證分別為45/4/>90%,65/3/>90%,17/2/>90%,35/2/>90%,15/4/70%左右(缺乏詳細的資源數據)。
提高告警壓縮比:根據試點省運行結果,通過基于距離的告警關聯算法,可提高智能監控應用平臺的告警壓縮比。通過不同專業壓縮比提升數據可看出,其中具有明顯提升效果的為核心專業和承載專業,無線專業因為原來部署了人工挖掘關聯規則,因此壓縮比提升效果并不明顯:專業內無線(A省)、核心(B省)、承載(C省)、傳輸(D省)及跨專業核心-承載(B省)的原有告警壓縮比、目前告警壓縮比分別為3:1/5:1,1.5:1/8:1,1.3:1/10:1,1.1:1/3:1,1.6:1/4:1。
測試故障案例:2020年5月自動重啟某個MSS,其中55個網元發生較多的告警,并可實現自動關聯,利用原有人工挖掘方式的告警關聯規則很難實現告警關聯,利用基于距離的告警關聯算法可獲得顯著的告警壓縮效果。
引入資源拓撲信息:通過建模和量化可自動關聯相關告警,故障命中率因此提高。如沒有引入核心網和承載網的直連關系將會引發網元故障。根據傳統告警關聯算法很難關聯海量的告警,利用新算法引入pool信息,確定核心網和承載網的直連關系,可壓縮多條告警為一張工單使工單故障命中率因此提高[7]。
綜上,在今后發展過程中,需不斷完善智能監控應用平臺的功能,滿足一線生產需求。可接入實時告警,實時掃描和智能分析全專業告警。引入更加精確的資源信息,并聯基本信息和工程信息等維度,可更加精確的定位故障。此外可引入人工智能技術,優分析告警關聯性,在全網應用告警關聯大數據分析算法,提升網絡監控生產的智能化和自動化。