杜彥君,李枝炘,李 娜
(中國電信股份有限公司深圳分公司 深圳 518048)
網絡監控模式經歷了分散監控、集中監控,直到目前的綜合監控,監控效能已得到大幅提升。隨著故障量逐年增長,網絡監控工作面臨著人員流失、人均工作量及工作壓力逐年遞增的難題,極大地影響了員工的工作積極性和工作效率。同時,隨著集約化運營和客戶感知提升專項工作的逐步推進,對網絡監控工作提出了更高的要求。
針對監控工作面臨的問題,中國電信股份有限公司深圳分公司(以下簡稱深圳電信)網絡操作維護中心開展了網絡監控智能化的研究工作,通過提升網絡監控效能來緩解面臨的人員壓力。本文研究內容主要集中在綜合監視方面,以現有的綜合告警系統和電子運維管理系統為基礎,依靠專業的網絡知識和IT系統支撐能力,通過告警整治提升告警的有效性,再通過告警智能分析,創建規則及知識庫,最終實現智能派障,使得以前大量需要人工干預和承擔的監視工作逐步實現自動化、電子化、智能化。
全專業的綜合監視主要面臨如下3個問題。
(1)告警有效性問題
告警有效性直接影響到監視的執行,是綜合監視的基礎。深圳電信集中告警系統接入全專業42套網管,超過14萬個網元,告警量非常龐大。如何從海量告警里將影響網絡運行或業務使用的告警識別出來,是綜合監視首先需要解決的問題。另外,深圳電信近年來寬帶網絡發展快速、市政道路施工頻繁,導致工程施工、板卡動調、割接事件產生大量計劃內的告警,如何將這些計劃內的告警從海量告警中識別出來,是綜合監視的一個難題。
(2)根告警識別問題
一個網絡故障往往會引發出很多告警,這些告警可能級別、位置、類型不同,但是通常都是由一個最高級別的根告警引發的。一個專業的網絡故障可能會引發其他專業網絡或業務的告警,還涉及跨專業告警關聯分析問題。根告警識別是綜合監視智能化研究的重點和難點。
(3)人員問題
一方面是綜合監視對人員的專業素養、技能水平以及學習能力的要求很高,監視人員需要了解全專業網絡情況,并掌握相關的專業理論基礎知識;另一方面是業務及網絡的故障量逐年遞增,而后端維護人員卻在不斷壓縮,網絡監控人員工作壓力越來越大。綜合監視智能化工作的開展,可以有效降低對監控人員的技能要求和工作壓力。同時可以實現網絡故障的實時監控和自動派障、壓縮故障歷時,提升客戶感知。
綜合監視智能化是以IT手段為支撐,以提升告警有效性為基礎,通過告警壓縮、告警分析和智能派障,使以前大量需要人工干預和承擔的監控工作逐步實現自動化、電子化、智能化。對綜合監視智能化程度進行有效評價的指標有以下3個,綜合監視智能化的設計與實現思路主要圍繞著這3個指標開展。
·告警有效率:確認故障的告警數占全部需要派障的告警數比率。
·自動派障率:綜合告警系統自動派發網絡故障數占網絡故障總數的比率。
·自動派障有效率:綜合告警系統自動派發的確認故障數占自動派發網絡故障總數的比率。
圖1是網絡監控智能化體系的支撐系統應用架構。架構以綜合告警系統和電子運維管理系統為核心,通過與資源系統、割接系統、CRM、GIS、CNMS、綜合調度系統、客戶經理系統等外部系統接口關聯,以實現告警的智能分析和故障的智能管控。
本文主要針對以綜合告警系統為核心的綜合監視智能化進行設計和實現。對于智能化的實現,主要從以下3個方面開展研究。
(1)提升告警有效性
·開展告警專項整治,并建立長效機制,確保告警有效性。
·對各專業網管告警進行歸類和分析,根據告警重要性以及對網絡、業務的影響情況進行告警級別調整或告警過濾。
·對工程施工、割接事件等產生的告警進行識別和過濾。
(2)開展告警相關性分析
·同專業根告警分析,實現同一時間段、同一專業的告警壓縮。
·跨專業根告警分析,分析同一時間段內多專業告警,自動反查涉及路由,通過路由共性點協助實現重大故障的快速定位和告警壓縮。
·告警影響面分析,快速判斷故障等級,為準確派障提供依據。
·基于網絡拓撲的告警智能分析,實現上層(上游)告警對業務影響的準確判斷以及更高層次的根告警分析。
(3)實現智能派障
基于告警級別調整、告警壓縮過濾,并根據告警智能分析結果,進行準確的自動派障,借助移動運維,甚至可以實現自動派障到人。
告警有效性是開展綜合監視智能化工作的基礎和前提。提升告警有效性主要從3個方面考慮,一是從專業網管、網絡設備側對告警進行整治,確保上報的告警有效;二是對上報至綜合告警系統的廠商原始告警進行二次分析,通過告警級別調整、告警過濾等方式,保留那些真正影響網絡運行的告警并送至監控界面;三是通過外部系統輔助、識別工程、割接等計劃性維護操作引發的告警,將這些告警單獨進行處理或進行過濾。

圖1 網絡監控智能化體系支撐系統應用架構
(1)開展告警專項整治,規范維護操作,建立長效機制,確保告警上報的有效性
網絡中的頻發告警、瞬斷告警,會嚴重影響正常的監視工作。通過開展有針對性的頻發告警節點整治、瞬斷告警節點隱患排查,可以大幅提升告警上報的有效性。另外,通過優化廠商專業網管,保障網管通道順暢,確保專業網管上報告警的準確性。
從源頭上避免無效告警的產生。通過規范網管接入,保證告警接入的有效性和穩定性。通過規范維護操作,保證資源系統、網管數據的同步更新和數據一致性。通過規范工程操作,以便綜合告警系統能識別工程告警。
為持續保證告警有效性,還需要建立對應的長效機制。與日常清網派障工作結合,形成制度化的頻告、瞬告整治機制;形成日常監視發現無效告警的分析機制,并進行閉環管理。
(2)通過告警級別調整、告警過濾等方式,確保監控界面呈現告警的有效性
首先對海量的低級別告警進行分析過濾,對于那些確定不影響網絡運行的提示、警告告警,可以通過設置底層告警過濾規則,在采集層丟棄這些告警。其次,通過設置告警級別調整、告警過濾規則,保留那些真正影響網絡、業務運行的告警。
(3)依靠外部系統,識別計劃內維護操作引發的告警
工程告警屏蔽。目前深圳電信寬帶網絡大發展,工程施工頻繁,嚴重影響寬帶網絡監視。通過綜合告警系統讀取資源系統里的設備驗收狀態信息,或者規范工程設備命名,實現未驗收設備的告警屏蔽。
基于割接事件的光纜割接告警識別和管理。深圳市近年來市政施工頻繁,光纜經常需要遷改割接,光纜割接引發告警較多,并且難以識別。此類告警的處理思路是:從割接系統中獲取割接信息,如割接單號、割接名稱、割接時間、割接受影響設備清單等,形成割接事件;在割接事件有效期內,將告警與割接受影響設備清單進行匹配,匹配成功的告警送往割接告警監視列表,并屏蔽相關的自動派障規則。圖2為光纜割接告警識別和管理設計流程。
告警相關性分析是為了從大量的告警中識別出源頭告警,減少告警派單量,加快故障定位。同時,通過外部系統輔助,進行跨專業告警關聯分析、告警和業務之間的關聯分析,更準確地判斷告警源頭和告警對網絡、業務的影響情況。在告警相關性分析的基礎上,實現準確自動派障。
(1)鄰位同告、鄰位異告分析壓縮
鄰位同告:相似告警位置、相同告警信息壓縮。相似告警位置包括:同一個網元不同板卡的相同告警、同一板卡不同端口的相同告警。
鄰位異告:位置在同一拓撲環內(位置相關),告警信息不同,但告警信息相關,可壓縮為一條告警派障。
鄰位同告、鄰位異告分析主要是通過分析告警位置信息,對周期內特定告警的系統、網元、機框、槽位、端口等的位置信息進行比較,以判斷是否鄰位;對告警的類型、內容進行比較,以判斷是否同告。圖3為鄰位同告、鄰位異告分析壓縮自動派障設計流程。
(2)基于拓撲結構的鄰位異告
網絡組網往往比較復雜,對于成環網絡或具備主備路由的組網情況,通過告警位置、告警類型和內容的比較無法識別出同網絡拓撲之間的告警相關性,也很難通過系統判斷告警是否對網絡、業務的運行造成影響。因此,在鄰位同告、鄰位異告分析的基礎上,提出了基于網絡拓撲結構的鄰位異告分析。

圖2 光纜割接告警識別和管理設計流程

圖3 鄰位同告、鄰位異告分析壓縮自動派障流程
通過網絡拓撲管理模塊,判斷網元之間的邏輯關系,判斷中繼所承載業務以及保護信息,最終通過系統自動實現同拓撲網元之間的告警關聯分析和業務影響統計。網絡拓撲信息通過廠商網管接口方式獲取,實現與現網拓撲信息保持實時同步。圖4為基于拓撲結構的鄰位異告分析設計流程。基于拓撲結構的鄰位異告目前處于設計階段,暫未實現具體功能。
(3)光纜故障輔助定位
當綜合告警系統在周期內收到特定告警時,系統從告警信息中提取網元、端口等信息,同時與資源系統自動匹配出對應的光路編號,再通過GIS關聯出光路路由,判斷路由是否存在同纜,如果是則生成一條光纜告警并進行自動派障,同時可以通過GIS判斷告警對網絡、業務的影響情況。圖5為光纜故障輔助定位設計流程。目前設定對數據BAS端口中斷告警和傳輸R_LOS告警進行聯動分析。指定關聯分析的告警和觸發光纜告警的判別條件可以根據實際情況進行調整。

圖4 基于拓撲結構的鄰位異告分析設計流程

圖5 光纜故障輔助定位設計流程

圖6 寬帶告警影響面分析設計流程
(4)寬帶告警影響面
寬帶業務是目前發展的熱點,對寬帶故障的監視、處理要求不斷提高。除了能及時發現故障外,還需要及時判斷故障影響情況。因此借助寬帶業務管理系統,判斷寬帶設備告警的業務影響面,自動判別故障等級,從而實現準確、快速的自動派障。圖6為寬帶告警影響面分析設計流程。
綜合監視智能化的基礎是告警有效性,難點在于告警相關性分析。本文通過從種類繁雜、數量龐大的告警中進行分析,提取關鍵要素,合理利用外部支撐系統,實現了基于根告警分析、光纜故障輔助定位、寬帶告警影響面分析的自動派障。綜合監視智能化的建設實現了監視工作的自動化、電子化、智能化,大幅提升了綜合監視的效能,解放了生產力,在一定程度上緩解了目前網絡監控所面臨的人員壓力。
深圳電信首推綜合監視智能化的建設,在智能化建設過程中設計的各類規則作為綜合監視知識庫的重要組成部分,對綜合監視智能化在全省范圍內的推廣具有重要作用。同時,綜合監視智能化的研究推動了監控模式的轉變,對未來監控體系的發展方向具有重大指導意義。