【摘要】傳輸網絡規模大,結構復雜,維護工作繁重,為提高故障處理響應速度,本文對傳輸網絡告警進行預處理,制定告警過濾規則,將滑動窗口的理念引入綜合網管告警呈現窗口,討論分析故障診斷的規則和自學習能力,提高故障的處理效率與準確率。
【關鍵詞】故障;預處理;告警采集;告警過濾;告警分析;故障診斷
1.引言
傳輸網絡作為基礎網絡,規模龐大,結構復雜,一個網絡故障的發生常伴隨大量告警產生,告警分析是故障預處理的重要手段。如何在復雜龐大的網絡中迅速對告警進行分析,進行故障定位,提高故障的處理效率與準確率,是當今傳輸網絡維護的一個日益迫切而重要的課題。
2.基本概念
故障是指系統由于其組成部件出現硬件或軟件上的紊亂,從而導致使系統不能正常工作并且提供服務,故障可能會導致系統產生告警。傳輸網絡中故障主要分為硬件故障和軟件故障,硬件故障有單板故障、線路中斷、尾纖故障等,軟件故障一般是指主控板、業務版的軟件故障。
告警則是指在系統中發生某些特定的異常事件時,由系統發出的通報組成的事件報告,主要用來進行告警信息的傳遞。告警表示有故障發生。告警信息分析是故障進行分析和預處理的重要手段。
3.告警預處理
告警信息分為特征告警和非特征告警,非特征告警的分析價值低,且常常存在信息冗余、數據不完整、時間同步、告警中包含一些與關聯規則無關的噪聲,告警信息的屬性不同等等等問題,故需要根據告警進行相關性分析。告警相關性分析是指對告警進行合并和轉化,將多個告警合并成少數幾條或一條具有更準確信息的告警,減少傳輸綜合網管上報告警數量,協助網絡運維人員及時發現故障,減少業務中斷時間,提高故障診斷和業務恢復的效率,最終提高運營商的效益。
目前,中國移動的傳輸網絡由多個廠家提供,各廠家自帶網管系統,分散監控、分散管理多廠家設備,操作復雜性高,缺乏統一、整體的全網網絡級管理系統;缺乏對全網資源、網絡拓撲的宏觀把握和數據分析;為了解決這一問題,集團組織開發了傳輸綜合網管系統來實現跨平臺跨廠商的傳輸網絡的維護和管理,其最重要的目標在于對全網故障的宏觀把握,尤其在重大故障的處理上,第一時間呈現重大故障的告警信息,幫助網絡線維護人員通過監控手段第一時間發現故障,并進行預處理。因此,傳輸綜合網管系統是告警分析和故障預處理的重要工具。
在傳輸綜合網管中,為了幫助監控人員盡快地發現故障,需要對告警進行預處理,這些預處理的具體內容包括:
(1)告警采集,從各廠家的子網網管服務器上盡可能采集更多的告警;
(2)告警壓縮:將多個同時發生的相同告警縮減成一個告警。
(3)告警過濾:根據告警過濾規則,刪減冗余告警,呈現本征告警。
(4)告警計數:用一個新的告警替代特定數目的同時發生的相同告警。
(5)告警呈現:通過滑動窗口將經上述處理后的告警呈現出來。
3.1 告警采集
采集的主要任務是與所接系統進行雙向交互,一方面將從通過設備廠家網管接口采集到的數據轉換成數據管理層和應用管理層的所需數據,另一方面將數據管理層和功能應用層下發的命令轉換成廠商網管系統所能識別的命令,從而對廠商網管系統進行管理操作。
3.2 告警過濾
批量采集上來的大量告警中,有些只持續短短幾秒鐘,有些關鍵字段缺失,有些重復出現,有些屬性冗余,影響數據挖掘的準確度和效率,為將原始數據轉換成便于挖掘的形式,需去除閃斷告警、處理缺值數據、合并重復告警、完成數據類型轉換。
從廣西移動區公司傳輸綜合網管系統隨機抽取2012年8.6-8.20共15天告警數據,共1461822條告警,將這些告警作為原始告警數據,處理結果下表所示。
表1 告警過濾效果統計表
3.3 告警呈現
在告警相關性分析系統開始運行之前,預先設定一個較大的初始時間窗口,盡可能多的采集告警序列,以確保采集的告警序列中包含完整的特征告警組。然后對采集到的特征告警組進行分析,包括告警壓縮、告警過濾、告警計數等處理,確定特征告警組上報時間T(30分鐘)。在系統運行過程中,引入滑動窗口的概念,確保在盡可能短的時間窗口內,采集到完整的特征告警組。
3.4 故障診斷規則
告警進行預處理后,需根據告警進行故障診斷。故障診斷常見的方法是基于規則的故障診斷。建立基于規則的故障診斷有助于實現告警的自動派單,減輕監控人員的工作,使得監控人員能把主要精力集中在告警的及時發現、告警的預判斷和告警的跟進處理上。基于規則的方法不需要深刻理解網絡結構和運行原理,符合人的思維,便于理解,易于維護和開發實現和升級。
在告警相關性分析中,故障診斷規則的獲取方法大致分為兩種:人工方式和數據挖掘方式。人工方式建立故障診斷規則是指監控人員和維護專家通過分析歷史故障和告警的典型案例,或者通過相關的通信文檔等多種途徑,確定產生故障的根本原因,從而手工建立故障診斷規則。
為了使故障診斷具備自學習能力,本文引入數據挖掘方式,結合人工方式提高診斷自學能力。數據挖掘方式是在海量數據中發現新模式的一種分析技術,通過分析歷史故障所引起的典型告警的上報規律,建立故障診斷規則。當網絡穩定運行的一段時間以后,在數據庫中累積了大量的歷史告警和故障的信息,特別適合數據挖掘的應用。
3.5 應用舉例
本節將以二干三期柳州文惠至永福光纜中斷故障為例,說明本文的告警預處理方法及告警診斷規則在現網運維中的應用。
柳州文惠往永福方向為OTM網元,華為1600G設備,在本地有業務上下;永福往柳州文惠方向為OLA網元,充當中繼站的角色。從故障發生0:46至故障結束2:36,柳州文惠上報相關告警工共134條;中繼站永福上報告警12條。
經告警預處理,及告警采集、告警壓縮、告警抑制、告警過濾、告警計數后,呈現在綜合網管的與本故障相關的告警為柳州文惠10條、永福3條,告警壓縮率為90%.
根據歷史故障案例規則庫中,典型的光纜中斷故障告警現象表現為主光路信號失效,OTM網元監控信號板、光放板、D40單板及單波波長轉換板上報告警,OLA網元監控信號板及光放板上報告警,經故障診斷規則判斷,這是典型的主光路信號丟失,在OTDR系統上測試結果表明確實為光纜中斷引起,證明告警預判斷結果正確,監控人員當即通知線路維護人員處理。從故障發生至告警預處理、綜合網管系統上報告警、告警診斷預判斷、監控人員發現告警及通知維護人員處理僅需要10分鐘不到的時間,大大縮短了告警的預處理時間,提高搶修維護工作效率。
4.結論
本文在日益擴大復雜的傳輸網絡維護工作量日益加重的背景下,以現網維護中柳州文惠至永福光纜中斷故障為例,討論了如何分析網絡的故障外在形式——告警信息,結合傳輸綜合網管平臺,進行告警信息、告警壓縮、告警過濾、告警計數、告警呈現等告警預處理措施,引入告警診斷規則進行過故障的初步判斷,有效地提高故障的預判斷處理能力,提高網絡的維護效率,縮短故障處理時間,從而達到節約人力成本,提高運營效益的目的。
參考文獻
[1]鄧歆,孟洛明.告警相關性分析模型在通信網故障診斷中的應用[J].北京郵電大學學報,2006,29(3):66-70.
[2]逞曉鵬.數據挖掘在綜合網管告警相關性分析中的研究和應用[D].北京交通大學,2009.
[3]王瑋.對通信綜合網管系統故障管理的設計[J].山東電力技術,2003.06.
[4]鄭秋華.網絡故障智能診斷關鍵技術研究[J].光通信研究,2007,08.