艾林,張康宏,徐芮,楊旭,趙艷
中國移動通信集團云南有限公司,云南 昆明 650000
現有網絡監控系統中監控故障責任界定,主要有包捕獲分析、日志分析兩種。基于包捕獲技術的網絡監控系統應當在當前網絡系統下的各交換機設備上安設一個嗅探系統用于實現故障監控。通過嗅探系統對傳輸、接收的數據包進行檢測與分析,將處理結果向中央管理系統之中發送,對于有問題的出舉報及時加以處理。但這種網絡監控技術需要對每個數據包都進行分析,在大數據時代下,面對海量的數據包,勢必會大幅影響運行速度,這是傳統網絡監控技術的一個重要問題,顯然已經不能理想地適用在當前的網絡環境中。
基于日志分析的這種監控技術也同樣有一定的問題,最為突出的就是目前常用的各類網管其日志格式并不能夠有效兼容,所以這種網絡監控技術只適合制定的兼容廠商所生產的網關,使用存在一定的局限性[1]。過程繁瑣,管理極其不便。隨著市場監控點位日益增多,基礎網絡監控設施設備規模也十分龐大、復雜。與之伴隨的是每天數以萬計的監控異常事件,這給網絡監控運營帶來了巨大的挑戰。
本文從監控故障責任界定過程及存在誤差分析,提出一種基于巡檢分析定位的故障責任界定方法。可通過一個統一平臺掌控遠隔千里的網絡設備、服務器甚至PC,達到簡化網絡管理的目的。
從事網絡監控系統開發的單位很多,但是各個公司在使用的技術上卻相差不大,幾乎就是捕獲分析、日志分析這兩種模式的使用。僅僅兩種模式就支撐著整個網絡監控系統開發行業,也從側面代表著對于網絡監控系統開發的忽略,沒有引起社會的注意,更是很少有人注意因其模式落后而帶來的經濟損失。即使有少部分人意識到了這個問題,也沒有什么好的辦法去解決,很多技術人員的思想都已經習慣了僅僅兩種模式的工作狀態,甚至是不太喜歡接受新的方法、排斥新思想、固步自封[2]。
因為現今可見的技術只有這兩種,且不說這兩種實現方法過于單一、達不到創新,可以說當今社會,整個網絡監控系統在開發領域存在的問題幾乎相同,都是數據處理、故障處理、數據分析等方面,速度得不到提升,緩慢的速度特別影響故障的搶修效率,同時也會增加企業的維修費用。
本文提出的故障責任界定技術以告警信息分析模型為核心,通過對告警信息的采集、分析完成故障的責任界定。可通過基于告警信息模型的監控平臺對網絡設備進行遠程監控,提高網絡管理效率,具體的設計思路包括以下幾點。
(1)對網絡各點位進行實時監控,采集不同點位的當前狀態,分析是否存在故障,如果存在故障則判定屬于設備故障、電源故障還是網絡故障。不同故障類型所表現的相關點位參數、告警信息是有所不同的,本技術正是基于這一原理實現故障責任的有效鑒別。
(2)在明確故障類型的基礎上,根據最近鄰分類模型來找到故障的具體定位,找到故障定位后,可以對癥處理。
(3)本技術還能夠擴展與配置日志報警策略,滿足不同類型的應用需求。還能夠集中管理日志信息,減少人員的運維工作量。
通過以上辦法發現故障責任界定這個技術是實際解決技術問題,是如何解決快速定位系統故障并提高準確性。
故障責任界定這個技術的優勢就是工作流程,在實際網絡發生了故障時,就可以獲取網絡中相應節點的數據并進行預處理得到待測樣本[3]。將待測樣本應用于所建立的最近鄰分類模型中,即求取待測樣本與各類別代表點的歐式距離;距離最小的故障類即為故障源,即完成了故障分析。最后,基于告警信息分析模型對上述故障分析進行驗證。
故障責任界定的主要技術包括日志數據的采集,以及將存在問題的數據傳輸到中央管理系統之中,并入庫保存;通過告警信息分析模型預判故障類型,區分網絡故障、電源故障、設備故障;監控平臺部署至移動內網,運維人員在移動內網使用該平臺提供的功能。監控平臺通過內網路由配置接入PON網管、PTN網管,實現告警日志采集、終端ONU狀態采集、前端點位故障等告警信息的實時采集。
告警信息分析模型具體包括,先通過網絡拓撲獲取各樣本并進行聚類形成樣本集,通常能夠獲取3個集合簇,對每個簇分別標號,就形成了3個帶有標號的樣本集。所述3個類別分別為網絡類、電源類和設備類,對每個類別求均值作為該類別的代表,并以此利用最近鄰分類法建立分類模型。若實際網絡發生了故障,則獲取網絡中相應節點的數據并進行預處理得到待測樣本。
故障的責任界定需要由系統在巡檢時對攝像頭IP或是MAC地址的在線情況進行采集,如果未發現攝像頭在線,則繼續對攝像頭對應的ONU在線情況進行采集。如果ONU在線,那么則判定是攝像頭故障;如果ONU不在線,那么需要繼續對ONU的告警信息進行采集,檢查是否存在掉電告警。如果存在,則可判定是電源故障問題;如果不存在,則判斷為網絡故障(見圖1)。

圖1 故障責任界定示意圖
(1)采集點位狀態,并判斷系統是否存在異常。
(2)若存在異常,則采集網絡狀態并判斷是否存在異常;若正常,則判定設備故障,若不正常,則轉步驟3;獲取當前網絡的IP地址、網關等訊息具體包括以下步驟:
開始→運行→輸入:CMD點擊確定(或按回車鍵),打開命令提示符窗口;
先在命令提示符窗口輸入:ipconfig /all →回車執行命令;
若本地主機中有兩張網卡,那么通常以太網卡為有線網絡的網卡設備,本地連接;
如果是無線網卡網絡,則是無線局域網適配器 無線網絡連接;
使用tracert命令測試網絡狀態,命令格式為:tracert+空格+IP地址(通常是IPv4),按回車鍵執行命令,直到跟蹤完成。
(3)對電源的狀態進行采集,評估是否存在異常問題。如果存在異常,則認為是網絡故障問題;如果不存在,則進入到步驟S4。
(4)對電源故障進行判定。
(5)通過告警信息分析模型來驗證故障定位,包括以下兩步:
①利用告警數據采集的接口,向設備輸入采集告警信息,并保存;
②設備通過告警信息分析模型對采集的信息進行分析,判斷具體的故障類型,分析是屬于網絡、電源還是設備方面的故障。
基于以上技術的故障監控平臺設置在移動內網中,運維人員可以在內網中通過這一平臺完成網絡的故障監控。并且平臺經內網路由器可以和網關相連接,從而有效采集告警日志、前端及終端的狀態信息[4]。

在上述公式里,v代表類標號,yi表示最鄰近類標號。I表示指示函數,如果函數中的參數為真,那么返回1,參數不為真則返回至0。
在最近鄰模型中要選擇對應的K值,使本模型能夠有效運作,因為網絡之中的某種故障例存在的故障個數存在較大差異,會造成K值難以確定,因此本模型采用的是以每種故障所包括的樣本集均值作為這類故障代表的分類法,表示為1-最近鄰分類法。

現在網絡監控系統開發方面的問題受到了很多關注,也有專業人員進行技術上的創新,努力將現今存在的問題進行優化。也有很多人申請了相關專利。在網絡監控領域的故障責任界定的方法這個技術的研究中,其創新性與新穎性也是尤為突出的。特別是將其與隨機找來的三篇文章中涉及的相關技術進行對比,尤為明顯。
“基于故障錄波與雷電定位系統的電網故障定位方法”公開了一種基于故障錄波與雷電定位系統的電網故障定位方法,采用故障實時通報,克服了人工查詢帶來的不及時性,使故障查詢、定位、通報自動化,減輕了工作量,為相關工作人員減輕負擔。故障錄波法與雷電定位系統的結合使故障后判斷故障原因是否為雷擊故障有了依據,使通報結果可以展示是否為雷擊故障,提高了單獨采用故障錄波進行故障定位和單獨采用雷電定位系統進行雷電故障定位的精確度。
該方法與故障責任界定這個技術的區別就是對故障分析采用順序排除法,獲得故障分析結果,并進行故障分析結果驗證,將采集到的告警信息輸入告警消息分析模型獲得故障類型,所述告警消息模型為最近鄰分類法進行分類。
相較于“使用故障定位報文進行故障定位的方法”公開了使用故障定位報文進行故障定位的方法及裝置,其與故障責任界定這個技術的區別就是通過依次對網絡狀態判定、電源狀態判定獲得故障分析結果。
相較于“基于多元故障采集的配電網故障定位系統、方法及服務器”公開了基于多元故障采集的配電網故障定位系統,其與故障責任界定這個技術的區別就是通過順序排除法,排除正常的網絡,找到出現故障的系統裝置[5]。
在對比中就可以看出近幾年來,相關技術人員都在努力創新,將之前的技術漏洞進行優化,想要將我國的網絡監控系統開發行業做大做強,為祖國未來的發展添磚加瓦。參與的技術人員的思想沒有被之前技術的發展方向所禁錮,能夠勇于跳出舒適圈,探索一個新的方向。
故障責任界定的技術效果的初心是為通過順序排除法,快速找到系統故障定位,并通過驗證提高定位的準確性。
綜上所述,在故障發生后,如果能及時定位和排除故障,會挽回曾經絕大部分的經濟損失。所以故障責任界定這個技術的出現,可以避免因為網絡故障導致的運作失靈以及所帶來的經濟損失,從而有效保障網絡運作的安全性。通過本文提出的網絡監控技術,及時發現網絡故障問題,判斷故障所在位置及類型,得以及時有效加以處理,避免故障帶來的不利影響。