李呂生
摘 要:文章以校園網絡管理系統的研究與實現為研究課題,針對作者在這次研發中參與的部分工作進行描述。以故障管理模塊中的故障監測為例,簡單介紹了日常工作中遇到的部分網絡故障問題,分析了SNMP網絡管理系統的結構和收集被代理網絡設備信息的重要性,詳細說明了自動完成檢測網絡故障的步驟。
關鍵詞:網絡管理;故障監測;SNMP
引言
由于某民辦高校的網絡管理經費有限,我們結合長遠規劃及現有網絡架構情況,針對網絡管理系統展開自主研發。在參考同等高校的網絡設備監控管理模式的同時,也綜合自身情況研發了一套滿足當前校園網絡設備管理需求的系統,有效解決設備廠商不統一、跨區域、結構復雜、故障漏報等問題。本系統采用基于SNMP協議研發,對校園內的網絡設備進行智能監控,實現網絡設備24小時自動監測。當交換機或鏈路出現異常情況時能夠實時檢測到故障,為網絡管理人員提供可靠的故障監測結果,減少排查工作量,及時解決問題,保持網絡穩定運行。
1 在工作中遇到的問題
結合在高校網絡中心工作的這幾年經驗,總結了一些日常較常見的網絡故障,如設備硬件問題、系統軟件問題、環路問題,攻擊問題,病毒問題等等。網絡異常問題的發生,都會影響設備的運行和參數的變化。通過故障問題的分析,對故障監測的研究帶來一定的幫助。
1.1 網絡設備故障
網絡設備故障一般分為硬件故障和系統故障,當硬件或系統發生故障時,都會造成網絡異常或網絡中斷現象。
(1)硬件故障主要是設備在運行過程中散發大量熱量,如果熱量無法散發,設備的溫度就會過高,導致網絡不穩定出現丟包或延時等情況。嚴重時燒壞設備電源或主板。網絡設備運行環境潮濕,網線和水晶頭將會氧化或發霉,導致接觸不良、端口損壞或信號衰減等情況,無法上網或網絡延時。
(2)系統故障主要是設備系統出錯或配置不當等導致系統出現錯誤。先判斷問題,需要重啟的根據流程重啟,如果重啟后還沒消除錯誤的,再補丁或升級系統。配置不當也會導致交換機丟包、無法獲取IP等情況。
1.2 廣播風暴問題
廣播風暴問題在校園網絡中比較常見,由各種原因造成的廣播風暴,都會產生大量數據包,并且占用大量帶寬,導致網速變慢或網絡癱瘓。產生廣播風暴的原因主要有:
(1)端口問題。網絡設備端口異常,引起端口不停發送大量的數據包,產生了大量無用的數據包,而造成大量廣播風暴。
(2)環路問題。環路產生的原因是路由協議設置不正確或一根網線的兩端插在同一個交換機上造成的,導致產生大量廣播數據包不斷循環,即使用戶可以成功獲取IP地址,也無法上網。
(3)網絡病毒及ARP欺騙。網絡病毒在入侵主機后,通過網絡進行傳播,占用網絡帶寬,產生大量的廣播風暴造成網絡堵塞;ARP欺騙主要是偽造數據包,會造成網絡不穩定,嚴重導致網絡癱瘓。
2 研究思路與SNMP體系結構
2.1 研究思路
建立一套針對校園網絡獨特的實時網絡設備監控系統,對設備進行實時監控和故障檢測,自動收集和分析網絡設備性能指標及相關信息。系統實現故障有效自動監測,監測到的故障節點通過網絡拓撲圖顯示設備存活狀態,實現WEB界面化管理,可方便各級網絡管理員能夠及時了解和掌握整個網絡狀態及故障信息,有利于網絡管理人員對故障的排除工作。
校園網絡實時監控系統故障監測模塊的搭建根據校園當前環境綜合考慮,本系統采用SNMP的模型結構。后面將詳細介紹SNMP協議、MIB管理信息庫的結構及原理、數據收集和網絡故障自動檢測的實現步驟等。系統結構如圖1所示。
2.2 SNMP體系結構
網絡管理的研究非常廣泛,主要針對平臺化、自動化、智能化、分布式等方向研究,但在采用協議和算法各有不同。被監控、監測的網絡設備包括:交換機、路由器、服務器等等,考慮到目前的網絡設備普遍都支持SNMP協議,而且SNMP協議在大型及復雜的網絡結構中易于實現和擴展性,數據通信產生的流量少,不會造成網絡堵塞,所以本系統采用SNMP協議,對校園現有幾個廠商的網絡設備進行故障監測。先分析基于SNMP的體系結構組成部分:
(1)基于WEB的網絡管理平臺
基于WEB的網絡管理平臺主要是根據SNMP協議收集被管理設備的信息,通過Web服務器來實現對瀏覽器界面進行監視和管理。平臺化具有較強的移動性,在特定的區域內都可通過網絡進行管理,極大方便網絡管理人員對整個校園網絡的運行狀態進行監視。
(2)代理Agent
對支持SNMP的網絡設備進行相關的SNMP配置,打開SNMP功能接受WEB的網絡管理平臺管理及監控。SNMP代理主要收集設備性能及其他運行狀態的信息,并且記錄到MIB管理信息庫中。WEB的網絡管理平臺向被管理設備代理的MIB信息庫發出查詢請求,根據請求代理MIB返回相應的結果。另外,被管理設備也會主動向網絡管理系統發送Trap報告。
(3)相關網絡協議
關于支持SNMP協議的網絡設備,網絡管理平臺與網絡設備之間通過SNMP協議進行互相傳遞信息。另外對于不支特SNMP的網絡設備可以采用其他協議如LLDP鏈路層發現協議、OSPF路由鄰居協議、STP生成樹協議、ARP地址解析協議等相關協議。
(4)MIB管理信息庫
MIB管理信息庫采用的是對象標識符OID及樹形結構。通過SNMP協議遍歷被管理設備中MIB的對象。MIB-2包括了11個對象組,比MIB-1增加了3個對象組。MIB管理信息庫設定了網絡設備被訪信息,而且對象組還定義了被訪對象屬性。MIB對象記錄了端口狀態、連接信息、差錯率等。
3 動態數據收集研究
動態數據的收集主要是實現全自動收集不同廠商網絡設備的運行狀態相關信息,深入了解網絡設備的SNMP協議和MIB庫,不同廠商的設備MIB庫有所不同。動態數據的收集協議分別為:一種是基于SNMP協議收集相關信息,另一種是通過ICMP、RIP、OSPF、DNS等網絡協議收集相關信息。目前采用網絡管理系統通過SNMP協議向被代理Agent設備收集SNMP報文。SNMP報文包括各項相關的參數,其中具有5種PDU協議,主要用來建立網絡管理系統和被代理Agent設備之間的信息的傳遞。其中get-request、get-next-request、get-response為網絡管理系統向被代理設備傳遞信息,被代理設備接收端口為161。另外set-request、trap被代理設備向網絡管理系統發送報文,網絡管理系統接收的端口為162。收集數據操作方式分為:循環定時收集和管理人員操作收集。循環定時收集是在管理平臺設置收集的間隔時間,根據間隔時間循環收集,對收集到的數據進行故障分析。管理人員操作收集是通過管理人員對管理平臺的收集功能進行操作,這種操作方式也可以稱為實時收集,但只用于臨時的監測。
4 故障監測實現
4.1 故障發現
本系統監測故障模塊是對被管設備動態中的接口利用率、丟包、延時、性能信息進行自動監測。監測主要通過閾值、Trap報文、MIB庫的對象等方式實現,然后監測的故障節點在網絡拓撲圖上顯示。如圖2所示。
(1)監測閾值。根據設定的規則對網絡設備運行狀態的各項參數閾值進行監測,主要包括延時、丟包率、接口利用率、CPU和內存利用率等。對各項閾值的設置,是根據現場的網絡環境及設備性能指標進行合理配置。如果某端口出現延時時間過長,通過實時監測端口信息來計算當前值是否達到預設閾值,當前值超過預設閾值時,可能故障將要發生,并提供故障預測功能。
(2)監測陷阱Trap報文。被代理設備啟動SNMP功能,而SNMP功能內設有Trap模塊具有主動發送Trap報告功能,它是用來向網絡管理平臺發送特定的重要事件。當被管網絡設備運行狀態發生異常情況或當前閾值超過預定的閾值范圍時,觸發Trap規則主動向網絡管理平臺Trap信息接收器發送警報。網絡管理系統運行時Trap信息接收器自動開啟,并托盤后臺進程運行,當Trap信息接收器接收到Trap報告后,通過算法對Trap事件表進行取值分析,根據設定的規則對故障信息進行分類。
(3)MIB庫的對象監測。網絡管理系統通過SNMP協議讀取被管網絡設備的MIB庫的各項對象參數信息,對MIB庫的對象包括路由表、接口利用率、CUP溫度等相關的信息,根據設置的間隔時間循環對MIB庫中的各項變量信息進行監測,分析MIB庫的對象組參數,掌握當前網絡運行的狀況。
(4)故障在網絡拓撲監視。網絡拓撲是通過可視化圖形監視整過校園的網絡設備的連接情況,并且具有各節點的網絡設備的性能狀態、接口利用率等相關信息。網絡拓撲圖嵌入故障監測信息,對檢測到網絡異常通過動態網絡拓撲圖中呈現出來,方便網絡管理員監視和管理。
4.2 故障監測實現
實現校園網絡設備的故障監測主要由三部分組成:(1)故障監測主要對閾值、MIB庫、Trap報文的檢測。(2)故障分析主要對收集到的MIB庫的信息和Trap報文進行處理。(3)故障輸出主要對接口利用率、丟包、延遲、環路等故障通過圖標顯示,而且部分故障直接在網絡拓撲圖上提示,網絡管理員通過管理界面能及時發現校園網絡的故障,也可以根據實際需求選擇全校所有網絡設備、匯聚層、接入層或單臺交換機,進行查看當前或選擇某時間段的運行狀態。網絡故障監測實現流程圖如圖3所示。
監測校園網絡中心核心交換機的接口利用率為例,檢測到核心交換機每一個接口的詳細信息,根據數據傳輸雙向性的原理,對接入和發送的數據進行計算。如果接口的利用率小于80%時,警報線段顯示綠色,表示端口正常狀態。當某一個端口的利用率達到80%-90%時,警報線段顯示黃色表示利用率預警狀態。當端口利用率91%-100%時,警報線段狀態顯示紅色表示端口利用率過高處于嚴重狀態。當端口的利用率過高會造成網絡擁塞并且出現丟棄包現象。在監測過程中網絡處于運行狀態,監測的結果將以數據表顯示,如圖4所示。
5 結束語
本文從日常網絡故障存在的問題、SNMP的體系結構、SNMP協議、MIB管理信息庫、動態數據收集來研究故障監測。SNMP協議在本系統中起到關鍵作用,MIB管理信息庫的實時收集為故障監測提高時效性。通一個網絡管理平臺的故障監測模塊掌握整個校園的網絡運行狀況,通過故障監測及時發現網絡存在的問題,方便網絡管理員日常管理和維護。在測試運行中效果非常好,故障監測數據自動完成、及時、準確。另外校園網比較龐大而復雜,由于實時采集網絡設備動態數據等要求較高,對于網絡特殊的異常情況導致部分信息收集不及時需要進一步研究。
參考文獻
[1]魏楚元.大型園區網絡建設與管理[M].北京:機械工業出版社,2015.
[2]肖眾.高校校園網網絡運維管理系統研究與實現[D].河北工業大學,2014.
[3]楊麗.基于WEB的網管系統的智能配置設計與實現[D].北京郵電大學,2012.
[4]權卓.基于SNMP的分布式網絡管理系統的設計與實現[D].西安電子科技大學,2010.