王道衡,徐丹丹,劉道記
(中國聯合網絡通信有限公司九江市分公司 九江 332000)
隨著全業務IP化的發展趨勢,IP網絡及設備日益增加,而IP網絡的設備及網絡的自動管理相對滯后,大部分網絡管理人員仍習慣于使用telnet命令進行設備管控,這就導致網管人員無法及時有效地發現設備運行狀況,難以實時掌握各個鏈路的性能狀態,往往等到用戶投訴才能發現問題。這就使得網絡自動化管理工作日益迫切,本文將探討IP網絡協議中的簡單網絡管理協議 (simple network management protocol,SNMP)的基本概念以及應用 SNMP開發的IP網管系統應用情況。
傳統的網管系統往往以拓撲管理為基礎,以輪詢為手段去查詢網絡現狀或者結合一些網元管理器的實時報警,這種模式無論從信息搜集的全面性還是信息處理的實時性以及業務關聯性方面都無法適用于IP網絡,所以必須對網管系統提出新的要求。
網管系統應是以提高網絡服務質量為目標、以保證網絡安全生產為前提、以網絡事件管理為中心的網絡服務質量管理系統。因為只有以網絡資源實時發生的實際事件為管理基礎,才能及時準確地了解到網絡環境的真實情況,才能方便地建立與業務層面的關聯關系,達到網管為業務服務的目的,具體要求如下。
·基礎監控必須強調全面性能。網管系統應實現對業務員所涉范圍內網絡設備的實時監控,實現對目前眾多的應用系統在網絡上使用情況的監控;監控的對象和內容應可以根據網絡服務管理機構的需求進行靈活的定制,上級網絡服務管理機構可以根據需要監控下級網絡的狀況。
·主動和預警管理。根據各級網絡服務管理機構的需求在網絡事件采集、分類、處理和呈現等方面進行相應的客戶化定制工作,以實現對網絡狀況及時、高效、準確的了解。這種監控能夠實現主動處理和預警功能,從而奠定服務質量管理的基礎。
·技術支持全網聯動。以網絡故障事件處理為核心,規范和統一各級網絡服務管理機構的運行操作流程,確定各級機構中網絡運行操作崗位的設置和職責,實現網絡故障處理的記錄、升級、統計等功能。
·資源的主動管理。準確了解網絡基礎資源的信息,了解現網的設備種類、型號、端口,以及包括虛擬局域網(virtual local area network,VLAN)劃分等資源分配情況,以全轄統一的網絡資源管理的角度來規劃和設計網絡。并且網絡資源管理系統應有恰當的接口與網絡實時監控系統、網絡運行操作流程和系統實現平滑地連接,以輔助實時監控功能和運行操作流程功能的實現。
·服務質量管理。在實現實時監控網絡運行狀況和規范網絡運行操作流程的基礎上,實現網絡服務水平管理的目標。
簡單網絡管理協議(SNMP)首先是由Internet工程任務(Internet engineering task force,IETF)組織的研究小組為了解決Internet上的路由器管理問題而提出的。SNMP是一系列協議組和規范(見表1),它們提供了一種從網絡上的設備中收集網絡管理信息的方法。SNMP也為設備向網絡管理工作站報告問題和錯誤提供了一種方法。

表1 SNMP的協議組和規范
從被管理設備中收集數據有兩種方法:一種是只輪詢(polling-only)的方法,另一種是基于中斷(interrupt-based)的方法。
如果只使用只輪詢的方法,那么網絡管理工作站總是在控制之下。而這種方法的缺陷在于信息的實時性,尤其是錯誤的實時性。多久輪詢一次,并且在輪詢時按照什么樣的設備順序呢?如果輪詢間隔太小,那么將產生太多不必要的通信量。如果輪詢間隔太大,并且在輪詢時順序不對,那么關于一些大的災難性的事件的通知又會太慢。這就違背了積極主動的網絡管理目的。
當有異常事件發生時,基于中斷的方法可以立即通知網絡管理工作站(在這里假設該設備還沒有崩潰,并且在被管理設備和管理工作站之間仍有一條可用的通信途徑)。然而,這種方法也不是沒有它的缺陷的。首先,產生錯誤或自陷(trap)需要系統資源。如果自陷必須轉發大量的信息,那么被管理設備可能不得不消耗更多的時間和系統資源來產生自陷,從而影響了它執行的主要功能(違背了網絡管理的原則2)。而且,如果幾個同類型的自陷事件接連發生,那么大量網絡帶寬可能將被相同的信息所占用(違背了網絡管理的原則1)。尤其是如果自陷是關于網絡擁擠問題的時候,事情就會變得特別糟糕。克服這一缺陷的一種方法就是對被管理設備設置應當什么時候報告問題的閾值(threshold)。但不幸的是這種方法可能再一次違背了網絡管理的原則2,因為設備必須消耗更多的時間和系統資源來決定一個自陷是否應該被產生。
結果,以上兩種方法的結合——面向自陷的輪詢方法(trap-directed polling)可能是執行網絡管理最為有效的方法了。一般來說,網絡管理工作站輪詢在被管理設備中的代理來收集數據,并且在控制臺上用數字或圖形的表示方式來顯示這些數據。這就允許網絡管理員分析和管理設備以及網絡通信量。
被管理設備中的代理可以在任何時候向網絡管理工作站報告錯誤情況,例如預制定閾值越界程度等。代理并不需要等到管理工作站為獲得這些錯誤情況而輪詢它的時候才會報告。這些錯誤情況就是眾所周知的SNMP自陷(trap)。
在這種結合的方法中,當一個設備產生了一個自陷時,可以使用網絡管理工作站來查詢該設備(假設它仍然是可到達的),以獲得更多的信息。
本文使用的IP網管系統采用國外開放式源代碼,結合本地網絡現狀,自行開發出本地網絡IP網管系統,主要搭建步驟及注意事項如下。
(1)系統硬件配置要求
硬件要求普通品牌臺式電腦,確保硬件設施運行穩定;系統配置要求較低,只需能夠運行Linux RedHat 5.2以上版本即可,硬盤配置要求在200 GB以上。
(2)系統安裝
下載CactiEZ 9.1版本 (中文漢化版)ISO鏡像文件刻錄光盤,將光盤插入光驅,電腦設置光盤啟動,回車安裝即可。相關步驟如下。
安裝界面,按回車繼續,但要注意后面的操作會清除所在硬盤上所有的文件,如果看不到這個畫面,可能是ISO鏡像有問題或是光盤有問題或是沒有設置成光盤引導。幾分鐘后就安裝完成了,按回車重啟,記得把光盤拿出來,改成硬盤引導,按回車自動完成安裝配置。安裝完成后,對網卡進行配置,配置相應的IP地址。通過網頁即可訪問,打開瀏覽器訪問IP地址,用戶名和密碼是admin,如圖1所示。第一次安裝需要更改密碼。

圖1 用戶登錄界面
(3)安裝注意事項
·由于Linux內核為RedHat 5.2版本,在安裝過程中可能會提示一些關鍵硬件無法識別導致安裝失敗,可以到網絡上查找解決辦法,關閉檢測硬件。
·由于Linux內核為RedHat 5.2版本,一些最新的網卡無法識別,導致系統無法找到網卡,因此必須安裝驅動,建議最好的辦法是加裝一塊老版本的網卡。
(4)插件及安裝應用
在CactiEZ 9.1版本中默認已經安裝了控制臺、圖形、閾值、監視器等插件,在實際的網管中需要增加拓撲圖(weathermap)、報表(reportit)、報告(nectar)、搜索(discover)、MAC 地址跟蹤(MAC trace)等。
(5)網管設備的配置
①設備添加及流量監控:控制臺→設備→ADD,如圖2所示。
填寫相關信息注意:設備網管IP以及主機對應模板、SNMP字符串必須填寫正確,相關配置方法可參照網絡。
添加完設備后可創建圖形:點擊創建圖形,選定對應設備,并選擇監控項目,點擊創建,即完成相關配置,5 min后可以監測到圖形,如圖3所示。
②配置注意事項:如果監測端口流量,在選擇圖形類型時,建議選擇 In/Out bits(64-bit counters),否則1 Gbit/s以上流量將失真。
③其他配置:可以對端口進行相關標識及描述,如端口編號、端口用途等,分別在“數據源”、“圖形管理”處配置成與實際一致。
④配置圖形樹:可以根據設備歸類進行管理。
⑤配置告警郵件通知功能:在控制臺→設置→郵件/域名解析中設置郵件,界面如圖4所示。在控制臺→設置→報警/閾值中設置報警閾值。
(6)主要功能及應用情況
目前本地IP網絡主要設備已納入IP網管系統,總共監測164臺設備,總共監控項目1 736項,能夠很好地達到IP網絡管理功能。
①實現設備的實時監控,業務中斷或網絡性能事件可以及時上報,并可以產生聲音告警。通過郵件發給相關網管負責人,啟用郵件短信功能,及時通過手機短信通知到人。
②實時網絡拓撲監測:可以實時監控和了解網絡各個節點間鏈路流量情況,如圖6所示。

圖2 設備添加界面

圖3 監測到的流量情況

圖4 配置告警郵件界面

圖5 監控各設備示意

圖6 網絡各節點間鏈路流量情況
③查看各個設備運行歷史記錄:設備端口流量如圖7所示。時延測試如圖8所示。設備性能(CPU)如圖9所示。

圖7 設備端口流量

圖8 時延測試

圖9 設備性能(CPU)
1 謝希仁.計算機網絡(第五版).北京:電子工業出版社,2007
2 Cacti流量監控系統搭建維護手冊.http://wenku.baidu.com/view/a859a8eb998fcc22bcd10d79.html,2008
3 Plugins.http://docs.cacti.net/plugins
4 Cacti的常用插件.http://apps.hi.baidu.com/share/detail/9139001,2010