企業內部網絡的設備和資源的監控管理是企業運維和安全保障體系中的重要環節。尤其是大中型企業,其內部網絡拓撲結構復雜,企業的運維管理人員難以對各個設備的運行狀況進行統一的監控管理和實時異常信息查詢。因此,企業對網絡設備的物理故障往往缺乏事前預防機制和快速響應措施,對網絡資源的浪費和異常情況疏于管理,造成企業網絡普遍存在較多安全隱患。
當前企業網絡設備環境的監控技術仍處在研究探索階段,目前國內針對企業網絡和設備資源的專業監控軟件價格昂貴,且種類和功能匱乏;而大部分免費軟件產品易用性和兼容性有所欠缺,難以定制化地滿足企業實際運維和安全管理需要。
根據這種情況,本文專門針對大中型企業,探討基于CactiEZ的企業網絡監據到服務器端。服務器將采集到的數據存入可伸縮數據庫RRD文件中。基于該軟件平臺可以設置固定時間間隔對目標設備進行數據采集。RRD數據庫具有循環特性,在檢索某個時間區間的網絡流量數據時無需遍歷整個數據文件,節省了存儲空間資源。監控平臺基于RRD數據文件可以繪制實時監控圖表,并通過各種參數的閾值設置對設備運行狀態進行管理。
在服務器端進行配置時,CactiEZ可根據物理位置或局域網段設置分支,將設備按類型放置在不同的分支下,利用所有監控主機的拓撲關系形成圖形樹,能實時訪問網頁界面,監管整個網絡系統的運行狀態。同時,還能查看部署監控的全部網絡設備的樹狀結構、主機情況以及詳細數據圖表。
此外,該監控平臺允許用控技術的研究和應用方法,解決設備監控難題。基于CactiEZ搭建網絡監控平臺的優勢是軟件免費和代碼開源,功能全面而且可擴展性強,可根據企業的實際需求對各類網絡設備和資源指標定制不同的圖形化監控模板,開發出完全適合自身網絡特點的復雜監控系統。
基于CactiEZ的企業網絡監控技術的主要思路是在企業內部網絡中搭建一個安裝了CactiEZ監控軟件的服務器,然后在被監測的設備上完成網絡配置和采集軟件的安裝等工作。
CactiEZ的主要工作原理是在測量端用SNMP網絡通訊協議或其他方法定時采集各項指標數據,并傳輸數戶自己增加和修改模板。這些模板既能使用官方或者業內同行分享的優秀模板,也能自己根據實際情況進行定制化編寫。
單位基于CactiEZ部署的企業網絡監控實施方案主要包括在機房部署監控專用服務器和在各主要網絡設備上進行相應的采集配置。首先搭建好基于CactiEZ的網絡監控平臺,然后根據平臺提供的模板定制創建出符合自身需要的監控規則,在服務器端添加被監控的設備,在客戶端配置服務器SNMP團體屬性并進行安全設置。
在服務器端部署監控系統時,主要工作是創建各類型模板,配置和添加網絡設備、閾值和告警設置,構建企業網絡拓撲和氣象圖。主機配置包括監控服務器配置、監控點配置、創建監控模板和自定義腳本等內容。
目前,使用CactiEZ監控平臺,我們對全公司內部共計53臺網絡核心設備已經進行了兩年的監控,并通過端口監控圖表,覆蓋了內網全部一千余臺主機的流量實時狀況監控工作內容。該方案在公司部署實施以來,運行效果良好,為安全運維工作提供了大量的輔助信息。
我們在實施過程中配置了一臺虛擬專用服務器作為CactiEZ平臺的服務器,在Linux服務器系統上部署CactiEZ軟件,根據實際情況配置IP地址段、子網掩碼和網關、DNS服務器等信息,然后設置community團體口令,完成服務器配置。
每次聞到街邊烤紅薯的味道,我們就想買一個嘗一嘗。但很多人都很奇怪:街邊為什么只有烤紅薯,就沒有烤紫薯、烤白薯呢?這些不同顏色的“薯”有什么區別呢?
CactiEZ通過導入多種設備模板,可以監控啟用了SNMP服務的網絡設備以及服務器、UPS主機、傳感器等。SNMP服務開啟方法如下。Windows主機和服務器需要在系統服務設置中將SNMP服務開啟并在服務中設置團體名。交換機和Linux主機通過遠程登錄命令行開啟SNMP服務,然后配置所屬SNMP團體和權限,更改vtp模式為客戶端模式。
CactiEZ可通過自定義腳本來采集數據,對于國內許多交換機設備型號,無論是CactiEZ官方網站還是各大運維論壇都沒有提供對應的設備模板,因此監控這些設備十分困難。但通過查閱設備的說明書和反復測試研究,可以獲取這些設備各種常見指標的OID(對象標識符)值。收集完成這些信息后,我們自定義制作了思科2950、3750、3560 等型號的模板,華為S5700、S2700以及核心交換機等交換機模板、監控設備的溫度、CPU占有率、內存以及各端口流量信息等指標,監測運行效果良好。針對主機和各類應用服務器設備,我們也制作了包含數據庫、IIS等監控模塊的特殊模板。
實時監控,即對溫度、CPU利用率和內存等信息進行監控。監控可以及時發現交換機設備異常,定位故障發生時間,確定故障設備范圍、分析故障情況。當設備CPU溫度過高時,應及時派出運維人員檢查異常發生的原因,并針對設備問題進行處理。圖1所示分別為核心交換機溫度、CPU利用率和流量實時監控效果。對交換機能監控各個網絡接口流量,能夠記錄設備各年度不同時間段的數據流量信息,方便觀察設備運行狀況并進行相關的流量優化,根據統計掌握規律,便于網絡安全管理,查看交換機任意時間段的流量情況。
通過實時檢測計算機網絡流量情況,可以采取分時段進行限制訪問和流量檢測的措施,并且及時將這些站點的設置文件保存到計算機網絡數據庫中,進行分類的管理控制,不斷提高計算機網絡流量管理效率。如圖1所示,可以對三層交換機的任意端口進行全天24小時無間斷的實時有效的流量監測和管理。
閾值設定和告警通知,即針對不同設備的關鍵性能指標,可以根據運維經驗設置上下限閾值,當指定參數數值超過閾值時,監控頁面會發出聲音報警,并郵件通知設備管理員進行及時處理。如對交換機網絡設備設置CPU和溫度閾值告警,服務器設置內存和流量閾值告警,均有助于及時發現故障問題,有效防止設備損壞和災害發生。如圖2所示為通過該監控方法獲取的各類實時監控信息指標。

圖1 核心交換機實時流量圖

圖2 核心交換機實時監控效果圖
部署該平臺能夠對防病毒服務器、EMP服務器等服務器虛擬主機進行定制監控。并且管理人員可以將監控和具體應用相結合,個性化定制監控指標。如對防病毒服務器的主機性能、進程個數進行監控,對應用服務器的訪問次數、連接次數和網絡流量進行監控,對數據庫服務器的TCP連接情況、響應狀態進行監控等,均取得了良好的效果。圖3和圖4基于不同的時間維度展示了本單位部分服務器的CPU使用率和TCP連接等主要性能參數的實時監控情況。
通過CactiEZ氣象圖模塊提供的元件模板,管理員可以很方便地構建本地各交換機設備的網絡實時流量氣象流圖。通過網絡氣象圖,我們不僅可以明確看到核心網絡拓撲狀況、查詢核心和匯聚交換機各個端口的實時流量,還可以點擊設備圖標查看設備的CPU利用率狀況,實現企業網絡實時監控的安全目標。

圖3 服務器每日CPU使用率圖

圖4 服務器年度TCP連接數統計圖
CactiEZ中監視器圖像功能,在主機發生故障或失去連接時,監視器上會顯示報警信息,對于被測數據超出閾值的情況會以聲音警示、電子郵件等方式通知網絡管理者,這對于網絡故障的及時預防、故障定位和恢復能起到重要作用。
在過去一年的監控中發現了多起故障識別,如網絡故障中斷、服務器內存和CPU占用已滿、服務器宕機、虛擬機IP地址漂移等事件。如在網絡線路故障時,通過流量變化,成功找出了網絡異常中斷的準確時間并確定了發生故障的主要設備,從而為分析斷網原因、故障修復節省了時間和人力,有效完善了網絡故障管理、安全管理和性能管理。
目前該監控系統仍然有很多改進空間,比如增加對其他安全設備的監控,擴展監控指標等。我們將會在后續工作中不斷進行修改和完善。
網絡監控是確保企業網絡安全運行的必要手段。基于CactiEZ的網絡監控系統對突發的網絡故障能及時郵件或短信進行提醒,可有效縮短故障響應和恢復時間,提高企業網絡管理和服務水平。該技術的部署實施能在企業信息化方面減少資金投入, 同時保證了設備監控效果。我們希望通過將該技術應用在企業內網環境中,并結合其他網絡安全設備和技術共同使用,構建一個完善的安全運維保障體系,為企業網絡安全和正常運行提供有力保障。N