夏正偉 方 吉
(1.武漢大學圖書館,湖北 武漢 430072;2.華中科技大學圖書館,湖北 武漢 430074)
夏正偉 男,1979年生。碩士,館員。研究方向:數字圖書館、網絡管理、網絡安全。
方 吉 男,1982年生。碩士,館員。研究方向:數字圖書館、存儲管理、云計算。
湖北省高等學校數字圖書館是依托現代化的分布式網絡、存儲及數字圖書館技術,服務于湖北省全省110多家高校、數百萬用戶的區域性數字圖書館共享服務體系[1]。為了向湖北全省上百萬讀者提供穩定的文獻資源信息服務,必須運用先進的網絡管理技術建立一個適合湖北省高等學校數字圖書館分布式網絡環境的監控管理系統,向管理人員提供系統運行管理、設備與應用服務監控、故障通知和服務質量監測等功能。
針對湖北省高等學校數字圖書館網絡監控管理的需求,提出了一個基于Nagios的網絡監控管理系統的框架,并在此基礎上進行二次開發,實現對網絡中的設備、主機以及各種應用服務的故障預警及部分故障的自動修復、性能采集和展現。管理人員通過瀏覽器隨時隨地對網絡運行的狀況進行實時監控;對網絡性能的采集,則為領導層提供準確的統計信息和趨勢預測,為湖北省高校數字圖書館的下一步建設提供參考。
調研發現,國內外圖書館在數字圖書館高速發展的過程中遇到了不同程度的網絡管理與監控問題,主要是以下幾個方面[2]:
①數字圖書館環境下設備和應用服務增長較快、數量繁多,傳統網絡管理手段無法滿足需求;
②圖書館對網絡管理軟件基本上沒有資金投入計劃,圖書館界技術部門人員溝通交流相對較少,數字圖書館管理手段相對落后;
③數字圖書館環境下的數據監測和收集重視程度不夠,容易給遠期規劃帶來困惑和不確定性。
盡管圖書館對數字圖書館網絡管理有著強烈需求,但由于經費問題,大多數圖書館只能采用設備生產廠商提供的隨機軟件對部分設備進行管理,難以實現全面的網絡與應用監控管理。傳統的網絡管理一般較多依賴于SNMP(Simple Network Management Protocol,簡單網絡管理協議)協議實現對設備狀態的監控,而對于眾多數字圖書館相關的應用及服務來說,一般缺乏對SNMP協議的支持,常規的網絡監控手段無法對服務的健康狀態進行有效的監控。
然而,兼容性、可移植性、互操作性、易用性和易管理性是網絡管理技術發展的趨勢[3]。在管理對象上,越來越側重于對系統業務和應用的管理。數字圖書館網絡管理系統需要具有為適應不同規模的數字圖書館以及未來數字圖書館聯盟發展的能力,應該能夠適應分布式、集中式和集中分布式等多種結構,并且能實現實時監控、及時報警和智能故障恢復等功能[4]。具有開放架構和易擴展性的開源網絡管理監控軟件,正受到越來越多的關注,如Nagios、GroundWork、Qlusters等。對于缺乏資金投入的圖書館,應用開源網管軟件并根據需要進行二次開發和擴展,為實現智能化的數字圖書館網絡管理創造了條件。
通過湖北省高校數字圖書館的網絡監控管理需求分析,選擇開放源代碼軟件Nagios作為網絡監控管理的核心,在此基礎上,進行相關插件的開發,以達到對計劃管理對象的監控。Nagios是一個開放源代碼的網絡管理監控框架,由Nagios核心模塊和擴展部分(插件)構成。Nagios的核心模塊負責調度、服務狀態檢查,以及進行一些通知和自動恢復機制等附加操作,插件則用于服務狀態檢查,它們都由Nagios服務調用[5]。
系統主要由4個層次組成,分別是信息采集層、事件處理層、網絡管理層以及Web交互層[6],其邏輯結構如圖1所示。

湖北省高校數字圖書館主要的被管對象歸納如下:Windows類服務器、Unix類服務器、網絡設備、機房溫度、UPS電源以及各類網絡應用服務等。其中,機房溫度、UPS電源狀態是所有服務器及網絡服務運行的基礎;被管對象中Windows類和Unix類服務器需要監測其內存使用率、CPU負載、磁盤使用率;網絡設備需要監測丟包率、SNMP狀態信息以及帶寬和流量;網絡應用服務主要檢測HTTP服務的狀態。
在對上述被管對象的監測過程中,發現故障需要進行事件記錄,并根據事件通知規則通過E-mail、短信或者即時通信工具等向管理員發出通知。當監測到應用服務狀態異常時,網絡監控管理系統還能觸發預先定義的修復腳本,嘗試重新啟動應用服務,實現部分服務的自修復。
根據目前湖北省高校數字圖書館的規模,采用了集中管理模式,將Nagios部署在一臺Linux服務器上,對湖北省高校數字圖書館兩個數據中心進行管理,被管對象包括6臺Linux服務器、30臺Windows服務器、2臺思科網絡交換機、UPS電源以及4條互聯網專線。具體見表1。
在網絡管理的諸多功能中,故障報警是最重要、最基本的。通過故障報警迅速發現和排除網絡故障,是網絡正常運營的必要條件。Nagios系統支持多種故障報警方式,如E-mail、SMS短信息、即時通訊等。
Email方式的故障通知需要管理員定時收取郵件,實時性不高。即時通訊比E-mail方式有更高的實時性,能直接以彈出消息的方式通知管理員,但在網絡中斷的情況下,消息將無法發出。SMS短信息的方式更加靈活可靠,并且沒有地域限制,在網絡中斷的情況下,管理員也能通過手機短信得到通知,但需要服務器上安裝GPRS Modem(短信貓)。

表1 網絡監控被管對象表
根據未知、警告、嚴重等不同的故障級別,故障報警發送方式的選擇策略見表2。
首先,需要安裝支持環境Apache、GCC編譯器、GD開發庫組件、RRDTool以及PNP等,在Linux系統中建立支持Nagios運行的用戶nagios和用戶組nagcmd,并將nagios用戶和apache用戶加入nagcmd組。然后編譯和安裝Nagios核心系統,為Nagios web界面創建用戶賬號,完成插件的開發與部署,最后進行監控對象、故障通知的配置。

表2 故障報警發送策略
部署的系統可以通過Web方式訪問,管理人員通過瀏覽器登錄后,可以完成有關管理操作。圖2是監控系統運行的主界面。
筆者實現的系統具有以下特征:
①擴展了常規網絡管理的范疇:除網絡設備、主機外,對網絡中的應用服務、機房溫度、UPS電源狀態等也可進行管理;
②結構合理,設計了一個開放性好、效率高的框架,具體功能模塊通過插件來實現,用戶可以視需求來設計有關插件,可擴展性強;
③系統基于B/S結構,使管理人員可以隨時隨地通過Web頁面對網絡進行管理;
④對重復、相關的事件進行關聯,避免事件風暴的產生;
⑤利用事件處理腳本實現了部分故障的自動修復。
筆者實現的網絡監控管理系統還存在一些可改進的地方,如系統的配置過程較復雜,在網絡拓撲上的顯示能力較弱等。在下一階段的研究中,可進一步對現有系統進行改進和完善,實現系統配置的簡單化,網絡拓撲結構的可視化。

[1]湖北省高等學校數字圖書館管理中心:湖北省高等學校數字圖書館的建設.高校圖書情報論壇,2007(6):1-5.
[2]汪精明.高校校園網管理綜述.計算機與信息技術,2009(5):75-76.
[3]雷震甲.計算機網絡管理.西安:西安電子科技大學出版社,2006:25-34.
[4]管海兵,白彩英.計算機網絡管理系統設計與應用.上海:上海交通大學出版社,2004:56-78,125-134.
[5]Imamagic Emir,Dobrenic Dobrisa.Grid infrastructure monitoring system based on Nagios.In:Proceedings of the 2007 Workshop on Grid Monitoring, GMW’07,2007:23-28.
[6]I Raad,P Vial,W Raad.Telecommunications network management applications in an educational environment.International Journal of Engineering Education,2006(4):896-905.
[7]李晨光.Linux系統網絡管理模塊的實現.鐵路計算機應用,2008(6):35-38.