張丹東 孟壇魁 李錚
(中國人民大學網絡與教育技術中心)
ISO20000落地中的運維管理
張丹東 孟壇魁 李錚
(中國人民大學網絡與教育技術中心)
通過實施ISO20000標準和認證過程,在實踐中發現標準還需要一套適合高校實際情況的運維監測系統配合實施,快速準確地展現設備運行的全面情況,針對各類情況和故障及時報警,并提供全面有效的資產管理信息和統計報表,輔助標準的實施,才能更好地體現實施標準的效果。
IT服務的基礎是IT基礎設施的運維,ISO20000管理體系的實施,大大促進了中國人民大學網絡與教育技術中心管理工作的標準化、規范化、專業化。同時中心領導層也看到了標準的不足,需要建立一套完整統一的運維監控系統來配套,才能充分發揮管理體系的作用。
機房動力環境、綜合布線、網絡設備、服務器、ISP鏈路、各種應用、數據庫的實時監測,隨時提供統計數據和標準的報表,實時報警,成為達成服務承諾的關鍵。只有早預警、早發現、早處理,才能保證并提高服務的質量。所以,一套功能全面并符合高校實際情況的運維監測系統就成為了高校信息化的必需品。
中國人民大學網絡與教育技術中心在實施ISO20000標準的過程中,同步實施了運維管理平臺的建設。由于無法找到滿足上述所有需求的軟件成品,學校與某公司協商達成了自行開發的一致意見,經過一年多的開發,目前初步上線,實現了一些基礎功能,后續還需要不斷完善。
早期的設計思想是做網絡中心的信息化系統,包括監控功能、資產管理、報修和用戶服務、內部辦公、各類報表、合同管理等,是一個大而全的系統。
在實踐中,由于進度無法跟上中心實施認證的計劃,后期做了調整,從監控功能做起,擴展到資產管理,包括報警和報表內容,以這兩項功能為主,完善后再考慮進一步的需求。系統主要設計思想是配合中心選定的ITIL工具軟件使用,作為技術、技術管理工作的信息化平臺,完善ISO20000標準沒有嚴格要求的部分功能,充分發揮標準化后的管理效能,使之有效落實到具體的設備和管理內容上。

圖1 運維監測系統結構
1. 網絡監測(類似網絡天氣圖、網管系統、拓撲圖)、報警
(1)需要監控所有網絡設備。
(2)有類似prtg的圖形顯示、數據表統計和顯示功能。
(3)有類似weathermap網絡天氣圖功能,將全網拓撲圖與流量監控結合,并能夠分區域監控。
(4)提供更加有效的局部實時監控功能。
(5)預定閾值報警,例如流量超過75%、CPU負載超過50%等,提供故障分析和決策依據。
2. 機房環境監控、報警
(1)通過傳感器網絡,記錄并顯示溫度、濕度、電力等相關信息。
(2)通過預設閾值自動報警,方式為即時通訊工具、手機短信、事件日志。
(3)針對特殊設備,監測空調、UPS等運行參數等,提供決策參考。
3. 服務器監控
(1)需要監控所有服務器。
(2)有集成的圖形顯示、數據表統計和顯示功能。
(3)預定閾值報警,例如內存超過75%、CPU負載超過90%、硬盤容量使用超過80%等,提供決策依據。
4. 數據庫監控
(1)建立對所有使用的數據庫的監測。
(2)對重要參數采用圖形方式顯示,便于觀察。
(3)預定閾值報警,提供決策依據。
5. 應用監控
(1)逐步建立對各種應用的監測,如Web發布軟件等。
(2)對重要參數采用圖形方式顯示,便于觀察。
(3)預定閾值報警,提供決策依據。
6. 自動登錄處理
(1)結合類似Xmanager工具的功能,替代登錄所有設備,定期修改密碼。
(2)必要時,可以自動或手動關閉網絡端口。
(3)考慮能夠自動配置acl等網絡特殊管理功能(需要廠商支持)。
(4)實現空調的遠程控制,設定溫度,開關等。
(5)終極目標是全權管理全部設備,至少是登錄全部設備。
(6)記錄所有操作。
7. 數據統計、分析、預警
(1)固定報表。
(2)定義報表。
(3)設備壽命、性能預警以及人員工作預警。
8. 公告(包括報警自動公告)
特殊系統報警自動發布相關公告,例如停電、設備當機、服務中斷等。
9. 系統日志
(1)記錄人員登錄情況以及修改配置、添加內容信息情況等等。
(2)軟件系統自己的日志。
10. 文件歸檔
(1)定期歸檔文件,減少系統壓力。
(2)提供過期歸檔數據的查詢和展示。
(3)方便管理和查詢(索引、搜索)。
11. 備份輸出
(1)系統的定期備份。
(2)數據輸出,方便遷移或災難恢復等用途目前功能。
目前,學校完成了網絡設備的監控功能,配置好網絡設備的SNMP設置后,能夠定期循環讀取SNMP信息。系統可以手動添加或者指定網絡設備IP地址段后自動搜索網絡設備進行設備的添加,能夠分區進行管理,可以顯示各區域的所有樓宇以及每個樓宇的設備,方便添加設備和進行管理,并能分區域自動生成拓撲圖。通過設備的描述信息,進行設備廠商、型號的配置后,能夠自動識別設備的廠商和類型。
以中心目前實際監測為例,中國人民大學目前讀取的設備描述信息總計75種,經過配置廠商和設備型號后,統計報表顯示共有八個廠商的32種型號的設備,并顯示每個廠商的設備總數,每種型號的總數,全網合計971臺,清晰地顯示了所有在線設備的總體情況。
系統提供了一個按照位置(樓宇)分類的監視界面,在一個網頁中顯示了所有的設備,并提供了三種不同狀態的顯示圖標(正常、一般報警、嚴重報警)以及統計數量顯示,方便管理者查看網絡設備運行狀況,或者在故障時查看,迅速判斷故障的影響范圍和具體位置。
系統提供了報警功能,分為一般報警和嚴重報警,并顯示報警時間和數量,并有分類報表顯示,方便管理人員了解網絡在一段時間內的運行情況。
系統提供了基礎設置界面,可以對掃描的參數進行配置,對廠商、型號信息進行配置,對報警信息進行配置。
總之,目前是實現對網絡設備的檢測功能,以及初步的統計、報表、報警功能,已經在實踐中發揮作用。
正在進行優化工作,完善已有的功能,例如,在監視界面上顯示報警的具體類型,而不僅僅是報警級別,方便管理人員了解情況。拓撲圖是星形顯示,不是很理想,不如weathermap軟件的顯示效果好,需要改進。自動根據IP地址識別位置,人民大學的網絡設備地址是按照區域規劃的,IP地址與具體的物理位置有著明確的對應關系,可以進行自動識別。
功能拓展工作。拓展監測對象,逐步增加服務器、數據庫、應用系統、動力環境的監控功能;增加資產管理功能,與高校的資產管理系統銜接,完成后能夠顯示設備的采購時間、合同號、供應商、保修期間、采購價格等信息,這樣報表統計就可以顯示在線設備總資產、分年度采購的設備數量和價格,結合使用年限規定后,可以展示未來更新計劃,極大地方便預算的制定工作,也能夠通過報表更好地顯示中心整體的設備信息情況。
很多年來中國高校缺乏一套實用的網絡運維管理平臺。這個平臺的開發中,結合中國人民大學的實際以及適當考慮中國高校的通用性,努力做出一個適合中國高校使用的網絡運維管理平臺。
這個基于中國人民大學實際需求開發的平臺,能夠在進行基礎配置后,自動識別設備的廠商和型號,自動判斷設備安裝位置,根據MAC地址和資產管理編碼的關聯關系,自動顯示設備的在線狀態;形成設備信息統計報表(廠商、型號)、在線資產總量、分年度資產購買量、預計報廢情況、設備軟件版本報表等統計報表;自動故障報警、閾值報警,全面監控學校所有在線設備的運行情況;自動備份各種設備配置,統一遠程登錄管理全網設備;大大方便了日常的維護管理工作。
在軟件設計上,對角色管理做了一些探索,不同角色登錄后顯示不同的界面,界面因此更加簡潔實用,個體可以編入多個角色組,登錄后顯示所有個體加入的角色群,點擊角色名后,切換角色,靈活方便。支持LDAP,與數字校園統一用戶,實名制管理。
長遠計劃,還是要回到最初的設計規劃,將ITIL的運維管理功能納入系統,把目前中心根據ISO20000標準實施的十三個標準流程以及自行添加的自有流程在平臺中實現,形成一套完整的系統,把所有的功能都集中到這個平臺上來,為提高高校網絡中心的管理水平和服務水平提供一個良好的軟件工具。
[1] 基于ISMS和ITIL的監控系統運維管理分析劉鵬信息網絡安全 2010/12
[2] 信息化校園應用的運維監控保障研究李淑娟實驗技術與管理 2008/08