摘 要本文論述了基于專用網絡的應用系統跨域集中監控系統的設計與實現技術。針對機房內的網絡系統具有多安全域、跨網段節點、傳輸設備多樣化等特點,從軟件工程角度出發,介紹集中監控系統的組成及具體功能、核心技術及技術先進性,保證應用系統與數據的安全性與穩定性。
【關鍵詞】應用系統 集中監控 跨域 運維
隨著信息化工作的不斷深入,每年都會有一批應用系統上線使用,為業務工作保駕護航,確保這些應用系統安全、穩定的運行,成為系統管理人員的日常維護工作的重要內容。而這些應用系統的系統架構與運行狀態各不相同,其維護工作紛繁復雜。基于專用網絡的應用系統跨域集中監控系統為針對應用系統群落多年建設運維過程中所積累的問題提供全面的解決方案,為及時排除應用故障隱患爭取時間,為應用系統運維和管理工作提供強有力的技術支持。
本文第一部分為跨域集中監控系統的具體功能介紹,第二部分為核心技術,第三部分為技術先進性,最后一部分為結論。
1 具體功能介紹
系統采用B/S架構設計,主要包括如下五大功能模塊:
1.1 綜合監控系統
從總體上對系統的整體運行情況給出實時性的分析和報告,包括各類監控資源的運行狀態,并以豐富的圖表形式展現各類監控資產的報警信息,使系統管理人員可以全面的掌握各類業務系統的運行狀況。
1.2 應用監控系統
主要對應用系統各組成部分及整體運行環境進行全面的實時監控和管理,將支撐各應用系統運行的網絡、網絡設備、硬件服務器、操作系統、數據庫、中間件等各種軟硬件資源進行監控,并將這些組成業務系統的IT資源按照其關聯關系組成業務邏輯模型進行整體監控,同時針對不同的業務系統,按照具體業務系統分類,通過一定的定制開發形成面向業務端到端監控管理模式,并設定預警/報警閥值,根據安全策略進行預警和報警。
1.3 資源管理系統
主要實現對資產的分類管理,實現資產的登記注冊、資產屬性管理、監控規則、報警方式以及監控方式等的管理。同時提供對已經登記資產的導入、導出功能。
1.4 故障管理系統
智能識別各類不同來源的原始事件,通過內建的智能事件分析引擎,對標準化后的原始事件進行可靠過濾、重復壓縮、對齊歸并與依賴關聯,自動修正告警記錄,最終形成有效告警與事件記錄,幫助系統管理人員進行后續維護提供有效的決策依據。
1.5 數據管理系統
主要為系統日常維護提供自動化幫助,按照設定的時間段以及設備的備份目錄和清理標志完成操作日志、報警記錄、監控記錄的手動備份功能,運維數據以不可讀文件的形式備份到指定的目錄下,并支持數據還原操作。
2 核心技術
2.1 自動輪詢監控采集
系統提供全面、細顆粒度的主機監測指標,通過SNMP、CLI、AGENT方式,能實現對Windows、UNIX、Linux、AIX等各種操作系統的主機的關鍵資源的自動監控,實現對服務器系統的基本信息和運行狀態的監控,能夠支持各種服務器系統的32位或64位系統。對于所有監控的操作系統均支持對操作系統錯誤日志的監測,獲得服務器的配置信息,并且進行實例化、對象化的處理。
2.2 Arbiter告警平臺
整個運維平臺以事件為驅動,統一事件平臺實現對各類告警的接收、識別、標準化、過濾、壓縮、豐富、告警等功能,并與服務流程管理子系統銜接進行工單派發。對于統一接入的故障,系統根據預設的故障過濾規則、相關性處理規則、關聯規則、歸并規則,自動對故障進行處理。
2.3 BPM流程引擎
在內置標準流程的基礎上,系統還提供了BPM流程引擎供用戶進行“隨需而變”的業務流程設計,滿足個性化的業務流程需求。該引擎完全通過Web可視化設計界面,實現流程、表單、數據字典快速建模和拖拽式的流程設計功能,可實現流程跳轉、流程環節的執行人、流程環節的執行優先級等定義,協調組成工作流的四大元素,即人員、資源、事件、狀態,推動流程的發生、發展、完成,實現全過程監控。
3 技術先進性
基于專用網絡的應用系統跨域集中監控系統采用目前較為流行和領先的自動輪詢監控機制和告警機制,同時采用靈活多變的流程引擎控制,其效果比較明顯,適用信息化部門對較大規模機房設備及應用系統的管理,具有參考借鑒價值。其創新性主要體現在以下幾個方面:
3.1 支持單向隔離設備的安全域間鏈路傳輸數據的采集與監控
在網絡應用系統中,不同安全域間的數據類型不同,且數據間的傳輸在一定范圍內是只能單向的、不可逆的過程?;趯S镁W絡的應用系統跨域集中監控系統通過部署在單向隔離設備兩端BCC數據庫,一旦鏈路出現故障,可以利用數據同步功能將告警信息展現出來,供鏈路維護人員及時判斷故障所在,從而實現單向隔離網閘鏈路運行狀況的監控。
3.2 支持跨網段多操作系統運維數據的采集與監控
網絡應用系統具有多安全域、跨網段節點、傳輸設備多樣化等特點,基于專用網絡的應用系統跨域集中監控系統通過代理設置,支持在不同安全域內的應用系統的監控與運維。經測試,可充分實現對不同區域下各種操作系統的監控,保證應用系統與涉密數據的安全性與穩定性。
4 結論
基于專用網絡的應用系統跨域集中監控系統對被監控的節點采用探針管理模式,服務器端可掛載10個采集探針,每個采集探針至少可監控100個監控資源節點,每個節點可添加5到15個檢測器,累計可監控數千個采集節點,且支持至少50人并發操作,在不大于100個用戶并發登錄時,頁面響應時間小于5秒,從監控系統探測到故障發生到界面顯示告警信息的時間(指設備上傳告警到支撐系統顯示告警)小于1分鐘;在網絡告警風暴情況下,該響應時間不超過3分鐘,有助于系統管理人員迅速作出判斷,查找故障來源,尋找應對策略。目前完全能夠滿足當前機房運行環境中需要被監控的資源數目,并支持大范圍擴展。
參考文獻
[1]吳超.遠程監控集中管理平臺的設計與實現[J].港口科技,2015.
[2]張先哲.信息系統安全運維管理平臺建設研究[J].軟件工程師,2015.
[3]李榮華.基于ITIL的IT運維管理系統的設計與實現[D].北京郵電大學,2010:13-15.
作者簡介
霍勝杰(1985-),男,河南省鶴壁市人。助理工程師。碩士研究生。研究方向為計算機應用。
作者單位
上?,F代信息技術研究所 上海市 200000