屠燕春
(上海浦東發展銀行總行信息科技部,上海 200233)
銀行后臺支撐系統使用的IT基礎設施覆蓋小型機、X86服務器、操作系統、數據庫、中間件、存儲和備份等,各項基礎設施涵蓋范圍廣,品牌和型號多,隨著銀行業務和規模不斷擴大,各類信息系統的數量迅速增長,而如何實現覆蓋全行生產系統基礎設施的監控,快速有效地滿足各業務系統隨需而變的個性化監控需求,提高告警消息的總體質量,以及提供快速定位問題的能力,是科技運行的一項重要課題。
本文將通過研究異構環境下IT基礎設置的集中監控,開發支持銀行異構環境下多種類、多版本操作系統與監控服務器之間的接口模塊,形成全行集中的系統及基礎設施監控平臺,覆蓋主流的軟硬件產品、操作系統、數據庫、中間件、虛擬化平臺,具有集成其他專門領域監控產品對信息和數據的監控能力,提供統一的展現視圖。
經過業內幾款主流監控產品的調研和POC測試,最終選用了HP Openview和Omi產品作為IT基礎設施集中監控平臺的基礎軟件,其物理架構如圖1所示。

圖1 平臺物理架構圖
平臺中監控服務器采用HP Openview(簡稱“OMU”)產品,通過代理程序和配套插件實現對總分行小型機、X86服務器群、數據庫、中間件等產品的監控,通過SNMP Trap或Web Service等方式與各存儲、備份系統(包括光纖交換機、備份帶庫、NCR數據倉庫等)的管理服務器,以及交易質量分析等第三方監控專用工具集成,實現統一的告警分析和處理。統一展現門戶采用HP Omi產品,將生產環境兩套OMU監控平臺、災備中心一套OMU監控平臺進行集成,形成統一的告警展示界面,并通過統一的接口與IT服務臺集成,實現各平臺間事件和流程的聯動。

圖2 系統邏輯架構圖
平臺的系統邏輯架構圖如圖2所示。從下往上依次為管理對象層、組件管理層、管理平臺層、管理展現層。通過分層架構模式,細化并明確了各層次的專有功能,極大地降低了各層次間的耦合程度。各層次的組成和作用說明如下。
管理對象層覆蓋全行生產系統的各類基礎設施,包括各類小型機、X86服務器、虛擬平臺、存儲設備、備份平臺、光纖交換機、數據倉庫、數據庫、中間件、加密平臺等。
組件管理層通過主機代理實現對小型機和X86服務器的管理;通過數據庫中間件智能管理插件實現對各種數據庫和中間件的管理;通過集成監控實現對存儲設備、備份系統、數據倉庫等的管理;通過安全管理插件實現對加密平臺的管理;通過第三方接口實現對個性化應用的管理。
管理平臺層匯聚組件管理層的報警信息,并通過二次開發實現報警消息的集中管理和性能數據的集中展現:對報警消息進行過濾、豐富、關聯、歸并、分配;對歷史信息的進行歸檔、維護。
管理展現層提供操作與管理的統一展現界面與智能化工具,實現報警消息、監控策略集合、性能數據等按角色權限在工具界面中的統一展現。
監控服務器使用的HP Openview產品提供了可以捕獲事件的引擎和模板化的監控指標集合,在此基礎上結合銀行系統實際運行環境,通過統一設計和自主研發,以標準化接口的方式實現異構環境下的監控需求,以及個性化監控需求的可配置等功能,其主要技術特點如下:
⑴ 根據總分兩級運維模式,確定“數據集中、全行監測、兩級架構、視圖和操作獨立”的監控設計策略,通過一體化技術平臺規劃、統一監控流程設計、完善角色定義和職能分工三方面體系化建設,實現總分架構一致的兩級監控體系,監控范圍覆蓋總行和全部分行,且具備靈活擴展的能力。
⑵ 通過自主研制開發支持異構環境下多種類、多版本操作系統與監控服務器之間的接口模塊,實現以分布式配置方式監控進程、端口、文件、隊列等的功能,提供并發處理個性化監控需求的能力,提高監控需求實現效率;
⑶ 通過開發應用告警集成接口和配置規范,管理員可通過封裝后的標準化接口快速實現各業務系統上與應用邏輯相關的個性化監控需求。
⑷ 通過事件關聯服務編程,實現了系統層面的報警消息與管理層面的人員信息之間的聯通,提高告警處理的時效性,減少人為延誤因素。
⑸ 設計開發告警消息靈活處理的功能,提供監控平臺識別無效告警的能力,以分布式配置方式實現維護期間產生的無效告警的屏蔽、降級,非服務時段告警消息延遲等功能,提高告警質量。
⑹ 采用與管理員職責范圍相符的用戶授權管理,滿足了應用安全性要求。
⑺ 自定義開發監控平臺的自監控功能,采用定期輪詢調用代理、插件的監控接口命令,通過分析命令返回值,確定監控功能的有效性。對于無法正確采樣的監控接口,通過報警提醒監控平臺管理員及時處理。
⑻ 通過二次開發實現監控代理的安裝、插件配置、權限設置、告警展示的全自動化實現,減少人員的重復操作。
⑼ 通過二次開發,對指定系統的告警事件、性能異動做過濾分析和預判,并實時供數給生產運維信息展現平臺,通過儀表盤形式在生產運行狀態展示大屏上。
⑽ 開發監控告警的報表功能,提供告警分析、統計、計數、歸并,為系統運維管理提供依據。
目前監控平臺已支持和覆蓋了總行和全部分行范圍內的1500多個被監控節點,實現了總分架構一致的兩級生產系統基礎設施的監控管理,提高了監控的有效性和準確性,滿足了日益增長和復雜的監控需求,為全行生產系統的安全穩定運行提供了有效保障。其應用效果簡述如下:
⑴ 滿足監控需求的快速實現,提高告警信息總體質量
該平臺通過提供分布式配置接口、應用告警集成接口和配置規范,滿足監控需求的并發處理,解決了以往所有監控需求均由監控平臺管理員串行處理導致的效率瓶頸,實現了各業務系統個性化監控需求的快速配置部署;通過對告警消息的靈活處理,實現對維護期間產生的無效告警的降級和壓制等,提高了告警信息的準確性。
⑵ 提高系統運行管理效率,降低人力成本
隨著業務種類和規模的日趨增長,信息系統數量迅速增加,需要的運行管理人員不斷增加,同時系統平臺的不同對于技術人員的專業要求也各不相同。平臺在現有人力資源下實現了對新投產上線系統的有效管理,同時能夠統一技術人員的技術基準,消除管理員的技術壁壘,提升專業技能,降低系統運行管理的人力成本。
⑶ 保障業務系統對外服務的連續性
平臺能及時發現生產系統異常和運行瓶頸,降低系統異常導致的停機次數和時間,確保了服務質量和客戶滿意度,有效支撐業務種類的飛速發展。
異構環境下的系統集中監控平臺建設,有效屏蔽了銀行系統內IT基礎設施產品范圍廣,品牌和型號多的問題,通過提供分布式可配置的接口,滿足了從硬件到應用程序的不同層面的個性化需求的靈活實現,規避了專業技能人員的人力瓶頸,通過監控有效性模塊建設,確保了各監控采樣信息的準確有效,該平臺現已成為銀行控制信息系統運行風險的一道有力防線,提供及時、有效、準確的第一線風險提示,減短了生產系統異常處理的時間,最大程度地揭示了潛在問題和隱患,并將系統運行管理人員從簡單、枯燥的系統檢查中解放出來,大大提供了工作效率。下一步,可以通過嫁接自動化工具,實現告警信息的聯動、自動、閉環處置,可以通過嫁接大數據分析工具實現生產系統性能的趨勢分析和異動預判,目前該平臺已融入銀行生產系統運行管理的各個方面,為信息系統流程化、標準化、規范化管理提供技術支撐,也為銀行IT基礎設施的精細化管理做好了鋪墊。
參考文獻(References):
[1]李治強,苗放.多源異構數據整合在信用系統中的應用研究[J].計算機技術與發展,2007.17(2):172
[2]林心愉,高校IT運維服務管理體系的構建及其發展模式的探索,https://wenku.baidu.com/view/0505a070f46527d-3240ce0ea.html.