昆侖銀行信息科技部 許中華
昆侖銀行高度重視信息化建設,近些年特別強化了安全生產工作,加強了IT運維管理。昆侖銀行自重組以來,經過5年的信息化建設與實踐,逐步走出了獨具昆侖銀行特色的IT運維管理體系建設之路,保障了全行信息系統的安全穩定高效運行,系統可用率達99.99%,為昆侖銀行穩健經營和業務發展提供了高效的運行服務。
ITIL由英國政府部門CCTA在20世紀80年代末制訂,現由英國商務部OG負責管理,主要適用于IT服務管理(ITSM)。ITIL的核心模塊是“服務管理”,這個模塊一共包括了10個流程和一項職能,這些流程和職能又被歸結為兩大流程組,即“服務提供”流程組和“服務支持”流程組。其中服務支持流程組包括事故管理、問題管理、配置管理、變更管理和發布管理;服務提供流程組包括服務級別管理、IT服務財務管理、能力管理、IT服務持續性管理和可用性管理。
COBIT是信息系統審計和控制聯合會制訂的面向過程的信息系統審計和評價的標準。對信息化建設成果的評價,如對最終成果評價、對建設過程評價、對系統架構評價等。COBIT是一個基于IT治理、面向IT建設過程的IT治理實現指南和審計標準。
ISO20000是基于ITIL最佳實踐與BS15000英標體系進行構建的,并由ISO組織發布的具有國際權威性的IT服務管理體系標準。此套體系秉承“以客戶為中心,以流程為導向”的服務理念,目的在于幫助企業或者組織能夠有效的識別與管理IT服務管理的關鍵過程,保證在滿足客戶與業務需求的同時,依照“P-D-C-A”方法論充分發揮IT服務持續改進的能力,最終達到企業或者組織利益最大化的目的。
ITIL、COBIT、ISO2000這三者之間的相互交叉和相互補充的,它們都是IT管理方法,但各自的側重點不同。COBIT側重于IT控制和評價,對IT流程和安全方面涉及不多,側重事后管理;ISO2000主要是關于安全控制和管理的,側重事前控制;而ITIL主要針對的是IT流程,對安全和系統開發關注不多,側重事中控制。
由于昆侖銀行重組時間短、基礎薄弱、科技人員偏少、IT外包比重較高,大多數中小商業銀行,特別是城市商業銀行在運維管理中都不同程度地存在一些問題:
運維人員少、一人兼多崗、運維人員風險意識參差不齊,部分人在這方面意識不強,運維經驗不足,過度依賴廠商。
網絡故障、數據庫表空間滿、MQ中間件通道異常、消息隊列杜塞、IPC消息隊列堵塞、應用進程缺失、WAS宕機等問題都是被動發現。
IT管理成熟度模型如表1。
此種方法從IT服務管理的必備條件到用戶使用界面和效果等全面對昆侖銀行的IT服務管理水平同ITIL推薦進行比較,最終得出分析結果,我行的運維管理水平已經到達3級(已定以級)或者以上。
昆侖銀行的運維管理體系建設的目標:保障IT系統的穩定與效率;從容應對各類緊急事件;合理的IT系統架構設計。我行的運維管理體系目前包括IT服務管理系統、集中監控平臺系統。

表1
現階段我行IT服務管理系統主要實現功能包括服務臺管理、事件管理、問題管理、變更管理、處理服務請求、知識庫管理、投產演練以及投產管理統計分析等功能;IT資產全生命周期管理,設備出/入庫管理、設備調撥管理、供應商管理、合同管理等內容。通過此項目,我們也制定了一系列管理制度并且流程化,如事件管理、問題管理、變更管理、服務請求管理、投產演練管理流程、投產管理流程,嚴格控制工作流程和操作流程。
現階段,我行集中監控平臺系統主要監控的對象有:主機(AIX、Linux、Windows磁盤空間、CPU、HA狀態等)、存儲(EMC、HDS、IBM產品的性能管理和事件管理)、總分支行網絡設備(路由器、交換機、防火墻)、總分行之間的通信線路、分支行之間的通信線路、總分行與外聯通信線路的連通性、數據庫(DB2、Oracle、Sybase的狀態、表空間、鎖數量等)、MQ中間件(通道狀態、隊列深度等指標)、WAS中間件(內存大小、連接池、線程池等)、50多套應用系統(核心、信貸、現金管理、綜合網關、銀聯前置、POSP、國結、外匯清算、SWIFT等)(系統運行狀態、可用性、交易量、成功率等性能監控以及批前檢查、批量監控、批后監控等)。監控平臺通過聲光、短信、郵件的形式通知值班人員以及相關運維人員,做到不漏報也不誤報。
IT服務管理系統和集中監控平臺系統在物理上是獨立的,但是這兩者在邏輯上是緊密聯系的。IT服務管理系統與集中監控平臺系統集成,接收其產生的事件,及時作出處理,形成閉環,并達到自動預警和自動事件創建的功效,不僅可以管理人員跟蹤相關事件同時也可以根據事件處理時長考核相關的運維人員。
建立IT運行的預警機制:從被動管理到主動管理,提高故障主動發現的比率,快速定位系統故障,縮短系統故障解決時間,提高系統的可用率。通過分析報告發掘隱患:
保證日常變更的完整與準確。
依據運行中的各類事件和要求,調整應用系統規范,做到預先控制,控制對關鍵配置信息的更改與維護。
建立系統的評估機制:基于數據對系統性能、容量評估,提升系統的性能,對系統優化提出合理的建議。
建立IT運行質量控制機制:問題的預先解決和質量把關。
建立應用監控接口規范,規范和完善我行業務應用的開發規范。
建立全面的監控管理體系:通過監控體系主動發現事故,通過自檢、調整、判斷、分析四個流程保證監控系統的不斷自我完善;通過監控系統的積累,逐步建立告警知識庫,同時建立和完善《綜合監控規范》和《分行監控規范》。
未來,我們要繼續加強運維管理體系的推廣實施,積極總結、分析實施成果,從標準化、規范化、自動化等方面對運維管理體系進行定期審查和完善。要以加強運維流程管理、提升運維服務質量為目標,從而持續改進。同時引入新的工具,如批量作業自動調度、應用自動部署,這樣可以消除人工操作風險,提高作業效率,提高系統可用率,提升我行運行操作管理水平,滿足我行發展和行業監管要求,另外我們將在現有的集中監控系統的基礎上實現業務影響智能分析,在對業務邏輯進行梳理的同時,建立了故障根源分析模型和影響分析模型,將跨業務系統的交易有序串聯起來,生成交易樹,實現對從交易發起到交易結束的完整的交易路由追蹤,結合基礎資源和交易日志監控,實現了交易異常或失敗的故障準確定位。
運維管理體系用于管理層對整個管理體系進行管理,制定方針目標、進行管理評審。管理層通過這些流程制定管理方針目標,測量目標的執行,監督流程管理效果,執行PDCA(即Plan、Do、Check和Action)循環,以改進數據中心績效,為昆侖銀行的發展保駕護航。