董明/中國人民銀行哈爾濱中心支行清算中心
論新形勢下支付系統運行維護方式的創新
董明/中國人民銀行哈爾濱中心支行清算中心
支付系統為各商業銀行業金融機構及金融市場提供了安全高效的支付清算服務,其運行質量對整個金融體系的安全和效率具有舉足輕重的影響。隨著支付系統建設推廣,支付系統運維工作將越來越重要,越來越復雜,沒有良好的運維管理體系,運維的質量和效率就無法保證。創新支付系統運行維護方式,科學運用先進的運維手段,建立合理,高效的運維管理體系變得尤為重要。
隨著計算機技術及其管理理念的不斷發展,支付系統的運行維護體系也逐步發展起來。目前,支付系統的運維管理已形成了以清算總中心運維為主,各城市處理中心運維為輔的兩級運維管理體系,初步實現了支付系統運維的集中管理。
(一)基本實現運維管理工作的統籌化
通過借鑒科學、規范的運維體系建設方法論,結合自身實際情況和建設目標,制定合理有效的運維管理制度和工作流程,支付系統實現了運維資源共享、運維工作標準化,確立了支付系統運維統一管理,統一調度,統一運維平臺。在運維體系建設的全過程當中,從運維規劃、實施、監控各層面進行統一規范和管理,全國范圍內形成統一和規范的目標、思路、制度、流程。
(二)初步實現了運維手段的自動化
為確保系統的安全、穩定、高效運行,支付系統運行監控系統開始投入建設,2006年7月和2010年5月,清算總中心分別完成了支付系統運行監控系統項目和運行監控系統擴充項目,采用的均是CA公司的監控產品,建成后初步實現了對對整個支付系統的運行監控,支付系統在可用性,可靠性等方面獲得了提升,系統維護和保障工作也在電子化、流程化和規范化方面獲得了提高。
(三)初步建立了運維知識共享機制
清算總中心為提高各清算中心運行維護水平,每年舉辦各類技術培訓班,使得支付系統各級操作人員和技術人員可以自由溝通、交流,分享工作經驗,交流工作體會,探討實際工作中遇到的問題,共享運維經驗,對提高各清算中心運維能力發揮了很大的作用。
目前,支付系統運維管理方式雖然基本滿足系統的安全穩定運行的需求,但也存在一些不足之處。一是支付系統維護管理觀念相對狹隘,運維人員偏少。由于運維工作量大,使得支付系統的技術人員疲于應付,這樣的方式提高了運維成本,降低了運維工作的效率。二是支付系統運行監控系統存在的功能不完備、使用不方便、信息展示手段落后等現存問題,無法滿足城市處理中心運行維護需要。三是由于崗位變動、時間推移等特點,培訓到的運維知識往往難以傳承,而且目前各清處或心接收問題后進行解答時,通常以解決問題為原則,不及時反饋問題產生的原因,也沒有對避免同樣問題的出現提出建議。四是目前大多數系統運維工作由信息技術人員完成,缺乏業務人員的參與監督。
隨著支付系統建設進程的推進,系統運維要求越來越高,任務越來越重,需要我們對支付系統運維各個環節進行研究,借鑒和運用先進的運維理念、方法、工具,提升對支付系統運維的認識,保障支付系統安全穩定運行。
(一)從運維觀念入手,由“被動”向“主動”轉變
我們需要轉變支付系統運維的傳統觀念,由“救火員”式的“傳統被動式運維”轉變為“主動運維”,技術維護人員由“急診大夫”晉升為“保健醫生”。主動運維主要體現在兩個方面:第一,提前預知故障產生的原因,并把故障消除在發生之前,第二,運維人員的工作積極性提高,能夠主動消除故障。如今,在信息系統運維領域中,從被動到主動運維的升華是針對信息系統如何提高系統可用性、降低運維成本,實現運維科學化的過程。通過主動運維,爭取在最終用戶發現和報告故障之前主動發現并解決應用系統的各種隱患。在轉變運維觀念的同時,我們還需要重新修訂完善我們的運維管理制度,通過完善運維管理制度來強化我們對支付系統運行情況的掌控,通過加強巡檢以及多渠道采集支付系統運行狀態等措施,從制度上做到實時監控,保障支付系統運行問題能及時定位,適時啟動相關流程解決問題,改善運行環境。
(二)從運維方法入手,借鑒先進的運維工具和手段
信息系統運維的自動化分為三個階段:第一個階段是單個任務的自動化,比
如服務器的自動巡檢;第二個階段是運維流程的自動化,例如變更、配置的自動化;第三個階段是面向業務流程和服務的自動化。目前支付系統已經基本實現了服務器、網絡、數據庫等基礎設施運維的自動化,而面向業務流程和服務的自動化是大勢所趨,這方面目前頏上有許多先進的運維標準,像ITIL(信息技術服務管理)和BSM(業務服務管理)等可供我們借鑒和學習。關于ITIL、ITSM、BSM的概念相關文獻已有詳細著述,本文不再討論,但ITIL、ITSM、BSM僅僅只是解決問題的思路,至于如何落實到實處,首先要明確IT服務管理的實施步驟,在落實基礎管理上做流程化,然后才能逐步做面向業務流程和服務的管理。
(三)挖掘支付系統的潛在利用價值
由于支付系統各信息系統的信心程序由總中心組織開發和完成,系統管理和維護人員只能從有限的技術培訓中,得到系統安裝的基本信息,未能形成系統的整體設計、架構和維護理念。造成清算中心技術人員對系統內部數據結構的掌握程序有限,也從根本上限制了技術人員研究和解決深層次問題和可能性,加強對支付系統架構的研究和培訓,有利于運維技術人員業務能力的提高。另一方面支付系統數據與經濟有很大關聯度,支付系統的數據庫中沉淀了大量的交易數據,加深對支付系統內部數據結構的分析,運用數據挖掘方法比如關聯規則、聚類分析等可以提高支付系統的潛在利用價值。
(一)健全運維機制
制定和完善切初可行的運行維護管理制度,將各種運維行為按照流程的方式加以組織,使各崗位人員在制度的規范下協同操作,有效解決各類運維問題,實現各項工作的規范化管理。準確規范規章條款,是科學制定運維管理制度的必要條件。運行維護管理制度可分為:網絡管理制度、系統和應用管理制度、人員管理制度和質量考核制度等。同時,為保證運行維護體系的高效、協調運行,應依據管理環境、管理內容、管理要求制定統一的運行維護工作流程,實現運行維護工作的標準化、規范化。運行維護流程包含的環節有:事件管理、問題管理、變更管理、配置管理。全面規范的運維管理制度體系完整覆蓋支付系統運維管理的各環節,是科學制定運維管理制度的必要條件。
(二)建立綜合運維管理平臺
支付系統綜合運維管理平臺應當包括運維服務管理系統、監控管理系統兩個方面的內容。運維服務管理系統包含服務臺、事件管理、變更管理、問題管理、發放管理、配置管理,并且以配置管理數據庫及知識數據庫為信息支撐。監控管理系統將根據支付管理指標,實現對各級信息系統的全面監控管理,并根據不同的監控結果進行相應的處理,必要時將通過報警功能及時通知相關技術人員,確保系統處于最優的運行狀態。監控平臺應主要包括硬件平臺監控管理模塊、軟件平臺監控管理模塊、應用系統監控管理模塊和機房環境監控管理模塊,系統管理員可以通過這四個模塊對支付系統的網絡設備、主機、存儲、數據庫、中間件、業務系統和機房環境進行全面的管理。建立和實施支付系統綜合運維管理平臺注定是一個循序漸進的過程,不可能一蹴而就,實際上,只有在管理好計算機基礎設施的基礎之上,才能進一步實施信息管理綜合管平臺,然后逐步去管理好核心信息系統,逐步發展到管理多個信息系統,最終實現對所有業務系統高效管理的業務服務管理目標。
(三)建立全國統一的運維知識庫
建設支付系統運維人員溝通交流平臺,進一步完善業務技術溝通渠道,讓支付清算系統技術人員有一個全方位的交流平臺,促使各級操作規程人員和技術人員可以自由溝通、交流、分離工作經驗,交流工作體會,探討實際工作中遇到的問題,共享運維經驗。同時,通過創建清算運維知識庫,定期收集和統計各種運維方面的問題,加以分析后將解決及防范的方法和策略分類匯總并補充到運維知識庫中,使參與運維的技術人員能及時掌握和了解該類運維信息,進一步實現支付系統運維知識和運維經驗的工享,提高運維效率。
(四)加強技術培訓,提高一級技術人員的運維能力
支付系統和其他信息系統運行維護業務一樣是圍繞技術、人、和業務流程三個基本要素展開,毫無疑問人是最重要的決定因素。科技進步日新月益,要時刻能保持與最新科技水平的一致是不現實,也是不可能的,根據技術人員的水平和特點,一方面應有計劃、有步驟地對技術人員進行針對性的支付系統技能培訓,以提高運維人員的技術支持水平,逐步實現支付系統運維操作的標準化。另一方面也要根據技術人員的特長分類別,分層次的對技術人員進行相關的高級培訓,適度安排支付系統整體設計、架構方面的培訓,加強支付系統運維技術力量,提高解決復雜問題、困難問題的能力。