隨著金財工程的不斷深入,集中支付、非稅收入、政府采購等各種財政業務系統的上線,提供不間斷、高質量的IT服務已經變為一項頗具挑戰的、復雜的任務。如何確保數據和設備的安全,提高系統的可用性和可靠性,保證高品質的IT服務水平,已經成為財政信息中心管理人員不得不考慮的命題。
財政的IT管理不同于銀行、電信,有其自有的特色:規模不大、人員少,但管理要求較高。以南京財政局為例,從規模來看,包含30臺左右服務器,其中大部分為PC服務器;SAN網絡較小,主要使用ESS 800企業級存儲。就業務影響來看,雖然系統的可用性要求是有部分業務系統5×8,有部分7×24的,但IT系統的中斷將帶來南京市各個相關政府部門財政資金流動和審批流程的中斷,全市非稅收繳工作無法進行,從而帶來非常負面的影響。在人員配備上,信息中心的人員較少,除了數據中心的維護工作外,還承擔著全局的計算機、打印機等設備的維護工作,工作量很大。因此,規劃、建立一套成熟、高效的IT管理體系是保證工作質量,提高工作效率的有效途徑。
通過對我局IT管理現狀的分析,我們認為加強IT運維管理的第一步應該是構建IT系統管理基礎設施,即建立完整的監控體系、集中的事件管理平臺。這樣,我們通過集中監控系統的IT系統管理門戶和集中事件管理平臺,可以快速而直接地了解服務器、小機、數據庫的運行狀況,判斷故障發生的原因,從而及時地解決問題保障業務系統的有效運行。第二步,監控管理系統建立起來之后,考慮流程管理和變更管理。通過流程管理和變更管理來保障IT服務的標準化、流程化,盡量減少人為因素的錯誤。第三步,將IT系統和財政業務整合在一起,建立一套以流程為導向、以財政業務為中心的IT服務管理體系。提高財政IT服務提供和服務支持的能力及水平,并逐步提升到用IT來驅動財政業務的發展。
到目前為止,南京市財政局IT管理已經基本完成第一步的建設,即已經建立了完整的監控體系和集中的事件管理平臺。可以對服務器和存儲子系統對象進行統一的監控,并實現自動化的報警機制,能夠在隱患、異常出現之初就告知管理員,從而及早地介入,解決問題;同時,對系統運行性能的歷史數據進行有效利用,定期生成歷史報表。大體而言,監控管理的核心要求包括:集中監控環境中各個平臺、應用、網絡及存儲系統,了解各資源的實時狀態;實現集中的主動報警體系,當監控對象發生監控策略違例時向特定人員發出報警;以圖形化方式展現系統實時及歷史性能狀況;管理數據的統計和報告。同時也希望通過該項目的實現為將來實現流程管理、構建IT系統的配置管理數據庫打下堅實的基礎。
我們首先建立了事件管理平臺和監控體系。事件處理是廣義網管(即系統、應用、存儲、網絡等資源的集中管理)的核心功能,因為管理員的日常操作即是根據收到的事件報警進行相應的處理,同時歷史報警數據也為系統分析建立了一個較好的基礎。我們使用Tivoli NetCool Omnibus作為統一的事件管理平臺,對事件進行收集、壓縮、相關性分析、自動化處理、報警升級等工作。所有的事件來源,包括系統監控、數據庫監控、應用中間件監控、消息中間件監控、網絡監控以及存儲監控都將傳到事件平臺上,并保存在DB2數據庫中。所有事件都通過Omnibus集中展現給管理員。
服務器、應用的監控功能是通過 Tivoli Monitoring和Tivoli Composite ApplicationManager提供的。包括服務器系統、數據庫系統、應用中間件、消息中間件等對象的性能與可用性管理。例如,日常管理過程中比較關心的,磁盤和文件系統的使用空間、磁盤IO、并對磁盤空間占用過高或磁盤過于繁忙進行報警。網卡的狀態、傳輸狀況和錯包狀況。進程的執行狀態、占用系統CPU時間、占用內存、進程開始時間、啟動該進程的命令行、優先級等;還可以羅列系統中占用最多CPU、最多內存的進程。存儲系統的監控,包括SAN交換機和以IBM ESS 800為核心的光纖存儲,是由TotalStorage Productivity Center完成的,管理目標包括磁盤設備、光纖交換機以及數據。網絡管理使用NetCool網絡管理套件,實現對三層路由設備、二層交換設備以及外圍防火墻、入侵檢測設備的集中管理。當監控系統獲取來自各個子系統的監控、報警信息后,系統自動將這些信息以事先定義好的不同嚴重級別匯總到事件平臺Omnibus中。在Omnibus上,可以設置事件的報警方式、關聯邏輯以及自動處理方式。所有的事件最后是通過報表系統展示給管理員。在這個系統中,我們認為報表功能是一個非常重要功能,而且是會不斷變化發展的。在目前這個階段,在ITM、TPC中看實時數據的同時,可以自動生成周報、月報以反映一段時間的各系統的運行狀況。
事件管理平臺和監控體系建立之后,進一步就是要加強IT的服務管理。我們希望通過流程管理和變更管理的建立來保障IT服務的標準化、流程化,盡量減少人為因素的錯誤。
目前,財政局的信息中心還是處于功能單一、處境被動的角色。IT流程管理處于ITIL流程成熟度的第一級,也就是基本沒有流程管理。即使有小部分流程管理活動,也完全是被動的,角色和職責定義都是非常松散的。下一步,將通過加強對故障的管理、變更的管理,建立基本的流程,從而達到ITIL流程成熟度的第二級、第三級。屆時,IT部門的流程全部文檔化,有明確的流程負責人、目標和相應的資源保障,流程執行的報告和結果被適當地保存以供參考;在關注流程有效性的同時也會重視其執行效率。
首先建立故障管理,通常80%的服務品質下降都是因為20%的故障造成的,所以專注這20%故障的解決可以大大提升服務質量。故障管理的目標是將 IT 基礎設施內的故障對財政業務的負面影響減到最小,并防止這些事故再度發生。為了實現這個目標,我們將建立相關的知識庫:定義故障、按對象、地點、時間以及范圍大小描述故障、故障發生的原因、解決的方法等。并且通過趨勢分析和定期的事件統計表,在故障發生前確定并解決問題和已知的錯誤,盡可能最小地影響財政業務正常運行的情況下使IT系統恢復正常。然后建立變更管理,利用標準化的方法和規程有效、及時地處理所有變更,以便將由變更引起的故障對服務質量的影響減到最小。首先是記錄變更請求,包括變更編號、需要變更的配置項、變更的理由、如果不變更會造成的影響、變更會造成的影響、變更人的聯系方式等。然后是對變更請求的評估個實施,監督并記錄變更的整個過程,以及提供對變更進行分析。在建立故障管理、變更管理的過程中,信息中心的所有人員都要轉變傳統的思想,從流程的角度考慮日常的工作。
在流程建立之后將考慮服務管理,包括IT服務級別的管理、IT服務持續性管理、IT可用性管理等。服務級別管理是根據對財政業務系統的分析、監控,從而針對部門預算、集中支付、政府采購、工資統發、非稅收入、資產管理等主要財政業務系統分別制定出相應的服務級別協議(SLAs),并對服務績效進行的評價的一系列活動,其目的是逐步提高服務水平。IT服務持續性管理是指確保發生災難后有足夠的技術、資源來確保財政業務持續性的管理。IT服務持續性管理關注的焦點是在發生故障后仍然能夠提供預定級別的IT服務,因此服務持續性是建立在服務級別管理之上的。只有制定出合適的服務級別協議才能保證服務的持續性。可用性管理是通過分析財政各個業務的可用性需求并據以優化和設計IT基礎架構的可用性,從而確保以合理的成本滿足不斷增長的可用性需求的管理流程。可用性管理是一個前瞻性的管理流程,它通過對財政業務可用性需求的定位,使得IT服務的設計建立在真實需求的基礎上,從而避免IT服務運作中采用了過度的可用性級別,節約了IT服務的運作成本。管理可用性對于IT是一項非常重要的活動,因為錯誤計算或誤解可用性可能會使IT的建設成本急劇增加。
建立IT管理體系是一個戰略性的工程,不僅僅是信息中心的工作,需要南京市財政局領導、各業務處室的支持和參與才能完成,而且這個過程是在不斷演進的。也只有這樣才能真正提高財政IT服務提供和服務支持的能力及水平,并逐步提升到用IT來驅動財政業務發展的高度。
(作者單位:南京市財政局計算中心)