郭敬澤
ITIL即IT基礎設施庫(ITInfrastructure Library),是一系列對IT服務管理提供描述性指導(要做什么、為什么要做)的準則,于20世紀80年代后期開始發展,現已成為IT服務管理在世界范圍內事實上的標準,具有中立性、非私有性質、全面性和連續性以及廣適用性的特點。它的核心內容是“服務管理”,包括10個流程和一項職能。其中服務支持包括服務臺職能、事件管理、問題管理、配置管理、變更管理和發布管理、服務遞交流程組服務級別管理、IT服務財務管理、能力管理、IT服務持續性管理和可用性管理。
“金保工程”運維管理的現狀和挑戰
“金保工程”是利用先進的信息技術,以中央、省、市三級網絡為依托,支持勞動和社會保障業務經辦、公共服務、基金監管和宏觀決策等核心應用,覆蓋全國的統一的勞動和社會保障電子政務工程。目前,金保工程一期建設工作已基本完成,全國共建立地市級以下統一的數據中心270多個,部、省、市三級聯網的地市達到319個,已批準發行社會保障卡2億張,實際持卡人數1億人。
(一)“金保工程”運維管理的基本現狀是:
1.地方在實際業務中高度自治,運維管理處于典型的分散狀態。
2.地市、縣的運維工作大多由集成商、開發商進行支持,沒有系統化的運維管理。
3.信息化部門目前的支持與管理流程需要調整,以滿足人力資源和社會保障核心業務的要求(如生產、交換、決策和公共服務等)。
4.各地信息化部門負責直屬機關的運維工作,對數據共享與交換的集中管理有限。
5.目前信息化部門存在的地市分布式運維方式,無法滿足人力資源和社會保障業務體系化的發展需求與“金保工程”對數據的集成與共享的管理要求。
(二)“金保工程”運維管理面臨的挑戰是:
1.信息化管理部門如何與業務部門有效對話。
2.如何建立數據中心運維管理體系以提供高效支持。
3.信息系統如何加強對業務發展的適應力。
4.如何建立并實現有效集中管理以滿足核心業務需求。
5.如何加強信息口對業務的系統化支持。
6.如何加強信息化部門的協同力。
7.如何提高信息化部門的管理水平。
8.信息化部門如何幫助業務創新。
從以上分析可以看出各地“金保工程”運維管理還存在很多急需解決的問題。隨著各地“金保工程”二期建設工作逐步推進,人力資源和社會保障信息系統多數已正式運行并進入維護階段,而且人力資源和社會保障信息化管理部門在地位提升的同時,也意味著要承擔更大的責任,即提高人力資源和社會保障的業務運作效率,降低業務流程的運作成本。為做好“金保工程”運維管理工作,各地人力資源和社會保障部門需要盡快規劃,運用ITIL理論,以ITIL三個流程兩個庫為建設重點,采取必要的措施,解決“金保工程”運維管理中存在的問題。
以ITIL的三個流程和兩個庫為建設重點
ITIL的三個流程和兩個庫是事件管理流程、問題管理流程、變更管理流程,知識庫和配置庫。
1.事件管理流程
所謂事件,是指任何不符合服務的標準操作且已經引起或可能引起服務中斷和服務質量下降的現象。事件管理流程通過對事件的相關環節進行規范,從事件的記錄開始,經過分類和初步支持、調查與診斷、解決和恢復,直到與客戶確認后事件的關閉,流程中的各個環節前后相連,流轉有序,并規定每一環節處理的最長時限。通過事件記錄員、事件分析員以及事件經理等角色的明確,責任到人。從而達到在發生事件后,能在最短的時間內解決并恢復客戶中斷的服務,提高客戶滿意度。
2.問題管理流程
問題管理流程的目標就是通過一系列規范的環節,找到問題的根源,并形成解決方案。從問題的檢測與記錄開始,經過對問題的分類和分派、調查和診斷,直到問題的最終關閉。各環節連續清晰,環節角色分工明確,從而實現在發現問題后,能夠迅速地找到問題的根源,形成解決方案,為最終解決問題打下基礎。
3.變更管理流程
變更流程是指需要對系統的軟件或硬件進行變更,其流程如下:開單→風險評估→審核→審批→構建(設計、開發)→測試、實施→實施審核→實施→關閉。各環節緊密相連,易于控制,保證變更的高效有序。
4.知識庫
知識庫,顧名思義,就是為達到積累知識的目的,將事件、問題和變更的經驗都總結到這個庫里。一線工程師利用知識庫幫助用戶解決問題,如果發現知識庫里沒有相關的知識條目,就需要把這個新內容增加到知識庫中。一線工程師詳細記錄出現故障主機的時間、故障現象、處理措施、主機的使用者,經過長期積累,可以針對經常出故障的主機用戶進行分析,確定其操作行為特征,并提出相應的建議或處理措施。
5.配置庫
配置庫,主要是記錄系統軟硬件配置信息。在行業范圍內不管是硬件,還是軟件,配置庫記錄得越詳細,給維護人員提供的信息就越準確。此外,不光是配置信息本身,關聯信息也要在配置庫里體現出來,譬如它的父或子分別是什么。可以說,配置庫是事件、問題、變更管理流程的基礎。
運用ITIL理論需要采取的措施
第一,建立三級運維架構,優化運維人力配置。通過人力資源的整合與配置,形成一線客服、二線支持、三線研發的人員梯隊結構,更好地適應決策管理系統運維工作的開展。一線客服承擔著ITIL理論中“服務臺”的角色,受理服務請求,提供一線幫助,并對提出的各種情況進行處理; 二線即系統運維部門作為核心團隊負責運行維護和管理工作,支持提供專業技術更強的技術支持服務,深入研究疑難事件和問題,對網絡、數據庫、中間件、應用、安全等進行主動運維,并解決信息服務臺轉交的請求,在必要時協調供應商、開發商等外部資源或者在提供現場服務的情況下及時到現場排憂解難; 供應商、開發商作為三線支持,支持運維中心二線不能解決的問題。采用分級管理的工作模式,通過一、二、三線之間的明確分工和緊密配合,形成較為合理的運維人力配置,提高了人力資源和社會保障系統運維服務效率和質量,并降低了運維服務總體成本。
第二,制定、規范、落實運維制度和流程。建立運維流程項目組、運維監控項目組和災備系統項目組,完成包括網絡管理、中間件管理、數據庫管理、用戶管理、機房管理、事件管理、安全管理以及外包公司管理等共計29個運維制度和流程,建立“培訓-實施-報告-檢查-回顧/審計”的流程實施和完善機制;引入運維責任事故通報和外包公司經濟責任追究制度,提高人力資源和社會保障部門和外包公司技術人員安全防范意識,強化外包公司的管理;組織實施集中運維監控系統和集中監控室,實現對復雜IT系統的全面監控。運維服務管理系統規范運維工作流程,包括事件管理流程、問題管理流程、變更管理流程,并形成知識庫和配置庫,將日常維護管理工作明確化,保證人力資源和社會保障IT系統的穩定性、可靠性和用戶的滿意度,為人力資源和社會保障事業提供可靠、高效、安全的IT服務。
第三,建設集中運維監控系統。集中監控平臺可以實現信息系統基礎設施和應用的全面監控。監控平臺實現提前預警,變“救火隊”為主動運維,信息系統運行維護的效率大幅度提升。
第四,打造過硬的運維團隊。為保證運維服務“業務不中斷、數據不丟失”這一目標的實現,人力資源和社會保障部門需要組建一支技術過硬、綜合素質較高的專業運維隊伍并實施科學管理,從人力資源上給予充分保障。在配置運維人員時,采用AB角的方式,充分克服單點故障可能帶來的風險,實現人力資源的互為備份。此外,人力資源和社會保障部門借助社會化培訓、績效考核、激勵機制三個方面不斷優化人員配置,做到“感情留人、待遇留人、制度留人”,提高技術人員的待遇,并為其創造鍛煉成長的環境,逐步造就了一支專家型隊伍。
第五,加強落實執行管理
在人力資源整合與優化的基礎上,人力資源和社會保障應通過ITIL項目的建設使運維流程得以逐步規范,使每個運維工作中的事件、問題和變更等都能責任到人,并得到足夠的關注和后續跟蹤,提高運維工作的質量和效率。
人力資源和社會保障運維團隊應對現有的流程模式進一步深入研究細節,逐步制定各細節環節的業務規范,并落實執行,通過定期的工作檢查和業務考核,牢抓運維工作的落實執行,使運維工作的各項規范制度真正落到實處。
(作者單位:寧夏自治區人力資源和社會保障廳)