IT運維被動救火,技術人員飽受抱怨
傳統被動的、孤立的、分散的“救火隊”式IT運維管理模式,讓IT部門疲憊不堪。而且,隨著公司業務模式的復雜化和多樣化,更帶來IT運營環境的復雜性和不確定性。在IT運維系統時,IT部門普遍面臨多種新的復雜的情況和問題。主要有以下幾個方面:
(1)運維人員被動救火,工作效率低下
在IT運維管理過程中, IT員工工作太被動,只有當事件已經發生并已造成業務影響時才能發現和著手處理。這種被動“救火”不但使IT服務人員終日忙碌,也使IT服務本身質量很難提高,導致IT和業務部門的滿意度都不高等。
其中比較典型的例如IT部門響應服務需求時沒有相應的時間記錄工具,或者因為各種原因導致工作人員不愿使用工具記錄工作情況,這樣不僅不利于處理過程的跟蹤,更不利于知識的積累和知識庫的完善。
(2)流程規范不足,沒有形成閉環跟蹤
在運維流程方面,很多企業IT部門還一直處于原始的基礎狀態。例如在事件處理流程上,存在以下幾種典型的問題:①沒有明確的事件升級標準,例如滿足怎樣的條件后,事件必須從一線轉到二線支持工程師,再轉到三線研發工程師處理。②沒有事件的有限級定義標準,沒有建立優先級和解決時限的關聯關系,從而不能保證事件解決的實效性和 IT 資源的有效利用。③事件產生后沒有明確而唯一的責任人,從而缺乏對事件有效的監控和跟蹤機制。④沒有對事件統一的 IT 服務管理受理的界面,沒有事件完整記錄、沒有及時反饋。
這些都使事件/服務請求處理過程中沒有形成嚴格的閉環管理;沒有建立明確的重大或緊急事件處理流程,從而不能保證在相應事件發生后有效及時地處理。對事件處理過程的記錄比較分散,隨意性很大,沒有控制。更沒有嚴格規范的流程政策和控制手段,使之存在太多的漏洞。整體運行維護情況不能夠一目了然,無法清楚地知道各位員工的工作情況和工作狀態,從而缺少對流程有效的監控和跟蹤。
(3)缺乏運維技術工具
企業缺乏諸如事件監控和診斷工具等技術工具,事件不能在技術工具的支持下得到主動、快速處理。事件和工作任務在分派過程中沒有相應的技術工具記錄所有歷史信息,不便于跟蹤和分析;配置管理信息沒有相關工具支持,不能為配置元素建立復雜的關系、狀態等屬性和提供相應查詢功能。
總的來說,目前諸多企業在IT系統運維方面并沒有高度重視,前期規劃僅為解決短期IT建設問題。但隨著企業規模的不斷擴大,IT系統涉及的設備種類越來越多,對全系統的運營和維護管理提出了近乎苛刻的要求,而相對的則是IT運維的原始和落后的現狀。
建立IT運維管理制度,關鍵在于規范
我們可以看出,在企業信息化發展到一定階段,IT系統建設重點應該要從系統實施轉向以應用運維提升為主,運維質量保障、安全機制變得重要起來,這時除了技術的保障以外,制度保障越顯得重要。
作為CIO,建立完善的IT運維管理制度是最主要的工作內容,是企業信息化有效執行和監督的立足點。由此,CIO應首先是一位管理專家,其次才是技術專家。IT部門本身管理不好,就不可能為業務部門提供滿意的IT服務,業務部門對IT部門的滿意度就會低,滿意度低又會影響IT投資及新項目的開展,使IT部門陷入困境。所以建立高效規范的IT運維管理機制,是CIO走向戰略管理的第一步。對于IT部門來說,可從以下幾個方面來進行IT運維制度化。
(1)轉變運維觀念,樹立規范化意識。樹立制度化的IT運維意識,才能在日常繁雜瑣碎的工作中有效區分任務的優先級,將有限的資源投入到最能滿足“客戶”需要的工作中。
(2)建立事件處理流程,強化規范執行力度。首先需要建立故障和事件處理流程,利用表格工具等記錄故障及其處理情況,以建立運維日志,并定期回顧從中辨識和發現問題的線索和根源。建立每種事件的規范化處理指南,減少運維操作的隨意性,最大程度上降低故障發生的概率。
(3)設立ITIL(信息技術基礎設施庫)服務臺,引入優先處理原則。設立服務臺以確定服務要求和IT運維目標,ITIL指南要求企業定義服務臺的關鍵流程,不僅僅定義流程是什么,還包括它們是如何運作的,還要指出每個流程對企業有什么影響和意義。應用ITIL中的IT服務臺及服務級別協議思想,保證例行的事有相關責任人進行處理;有了服務級別協議,制定事件處理優先級次序,就可把事件再細分為例行事件和例外事件。
(4)最后要引入SLA管理。SLA(Service Level Agreement即服務水平協議),IT部門應該自發給自己負責管理的系統或者客戶服務建立一個能夠量化的運維目標,這樣不僅能夠務實地提高服務質量和管理水平,也能夠在目標達成后作為團隊工作改進的成績得到肯定,提高IT人員的工作成就感。
參照ITIL建立成功運維管理體系的三要素
從IT運維的現狀和發展趨勢來看,ITIL已經成為推進IT運維體系建設和日常操作管理的首要標準和“最佳實踐”參照。ITIL是起源于英國政府自身IT管理需求開發的標準。對照ITIL的九層評估模型,可以發現許多企業目前在人員、流程、技術等三個方面存在很多問題。也就是說,在進行IT運維管理時,要在這三個方面齊頭并進才能從總體上提升IT運維服務管理。
(1)人員組織:在IT運維中人員因素應該是首要考慮的因素。因為ITIL的應用實際上是一個管理活動,特別依靠人的積極參與來完成。在管理過程中,可能涉及到人員的職能、利益、思維模式、工作方式等的轉換,產生的誤解、消極和阻力不容忽視。因此,除了在制度安排、企業文化方面的工作以外,更要積極采取多方面措施誘導和疏通,包括服務意識培訓、ITIL運維技能培養、發展規劃和激勵等方式。
(2)管理流程:運維流程設計是ITIL實施核心之一,它必須結合現狀,既不是現有管理流程的直接轉述和電子化,也不是完全依照最佳實踐的照搬拷貝。①流程是分階段的目標定義、設計、固化、評價和改進過程。②ITIL作為IT部門內部管理的流程,存在和外部流程的接口整合銜接的問題,需要在運維流程設計和流程自動化處理等環節中妥善解決。另外,還應該充分了解:運維流程既有需要嚴格執行的僵化一面,也有面向效果靈活變通的一面。
(3)技術工具:管理工具是指在IT運維管理過程中能夠借助的用來提高服務質量和效率的所有工具的總稱。對于企業來說,要特別關注兩類工具:①IT運維監控和診斷優化工具;②流程自動化工具。這里需要提醒的地方是,許多企業特別重視IT運維工具本身,而常常忽視了ITIL所倡導的通過流程等制度約束和引導,才能更好地發揮效益。因此,即使沒有引入ITIL運維流程以及電子化平臺,也應該建立并利用一些必要的運維紙質流程和制度,否則難以得到很好的應用。
結論
總之,CIO想在IT系統運維過程獲得最佳的效果,不是單純通過項目建設能夠達到的,高效IT運維系統是需要一個持續改進、不斷優化的長期過程,IT運維管理制度化也必不可少。(作者單位系中國海洋石油總公司)
參考文獻:
【1】左天祖. 中國IT服務管理指南. 北京:北京大學出版社,2004.
【2】朱海林、方樂. IT服務—管理、控制與流程. 北京:機械工業出版社,2005.
【3】陸康明. 基于生命周期的IT服務管理研究. 上海:同濟大學, 2008.