葛 泓,朱 斌,趙建三
(中國人民大學 網絡與教育技術中心,北京 100872)
IT服務管理體系實踐之事件管理
葛 泓,朱 斌,趙建三
(中國人民大學 網絡與教育技術中心,北京 100872)
事件管理是體系中的一個關鍵流程,提供了檢測事件,定位合適的支持資源以便盡快解決事件的能力。同時還提供了解決事件過程中各個環節的數據記錄,檢驗達成服務目標的資源配置、管理流程以及運行質量,為生成服務報告、制定服務計劃、核算服務成本、考核服務工作量提供了數據依據。可以說,事件管理涉及服務的整個生命周期。
IT服務管理;服務請求;重大事件;事件管理;優先級
ISO20000體系包含5個過程13個管理流程。事件管理是其中的一個關鍵流程,提供了檢測事件,定位合適的支持資源以便盡快解決事件的能力。同時還提供了解決事件過程中各個環節的數據記錄,檢驗達成服務目標的資源配置、管理流程以及運行質量,為生成服務報告、制定服務計劃、核算服務成本、考核服務工作量提供了數據依據。可以說,事件管理涉及服務的整個生命周期。
事件管理是中國人民大學體系實踐中的第一個落地實施流程,也是最活躍、最直觀、涉及使用范圍最大的管理流程。它是我們向用戶提供服務的統一平臺,是我們展示服務流程規范管理的窗口,是我們考核服務質量的輔助工具,同時也是用戶投訴服務的渠道以及用戶對服務評價的收集器。
事件即為在服務中導致或可能導致服務中斷或質量下降的不符合IT服務標準操作的任何活動。它不僅包括軟硬件故障,還包含了服務請求。
當多個事件需要同時處理時,必須根據事件所造成的影響、事件的緊急程度、解決事件的難易程度等因素確定事件處理的優先級。事件管理目標就是盡快恢復正常的業務運行并將事件對業務運行的負面影響減少到最小,從而確保維持服務質量和可用性的最高水平。事件管理包含六個主要活動:事件接收和記錄、分類和初步支持、調查和分析、解決和恢復服務、事件終止以及進展控制與跟蹤。這六個主要活動構成了事件的生命周期。
中國人民大學在事件管理的設計實踐中,特別強調了以下幾個方面:
第一,事件往往表現出數量多、處理繁瑣的特點,特別強調合理清晰的分類、分級、分權、分角色。
第二,事件管理作為一切流程的基礎,是服務受理、處理、反饋、跟蹤的一條龍過程,一頭連著用戶,一頭連著服務人員,一頭連著技術支持人員,特別強調過程的控制以及界面的實現。既要保證過程控制的權限粒度,又要避免繁雜,特別是技術支持人員之間的傳遞和溝通要靈活。界面強調清晰和簡約,保證效率。
第三,事件管理是服務級別管理、業務關系管理、問題管理、容量管理、可用性管理、配置管理的集中展現,又是各流程績效考核的參考,事件管理中表單的內容設計要綜合方方面面。
基于以上考慮,我們主要完成了六個方面的設計:事件的分級分類定義、流程設計、角色和權限設計、流程執行準則設計、流程關聯準則、事件管理統計報表和績效指標。
1.事件的分級和分類
為了使繁雜的事件易于分辨,需要對事件進行分類。同時,為了保證服務級別和事件處理效率,需要將有限的資源合理配置到每個事件中,因此,必須對事件進行分級。
中國人民大學在事件管理的實踐中,根據自身業務職能和機構組織的特點,將事件分為三類:故障、服務請求、重大信息事件。其中,故障分為13個二級子類,服務請求分為6個二級子類21個三級子類,重大信息事件定義了17類。特別是服務請求的范圍,涵蓋了所有業務職能,使得事件管理成為所有服務受理和處理的統一平臺。圖1為用戶根據事件的分類建立新事件。
優先級即處理事件的先后順序。通過優先級,支持人員可以判斷、協調資源分配,用戶可以明確解決時間,從而保證服務響應節奏和服務成本。
影響度:衡量時間對業務的影響程度,主要參照影響范圍、數量和重要程度。
緊急度:主要根據業務對IT需求和依賴程度以及可以忍受的時限。
中國人民大學綜合考慮了事件的影響度和緊急度,為事件設定了三級優先級,并分別定義了響應時間、解決時限和升級準則。
2.事件管理設計
(1)流程設計
事件管理涉及的人員角色多,處理過程分支多。我們共設計實現了7流程,包括:1個主流程和 6子流程,包含記錄分類、一線解決、二線解決、申請事件經理協調解決、關閉事件子流程以及重大信息事件處理子流程。圖2為事件管理的綜合流程。
(2)角色和權限設計

流程的執行涉及多個部門、多項職能,采用基于角色的靈活方法才能合理清晰地設計出流程中的角色和權?限,才能保證流程成功運行。在事件管理流程中,我們設計了6個角色并賦予每個角色不同的權限。其中包括:事件管理流程負責人、事件管理經理、二線工程師、一線工程師、服務臺和用戶。

事件管理流程負責人只在重大信息事件處理中負責總體協調、向上級報告或者申請事件的管理升級。
事件管理經理:事件經理對于流程富有主要責任,其目標是為事件的技術升級做好預備工作,以避免事件的管理升級。監控流程的效果和效率、改進流程建議、協調內外資源。
一線、二線工程師主要是處理事件并記錄處理結果、申請技術升級、關聯其他流程等。二線工程師角色實際上還包含兩類角色:工程師和科室主任,科室主任也承擔工程師的角色來處理事件,同時,負責事件的調查分析、技術升級等。
服務臺主要是接收、記錄、分派、追蹤、關閉。
設計的核心是針對狀態改變實施控制的。所有表單的可寫字段的“讀”和“寫”權限賦予該流程中的所有角色。每個狀態的“改變狀態權限”只賦予該狀態的負責人。這樣的設計主要是依據我們的機構職能劃分、人員崗位職責劃分以及人力資源配置的現實狀況,在有限的資源配置和成本中實現最合理的響應和處理。
(3)事件管理執行準則
事件管理中涉及受理、分派、處理、遞交處理、升級、審批、報告、反饋、關閉等多個執行環節,環環相扣地推動事件管理的開展。其中一個環節的延誤或停滯或錯誤都直接影響事件管理效率,甚至服務級別的不符合。因此,我們在幾個關鍵環節中特別制定了執行準則,保證各個角色在每個執行環節中“有法可依”。
事件管理流程的執行準則設計包括:責任制準則、事件升級準則、事件分派準則、事件關閉準則、重大信息事件報告制度。在此重點闡述責任制準則、分派準則和升級準則。
1)責任制準則
核心是事件統一受理和首問負責制。即:所有服務須經服務臺統一受理,采用首問負責制,負責跟蹤事件處理的全過程直至解決、關閉。
2)事件分派準則
核心是將事件分派到合適的支持團隊來解決,支持團隊不可拒絕接受分派。如果被派事件不屬于本團隊支持的專業范圍或者自身能力無法處理,可以遞交給其他相關支持團隊進行解決,但必須注明原因。
3)事件處理升級準則
事件的處理不能在規定的時間內解決,就要進行事件升級,它可以發生在處理過程的任何時間和任何支持級別。
簡單地講,事件升級分為技術升級和管理升級。技術升級:需要更多專業技能、處理權限、更多時間和人力投入來參與事件的處理。管理升級:需要更高級別的管理機構參與解決。
我們將事件技術升級設計為兩部分:一是優先級、二是處理資源。優先級主要是針對重點用戶、重要類別的事件,處理資源主要是針對事件的復雜程度。
服務臺、一線、二線工程師和事件管理經理都有事件升級權利。
要進行管理升級的事件被設計為需要學校領導參與協調處理的事件,例如:重大信息安全事件。只有事件管理流程負責人有權進行事件的管理升級。一般先考慮技術升級,盡量避免管理升級。
前面提到事件管理是一切流程的基礎,是其他多個流程的集中體現。圖3簡明勾畫了事件管理流程與其他流程的關聯關系。在此,重點闡述與問題管理、變更管理和配置管理的關系。

1.與問題管理的關聯
特殊的、重復發生的事件,引發了問題的建立,觸發問題管理流程。事件管理和問題管理一并作為解決流程,有著一致的目的——降低故障發生率,減少由于系統故障所帶來的業務損失。但是沒有一致的目標。兩者的本質差異在處理的手段上。問題管理以找到并解決故障根源為手段,更關注故障發生的深層次原因以及能否根除故障的隱患,而不太關注解決恢復時間。
為盡快恢復服務,事件管理鼓勵采用臨時方案、變通方案,但會掩蓋問題。問題管理會依據事件管理中收集的信息,查處潛在錯誤,提供與特定問題相關的信息、已知錯誤、應急措施以及補救辦法為事件管理提供幫助。
2.變更管理和配置管理
事件處理過程中,常常會通過實施變更來解決,如更換設備。為事件管理提供預定變更及其狀態信息有助于解決事件,但是錯誤的或包含錯誤的變更也可能引發事件。
在配置管理流程的實踐中,我們有很多困惑和爭論。其一是系統和設備的配置管理與運維監控存在矛盾,接口不清晰,無法實現;其二是配置管理能給我們帶來哪些效率、效益和幫助。
筆者很長時間不能理解圖3中通過CI如何將事件管理與配置管理關聯。其原因是筆者對配置或者CMDB理解的膚淺。此處的配置遠大于系統管理中的配置概念。CMDB可以為事件做定位,例如:事件發生在什么系統中、什么型號規格的設備、軟硬件指標、運行參數、設備的物理位置、邏輯結構等。設備的配置信息與事件建立鏈接以提供相關錯誤信息。CMDB還可以幫助評估事件的影響度和緊急程度。因此,無論是事件管理還是配置管理,在關聯關系的實踐中還有不少有待我們思考和改進之處。
事件管理是中國人民大學體系實踐的第一步,通過實施事件管理流程和服務臺,我們的IT服務管理改變了原先混亂松散狀態,進入有流程、有管理、有規范狀態。
(1)故障和服務請求的全面受理,事件處理流程規范,處理全過程有記錄,處理狀態和結果可追蹤。
(2)通過事件處理記錄,驗證和考核服務指標,特別是響應時間、恢復時間可測量判斷是否符合服務級別要求。
(3)IT工程師的工作量考核一直是難題,事件處理記錄可以輔助考核工作量。
(4)設計統計指標項,例如:事件總數、各科室事件數、重大事件數、各類事件數、按優先級計算的解決時間、事件解決數占比、在SLA目標內解決的事件占比、員工平均解決事件數、非現場解決事件數、一次分派正確率等,輔助分析,改進流程、方案和服務、修正服務級別。
理論上將事件管理流程實現的關鍵成功因素歸為以下四個方面:及時更新的配置管理數據庫,知識庫,適當的支撐工具,與服務級別管理相關聯的合適的優先級和解決時限。導致失敗的因素包括:用戶或支持人員故意避開流程,事件處理超載和堆積,事件升級、定義和協議不清晰,缺少管理層承諾,升級的增加,執行成本增加等。由此看出,合理的設計和規范的執行是成功實踐保證。
隨著體系的運行,各流程中數據的積累,如何通過變更管理對事件處理中的過程進行控制,通過配置管理提供的信息定位,通過問題管理提供的知識庫和問題預測,使事件管理的效率、效果得到提升,使其進入一個良性推動的閉合循環狀態,能夠形成主動預防事件的模式,是我們下一步思考和實踐的目標。
[1]ISO/IEC20000-2:2005 Information technology-Service management[M].
[2]Jan van Bon主編,章斌譯.基于ITIL的IT服務管理(基礎篇)[M].北京:清華大學出版社.2007.
[3]Gad JSelig著,中治研(北京)國際信息技術研究院譯.實施IT治理[M].2011.
[4]左天祖.ITIL白皮書[M].
G647
B
1673-8454(2011)17-0033-04
(編輯:隗爽)