王斌斌,唐 雨,孟壇魁
(中國人民大學 網絡與教育技術中心,北京 100872)
IT服務管理體系實踐之問題管理
王斌斌,唐 雨,孟壇魁
(中國人民大學 網絡與教育技術中心,北京 100872)
問題管理作為ISO 20000體系中五大主要管理流程之一,對增強我網絡中心對問題的預防和解決能力,提高中心的管理和服務水平,具有重要的現實意義。本文主要對問題管理流程、流程設計思路和通過其達成的目標加以論述。
發現問題;解決問題;問題預防;問題管理流程
問題管理是以解決問題為導向,以挖掘未知問題,表達、歸結和處理已知問題為線索和切入點的一套管理理論和管理方法。問題是客觀存在的,出現問題在所難免。關鍵是如何及時發現這些問題,并找出問題的原因及解決方法,對可能產生的新問題做到預測和防范,對已暴露的問題確立可行的解決方案。
問題管理作為ISO20000體系五大主管理流程之一,其研究和應用的途徑是沿著IT服務中“事件管理”路線推廣發展而來,與事件管理和變更管理等流程聯系緊密。問題管理是為了對發生在用戶使用IT中發生的問題進行管理,找出產生這些事件或故障的根本原因并解決或預防。從而為用戶提供一個穩定的IT服務使用和運行環境,保障并提高服務的可用性。
1.問題管理流程
問題管理的特點為:一是防患于未然,防止可能產生的問題演化為事故;二是發現和解決關鍵問題,過濾假問題,解決真問題;三是跨專業、跨科室地分析和解決問題,打通各專業或科室之間的鴻溝。根據ISO20000標準和網絡中心的實際情況,總結和制定出問題管理流程如下:
(1)問題管理流程的發起,是由網絡中心的一線、二線工程師在IT服務管理平臺上提出問題申請單。問題申請單可以是工程師在日常工作中主動發現的問題,也可以是由事件上升到問題等的被動發現問題。
(2)問題管理負責人作為問題處理的主導者,對提出的問題進行受理和分析。確認需要受理后,對問題進行初步分類和優先級判斷。
(3)問題管理負責人對該問題進行審批和分派。根據問題的類型和復雜程度等,如需要則上升提交到問題經理;再有必要時,上升到專業技術委員會進行審批和分派。
(4)問題在經過審批和分派被確認后,問題管理負責人進行任務分配。根據審批和分派給出的反饋信息,安排并遞交給一位工程師獨立或牽頭來解決此問題,可有多人參與。
在具體解決問題的過程中,對于已經找到根本原因的問題,需要確定解決方案,以便永久解決問題。要注意的是,在問題管理流程的處理階段,要注意是否需要通過其他流程(如變更流程等),如需要則提交到相應的流程,并和該流程人員保持溝通,了解問題的解決狀況,如不需要變更,計劃并組織實施解決方案。
(5)問題由工程師進行處理在將問題處理實施結果反饋給問題管理負責人后,由問題管理負責人對解決的問題進行評價、點評。
(6)把需要積累的新知識存入知識庫。
(7)問題管理負責人或問題處理工程師關閉問題。
問題管理流程如圖1所示。
2.問題管理流程主要角色及職能
問題管理流程中,包含的角色為:問題流程負責人、問題管理負責人、問題管理經理、專業技術委員會和一線、二線工程師。其主要職能分別如下:
(1)問題流程負責人:從總體上對問題管理流程的設計、實施、執行及優化負責,確保問題管理流程被正確執行。當流程不能夠適應實際的運維情況時,流程負責人必須及時對此進行分析,找出缺陷,進行改進,從而實現可持續提高。
(2)問題管理負責人:接受問題單,對問題進行審核確認,確保所有相關問題信息都被正確記錄。對問題進行分級和分類,進行最初的審批與分派。根據問題解決詳細記錄,審核問題,合理分派IT資源,落實執行解決方案,必要時發起變更流程并監控變更的實施。根據常見或者典型的問題整理知識庫記錄。
(3)問題管理經理:對問題進行審批與分派,必要時申請召開專業技術委員會(擴大)會議,確定問題的根本原因,提供問題的臨時解決方法(未根本解決問題)或最終的解決方案。監控問題解決全過程,確保問題分派正確,查看問題處理結果。
(4)專業技術委員會:定期分析委員會所管理范圍內的事件記錄數據及信息,發現和識別問題,進行主動預防。接受問題管理經理分派的問題,將技術委員會不能受理的問題單及時退還給問題管理經理,并說明原因。分析和診斷問題的根本原因,提出解決方案,必要時協調配合第三方供應商診斷和解決問題。
(5)一線、二線工程師:發現和識別問題,并進行主動預防,必要時配合問題管理負責人診斷和解決問題。根據問題管理負責人的任務分配執行問題解決方案。

1.問題管理流程的確定和應用
我們根據ISO20000體系標準和在實踐中的不斷摸索和嘗試,經過多次的修改和完善,最終制定出了適用于網絡中心實情的問題管理流程。
網絡中心的問題管理流程是依托于已經建立起來的IT服務管理平臺實現的,所有在工作中主動發現或被動發現的未知問題,都要通過IT服務管理平臺上的問題管理流程來解決。根據網絡中心的實際工作情況,我們將所有對網絡中心IT基礎架構有影響的問題都定義為問題管理的問題來源,處理過程將通過流程中定義的標準、政策和指導進行管理。
事件產生原因的確認是解決問題的前提,也是最關鍵的一步。因此要明確問題信息的來源,問題可能來源于某些事件的進一步調查,即通過事件管理關聯到問題管理,也可能來源于主動巡檢和事件報表分析。為了確定問題產生的根本原因,網絡中心建立了3層審批體制。第一層為問題管理負責人,這里是接收到問題單的科室主任;若這一層解決不了問題,則向第二層遞交,遞交給問題管理經理,這里是網絡中心的中心領導;如需要問題管理經理將問題遞交給最高一層,即網絡中心專業技術委員會,由委員會召開會議研究和探討問題產生原因和解決方法。只有問題產生的原因得到了確認,才能制定出相應的解決辦法,產生的問題才會得到根本的解決。
問題管理在實際處理問題的過程中,由于技術水平、資源等因素所限,可能短期內不能根本解決問題。而整個問題處理的流程是個過程控制,能否按照流程一步步的進行,對問題處理有記錄、有控制,是問題處理的規范化管理。在網絡中心的IT服務管理平臺上,根據各個角色所應擔負的責任進行了相應的權限規定,用來確保每個問題在任何時段都有適當的人員負責,從而全面落實責任制需要實行問題的有效管理方案,從而保證問題處理的及時性及有效性。
2.知識庫
知識庫在問題管理流程中扮演著重要的角色。在問題管理流程的最后階段,若是一個新的問題最后得到了根本解決,可將這個問題的解決方法提交至知識庫,這樣以后若遇到相同或相似的問題,可以參考知識庫中的信息,快速有效地解決問題,大大地提高了工作效率,也節約了人力資源。
根據我中心科室劃分和業務內容等實際情況,我們定義了以下知識庫結構:
(1)安全:病毒、防火墻、其他;
(2)辦公:財務、工會、公文、其他;
(3)基礎環境:UPS電源、機房空調;
(4)教學設施:電子屏、教師用機、投影系統、其他;
(5)卡系統:卡專網、門禁、系統、自服務終端、其他;
(6)媒體:編輯、磁帶管理、攝像、其他;
(7)網絡:主干設備、接入設備、網絡基礎服務、鏈路、設備配置手冊、無線網絡、用戶主機;
(8)系統:IT 服務平臺、VPN、Web、存儲、刀片服務器、數字人大、虛擬服務器、其他;
(9)應用:數字人大應用系統、郵件、其他。
IT服務管理平臺的知識項可以鏈接文件,為管理配置手冊這樣的知識提供了方便。因此可看出,知識庫是提供相關技術的資源、信息、知識的集中體現,是知識積累的重要場所。我們通過對知識庫的運用,可以充分利用知識成果,提高工作效率,減少重復勞動。
問題管理作為ISO20000體系五大主流程之一,與其他主流程和管理流程都有著密不可分的關聯。

(1)與事件管理關聯
問題管理中,待處理問題的主要來源之一是通過事件管理。事件和問題,就像本質和現象,原因和結果。一個或一系列事件產生后,若是通過臨時解決方法解決的,則在恢復用戶IT服務后,都應該創建問題單,即新建一個問題。此問題解決后,需將解決方案等信息反饋給事件管理,以提升類似事件的解決效率。事件管理作為問題管理的主動性活動的輸入,可用于進行事件趨勢分析發現潛在問題。
(2)與變更管理關聯
問題處理過程中,如果涉及到需要對基礎架構、應用系統及操作系統等進行變更的,則觸發變更管理流程。必須按照變更管理定義,提交變更請求,變更管理負責控制執行變更。變更完成后,向問題管理反饋變更執行結果。
(3)與配置管理關聯
配置管理中,配置信息可用于判斷問題產生的原因。在問題處理過程中,可以通過配置管理查詢相關的配置項信息。如果可以將問題產生的根本原因定位到某個配置項,則必須將問題與該配置項關聯,觸發配置管理流程。
(4)與容量及可用性管理關聯
容量及可用性管理為問題管理提供用于定義問題的重要信息。在日常容量及可用性計劃執行與監控過程中,如果發現問題發生,需提交問題申請單,依照問題管理流程執行。與容量及可用性相關的問題報告信息應輸入到容量及可用性管理流程中,作為分析容量及可用性需求的重要依據。容量及可用性報告作為問題管理主動性活動的輸入,用于進行容量及可用性趨勢分析發現潛在問題。問題管理找出與容量及可用性有關的問題,查明原因并進行糾正,以此來支持容量及可用性管理流程的工作。
(5)與服務級別管理關聯
服務級別管理為問題管理提供用于定義問題的信息,問題管理流程應當遵守和支持規定的服務級別。在確定通過服務級別管理程序制定SLA的過程中,問題經理可針對SLA的指標提出相應的專業意見,服務級別經理應綜合考慮各流程經理的意見,以確保制定的SLA合理和可行。SLA應得到問題管理流程的支撐,分解有關的SLA指標作為問題管理流程的指標。問題管理中,所有新定義的已知錯誤和解決方案均應添加進知識庫中,供其他管理流程或相關人參考。
問題管理主要目的是為了規范對發生在用戶使用IT中發現的未知問題、找到問題所在和管理解決問題的過程,找出產生這一系列事件的根本原因,然后根據需要通過提交變更請求,或采取臨時解決方法(未根本解決問題)和預防性措施來消除引起這些問題的深層次根源,以防止此類問題的再次發生,從而為用戶提供一個穩定的生產和運行環境,保障并提高服務的可用性。
通過問題管理過程規范化,使之有記錄,有控制,以提高解決率。通過規范問題管理流程,可拓展網絡中心全體人員的思維深度和廣度,不是只看到并滿足于眼前的現狀,而是將對未知問題的發現變成一種經常性的活動。按照ISO20000標準,結合持續性、可用性、容量管理的監測活動,可以實現主動問題管理,在中斷服務的事件發生之前,發現并解決可能導致事件產生的問題。通過解決這些問題,不斷的提高和升華,使我中心人員有更強的發現問題和解決問題的意識,對體系和流程的認識更深入,提供更高效穩定的IT服務。
中國人民大學網絡與教育技術中心根據ISO20000標準,已建立起比較成熟的問題管理流程。不僅有較完善的理論框架體系,而且在IT服務管理平臺上得到充分實踐,應用效果已經顯現出來。在日后對問題管理的不斷應用和探索中,會不斷改善和提高問題管理流程,使之更好地實現其價值。
[1]孫繼偉.問題管理的理論與實踐[J].管理學報,2010(11).
[2]左天祖主編.ITIL白皮書[M].
[3]百科名片http://baike.baidu.com/view/1137807.htm[OL].
[4]慕明宜.淺談問題管理[J].印刷質量與標準化,2006(6):46-49.
[5]Gad J Selig著,中治研國際信息技術研究院譯.實施IT治理:方法論、模型、全球最佳實踐[M].北京:中國經濟出版社.
G647
B
1673-8454(2011)17-0037-03
(編輯:隗爽)