王北 夏衛 高強
(中國人民大學網絡與教育技術中心)
確保IT服務運作持續性
王北 夏衛 高強
(中國人民大學網絡與教育技術中心)
IT服務持續性管理是負責預防災難、增強IT基礎架構(包括計算機系統、網絡、應用、數據庫存儲、技術支持和服務平臺)的恢復能力和容錯能力的流程。它需要確保組織在災難發生后有足夠的技術、財務和管理資源來維持IT服務的持續運作。
在當今IT服務的業務環境下,服務持續運作的能力,在很大程度上決定了IT服務競爭成敗。對那些從事IT服務的單位而言,IT服務持續運作的能力則成為決定該單位競爭優勢的直接因素。尤其是在發生重大災難的情況下,如何確保IT服務運作的持續性,是值得IT服務管理人員特別關注的問題。
IT服務持續性管理(IT Service Continuity Management)是指負責預防災難發生、增強IT基礎架構的恢復能力和容錯能力,并在災難發生后迅速恢復IT服務正常運作的服務管理流程。
這里所說的災難是指嚴重影響IT 服務正常運作甚至導致IT 服務中斷的外來事故,如地震、火災、恐怖襲擊、網絡惡意攻擊、大范圍電力中斷等。預防災難的發生和災難發生后實施恢復方案是IT 服務持續性管理的主要任務。

中國人民大學網絡與教育技術中心是中國人民大學信息化建設的歸口管理部門和主要承擔者,業務職能主要涵蓋電子校務、網絡平臺、校園卡、多媒體教學服務和視頻服務等內容。一旦這些業務由于重大事件而停止運行,短時間內不能恢復,將使中國人民大學網絡與教育技術中心各項業務中斷,其影響將是災難性的。因此隨著學校對IT的依賴性逐漸加重,網絡與教育技術中心領導也越來越重視IT服務持續性發展。
1.工廠服務持續性管理的組織結構
中國人民大學網絡與教育技術中心目前共有中心主任一名、副主任3名,下設9個科室。
中心主任負責統一領導和指揮突發災難,制訂、審議有關政策、策略和制度并直接負責重大災難的處置,根據突發災難處置工作需要,向上級領導請示、匯報。
主管副主任在中心主任領導下,負責執行突發災難處置方案的具體指揮,協調實施技術部門及業務部門的具體處置工作。
各個科室接受突發災難的預警信息,負責突發災難的故障定位和初始保護工作;負責突發災難的損失評估、發展態勢評估、恢復效果評估等工作;負責突發災難的設備、場地、人員、工具、后勤等資源保障的管理和協調工作;負責突發災難前的資源統一準備和事件后的資源回收;協助主管副主任進行突發災難和災難恢復的處置,并負責核查業務功能,追補數據等職責;在業務人員的協助下,負責具體突發災難和災難恢復的技術處置工作;根據主管副主任的要求,預先通知重要用戶和相關單位;提供技術和業務支持,接受用戶的詢問和投訴,并向用戶解釋說明。
2. IT服務持續性風險管理方法
(1)定義范圍:明確IT服務持續性管理的范圍,對責任人和相關人員的職責和工作方法、治理標準、風險管理原則和方法及業務影響的準則和方法等問題進行了明確的定義。
(2)業務影響分析:分析IT服務對業務的影響,明確哪些地方需要重點實施IT服務持續性管理,有助于實施風險評估。
(3)風險評估:幫助識別IT服務運行中存在的薄弱環節和潛在的風險,避免業務中斷的發生。
(4)制定IT服務持續性計劃:用最低的成本將IT 服務運行的風險控制在最低可接受水平,具體包括風險降低措施的制定和災難恢復方案的選擇。
(5)具體實施IT服務持續性計劃:當某項業務,中斷服務后,采取相對應系統故障恢復計劃,或進行人工恢復。
(6)運作管理:在完成IT服務持續性計劃和實施后,進入日常管理階段,包括培訓、定期評審、定期日常變更、爭取領導對IT服務持續性管理質量的認可和保證。
3. 災難響應及處理
(1)響應
當災難發生,服務中斷,各相關值班人員首先應冷靜,判斷災難的影響程度和損害程度,第一時間恢復。如果短時間內恢復不能成功,通知相應各科室負責人和中心領導,相關科室工程師應迅速就位,處理和恢復突發災難,短時間內仍不能恢復服務,啟動系統故障恢復計劃,或各系統數據備份計劃。
(2)災難處理
針對服務中斷原因,制定不同的恢復策略。服務中斷可能是由于各種不同的原因引起的,根據對中國人民大學網絡與教育技術中心所發生服務中斷的統計來看,大部分原因是由于軟硬件故障,系統錯誤等原因引起的。針對這種情況,中國人民大學網絡與教育技術中心制定了《各系統故障恢復計劃》和《各系統數據備份計劃》。
各系統故障恢復計劃概要:各系統故障描述、故障預防措施、處理故障和恢復措施、要求時間、責任人。
4. 維護工作
在保障IT服務持續性中,各個系統的維護工作必不可少,維護工作包括兩類:計劃維護和非計劃維護。
(1)計劃維護:即根據預先安排的計劃,由時間驅動的維護工作。
定期進行各系統故障恢復計劃和各系統數據備份計劃的評審,評審按計劃每年度執行一次。當環境發生變化時,這些變化很容易被忽略,通過評審將幫助檢查各系統故障恢復計劃和各系統數據備份計劃所需要的變更。要求各個系統的責任人必須出席定期評審會。評審將主要關注已經確定的事件,確保這些更新已經或即將整合到各系統故障恢復計劃和各系統數據備份計劃中。
(2)非計劃維護:由事件驅動的維護工作。
因為許多變更是不可預測的。各個系統的負責人將負責在事件發生后向有關人員建議需要更新各系統故障恢復計劃和各系統數據備份計劃。
5. 災難發生的演練測試
在工作中很少遇到真正的災難,所以測試與演練災難恢復過程是網絡與教育中心確定計劃,以及想關程序是否可行的方法。它既用來驗證風險控制方法的有效性,也用來評估和改進質量。這種方法首先應測試網絡與教育中心的關鍵系統,如:數字人大電子校務系統和網絡核心系統。演練測試應明確時間以及每一個關鍵步驟,最終要在模擬環境中測試完成整個過程。
中國人民大學網絡與教育技術中心各流程是基于ITIL系統運行,服務持續性流程同其他各流程之間都有著相關的聯系:
1. 服務持續性管理流程和服務級別管理流程的關聯。
服務級別管理程序中,服務級別協議(SLA)指標應輸入到持續性管理程序中。當某個服務項目服務中斷,在服務級別協議規定的時間內未能恢復服務,則啟動服務持續性管理。服務級別管理是判斷是否啟動服務持續性程序的依據。
2. 服務持續性管理流程和變更管理流程的關聯。
當網絡與教育技術中心硬件設備(服務器、交換機)等以及軟件發生重大變更時,需重新評估變更對持續性計劃的影響,并及時更新持續性計劃。
3. 服務持續性管理流程和安全管理流程的關聯。
安全管理為預防災難的發生的,各項服務持續良好運行提供了必要保障, 是持續性管理業務影響分析的依據。
4. 服務持續性管理流程和容量管理的關聯。
容量數據是服務持續性計劃執行時對IT資源信息的監測與分析。
5. 服務持續性管理流程和配置管理的關聯。
應定期保留配置備份數據,用于在恢復系統時使用。持續性管理過程中,對配置信息的變更,應記錄到配置管理,用以及時更新配置信息。
IT服務持續性管理的實施,能夠降低危機的成本及對業務的影響,改善IT與業務的關系,將風險可能帶來的損失降低到最低水平。系統可以提高網絡與教育技術中心風險控制工作有效性和風險控制質量,從而大大降低中心業務風險,提高IT服務應急工作水平和抵御各種IT風險的能力,具有深刻的意義。
[1] Gad J Selig著,中治研國際信息技術研究院譯 《實施IT治理:方法論、模型、全球最佳實踐》 中國經濟出版社。
[2] 學位論文,作者:雷娜。論文題目:《基于項目風險和質量管理的IT服務管理持續性研究》。工程碩士專業學位論文,北京,北京郵電大學,2009年。