黃嘉偉
隨著我國自我創新技術的不斷發展,電子政務系統已率先開始將應用遷移至擁有自己核心技術的信創云上。當前信創云正處于云架構不斷完善、云組件逐步豐富的過程。如何在信創云不斷變革發展的過程中,為信創云上的應用系統建立保障有效的災備體系已成為業界關注的問題。針對上述情況并基于信息系統災難恢復規范-GBT20988-2007和相關標準,對信創云災備體系建設所需的關鍵要素進行了重新定義,并對關鍵要素進行了建設分析。
信創云災備建設能否成功實施,在應急情況發生時能否真正起到恢復業務應用系統、確保業務連續性的作用,關鍵點是要明確信創云災備建設的一些基本要素。例如:有沒有安全的、能抵抗生產環境物理資源突發故障的保護,有沒有考慮為生產業務系統和數據存儲系統配備容錯機制,有沒有應急情況下對資源系統的動態控制機制,有沒有制定一套完善的應急決策預案和處置流程等。
如上這些因素是信創云災備體系建設必不可少的組成部分,直接影響信創云災備建設的成功與否。為了確保災難體系的有效性,并且能夠在成本可預期的范圍內落地實現,需要對這些關鍵需求制定規則和標準,做到有依據、有衡量。當用戶提出云上應用保護的不同需求時,可提供滿足需要災難保護等級。
結合信創云系統的體系框架,并總結具體實施的成功建設經驗,把信息系統災難恢復建設的關鍵要素分成4個層面和1個預案。4個層面分別是:信創容災資源層、信創容災數據層、信創容災系統層、信創容災控制層。1個預案就是:應急決策組織預案。
信創容災資源層
信創容災資源層是提供滿足信創云備份容災所需的基礎資源。容災資源層按照功能作用可以劃分為3類:
①以存放數據為目標的存儲型云資源池;
②提供數據處理為主計算型云資源池;
③以及實現容災備份功能的網絡資源。
其中計算和數據存儲可以合并兼顧,組成綜合云資源池。當前,信創容災資源層在基礎硬軟件層面已實現了自主研發,不存在惡意后門風險。而且后續改進升級或修補漏洞中,不受制于國外技術壁壘。信創容災資源層很重要的一個作用就是從基礎資源層面對各種國產化設備聚合協調。
信創容災數據層
信創容災數據層主要功能是實現對應用數據的備份。容災數據層提供對云業務全方位數據保障能力,從數據層面保護用戶系統和業務的安全。數據層向上支撐系統層,支撐集群容災和業務的切換實現;向下對接資源層,確保數據備份的完整、零損失。同時,在數據的傳輸流轉過程中,增加了遷移加密、傳輸加密等功能,有效地保護了用戶數據和業務的安全。
容災數據層對結構化數據的支撐對象主要包括:國內外主流數據庫和開源數據庫。目前國內自主的主流數據庫有達夢、金倉、南大通用、神通等,主流的開源數據庫有MySQL,MongoDB,PostgreSQL等。
當生產端和備份目標端采用不同廠商數據庫產品時,適配調優是必不可少的首要環節。總結在多個項目中的經驗并結合信創產品適配調優一般規律,建議按照“組合適配+壓力適配+深度調優”的過程開展適配調優工作。
容災數據層對非結構化數據的支撐建議采用分布式架構,這樣可以不受到節點規模限制。對于海量小文件的備份和恢復,可采用重復數據刪除算法、多通道并行備份等技術,確保海量小文件的高效備份和迅速反向恢復,解決了傳統備份技術上的難題。
信創容災系統層
信創容災系統層通常建議采用松耦合架構,實現生產應用系統與災備系統之間的消息傳遞、狀態判斷、決策處置等功能。當前信創技術還處于高速成長變化過程中,對生產與災備系統的狀態判斷和決策處置環節,建議采用有人工干預的半自動或半智能決策方式。
依據響應時效和物理距離2個維度,系統層可實現3種模式的容災:
①在同一資源池內的高可用容災;
②在同城距離范圍內的雙活同城災備;
③遠程異地距離范圍的異地災備。
同城災備在物理距離上通常定義為生產環境與災備環境在100 km范圍內,2點間數據傳送在50 ms內。遠程異地災備是為了防范區域性的自然災難,通常建議大于300 km。
高可用:容災系統部署在同一資源池內的另外一個資源宿主機上,當業務系統所在的資源宿主機發生故障時,將業務切換到該容災宿主機上。
雙活/同城災備:將容災系統部署在距離相近的另外一個資源池中,當業務系統發生故障時,將業務切換到容災系統上。此形式下,業務系統和容災系統部署在不同的資源池中,可靠性更高。相比高可用模式,存在網絡切換時延和數據同步方面的性能差距。
異地災備:提供跨區域的災備保障能力,能有效地應對超大規模地域級別災害,提高數據的可靠性和業務的連續性。遠程異地災備的數據響應時延較長,數據復制或同步的方式通常選擇異步模式。
信創容災控制層
容災控制層作為整個災備體系的控制中心,實時對災備資源監控進行配置變更和告警處理。提供多租戶災備資源管理、資源監控與計費、災備策略配置管理、災備作業管理、統計和報表管理、綜合運維監控與告警等功能模塊,為用戶提供統一的身份認證、工作流審批管理功能,實現云管功能與災備業務流程的對接,實現標準化、可視化、流程化的災備服務要求。
在災備體系的運轉中,災備環境與生產環境的基準核對是非常重要的一項日常工作。容災控制層需要提供對生產與災備環境配置的比對功能,同時為確保可支撐業務的動態變化,需要具有對基線管理的靈活擴展功能。可以隨時將當前生產實際環境、應用配置等內容與災備環境進行比對,實現生產與災備配置的一致性管理。
應急決策組織預案
應急決策組織預案是指當災難發生時,為確保業務系統能夠持續運行,業務相關人員能夠合理應對災難,支撐整個業務恢復工作中所需的人員、任務、行動、和資源調度的文件(文案)。應急決策組織預案在編制的過程中要注意到以下4個方面:
①預案應具有針對性,針對可能發生事故,為迅速、有序地開展應急行動而預先制定的行動方案,因此預案應結合災難導致的結果來分析。比如,針對可能發生的各類事故,在編制預案計劃階段就需要對經營活動中可能發生的事故進行分析和羅列,在此基礎上編制預案,這樣才能保證預案的廣范圍覆蓋性。也可以從生產經營的薄弱環節來考慮,分析當前存在的應急能力缺陷或不足等方面來編制預案。
②應急是一項科學性很強的工作,編制預案需要以科學的態度,在全面調查研究的基礎上,采用領導和專家結合的方式,開展科學分析和論證,制定出決策程序和處置方案,保證應急手段先進,具有科學性。
③預案應具有實用性和可操作性。當發生重大事故災害時,組織可以按照應急預案的規定,迅速、有序地開展應急行動,降低事故損失。
④完整性,包括功能的完整、應急過程的完整和適用范圍的完整。功能的完整是指預案中應說明有關部門應履行的應急準備、應急響應職能和災后恢復職能,以及為確保執行預案應履行的的支持性職能。應急過程完整指預案應包括應急管理工作中的預防、準備、響應、恢復4個階段。適用范圍完整是指要闡明預案的使用范圍,即針對不同災難階段可能使用預案的適用范圍進行清晰定義。
實踐中,可通過應急測試和演練等手段,暴露預案編制中的盲點,持續對應急決策組織預案進行完善。
通過上述5個關鍵要素的組合,可滿足信創客戶對數據級災備、應用級災備、業務級災備的不同訴求。通過使用災備資源,配置自身業務系統所需的災備策略,組織模擬災備演練以及應急開展業務恢復。基于上述要素組合建設的信創云災備方案,已成功為全國多個省、市電子政務云平臺提供容災備份服務。通過這些實踐的應用,進一步推動業界對信創云災備體系的理解和對其流程與技術架構的進一步豐富。