摘要:基于Internet設計并實現了一種異地容災系統。該系統集實時備份和監控、服務自動切換和快速恢復為一體,支持多種操作系統和數據庫,并提供基于Web的遠程管理。其結構簡單、合理,運行穩定,具有較高的應用和推廣價值。
關鍵詞:容災;數據備份;災難恢復
中圖分類號:TP309.3文獻標志碼:A
文章編號:1001-3695(2007)07-0171-02
隨著計算機技術的不斷發展和信息化程度的不斷提高,信息已經成為企事業最具有價值的資產,信息數據的丟失帶來的災難將是不可估量的損失。因此建立容災系統,保證數據完整性和業務連續、穩定在信息社會顯得極為重要[1]。計算機系統的災難備份和恢復建設受到高度重視并成為研究熱點。與傳統的容災技術(如雙機熱備份、服務器集群技術等)相比,異地遠程容災這種高性能的數據備份和災難恢復技術,更能充分保護系統中有價值的信息,保證災難發生時業務的連續性,比其他容災技術具有更多的優點[2,3]。但是容災建設特別是高級別的異地容災系統,需要專線或光纖通信等特殊設備,其投資巨大,一些中小規模企業在資金不足的情形下,無法顧及災難備份,所以災難一旦發生,后果將不堪設想。
基于上述因素,針對中小型企事業單位提出的異地容災系統,利用Internet這一廉價資源,實現了數據遠程備份和快速恢復功能,支持多種數據庫和操作系統,大大降低系統的開發和維護成本,并確保用戶業務不受影響或者將影響降低到最低。
1系統結構
系統的拓撲結構如圖1所示。
整個系統的拓撲結構以地域為界分為本地應用系統和遠程備份系統兩部分,兩者結構基本類似。本地應用系統由本地數據中心和本地網關組成,其數據中心由一個或多個應用服務器組成,它與本地網關距離近,并由內部高速網絡連接。同理,遠程數據中心也由多臺備份服務器組成,并與遠程網關通過內部高速網絡相連。
由于本地應用系統和遠程備份系統結構上的相似性,遠程備份系統是與本地應用系統相當的備份應用系統,系統的容災層次為應用容災[4],即在災難發生時,高可用遠程備份系統迅速接管本地應用系統的業務,確保業務的連續性。
2系統實現
2.1容災流程
容災是項系統的工程,必須理清容災工作的流程,制定詳細的容災計劃。本系統整個流程共分五部分(圖2)。
系統管理員通過對本地應用系統可能遭受的災難來源、受損程度、恢復要求等方面進行分析,為備份和恢復打下基礎。慎密地分析之后再根據生產系統的實際情況,制定容災計劃(Disaster Tolerant Plan,DTP)。DTP幫助系統管理員管理和控制容災系統進行災難恢復[5]。容災計劃包含容災任務(Disaster Tolerant Task,DTT),并建立磁盤分區的對應關系進行數據鏡像備份,同時實時監控各個DTT的運行。一旦災難發生,按照預先擬定的容災計劃,進行數據恢復?;謴徒Y束后,復查和評估該容災計劃,重新分析災難事故,并及時更改容災計劃。
從系統的整個流程而言,容災工作環環相扣,并相互促進、相互推動、靈活調整,具有極大的適應性。
2.2容災計劃
其中,M為本地生產中心的磁盤分區組,B為遠程備份中心的磁盤分區組,P為該任務的容災策略,包括備份鏡像關系S和恢復策略R,且有如下關系,MSRB。其中本地數據中心的磁盤分區組M={LSP,LGDP,LGCP},LSP是應用服務器提供服務和數據的磁盤分區,LGDP是本地網關的磁盤分區,LGCP是本地網關上緩沖寫操作的磁盤分區。遠程備份中心的磁盤分區組N={RGDP,RSP},RGDP是遠程網關的磁盤分區,RSP是備份服務器的磁盤分區。
通過下述鏡像關系,將本地應用服務器磁盤LSP上的寫操作捕獲并重放到遠程備份服務器對應的磁盤分區RSP上,完成數據的備份。M、B的對應關系如圖3所示。
(1)本地服務器到本地網關。首先通過磁盤鏡像技術,本地網關設備LGDP映射到本地服務器上,記為LSMP。對系統而言,LGDP和LSMP視為同一邏輯單元,即當LSMP發生變化時,將寫操作封裝成TCP/IP數據包,通過內部高速網絡傳到LGDP,取出該操作重新執行,故有LGDP=LSMP。其次通過磁盤冗余技術,LSMP和LSP同時發生數據更新,即LSP=LSMP=LGDP,可推出LSP=LGDP。
(2)本地網關捕獲寫操作。考慮到本地網關與遠程網關之間的外部網絡性能不穩定性,所以系統監聽到LGDP發生的寫操作,截獲寫操作,放入緩沖分區LGCP。
(3)本地網關到遠程網關。首先通過磁盤鏡像技術,遠程網關設備RGDP映射到本地網關的磁盤分區為LGMP。LGMP和RGDP被設為同一邏輯單元。寫操作從緩沖分區LGCP中解封取出,重放到LGMP。LGMP=RGDP,寫操作也在RGDP上執行。
(4)遠程網關到備份服務器。因為RGDP和RSP互為鏡像關系,利用內部的高速網絡,對RGDP的寫操作會同步執行到RSP,從而RGDP與RSP的數據一致。
(5) 綜上,應用服務器上的寫操作通過LSPLSMPLGDPLGCPLGMPRGDPRSP,完成數據的備份。
圖3在上述映射關系的基礎上,有多種恢復策略P供系統管理員選擇:自動切換并恢復數據、手動恢復、定時恢復等。管理員可以根據實際情況,選擇一種或多種恢復策略對任務進行快速恢復處理。
2.3層次結構
系統的層次結構如圖4所示,共分為三層,即用戶層、中間層和核心層。通過分層,每一層功能明確、結構簡單,便于系統的維護和擴展。
2.3.1用戶層
基于Web的遠程管理,為用戶提供友好的可視化圖形界面。根據用戶的要求完成備份任務組(DTT)的配置管理、災難恢復、系統管理等操作。與下層之間以消息驅動的方式通信。
2.3.2中間層
中間層即后臺管理是用戶層和核心層的中介,位于本地網關、本地服務器和備份服務器。本地服務器和備份服務器的后臺管理主要功能是監控本機的運行狀態并將結果反饋給本地網關。位于本地網關的后臺管理含有四個模塊,即消息解析、配置管理、狀態監控和服務切換。
當系統加載并初始化之后,位于本地網關的后臺管理通過特定的端口進行監聽。當收到網頁、本地服務器或者遠程服務器發送的消息之后,通過消息解析模塊,對消息進行分析和處理;如當收到配置任務組的消息時,后臺將用戶配置的任務組信息寫入數據庫,同時轉發到本地服務器進行任務組配置。
狀態監控有兩項功能:①在用戶設定的輪詢時間內,查詢各任務組的運行狀態,并將查詢結果反映到頁面上,便于用戶掌握系統的運行情況;②檢測分散于各地的本地服務器、本地網關和遠程網關的運行狀態并將其組織起來,成為協同工作的一個整體。本地生產系統和遠程備份系統可能相隔幾千里,在檢測時必須考慮網絡遲延及其他因素,故本系統采用檢查點技術,即主動檢測技術。本系統的檢測發起對象是本地網關,由它來負責感知整個系統的正常運行。當系統加載時,通過特定的端口,本地網關每隔一個輪詢周期,就向檢測對象本地服務器進行一次檢測,如果在限定的時間內,檢測對象返回了存活信息,即表明生產系統正常運行。同時,本地網關也每隔一個輪詢周期,向遠程備份系統發送自身存活信號。同理,在限定的時間內,遠程備份系統收到了本地網關的存活信息后,即認為本地網關正常運行;若遠程備份系統沒有收到存活信號,即認為本地生產系統發生災難。
當狀態監控模塊檢測本地服務器發生了災難,即自動進行服務切換到遠程備份系統。整個過程對用戶透明。
2.3.3核心層
核心層由數據備份和災難恢復兩部分組成,是容災系統的核心功能區。
數據備份以Linux內核模塊方式運行于本地網關上,與網絡存儲技術相結合,通過圖3所示的災備任務磁盤分區之間的映射關系,將本地服務器的數據備份到遠程備份服務器。且所有的實現均動作于本地網關,具有以下優點:①實現了本地服務器的邏輯隔離;②實現了本地服務器的平臺無關性;③減小了對本地服務器的性能及其他方面的影響;④在實現遠程鏡像的同時也實現了數據在本地災備網關上的完全鏡像,增加了數據安全性。
災難恢復采用差異恢復的方式,通過分析災難源、故障點,恢復流程,選擇一種或多種恢復策略。進行災難恢復之前,任務必須滿足圖3所示的映射關系。在確定故障源之后,根據容災計劃中的恢復策略進行快速恢復。
3與同類系統比較
在比較和評價各種異地容災系統時,需要考慮的因素包括:數據的可用性、數據的可靠性、對應用程序處理效率的影響、系統的運行成本等。
基于以上因素,本系統與目前市場主流的容災產品相比,優勢在于:①利用Internet這一廉價的資源,不需要建設專網,對硬件沒有硬性要求,降低了開發和維護成本;②通過數據鏡像的差錯控制機制,保證數據的一致性和可靠性;③不僅在異地實現了數據備份,在災備網關上也同時實現了數據備份,提高了數據的冗余;④有多種恢復策略供用戶選擇,靈活多變;⑤對應用服務器上的應用程序透明,對系統性能影響較小。
4結束語
本文設計并實現了一種基于Internet的異地容災系統,實現了數據備份和災難恢復,保證了災難發生時服務自動切換及系統應用的不間斷;支持多種平臺,對硬件的要求低,具有廣闊的發展前景。
參考文獻:
[1]
李濤.網絡安全概論[M].北京:電子工業出版社,2004.
[2]KING R P,HALIM N,GARCIA-MOINA H,et al.Management of remote backup copy for disaster recovery[J].ACM Trans on Database Systems,1991,16(2):338-368.
[3]CHOY M H,LEONG H V,WONG M H.Disaster recovery techniques for Database System[J].Communication of the ACM,2000,43(11):272-280.
[4]劉迎風,祁明. 容災技術及應用[J].計算機應用研究,2002,19(6):7-10.
[5]WANG Kun,ZHOU Lihua,CAI Zhen,et al.A disaster recovery system model in an e-government system:proc of the 6th International Conference Parallel and Distributed Computing, Applications and Technologies[C].[S.l.]:[s.n.],2005:247-250.
注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”