徐亦達 余宏亮

中圖分類號:TN915.1文獻標志碼:A 文章編號:1009-6868 (2012) 04-0034-04
摘要: 文章提出建設好容災中心所面臨的關鍵挑戰就是如何讓容災代價和容災效率達到統一,而這需要利用災備資源共享的基本思路。文章指出容災未來的發展趨勢就是徹底打破原有數據保護模式,發展面向災備資源共享的容災云技術體系。
關鍵詞:容災;結構無關;容災云
Abstract: In this paper, we suggest that the key challenge in building a disaster recovery (DR) center is balancing cost with efficiency and resource sharing. A future trend of DR is to use structure irrelevance DR technology to form a hierarchy of DR cloud technologies.
Key words: disaster recovery; structure irrelevance; disaster recovery cloud
隨著各行各業信息化建設步伐的加快,人們也越來越依賴各式各樣的信息系統提供的數據和服務。這些數據和相應的服務非常重要,但因為它們本質上依賴的是架設在物理計算機上層層的邏輯環境,所以也相當脆弱,不但要面臨物理層面上的各種威脅,比如火災、地震、電力故障等,還要抵御來自邏輯層面的各種侵害,比如人為操作失誤、軟件出錯、黑客攻擊等等[1-3]。一旦因此而發生數據丟失或長時間服務中斷,則會給信息系統的使用者帶來巨大的損失[2-3]。據互聯網數據中心(IDC)的統計數字表明,1990—2000年,在發生過此類災難的美國公司中,有55%當即倒閉;因數據無法恢復,剩下29%公司也在兩年之內倒閉;最終生存下來的公司僅占16%。因此,容災已經成為當今信息化社會不可缺少的基礎安全措施。
另一方面,容災市場的需求也在急劇擴張之中。由于容災備份和恢復的最主要對象是存儲的數據,全球數據存儲量從2008年的366萬兆億字節逐年增長到2011年的855萬兆億字節。如保持這樣的增長速度,數據量則每5年就會擴大10倍,這對數據的容災提出了更高的要求。從市場情況來看,全球容災市場早在2008年就已經達到39億美元的規模,而根據互聯網數據中心(IDC)的相關市場預測。
中國政府近年來十分重視信息系統的容災問題。中共中央和國務院有關部門分別在2003年8月、2004年9月、2005年4月連續下發了《國家信息化領導小組關于加強信息安全保障工作的意見》、《關于做好重要信息系統災難備份工作的通知》、《重要信息系統災難恢復指南》,體現了政府對容災問題的重視和要求;2007年7月國家又正式出臺災備行業國家標準《信息系統災難恢復規范》(GB/T20988-2007),規定了信息系統災難恢復應遵循的基本要求[4]。
信息系統的容災對于各行各業的重要性、容災市場需求的擴大以及政府高度重視和強有力的支持,都已充分表明:信息系統容災的發展現狀、面臨的挑戰以及發展趨勢已成為十分重要的問題。
1 容災的發展現狀
1.1 容災的基本概念
信息系統的容災(DR)是在某種自然或人為災難所導致的信息系統損壞后,為了重新獲得對數據、通信、作業空間以及其他業務流程的正常訪問,以便重啟和恢復關鍵業務的正常運行,需要完成的一系列步驟、過程和策略。
根據不同的應用需求,人們已經開發出各式各樣的容災機制。針對這些不同的方法,我們一般用恢復點目標(RPO)和恢復時間目標(RTO)這兩個基本指標來衡量容災機制的特性。RPO關注的是如何增加生產系統的備份點密度,RTO則關注縮減生產系統的災后恢復時間。偏重RPO的系統,生產系統備份間隔更短,可恢復的狀態更多,可能丟失的數據更新更少;偏重RTO的系統,生產系統災后重建的速度更快,更有利于保持業務連續性。
根據不同的用途特點,容災系統中使用不同的設備和系統:磁盤陣列是多個磁盤組成的存儲設備,隨機讀寫性能較好,但單位存儲成本較高,適合做主存儲設備;磁帶庫由大量磁帶構成,單位存儲成本低,適合做次級存儲設備;高可用性集群是一組配置相似的服務器,它們的狀態緊密同步,如果集群中的某些服務器出現故障時,整個集群就可以及時調整應對,對外服務則不會中斷;遠程備份站點通常在地理位置上遠離生產系統,與生產系統通過網絡連接,可抵御地域性災難。
1.2 容災的多種表現形式
容災的整個過程分為災前備份和災后恢復兩部分,并且這兩部分都有著多樣的表現形式。
災前為應對不同的故障,不同的應用環境,有不同的容災備份方式。冗余磁盤陣列(RAID)用于應對磁盤陣列中少數磁盤或數據塊失效的故障;磁帶庫單位成本低,適合順序讀寫數據,因此特別適合備份連續存放的大量數據;高可用性集群成本高,可用性也高,適合在對服務連續性要求很高的環境下應對服務器失效的故障;遠程備份站點的備份介質可以是磁盤陣列,也可以是磁帶庫,它們都適合防止地域性災難對信息系統的破壞。
災后對故障的基本處理策略主要有故障轉移與故障恢復兩種類型。故障轉移可以提前準備冗余的計算資源,當災難來臨之時將系統切換到冗余計算環境中去。其優點是:在RTO方面可以很快地恢復服務;其缺點是:在RPO方面它并不具備選擇可恢復狀態的能力,另外系統成本也較高。故障恢復則是提前生成和存放多個備份點,災難來臨之后按情況恢復到任一備份點狀態。其優點是:在RPO方面可靈活選擇多個備份點;其缺點是:在RTO方面通常沒有很多優勢。
在通常情況下,故障恢復方式需要串行執行從備份中心恢復數據、尋找和重建一致性數據卷、配置和重啟應用服務等3個步驟。其中前兩個步驟是十分耗時的,但前兩步不完成第三步則無法實現。
根據不同的災前備份模式和災難的種類,針對災后故障恢復,生產系統也可以有多種方式恢復。如果生產系統的本地備份并未受到影響,則可從本地備份介質備份,比如磁帶庫或備份磁盤陣列;否則可考慮從遠程備份站點恢復,恢復源同樣也可以是遠程站點中的磁帶庫或備份磁盤陣列。
1.3 主流容災關鍵技術與容災方案
主流容災關鍵技術包括:遠程鏡像技術、連續數據保護技術。
(1) 遠程鏡像技術是在異地(遠程備份站點)保存一份與本地相同的數據拷貝,以保證生產系統在遭受地域相關災難后的可用性。遠程鏡像的實現位置可位于文件系統、磁盤卷管理器、磁盤驅動、主機適配卡、磁盤控制器等任意一層,但它通常位于卷管理器和磁盤控制器。由于網絡延遲,數據的同步和生產系統寫性能是遠程鏡像技術需要仔細進行權衡的。因此該技術分為同步鏡像和異步鏡像兩類,前者偏重數據的同步,后者則犧牲部分一致性和實時性換取生產系統寫性能的提升,以及對網絡帶寬要求的降低。遠程鏡像技術偏重RTO指標,因為數據鏡像使得數據恢復幾乎不需要時間,因此災后系統服務的恢復速度極快。
磁盤控制器極的同步鏡像的解決方案主要有:IBM公司的點對點遠程復制技術(PPRC)、EMC公司的對稱遠程數據設備(SRDF)同步模式以及Hitachi Data System公司的Remote Copy。磁盤控制器極的異步鏡像的解決方案主要有:IBM公司的PPRC擴展模式(PPRC XD)、擴展遠程復制(XRC),EMC公司的SRDF異步模式以及Hitachi Data System公司的NanoCopy,Veritas公司的Volume Replicator(基于磁盤存儲卷實現的遠程鏡像解決方案),NetApp公司的SnapMirror(主機文件系統級的遠程鏡像解決方案)。
(2) 連續數據保護技術的原理是記錄生產系統磁盤的每一次數據更新,從而能夠在災后恢復到磁盤的任一狀態。理論上,應用該技術不會丟掉任何數據,因為備份的間隔區間被縮小到最小,RPO指標達到最優。然而使用它仍然需要注意的是:靠它恢復出來的磁盤狀態并不一定是和數據一致的。事實上,恢復時尋找一致性狀態是應用連續數據保護技術的一大關鍵技術問題。如果這一流程不加優化,則可能會造成恢復時間較長,這會能極大地影響容災系統的RTO指標。
典型應用連續數據保護技術的容災方案有美國飛康公司的CDP產品、Revivio公司的時間尋址存儲系統(TAS)、XOsoft公司的XOsoft Engine等等。這些產品均需要在備份的時候對磁盤一致性狀態進行截獲,以便災后恢復時方便地找到可恢復的一致性狀態。
2 容災中心建設面臨的挑戰
目前,容災系統的建設正在如火如荼地進行。容災的需求非常廣泛,因此集中構建容災中心可以提升資源利用率,方便各方面管理,并可以提供更為專業的容災服務,從而實現效率的最大化。但是在容災中心建設方面我們仍然面臨著很大的一些挑戰。
(1) 信息系統數量越來越多。信息系統數量的急劇增長,不僅導致容災系統存儲容量、計算能力、傳輸帶寬等資源要求的直接提升,更是體現出容災系統對不同類型生產系統的較強適應性。信息系統的應用模式千差萬別,有以數據庫應用為主的,高性能計算為主的,或以文件存取為主的等。
另外,同樣應用模式的信息系統也會有不同的容災需求,如同為數據庫應用型信息系統,采用不同廠商的數據庫可能會導致容災方案的不兼容。除此以外,信息系統的規模、計算資源使用頻率和方式也存在不同。這些因素都會對容災方案的選擇產生影響。究其原因,還在于現有的容災技術大多是根據某類特定應用而設計,很難保證應用獨立性。針對不同信息系統所采用的容災技術也很難統一,這樣就難以在容災方案方面進行共享。
(2) 數據規模越來越大。數據規模增大后,首先對數據容量要求有所提升。另外,由于應用間在容災方面的不兼容,資源無法共享,針對各種信息系統建設多個容災系統則導致整體成本過高。
(3) 恢復效率要求越來越高。隨著互聯網等新興業務模式的涌現,業務連續性要求也越來越高,用戶希望盡快完成災難恢復。而在以通用化為建設目標之一的容災中心里,要對不同的生產系統、不同的應用環境提升災后的恢復速度并不是一件容易的事。
容災效率和容災代價是需要仔細權衡的因素。對不同的系統,根據其特點采用特殊的容災方案,會使容災效率達到最優,但對大量不同的信息系統而言,總體成本過高,容災代價非常巨大。因此,我們應當尋找能夠盡量共享容災設施的容災技術和解決方案。以資源共享的思路解決容災體系建設開銷大,容災設施共享難的問題,并降低容災建設代價,同時要在這一過程中保證容災效率,達到容災效率與容災代價的統一。這便是容災中心建設方面面臨的最核心的挑戰。
3 容災的未來
3.1 當前容災技術的問題
當前容災技術存在一些問題:
(1) 容災設施共享困難。容災方案的實施和硬件、軟件、應用有關,并且一對一的容災方案,可兼容的范圍都很窄。因此只有做到共享設施才能降低容災成本,這需要不依賴于具體設備和應用的新型容災技術。
(2) 容災恢復時間長。對于海量數據而言,通過增量備份可以提高數據備份的效率,但容災恢復時間過長,可能會出現系統性災難后服務難以恢復。
例如,一般的磁帶備份如高速的磁帶系統恢復速度約50 GB/h,恢復100T數據需要約2 000個小時;而磁盤備份如高端虛擬陣列,恢復速度可達500 MB/s,恢復100T數據需要56小時。針對該問題,可以依靠冗余數據刪除技術對數據壓縮,減小數據量。但是這樣會帶來大量的數據處理開銷,并且最終效果也依賴于數據本身的具體特征。
3.2 容災技術的未來發展
從前文可知容災技術未來要想得到更普遍的應用,必須解決其中災備資源共享的問題,只有災備資源共享,才可以做到對大量信息系統提供高效率、易管理、界面友好的容災服務。而只有提升兼容性,盡可能降低容災系統的應用獨立性,才能真正實現災備資源共享。在這樣的基礎之上,面向災備資源共享的容災云技術則成為了未來容災中心建設的核心技術。
為實現構造容災云的目標,容災系統需要做到與結構無關,而傳統容災方法卻無法做到這一點。這一問題的根源在于應用一致性問題無法解決,因為應用的種類過于豐富,難以在應用層尋找到通用的辦法。一個可能的解決辦法是:完整備份整個系統,而非僅備份受保護服務程序相關的數據。
原有容災方法在架構上無法實現統一的根源在于:備份進程與受保護的進程是兄弟關系,它們同屬于同一個操作系統之下,這樣則無法提供一個通用的備份手段。一個可能的解決辦法是:使備份進程與受保護進程成為父子關系,以便有能力完整備份整個系統。
原有方法首先恢復所有數據,再恢復服務運行。也就是說服務的運行與數據的恢復是串行的。然而大量數據的恢復需要耗費大量時間,而且很多數據其實并不一定立即就在應用服務中用得到。一個可能的解決辦法是:整個生產系統數據恢復與服務的運行并行進行,并且能做到某一個服務線程在進行細粒度的數據恢復的時候,不會影響其他線程的運行,這樣以來便可以大大地提高恢復效率。
目前基于類似思路的系統包括VEEAM的容災系統以及中國的Birds容災備份恢復系統等。
如圖1所示,Birds容災備份恢復系統將Birds容災監聽程序植入操作系統層之內,形成新的Birds備份操作系統。在此之上,使用虛擬機技術可將各式各樣不同類型的生產系統包裹進虛擬機,在Birds備份操作系統之上運行。除此之外,與其同時運行的還有Birds備份以及恢復代理程序。
Birds采用全系統狀態備份,不僅備份生產系統的內存狀態,還可以備份其磁盤狀態,形成一致性備份點。恢復的時候也能直接通過一致性備份點直接恢復生產系統的運行狀態。
Birds在架構上將備份程序獨立于生產系統之外,成為生產系統應用程序進程的父進程,從而能全面完整地備份整個操作系統。
Birds在災后恢復生產系統的時候,將恢復生產系統的運行和恢復生產系統磁盤的數據同時進行,以流水線方式將本來巨量的磁盤數據按生產系統運行的需要將數據優先恢復,從而快速恢復生產系統的服務,大大縮短了因災難產生的應用服務中斷時間。
以Birds為代表的容災云技術使用了虛擬化技術和位于塊設備層的磁盤備份恢復技術,大大提升對不同類型生產系統的兼容性。另外,在這一技術中,不僅僅是受保護系統的數據得到了完全的保護,其進程空間與塊設備數據空間一起也得到備份,數據一致性得到保障;并且,在恢復的時候以流水線方式完成了恢復的過程,大大提高了災后應用服務恢復的速度。
4 結束語
文章從容災領域的發展現狀談起,描述了當今容災方面的基本概念、表現形式、關鍵技術和解決方案。通過了解現狀,我們總結出容災中心建設面臨的3點挑戰:信息系統增多、數據規模增大、恢復效率要求提升,并揭示其核心是利用資源共享的基本思路尋求容災效率與容災代價的統一。針對這些問題,我們提出容災的未來發展趨勢之一即廣泛應用與結構無關的容災核心技術,并最終形成面向災備資源共享的容災云技術。
5 參考文獻
[1] WEBBER L, WALLACE M. The disaster recoveryh handbook: A Step-by-Sep Plan to Ensure Business Continuity and Protect Vital Operations, Facilities, and Assets[M].New York,NY,USA: AMACOM Books, 2010.
[2] LANDRY B J L, KOGER M S.Dispelling 10 Common Disaster Recovery Myths: Lessons Learned from Hurricane Katrina and Other Disasters[J].ACM Journal on Educational Resources in Computing (JERIC), 2006,6(4).
[3] PATTERSON D A, BROWN A, PBROADWELL P, et al. Recovery-Oriented Computing (ROC): Motivation, definition, techniques, and case studies[R]. UUCB//CSD-02-1175. Berkeley, CA,USA: University of California,Berkeley, 2002.
[4] 向小佳. 數據保護若干關鍵技術的研究[D].北京: 清華大學,2009.
收稿日期:2012-06-18
作者簡介
徐亦達,清華大學計算機系碩士研究生,主要從事存儲及容災技術方面的研究。
余宏亮,清華大學計算機系副教授、清華大學計算機專業博士,主要從事存儲系統、容災系統研究;在國內外期刊及會議發表文章30余篇。