王浩銘,穆道生
(裝備學院 北京 101416)
容災備份[4]指預判災難產生和降低災難損害程度的準備工作。是利用技術手段、管理方法和軟硬件資源保證系統中的關鍵數據、核心數據處理系統和重要業務在災難發生后可以迅速恢復的過程,達到保障業務連續,將損失降到最低的目的。
保證數據完整性和業務的連續性是容災系統中最核心的部分。一個絕對完整的容災系統如圖1應該由本地生產系統、本地備用生產系統、生產數據中心、本地備份數據中心、異地應用系統和異地數據中心組成。高可用系統由本地生產系統、本地備用生產系統和生產數據中心組成。

圖1 容災備份系統Fig.1 Disaster recovery system
本地容災中心由本地高可靠系統和本地數據中心組成,是解決本地硬件損壞等災難的有效手段,但是對大型自然災害卻無能為力;異地備份系統由異地應用系統異地數據中心組成;使用本地高可靠系統、本地備用數據中心、異地應用系統可以組建異地應用容災系統,而根據預防災難的傷毀范圍可以確定本地生產系統和異地備份系統的距離。
在設計災備系統時,容災要達到什么樣的目標與層次,就需要用某些定量的指標[5]來衡量。公認指標有RTO、RPO、NRO和DOO。
RPO(Recovery Point Objective):數據恢復點目標,指業務系統所能容忍的數據丟失量,針對數據丟失。RTO(Recovery Time Objective):恢復時間目標,指從災難發生到業務系統恢復服務功能所需要的最短時間,針對服務丟失。系統對二者要求越小,服務效果越好,所需投入越高。NRO(Network Recovery Object):網絡恢復目標,指災難發生后網絡切換需要的時間。 DOO(Degrade Operation Object):降級運作目標,指本次恢復完成到下一次故障或災難發生的時間間隔。
容災系統的關鍵技術有數據備份、異地容災技術、數據復制、災難檢測、系統遷移和系統恢復[6],是IT技術與管理學結合的應用。
1)數據備份
周國平:一個靈魂已經覺醒的人,不會再嘲笑和傷害別人,因為你知道,其實別人只是附在另一軀體上的最敏感的你。
數據備份是指為防止系統出現操作失誤或系統故障導致數據丟失,而將主系統的數據復制到備用系統存儲介質的過程,是容災的基石。如表1,按照備份環境分為主機備份、網絡備份和專有存儲網絡備份,他們的容災等級依次增強;按照應用技術分為DAS(直接附加存儲)、NAS(網絡附加存儲)、SAN(存儲區域網絡)和IP存儲網絡;按照備份方式分為基于存儲備份、基于操作系統備份、基于應用軟件備份和磁盤備份。

表1 數據備份方法Tab.1 Method of data backup
2)異地容災
異地容災技術主要包括遠程鏡像復制、快照技術、互聯技術、虛擬存儲技術。遠程鏡像已經成為目前容災備份方法的核心部分,是在多個磁盤系統上產生同一個鏡像視圖的存儲過程,也是實現本地與異地系統數據同步和災難恢復的基礎;快照技術是存儲設備中數據時間節點的指針,通常和鏡像技術結合用于遠程備份;互聯技術指的是基于IP的SAN遠程容災備份,節約成本且可擴展;虛擬存儲技術允許異質系統和應用程序共享存儲設備。
3)數據復制
數據復制是指生產系將數據不斷地復制到備用系統中,強調過程的連續性。一般分為同步數據復制和異步數據復制。同步數據復制是通過將本地生產數據以完全同步的方式復制到異地,由于每一次數據交換都要等待遠程復制結束,故可以做到零數據丟失,缺點是是對系統性能影響較大;異步數據復制是將本地生產數據以后臺同步的方式復制到異地,數據交換無需等待遠程復制結束,缺點是一旦發生災難會造成少量數據丟失,優點是對系統性能影響較小。
4)災難檢測
災難檢測反應系統自身未雨綢繆的主動性而不是災難發生后的“亡羊補牢”,目前主要災難檢測方法有心跳技術和檢查點技術。心跳技術是系統各個重要節點每隔一段時間都要向外廣播自身的狀態,如果周期內節點廣播消失則證明此節點失效。檢查點技術為主動檢測手段,是每隔一段時間會對系統重要節點進行檢測,若周期內被檢測節點沒有響應,則認為檢測節點失效。兩種方法都存在周期問題,如果周期太頻繁,會影響系統性能,占用系統資源;如果間隔時間過長,檢測不靈敏,增加容災難度和任務量。
5)系統遷移
系統遷移技術是保證災難發生時實現系統透明的遷移,利用備用系統透明的代替生產系統,以保證業務連續性。系統遷移技術主要分為基于DNS的遷移、基于IP重定向遷移和基于集群的遷移。基于DNS遷移技術利用動態域名解析系統完成業務遷移,實時性較差;基于IP重定向遷移技術利用重定向設備實現容災自動切換,智能性較高;基于集群遷移技術指集群中任意節點出現故障,這個節點服務器的業務將由另一臺服務器承擔,保證業務連續性,且成本較低。
6)系統恢復
系統恢復指在發生災難事故時,能利用已備份的數據或者其他手段,及時開展恢復本地生產工作,保證數據安全和業務連續性。系統恢復需要按照容災計劃和策略,可以利用本地或者異地的備份數據進行系統恢復,也可以通過本地或者異地備份系統及時接管業務,體現IT技術與管理學的融合。
一般企業級局域網可以實現在區域內資源共享、信息交流和協同工作的功能。具有如下特點:1)網絡分布相對集中,方便統一管理,接入網絡設備架設在中心位置,減小線路成本;2)應用系統復雜,各個部門信息系統互不兼容。通常有業務處理系統,數據信息系統,一卡通信息系統和財務系統等;3)為了避免網絡攻擊、自然災害和系統故障等造成損失,對安全性要求較高。4)受企業規模影響,資金投入能力有限。針對以上特點,通常可以采用如下3種方案:
1)基于磁盤陣列數據同步容災方案
根據局域網各個服務器分布特點,可以構建兩個網絡中心或者多個數據中心,按照互為備份原則進行部署,如結構圖2所示,達到所有數據異地備份的目的。此方案利用磁盤陣列作為中心存儲完成復制工作,結合遠程鏡像技術和快照技術實現數據中心異地互備份,保證數據同步一致性。優點是磁盤陣列可以保障大量數據復制的質量和性能,對于主機應用而言完全透明;缺點是復制數據較大,對鏈路帶寬要求較高,整體投資較高。

圖2 基于磁盤陣列數據同步容災方案Fig.2 Disaster recovery scheme of data synchronization based on disk array
2)基于軟件數據同步方案
如結構圖3,由于不同應用系統兼容性差的原,因需在每個服務器的操作系統安裝兼容性強的鏡像同步軟件,實現遠程數據同步,使數據同時存儲于本地和異地的磁盤設備上。異地磁盤陣列保存鏡像數據,實現異地備份。此方案借助操作系統鏡像軟件的兼容性,使本地邏輯卷與異地邏輯卷數據同步,在災難情況下可以方便備份服務器激活相應邏輯卷,保證業務連續性,且成本較少。

圖3 基于軟件數據同步方案Fig.3 Disaster recovery scheme of data synchronization based on software
3)定期自動備份
如結構圖4,部分數據由于不是業務的核心內容,只需要在系統空閑時定期備份到異地磁盤陣列中就可滿足其容災需求。

圖4 定期自動備份方案Fig.4 Scheme of regular automatic backup
而最優化的方案則是在局域網中根據具體情況和不同部門要求采取不同的容災方案。有些部門信息重要但是并不經常更新,例如人事信息等,可以采用定期自動備份方案;一些科研數據、郵件系統數據更新較快但是沒有達到金融數據要求的速度和安全性,不必實時更新,可以采用軟件數據同步方案;重要業務部門數據更新頻率很快,實時性要求極高,適用于基于磁盤陣列數據同步方案,滿足高可靠高性能需求。另外在網絡建設上,不必完全架設專用備份網絡,采用現有IP網絡分時復用策略,在減少不必要投入的情況下,充分利用資源,達到容災要求。
容災系統是信息系統數據和業務安全的重要保障,在信息結構日益復雜的環境下,確保網絡業務連續性,應該進一步對容災備份技術深入研究,生產出自主研發、成本可控并能結合局域網自身特點的容災產品,保證在自然災害、網絡攻擊等災難發生后,數據不丟失,系統能盡快恢復運行,起到對系統數據和應用的保護作用,做到“有備無患”。
[1]Kurose,James F,Ross K W.Computer networking[C].Pearson Education,2012.
[2]Chivers I D,Sleightholme J.Compiler support for the Fortran 2003 and 2008 standards[C]//ACM SIGPLAN Fortran Forum.2009,28(2):15.
[3]Atkin C P.Computer system with transparent data migration between storage volumes:U.S.Patent 6,145,066[P].2000-11-7.
[4]Schmidt K.High availability and disaster recovery:concepts,design,implementation[M].Springer Publishing Company,Incorporated,2010.
[5]Keeton K,Santos C A,Beyer D,et al.Designing for Disasters[C]//FAST,2004:59-62.
[6]Yang Y X,Yao W B,Chen Z.Review of disaster backup and recovery technology of information system [J].Journal of Beijing University of Posts and Telecommunications,2010,33(2):1-6.