許辰宏
摘要 在數(shù)據(jù)對企業(yè)越來越重要的時代,怎樣利用容災和備份兩種方式對數(shù)據(jù)進行保護,以實現(xiàn)數(shù)據(jù)的可靠性,完整性和高可用性。
【關鍵詞】容災 備份 數(shù)據(jù)中心
1 容災與備份的比較
1.1 容災
容災通常指在距離相隔較遠的兩地(一個是提供正常業(yè)務運行的數(shù)據(jù)中心,另一個為隨時接管部分或全部服務的災備中心),建立功能相同的信息系統(tǒng),系統(tǒng)之間可進行狀態(tài)監(jiān)控和功能切換。當某個或多個系統(tǒng)因災難而停止運行時,可將其全部功能切換到另一地點,使該系統(tǒng)能夠正常運行。容災系統(tǒng)著重于處理外界環(huán)境對信息系統(tǒng)的影響,特別災難性事件對企業(yè)數(shù)據(jù)中心的影響,它提供節(jié)點級別的系統(tǒng)恢復功能。
1.2 備份
數(shù)據(jù)是現(xiàn)代企業(yè)的核心,備份是為了防止信息系統(tǒng)出現(xiàn)數(shù)據(jù)丟失,而將系統(tǒng)中的全部或部分數(shù)據(jù)從系統(tǒng)主機的硬盤或磁陣中復制到其它的存儲介質(zhì)的過程。傳統(tǒng)的數(shù)據(jù)備份主要是采用設備配置的磁帶機進行備份,這種方式備份速度慢,不適合現(xiàn)代企業(yè)大數(shù)據(jù)吞吐的要求,而且最重要的是這種方式恢復時間很長,一旦對海量數(shù)據(jù)進行恢復,那耗費的時間成本非常巨大。
由上可知,備份與容災所關注的對象是不同的。備份側(cè)重于數(shù)據(jù)的安全,容災關注系統(tǒng)業(yè)務應用的安全。如果將備份稱為“數(shù)據(jù)保護”,那容災則是“業(yè)務應用保護”,備份僅僅是容災的一部分。特別是在當前以信息技術為依托的企業(yè),數(shù)據(jù)量呈幾何級數(shù)增長。一旦災難發(fā)生時,僅有備份方式進行業(yè)務恢復,那將導致極長的業(yè)務中斷時間,給企業(yè)帶來無法估量的損失。
目前支撐業(yè)務運行的各信息系統(tǒng)數(shù)據(jù)量日益增多,已從GB級別發(fā)展到TB級別。因此傳統(tǒng)的備份方式無法滿足對應災難性事件的要求,而采用容災方式可將因災難性事件產(chǎn)生的業(yè)務中斷時間縮短在幾小時,幾分鐘之內(nèi)。甚至可以在用戶無感知的情況下,實現(xiàn)容災節(jié)點間的快速切換。
2 容災等級劃分
數(shù)據(jù)中心的容災的建設,可分為三個不同的層級:數(shù)據(jù)級容災,應用級容災,業(yè)務級容災。
(1)數(shù)據(jù)級容災是最基礎形式,簡單講就是數(shù)據(jù)備份,主要通過備份軟件和存儲設備來實現(xiàn)數(shù)據(jù)在不同地點的備份。備份數(shù)據(jù)一般有多份,最常見的模式是本地存放一份,同城備份中心存放一份,異地災備中心再存放一份,在災難發(fā)生時,可以保證不丟失數(shù)據(jù),但不能保證業(yè)務的連續(xù)性。另外數(shù)據(jù)的恢復也需要一定的時間。
(2)應用級容災以數(shù)據(jù)保護為基礎,其目的是實現(xiàn)整體恢復,一般在同城備份中心有一套和主中心鏡像的應用系統(tǒng)。當主數(shù)據(jù)中心發(fā)生災難時,可以實現(xiàn)迅速切換,讓用戶發(fā)出的服務請求可以繼續(xù)運行。
(3)業(yè)務級容災的目的是實現(xiàn)企業(yè)所有業(yè)務的恢復,即在發(fā)生意外或災難事件,造成關鍵業(yè)務停頓時,通過業(yè)務級容災的相關恢復策略和流程,恢復、簡化、改變關鍵業(yè)務的執(zhí)行流程,使得企業(yè)關鍵業(yè)務能夠在要求的時間內(nèi)迅速恢復運營,使得企業(yè)客戶的業(yè)務要求受到的影響微乎其微。業(yè)務級容災已成為國際上對于災難恢復的研究重點。
3 總體分析與評估
從容災建設的技術層面分析,衡量容災系統(tǒng)的主要指標有兩個,分別是RPO和RTO。
(1) RPO (Recovery Poinr Object)…反映數(shù)據(jù)恢復完整性指標,代表了當災難發(fā)生時允許丟失的數(shù)據(jù)量。數(shù)據(jù)量越大,一般損失也越大。不過關鍵數(shù)據(jù)的損失和非關鍵數(shù)據(jù)的損失是有差別的。
(2) PTO (Recovery Time Object)一反映業(yè)務恢復及時性指標,代表了系統(tǒng)恢復的時間。系統(tǒng)恢復的時間越長,一般損失也越大。對于關鍵系統(tǒng)和非關鍵系統(tǒng),即使是相同的恢復時間,影響也是不同的。
從成本上看,如果系統(tǒng)需要保證更高的業(yè)務連續(xù)性,也就是需要保證災難發(fā)生時,丟失數(shù)據(jù)最少,而且恢復的時間最短。雖然這需要更高的成本,但是,其帶來的好處是災難發(fā)生時,損失也最小。如果沒有容災中心,當災難發(fā)生時,將丟失大量的生產(chǎn)數(shù)據(jù),或者需要很長的時間進行業(yè)務恢復,那么企業(yè)將承受極大的損失。可將容災實施成本與災難發(fā)生后可能帶來的業(yè)務中斷損失組成一個圖,恢復成本越高,那么恢復的時間就應該少,企業(yè)的損失也應該越小;反之,如果恢復成本越低,那么需要恢復的時間就越長,帶來的損失可能就大到不可估計。
在這樣的情況下,可以綜合考量恢復成本和業(yè)務中斷損失兩個因素,選擇一個合理區(qū)間作為標準,使恢復時間和損失都控制在一定范圍內(nèi)。因此必須對中國商飛公司現(xiàn)有信息系統(tǒng)的特點、業(yè)務關鍵性、數(shù)據(jù)量、訪問頻度進行綜合分析。以評估恢復成本與業(yè)務中斷損失的范圍值。
4 容災中心的地點選擇
容災系統(tǒng)建設的一個重要部分就是確定主數(shù)據(jù)中心與災備中心之間的距離和地點。通常來說,在同城的兩個中心的距離不宜太遠,這樣無論是切換的速度,數(shù)據(jù)備份和恢復的速度都會比較快,而在異地建設的災備中心,就要從防止“災難”角度考慮,比如火災,地震,惡意破壞,甚至是戰(zhàn)爭的角度,考慮異地災備中心的選址,從目前己實施的容災系統(tǒng)建設,和業(yè)界提供的產(chǎn)品和技術來看,根據(jù)容災距離的遠近,主要有兩種建設模式。
(1)幾十公里或一百公里以內(nèi),主要是同城范圍的容災距離。也稱為“同城災備”。
(2)幾百上千公里距離,主要是不同城市之間的遠程容災。也稱為“遠程災備”或“異地災備”。
目前很多企業(yè)綜合“同城災備”和“遠程/異地災備”的特點,在災備系統(tǒng)建設上采用“兩地三中心”的模式。
參考文獻
[1]劉煥淋,陳勇,通信網(wǎng)圖論及應用[M].北京:人民郵電出版社,2010.
[2]徐偉強,汪亞明,俞成海等.移動Ad Hoc網(wǎng)絡的跨層優(yōu)化擁塞控制[J].軟件學報,2010.