周兵(安徽省經濟信息中心,安徽合肥 230001)
淺談災備系統建設
周兵(安徽省經濟信息中心,安徽合肥 230001)
災備中心是專門為災備發生時恢復系統功能而設計建造的高等級數據中心,提供機房和相應的辦公生活條件、數據處理設備、網絡資源、日常運行管理等。一旦災備發生,災備中心將接替網絡和數據中心運行,利用其各種資源恢復信息系統運行和業務運作。本文通過對災備技術分析,介紹災備中心按照不同數據保護服務級別的靈活設計。
災備 系統 建設
隨著全球信息化程度的提高,政府機構、金融、能源、交通、電信、軍隊等重要部門、行業對計算機網絡基礎設施依賴程度逐步增大,數據安全保障的重要性與緊迫性日益凸顯,數據安全保障能力已經成為21世紀國家綜合國力、經濟競爭能力和生存發展能力的重要組成部分,成為事關國家政治穩定、社會穩定的全局性問題,是國家戰略發展所必須關注的核心問題之一。災備恢復是指利用技術、管理手段以及相關資源確保既定的關鍵數據、關鍵信息系統和關鍵業務在災備發生后,在確定的時間內可以恢復和繼續運營的過程。
災備中心是專門為災備發生時恢復系統功能而設計建造的高等級數據中心,提供機房和相應的辦公生活條件、數據處理設備、網絡資源、日常運行管理等。一旦災備發生,災備中心將接替網絡和數據中心運行,利用其各種資源恢復信息系統運行和業務運作。災備恢復是保證信息系統業務持續運作的最后一環。主要包括:災備備份等級標準、災備備份實施方法、災備備份方案和災備恢復計劃的制定、災備恢復機制的建立、災備中心的信息安全保障和運營管理等。
數據災備是針對計算機系統的非正常停機事件所采取的減少災難發生的概率,以及減少災難發生時或造成的損失而采取的各種防范措施。主要包括數據備份和恢復二大部份。
按照國家標準《信息系統災備恢復規范》(GB/T20988-2007),數據中心的災備恢復水平可以劃分為六個等級,如表1所示。
目前,大多數單位數據中心只達到2~3級備份,即在每天數據處理完成后,將數據磁帶傳輸到異地保存,同時建立冷備份方式的數據中心。但是,對于國家機關、金融部門等重要企業,數據中心的備份級別要求必須達到四級以上。一些特別重要的應用需要在災備發生時,保持業務的連續性運作,要求達到六級的標準,即建立無數據丟失、災備發生時能夠自動切換的數據中心。
備份技術是災難恢復的基礎。備份不僅是數據的保護,其最終目的是為了在系統遇到人為或自然災難時,能夠通過備份內容對系統進行有效的災難恢復。備份不是單純的拷貝,管理也是備份重要的組成部分。備份的方法主要有:文件備份、服務器主動式備份、系統復制、跨平臺備份、SQL數據庫備份、分級式存儲管理、本地數據備份、遠程備份。此外也分熱備份和冷備份。備份方法在模式角度上可劃分為如下兩種:
(1)邏輯備份:每個文件都是由不同的邏輯塊組成。每一個邏輯的文件塊存儲在連續的物理磁盤塊上,但組成一個文件的不同邏輯塊極有可能存儲在分散的磁盤塊上。備份軟件通常既可以進行文件操作,又可以對磁盤塊進行操作。基于文件的備份系統能夠識別文件結構,并拷貝所有的文件和目錄到備份資源上。這樣的系統跨越了存儲在每個inode上的指針,可順序的讀取每個文件的物理塊,然后備份軟件連續的將文件寫入到備份媒介上。這樣的備份使得每個單獨文件的恢復變得很快,但連續的存儲文件會使得備份速度減慢,因為在對非連續存儲磁盤上的文件進行備份時需要額外的查找操作。這些額外的操作增加了磁盤的開銷,降低了磁盤的吞吐率。另外,對于文件一個很小的改變,基于文件的邏輯備份也需將整個文件備份。
(2)物理備份:系統在拷貝磁盤塊到備份媒介上時忽略文件結構,這會提高備份的性能,因為備份軟件在執行過程中,花費在搜索操作上的開銷很少。但這種方法使得文件的恢復變得復雜且緩慢,因為文件并不是連續的存儲在備份媒介上。為了允許文件恢復,基于設備的備份必須要收集文件和目錄是如何在磁盤上組織的信息,才能使備份媒介上的物理塊與特定的文件相關聯。因而,基于設備的備份適合于指定一個特定的文件系統來實現,并且不易移植。而基于文件的方案則更易移植,因為備份文件包含的是連續文件。另外,基于設備的備份方案可能會導致數據的不一致。信息系統應用的不斷深入要求計算機系統提供不間斷的系統服務,一旦業務系統出現問題,不僅將嚴重影響本單位和部門的業務工作,同時也將影響其它相關業務的正常開展,會帶來連鎖反應。為保證業務系統的連續可用性,所需的災備備份級別日益提高,并對災備技術有更高的可靠性要求。除了以最合理的代價保護業務系統數據的完整性與安全性,還要在災備發生后盡快恢復運行,減少或盡可能消除業務停頓時間。為此,一般情況都要采用實時的熱備份技術。雖然實時熱備份技術具有一次性投資昂貴、通訊費用高等缺點,但能對數據完整性與業務連續性提供最強有力的支持和保證,將成為今后最重要的備份技術。
表1
備份策略是一系列的規則,包括什么數據需要備份,應當何時備份數據以及將數據備份到何處等。有效的備份策略應當可以區分很少變化的數據和經常變化的數據,并且對后者的備份要比前者的備份更加頻繁。目前被采用的最多的備份策略主要有以下三種:
(1)全備份(FullBackup):所謂全備份就是用一盤磁帶對整個系統進行完全備份,包括系統和數據。這種備份方式的好處就是很直觀,容易被人理解。而且當發生數據丟失的災難時,只要用一盤磁帶〔即災難發生之前一天的備份磁帶),就可以恢復丟失的數據。然而它也有不足之處;首先由于每天都對系統進行完全備份,因此在備份數據中有大量是重復的,例如操作系統與應用程序。這些重復的數據占用了大最的磁帶空間,這對用戶來說就意味著增加成本;其次。由于需要備份的數據量相當大,因此備份所需時間較長。對于那些業務策忙,備份窗口時間有限的單位來說,選擇這種備份策略無疑是不明智的。
(2)增量備份(IncrementalBackup):增量備份相對全備份而言,只備份上一次備份后增加的和修改過的數據。該備份的優點是沒有重復的備份數據,節省磁帶空間,縮短備份時間。缺點在于當發生災難時,恢復數據比較麻煩。
(3)差分備份(DifferentialBackup):差分備份就是每次備份的數據是相對于上一次全備份之后新增加的和修改過的數據。管理員先在周一進行一次系統完全備份,然后在接下來的幾天里,再將當天所有與星期一不同的數據備份到磁帶上。差分備份無需每天都做系統完全備份,備份所需時間短,節省磁帶空間,災難恢復也很方便。系統管理員只需兩盤磁帶,即系統全備份的磁帶與發生災難前一天的備份磁帶,就可以將系統完全恢復。
全備份所需時間最長,但恢復時間最短,操作最方便,當系統中數據量不大時,采用全備份最可靠。而增量備份和差分備份可以節省磁盤和備份時間,但可靠性低,操作復雜。在實際應用鐘,備份策略通常是以上三種的結合。
一般地,災難恢復能力采用三個主要的容災指標RTO、RPO、NRO作為評判依據。
(1)恢復時間目標RTO(Recovery Time Object)。該指標是容災恢復的時間指標,從廣義上來說是從災難發生造成業務中斷,直到通過各種方法恢復業務所需要的時間。通常越短的RTO意味著越高的容災能力。另一個狹義的RTO指標是指從決定進行容災切換到業務可以繼續運行所經過的時間。一般用狹義的RTO指標評價IT層面的容災能力。
(2)恢復點目標。RPO(Recovery Point Object)宕機導致的停機不是故障影響的全部,宕機帶來的另一種影響對企業的損害可能更大,那就是永久性數據丟失:宕機以前的數據沒有保存到在線數據庫或文件中。宕機之后數據開始恢復的時間點稱之為恢復點,恢復點指標RPO,就是當業務恢復后,可以達到與災難發生前那個時間點相同的工作狀態。通常RPO對應著災難造成的數據丟失程度,如果RPO為0,就相當于沒有丟失任何數據。但這種理想狀態往往是無法達到的,這就涉及到業務回滾。業務恢復與回滾的不同之處在于災難恢復能力評價指標。
本地存儲設備與災備中心之間通過網絡建立遠程復制連接。兩地數據間初始化同步的實現方式有兩種,第一種是在本地使用另一臺存儲設備,完成所有需要備份主機的數據初始化同步后,再將存儲設備搬到災備中心與本地建立起復制連接。第二種方法則通過網絡直接進行數據同步,不需要進行磁盤陣列異地運輸,本期工程擬用裸光纖進行連接,因此可以直接利用網絡進行同步。復制策略可分為變化量觸發和周期觸發。在災備發生時,本地和災備中心之間上一次數據復制后的新增業務數據將丟失,無法恢復。因此策略選擇的適中能使用戶本地和災備中心的數據盡可能保持一致。