[摘 要]介紹了CDP技術的含義、特點、原理、控制機制和實現模式,并以本院圖書館為例,簡要說明如何利用CDP技術在數字圖書館數據容災中的應用。
[關鍵詞]CDP技術;數據容災;存儲技術;數字圖書館
[中圖分類號]G250 [文獻標識碼]B [文章編號]1008-0821(2010)04-0070-03
Analysis of the CDP Technology Applications in Digital LibraryFu Wenhui Li Bing
(Library,Jiujiang University,Jiujiang 332005,China)
[Abstract]The thesis described the meaning,features,principles,control mechanisms and implementation modes of the CDP technology,and used the library of Jiujiang university as an example,to briefly describe how to apply it in the data disaster recovery of the digital library.
[Keywords]CDP technology;data disaster recovery;storage technology;digital library
1 問題的提出隨著數字圖書館建設快速的發展,數據保護變得越來越重要。一些圖書館每天在凌晨時進行一次增量備份,每周末凌晨進行全備份,這種方法存在的問題是,一旦出現了數據災難,圖書館館可以恢復到某天的數據,在最壞的情況下可能丟失整整一天的數據;有的圖書館采用每半天進行一次增量備份,但是在數據量備份很大的情況下,備份時間窗口很大,需要業務系統停機很長時間才能做到;有的圖書館為了確保數據的更高安全性,采用在線系統實行在線實時復制,盡可能多地采用磁盤管理技術維持數據的高可用性,但這樣勢必增加很大一部分投資。在一些關鍵應用中,幾個小時的停機,或幾個小時的數據丟失將造成巨大的損失。如何有效地保護數據,提供24小時不間斷的服務成為圖書館界一個重要問題。傳統的數據保護技術逐漸難以保證靈活的目標恢復點及較快的目標恢復時間。為了滿足圖書館對數據進行連續保護,以便在災難發生后能以最快的速度恢復到距故障點最近時刻的需求,CDP技術應運而生。
2 CDP技術概述
2.1 CDP技術了解CDP是Continuous Data Protection縮寫,即持續數據保護。根據SNIA數據保護論壇(DMF)對CDP的定義是:“CDP是一套方法,它可以捕獲或跟蹤數據的變化,并將其在生產數據之外獨立存放,以確保數據可以恢復到過去的任意時間點。持續數據保護系統可以基于塊、文件或應用實現,可以為恢復對象提供足夠細的恢復粒度,實現幾乎無限多的恢復時間點。CDP技術是對傳統數據保護技術的一個重大突破,傳統的數據保護解決方案專注在對數據的周期性備份上,因此一直伴隨有備份窗口、數據一致性以及對工作系統的影響等問題。而CDP是在不影響主要數據運行的前提下,可以實現持續捕捉或跟蹤目標數據所發生的任何改變,并且能夠恢復到此前任意時間點的方法。CDP系統能夠提供塊級、文件級和應用級的備份,以及恢復目標的無限的任意可變的恢復點。從CDP持續數據保護的實現和目標來看,CDP技術已經將傳統的數據備份的認知產生了質的飛躍。
2.2 CDP技術特點CDP技術與傳統的災難恢復技術相比,具有如下明顯的特點(如表1):表1 CDP與傳統數據保護技術在實施數據保護間隔比較
項 目保護間隔備份技術24小時快照技術1~3小時復制技術僅獲得最后一個數據狀態CDP技術無保護間隔
2.2.1 提高數據恢復時間周期由表1可以看出,備份技術實現的數據保護間隔一般為24小時,因此用戶會面臨數據丟失多達24小時的風險;采用快照技術,可以將數據的丟失風險降低到幾個小時之內,而CDP能夠實現的數據丟失量可以降低到幾秒。實際上,在傳統數據保護技術中采用的是對“單時間點(SPIT,Single Point-In-Time)”的數據拷貝進行管理的模式,而CDP可以實現對“任意時間點(APIT,Any Point-In-Time)”的數據訪問。
2.2.2 數據備份安全可靠由表1還可以看出,雖然復制技術可以通過與工作數據的同步獲得數據的最新狀態,但其無法規避由人為的邏輯錯誤或病毒攻擊所造成的數據丟失。當數據由于以上原因導致數據遭到破壞時,例如數據被誤刪除,復制技術會將遭到破壞的數據狀態同步到后備數據存儲系統,使后備數據也受到破壞。CDP系統可以使數據狀態恢復到數據遭到破壞之前的任意一個時間點,也就可以消除前者具有的風險。
期淺析CDP技術在數字圖書館中的應用Apr.,2010Vol.30 No.43 CDP控制機制CDP的關鍵技術是對數據變化的記錄和保存,以便實現任意時間點的快速恢復。其工作原理有以下3種模式:
3.1 基準參考數據模式其實現有3個關鍵步驟(1)建立供恢復時參考用的數據拷貝;(2)供參考的數據拷貝基礎上開始順序向前記錄數據差異事件日志;(3)恢復時,在供參考用的數據拷貝基礎上,依據數據差異事件日志進行數據恢復。其原理簡單,實現起來比較容易,但由于數據恢復時,需要從最原始的參考數據開始逐步進行數據恢復,因而恢復時間比較長。
3.2 復制參考數據模式其實現也有3個關鍵步驟(1)供恢復參考數據拷貝實時與工作數據同步;(2)同步的同時,在當前數據基礎上記錄數據的回退事件;(3)恢復時,在當前數據基礎上,依據數據回退差異記錄日志將數據回退到過去任意時間點。它和基準參考數據模式在實現原理上恰好相反。復制參考數據模式在數據恢復時,恢復的時間點越靠近當前,所需要的恢復時間越短。但在數據的保存過程中,需要數據和日志記錄的同步進行,需要較多的系統資源。
3.3 合成參考數據模式其實現有4個關鍵步驟(1)建立初始參考數據拷貝;(2)在供恢復參考數據拷貝基礎上開始向前記錄數據差異事件日志;(3)定期將初始參考數據向后移動;(4)如必要可重新解析合成參考數據時間點之前記錄。合成參考數據模式是前兩種模式的折衷,較好地實現了前兩種模式的妥協,因此可得到較好的資源占用和恢復時間效果。但需復雜軟件管理和數據處理功能,實現起來比較復雜。
4 CDP技術實現模式根據保護對象的層次,CDP技術可分為基于應用、基于文件、基于數據塊三類。
4.1 基于應用的CDP對需要保護的關鍵應用程序,可以在其中直接嵌入和運行CDP功能。這種實現CDP的方式首先能夠和應用進行深度整合,確保應用數據在持續保護中的一致性。CDP功能可以由軟件廠商將其直接嵌入在軟件產品中,也可以是軟件廠商提供API接口,由第三方軟件開發商來開發完成。基于應用的CDP最大好處是與應用程序結合緊密,管理也比較靈活,易于用戶部署和實施。目前基于應用程序的CDP解決方案大部分是針對成熟的應用開發的,如支持微軟公司的Office、Exchange、IBM的DB2,以及Oracle數據庫等。
4.2 基于文件CDP其功能作用在文件系統上。它可以捕捉文件系統數據或者元數據的變化事件(例如創建、修改、刪除等),并及時將文件的變動進行記錄,以便將來實現任意時間點的文件恢復,如IBM公司的VitalFile、Storactive公司的LiveBackup for Desktop/Laptops、TimeSpring公司的TimeData等產品。
4.3 基于數據塊的CDP基于塊的CDP功能直接運行在物理的存儲設備或邏輯的卷管理器上,甚至也可以運行在數據傳輸層上。當數據塊寫入生產數據的存儲設備時,CDP系統可以捕獲數據的拷貝并將其存放在另外一個存儲設備中。基于數據塊的數據保護又有基于主機層、基于傳輸層和基于存儲層三類實現方式。
5 CDP在圖書館網絡中運用九江學院圖書館是4校合并整合成立的,現形成以主校區圖書館為主和2個分校區圖書館為輔的藏書體系,另外主校區建設中的逸夫樓圖書館也將投入使用。各圖書館局域網絡之間通過專線進行對接,中低端服務器設備7臺,存儲設備2臺,利用匯文集成管理系統進行統一圖書集中業務管理。
5.1 設計要求根據圖書館網絡系統的現有模式,對圖書館數據保護利用CDP技術進行初步方案設計,目的在于防止因系統崩潰及其它因素引起的系統宕機所帶來的關鍵業務數據的丟失;數據備份要求系統不停機,能在數據庫服務器進行雙機自動切換的同時響應在線備份的要求,保護關鍵業務數據;另外,可對圖書館之間實時異地復制和業務系統(包括數據庫和應用軟件)的實時遠程切換,實現了以主校圖書館服務器雙機熱備份為主,其它校區圖書館(可選任意一個)備份為輔的災難恢復的構建方案。
5.2 解決方案在圖書館中心機房設置2臺IP Stor管理器,提供本地各子系統統一存儲及其它服務,同時利用CDP復制技術實現圖書館之間運程異制服務。在另圖書館也建立一臺IP Stor管理器,通過校園網以IP方式連接,通過利用IP Stor的容災技術移到容災中心,中心機房業務系統備而不用的容災中心成為第二中心機房,兩個機房數據互容。通過CDP技術與快照代理技術相結合,自動與系統數據庫溝通,以確保快照時間點數據的完整性,將備份應用服務器的數據全部備份到IBM-FAStT700磁盤,以保存更長時間的歷史數據供日后的查閱。利用CDP提供的恢復系統為前提可保證完整保護系統運行及數據,通過服務器端的磁盤保護工具DiskSafe,即時的監控服務器上所有系統和數據磁盤,記錄所有磁盤的變化,根據管理員設定的策略,將變化的磁盤區塊持續同步或定時復制到后端的數據保護器,24小時完整保護服務器的系統和數據。
5.3 效果評價通過CDP解決方案可以在服務器端快速轉換為快照磁盤,并瀏覽所有快照,利用內置數據保護器所提供的IP及FC SAN連接,在1分鐘內就檢查快照磁盤里的文件內容,并直接加載數據庫系統進行數據比對和還原驗證,完全不需要耗費長時間的數據恢復,或占用服務器本身的磁盤空間,影響系統運行,同時快照磁盤也能應用于快速準備測試數據環境,提供關鍵應用服務,在最短的時間內恢復正常運行的能力。因此當中心圖書館由于不可抗力造成系統完全癱瘓時,為保證業務的連續性,管理員可設定由最近或特定的快照時間點恢復系統運行;當服務器重新開機,選擇由服務器所配置的 iSCSI HBA或FC HBA連接受保護的復制磁盤遠程啟動操作系統,不需事先恢復,利用遠程系統直接在分館運行,應用服務器就能回到快照時的正常工作狀態。保證圖書館業務管理不間斷運行。
6 結 語數據保護已成為一種數字圖書館建設重中之重,而數據的保護也已經從簡單備份發展到了采用鏡像、快照、遠程復制等先進技術;而CDP技術的出現則為圖書館提供了一種全新的思路,它突破了傳統備份不可逾越的性能瓶頸,實現了連續性應用可用性與不間斷業務的夢想,隨著CDP技術的應用范圍的擴大和深入,CDP數據技術將會成為在線數據的重要保護手段。
參考文獻
[1]宋.連續數據保護系統服務器軟件的設計與實現[D].清華大學,2008.5.
[2]陳金蓮.分布式連續數據保護方案[D].中國地質大學,2008.12.
[3]美國飛康軟件公司[EB].http:∥www.falconstor.com.cn,2009-08-15.
[4]李兵,羅建軍.淺析合并高校圖書館遠程容災系統建設[J].江西圖書館學刊,2007.4:112-113.