蔣建峰(張家港市檔案局,江蘇張家港,215600)
近年來,全國各地數字檔案室、數字檔案館建設如火如荼,檔案信息化、數字化水平得到很大的提高。在經濟相對發達地區,檔案部門基本都建設了自己的檔案數據庫和資料庫,這在平時的檔案利用中,極大地提高了檔案資料的查準率和查全率,給人們工作和生活帶來極大的便利。但是,檔案數據庫一旦因各種原因損壞或丟失,也會給我們工作和生活帶來不可估量的損失。檔案備份是指為防止系統出現操作失誤或系統故障導致檔案數據丟失,而將全部或部分檔案數據從應用主機的存儲介質復制到其它的存儲介質的過程。做好檔案備份工作不是一項可有可無的工作,需要我們嚴格按照規程,不折不扣地完成。
1.按照備份系統的準備程度,備份一般分為:冷備份、溫備份和熱備份。
(1)冷備份是指在備份系統里,沒有安裝或配置與現在所使用的系統相同或類似的系統運行環境,對應所使用的系統數據不能及時裝入備份系統。一旦發生災難,需要用戶自己安裝或配置所需要的運行環境,用備份設備(磁帶、磁盤或光盤)恢復應用數據,手工逐筆或運用程序自動批量追補、修改對應數據,再將終端用戶通過通訊線路切換到備份系統上運行,以恢復正常業務。冷備份的優點是設備投資較少,節省通信費用,通信環境要求不高,可以非常快速地備份,只需將文件再拷貝回去,即可容易地恢復到某個時間點上。缺點是有時恢復時間較長,單獨使用時,只能提供到“某一時間點上”的恢復,數據完整性與一致性較差。
(2) 溫備份是指備份系統事先已安裝配置成與當前使用的系統相同或相似的系統和網絡運行環境,配置使用了應用系統業務定期的備份數據。一旦發生災難,直接使用定期備份數據,通過人工逐筆或運用程序自動批量追補、修改對應數據,再將終端用戶通過通訊線路切換到備份系統,恢復相關業務正常運行。優點是設備投資較少,通信環境要求不高。缺點是恢復時間長,一般要幾個小時至數天,數據完整性與一致性較差。
(3)熱備份是指備份系統處于聯機狀態,當前應用系統通過高速通信線路將數據實時傳送到備份系統,保持備份系統與當前所應用系統數據的實時同步;也可定時在備份系統上恢復應用系統的數據。一旦發生災難,不用追補或只需追補很少的孤立數據,備份系統可快速接替生產系統運行,恢復運轉。優點是恢復時間短,一般幾十分鐘到數小時,數據完整性與一致性最好,數據丟失可能性最小。缺點是設備投資大,通信費用高,通信環境要求高,平時運行管理較復雜。
2.按備份類型來分,主要有三種類型的備份方法:全備份、增量備份和差異備份。
(1)全備份
全備份是指對某一個時間點上的所有數據或應用進行的一個完全拷貝,實際應用中就是用備份設備對整個系統進行完全備份,包括其中的系統和所有數據?;謴退邢到y數據時僅需要具備最新的備份數據副本。優點是易于查找文件,因為文件都位于當前備份媒體上,文件恢復只需要一種媒體或一組媒體,操作簡單,便于管理。缺點是由于每次需要備份的數據量相當大,備份所需時間較長,如果數據不頻繁改動,各個全備份媒體中的備份數據存在大量的重復信息,而花費的時間可能主要集中在未改變的數據上。全備份通常在首次創建備份時或數據長期不變的情況下進行。
(2)增量備份(又稱差異增量備份)
增量備份僅備份上次備份(無論哪種備份,含增量備份)以來所有發生變化的數據,每次增量備份的數據都不同,恢復所有數據時必須具備最新的全備份和所有增量的備份數據。舉例而言,如果周一執行了完全備份,周二的增量備份工作就是備份周一完全備份以后發生變化的文件。但是,周三的增量備份就是只備份周二增量備份以后發生變化的文件。增量備份的優點是需要存儲的數據最少,備份速度最快。缺點是完全恢復系統需要的時間比全備份或差異備份長。
(3)差異備份(又稱累積增量備份)
差異備份僅備份那些自上次全備份以來所有發生變化的文件,因此連續兩次差異備份中可能會有重復文件,是增量備份的特例,恢復所有數據時僅僅需要最新的全備份的文件和最后一次差異備份的文件,可針對于文件經常發生變化的情況。舉例而言,如果周一執行了完全備份,周二的差異備份工作就是備份周一完全備份以后發生變化的文件。周三的差異備份則是備份周一完全備份以后發生變化的文件,其中包括在周二發生變化的文件。差異備份的優點是恢復時僅需要最新全備份的媒體和差異備份的媒體,備份速度比全備份快。缺點是完全恢復系統需要的時間比全備份長。如果大量數據發生變化,備份所需的時間長于增量備份的時間。
3.常用備份模型
(1)周循環。循環周期開始于一個完全備份操作,在隨后的每天進行增量備份。這樣包含備份數據的磁帶或設備相對較少,恢復相對簡單。優點是便于理解使用,完全備份可以選擇在周五晚上,如果需要可以延長至周末,當有特殊情況發生時(如假日、周末等)也容易進行調整。缺點是如果站點在循環的第六天發生災難,恢復時間較長,而且如果這六天有磁帶或設備發生錯誤,將可能丟失這六天所有數據。
(2)日循環。每天都使用不同的磁帶進行完全備份。優點是減少災難性的數據丟失,恢復簡單快速。缺點是備份窗口過長,需要更多的管理時間,一般很少采用。
(3)月循環。每個月的開始或結束做一次完全備份,在這個月的其余時間里每天做增量備份或差量備份。采用月循環時,完全備份后的每天做差異備份,這樣做數據恢復時,僅需要兩個備份媒體,即每月的完全備份媒體和最后的每天的差異備份媒體。
(4)GFS循環。GFS(grandfather,father,son)循環是上述三種循環模型的組合。每個月的開始或最后一個周末進行完全備份,完全備份寫入每月的備份媒體。每月中各個周末執行完全備份,完全備份寫入每周的媒體。每周中各天執行增量或差異備份,寫入每天的磁帶或備份設備。每周的備份設備可以用一個月,每月的備份設備可以用任意時間,這樣可以相對較快地恢復到任意一天,它很容易適合于各種不同的數據保護需求。
檔案部門通常都很重視對本地的數據進行備份,而忽略了異地災難備份,但災難發生時,有時候本地的備份起不到任何災備作用,一個真正的容災系統必然要進行異地災難備份。
從國際容災標準SHARE 78來看,共分七個層次,Tier 0是數據沒有異地備份,所有數據的恢復僅僅依靠本地的備份;Tier 1是數據有了異地備份;Tier 2應用系統有了備份;Tier 3則是可以通過網絡進行備份;Tier 4則有了災備中心,并且通過備份軟件將本地關鍵數據通過網絡定時備份到異地災備中心;Tier 5增加了硬件的鏡像技術和軟件的數據復制技術,將本地災備中心的數據同步備份到異地災備中心,在災難來臨時,只有正在傳輸的部分數據會丟失;Tier 6數據是同時寫到本地和異地,并且通訊線路采用專網,實現了數據零丟失;Tier 7則在Tier 6的基礎上實現了本地災備中心和異地災備中心自動切換。
可以看出,0-2級的容災策略是不能采用的,如果檔案的容災策略能做到Tier7級,毫無疑問是最理想的,但由于需要投入的資金巨大,且從長期維護的角度看,檔案館很難有資金支持,從檔案館工作的實際看,其實也并不需要做到系統的自動切換和數據零丟失,所以說最理想的容災解決方案并不一定是最實際的容災方案,因此需要綜合考慮。從目前來看,檔案部門不可能投入一大筆資金建立一個最理想的容災解決方案,我們必須考慮一個比較實際的方案,使得投入和應用達到平衡。因此可考慮建立4-5級的容災方案,就是通過網絡將系統和數據備份到異地的容災中心,同時將災備系統的數據定時更新,基本和主系統保持一致,并制定相應的容災應急預案。
我們必須根據檔案館的規模、所處地域、網絡狀況、數據量等因素,因地制宜地采取不同容災策略以免造成不必要的成本消耗。下面從四個方面對異地容災備份策略進行分析。
1.災備對象的選擇策略
從其對檔案應用系統的保護程度來分,可以將容災系統分為:數據容災和應用容災。數據容災就是指建立一個異地的數據系統,該系統是本地關鍵應用數據的一個復制。在本地數據及整個應用系統出現災難時,系統至少在異地保存有一份可用的關鍵業務的數據。該數據可以是與本地生產數據的完全實時復制,也可以比本地數據略微落后,但一定是可用的。其采用的主要技術是數據備份和數據復制技術。應用容災是在數據容災的基礎上,在異地建立一套完整的與本地檔案應用系統相當的備份應用系統(可以是互為備份),在災難情況下,遠程系統可迅速接管業務運行。數據容災是抗御災難的保障,而應用容災則是容災系統建設的目標。
兩者比較如表1。
對于現況來說,檔案部門并無應用災備的需求,同時業務也并不需要實時提供服務。但災難發生時可能會對一些無法預知的數據產生要求,因此可考慮應用災備和數據災備相結合的方式進行。建議可以在災備之初進行數據災備,待條件成熟后,有條件的檔案館可將數據災備過渡到應用災備。

表1 應用災備和數據災備比較
2.災備技術
可采取基于智能磁盤陣列或虛擬磁帶庫復制的災備技術。通常檔案數據占用空間較大,需要備份的數據大多在TB級,目前最常用的存儲介質是磁盤陣列和虛擬磁帶庫。磁盤陣列有兩個或更多的磁盤驅動器及陣列管理硬件或軟件組成,但對計算機而言是一個獨立的單元,且采用了RAID保護技術,本身就具有一定的安全系數。存儲容量大,方便管理,存取速度快,同時可在線維護是它的優點。虛擬磁帶庫,是近年來興起的眾多磁盤備份解決方案中,最受矚目的一項,它本質上是磁盤陣列硬件設備,但是在軟件功能上模擬磁帶備份的形式,因此對于存儲管理員來講,它就是一個磁帶庫,對它的管理如同管理一個物理磁帶庫一模一樣。虛擬磁帶庫采用基于RAID保護的磁盤陣列,從而將備份的可靠性較常規磁帶備份提高了若干量級,虛擬磁帶庫不僅解決了傳統磁帶庫維護負擔重、備份失效率高以及備份恢復能力不佳的問題,而且也改變了磁盤備份容易被誤刪除或被病毒感染,以及不便于在SAN環境中統一管理和優化使用的劣勢。因此不論在本地還是異地容災中心,都建議采用磁盤陣列或虛擬磁帶庫進行日常存儲、備份,而用磁帶作為后備的離線脫機備份介質。
3.互為異地備份的權利與義務
由于全國各地檔案館條件各異,需備份的數據量也不同,且應用系統也存在差異,因此對軟硬件的要求、系統的維護、數據的檢查等方面要求不同,因此在進行互為異地備份時存在差異,對災備的投入可能會有很大的差別,所以必須事先達成互為異地備份的協議,明確相關的權利與義務關系。一般來說,硬件系統交由所在地檔案館加以管理,而日常維護、數據檢查等可由雙方工作人員共同承擔。
4.傳送方法
在檔案部門可用資金普遍不足的現況下,必須建立一套實用、可靠的數據傳送的辦法??梢钥紤]以下方式實現數據傳送:
(1)首次可以采用交通工具將備份系統、數據和備份硬件設備運送到對方檔案館,建立起災備系統。
(2)在增量備份數據量較大時,也可采用交通工具運送到對方館,由本館工作人員將數據恢復到托管的設備上。
(3)對于增量備份的檔案數據較少,可以定期利用網絡傳送增量數據。條件較好的檔案館可以利用現代網絡傳送技術,如遠程鏡像技術、快照技術、互連技術等方式實現實時傳送,以達到更理想的容災效果。
5.數據恢復利用的方法
萬一檔案館所在地發生毀滅性災難(火災、地震)情況,檔案館數據系統陷入癱瘓而無法工作時,可在通訊系統恢復的前提下,根據應急預案啟用災備系統,使系統迅速切換到異地備份數據中心,異地備份數據中心立即接管關鍵應用,繼續運行,可正常進行遠端數據搜索與獲取,并將急需的數據從異地恢復到本地用于救災,在本地檔案數據系統恢復后,檔案數據應用系統可以迅速切換回本地運行。
檔案數據是檔案工作者辛勤勞動的成果,是政府工作開展和群眾利益維護的基礎,我們必須切實行動起來,做好檔案數據的備份工作,保護檔案數據安全、可靠。
[1]楊義先,姚文斌,陳釗.信息系統災備技術綜論[J].北京郵電大學學報,2010,33(2):1-3。
[2]中國災備網.容災備份標準之二:國際Share78標準http://www.rongzai.com.cn/biaozhun/guifan/362.htm l。
[3]康瀟文,楊英杰,王保云.面向容災的強安全性虛擬文件系統[J].計算機工程,2009,35(7):161-163。