摘要:檔案災備是近年來檔案保護技術在信息化環境下拓展的新領域。本文從檔案災備與業務信息系統災備對比的角度,分析了檔案災備需求的原理、層級、目標、法律、空間、周期和介質七個方面的特殊性。本文的研究結論對于檔案災備系統的開發具有一定的指導價值。
關鍵詞:檔案館;圖書館;服務壁壘;分析
1 檔案災備需求的概念
人類社會活動整體上可以總結為“造福”與“避禍”兩個方面。根據烏爾里希·貝克(Ultrich Beck)的“風險社會理論”,人類社會已經進入“風險社會”時期,所面臨的風險種類不斷增加,風險程度不斷加大。按照世界發展進程的一般規律,一個國家和地區發展到人均GDP為500~3000美元時,往往對應著人口、資源、環境與效率等社會矛盾最為嚴重的“瓶頸”時期。當前中國正處在這一階段,對應問題之一就是各類災難已經表現出增多和更為嚴重的趨勢,近年的臺風、雪災、地震、泥石流等自然災害和一些人為事件已經對經濟社會持續發展造成了巨大影響。
1.1 災難
目前,學術界對災難(Disaster)的定義主要有兩種角度。第一種是從災難的一般性特征進行,如《災難恢復雜志(DRJ)》將災難定義為:“造成機構的某一部分無法在預定的一段時間內提供關鍵業務功能的事件。”第二種是從信息系統的角度進行,我國2005年出臺的《重要信息系統災難恢復指南》中從信息系統的角度,將災難定義為:由于人為或自然的原因,造成信息系統運行嚴重故障或癱瘓,使信息系統支持的業務功能停頓或服務水平不可接受、達到特定的時間的突發性事件,通常導致信息系統需要切換到備用場地運行。美國學者John William Toigo在其《災難恢復規劃》一書中也采用了類似的角度進行定義。筆者認為第二種定義是第一種定義在信息系統條件下的特例,因此本文采用第一種定義方式。災難既包括自然災害,也包括導致機構核心業務中斷或受損的各類人為事件。
1.2 災備
近年來,“災備”一詞在文獻中出現的頻率很高,但學者們對其內涵的理解并不一致。災備的“備”有多種理解方式。第一種,認為“備”就是“備份”,其重點是數據備份(Data Backup),認為災難備份是指“利用技術手段以及相關資源確保既定的關鍵數據、關鍵信息處理系統和關鍵業務在災難發生后可以恢復的過程”。第二種,認為“備”就是“備用”,其重點是系統備用(System Spare),就是在生產系統之外,建立一個冗余系統,當生產系統發生災難的時候,備用系統立即投入使用。第三種,認為“備”就是“備援”,災難備援(Disaster Preparedness)是指“利用科學的技術手段和方法,提前建立系統化的數據應急方式,以應對災難的發生,其內容包括數據備份和系統備份,業務連續規劃、人員架構、通信保障、危機公關,災難恢復規劃、災難恢復預案、業務恢復預案、緊急事件響應、第三方合作機構和供應鏈危機管理,等等”。
筆者認為,“災備”的三種理解方式之間是一種層次包含關系,核心層以數據為中心,中間層以系統為中心,擴展層以管理為中心,但是外層的實現必須以內層的實現為前提,如圖1所示。本文認為一般意義上的災備是指第三種,也就是從融合了技術和管理的交叉視角理解的災備概念。

1.3 檔案災備需求
檔案是人類在社會活動中形成的原始記錄,是人類歷史記憶的載體,是人類文化的寶貴財富。檔案一旦在災難中被損毀,將給人類社會造成永遠無法彌補的損失和缺憾。本文所指的檔案既包括紙質載體的檔案,也包括以數字形式存在的電子文件。
辯證唯物主義認為,事物的存在是矛盾的普遍性與特殊性的有機統一。檔案作為信息資源的一種,其災備需求必然會與一般信息的災備具有一定的共性,比如災備系統兩個中心的劃分,災備系統規劃的步驟和方法、應急響應預案的編制方法等。但是,檔案又是一類特殊的信息資源,必然有一些特征是檔案本身所特有的,而這些特殊性正是檔案災備系統設計開發過程中必須予以考慮的問題。投照系統工程的觀點,建沒一個系統必須經過系統規劃、需求分析、系統設計、系統設施等過程,而需求(Requirement)正是解決“做什么”的問題。因此,本文將檔案災備需求定義為:“對檔案災備系統應該實現的各類功能的系統化描述。”
2 檔案災備需求的特殊性
“檔案災備”并不是一個新名詞,我國檔案工作者以數據備份方式應對災難的實踐一直就沒有停止過。但是,2008年“汶川地震”造成檔案損毀的教訓使檔案界開始重新思考這一問題,一些研究人員開始嘗試將國內外災難恢復的相關理論引入檔案災備領域,并取得了一些成果。張永生的碩士論文《檔案信息系統災難恢復研究》、黃南風的碩士論文《檔案數據備份研究》、劉清杰的論文《檔案災備的特點、過程、模式和應注意的問題》等可以看作是對這一問題的嘗試,對于提高檔案災備的理論水平作出了重要貢獻。但是,縱觀這些研究,理論基礎卻大多沿用了信息系統災備的相關理論,特別是受到國務院信息化辦公室出臺的《重要信息系統災難恢復指南》的影響很大。由于《重要信息系統災難恢復指南》所針對的對象主要是銀行、鐵路、電力、民航、證券、保險、海關等部門的業務信息系統,而業務信息的特征與檔案信息資源具有較大的差異性,直接照搬必然帶來不能適應檔案災備實際需求的問題。因此,對檔案災備需求的特殊性進行系統分析,對于識別檔案災備與業務信息系統災備的差異性,設計出符合檔案工作實際需求的災備系統具有重要的指導意義。
2.1 檔案災備原理的特殊性
業務信息系統災備體系架構如圖2所示,其中最主要的兩個部分是“生產中心(PC,Production Center)”和“容災中心(DTC,Disaster Tolerance Center)”。生產中心是指正常情況下機構核心業務運行所在地(包括支持業務應用的機房、設備、軟件和人員在內)。容災中心是指為了減少災難給機構造成的損失而在異地建設的一套生產中心的同級克隆或者降級克隆(包括支持業務應用的機房、設備、軟件和人員在內),在生產中心不能處理的災難發生之后,容災中心接管生產中心的業務,在生產中心恢復正常以后業務再回切到生產中心。

業務信息災備體系中,生產中心以業務處理為中心,主要表現在流程的復雜性,人員參與的復雜性,數據量較小但是變動頻率相對較快等。檔案機構是一種服務機構,不具備生產的功能,其核心職能是保存檔案信息資源并提供給大眾利用。因此,我們將檔案災備中的核心機構稱為“服務中心”,如圖3所示。

檔案災備系統的“服務中心”指的就是檔案館和檔案室等檔案保管利用機構,其業務特征有:第一,流程相對簡單,線性流程為主,交叉和循環等流程較少;第二,參與人員有限,主要涉及檔案管理人員和檔案利用者,但是總量不會太多;第三,數據量較大,有的機構所存儲的檔案信息量可至“海量”,而且檔案只允許查閱而不允許改動。正是由于上述特征,檔案災備過程中,來自服務中心業務過程的風險較小,而來自系統外部的風險相對較大,應當重點關注的風險主要是火災、洪水、颶風、地震、泥石流等自然災害和來自系統外部的人為破壞,因此檔案災備系統的設計必須側重于異地災備,保征服務中心和容災中心不在同一地震帶、不在同一流域、不在同一功能的地域(如政治中心、金融中心和商業中心等)。
2.2 檔案災備層級的特殊性
從災備層級的角度分,災備系統可以分為數據級容災、系統級容災和應用級容災三類。數據是信息系統的核心,數據級容災以數據保護為目標,保汪災難發生后,系統業務相關數據的安全。系統級容災以數據保護為基礎,同時需要對信息系統的數據庫、中間件、操作系統、通信網絡等運行環境進行備份,需要保證業務數據、系統數據和網絡通信系統的完整性、可靠性和安全性。應用級容災通過對系統業務數據、應用環境、網絡組織及相關子系統接口等整個信息系統進行容災,從而實現整個業務流程的保護。數據級容災、系統級容災和應用級容災分別對應災備的數據備份、系統備用和災難備援三個層次,如圖1。
業務信息系統運行著其組織機構的核心業務,業務的中斷可能會給機構帶來直接的經濟損失,同時會對機構的公眾形象造成負面影響,可能使機構失去持續發展的潛力。因此,業務信息災備的重點在于維持業務系統運行的連續性,一般而言,業務的重要程度越高,就越是傾向于采用系統級或應用級容災。檔案作為一種信息資源,呈現出的數據特征要大于業務特征,檔案災備的重點在于維護檔案數據的長期可用,使檔案數據在災難發生的時候仍然可以通過特定方式進行讀取。在電子化環境中,如果檔案信息集成到業務信息系統當中,也會涉及系統級和應用級容災的情況。因此,檔案災備層級會呈現出以數據級容災為主,在特殊情況下也可能涉及系統級和應用級容災的特征。
2.3 檔案災備目標的特殊性
災備系統的目標一般用三個指標來衡量:RTO(Recovery Time Objective)、RPO(Recovery Point Objective)和DOI(Degrade Operation Interval),如圖4所示。RTO即恢復時間目標,是系統從業務功能的停頓到恢復所能容忍的時間。RPO即恢復點目標,是系統必須恢復到的時間點要求,衡量系統災難發生時業務能夠容忍的數據丟失量。DOI即降級運行目標,是指恢復完成后到防止第二次災難的所有保護恢復以前的時間。一般而言,RTO、RPO和DOI設定的級別越高,機構對災備系統投入的成本就應越多。業務信息災備的重點在于保證業務的連續性,因此其目標設定的優先順序為:RTO為第一目標,RPO為第二目標,DOI為第三目標。檔案災備系統的重點在于保證檔案信息的可用性,大多數檔案系統對數據丟失量的要求是0,降級運行的時間盡量縮短以降低二次災難的風險,而對恢復所用時間要求不是很嚴格。因此其目標優先順序為:RPO為其第一目標,DOI為第二目標,RTO為第三目標。

2.4 檔案災備法律的特殊性
業務信息系統的價值在于支持結構完成業務處理,業務信息系統中流動數字信息的第一價值是管理價值,也就是通過電子化方式促進快速共享和傳播,減少紙質信息傳播的過程成本。同時,數字信息的快速檢索功能也是紙質載體的信息所無法比擬的。因此,業務信息系統中的數字信息首先是作為管理的工具而存在,并不是天然就具備憑證效力。如果沒有特殊的規定,業務信息災備系統中在容災中心同步復制數據時可以直接復制,由容災中心切換到生產中心運行時,只要能保證生產系統業務的連續性,數字信息的憑證功能可以不考慮。
檔案作為人類社會活動的原始記錄,具有其他信息所不具備的憑證價值。因此,檔案災備系統的設計必須考慮到檔案的憑證效力,比如在服務中心向容災中心復制檔案數據的時候,就應該考慮檔案復制件或副本的法律地位問題。在由容災中心向服務中心回切的時候,也要考慮到向服務中心逆向復制的這些數據的真實性、完整性是否得到了有效維護。同時,如果服務中心的檔案被毀,容災中心的數據是否具有原有檔案的憑證效力等問題都是檔案系統災備必須考慮的問題。真實性是檔案災備的底線,如果檔案災備系統中的數據的真實性無法保障,即使其數據保存得再完整,其檔案價值也將徹底消失,不能作為憑證使用。
2.5 檔案災備空間的特殊性
業務信息災備的核心目標在于維護業務的連續性。一般而言,業務系統中數據的訪問頻率與其產生的時間長短成反比,產生的年代越是久遠,其被重復使用的概率就越小。因此,業務信息災備系統中可以對業務數據實行分級存儲管理(HSM,Hierarchical Storage Management),對于活躍的數據采取在線存儲(OnStore),近期歷史數據采取近線存儲(NearStore),存檔數據采取離線存儲(OffStore)。每隔一定周期,可以對使用概率很小的數據進行清理和刪除以騰出存儲空間。整體而言,業務信息容災系統所需存儲空間是一定的。
檔案災備是“只有起點,沒有終點”的事業,雖然檔案也會進行定期銷毀,但是整體而言隨著時間的推移,服務中心所存儲的數據總量將會越來越多,對存儲空間要求會越來越大。要保證檔案災備的容災中心與服務中心的一致性,對存儲空間的需求量就會持續增長,整體需要多大的空間將無法預計。雖然從服務中心挑選重要檔案在容災中心進行備份是一種解決方案,但是容災中心數據總量的持續增長卻是無法改變的趨勢。
2.6 檔案災備周期的特殊性
業務信息災備一般不會跨越較長的時間周期,容災系統中的數據只要能夠完成在業務連續性保障中的任務就可以刪除,因而其不會涉及數字媒體的形體壽命和技術壽命問題。檔案災備卻在時間跨度上大得多,檔案副本在容災中心當中可能會存儲相當長的時間,如果屬于長期保存的檔案,其副本在容災中心中也將要求被長期保存。因此,檔案災備可能會涉及媒體的壽命問題,如果檔案在容災中心是以數字化形式進行備份,一方面其存儲載體可能會老化或損壞,另外一方面技術的更新換代有可能使這些信息的讀取設備和技術被淘汰,從而使這些信息失去可讀性。目前,在數字檔案長期保存實踐中采用的方法主要有更新(Refreshing)、遷移(Migration)和仿真(Emulation),這些因素的存在將會使檔案的真實性與完整性保障以及服務中心和容災中心的同步變得異常復雜。
2.7 檔案災備介質的特殊性
業務信息災備系統中,生產中心和容災中心中的數據都是以數字化形式存在,其復制與逆向復制都是采用同一種形式,相對比較簡單。檔案災備系統要復雜一些,主要原因在于:第一,服務中心中的檔案是紙質媒介,在容災中心中的檔案副本可能是掃描后的數字化版本,當服務中心發生災難時,可以保證檔案信息的利用,但是如果由容災中心向服務中心回切的時候,卻只能恢復到數字化形式;第二,在當前電子文件的缺點還沒有完全被克服之前,我國檔案實踐中還是采用的電子文件的異質備份。國家檔案局局長楊冬權在2008年全國檔案局長館長會議上的講話中指出:“在不同的地方存放重要檔案的重份或縮微、復印、數字化等形式的副本。有條件的地方,還應逐步將電子文件轉換成其他載體保存,實行異質備份,以防止若干年后電子文件因閱讀設備不配套而無法讀取。”因此,檔案災備的介質就可以分為紙質副本、微縮膠片副本、數字化副本等多種形式,在服務中心和容災中心之間如何選擇檔案信息存儲的介質,如何保證多種介質形式上存儲的檔案信息的一致性,保證其真實性和完整性得到維護將會比一般業務信息系統的災備復雜得多,如圖5所示。

3 研究結論
檔案災備需求是對檔案災備系統應該實現的各類功能的系統化描述。檔案作為信息資源的一種,其災備需求與業務信息災備具有一定的共性,同時具有檔案本身所特有的若干特征,主要體現在原理、層級、目標、法律、空間、周期、介質等方面,這些特殊性是檔案災備系統設計開發過程中必須予以考慮并通過技術方式予以實現的重要問題。