陳偉斌 張慶順
隨著高校信息化校園和智慧校園建設的不斷推進,高校教學、科研、財務、基建以及公文管理系統中的數據飛速增長。同時,高校檔案館根據“存量檔案數字化,增量檔案電子化”的工作要求,將各類系統的業務數據納入學校歸檔范圍,加強對業務系統數據的集中管理,出現了高校數字檔案數據量急劇增加[1]。但是,數字檔案存在不穩定、易更改和設備依賴性等特點,高校數字檔案在面臨自然災害、硬件組件故障或老化、管理不善、軟件不兼容等不確定因素威脅的情況下,容易出現數據損壞、丟失或者無法讀取等問題。尤其是在“單套制”管理背景下,如果沒有妥善的應對措施,會造成無法估量的損失。因此,高校檔案館亟須選擇合理的存儲備份技術,對高校數字檔案進行有效存儲和備份。
一、大數據環境下高校數字檔案備份的重要意義
大數據時代的一個顯著特征就是數據量大,大數據環境下高校數字檔案數據量巨大,而且格式類型多樣,給高校數字檔案安全存儲增加了許多風險。高校數字檔案備份是指為了防止自然或人為因素出現系統故障,導致高校檔案數據的丟失,而事先將全部或部分檔案數據,從應用主機的存儲介質上復制到其它存儲介質的過程[2]。高校數字檔案數據出現問題時,利用備份數據可以恢復損壞或被刪除、篡改的高校數字檔案資源,保障高校數字檔案的完整和安全。
第一,可以保障高校檔案源頭數據安全。高校數字檔案數據通常存儲于高校檔案館的主機或者學校服務器中,由于主機在運行高校數字檔案數據時,容易暴露其存放路徑或者IP地址,從而遭到黑客的人為攻擊或者破壞。此外,隨著高校數字檔案數據的增加,主機系統或者服務器容易出現容量不足的問題,隨著運行時間的增長,不僅會使主機系統更容易老化,也會增加系統崩潰的風險。高校數字檔案備份主要是在其他位置、其他介質上保存高校數字檔案數據,這些介質與高校檔案館主機或者服務器既存在空間位置上的物理隔離,也存在網絡隔離。因此,對高校數字檔案進行數據備份,可以更好地保障高校數字檔案源頭數據的安全和完整。
第二,可以實現高校檔案數據的災難恢復。由于許多自然或人為災害是無法預見甚至無法防范的,這些形式的災害一旦發生,極有可能對檔案資料或數據造成毀滅性的打擊,從而直接影響高校檔案館對高校檔案數據的正常管理與服務工作。對高校數字檔案數據進行備份后,一旦高校檔案館的正常工作因自然或人為災害無法繼續,備份數據可以及時啟用,對丟失或損壞數據進行數據災難恢復和全面更新,確保高校數字檔案數據在較短時間內恢復,保障高校檔案館正常的管理與服務工作。
第三,可以促進高校數字檔案的安全共享。高校數字檔案共享需要最大限度、最多渠道和最便捷地提供高校數字檔案給教職員工、學生和各界人士共享利用。數字檔案的共享利用,尤其是在網絡開放環境下開展的共享利用,會給高校數字檔案數據帶來更多的安全隱患。對高校數字檔案進行有效的備份,可以更好地應對高校數字檔案共享過程中可能出現的人為破壞、系統崩潰問題,也可以及時恢復損壞或被篡改的高校數字檔案數據,妥善應對數字檔案共享中可能出現的高校檔案數據安全隱患,從而促進高校數字檔案的全方位和多途徑共享。
二、傳統高校數字檔案備份存在的問題
大數據環境下高校數字檔案安全面臨更大的挑戰,雖然高校檔案館都在不同程度上開展了數字檔案數據的存儲和備份工作,目前主要采用的備份方式是異地備份和異質備份,這樣可以起到保護高校數字檔案資源的作用,但還存在著一些尚待解決的問題。
第一,備份時間整體偏長。傳統高校數字檔案資源的備份方式多為離線備份,這種備份方式要求在備份時檔案部門不能進行相關的檔案管理工作,數據庫中的文件數目的變化有可能影響到備份工作的順利進行。同時,在大數據環境下,檔案部門需要處理大量的文件,離線備份就需要花費更長的時間,難以實現對相關文件的及時保護。
第二,存儲介質存在固有的缺陷。首先,大部分的存儲介質擴展性較差,而且使用壽命會因自身材質老化、存儲環境不適宜等因素而縮短,導致了備份介質不斷更新,備份成本比較高,無論是介質本身還是讀取介質的設備,甚至是存放介質的保存環境,都需要額外的資金投入。
第三,存儲格式的可讀性難以持續。高校數字檔案存儲時采用的格式多種多樣,而且隨著新興技術的發展,許多存儲格式或者運行環境都在不斷更新,造成很多舊的存儲格式難以被新設備讀取,甚至由于讀取或識別舊格式文件的設備、軟件以及運行環境的升級,造成存儲時間較久的檔案數據文件無法讀取或者沒有設備可以讀取。
第四,備份數據恢復過程較慢。高校數字檔案數據備份恢復時,需要較長的時間。主要是由于:在進行備份時,若采用多次的完全備份,會造成存儲備份數據庫中存在大量的冗余數據,龐大的數據量會影響數據恢復的速度;當遇到災難性破壞時,數據恢復并非單純的恢復高校數字檔案數據,還要對相應的操作系統、軟件進行恢復,這些工具的配置過程也會影響數據恢復的進程和速度。
三、大數據環境下高校數字檔案備份技術與策略
在復雜的大數據網絡環境下,需要建立科學合理、可行高效的數字檔案資源的備份方案。其中,備份策略和備份技術是備份方案的核心,它決定了高校數字檔案數據以何種形式進行備份,才能產生良好的備份效果。
(一)增量方式的實時備份技術
增量方式的實時備份技術,主要通過文件監控機制,實現對高校數字檔案數據庫中的文件目錄或文件的實時監控,當數據庫中出現新增的數字檔案文件時,這種文件監控機制會發生響應,并調用目前比較流行的用于數據增量備份的算法——Rsync算法,通過這種算法可以精準的識別出數字檔案數據庫中新增的數字檔案文件,從而達到增量備份數字檔案的目的[3]。
Rsync算法通過強和弱兩種校驗碼,確定文件的唯一性,具體的實現形式如下:首先,在文件監控機制的調動下,由存儲高校數字檔案備份數據的服務器發出備份請求,對數據庫中存儲的所有文件數據,按固定大小進行分塊劃分,并計算每一個劃分好的數據塊的弱校驗碼和強校驗碼(弱校驗碼的計算速度快但存在誤差,強校驗碼的計算慢但可靠性強),全部完成后將每個數據塊的校驗碼以成對的形式,發送給存儲有源數據的服務器。存儲有源數據的服務器接收到成對的強、弱校驗碼序列后,對其構建哈希表以便于查找、匹配;同時,對高校數字檔案的源數據,按照同樣的固定大小進行分塊和計算強、弱校驗碼,然后利用校驗碼驗證是否有相同的數據塊存在,從而篩選出備份數據庫中不存在的數據塊,將其傳輸給備份服務器,備份服務器根據傳輸來的數據塊及其相關信息,將其重構為高校數字檔案文件。
高校數字檔案采用增量方式的實時備份技術,無需將源數據庫中的高校數字檔案文件完全傳輸給備份的數據庫,只需要傳輸新增的高校數字檔案文件,這樣可以有效彌補離線備份方式在突發情況下不能及時對處理好的數據進行備份的缺陷,而且實時備份形式可以節省每隔一段時期進行備份時所需要花費的時間,達到更加快速備份的目的。
(二)基于快照的數據備份技術
快照是指一個對某個給定的數據集合完全有效的可用拷貝,這個拷貝的內容主要是該數據集合的相應數據在某個時間點——通常是指拷貝開始的時間的映像[4]。快照技術整體上可以分為兩大類,一種是鏡像快照技術,可以對某特定時刻的高校數字檔案數據進行完整的復制;另一種是連續數據保護快照,可以跟蹤目標數據庫的任何操作,從而實現數據的實時快照備份。由于高校數字檔案是一種對實時性要求不太高的數據,而且連續性的快照進行數據恢復時需要的時間較長,相比較之下,鏡像快照更適用于高校數字檔案數據的備份。鏡像快照技術生成的快照數據占用的存儲空間較小,而且其生成的區塊型快照會對備份數據進行整理和建立索引,可以提高數據的存儲效率和檢索效率,從而可以實現檔案數據的高效備份和快速恢復。但是,高校數字檔案數據進行鏡像快照備份,應當在檔案管理人員對高校數字檔案文件執行完一系列的管理操作,進行最后的保存時生成快照,并將其臨時存儲到備份緩存中,等到存儲服務器和備份服務器的鏈接同步,再將高校數字檔案的快照文件通過備份服務器上傳到存儲備份數據的空間中。
在數據恢復方面,鏡像快照技術的數據恢復是基于完整鏡像與多個增量鏡像來實現,鏡像的檢索時間從很大程度上決定了數據的恢復時間,高效的快照索引,可以降低鏡像查詢的復雜程度、縮短數據恢復時間。快照是按照時間順序存儲的,同時提供索引信息,在進行恢復時可以根據索引信息訪問快照區塊,并按照順序讀取,可以極大提高數據恢復的效率。同時,由于數據鏡像快照是只讀不可寫的,如果要對備份數據進行讀取之外的操作,可以應用專門針對快照進行恢復的數據卷克隆技術,快照克隆出一份與其對應的數據集數據內容相同的、既可讀又可寫的數據卷,從而達到恢復數據并使數據可用的目的[5]。
(三)基于IPSAN的數據備份技術
SAN是指存儲區域網絡,其主流形式是基于光纖搭建的,而IPSAN則是基于IP的存儲區域網絡,它通過IP網絡實現存儲系統和服務器之間的相互連接,無需其他硬件設備,這里的存儲設備通常由磁盤陣列構成,而且一般存儲于遠離檔案工作部門的區域。IP網絡主要有兩種形式,各有優劣,專用IP網絡方式不占用傳統IP網絡帶寬,但成本高;共享IP網絡方式成本低但會占用帶寬[6]。IPSAN使用網絡協議進行數據傳輸,當需要傳輸的數據量較大時,網絡的帶寬會影響到數據的傳輸速度。所以,在建設相應的IPSAN時,檔案部門可以根據自身需要選擇相應的IP網絡形式。
利用IPSAN實現高校數字檔案的備份,就是利用存儲設備給存儲高校數字檔案的服務器和備用服務器各自劃分一個專用的、獨立的備份空間,而待備份的高校數字檔案則通過檔案部門所用的數據庫、應用系統所附帶的備份功能或備份腳本,存儲到相應的備份空間內,該備份空間可以直接實現數據的恢復。當目前使用的服務器受到網絡攻擊、外力破壞或因自身故障導致無法支持檔案管理和利用工作時,可將存儲有備份高校數字檔案數據的備份空間,分配給狀態良好的備用服務器,在該服務器上讀取備份的檔案數據,從而快速實現檔案管理和服務等工作的異機或異地恢復。這種恢復方式可以使檔案部門在遭遇破壞性災難時,繼續開展高校數字檔案共享服務。IPSAN相較于基于光纖的搭建形式,節省了布置硬件設施所需的成本,同時也解決了光纖等硬件設備在傳輸距離方面的限制,而且互聯網協議技術在后續的整理和維護方面也更具有優勢。雖然IPSAN在數據傳輸過程中的風險較高,但結合數字加密、數字簽名等相應的數據安全技術,可以保證高校數字檔案數據在備份過程中的安全。