于英濤
(華北計算技術研究所 中國 北京 100083)
檔案數字化是隨著計算機技術、掃描技術、OCR 技術、數字攝影技術(錄音、錄像)、數據庫技術、多媒體技術、存儲技術的發展而產生的一種新型檔案信息形態,它把各種載體的檔案資源轉化為數字化的檔案信息, 以數字化的形式存儲,網絡化的形式互相連接,利用計算機系統進行管理,形成一個有序結構的檔案信息庫,及時提供利用,實現資源共享。
檔案數字化是數字檔案建設最基礎的工作,傳統栽體的檔案經高科技技術加工成數字檔案形式,通過局域網、政務網、互聯網進行計算機檢索、閱讀電子檔案,為迎接檔案信息服務新環境的挑戰,提高管理水平、提高效率,增強檔案業務部門的服務水平,為檔案內部管理及面向客戶服務提供高效率的全面服務。 檔案數字化流程圖檔案工作的數字化建設是順應潮流、適應時代發展的新舉措、新要求。 檔案作為一種原生信息資源,其重要性正日益凸顯出來,逐步掌握信息技術為檔案工作服務,為社會主義經濟建設服務,為社會主義精神文明建設服務。
隨著檔案信息化建設和數字化工作的開展,某檔案館在機讀目錄的管理以及檔案數字化加工方面進行了大量的研究和工作,目前大約形成機讀目錄上百萬條,檔案數據容量約9TB,聲像光盤幾千余張。 另外隨著檔案接收進館工作的進行,大量的檔案信息數據也陸續接收進館。 因此如何充分運用先進的網絡、存儲和數字化技術手段,將寶貴的館藏檔案數據進行有效的整理加工并轉儲到安全可靠的存儲設備中,再通過網絡環境實現對這些信息資源的高效率的檢索和共享,充分發揮它們的價值,是檔案館信息化基礎建設亟待解決的任務。

圖1
針對檔案館目前數據分散、增長速度快,工作效率低及數據安全性差的現實, 設計了一套完整的存儲系統解決方案,幫助檔案館實現業務目標。 該方案將檔案館存儲系統的架構分為三級,分別為在線數據存儲(On-Line)、近線數據存儲(Near-Line)、離線數據存儲(Off-Line)。 具體如圖1 所示。
每個級別的功能簡要描述如下:
1)在線數據存儲(On-Line)
在線存儲(On-Line)是工作級的存儲,在線存儲的最大特征是存儲設備和所存儲的數據時刻保持“在線”狀態,可以隨時讀取和修改,以滿足前端應用服務器或數據庫對數據訪問的速度要求,其中最主要的在線存儲是磁盤存儲。 在線存儲的性能是最高的,但成本也是最高的。
2)近線數據存儲(Near-Line)
近線存儲就是在原有的在線存儲及離線存儲之間引入的第二層存儲,是在線和離線存儲的中間點,是近似在線的存儲。 其特點是數據訪問的速度接近在線存儲,但在價格上卻接近離線海量存儲,因此,在有效降低存儲產品成本的同時,也保證了數據能夠被及時訪問。 由于存放的數據容量大、訪問頻度低,用近線存儲設備來存儲,比使用磁帶庫靈活,同時也避免了在線存儲的昂貴投資。 傳統定義的近線存儲設備主要為NAS 系統與光盤庫設備。
3)離線數據存儲(Off-Line)
離線數據是對在線數據的備份,以防范可能發生的數據災難,離線數據不常被調用,一般也遠離系統應用。 離線存儲的典型產品是磁帶庫,價格相對低廉,但離線存儲介質上的數據在讀寫時是順序進行的,當需要讀取數據時,需要把磁帶卷到頭,再進行定位。 因此,離線存儲的訪問速度慢、效率低。
檔案館可根據應用系統的主要功能、業務類型、對數據訪問要求等因素,將其數據部署在各級存儲上,既能最大限度滿足應用需求,又可使存儲成本最小化。

圖2
某檔案館以前采用傳統的LAN 結構和手工備份方式,人工手動備份數據庫中的關鍵數據,SQL、Oracle 的數據備份需要占用較多的工作量,對核心業務數據信息備份的工作無法量化考核。針對這一情況,設計了采用SAN 存儲架構和集中、高效的網絡備份系統。 其目的在于一方面是采用最先進的存儲技術,最大化的利用現有的存儲設備,建立一個數據集中管理的存儲系統;另一方面為系統和數據建立備份,從而對系統和數據進行有效保護,在系統遭遇意外損害時,能及時對系統和數據進行恢復。
該備份方案示意圖如圖2。
檔案館備份系統的組成如下:
1)備份主服務器:負責整個備份系統的管理,包括備份策略的制訂、 備份數據庫的保存。 該服務器同時也是一個Media Server 服務器, 負責將本機的數據和客戶端的數據備份到磁帶庫中。
2)備份客戶端程序:安裝在所有需要通過SAN 備份的其他服務器上。 每個服務器均通過SAN 連接光纖交換機。 備份數據均通過光纖網絡備份到磁帶庫中。
3)NAS 備份軟件:使用網絡數據管理協議(NDMP),為網絡附屬存儲(NAS)主機提供在線數據備份和恢復。
4)數據庫備份程序:安裝在需要備份數據庫的服務器。能夠實現熱備份,和快速恢復數據庫。
5)光纖磁帶庫與光纖交換機連接。 采用LTO 磁帶機,通過備份軟件的控制,實現備份數據的高速、自動、存儲。 當數據受到損害時,可以從磁帶庫中恢復數據。
6)由于主機及磁帶庫均接入SAN 結構,故未來可以平滑的升級到SAN 的方式備份一些重要的主機及數據庫,以避免備份數據對現有局域網絡的沖擊。
目前, 該存儲備份系統已在某檔案館建成并投入運行。通過該系統,檔案館可使信息像其他業務資產一樣有效地得到管理。 該系統不僅能幫助檔案館解決數據分散、效率低及安全性差的問題,并能滿足未來業務增長的需求。 它還可以滿足存儲空間的需求,減少開銷及資源浪費,同時減少在管理跨多種操作系統平臺的企業系統和信息孤島時的眾多難題。 大大提高了檔案館檔案信息化水平。
建成后的的存儲系統的特點為:
檔案館存儲系統的通道帶寬、存儲系統I/O 能力、服務器的網絡性能和響應能力等重要指標,可以滿足實時性要求很高的多節點客戶端數據請求及大容量數據存儲的需要,提高了業務運行效率。
檔案館存儲系統具備超大容量,同時也具備穩定性與安全性也達到了很高的要求。 同時由于其先進的架構,可使存儲容量靈活擴展,提高了應用的可持續運行能力。
檔案館存儲系統采用了業界領先的三級的架構,成熟先進而且為高端產品,適合未來幾年內的技術發展方向。
檔案館存儲系統中的磁盤陣列均采取基于鏡像的數據保護機制,確保數據的可靠性;同時通過建設備份系統,實現了文件系統數據、操作系統數據、多種應用及數據庫數據的定期自動備份,在發生數據災難時,可快速恢復數據,保證了數據的安全性和應用的持續運行。S