程龍吟/福州大學檔案館
檔案作為黨和國家重要的信息資源,在服務和推動社會發展中發揮著重要作用。隨著檔案信息化進程的加快,各級各類檔案館和檔案形成單位形成了大量的數字檔案(包含電子檔案和檔案數字化成果)。要想充分發揮數字檔案優勢,使全民全社會共享信息化成果,就要推動數字檔案打破時間和空間限制,實現館際共享、全民共享。
數字檔案共享是指數字檔案在標準化、規范化并符合保密要求的基礎上,在不同層次、不同部門信息網絡系統間實現互聯互通并向社會提供服務[1]。
在2016年4月網絡安全和信息化工作座談會上,習近平總書記提出要“打通信息壁壘,構建全國信息資源共享體系,更好用信息化手段感知社會態勢、暢通溝通渠道、輔助科學決策”[2]。習總書記的講話為檔案事業的發展指明了方向:一是數字檔案館建設必須與實體檔案館建設同時進行;二是加快建設數字檔案共享體系,數字檔案應當成為國家信息資源共享體系的重要組成部分。目前,許多檔案館的信息化建設預算已達到數百萬甚至上千萬元,全國每年有50 億元以上的信息化市場容量[3]。這些數字檔案不能像大多數紙質檔案那樣封存在檔案館內,檔案行業要改革創新,加快推進檔案信息從封閉走向開放,打造方便人民群眾查閱利用的開放型、多層次的數字檔案共享體系,實現檔案資源互聯互通。
實現數字檔案共享,最重要的是實現信息的互聯互通和向社會提供服務。數字檔案自身的復雜性導致其在共享過程中出現各種技術難點:一是需要首先解決服務器存儲容量問題。“增量數字化、存量電子化”的趨勢和政策使得檔案數量急劇增長,檔案數據的容量限制共享的范圍。二是需要重點解決異構數字檔案資源整合問題。數字檔案有文本、圖片、視頻、音頻等多種類型,需要一種技術能整合所有異構類型,并能按需提供利用。三是需要長期優化數字檔案資源的整合、組織、關聯、導航與服務模式,實現數字檔案的智能化管理與服務。傳統存儲技術已無法滿足數字檔案海量容量、快速讀取、靈活管控、安全可靠、智能管理的存儲要求。以直連式存儲、存儲區域網絡、網絡附接存儲和對象存儲系統四種傳統存儲技術為例,它們在數字檔案共享方面無法解決的技術壁壘有以下幾點。
概括來說,幾種傳統存儲技術在存儲容量、可擴展性、傳輸效率上各有缺陷。直連式存儲的缺點是存儲容量有限,它的存儲設備是分配給它所連接的計算機,如果存儲容量需求增加,就需要把更多存儲設備連接到計算機,然而受I/O接口的限制每臺計算機只能連接有限的存儲設備;存儲區域網絡的缺點是可擴展性差,其存儲設備需要建立專用的區域網絡,如需擴展則要額外購買光纖通道、網絡設備和主機適配卡,建維成本高;網絡附接存儲的缺點是傳輸效率不穩定,其存儲設備通過標準的網絡拓撲結構連接到一群計算機上,信息經局域網傳輸,但當其他應用程序使用局域網傳輸時,網絡附接存儲的傳輸效率會大大降低;對象存儲系統的缺點是存儲對象分散到很多節點,由于更新不及時不完全會導致獲取的數據信息滯后。
傳統的存儲技術每種只能支持一種存儲方式,而不同存儲方式各有優勢,需要配合用戶需求綜合利用、智能選擇;文件存儲(NAS)的形式適用于數據容量小情況下的資源共享,如高校內部相關部門間進行學籍信息共享、教務課程信息共享等,其缺點是讀寫速度慢;塊存儲(Mass Storage)的形式類似于主機內置硬盤,優點是擴容廉價、讀寫傳輸速度快,但進行信息資源共享有難度;對象存儲(OSS)綜合了NAS和MS的優點并具有良好的擴展性,但因其依賴REST調用,所以使用起來更為復雜;傳統存儲技術做不到整合所有的存儲方式,無法集中采集不同存儲方式的優點,導致存儲空間孤立造成資源浪費,無法統一管理。
智慧檔案是未來檔案管理的實現目標,要實現智慧化、一體化的管理與利用,就要求智慧檔案館各系統實現全面感知、智慧分析、互聯互通、協同處置,尤其是數字檔案共享平臺或數字檔案數據交換中心的數據能夠快速讀取、靈活感知、動態調整,達到智能化統籌協調的目的。傳統的存儲技術無法滿足數字檔案共享中檔案管理利用智能化的需求,需要實現技術的升級換代。
軟件定義存儲(Software Defined Storage)的誕生解決了傳統存儲技術的不足。官方尚未明確定義軟件定義存儲,因此它更是一種存儲理念,即在任何存儲上運行的應用都能夠在用戶定義策略的驅動下自動工作。事實上,在不少對信息化感知靈敏的行業中,虛擬化技術已經逐步深入系統架構后端,從服務器虛擬化向存儲虛擬化延伸。在檔案行業,應用軟件定義存儲技術可以解決數字檔案共享中的技術難點。
從目前全國檔案部門的情況來看,一方面全國沒有統一的檔案信息管理軟件可供選擇,各地檔案館根據自身需求依靠有關公司力量進行平臺軟件開發與維護,這樣不僅嚴重浪費資源,而且檔案軟件開發效率低下;另一方面檔案管理軟件標準不統一,各地檔案館選擇自認為符合標準的軟件應用于檔案信息化和檔案數字化工作,由于一個地方的檔案館和單位使用不同公司開發的管理軟件,存在標準不統一、維護工作沒有跟進的問題,造成檔案數據對接不暢,有的地方檔案數據在遷移時甚至會出現差錯或者丟失。各地在開展檔案數字化掃描工作中,由于追求速度以及節約成本,檔案數字化采用的格式也不同,有的為雙層PDF格式,有的為JPG、GIF格式。研究軟件定義存儲技術可以為打造適應未來發展需要的數字檔案存儲體系提供理論參考,并為推動數字檔案共享和檔案信息化建設提供技術支撐。
3.2.1 存儲虛擬化或資源池化
軟件定義存儲技術的顯著性能在于實現存儲虛擬化或資源池化,它將各種存儲資源虛擬化,并有效集成不同存儲類型的設備,組成虛擬資源池。具體應用在數字檔案共享領域時,可以利用軟件定義存儲技術,通過一個網絡服務平臺如數字檔案共享平臺或數字檔案信息交流中心等,將各級各類檔案館中的數字檔案資源集成并存儲在虛擬資源池中。網絡服務平臺可以按需(如容量、性能、服務質量、服務等級協議等)自動化使用存儲,以解決傳統存儲容量不足的問題。
3.2.2 開發“元數據”訪問接口
軟件定義存儲技術的存儲資源池中涵蓋主流的存儲類型,如SAN存儲、NAS存儲、對象存儲等。利用軟件定義存儲的資源池化技術可以開發分布式數據訪問接口,接口以“元數據”為基礎,“元數據”與不同的存儲類型相互轉換,在不改變當前數據定義與存儲結構的基礎上,實現資源相互轉換。應用在數字檔案共享領域時,軟件定義存儲為異構的檔案信息存儲類型開發基于“元數據”的分布式訪問接口,這樣就解決了數字檔案共享中存儲類型與接口難以管理利用的缺點,從而打破各個檔案館之間的信息壁壘,使信息在各個檔案館之間實現互聯互通,有效解決信息孤島的問題。
3.2.3 數據中心智能管理
智慧檔案館是未來檔案行業的發展方向,智能性要求須體現在檔案收集(征集)、整理、保管、鑒定、統計和利用的整個流程。數字檔案資源管理因海量、復雜、變化大等特征,人工已經無法勝任,必須要實現資源的自動化管理,無需人工干預。軟件定義存儲集成3rd云化管理平臺,可以利用分析技術、分類技術和機器學習,對整個數字檔案共享中心內的檔案資源進行配置,實現整個數據中心資源的協作管理。同時軟件定義存儲與軟件定義網絡、軟件定義計算、軟件定義管理和軟件定義安全結合起來,形成軟件定義數據中心,為數字檔案共享提供更高級的智能化管理。
3.2.4 硬件自主和軟硬件分離
軟件定義存儲與傳統存儲最大不同在于軟硬件分離,軟件定義存儲以工作負載為核心,虛擬池自動配置資源,而傳統存儲以硬件為核心,數據中心依賴設備。軟件定義存儲既支持通用硬件也支持專用硬件的既有功能增強,還可以共用共享平臺提供的基礎設施。軟件定義存儲技術打破了服務器訪問限制,不用大投入購買指定存儲硬件或更高級別的相關硬件,可以減少投入、節約資源、提高效率。
3.2.5 雙區域異地備份技術
傳統存儲技術將數據信息備份在檔案館的自有服務器上,如果管理不當或發生不可預見的災害,將會導致服務器損毀,數字檔案信息的安全性得不到保障,更不用奢談維持日常的管理和利用服務了。而在軟件定義存儲技術下,數字檔案資源是虛擬化的,在劃分資源區域時每兩個區域備份對方所有的數字檔案信息,一旦某個區域發生意外,可以立即轉移到另一區域訪問,或從另一區域中恢復。所以軟件定義存儲技術在不額外增加備份設備的基礎上,實現數據備份和容災措施,避免因地震、火災等不可抗因素造成的數字檔案資源毀壞,有效保證數字檔案資源的信息安全。
傳統存儲技術無法兼顧數字檔案共享需要的各項技術要求,而基于云存儲的軟件定義存儲技術為解決各類技術難點提供了方案。中國IMT-2020(5G)推進組組長、中國信息通信研究院副院長王志勤表示,軟件定義存儲技術可以打破傳統存儲系統由于軟硬件緊耦合造成的系統割裂狀態,實現異構存儲資源的整合。在信息大爆炸背景下,軟件定義存儲可使用舊的各類存儲設施,同時運用分布式處理技術,最大化的增強系統存儲空間,提高系統的擴展性與靈活性,節約成本并實現資源的集中統一管理。
雖然目前軟件定義存儲技術還處于初級階段,有許多問題需要解決,如版權、標準、技術等,但是其必定成為科技領域的又一次革命。在HypeCycle報告中[4],預測5到10年會大規模應用軟件定義存儲技術。軟件定義存儲是存儲技術發展的必經之路,利用軟件定義存儲的擴展靈活、接口豐富、數據路徑多、軟硬件分離、自動存儲管理、服務分級管理、建維成本低等優勢,探索數字檔案共享建設模式,包括資源管理與調度、策略配置、認證授權、壓縮加密、性能監控、系統維護、備份恢復等,是我們加快數字檔案資源共享建設、改變檔案資源獲取和傳播方式的一個技術捷徑,必須高度關注,認真追蹤研究。