關鍵詞:長期保存;數字保存系統;存儲模型
摘 要:無論軟硬件基礎設施和目標用戶如何變化,數字資源長期保存系統在可預期的未來能夠確保信息的完整性和真實性,為用戶提供數字信息獲取服務。SIRF是由SNIA(全球網絡存儲工業協會)提出的一種標準化數字資源存儲格式,能夠簡化數字資源長期保存的流程,節省成本。文章通過對SIRF的定義和存儲模型的分析,詳細介紹了SIRF在各行業的應用模式,以期為我國數字資源長期保存系統的建設和發展提供借鑒。
中圖分類號:G250文獻標識碼:A文章編號:1003-1588(2021)06-0085-03
1 背景
隨著互聯網應用的普及,越來越多的組織機構需要長期保存和訪問各種大數據信息,如電子郵件、醫療記錄及財務記錄等,并對這些大數據信息進行統計、分析,進而為商業決策或科學研究提供數據支撐。為了搶奪用戶,大型網絡公司積極為用戶提供照片、視頻、音頻等個人數據的云存儲服務,并提供電子圖書、流行音樂、電影和其他數字資源的訪問和下載服務。全球網絡存儲工業協會(SNIA)的統計結果顯示,有83%的企業、機構需要保存數字資源50年以上,有53%的機構需要永久保存他們的數字資源[1]。
為了應對以上挑戰,全球網絡存儲工業協會專門成立了數字資源長期保存工作組,并構建了SIRF信息自存儲模型,以期建立一個獨立的數字資源存儲標準格式,確保數字資源的完整性、真實性和可用性。SIRF在數據存儲層為元數據提供了一個容器,保證原始數據信息在跨設備和跨系統遷移過程中能夠得到妥善保存。數字資源長期保存是指在可預期的未來,無論軟硬件基礎設施和目標用戶如何變化,系統仍能為用戶提供數字信息獲取服務,并保證信息的完整性和真實性[2]。數字資源長期保存通常面臨比特存儲和邏輯存儲兩種挑戰。比特存儲是指系統在遭遇各種風險時,如系統軟硬件設施老化、過時,遭遇黑客攻擊,甚至發生火災、地震、洪水等自然災害等,系統仍能為用戶提供數字資源訪問和存取服務。邏輯存儲是指當使用環境(包括服務器、操作系統、數據庫管理軟件及其他應用)和目標用戶發生變化時,系統仍可以保證數字資源的可理解性、可用性、真實性和完整性,為用戶提供數字資源長期保存服務。
雖然開放檔案信息系統(OAIS)作為核心的數字資源保存系統,擁有靈活適應各種環境的數字資源保存框架和結構,但僅對系統高層的參考模型進行了定義,相關機構需要根據實際情況對工作流程進行細化。SIRF信息自存儲模型提供了一種存儲容器,可以保存包含大量語義信息的元數據,并能與其他類型的存儲容器連接,對數字資源保存系統的原始數據進行解釋和說明。同時,SIRF信息自存儲模型具備跨軟硬件系統平臺的操作能力,能夠為未來的數據遷移提供良好的支持。
2 SIRF信息自存儲模型介紹
在過去的檔案、磁帶等文件的保存過程中,管理人員會根據資源的使用范圍、類型等進行分類,將這些文件存放在貼有序號、時間和內容介紹的文件柜中進行保存,以備將來查詢、使用。SIRF信息自存儲模型作為一種數字資源存儲容器,包括對數字資源進行描述的元數據目錄、數據對象及其之間的關系等內容。相關機構可利用SIRF信息自存儲模型,有效解決數字資源在長期保存過程中遇到的一些問題,最大限度地滿足用戶對數字資源的長期存取需求。
2.1 SIRF組件
SIRF為計算機文件系統、云存儲系統和數據倉庫等存儲子系統提供了一種邏輯數據格式,其主要包括以下三個組件:一是Magic Object,該組件獨立于物理存儲介質,名稱和大小固定,用于標示SIRF容器及版本,并提供訪問SIRF目錄的方法。二是Preservation Objects,該組件存放需要長期保存的原始數據,如OAIS系統中的AIP數據信息。三是Catalog,目錄一般會經常更新,包括對原始數據進行描述、解釋等信息內容,能為用戶通過存儲系統獲取數字資源提供便利。傳統數字資源保存系統的元數據信息較少,容易導致原始數據在長期保存過程中無法被理解和使用。SIRF通過目錄組件保存了豐富的語義信息元數據,為用戶充分理解數字資源保存系統中的原始數據提供了便利,保證了數字資源的可用性。
2.2 SIRF屬性
隨著數字技術的不斷發展,軟硬件設施的更新速度加快。為了長期保存數字資源,并隨時為用戶提供數字資源存取服務,相關機構必須對數字資源的內容進行遷移,以保證信息的長期可用性和可理解性。SIRF具有自我包含、自我描述和可擴展性等特點,能夠解決數字資源長期保存過程中存在的一些問題[3]。
2.2.1 自我包含。相關機構在長期保存數字資源的過程中需要保存其內容信息和元數據,如果不能對這些數據進行有效管理,在未來就可能發生內容信息與元數據分離的情況,進而導致數字資源無法被正常使用。針對長期保存的數字資源,SIRF能夠把內容信息和元數據作為單一的數字單元進行存儲、遷移和管理,從而保證數字對象生命周期期間的內容完整性和一致性。
2.2.2 自我描述。目標用戶在獲取數字資源的過程中既可通過描述信息判斷哪些是內容信息,哪些是元數據,也可通過元數據理解內容信息的含義。但是,如果描述信息本身較復雜,需要相應的描述信息對其進行解釋說明,就容易陷入一個不斷重復的死循環。SIRF在最原始的根描述信息環節采用ASCII碼等國際通用格式進行解釋說明,并不斷對描述信息進行更新和遷移,從而保證了數字資源的長期可用性和可理解性。
2.2.3 可擴展性。隨著時間的推移,相關機構不可能對所有技術環境的變化和目標用戶的改變進行準確預測和判斷,因此,其應對環境和用戶的變化情況進行記錄。例如,相關機構在對數字資源進行遷移或增加新的數字資源的過程中,應對原始數據的格式和新的數據格式進行保存。SIRF容器具有靈活性、可擴展性等特點,能夠對相應的變化情況進行及時的記錄。
3 SIRF元數據目錄
SIRF元數據目錄是一個包括元數據描述及其相互關系的數字對象,其格式經過標準化定義,能夠為未來用戶的理解和利用提供便利。存儲對象的元數據信息是由不同軟硬件系統生成的,相關機構很難對其數據格式進行標準化處理。因此,相關機構應對SIRF目錄對象與存儲對象的元數據進行區分。SIRF目錄既包括描述SIRF組件的元數據信息,也包括描述單個存儲對象(Preservation Object)的元數據信息,SIRF能按照不同類型、成分和屬性對兩種元數據信息進行分層組織、表示。
3.1 SIRF組件元數據
SIRF組件元數據信息包括詳細的描述信息、組件ID、狀態信息、起源信息等。隨著時間的推移,針對SIRF組件內容進行詳細描述的元數據信息會產生不同版本,單個組件也可能擁有多個描述性元數據信息。因此,每一條詳細描述信息都會被設置不同的ID號和版本號,以保證元數據的長期可用性。組件ID元數據包括每個SIRF組件的唯一標識符,能夠確保數據的真實性和完整性。狀態信息對SIRF組件的工作狀態進行了詳細描述,如:哪些容器包括所有的存儲對象數據;哪些容器正在進行數據遷移,僅包括部分存儲對象數據。狀態信息完整記錄了每個組件的狀態,為用戶存取數字資源提供了支撐。起源信息對SIRF組件中存儲對象的來源、版權、存儲行為和影響等歷史數據進行記錄。由于信息類型或用戶類型的不同,起源信息存在較大區別,數據量規模龐大。因此,SIRF目錄僅存儲相關的地址信息。起源信息能夠對數字資源的來源、遷移過程、使用環境和意義進行詳細描述,對于用戶在未來能否順利獲取、理解和使用數字資源具有至關重要的作用。
3.2 SIRF目標對象元數據
SIRF目標對象元數據包括對象ID、不變性信息和審計日志等。對象ID用于確認長期保存對象,并與其他長期保存對象建立聯系。對象標識符元數據的設置可以解決數字資源長期保存過程中如何保證標識符唯一性的問題。針對長期保存對象的發展變化,SIRF允許使用多個對象標識符記錄其不同版本,但同一時間僅能使用一個對象標識符。這種方式既能解決冗余問題,也能保證標識符在發展、更新過程中的可擴展性。不變性信息元數據能保證數字資源的準確性,相關機構可通過簡單的CRC(循環冗余校驗)或復雜的MD5(信息摘要算法)對不變性信息進行計算和驗證,但隨著時間的推移,強大的驗證算法也會過時。因此,SIRF目錄允許使用多種冗余算法對長期保存的對象進行驗證。審計日志能夠保存系統對長期保存對象的存取和修改等重要信息。不同的數字資源長期保存系統對審計日志的內容和擴展信息的要求不同,管理方式也不一樣。審計日志信息一般以長期保存對象鏈接的形式被保存在SIRF目錄中。
4 SIRF的應用
4.1 SIRF應用模型
SIRF應用模型主要包括Storage(存儲模塊)、TP-Service(當前存儲服務模塊)、FP-Service(未來存儲服務模塊)、T-App(當前應用模塊)、F-App(未來應用模塊)及Registry(功能信息模塊)。Storage(存儲模塊),即存儲子系統,負責保存所有的數字資源;TP-Service(當前存儲服務模塊),即當前系統提供的存儲服務類型,如數字攝取服務、數據轉換服務等;FP-Service(未來存儲服務模塊),即未來能夠提供的存儲服務;T-App(當前應用模塊),即當前使用的各種應用軟件;F-App(未來應用模塊),即未來使用的應用軟件;Registry(功能信息模塊)負責保存文件格式信息(如PDF、docx、jpg)等內容。
4.2 個人云存儲數字保存系統應用案例
個人用戶通過SIRF數據模型的云存儲系統能夠對家庭照片和相關文檔等數字資源進行長期保存,并在未來便利地存取和保存。使用流程如下:個人用戶在云存儲系統創建一個關于家譜的數字容器,存放需要保存的照片、音頻、視頻及文檔資源;個人用戶通過云存儲系統的TP-Service服務模塊,使用T-App服務模塊對家譜相關內容進行攝取;TP-Service服務模塊能夠把攝取的內容按照國際標準轉換為適合長期保存的數據格式,并把轉換后的數字保存對象保存在家譜數字容器中;隨著時間的推移,用戶的后代如果需要訪問、獲取家譜數字容器中保存的相關內容,就要通過FP-Service服務模塊驗證用戶身份并提供授權;F-App模塊能夠通過FP-Service服務模塊獲取最新版本的數字資源,并以PDF等通用的數字格式提供給用戶。
云存儲數字資源保存系統應具備以下條件:支持長期保存對象的格式轉換,并能夠保存原始和轉換后的版本;能夠對數字唯一標識符進行長期管理,保證唯一性;當安全保密機制過時,能夠及時更新系統,保證數字資源的安全性;保證數字容器符合SIRF數字容器標準,并能夠與其他云存儲系統連接;保證數字資源在數字遷移或數字仿真后的真實性、完整性和可理解性。
參考文獻:
[1] 吳振新.長期保存中的數字對象不變性研究[J].現代圖書情報技術,2014(11):1-9.
[2] 吳振新,付鴻鵠,馬海收,等.長期保存系統監控服務內容框架研究[J].圖書情報工作,2014(3):51-57.
[3] 董曉莉.SIRF與長期保存數字對象的不變性研究[J].圖書館雜志,2017(3):69-76.
(編校:孫新梅)
收稿日期:2021-05-09
作者簡介:陳志鵬(1977— ),鄭州財經學院圖書館館員。