董曉莉
〔摘 要〕數字資源長期保存的可信性是一個圖書館開展數字資源長期保存實踐的核心和基礎保障,目前的研究主要是基于數字倉儲系統的可信性研究,尚未建立一套基于長期保存體系的可信保障機制,仍屬于探索階段。本文在介紹數字資源長期保存可信性基本概念的基礎上, 從技術角度著重分析了數字資源長期保存可信性的流程和模型,并根據流程推出具體的實施方法。最后,對國內外研究現狀和下一步需要做的工作進行了分析。相信,對于“數字資源長期保存可信性“的研究,將對數字圖書館長期保存工作的開展起到拋磚引玉的作用。
〔關鍵詞〕長期保存;數字圖書館;數字信息資源;可信性
1 概 述
數字資源長期保存是指對數字資源長期保存期間的保存管理,管理期間需要保持數據的真實性、可獲取性和可理解性[1]。在數字信息無處不在的今天,20年前的數據我們仍能有效讀取嗎?即使能夠讀取,我們是否可以判斷該資源是否完整?是否被修改過?是否是贗品?毫無疑問,只有解決這些問題,才能在相當長的一段時間內,保證保存數字資源是安全、可信的,這也是數字資源長期保存的意義所在。長期保存的數字資源,在其保存生命周期內,必然會由于外部環境、用戶需求等方面的變化導致數字信息的不可靠。特別是隨著信息技術的不斷變革,我們不可避免地會采用相應的長期保存策略,如遷移、封裝等技術手段。因此,如何保證不穩定的數字資源的可靠性、可用性以及數字資源的完整性,確保各種數字資源能隨時提取利用,以便為今后的數字信息提供保障,是國家數字圖書館當前亟待解決的問題。

2 數字資源長期保存可信性分析
數字資源長期的可信性,涉及保證數字資源的生存能力、可呈現能力和可理解能力。數字資源的生存能力是指保持完整的數字位流文件;可呈現能力是指具有將數字位流文件轉換成人或機器可讀取的記錄資源;可理解能力是指保存的資源可以被用戶群體所理解。
2.1 數字資源長期保存可信性研究中概念的界定
2.1.1 數字對象與表征信息
當數字信息作為一個整體時,它不可避免地需要采用不同的方法在不同的介質上進行呈現,也就是說,它總是以某種形式的數字對象來表現。比如,數字信息可以存儲在光盤、磁盤等介質上,但是,顯示這些信息會使用CRT或LCD等設備進行呈現;此外,數字信息通常以二進制的形式被計算機系統存儲、傳輸和處理,人類通過某種編碼格式將其組合并呈現。因此,在長期保存數字資源時,不但需要記錄電子資源原始的基本特征,而且這些特征應能充分表征這些記錄與其它記錄的區別,數字對象與表征信息共同構成了信息對象的整體。劃分表征信息與數字對象,可以有效地幫助長期保存工作者劃分保存資源的內容和其相關描述信息,并通過信息封裝等技術手段完成數字信息的保存。
2.1.2 歸檔信息的表現信息與利用信息的表現信息

為了達到長期保存的目的,需要維護信息資源的可用性,所以至少一個信息對象實體的特定版本中所涉及的所有文件均被標識、存儲和維護。只有這樣,該信息對象才能被聚合并呈現給用戶。比如,一篇期刊文章可以由一個TIFF文件構成;這構成了一個信息對象的歸檔表現。另一篇文章可以由XML文件和一組圖象構成,這3個文件共同構成了一個信息對象的利用表現。不同的歸檔表現信息與利用表現信息并非僅存在于不同的數字記錄與數字文件中。一條歸檔信息可以通過不同形式,呈現出不同的表現信息加以利用。因此,歸檔信息對象的表現信息與利用信息的表現信息之間存在著一對一、一對多、多對一、多對多的情況。通常情況下,信息對象并非作為獨立完整單元進行存儲,它通常存儲在多個數字文件中,因此,可以通過數字對象和不同表現信息的組合,根據需求,表現出信息對象的不同呈現形式。這里區分歸檔信息的表現信息與利用信息的表現信息,其意義在于對長期保存目標進一步的明確。比如,歸檔表現信息不對信息對象的排版、格式等利用表現信息的特征進行保存;但對資源利用而言,其表現形式是非常重要的。長期保存的任務是對知識內容進行保存,僅保存必要的表現形式,而并不關注內容的外在形式。
2.1.3 數字資源長期保存的可信性控制
數字信息在保存過程中要求保持信息的一致性和完整性,保證數字信息在其保存周期中的信息呈現形式不變,內部結構信息不變,元數據信息不變。也就是說,保存應通過一系列的監控技術手段,實現數字文獻的內容、結構、背景等方面的信息與原始狀況一致并無缺失,同時應保證保存信息資源的可識別、底層存儲系統的可靠、載體完好并具有良好的兼容性。
當數字信息從一個應用環境遷移到另一個新的應用環境,或者從一種遷移到另一種格式時,要保證其內容沒有改變,也就是保證數字信息的完整性和可識別性。影響長期保存數字資源真實性的技術因素可分為宏觀層面和微觀層面。宏觀因素主要集中在系統間、子系統間或各應用系統間交換數據;微觀層面主要集中在信息拆分、重新組合等方面。信息遷移將涉及宏觀和微觀兩個層面。

保存控制是長期保存資源可信性的關鍵技術因素,它應貫穿于信息采集、信息存儲、信息利用等多個環節,對保存的條件、相關約束信息等進行控制。長期保存控制,在信息資源的保存生命周期內,應當是有效的。因此,在執行保存控制時,不但要在宏觀層面做好數字信息的認證工作,而且要在微觀層面做好數字信息的審記等方面的工作。
2.2 數字資源可信性長期保存流程
2.2.1 數字資源保存通用模型
數字資源長期保存流程已由OAIS(Open Archival Information System)參考模型定義。在OAIS模型中,包含人員、系統等各類因素,其目標是保證長期保存資源在目標群體的可用性。
從宏觀層面上,數字資源的長期保存涉及數字資源的生產者或擁有者(包括個人、機構或系統),同時也是數字資源長期保存提交方;管理者(包括最終保存機構、歸屬系統、法律法規制定機構等);用戶(包括個人、機構或系統,同時也是數字資源的最終使用者),如圖1所示。
從微觀層面上,從微觀技術層面上,電子出版物長期保存涉及到電子出版物內容存儲和有效使用的數據格式,包括相關的元數據、數字格式與處理方式的信息,關于編碼、格式、標記、結構、壓縮、加密的數據,內容校驗、版本演變、知識產權管理等數據[2]。同時,還涉及到保存的軟件、硬件環境等諸多方面。
綜上所述,數字資源的長期保存既涉及宏觀管理層面,又涉及到具體技術層面。在數字環境下,傳統的以載體保護或技術控制為主的技術手段顯然已經過時,必須以貫穿保存系統內的系統控制為主。
2.2.2 長期保存可信性數字資源流程
(1)長期保存數字資源可信性通用模型
數字資源長期保存可信性模型主要用于長期保存系統中對保存資源的系統控制。該模型是一個通用概念模型而非功能模型,主要描述長期保存資源的過程,接收資源所需要的相關攝入過程、控制過程以及完成長期保存所必要的機制和每個過程的輸出。該模型主要完成相關過程和實體的定義和數字資源長期保存系統的資源保存過程,如圖2所示。
為保證長期保存數字資源的可信性,在總體策略方面,我們需要考慮兩個方面,一方面我們需要考慮長期保存的目標和需求,這些需求包括長期保存的原理、相關標準規范、以及各機構的保存目標和流程等諸多方面。另一方面,由于長期保存數字資源需要依賴于外部系統環境因素,因此,受限于信息技術發展狀態和系統的開放程度。在底層保障機制方面,我們需要考慮3個方面,一個是實際可信賴的信息技術和通信技術,主要包括數字資源長期保存過程中涉及的軟件、硬件、物理介質等方面;數字資源的實際保存處理流程;以及相關機構/用戶群體3個方面。在長期保存數字資源記錄的過程中,有兩個主要的輸入,一個是對于長期保存數字資源的傳輸,一個是對于已保存數字資源元數據或對象數據的查詢,此外,還需要考慮對于長期保存數字資源的相關環境信息的收集和保存,如設備信息、信息技術、相關設備等[3-4]。
(2)數字資源可信性管理
長期保存數字資源須遵循OAIS參考模型,在統一的概念、屬性和框架下,進行規劃和設計。在此基礎上,按照數字資源長期保存信息生命周期的過程(即信息攝取、保存管理、信息管理、信息輸出),為長期保存可信數字資源設計了主要的保存處理流程,如圖3所示。
①信息攝取
信息攝取的主要工作是根據保存管理設定的資源保存策略,從信息資源提供者處接收并傳輸資源,按照資源的原有組織形式生成提交信息包。該部分涉及資源獲取和合格信息包提交兩部分的內容。此時,我們為了保證資源獲取的可信性,需要根據保存管理的長期保存策略、方法等各類信息,對數字對象的獲取權限、數字對象的來源、正確性、完整性以及充分性等方面進行控制。同時,應當充分記錄數字對象獲取過程的所有操作記錄。
②保存管理
保存管理擔負著長期保存數字資源的任務,因此,長期保存策略、方法和計劃是數字資源能否得到有效、可靠保存的基礎保障。在此,我們需要從保存方法是否可行、保存策略是否已經過嚴格測試、保存計劃是否有嚴格的控制機制,并根據保存過程中的反饋信息及時進行調整等方面進行考察。
③信息管理
信息管理按照保存管理的要求,負責數據更新,并通過數據遷移、技術仿真等技術手段完成資源的存儲、保存和維護。同時,負責完成對保存資源的提取,并傳輸給信息輸出模塊供外部使用。在此,我們不但需要完成對對象數據的管理,同時需要對與對象數據相關的元數據,如描述元數據、與保存政策相關的元數據等進行保存;對保存技術、程序、系統環境信息等進行保存和考察。
④信息輸出
信息輸出負責為用戶或其它系統提供檢索和索取保存資源的平臺,它可以提供檢索機制,同時承擔身份認證和授權管理的功能。在此,我們需要對訪問、輸出等過程的策略是否合適、這些策略的使用情況、以及數字對象在傳
遞過程中的一致性等方面進行考察。
(3)基礎設施及系統安全
可信的基礎設施和系統安全是實現數字資源可信保存的基礎和關鍵。以下我們主要從基礎設施和相關技術、系統操作和運行的安全性兩個方面進行考察。
①系統基礎設施和相關技術
在此,我們主要考察系統的基礎設施是否完善,是否有相應的安全機制進行保障,保存資源是否安全,并具有可操作、可信賴的管理機制。我們可以分別從操作系統、備份和保存條件、數據同步機制、差錯校驗機制等方面進行考察。此外,數字資源保存的目的是為用戶群提供可信的數字資源服務,因此,所提供的服務應當是方便、快捷、實效的。在此,我們需要考察是否具有適當的軟/硬件技術;是否對軟/硬件技術進行定期評估并確定合適的遷移方案,以保證長期保存資源的持續性。
②運行的安全性
保存資源經常受到內外部不同風險的威脅,如自然災害、人為因素、環境變換等,因此,維護系統的安全性是實施數字長期保存的根本保障。此處,我們需要從安全因素、安全措施、容災、備份/恢復計劃等方面進行考察。主要涉及系統、人員、物理環境的全方位風險分析,是否有安全的離線數據監管機制,以及是否有合理的備份和恢復計劃。
3 數字資源長期保存可信性實現
可信數字資源的長期保存會在其保存生命周期內受到外部環境、用戶需求變化等各種因素的影響[5]。如果系統的耦合度過高,會給系統內資源的審核、可信性驗證等功能的優化和改善以及新技術的應用帶來極大的不便。同時,數字資源長期保存往往面對的是不同類型資源的海量增長,不同資源類型需要不同的驗證手段,為此,也同樣需要系統具有良好的可擴展性。因此,我們考慮采用微服務的方式實現系統內保存資源可信性的驗證。微服務是系統內承擔簡單任務且與其他微服務協作的獨立功能組件,系統復雜功能的實現依賴于微服務之間的組配。微服務之間通過標準化的接口進行交互,這些接口采用中立的方式定義,獨立于實現服務的硬件平臺、操作系統和編程語言,它具有以下的特點:
(1)松散耦合,各個微服務之間的依賴關系較少;
(2)標準化接口,遵守相同的通信協議;
(3)獨立性,每個微服務獨立對邏輯處理過程進行封裝;
(4)復用性,可以多次使用。
微服務架構的功能是在標準化接口的基礎上提供松散耦合的服務,目標是通過各種服務的適當組合完成業務流程,提高系統的靈活性。我們可以根據需求,按照長期保存可信性資源流程,結合保存生命周期,將信息攝取、保存管理、信息管理和信息輸出分別分成若干功能模塊,根據功能模塊劃分出不同的功能組件。微服務定義是基于長期可信性數字資源流程的分析,將不同的工作流對應多個微服務。以下所述的微服務僅涉及可信性保障的相關服務。
我們可以定義如下的微服務:
(1)資源攝取的微服務構成:
①系統接受SIP(Submission Information Package)信息包,并將其存儲到SIP臨時存儲區。該服務主要接收相關系統或人員遞交的傳送數據電子表單,按資源的不同分類,根據提交規則通過Web或專用提交接口完成SIP信息包的接收工作,并將其存入SIP臨時存儲區。
②掃描SIP中的所有文件。當發現病毒或其他惡意軟件時,該服務將SIP放到隔離區,該SIP的所有處理過程停止。
③一旦攝入數據包,該服務為整個SIP信息包創建備份。完成對電子表單的檢查核對,并根據預先制定的接收規則完成對應SIP信息包的初步接收工作。
④系統驗證SIP信息包是否符合系統過程所需的結構。初步接收成功后,該服務完成對SIP信息包解包,并根據管理服務制定的SIP信息包的有效性和完整性規則完成對包內相關元數據(描述元數據、結構元數據、保存元數據、管理元數據)的抽取以及對象數據的審核校驗(主要包括數據完整性、是否重復、是否符合規則、病毒檢測、資源格式審核等方面)等工作。如發現與系統內預定規則不符,則完成對SIP信息包的回退工作,并將錯誤信息存儲同時返回提交方。
⑤為SIP的每個文件分配一個全局惟一標識符和完整性校驗碼。該服務提取SIP信息包中的惟一標識符,并根據系統內部標識符生成規則生成系統內部標識符。
⑥為SIP的每個文件分配完整性校驗碼。如果攝入的文件已經包含一個校驗文件,該微服務會檢驗并確認在傳遞到系統后,沒有文件被刪除或修改。
⑦抽取SIP包中的元數據,如果SIP包元數據不完整,該服務將添加XML模板。
⑧補充元數據,該服務可以讓用戶自己填寫域,這些值會作為系統創建的SIP的一部分上載到系統中。
⑨識別驗證文件格式,從文件中抽取技術元數據。在成功接收合格的SIP信息包后,該服務根據預先定制的規則和策略對提交資源的相關元數據進行抽取,并完成文件格式的驗證。
⑩用戶審定SIP包,用戶可能會瀏覽SIP包,確定它是否符合提交協議,在這個服務中用戶可以刪除不需要的文件。與此同時,刪除文件的日志會被添加到信息包中。
SIP包在預先設置的一段時間內會放在臨時存儲區。如果需要,該服務可以提前將SIP包從臨時存儲區中移出。
該服務為新的SIP包生產者建立相應的用戶賬號。
該服務將資源的表現信息、對象實體、以及元數據存儲到系統中,并完成新的實體資源的注冊。根據預先指定的策略,在忠實于原有信息包的情況下,將審核合格的資源表現信息、對象實體、以及元數據安全有效地更新到信息管理的存儲區中。
該服務從SIP存儲區中清除SIP包。
該服務為用戶反饋接受信息。
(2)信息管理的微服務構成:
①該服務為每個攝入的文件編輯包含整套保存元數據的METS文件,該文件與AIP(Archival Information Package)中的原始文件一起打包。
②該服務為所有的AIP內容產生SHA-1驗證碼。
③通過技術分析服務,該服務為信息包中增加新的文件。
④通過技術分析服務,該服務為信息包中增加新的元數據。同時完成與AIP信息包相關的部分描述元數據、結構元數據以及管理元數據信息、狀態信息以及保存元數據的入庫、更新等工作。
⑤更新表現信息。該服務完成與AIP信息包相關的表現信息的更新工作。
⑥根據打包規則完成AIP信息包的生成。在資源攝取成功后,根據預先定制AIP信息包封裝的規則和存儲策略,該服務對提交數據進行重新組合打包。
⑦用戶審查AIP并批準為檔案存儲,該服務將該AIP移到與存儲系統同步的AIP存儲區下。根據系統管理服務制定的存儲策略,在忠實于原有信息包的情況下,將系統內部的AIP信息包安全有效地保存。
(3)信息輸出的微服務構成:
①用戶身份審計。該服務負責對用戶或外部系統的角色的識別和認證等工作,有效地管理用戶、訪問權限等。
②該微服務將創建的獲取備份放在DIP(Dissemination Information Packages)存儲區中,同時元數據文件也添加到DIP中。
③對表現信息進行鎖定和檢測。在資源使用前,該服務要對資源的使用權限等信息進行確認,并檢查對象數據等各類信息。
④該服務獲取與對象數據相關的表現信息。
⑤該服務將審批通過的DIP上載到相應的服務系統中。
⑥該服務提供查詢功能,包括元數據、對象數據和表現信息。
(4)保存管理的微服務構成:
①數據檢測的功能分析與更新。該服務完成對存檔環境和數據的有效性監控和數據流的維護,出現問題時能及時有效地進行處理。
②該服務完成對文件格式的分析。
③該服務更新文件格式注冊信息。
④分析信息包及其相關文件的關聯性。該服務根據已有的長期保存標準和信息包的遷移目標,制定信息包模板、管理策略等。
⑤用戶管理服務,該服務完成如新用戶生成、用戶更新、用戶刪除等。
⑥長期保存規則管理,該服務完成如長期保存規則的更新、建立、刪除等。
⑦建立長期保存工作任務。根據系統內反饋的策略執行結果,以及用戶的保存需求,該服務制定保存方法和工作流程等。
⑧狀態監控以及數據流的維護。根據保存策略,該服務完成對存檔環境和數據的有效性監控和數據流的維護,出現問題時能及時有效地進行處理。
⑨信息包管理:根據已有的長期保存策略和信息包的遷移目標,該服務制定信息包模板、管理策略等。
⑩保存需求管理:該服務對外部系統或用戶提出的保存需求進行分析,并提取相關參數等信息,形成新的保存目標。
保存策略管理:該服務完成對新制定的保存策略進行分析,提取相關參數等信息。
4 國內外研究現狀
早在2000年,研究圖書館協會(Research Libraries Group,RLG)與聯機計算機圖書館中心(Online Computer Library Center,OCLC)就在《可信賴數字倉儲:屬性與職責》的報告中對可信賴長期保存系統的定義和特點做了詳細闡述,它指出可信賴長期保存系統(Trusted Digital Repositories,TDR)的目的在于為目標群體提供經過管理的數字資源的長期可靠的存取,包括現在的存取和未來的存取[6]。在此基礎上,一些機構或組織開展了對長期保存系統與服務可信度的認證工作,并制定出具有普遍性或僅適合本機構具體環境的認證指標體系。其中比較有代表性的指標體系包括:RLG與美國國家檔案管理局(National Archives and Records Administration,NARA)根據不同國家對長期保存系統加以審計或認證的實踐,擬定了《可信賴倉儲的審計及認證:指標與列表》(Trustworthy Repositories Audit & Certification:Criteria and Checklist,TRAC);德國網絡信息計劃(Deutsche Initiative für Netzwerkinformation,DINI)制定的《DINI文檔與出版物服務認證》主要針對德國機構倉儲的開放存取,旨在為各大學機構倉儲間的標準化及基于互操作的信息服務與交流提供建議;由德國聯邦教育科研部(Federal Ministry of Education and Research,BMBF)資助的“德國數字資源的長期存儲與長期存取專業網絡”(Network of Expertise for Long-term Storage and Long-Term Availability of Digital Resources in Germany,nestor)下屬的可信賴倉儲認證工作組制定的《可信賴數字倉儲的指標體系》等。但是,目前的研究主要是基于數字倉儲系統的可信性研究,尚未建立一套基于長期保存體系的可信保障機制。
5 下一步要做的工作
為了保障數據信息的完整性,需要不斷審核保存資源。這說明在長期保存體系中,需要結合數字資源的長期保存生命周期,在其生命周期內,全方面地系統解決數據資源的可信性問題。具體來說,包括資源內容的可信性,如系統程序錯誤、誤操作和設備機械故障等因素導致二進制數據的破壞,數字文件的質量受到參數設置改變的影響等;參考信息的可信性和完整性,如其他相關文件的關系,或與數字環境(軟硬件環境)依賴性之間的關系,保存活動沒有被完整記錄,來源信息不完整或不精確等;功能的完整性和可信性3個主要方面。由此可見,關于如何保存好數字簽名、保證數據資源內容的可信性、保存相對固定的資源版本、保存好文獻的活性鏈接、保存好文獻來源等方面都是需要進一步解決的技術問題。
未來,我們不但要建立一套適合中國國情的可信賴的數字資源長期保存體系,同時要對可信資源保存的技術細節進行進一步的研究。
參考文獻
[1]Jones,M.and Beagrie,N.Preservation management of digital materials:a handbook.London,UK:British Library Publishing,2001.
[2]宛玲,張曉林.數字資源長期保存中的知識產權問題研究[J].中國圖書館學報,2005,(3):66-67.
[3]劉家真.標準化與數字信息的長期存取[J].圖書館雜志,2001,(9):6-9.
[4]張曉林.數字信息的長期保護問題[J].圖書館,2005,(1):7-10.
[5]李文.試論數字資源的長期保存問題[J].惠州學院學報:社會科學版,2005,(2):103-106.
[6]Research Libraries Group.RLG/OCLC Trusted Digital Repositories:Attributes and Responsibilities[EB/OL].2007-12-10.
(本文責任編輯:王 涓)