張寧楊敬敬
摘要:國外關于數字格式登記系統的研究發展較快,最為我們所熟知的項目為英國的PRONOM項目、哈佛大學領導的GDFR項目和加州數字圖書館領導開展的UDFR項目。本文采用文獻研究的方法,分別對上述三個典型的格式登記系統的聯系與區別進行全面的對比分析,重點從三者的產生背景、參與機構與項目進程,數據模型,主要功能與流程進行詳細深入的比較。
關鍵詞:數字格式登記系統PRONOMGDFR UDFR
Abstract: Studies on the digital format abroad registry develops rapidly, such as Britains PRO? NOM,GDFR led by Harvard University and UDFR launched by California Digital Library.This paper us? es the method of literature research to comprehen? sively compare and analyze the relations and differ? ences of these three typical digital registry sys? tems. It makes detailed and profound comparisons focused on three projectsorigional background,par? ticipating organizations, research progress, data model, main functions and procedures,which gives us a comprehensive and in-depth understanding of three projects.
Keywords: Digital format registry;PRONOM;GDFR;UDFR
數字對象的長期保存是信息時代面臨的一個世界性難題。一般意義上的數字文件長期保存方法包括更新、仿真、遷移和封裝等,而數字文件格式登記系統則開創了一個全新的視角,成為目前較有代表性的一種。PRONOM項目、GDFR項目與UDFR項目,在一定程度上代表了國外目前的發展水平及世界未來的發展方向。本文通過對國外三個較為典型的格式登記系統進行對比分析,以期為我國建立數字格式登記系統提供思考與借鑒。
一、數字格式登記系統概述
數字格式登記系統全稱為數字文件格式登記系統(digital file format registry),是指能對數字文件格式的屬性進行描述、識別、記錄和保存,支持信息系統通過公開發行和規范的機制去發現所需要的文件格式信息,進而識別、轉換、展示和保存相應文件的系統。對該定義進行梳理后,筆者認為可以將其理解為:它是基于數字文件格式的應用環境和生命周期來建立描述模型,進而建立詳細的屬性信息,實現對格式的全面、精準的描述。簡言之,一個文件的格式即代表了它產生和運用的各種條件,只有條件具備它才能夠存在,這些條件即構成了應用環境。而生命周期即任何事物都存在從產生到消亡的周期規律,格式也不例外,且在技術日新月異的信息時代,格式更替變換的速度加快,對于每一種格式,它自身經歷了從產生到廣泛接受和運用及最后又被其他格式取代的過程,因此,要想實現數字文件的長期保存,必須掌握每種格式的生命周期性運動信息,才能保證格式所附帶的信息內容的識別和讀取,從而實現數字文件的長期保存。由此可見,數字格式登記系統為數字文件提供了一個全面、全程的管理框架,能夠使數字文件在保存技術和環境的不斷變化中實現識別、解析、遷移、轉換和保存。
二、PRONOM、GDFR與UDFR的聯系
PRONOM項目作為數字格式登記系統,是由英國國家檔案館牽頭負責并將其委托給專業公司進行開發而得,作為英國國家檔案館內部資源使用。PRONOM作為數字格式登記系統的首次嘗試,為數字文件長期保存開辟了新的方向,也為后來者提供了改進的空間,促使了GDFR和UDFR等更加完善的格式登記系統的誕生。
GDFR項目旨在通過建立一個網絡協議框架,實現不同注冊表、不同格式登記系統之間的溝通,進而建立一個跨系統的互操作平臺。這一平臺擴展了PRONOM的適用范圍,增強了MIME MTR的準確度,促進了數字格式登記系統的進一步發展。
UDFR項目的實施可謂是“1+1≥2”的實踐,其目的是解決PRONOM項目與GDFR項目各自為政的狀況。它不僅融合了二者的格式信息和功能模塊信息,更提供了語義網的開源、持續獲取的平臺。
三、PRONOM、GDFR與UDFR的區別
(一)啟動背景、參與機構與項目進程不同
PRONOM項目始于2002年,英國國家檔案數字存儲部為了獲取有關電子文件本質屬性的可信技術信息,于2000年開發了一個信息系統,這個系統就是PRONOM的雛形。該項目由英國國家檔案館下屬的數字存儲部負責實施,具體的技術研發事項委托Tes? sella公司進行。其開發呈明顯的連續性,自2002年開始后每年或每隔一年就有更完善的版本產生,至今已更新至PRONOM8.0。由于該項目服務于英國國家檔案館的一個內部機構,因此限制了其功能和適用范圍。
GDFR項目始于2006年止于2008年,沒有產生有價值的軟件產品或存儲數據庫。其創建始于數字圖書館領域需要一個持續的、全球的數字格式登記系統,而MIME MTR對格式的細節屬性描述得不夠深入。在這種情況下,2003年國際圖書館協會聯合會大會上提出了全球化數字格式登記系統的愿景,商討定義一個通用的網絡協議,即通過將多個獨立的注冊格式系統進行相互溝通,同步其格式表征信息,從而達到共通、互操作的效果。會議隨后成立了由美國哈佛大學牽頭,紐約大學、賓州大學、聯機計算機圖書館中心和英國公共檔案館等組成的臨時工作組商討建立GDFR。
UDFR項目始于2009年4月,其實施一方面是建立在為期十年的、有眾多機構參與的國際注冊格式的工作實踐上,另一方面是由于PRONOM與GDFR的各自為政所暴露的缺陷:PRONOM實施范圍較窄,GDFR存在溝通不便、技術性較差的問題。UDFR項目是在美國國會圖書館國家數字信息基礎設施保護計劃項目的資助下開展的一個項目,由美國加州數字圖書館的加州大學策展中心領導開展。它的具體設計與實施由臨時理事會負責管理,2010年正式開始設計實施至2012年項目結束,整個項目共兩期。一期為2010年1月至12月,二期為2011年1月至2012年7月,近兩年該項目仍處于二期方案的實施完善階段,主要以開會討論為主,每年會產生相應的會議記錄之類的文件。該項目存在項目管理方面的問題,加之其隸屬于一個項目的子項目,也存在資金持續性問題。
(二)數據模型不同
PRONOM4的數據模型較為典型,該模型分為三個等級層次,分別是核心實體、技術組件實體及兩實體的聯系。如圖1所示,最外圍為核心實體,有四個組成部分:行為體、文檔、簽名、知識產權(IPR)。然后是第二個層級即技術組件實體,包括文件格式、軟件元件、存儲媒體和硬件元件四部分。第三個層級即各個技術組件都有具體的組成部分,如文件格式是由字符編碼、壓縮類型、內部簽名和類別等七部分組成。兩個實體之間的關系會根據實體類型的不同而進行相應的定義,即一個完整意義上的格式包含了它的壓縮類型、內外部簽名、所屬類別和家族及其對應的字符編碼信息,這構成了一個數字文件的內部描述信息,然后進入其應用信息的描述,即包含存儲媒體和運行的軟、硬件環境等,最終構成一個獨特的數字文件格式。
從圖2可以看出,GDFR5.0的數據模型在具備了PRONOM模型的基本模塊的基礎上新增了一些元素。最大的特點是抽象實體里的依賴性,即包括軟、硬件依賴和介質依賴三個方面,這是據應用環境的一種依賴建立的關聯,以實現不同注冊格式的關聯性,這是互操作實現的關鍵。比較可以發現PRONOM4的模型較為基礎,GDFR5.0則新增了代理、語法和評估等幾個方面的元件,而這正成就了GDFR項目全球范圍互操作的目標。
UDFR數據模型由PRONOM和GDFR的數據模型組合而成,它是在二者的基礎上加上支持UDFR共享所需要附加的元件組合而成。UDFR模型最大的不同是抽象系列概念的提出,在對數字文件的格式進行基本的描述登記之后,通過抽象功能將抽象格式經過技術處理進行抽象輸出,這些抽象輸出進入系統,在受控詞匯的作用下實現各種格式之間的互聯互通,這些都為語義網的運用提供基礎,實現數字文件的長期保存。
(三)主要功能和流程不同
PRONOM的主要功能即將數字對象存入系統對其進行監測與保護。其流程主要有四步:首先,一個數字對象進入登記系統,通過DROID對其進行格式識別。其次,對識別后的格式信息進行屬性抽取,包括表征特征和內容特征,系統會賦予其一個唯一的標示符。再次,制訂保存計劃,包括風險測評、技術檢測、影響因子評估、遷移路徑生成幾個模塊。最后,實施遷移。遷移時會產生相應的記錄文檔存入系統以證明本次遷移,同時進行再次識別、確認與屬性抽取,并與遷移之前的進行比較,以保證遷移前后的一致性。
GDFR的功能則是通過開發開放的網絡協議,實現不同注冊格式之間的轉換,通過與通用數據模型和通信協議合作,同步登記其持有格式表示的信息。其流程是:首先,將文件格式定義成一種固定的、以位序列編碼的信息模型,每個格式的基本屬性包括:標示符、創建者、簽名、狀態和注釋等12個。并按照內容和物理媒介的分類體系對格式進行分類,它提供與格式定義文件的鏈接,描述格式定義文件的獲取方式。其次,實現不同操作平臺之間的互操作,從而在世界范圍內讀取和保存數字文件,提供管理服務、檢索服務、驗證服務和中介服務四種服務。
UDFR融合了PRONOM與GDFR這兩個格式登記系統的功能,并結合語義網最終實現在一個開源的、語義的和社區支持的平臺上運行。其流程是:首先,規范和公開可用的文檔。支持格式的導出和任何格式的輸入功能,在UDFR的中央登記處,既可以提供相應的服務和工具的導出,支持英國國家檔案館開發的數字對象識別編碼DROID5的使用,又可以接受記錄批量導入到注冊表中。其次,進行設計、開發與測試工作。設計包括Web用戶界面和所涉及的所有內容,記錄和證明信息的來源和審查結構的水平,以保證數字對象的質量。格式信息進入系統之后,將會被賦予一個獨特的UDFR標示符。隨著格式信息的變化,UDFR繼承了PRONOM能夠同時記錄版本信息變化的功能,不同的是它記錄這種變化的詳細程度提升,能夠精確到對具體個體的修改。
參考文獻:
[1]梁娜,張曉琳.數字文件格式登記系統[J].圖書情報工作,2005(11):80-82.
[2]PRONOM 4 INFORMATION MODEL.[EB/ OL].[2005-01-04].
http://www.nationalarchives.gov.uk/aboutapps/file? format/pdf/pronom_4_info_model.pdf.
[3]The PRONOM Service:A technical registry to support long-term preservation.[EB/OL].[2004-07-29].
http://www.nationalarchives.gov.uk/aboutapps/pro? nom/pdf/pronom servise.pdf.
[4]黃玉明.電子文件格式困局破解之道[J].中國檔案,2010(7):56-58.
[5]A Proposal for a Global Digital Format Registry.[EB/OL].[2005-09-29].
http://hul.harvard.edu/gdfr/documents-historical. html.
[6]UDFR project proposal.[EB/OL].[2009-11-07].
http://udfr.org/project/UDFR- project- proposal. pdf.
[7]Stephen Abrams and Andrea Goethals.Global Dig? ital Format Registry (GDFR) Data Model v.5.0.14.[EB/ OL].[2008-05-22].
http://library.harvard.edu/preservation/digital- pres? ervation_gdfr.html.
[8]Automatic Format Identification Using PRO? NOM and DROID.[EB/OL]. [2006-03-07].
http://www.nationalarchives.gov.uk/aboutapps/file? format/pdf/automatic_format_identification.pdf.
[9]Stephen L. Abrams.Proposal for a format registry for digital preservation.[EB/OL].[2005- 05- 25].http:// hul.harvard.edu/gdfr/GDFR-proposal.doc.
[10]UDFR.Unified Digital Format Registry(UDFR) proposal and road map.[EB/OL].[2014-04-16].
http://www.udfr.org/.
作者單位:中國人民大學信息資源管理學院