周 祺 張照余/蘇州大學(xué)社會(huì)學(xué)院
近年來,國(guó)內(nèi)檔案界對(duì)于檔案數(shù)據(jù)安全與長(zhǎng)久保存策略的研究與實(shí)踐集中于元數(shù)據(jù)的采集和數(shù)據(jù)存儲(chǔ)備份兩個(gè)方面。然而,隨著讀取信息的軟、硬件環(huán)境的不斷迭代更新以及新型數(shù)據(jù)結(jié)構(gòu)的涌現(xiàn),存儲(chǔ)于介質(zhì)中的原始檔案數(shù)據(jù)將面臨無法被讀取的風(fēng)險(xiǎn)。解讀信息的應(yīng)用軟件及其對(duì)應(yīng)的文件本格式成為影響文件長(zhǎng)期可讀的關(guān)鍵因素。全球檔案界對(duì)文件格式的關(guān)注始于21世紀(jì)初,很多國(guó)家的檔案機(jī)構(gòu)已開始限定歸檔文件的格式。文件格式管控逐漸成為信息長(zhǎng)期傳輸、存儲(chǔ)與利用關(guān)注的焦點(diǎn)。2007年起,西方國(guó)家提出應(yīng)采取收集與分析文件格式信息并長(zhǎng)期追蹤格式變化的方法來保證檔案數(shù)據(jù)的長(zhǎng)期可讀,并且開發(fā)出文件格式登記數(shù)據(jù)庫(kù)、格式識(shí)別軟件系統(tǒng)等。本文遴選出全球范圍內(nèi)8個(gè)典型的文件格式項(xiàng)目加以綜述,以期為我國(guó)檔案界對(duì)文件格式的管控研究提供經(jīng)驗(yàn)。
在進(jìn)行問題分析之前,需要明確和統(tǒng)一對(duì)“電子文件格式”的認(rèn)知。本文綜合OAIS參考模型[1]、英國(guó)國(guó)家檔案館、全球數(shù)字格式注冊(cè)中心[2]對(duì)“格式”的定義,認(rèn)為格式的定義有廣義和狹義之分。廣義的“文件格式”是傳遞人類可識(shí)別的“表達(dá)信息”與機(jī)器可識(shí)別的“記錄信息”之間的描述,包括信息存儲(chǔ)介質(zhì)、信息傳播語言;狹義的文件格式指電子文件媒體的結(jié)構(gòu)與編碼方式,可以分為文件包裝器和編解碼器。
Archivematica是COPPUL(Council of Prairie and Pacific University Libraries,系加拿大西部4個(gè)省的22所大學(xué)圖書館組成的聯(lián)合體)開發(fā)的一個(gè)免費(fèi)、開源的數(shù)字保存系統(tǒng)。它以標(biāo)準(zhǔn)的、可長(zhǎng)期訪問的數(shù)字集合為管控對(duì)象,目標(biāo)是為技術(shù)和財(cái)政能力有限的檔案管理員或圖書館員提供工具、方法等,以便更好地保存數(shù)字信息。由于COPPUL在此之前的項(xiàng)目缺少數(shù)據(jù)保存的部分特征與功能,如格式轉(zhuǎn)換、保存元數(shù)據(jù)等,該系統(tǒng)很好地發(fā)揮了這些作用并彌補(bǔ)了數(shù)據(jù)難以長(zhǎng)期保存的短板,同時(shí)也契合OAIS功能模型從信息“輸入”到“訪問”的架構(gòu)。此外,項(xiàng)目人員參考系統(tǒng)運(yùn)行過程中的經(jīng)驗(yàn)及用戶反饋,在“數(shù)字對(duì)象”進(jìn)入“提交信息包(SIP)”這一過程的功能模塊擴(kuò)展到了OAIS模型之外[3]。
FPR(Format Policy Registry)是Archivematica系統(tǒng)重要的格式策略登記數(shù)據(jù)庫(kù)。格式策略規(guī)定了需要應(yīng)用于特定文件格式的相關(guān)操作、工具和設(shè)置(如轉(zhuǎn)換為保存格式或轉(zhuǎn)換為訪問格式)。隨著地區(qū)標(biāo)準(zhǔn)、實(shí)踐和工具的發(fā)展,格式策略也將發(fā)生變化[4]。在登記新的格式信息入庫(kù)時(shí),F(xiàn)PR推薦使用“格式說明”“格式版本”“PUID”“訪問格式和保存格式”等字段類型作為格式信息元數(shù)據(jù)。在FPR中,每個(gè)“格式記錄”的是一個(gè)或多個(gè)相關(guān)的文件格式,而每個(gè)“格式版本”記錄著一個(gè)特定的文件格式。如,圖像格式GIF的“格式記錄”由GIF 1987 A和GIF 1989 A兩個(gè)“格式版本”組成;“PUID”是英國(guó)國(guó)家檔案館格式登記系統(tǒng)的唯一識(shí)別符號(hào);“訪問格式”和“保存格式”可明確此格式是否適合作為最終用戶的訪問格式和保存格式。
PRONOM是TNA(英國(guó)國(guó)家檔案館)早期針對(duì)電子文件格式問題開展的項(xiàng)目,它也是一項(xiàng)格式技術(shù)登記服務(wù)平臺(tái),描述了數(shù)字對(duì)象的技術(shù)依賴性,以支持文件格式的長(zhǎng)期保存。這些技術(shù)依賴性與OAIS參考模型表示信息的概念相對(duì)應(yīng),包括對(duì)對(duì)象進(jìn)行編碼的格式、對(duì)這些對(duì)象執(zhí)行操作(如創(chuàng)建、渲染和遷移)可能需要的軟件工具以及這些工具對(duì)系統(tǒng)和硬件的依賴性[5]。此外PRONOM不僅是一個(gè)技術(shù)信息的數(shù)據(jù)庫(kù),還包括一系列支持?jǐn)?shù)字保存功能的工具和服務(wù),如保存風(fēng)險(xiǎn)評(píng)估、遷移路徑規(guī)劃、對(duì)象識(shí)別和驗(yàn)證以及元數(shù)據(jù)提取。PRROOM已經(jīng)經(jīng)歷了多個(gè)開發(fā)階段,目前的版本是PRONOM 6.2。
1.2.1 PUID
PUID(Persistent Unique Identifier,持久唯一標(biāo)識(shí)符)為PRONOM登記系統(tǒng)中記錄的信息單元提供持久、唯一且明確的標(biāo)識(shí)符。該標(biāo)識(shí)符對(duì)于數(shù)字對(duì)象格式的交換和管理至關(guān)重要[6]。開發(fā)PUID方案是為了記錄和區(qū)分不同格式以及同一種格式不同版本的身份標(biāo)識(shí),該方案是可擴(kuò)展的,在未來將擴(kuò)展到包括其他格式登記系統(tǒng)中的各類記錄信息,如壓縮方法、字符編碼方案和操作系統(tǒng)。PUID結(jié)構(gòu)和編碼限于表示具有技術(shù)規(guī)范的正式格式,而現(xiàn)實(shí)中很多文件格式?jīng)]有正式的規(guī)范,或可能與軟件無關(guān),或是與特定軟件產(chǎn)品一起開發(fā)的,因此PUID的缺點(diǎn)在于其粒度僅限于將一種格式與另一種格式區(qū)分開來,而不能體現(xiàn)某種格式的固有功能。
1.2.2 DROID
DROID(Digital Record Object Identification,格式識(shí)別軟件)是TNA開發(fā)的一種支持PUID文件格式識(shí)別的工具軟件,目前已在世界各地的文化記憶機(jī)構(gòu)、政府部門等得到廣泛應(yīng)用,并嵌入到多種商業(yè)和開源數(shù)字保存產(chǎn)品中[7]。DROID的核心功能是準(zhǔn)確識(shí)別文件格式,即使文件擴(kuò)展名錯(cuò)誤或丟失也能進(jìn)行準(zhǔn)確識(shí)別。進(jìn)行識(shí)別的范圍從廣義類型到格式版本級(jí)別,如“Adobe PDF v.1.6—便攜式文檔格式”。所有有關(guān)文件格式的信息(包括DROID所使用的識(shí)別簽名)都保存在PRONOM格式登記系統(tǒng)中。DROID目前可識(shí)別1400多種文件格式,并且這個(gè)數(shù)字一直在增長(zhǎng)。此外DROID提供API接口,支持與ERMS(電子文件管理系統(tǒng))或數(shù)據(jù)庫(kù)進(jìn)行集成,識(shí)別結(jié)果通過XML文件形式返回。
Format Profile(格式概覽)是NARA(美國(guó)國(guó)家檔案與文件署)基于數(shù)字保存計(jì)劃(Digital Preservation Program)提出的。2018年NARA重新修訂《永久電子文件移交格式指南》(以下簡(jiǎn)稱《指南》),這份指南充分反映了各機(jī)構(gòu)在創(chuàng)建和使用電子文件方面不斷發(fā)生著的格式變化過程[8]。NARA認(rèn)為,格式是數(shù)據(jù)長(zhǎng)期保存風(fēng)險(xiǎn)評(píng)估和保護(hù)規(guī)劃的重要檢測(cè)指標(biāo),因此應(yīng)定期對(duì)數(shù)字檔案資源格式進(jìn)行測(cè)評(píng),確定館藏?cái)?shù)字資源格式風(fēng)險(xiǎn)等級(jí)。等級(jí)包括“即將丟失信息的格式”“高危格式”“中危格式”“低危格式”“無風(fēng)險(xiǎn)格式”,以確認(rèn)哪些資源缺少長(zhǎng)期保存措施或者需要更新長(zhǎng)期保存策略,哪些保存策略需要優(yōu)先選擇和實(shí)施等。目前NARA已檢測(cè)超過16種文件類型中350個(gè)格式的變化。
1.3.1 Collection Profile(館藏概覽)
為更好地理解風(fēng)險(xiǎn),NARA創(chuàng)建了Collection Profile(館藏概覽)。它是一個(gè)記錄歸檔要求及保管目標(biāo)的工具,為擬定“保存計(jì)劃”而提供關(guān)鍵信息,以便采取可量化的方案來評(píng)估文件格式的可持續(xù)性和電子檔案長(zhǎng)期保存問題。電子文件保管部門還與系統(tǒng)所有者、IT部門合作,統(tǒng)計(jì)所有電子文件系統(tǒng)的文件格式,最終明確NARA館藏格式種類與數(shù)量。
1.3.2 Risk And Prioritization Matrix(風(fēng)險(xiǎn)和優(yōu)先級(jí)矩陣)
2014年,NARA創(chuàng)建了一個(gè)量化的移交格式適用性矩陣,即Risk And Prioritization Matrix(風(fēng)險(xiǎn)和優(yōu)先級(jí)矩陣),其中包括了37個(gè)關(guān)于可能影響格式可持續(xù)性的風(fēng)險(xiǎn)數(shù)據(jù)點(diǎn),即公開程度、采用程度/可行性、透明度、自描述、外部依賴性、許可和專利、使用加密/權(quán)限管理等,每個(gè)數(shù)據(jù)點(diǎn)和類別的權(quán)重各不相同。該矩陣幫助《指南》的編制團(tuán)隊(duì)確定并排列了永久電子文件移交至NARA的“首選”或“可接受”格式。在此基礎(chǔ)上,團(tuán)隊(duì)成員可根據(jù)數(shù)據(jù)點(diǎn)對(duì)格式風(fēng)險(xiǎn)的影響程度來調(diào)整權(quán)重,如格式對(duì)軟硬件的需求、格式轉(zhuǎn)換損失等。這一概念性認(rèn)識(shí)已被應(yīng)用到《指南》中的所有格式以及館藏中的70多種格式。由此確定了2種高風(fēng)險(xiǎn)、26種中等風(fēng)險(xiǎn)和42種低風(fēng)險(xiǎn)格式,較為熟悉的有:高風(fēng)險(xiǎn)圖像格式RAW及中風(fēng)險(xiǎn)文本格式Microsoft Word Office等。
在完成以上驗(yàn)證分析后,NARA借鑒模擬信息保存中常用的“需要—使用—價(jià)值”矩陣模型,并進(jìn)一步將其調(diào)整為“使用需求—流行度—可行性”三個(gè)維度?!笆褂眯枨蟆敝革L(fēng)險(xiǎn)矩陣中確定的風(fēng)險(xiǎn)值,“流行度”由文件形成機(jī)構(gòu)創(chuàng)建并移交到NARA的格式流行來定義,“可執(zhí)行性”系NARA當(dāng)前格式轉(zhuǎn)換的能力或轉(zhuǎn)換工具的可獲取性。該矩陣模型工具從2018年夏季開始直至今日仍在持續(xù)使用,這種審查館藏剩余格式的方法為“保存計(jì)劃”的風(fēng)險(xiǎn)和優(yōu)先順序勾畫出一個(gè)更完整、切實(shí)的圖景。
1.3.3 ERA2.0(電子文件檔案系統(tǒng)2.0版本)
ERA是NARA基于OAIS模型開發(fā)的專門用來接收、管理、保存和利用美國(guó)聯(lián)邦政府永久性電子文件的綜合數(shù)字檔案館系統(tǒng)。2018年8月,ERA2.0核心功能模塊上線并投入使用。NARA對(duì)該版本的原始保存庫(kù)進(jìn)行全面更新,并且嵌入格式風(fēng)險(xiǎn)評(píng)估的功能模塊,使其能夠報(bào)告和監(jiān)控所有館藏?cái)?shù)據(jù),甚至可以提供格式風(fēng)險(xiǎn)和格式遷移計(jì)劃方面的部分文檔[9]。
該項(xiàng)目由美國(guó)國(guó)會(huì)圖書館(LOC)建立,它曾與GDFR和JHOVE協(xié)同合作開發(fā)文件格式識(shí)別編譯器。項(xiàng)目目的包括:制定有關(guān)數(shù)字內(nèi)容格式的戰(zhàn)略規(guī)劃,確保國(guó)會(huì)圖書館能夠長(zhǎng)期保存數(shù)字內(nèi)容;提供關(guān)于當(dāng)前和新出現(xiàn)格式的信息清單,包括確定所需工具和詳細(xì)文件,確保國(guó)會(huì)圖書館能夠管理這些按照格式要求創(chuàng)建或接收的內(nèi)容,以及識(shí)別并描述有希望實(shí)現(xiàn)長(zhǎng)期可持續(xù)發(fā)展的格式;找出并描述存在風(fēng)險(xiǎn)的格式,并制定策略來維持它們所包含的內(nèi)容[10]。
L O C 將“文件擴(kuò)展名”“因特網(wǎng)媒體類型(MIME)”“格式版本”“特定功能格式實(shí)例”等字段作為元數(shù)據(jù)并做了具體文字說明和透徹分析。其中“特定功能格式實(shí)例”字段指對(duì)可持續(xù)發(fā)展具有重要意義的格式,如從網(wǎng)絡(luò)播放器下載的音頻文件格式受到版權(quán)保護(hù),其專有格式可以防止用戶非法利用[11]。
與數(shù)字格式可持久性項(xiàng)目配套的基礎(chǔ)設(shè)施是“數(shù)字格式信息網(wǎng)”(http://www.digitalpreservation.gov/formats/)。該網(wǎng)站于2004年首次公布,它提供詳細(xì)的格式描述文檔或提供有關(guān)數(shù)字內(nèi)容格式的信息,并定期增加擴(kuò)展和更新資源并深入分析與文件格式技術(shù)層面的問題。
PREFORMA(Preservation Format for culture information/e-archives,歐盟文化信息/電子檔案保存格式項(xiàng)目)項(xiàng)目由歐盟委員會(huì)資助,自2014年1月啟動(dòng),為期48個(gè)月。PREFORMA項(xiàng)目總體意圖是研究影響電子文件標(biāo)準(zhǔn)執(zhí)行質(zhì)量的關(guān)鍵因素,以便與相關(guān)群體圍繞開發(fā)的工具建立長(zhǎng)期可持續(xù)的保管生態(tài)系統(tǒng),使信息機(jī)構(gòu)可以完全提取和控制要收錄文件的格式信息[12]。項(xiàng)目規(guī)定了媒體的類型和標(biāo)準(zhǔn),對(duì)圖、文、聲、像四類文件格式規(guī)定了需要檢查的功能和所屬的國(guó)際標(biāo)準(zhǔn),并開發(fā)了對(duì)應(yīng)的“一致性檢查器”開源軟件,最大程度地降低失去數(shù)字資源的控制風(fēng)險(xiǎn),采用這種開源軟件的用戶都有權(quán)自由閱讀、使用、改進(jìn)和重新分配這些軟件的源代碼。
1.5.1 veraPDF
veraPDF是專門用于PDF/A驗(yàn)證的開源軟件,它提供了評(píng)估用于備份存檔PDF格式的權(quán)威方法。veraPDF還可生成權(quán)威的測(cè)試文件集,并將開發(fā)其他檢查器及元數(shù)據(jù)修復(fù)軟件,目前最新產(chǎn)品是針對(duì)PDF/A-1、PDF/A-2和PDF/A-3格式的行業(yè)支持的一致性檢查軟件。另外veraPDF鼓勵(lì)世界各地的文檔軟件開發(fā)人員保持其PDF產(chǎn)品與PDF/A格式一致,并在整個(gè)行業(yè)的專家委員會(huì)監(jiān)督下開發(fā)專用驗(yàn)證軟件。
《綠野仙蹤》的創(chuàng)作較明代小說帶有更加強(qiáng)烈的自寓色彩,作者李百川經(jīng)歷了從富家子弟到“疊遭變故”的失落,遭遇了累歲破產(chǎn)又為人所騙的事故。在看透了時(shí)態(tài)炎涼之后,他聚散縈懷,思想激蕩澎湃,決定著書自?shī)?。作品中的人物部分是作者的理想和想象,部分是自身的寫照和化身,故事情?jié)表面看呼風(fēng)喚雨,荒誕不經(jīng),實(shí)則時(shí)刻滲透著社會(huì)現(xiàn)實(shí)。《綠野仙蹤》繼承了明代文人獨(dú)立創(chuàng)作小說的傳統(tǒng),在創(chuàng)作意識(shí)上推動(dòng)了自寓性小說的發(fā)展,在許多層面超越了前人的創(chuàng)作,我們可以通過小說前面的“自序”略窺一斑。
1.5.2 DPF Manager
DPF Manager是一個(gè)開源模塊下的TIFF一致性檢查器。開發(fā)這一軟件的目的在于幫助檔案管理員和數(shù)字內(nèi)容制作者確保TIFF格式文件能長(zhǎng)期保存,并能夠自動(dòng)提出改進(jìn)建議并糾正保存問題。開發(fā)團(tuán)隊(duì)擁有數(shù)十年的圖像格式和數(shù)字保存經(jīng)驗(yàn),獲得了60多家存儲(chǔ)機(jī)構(gòu)的支持,起草了專門為靜止圖像長(zhǎng)期保存而設(shè)計(jì)的新ISO標(biāo)準(zhǔn)提案,即TIFF/A。
1.5.3 Media Conch
Media Conch是由Media Area團(tuán)隊(duì)開發(fā)的保存級(jí)視聽文件一致性檢查器,它由“實(shí)現(xiàn)檢查器”“策略檢查器”“報(bào)告程序和修復(fù)程序”組成。Media Conch可通過命令行、圖形用戶界面或基于Web界面使用,其功能是集成現(xiàn)有的歸檔處理基礎(chǔ)架構(gòu)作為微服務(wù),對(duì)本地不規(guī)則的視頻文件做詳細(xì)檢查,或者在分布式處理系統(tǒng)中檢查基于服務(wù)器的批處理級(jí)文件。此外,Media Area團(tuán)隊(duì)還致力于進(jìn)一步推動(dòng)Matroska和FFV1格式的標(biāo)準(zhǔn)化。
這是美國(guó)維基百科公司的文件格式保護(hù)項(xiàng)目,目的在于創(chuàng)建一個(gè)不屬于任何特定組織權(quán)限的通用空間,并允許行業(yè)內(nèi)外群體或個(gè)人跟蹤并提供文件格式的分類體系。它依賴Wikipedia龐大的網(wǎng)絡(luò)資源及其DBpedia結(jié)構(gòu)化獲取工具,通過大批志愿者把不同的文件格式信息條目化地放在一個(gè)地方,形成開源的格式獲取工具,便于有信息獲取需求用戶的參考。項(xiàng)目負(fù)責(zé)人Jason Scott認(rèn)為,目前檔案館和圖書館負(fù)責(zé)的文件格式項(xiàng)目?jī)A向于處理確定的文件格式且文件數(shù)據(jù)庫(kù)難以共享[13]。因此,Wiki的項(xiàng)目特點(diǎn)是能提供更廣泛的文件格式信息。哈佛圖書館軟件工程師Gary McGath對(duì)該項(xiàng)目評(píng)價(jià)道:“盡管格式的質(zhì)量、完整性和可靠性各不相同,但在格式信息的廣泛性方面,它可能是一個(gè)有價(jià)值的資源。”[14]項(xiàng)目除了數(shù)據(jù)庫(kù)格式種類多、數(shù)量大之外,格式信息的收集來源也非常廣泛。它幾乎遍歷了所有全球有關(guān)文件格式的項(xiàng)目網(wǎng)站,實(shí)時(shí)了解其項(xiàng)目發(fā)展成果及進(jìn)展,同時(shí)整合優(yōu)勢(shì)與不足,最終共享研究成果。
Focus是馬里蘭大學(xué)高級(jí)計(jì)算機(jī)研究所(UMIACS)在DIGARCH計(jì)劃研究項(xiàng)目中的組成部分,它是一個(gè)用于呈現(xiàn)、編輯、轉(zhuǎn)換和驗(yàn)證已有格式的軟件工具。該系統(tǒng)包含了一些最常見的格式和應(yīng)用程序,并提供了基于JHOVE的格式識(shí)別服務(wù)[15]。項(xiàng)目認(rèn)為,確定某個(gè)文件屬于哪種格式不是一件容易的事,雖然文件的擴(kuò)展名(如“.doc”、“.pdf”或“.xls”)可以很好地提示文件的實(shí)際格式,但有時(shí)一個(gè)文件的擴(kuò)展名可能較少,甚至錯(cuò)誤或根本沒有擴(kuò)展名。格式識(shí)別除了擴(kuò)展名還需要解析整個(gè)文件,如有必要還要進(jìn)行格式轉(zhuǎn)換。
1.7.1 Fider
1.7.2 GFR
GFR(Global Format Registry全局?jǐn)?shù)字格式登記表)是文件格式和應(yīng)用程序信息的主要存儲(chǔ)庫(kù)。由于GFR主要用于查詢而不非更新內(nèi)部數(shù)據(jù),因此項(xiàng)目選擇輕量級(jí)目錄訪問協(xié)議(LDAP),并使用OpenLDAP作為程序的服務(wù)器。
1.7.3 Focus客戶端
Focus 客戶端(Format Registry Client)是一個(gè)獨(dú)立的LDAP客戶端應(yīng)用程序,用于獲取有關(guān)給定文件的格式和應(yīng)用程序的信息。用戶通過該客戶端將想要查詢的文件上傳,F(xiàn)ider格式識(shí)別系統(tǒng)首先初步猜測(cè)該文件的格式。接著由GFR數(shù)據(jù)庫(kù)查詢上一步猜測(cè)格式對(duì)應(yīng)的格式檢查器地址,格式檢查器會(huì)對(duì)文件進(jìn)行詳細(xì)的對(duì)比校驗(yàn),如果一致則確認(rèn)格式并返回給Focus客戶端。
FILExt是一個(gè)文件擴(kuò)展名和與格式有關(guān)程序的數(shù)據(jù)庫(kù),致力于幫助用戶識(shí)別、訪問、打開、查看或轉(zhuǎn)換未知文件,由美國(guó)最著名的軟件程序員Tom Simondi創(chuàng)立于20世紀(jì)90年代,多年來已經(jīng)幫助數(shù)百萬用戶確定和打開未知文件,同時(shí)也被世界各地的軟件專家用作為件擴(kuò)展名的信息來源[16],《 個(gè)人電腦》雜志(PC Magazine)還將其收錄進(jìn)“100個(gè)未發(fā)現(xiàn)的最佳網(wǎng)站”。FILExt的主要功能是在線文件格式分析(https://filext.com/online-file-viewer.html),可將任意格式文件上傳至網(wǎng)頁(yè)查看并分析該文件格式信息,同時(shí)提供能打開此類格式的相關(guān)軟件,且保證用戶上傳文件的私密性與安全性。另外所有文件擴(kuò)展名信息由系統(tǒng)用戶通過filext_filetype.bat軟件上傳。
FILExt認(rèn)為,文件格式可以從三個(gè)特征來確定:一是根據(jù)文件的擴(kuò)展名初步判斷。二是根據(jù)檔案或文件簽名判斷,即用一定的軟件工具(如EditPad Pro)將文件轉(zhuǎn)換為二進(jìn)制文件查看文件的編碼方式以及“關(guān)鍵代碼(Magic Number)”,可以發(fā)現(xiàn)有一些用于各種常見文件類型的標(biāo)準(zhǔn)指示符,例如若代碼中有前兩個(gè)字符是“BM”,則文件可能是.bmp位圖圖像。三是根據(jù)文件MIME型元數(shù)據(jù)類型判斷。
以上8個(gè)項(xiàng)目都是以保護(hù)電子文件長(zhǎng)期存取為基本出發(fā)點(diǎn),但各個(gè)項(xiàng)目的具體方法與研究深度有所不同。幾乎所有項(xiàng)目都涉及建立格式登記庫(kù)、開發(fā)格式識(shí)別軟件等,但是具體的項(xiàng)目策略及系統(tǒng)設(shè)計(jì)又有許多不同。
項(xiàng)目開展的規(guī)劃與所屬服務(wù)性質(zhì)有關(guān)。其中,Archivematica、PRONOM、NARA Format Profile、Sustainability of Digital Formats、PREFORMA是從國(guó)家記憶保存角度開展的項(xiàng)目,這些項(xiàng)目規(guī)劃有共通之處。首先,項(xiàng)目大多依照OAIS參考模型來設(shè)計(jì)數(shù)據(jù)庫(kù)系統(tǒng)和其他軟件工具。其次,對(duì)登記的歸檔文件格式范圍做了較為明確的規(guī)定,比較典型的是NARA提出并更新《永久電子文件移交格式指南》、PREFORMA項(xiàng)目推薦歸檔或備份的文件使用開放且有國(guó)際標(biāo)準(zhǔn)的格式。第三,格式范圍具有有限性的特征,如PRONOM項(xiàng)目賦予登記格式唯一的標(biāo)識(shí),并推測(cè)該格式的壽命以及是否需要進(jìn)行格式遷移。
而Wikipedia、Focus、FILExt則是從網(wǎng)絡(luò)或廣義的信息服務(wù)角度開展的項(xiàng)目,格式管控項(xiàng)目規(guī)劃較為廣泛且各有特點(diǎn)。如Wikipedia盡可能全面收集和反映更多格式的變化情況;Focus項(xiàng)目有著較為清晰的文件格式識(shí)別流程,針對(duì)格式信息服務(wù)有專門的客戶端應(yīng)用程序;FILExt可幫助用戶確定與打開未知文件格式,并推薦轉(zhuǎn)換格式的軟件工具。
以上項(xiàng)目中與格式管控功能有關(guān)的系統(tǒng)有:格式信息數(shù)據(jù)庫(kù)、格式識(shí)別工具、格式檢查器等。從服務(wù)架構(gòu)角度看,以上項(xiàng)目格式信息數(shù)據(jù)庫(kù)多采用B/S的訪問服務(wù),通過網(wǎng)頁(yè)上傳和查詢格式信息。另外,項(xiàng)目的格式識(shí)別工具都有相應(yīng)的客戶端可供用戶下載,如DROID下載后可在Java環(huán)境下使用,歐盟的三個(gè)標(biāo)準(zhǔn)格式檢查器均支持常見的操作系統(tǒng)。
從功能模塊的應(yīng)用角度看,功能越全面越強(qiáng)大,系統(tǒng)發(fā)揮的作用也相應(yīng)越大。有些項(xiàng)目提供的格式服務(wù)功能較為單一,如Wikipedia僅提供格式概覽與最新格式信息發(fā)現(xiàn), PREFORMA項(xiàng)目?jī)H提供三種格式的標(biāo)準(zhǔn)檢查功能;FILExt提供格式識(shí)別及支持軟件信息功能。此外一些項(xiàng)目將格式管控系統(tǒng)納入自身電子數(shù)據(jù)管理系統(tǒng)中,如ERA2.0系統(tǒng)中嵌入了格式風(fēng)險(xiǎn)評(píng)估功能模塊,F(xiàn)PR是Archivematica系統(tǒng)的一個(gè)重要子系統(tǒng)等。比起單一的格式登記系統(tǒng)或工具,被嵌入的功能模塊有了更大的被頻繁使用的可能。
從系統(tǒng)收錄信息數(shù)量和信息粒度角度看,數(shù)量和粒度分別代表了格式信息的廣度和深度,數(shù)量越多、粒度越細(xì)則代表信息的利用價(jià)值越大。據(jù)筆者統(tǒng)計(jì),以上項(xiàng)目中登記系統(tǒng)格式信息收錄:格式名稱、格式版本、格式代碼、格式標(biāo)準(zhǔn)、唯一識(shí)別符、特定功能格式實(shí)例、上下級(jí)格式名稱、支持軟件等描述或識(shí)別字段。字段越多說明描述的格式信息完整性更強(qiáng)。以上Wikipedia、FILExt所收錄的格式數(shù)量相較其他項(xiàng)目多但粒度相對(duì)較大,LOC數(shù)字格式可持續(xù)性項(xiàng)目、PRONOM系統(tǒng)等收錄的格式數(shù)量較小但信息粒度較細(xì)。
從源代碼開放程度看,開源系統(tǒng)必將贏得更好的包容和發(fā)展。如Archivematica、DROID、PREFORMA標(biāo)準(zhǔn)格式檢查器等都是開源系統(tǒng),為以后格式問題的解決提供幫助與參考。
格式登記與管控并非簡(jiǎn)單的工作,不僅涉及軟件系統(tǒng)整體架構(gòu)的設(shè)計(jì),還需要根據(jù)系統(tǒng)服務(wù)功能考慮需錄入文件格式數(shù)量及軟件信息的粒度。目前國(guó)內(nèi)還沒有檔案格式登記與管控項(xiàng)目,但格式終究是影響電子文件可持續(xù)長(zhǎng)期保存的關(guān)鍵因素之一,應(yīng)得到重視。筆者認(rèn)為,規(guī)劃我國(guó)電子文件格式登記與管控系統(tǒng)時(shí),可從以下幾方面入手。
首先,在系統(tǒng)數(shù)據(jù)來源方面,建設(shè)初期可根據(jù)館藏格式占比情況,從常用的檔案類型和市面流行格式開始設(shè)定歸檔文件格式范圍,將歷史與現(xiàn)存的格式信息及相應(yīng)軟件信息及元數(shù)據(jù)盡可能多地錄入數(shù)據(jù)庫(kù),中后期登記更多文件格式信息。
其次,在系統(tǒng)開發(fā)方面,數(shù)據(jù)庫(kù)的設(shè)計(jì)要規(guī)劃好數(shù)據(jù)粒度大小以及元數(shù)據(jù)項(xiàng),也可采用其他項(xiàng)目系統(tǒng)的開源代碼。此外還可以發(fā)揮系統(tǒng)用戶的作用,如允許用戶上傳文件進(jìn)行格式分析并與系統(tǒng)已有格式進(jìn)行匹配,若存在相同格式,則提供格式相關(guān)信息及其可識(shí)別該格式的軟件服務(wù);若不存在則允許用戶新增格式條目,由系統(tǒng)管理員負(fù)責(zé)對(duì)數(shù)據(jù)的審核與數(shù)據(jù)庫(kù)的更新。這樣能使整個(gè)系統(tǒng)數(shù)據(jù)庫(kù)保持動(dòng)態(tài)與活力并不斷拓展文件格式的深度與廣度,從而提供更為廣泛的文件格式服務(wù)。
最后,系統(tǒng)需要不斷服務(wù)并作用于信息機(jī)構(gòu)的格式規(guī)劃或指南。檔案與圖書機(jī)構(gòu)在接收數(shù)字文件時(shí)需對(duì)其格式有一定的規(guī)定以便可持續(xù)存儲(chǔ)與利用,但格式隨時(shí)代的發(fā)展是不斷變化的。因此系統(tǒng)應(yīng)對(duì)格式的變化做出即時(shí)反映,使機(jī)構(gòu)可以較為準(zhǔn)確地更新格式規(guī)劃或指南。