周祺 張照余
(蘇州大學社會學院 蘇州 250000)
隨著在電子文件管理在各個領域不斷普及和應用,規范和統一歸檔文件格式是保證其發揮有效價值的重要之舉。但現實卻存在若干因素導致問題未得到解決。其一是數字信息時代格式多、變化快,掌握并跟蹤格式較為困難;其二是各行各業關注格式的角度較為多元,盡管近年來格式問題已得到重視,但尚未形成統一的文件格式標準或規范。如互聯網行業、軟件開發者看重格式的便利性與流行性,希望產品采用的格式能更好地與系統兼容;司法部門看重格式為信息帶來的真實性使其具備法律證據價值;數據保管部門看重格式的穩定性,即是否支持數據的可持續讀取。可以預見在不久的將來,歸檔文件格式問題將影響著檔案管理工作的方方面面。
在學界已有研究中,有學者已發表了有關文件格式管理的觀點:如李從衛(2014)分析了國內外電子檔案長期保存格式規定,提出電子文件長期保存格式的選擇標準應為:格式的開放性、標準性、穩定性、廣釆性、軟硬件平臺的獨立性等;錢毅(2016)闡述了電子文件格式的技術原理并根據國外經驗提出:將格式管理納入文件生命周期管理、實施電子檔案格式登記管理、定期發布電子檔案長期保存推薦格式指南等管理策略[1];肖秋會、高婷(2017)分析了國內外電子文件保存格式標準并提出我國構建格式標準需逐步提高國際標準采標率、構建電子文件長期保存體系等思路[2];王紅(2020)指出我國圖像領域文件格式標準制定不完善、文件格式管理不規范的缺陷并提出定期發布文件格式推薦標準、優選符合標準的文件格式、提高文件格式標準化水平等措施來促進格式管理標準的規范化[3]。學者們都意識到格式規范對于電子文件長期管理的重要性但尚未從國家或行業規范的制定層面提出修改意見。此外,大多學者從電子檔案長期存儲的角度出發,較少考慮格式管理如何支持數據的共享及重復利用等問題。
綜合電子文件實踐與研究來看,建立并統一各行業檔案工作中電子文件歸檔格式規范是做好電子檔案格式管控的前提,也是檔案學在信息管理領域保持學科話語權的關鍵。
標準是對重復性事物和概念所做的統一規定,是我國具有較高參照度的專業性規范文本。本文共調研了近年涉及“電子文件格式”的標準文本,依照特點統計形成下表(表1)。特別說明,本文電子文件格式只限于直接在工作產生并用于歸檔的電子文件,不包括電子文件載體格式。

表1 我國現有電子文件格式標準一覽表

《產品數據管理(PDM)系統電子文件歸檔與電子檔案管理規范》(征求意見稿)行業標準 國家檔案局文本文件:ODF、PDF;根據需要可同時保存原始格式二維圖樣文件:原始格式歸檔,根據長期可用性需要可增加PDF或OFD格式歸檔三維圖樣文件:以原始格式歸檔,根據長期可用性需要可增加STEP格式歸檔;結構化數據庫:ET、XLS、DBF、XML且將歸檔數據庫數據轉換為版式文件歸檔;《公務電子郵件歸檔管理規則》(征求意見稿) 行業標準 國家檔案局電子郵件:EML正文(版式文件):ODF、PDF、PDF/A附件:ODF、PDF、PDF/A、RTF、WPS、DOCX、JPG、TIF、PNG二維矢量文件:SVG、SWF、WMF、EMF、EPS、DXF三維矢量文件:STEP數據庫文件:ET、XLS、DBF、XML音頻:WAV、MP3視頻:MPG、MP4、FLV、AVI網頁、社交媒體文件:HTML
從上表可以看出我國在電子文件方面頒布過不同范圍、類型等針對不同受眾群體的歸檔標準。除兩個專門講文件格式的標準外,格式問題在各標準中被提及的頻率和篇幅占比隨時間的推移變得越來越多,近年來也受到國家檔案局的重視。而現存的一些問題和需要改進的建議將在下文展開。
在檔案工作領域內,文件格式伴隨著電子文件的發展軌跡。21世紀初期,圖、文、聲、像文件格式均已被廣泛應用,而我國最起始格式標準只適用于版式文件用于期保存,直至2014年才提出數碼照片的圖像格式,2016年提出較為完整的8種媒體類型文件格式歸檔格式國家標準。然而現有標準始終沒有跟上格式發展的腳步,一些學者也呼吁及時發布文件格式推薦標準,使格式采用更加規范化。
在內容方面,各行各業的電子文件歸檔與保存時所依據的標準各有差異且各標準提出或歸口機構不一,內容難以銜接,甚至存在沖突。如《電子文件歸檔與電子檔案管理規范》(GB/T 18894—2016)推薦版式文件采用PDF、PDF/A 格式,而《電子文件存儲與交換格式 版式文檔》(GB/T 33190-2016)及《政務服務事項電子文件歸檔規范》(DA/T 85-2019)推薦采用ODF。同樣的問題出現在音頻文件:《錄音錄像檔案管理規范》(DA/T 78-2019)中規定音頻文件歸檔格式為WAV、MP3、AAC等;《電子文件歸檔與電子檔案管理規范》(GB/T 18894—2016)音頻格式為WAV、MP3等;《錄音錄像數字化規范》(DA/T 62-2017)音頻格式為WAVE。此外,各標準對格式的命名也不夠統一。如,“WAV”是“WAVE”格式的擴展名。上文前兩個標準以格式擴展名(WAV)命名格式,后一標準采取格式名稱(WAVE)來命名格式。可以看出標準制定時沒有考慮其他標準,被參照時會引起困擾。這就要求標準在編制過程中需邏輯嚴謹方可提升可依照性以及存檔所需格式的規范程度。
以往的標準中對于歸檔格式的規定較為固定,尚未體現文件長期保存與利用的關系。文件歸檔的目的是保存備查,而不同性質的電子檔案決定了不同的利用頻率。有的機構為維護文件的完整與高保真,選擇無損格式歸檔,如TIFF;但在網絡利用中此類格式并不適合在線預覽。[4]還有的機構則直接將文件轉換為版式文件歸檔卻未保存原始格式,這種做法同樣不利于信息利用。在今年國家檔案局發布的《產品數據管理(PDM)系統電子文件歸檔與電子檔案管理規范》(征求意見稿)中對文本、二維三維圖樣及結構化數據庫三類文件格式規范體現了多格式歸檔的意向,即“采用原始格式和中性格式同時歸檔保存”。因此什么類型和范圍的歸檔文件需多格式保存是今后的標準制定中需要考慮的部分。
版式技術是檔案管理、出版等領域的核心技術。從已有標準看,基于電子檔案需完整、真實的要求,電子文件歸檔目前優先采用版式文件,其優勢在于版面固定、不跑版,且不受讀取軟件與設備影響。但也相應存在著文件類型適用范圍受限以及不利于文件更改與利用等問題。例如,只有文本、二維圖像以及結構性數據庫表單等靜態數據可以轉化為版式文件,版式文件是否適用于所有類型的電子文件長期存儲還不夠具有說服力。
版式文件格式中,PDF是目前市場應用最廣泛的版式文件格式,盡管有學者認為PDF專利仍屬于私有格式,對電子文件的長期保存和歸檔有不利影響;PDF/A近年來被國際公認為電子檔案保存的最佳解決方案;ODF則由我國自主研發,但采用率相對較小。在已有標準中對這三個版式文件格式規定的不夠清晰,甚至互相打架。如《政務服務事項電子文件歸檔規范》(DA/T 85-2019)中規定:“以數據庫形式存放的國家部委、有關部門已規定標準文本樣式的電子文件,在歸檔時應按照規定的標準樣式轉換成OFD等格式的版式文件”,但以附件形式獲取的電子文件則規定:“按照GB/T 18894—2016執行。”而后者所依照的國家標準中對版式文件的規定中并無ODF的格式,這對采標者來說會造成一定程度的困擾。
受到格式更新換代的影響,以往歸檔并存儲的電子文件可能面臨不可讀的風險。GB/T18894—2016第10章中也有規定:“電子檔案當前格式將被淘汰或失去技術支持時,應實施電子檔案或元數據的格式轉換并并填寫電子檔案格式轉換與遷移登記表”,然而文本中卻沒有具體提出危險格式及需替換的說明。如在《數碼照片歸檔與管理規范》(DA/T 50-2014)中規定將格式“RAW”可以作為照片歸檔格式,而國外信息機構近年來通過對350種格式進行風險評估,將格式“RAW”列為十大高危格式之一。
文件是否能具備歸檔要求需經過周期性跟蹤與檢驗,根據格式當前時期的流行度、穩定度、可轉換度、不可篡改度等綜合指標發布推薦的歸檔文件格式并指明危險或不再用的文件格式。這么做的原因在于格式不會受制于單一國家或行業標準因發布年代久遠格式“過時”問題的影響。此外這一舉措也助于推動電子文件前端控制,在文件形成時就有意維護歸檔格式的文件版本。
全面化是指拓展歸檔文件格式要求的廣度與深度,即擴大歸檔文件格式的范圍以及完善電子數據在歸檔存儲與利用時所需的格式元數據信息:如格式版本、格式擴展名、編輯/讀取軟件、硬件環境及該格式下文件的編碼格式、壓縮率等信息都有必要詳細說明。
專門化是指針對不同類型以及不同利用需求的文件格式還需進行專門分析。尤其對于一些非結構化數據的格式很難標準化管理,因此專門化可以為不同領域的歸檔文件提出更為具體的格式要求。
標準中應體現根據數據價值及利用情況選擇不同的格式進行歸檔,盡可能實現需經常提供利用的信息讀取便捷,需長期本地存儲的信息保持原貌。如建筑工程電子圖紙檔案中版式文件格式(如pdf、step)更方便查看且不易篡改,原始文件格式(如dwg、svg)歸檔的文件方便再次利用修改。兩種格式應用于不同價值和用途的圖紙檔案中,如竣工圖可進行雙格式存檔,設計圖可使用原始文件格式存檔。另外,由于網頁瀏覽便捷的需要,位圖格式(如jpg)也可作為歸檔格式。
由于現有規范中往往沒有整體性的科學評估體系,筆者認為格式規范應選擇好定性與定量的方法加強格式管控。根據不同格式的特點和適用范圍,需要對文件格式賦予選擇權重,如“推薦格式及版本”、“可接受格式及版本”等[5]。劃分此類權重的評估依據是:標準化程度、可擴展性、軟硬件適應性及是否可以從專有格式轉換為通用格式等。目的則是保證文件的長期可讀。
此外,除了保證文件的可讀性的基本要求,一些類型文件還需保證文件質量,如音頻、視頻、圖像的分辨率。因為格式轉換與遷移會不同程度地對采樣頻率、采樣精度造成影響。如最新音頻研究表明在有損格式中,相較于mp3,AAC格式的音質更佳,文件更小。因此,評估過程還需要衡量:市場支持度、是否開放、文件體量、以及文件質量等多方面。