韓李敏/浙江省檔案館
檔案數字化掃描完成以后,如何保存和利用,存在一個數據格式選擇的問題。
國家標準《紙質檔案數字化規范》(DA/T 31—2017 )第9章設立“存儲格式”一節,專門規范檔案數字化成果保存和利用的數據格式。
9.5 存儲格式
9.5.1 紙質檔案數字圖像長期保存格式為TIFF、JPEG或JPEG2000等通用格式,圖像壓縮率的選擇可根據實際應用的需求而定。
9.5.2 紙質檔案數字圖像利用時,也可從網絡瀏覽速度、易操作性、存儲空間占用等方面進行綜合考慮,將圖像轉換為OFD、PDF等其他格式。
9.5.3 同一批檔案應采用相同的存儲格式。
“存儲格式”一節表達了四層含義:第一,檔案數字化成果堅持“存用分離”的原則,即數字化成果的數據格式實行存儲格式與利用格式相分離的方式。第二,長期保存的數據格式為“TIFF、JPEG或JPEG2000等通用格式,圖像壓縮率的選擇可根據實際應用的需求而定”。第三,利用時的數據格式,“可從網絡瀏覽速度、易操作性、存儲空間占用等方面進行綜合考慮,將圖像轉換為OFD、PDF等其他格式”。第四,“同一批檔案應采用相同的存儲格式”。
檔案數字化與一般的圖書資料數字化最大的區別就是其數字化成果實行存用分離的原則,即檔案數字化完成后,一般要形成兩種以上不同格式的數據,一類數據用于長期保存,一類數據投入實際使用。
為什么要形成兩類不同用途和格式的數據?這是檔案的特點所決定的。檔案是一種文獻,具有普通文獻的共有特征,同時它又是一種歷史憑證,具有法律憑據的價值。作為憑據,檔案數字化成果應當能夠最大限度地保持檔案的原始面貌。《紙質檔案數字化規范》中這方面的要求是十分具體而明確的。國標規定要求掃描“參數的設置和調整應保證掃描后數字圖像清晰、完整、不失真,圖像效果最接近檔案原貌”,“為最大限度保留檔案原件信息,便于多種方式的利用,宜全部采用彩色模式進行掃描”,掃描的分辨率要求設置在200dpi以上(2005年的《紙質檔案數字化技術規范》要求不低于100dpi),“如文字偏小、密集、清晰度較差時,建議掃描分辨率不小于300dpi”。如此高標準下形成的掃描圖像,質量好、清晰度高,還原成紙質打印輸出時,復制件的真實性強。但是,這樣的掃描圖像,文件容量一般都非常大,這是毋庸置疑的。
對于實際投入利用的檔案數字化成果,必須考慮利用的方式和環境。檔案數字化成果一般都需要借助網絡投入實際的使用。而作為網絡利用,無論是內部局域網還是政務網或公眾互聯網,都受網絡帶寬和瀏覽速度的制約。數字化成果單個文件容量太大,勢必影響網絡的瀏覽速度和存儲空間占用率。為此,用于網絡等實際應用的數字化成果必須在原來保存的基礎上進行壓縮處理。圖像的壓縮,說到底主要就是兩種方式,一是縮小幅面,二是降低畫面質量。這兩種壓縮方式都與“最大限度保持檔案原貌”相抵牾。圖像壓縮有個致命的缺陷就是“不可逆性”,解壓縮后的圖像是無法還原壓縮前原始面貌的,壓縮會對原始圖像的清晰度、色彩等產生損害。為此,國家標準明確規定,檔案的數字化采用存用分離的原則,不要隨意將利用的數據格式用作長期保存,以免影響檔案歷史憑證價值的發揮。
檔案數字化成果在數據格式的應用上采用存用分離的原則也是與國家的數字化戰略相適應的。我國實施檔案數字化戰略,一是為了確保檔案安全,通過數字化形成檔案副本,保證檔案的長治久安;二是適應信息化發展,滿足人們通過網絡等形式利用檔案的需求。既要滿足長期保存的需要,又要滿足眼前網絡等利用的需要,最佳的策略,就是在數字化成果的存儲上實行存用分離的原則。
有人認為“存用分離”原則并不適用于所有檔案。比如《干部人事檔案數字化技術規范》(GB/T 33870—2017)就明確規定:干部人事檔案數字化只釆用JPEG格式存儲,并未實施存用分離。實際上《干部人事檔案數字化技術規范》與《紙質檔案數字化規范》并不矛盾。人事檔案數字化成果目前主要用于保存和系統內傳輸,并不存在“網絡瀏覽”等利用需求,所以它只要求保留存儲格式是合理的。將來如果有網絡利用等需求出現,再完善利用格式。
《紙質檔案數字化規范》明確作為長期保存的數據格式為“TIFF、JPEG或JPEG2000等通用格式”。那么,這三種通用格式有何不同,數字化工作中我們該如何選擇?
TIFF是我們用得最多、最普遍的長期保存數據格式,它是早在1980年代中期各桌面掃描儀廠商共同商定采用的一個公用的統一的掃描圖像文件格式。TIFF可以包容黑白圖像、彩色圖像等。其最大特點是使用“LZW”(無損壓縮)的選項,這是一種減小文件大小的無損壓縮技術,對原始圖像的損害程度最小,被廣泛應用于對圖像質量要求較高的圖像存儲與轉換。它的結構靈活、包容性大,已成為圖像文件格式的一種標準,絕大多數圖像系統都支持這種格式。對于黑白二值掃描的圖像,比如大幅面的工程圖紙等,傳統的方法采用TIFF(G4)格式保存(2005年的《紙質檔案數字化技術規范》曾予推薦)。實踐證明,在同等壓縮比的條件下,對于黑白圖像的壓縮,TIFF(G4)的效率要遠遠高于JPEG的壓縮效率。
JPEG格式是日常用得較多、較普遍的長期保存數據格式。JPEG文件的擴展名為.jpg或.jpeg,是一種最為優秀的圖像壓縮格式。其壓縮技術十分先進,它用有損壓縮方式去除冗余的圖像和彩色數據,在獲取極高壓縮率的同時能展現十分豐富生動的圖像,換句話說,就是可以用最少的磁盤空間得到較好的圖像質量。對于彩色圖像的壓縮,JPEG比TIFF效率要高得多,即使采用類似于TIFF接近無損的最優級壓縮,JPEG的壓縮比也可達到5:1,可以節約大量的存儲空間和存儲成本。
JPEG格式適用于黑白圖像、彩色圖像。JPEG格式具有調節圖像質量的功能,允許用不同的壓縮比例對文件進行壓縮,方便在圖像質量和文件大小之間找到平衡點。實踐中,人們最難把握的是壓縮的最佳平衡點在哪里,即該選擇多少的壓縮率,既滿足不影響圖像質量又得到最佳壓縮效果。為此,人們利用Photoshop軟件進行了實驗。在Photoshop軟件中以JPEG格式儲存時,提供11級壓縮級別,以0—10級表示。其中0級壓縮比最高,圖像品質最差;10級接近于無損壓縮,壓縮比最低,圖像質量最佳。人們經過多次實驗比較,發現JPEG采用第8級壓縮時,獲得的存儲空間與圖像質量兼得的比例最佳。因此,可以稱JPEG圖像質量與文件大小的最佳平衡點約在壓縮率達80%的位置。
為避免壓縮過度、影響圖像質量,《干部人事檔案數字化技術規范》明確規定:采用JPEG格式存儲,“壓縮率≥80%”。這個“壓縮率≥80%”的參數設定,大約就是參照了Photoshop軟件的實驗成果。
JPEG2000是國家標準認可的長期保存數據格式。JPEG2000作為JPEG的升級版,其壓縮率比JPEG高約30%左右,同時支持有損壓縮和無損壓縮。JPEG2000格式有一個極其重要的特征,即能實現漸進傳輸,先傳輸圖像的輪廓,然后逐步傳輸數據,不斷提高圖像質量,讓圖像由朦朧到清晰顯示。JPEG2000特別適合于超大規模彩色圖像的掃描,比如地圖等。JPEG2000在圖書館系統應用得比較多,國外的日本國立公文書館等也有很好的應用,但在國內的檔案系統,目前應用的單位還很少。
作為長期保存的數據都有一個共同的特點,就是容量大。一般16K頁面的紙質檔案,采用200dpi以上分辨率彩色掃描,形成的圖像經LZW(無損壓縮)的TIFF格式保存,一般每個畫幅在6—10M左右;若用JPEG格式保存,一般也在1M以上。如果以50頁一個文件計,形成的掃描件最小的也在50M以上。這么大容量的文件,實現網絡瀏覽利用等是不現實的,會嚴重影響瀏覽的速度和系統的工作效率。
要讓掃描形成的數字化成果能夠投入網上利用,比如通過單位內部的局域網提供利用,或者通過網站向社會提供利用,都必須對TIFF或JPEG格式的數據進行轉換,形成文件大小合適、便于網上利用的數據格式。
PDF是目前檔案部門應用最多的網上利用數據格式,PDF文件能顯示文字、圖片、矢量圖等,是目前公認最佳的文獻數據格式。
PDF的優點如下。一是一致性。在所有可以打開PDF的機器上,展示的效果是完全一致的,不會出現段落錯亂、文字亂碼這些排版問題,可以把版式文檔原汁原味地發送給讀者。因此在印刷行業,絕大多數用的都是PDF格式。二是不易修改。已經保存之后的PDF文件,與圖片一樣,不能進行重新排版,具有防篡改的特征。三是安全性。PDF文檔可以進行加密,包括文檔打開密碼、文檔權限密碼、文檔證書密碼等加密形式,通過加密達到信息防擴散等目的。四是不失真。PDF文件中,使用了矢量圖,在文件瀏覽時,無論放大多少倍,都不會導致使用矢量圖繪制的文字、圖案的失真。五是壓縮容量。為減少單個PDF文件容量,PDF格式支持各種壓縮方式,包括jpeg(DCT)、jpeg2000(jpx)等。
將掃描的圖像文件制作成PDF文件,一般都通過相應的軟件來完成。用戶可以根據自己使用的網絡帶寬,設定每個PDF文件容量的最大值,然后由軟件對掃描圖像采用JPEG等方式進行壓縮(若需實行全文檢索的,在壓縮前還要進行OCR識別),最終轉換成PDF文件。
OFD是國家標準認可的檔案數字化成果網絡利用數據格式。2016年,國家標準GB/T 33190—2016《電子文件存儲與交換格式文書類版式文檔》(簡稱OFD)正式發布。以同款軟件對OFD與PDF做比較,OFD的描述能力更強,功能、性能不相上下,各有千秋,文件體量更加小巧,占用內存更少。但是,由于OFD標準出臺時間不長,所以全國應用范圍還很小,檔案部門也只有極個別的單位在進行試驗。其推廣應用前景如何,最終有待時間檢驗。
檔案數字化成果存儲格式的選擇應堅持存用分離原則,不要混淆存儲格式與利用格式,更不能盲目地以利用格式代替存儲格式。對于只用于長期保存暫時沒有網絡利用等需求的檔案,如人事檔案、涉密檔案等,可以只采用存儲格式加以保存,暫時不需要將其轉換成PDF等利用格式。各級檔案館在接收機關單位的檔案數字化成果時,務必注意數據格式的選擇,且保證接收的數字化成果為原始的長期保存數據,而不是那些經過PDF再轉換還原的過度壓縮的圖像數據。有的單位移交的數字化成果雖然數據格式符合標準,但是每個畫幅的容量只有幾百K甚至幾十K,這樣的數據大都存在過度壓縮的可能性,有的就是將PDF等格式的數據再轉換形成的,一般都無法滿足長期保存的質量要求。
存儲格式選擇TIFF還是JPEG,主要還是取決于檔案本身。對于同一批次的檔案,應采用相同的存儲格式,但是對于不同性質的檔案,可以選擇不同的存儲格式。例如,浙江省檔案館在數字化過程中,一般的紙質檔案數字化,選用的是TIFF(LZW)格式存儲;而在《黃埔軍校同學錄》等專題檔案數據庫的建設中,因為以圖片掃描為主,就選擇了JPEG格式存儲。
長期保存的存儲格式數據,由于其容量超大,且一般很少使用,所以在存儲方式和存儲載體的選擇上,宜采用離線存儲或近線存儲的方式,存儲載體宜選用磁帶和光盤,以節約存儲成本。
PDF是目前檔案數字化成果網上瀏覽利用最普遍的數據格式,該格式的數據也能還原成JPEG等圖片格式,但是還原形成的圖片與用作長期保存的圖片,存在巨大的差異,二者不能相互替換。OFD等格式數據為國家標準所認可,有可能成為將來檔案數字化成果存儲和網絡利用的發展方向,應引起高度重視,密切關注其軟件開發和在檔案部門的應用情況。