賴雯
(廣東外語外貿大學檔案館,廣東 廣州 510420)
檔案數字化自20世紀80年代提出后,隨著檔案工作的發展,檔案數字化也進入全面發展時期。檔案數字化的早期形式是將紙質目錄轉化成電子目錄,并通過使用檔案系統對檔案文件進行電子化管理。隨著檔案利用需求的增多,僅僅對檔案進行目錄索引是遠遠不夠的,所以,各級政府機關、企事業單位都在開展存量紙質檔案的數字化工作。通過對紙質檔案進行掃描和核對,再將文件進行目錄掛接到檔案系統。一方面,可以提高檔案信息檢索的效率,實現檔案全文信息檢索;另一方面,檔案利用時可優先查看檔案系統,減少對實體檔案的借閱,有利于保護檔案。而在紙質檔案數字化的過程中,需要進行嚴格的流程管理和質量控制,以保證電子檔案的真實性和有效性。
根據國家檔案局2017-12-14發布、2018-01-01實施的最新《紙質檔案數字化技術規范》要求:掃描分辨率應不小于200 dpi;比如文字偏小、密集、清晰度較差時,建議掃描分辨率不小于300 dpi。掃描分辨率的選擇,應保證掃描后圖像清晰、完整,并綜合考慮數字圖像后期利用方式等因素。如果有COM 輸出、仿真復制、印刷出版等其他用途時,則可根據需要調整掃描分辨率。
需要進行COM 輸出的檔案,掃描分辨率建議不小于300 dpi;需要進行高精度仿真復制的檔案,掃描分辨率建議不小于600 dpi;需要進行印刷出版的檔案,可結合檔案幅面、印刷出版幅面、印刷精度要求等選擇合適的分辨率。此外,紙質檔案數字圖像長期保存格式為TIFF、JPEG或JPEG2000等通用格式,圖像壓縮率的選擇可根據實際應用的需求而定。
《紙質檔案數字化技術規范》明確規定,在進行數字化成果驗收時,應采用計算機自動檢驗與人工檢驗相結合的方式對紙質檔案數字化成果進行驗收檢驗。對數字圖像進行驗收,主要包括數字化參數、存儲路徑、命名的準確性、圖像的完整性、排列順序的準確性、圖像質量等。
實際工作中,對于圖像質量的檢測,由于圖像數量大,如果采用人工檢驗的方式,則需要耗費大量的人力、物力逐一檢查,因此,對于數字化驗收部門而言,需要根據需求開發一套自動化圖像質量檢測工具。
圖像分辨率指的是圖像中儲存的信息量,常用計算方法是每2.54 cm(每英寸)的像素數,單位為ppi,它決定了圖像細節的精細程度,分辨率越高,包含的像素點越多,圖像越清晰,能表現更豐富的細節,印刷質量更好。但分辨率更高的文件更大,需要耗用更多的存儲資源。如果保持圖像尺寸不變,將其圖像分辨率提高一倍,則其文件大小增大為原來的4倍。所以,圖像形成時,要根據圖像最終的用途決定正確的分辨率。
圖像壓縮是指以較少的比特有損或無損地表示原來的像素矩陣的技術,也稱圖像編碼。JPEG是最常用的圖像文件格式,是一種有損壓縮格式。如果使用過高的壓縮比例,將使最終解壓縮后恢復的圖像質量明顯降低。在實際使用中,我們通過測試發現,準確率在90%以上時,圖像質量高且占用空間小,因此,將壓縮率(準確率)90%作為檢測圖片質量的標準。
圖像的垂直分辨率和水平分辨率屬性可以在Window 7系統中直接查看,但手動查看需要耗費大量的時間。而圖像的壓縮率/準確率則無法通過系統自帶的屬性查看,需要專門的圖像處理工具收集信息。
ImageMagick圖片處理是一套功能強大、穩定、免費開源的工具集和開發包,可以用來讀、寫和處理超過90種的圖片文件,包括流行的TIFF、JPEG、GIF、PNG、PDF以及PhotoCD等格式。
本文通過下載并安裝開源的Imagemagick開發包,在VS.NET平臺上,開發應用程序,實現對文件夾下所有讀片的信息讀取,并將結果輸出到CSV文件中。
算法的主要思想是對輸入的文件路徑,遍歷搜索該路徑下所有的文件(含子文件夾),并對結果文件進行篩選,將圖片文件存儲到數據集中,再對數據集中的所有文件讀取圖像屬性信息,并寫入CSV文件。具體如表1所示。
通過使用開發的小工具,可以大批量讀取待檢測圖像文件的信息,進行自動化檢測。打開結果文件,即可進行質量檢測及幅面大小統計。
以黨群數據集為例,共有40 363張圖片,38.1 G。如果人工打開一個個文件去查看圖像分辨率,假設一個文件夾含10個文件,查看一個文件夾并切換到其他文件夾平均需30 s,對于圖像總數量為40 363張圖片的項目,手動查看它們的分辨率需耗34 h,且無法準確記錄分辨率不符合要求的圖像。在普通電腦上測試發現,對于同樣的數據集,小工具將全部結果寫入CSV文件需要67 min,結果顯示通過編程,讓程序自動檢測,可節約大量的人工成本。
實際應用中,大學檔案館每年數字化掃描的工作量達1 000 000頁及以上,通過使用小工具,一方面可以提高項目驗收的準確度,一方面可以提高驗收效率。
[1]王學平.淺議我國檔案數字化建設實踐與發展策略[J].檔案學通訊,2011(06):54-57.
[2]李學廣.檔案數字化方案研究[J].中國檔案,2007(06):52-53.