近年來,濮陽市檔案館以晉升河南“省一級”檔案館和“國家一級”檔案館為契機,加快館藏檔案數字化進程,唱響了“六部曲”,收到了“吹糠見米”的效果。
1 第一部曲:“目錄數據錄入”曲。根據國家檔案局《市、縣級國家綜合檔案館測評細則》中“建立館藏全部檔案及資料目錄數據庫”的要求,結合館藏實際,我們制定了數據錄入工作的操作要求,嚴格要求錄入人員按規范錄入數據,保證數據錄入質量。至2008年9月,館藏全部檔案目錄案卷級68406條、文件級460290條、資料12097條,共計540793條全部錄入數據庫。同時,我們發動全局人員對全部目錄進行一次大檢查,及時更正了一些錯誤,并采用“人工校對”和“軟件自動校對”的方式對目錄數據庫的建庫質量進行了檢查,以確保目錄數據規范。
2 第二部曲:“掃描檔案選擇”曲。根據國家檔案局《市、縣級國家綜合檔案館測評細則》中“建立照片檔案和音、視頻檔案全文數據庫”和“建立珍貴重要及利用頻繁的紙質檔案全文數據庫”的要求,結合館藏實際,我們建立了館藏全部照片檔案和音、視頻檔案全文數據庫,共計照片檔案2205張、音頻檔案7260分鐘、視頻檔案864分鐘;建立了“珍貴重要及利用頻繁的紙質檔案全文數據庫”,對“民國檔案”、“中共濮陽市委”、“濮陽市人民政府”、“中共濮陽地委”、“濮陽專員公署”、“中共安陽地委”、“安陽地區行政公署”等全宗的檔案進行了數字化掃描錄入,這些檔案中有利用率較高的關于“知青政策”、“土地政策”方面的檔案,有濮陽、安陽分設時解決遺留問題的檔案,等等,總計297445頁。
3 第三部曲:“色彩模式分辨”曲。掃描技術中最主要的是“色彩模式”選擇和“分辨率”選擇。《紙質檔案數字化技術規范》建議需要OCR識別的圖像文件,分辨率>200dpi,黑白圖像采用200dpi就可以滿足要求,彩色圖像的掃描分辨率還可以低一些。分辨率越高,掃描后的圖像就越清晰,但同時必須考慮到圖像文件的大小。根據館藏實際,我們確定了“以黑白掃描為主,對紅頭文件及其他帶有紅章的文件進行彩色掃描以更真實地顯示檔案原貌”的原則,具體標準是:(1)民國(1953年以前)檔案:300 dpi,彩色掃描;(2)照片:300 dpi,黑白照片用灰度掃描,彩色照片用彩色掃描;(3)文字加照片:300dpi,彩色掃描;(4)文件上貼的紙條:300 dpi,黑白掃描;(5)建國(1954年以后)檔案資料:300dpi,黑白掃描。
4 第四部曲:“文件存儲格式”曲。《電子文件歸檔與管理規范》中推薦的通用文件格式為:文字型數據采用XML文檔和RTF、TXT格式;掃描圖像數據采用JPEG、TIFF格式。《紙質檔案數字化技術規范》中規定:采用黑白二值模式掃描的圖像文件,一般采用T1FF(G4)格式存儲;采用灰度模式和彩色模式掃描的文件,一般采用JPEG格式存儲。根據我們的實踐,一般A4紙張掃描采用200—300dpi分辨率,黑白TIFF(G4)格式文件大小為30K,彩色JPEG格式文件大小為200K。根據館藏實際,我們分別采用了如下存儲格式存儲在數據庫中:(1)民國與1953年以前檔案,采用JPG文件格式;(2)1954年以后、1983年以前檔案,采用TIFF文件格式;(3)1984年以后檔案,掃描后通過OCR識別,采用雙層PDF文件格式。
5 第五部曲:“文件命名校對”曲。檔案數字化加工后掃描件需要命名,為方便查找及記憶,我們采用由“全宗號(3位數)+保管期限代碼(1位數)+案卷號(4位數)+文件號(3位數)+頁號(3位數)”組成的14位文件命名模式。比如001(全宗號)-Y(保管期限代碼)-0001(案卷號)-001(文件號)-001(頁號)。同時,我們將案卷封面、卷內目錄、備考表以同名圖像文件掃描保存,并對掃描過程中出現的歪斜、黑邊、命名錯誤、掃描格式錯誤、多掃、漏掃、掃描質量模糊等問題一一進行了校對、改正。
6 第六部曲:“目錄原件掛接”曲。館藏檔案數字化的最后一個重要環節,是將紙質檔案掃描件數據與相對應的目錄數據進行連接,即目錄原件掛接。我們以目錄數據庫為依據,將每一份文件掃描所得的一個或多個圖像存儲為一份或多份圖像文件。將圖像文件存儲到相應文件夾時,需認真核查每一份圖像文件的名稱與目錄數據庫中該份實體的檔號或資料編號是否相同。通過每一份圖像文件的文件名與目錄數據庫中該份文件的檔號或資料編號的一致性和唯一性,建立起一一對應的關聯關系,實現目錄數據庫與圖像文件的批量掛接。