本文對檔案數字化加工流程中出現的許多質量控制問題進行歸納,提出相應的對策與建議。
1 檔案數字化流程
1.1 檔案整理。紙質檔案歸檔過程中,對采用手書,字跡潦草,包含簡化字、繁體字、口語字等難以識別和錄入的文檔,要通過請教老同志以及上網查詢等方法科學提取文件題名、責任者等檢索信息,確保相關信息的準確性、完整性。
1.2 條目錄入。目錄數據庫一般應包括全宗號、目錄號、件號、文件編號、責任者、文件題名、機構或問題、文件時間、保管期限、頁數、盒號、錄入人、錄入時間、密級、原文數量等項目。條目錄入的完整與否,直接關系到利用的方便與效果。
1.3 檔案掃描和圖像處理。在使用高速掃描儀前,應拆除裝訂物。掃描工作完成后,拆除過裝訂物的檔案應按檔案保管的要求重新裝訂。恢復裝訂時,應注意保持檔案的排列順序不變,做到安全、準確、無遺漏。破損嚴重、無法直接進行掃描的檔案,應先進行技術修復,折皺不平影響掃描質量的原件,應先進行相應處理(壓平或燙平等)后再進行數字化加工。
檔案掃描過程中的質量指標控制。文本掃描:TIF格式,應保存為黑白頁面,并采用CCITT4壓縮。雙層PDF格式,重要的用彩色,普通的用黑白。
亮度設置:紙張明暗和亮度成反比,紙越暗亮度要越高,紙越白亮度要越低。有些字跡比較模糊的文檔,亮度可以調低點,掃出的字跡會更清晰。
噪點控制:噪點的產生隨著亮度的變化而改變,亮度越低,噪點越多,亮度越高,噪點越少。
分辨率設置:黑白二值、灰度、彩色幾種模式均選擇大于或等于100dpi。需要進行OCR漢字識別的檔案,分辨率建議選擇“大于”或“等于”200dpi。
1.4 數據掛接。原文掛接前,要檢查原文件號與目錄件號是否一致,文件名是否正確。
1.5 數據驗收。數據驗收要把好四關:一是目錄錄入項目是否完整、正確。二是原文分辨率是否符合要求。三是原文處理是否符合要求。四是掛接的原文與目錄是否一致。
1.6 數據備份。在數據庫中,把目錄和原文打包刻錄成光盤,一份移交檔案館電子文檔中心,一份留在本單位,做到雙重備份。
2 檔案數字化加工中的常見問題與對策
2.1 條目錄入常見問題
2.1.1 責任者簡略不規范。如,白沙鎮政府或白沙鎮黨委只簡寫為“白沙鎮”。
2.1.2 責任者不帶地區標識。如,縣檔案局,只填寫“檔案局”,分不清是市檔案局還是縣檔案局。
2.1.3 題名太長,打印時不能完整顯示,在遇到題名太長時,要適當略寫,盡量控制在50個字以內。
2.1.4 題名太簡,如只有“通知”二字,要根據內容重新擬寫題名,使題名能反映出文件內容。
2.2 文檔掃描常見問題
2.2.1 把純文本文件掃成彩色TIF格式,生成的文件太大,有的單頁面數據就達10MB左右。
2.2.2 掃描時出現漏掃頁面,這種情況一旦出現,校對起來真如“大海撈針”。筆者推薦使用帶超聲波檢測的掃描儀,可以自動檢測重張,不會產生漏掃情況。
2.2.3 頁面噪點太多,后期處理將會十分麻煩。
2.2.4 紅色硬皮目標責任書類掃描為純黑色頁面。對這類文件掃描時,亮度要調到50~70之間。
2.3 原文掛接常見問題
2.3.1 掛接的原文張冠李戴。檢查目錄號與原文件號是否一致并進行調整。
2.3.2 黑邊、歪斜、噪點、方向沒有處理,要返工重新處理。檔案數字化加工要認真落實三重校驗制度,確保數字化加工準確無誤。第一重校驗——對數據庫目錄進行檢查,檢查目錄著錄項是否完整,著錄項內容是否正確,發現問題,返回重錄。第二重校驗——對圖像偏斜度、清晰度、失真度等進行檢查, 核對文件內的頁數是否與紙質檔案頁數相符,并按圖像上的頁號進行檢查,如次序不對進行調整,以確保電子影像的順序與實際紙張資料的順序完全相符。第三重校驗——對數據庫中目錄和原文的年度、保管期限、件號進行檢查,確保掛接后的原文和目錄對應。
(作者單位:中牟縣文化館 來稿日期:2012-06-20)