龔麗瑛
檔案數字化加工質量的好壞,將直接影響檔案信息的開發利用。作者以中原油田檔案館數字化加工實踐為例,談談自己的看法:
1檔案數字化加工成果存在的主要質量問題及原因
目前,數字化加工成果存在的主要質量問題是:圖像處理不徹底、不清晰;文字識別率不高;有漏頁、正文與底稿未分開等。導致這些問題的原因,主要有:
1.1檔案原件質量問題。由于檔案原件內容不清晰、紙質不適應掃描、破損等原因,造成掃描圖像不清晰、文字識別率不高。
1.2操作人員業務技術不夠熟練。由于操作人員技術不熟練,對分辨率選擇不正確,造成圖像不清晰、文字識別率不高。
1.3軟件功能不夠完備。由于數字化加工軟件版本低,缺少必要的處理功能。
1.4操作人員工作粗心,圖像處理不徹底,出現黑邊、偏斜、污點等。
2提高檔案數字化加工質量的對策
2.1邀請專業技術人員對操作人員進行業務技能培訓,使其掌握數字化加工的流程、設備操作方法、技術標準,熟練掌握分辨率的選擇技巧等,能針對不同圖像、不同幅面的檔案原件選擇合適的分辨率,以保證圖像質量處理;會對破損嚴重、無法直接進行掃描的檔案進行技術修復,折皺不平影響掃描質量的原件進行壓平或燙平等相應處理。
2.2組織操作人員認真學習《紙質檔案數字化技術規范》、《照片檔案管理規范》、《電子文件管理規范》等規范和標準化文件,使其熟練掌握標準要求,在工作中減少盲目性,降低出錯的可能性。
2.3配備多種新型掃描設備。(虹光AV3300)高速掃描儀,有平板掃描和自動送稿器連續多頁掃描(高速掃描)兩種工作模式。該設備適合紙型統一,且小于A4的紙張。雖然,它也有平板掃描的功能,但必須要求紙型小于A4。對于檔案中很多的統計報表、工資發放表、報告及圖冊等(多為A3紙)則不適合。還有一些檔案原件經專業印刷廠印制,裝訂精美(如各種匯編材料),不宜拆分,紙張雖然小于A4,能在該掃描儀上手工逐頁掃描,但要長時間占用高效率的掃描設備,完成效率較低的工作。而(虹光 FB 6000E型)平板掃描儀,則專門用于掃描不適合高速掃描的檔案。這樣,可以針對不同的掃描原件選擇合適的掃描設備,以確保掃描質量。
3掃描方式的選擇
3.1根據檔案幅面的大小(A4、A3、A0等)選擇相應規格的掃描設備(如工程圖紙可采用0號圖紙掃描儀)進行掃描。大幅面檔案采用小幅面掃描后的圖像再拼接的方式處理。
3.2對紙張狀況較差,過薄、過軟或超厚的檔案,采用平板掃描方式;紙張狀況好的檔案采用高速掃描方式以提高工作效率。
3.3對頁面中有紅頭、印章或插有黑白照片、彩色照片、彩色插圖的檔案,視需要,采用彩色模式掃描。
3.4在分辨率選擇上以滿足紙質檔案OCR識別要求,方便檔案查詢、利用為標準。對特殊紙張或檔案原件清晰度不高的,通過增加分辨率,調整亮度、對比度等技術參數,直至掃描圖像清晰為止;對于同一份檔案,清晰度不同,特別是鉛筆、鋼筆等同時存在的,以文件主要部分的清晰為準;對部分字體很小、字跡密集的情況,可適當提高掃描分辨率,選擇灰度掃描或彩色掃描,采用局部深化技術解決;對字跡與表格顏色深度不同的,采用局部淡化技術解決;圖紙根據利用需要采用了矢量化掃描加工處理。
4做好檔案數字化的全程控制。在檔案數字化過程中,注重全面的質量檢查,加強數據的質量控制。
4.1對數字化前的檔案整理檢查。要求進行數字化的檔案原件須完整、排序正確,無缺碼、缺頁、重碼,對破損、折損嚴重影響掃描質量的原件應預先修整。
4.2數字化后的數據質量、圖像質量檢查。掃描后的文件圖像應保持檔案的原貌,字跡清楚不失真,幅面擺放正確,亮度適當,既沒丟失信息,又無增加信息,無錯掃、漏掃。不符合圖像質量要求重新處理。
4.3數據聯接檢查。通過機讀目錄數據庫與已掃描的檔案掃描圖像文件進行聯接,形成一一對應。
5強化責任意識。將任務目標分解,責任落實到人,組長作為責任人對數字化加工成果質量嚴格把關,對檔案文件數字化內容的完整、準確、規范性負總責。由操作人員作為檔案數字化加工的直接責任人,保證數字化加工成果的質量。
(作者單位:中原油田檔案管理處來稿日期:2012-08-18)