姜衛杰
摘 要:檔案數字化是指利用數據庫技術、高速掃描技術等,將紙質檔案進行掃描處理,系統地組織檔案信息庫的過程。本文結合檔案數字化掃描的實踐,從前期紙質檔案數字化掃描準備、紙質檔案數字化掃描的過程、紙質檔案數字化后的存儲方面論述了如何對紙質檔案進行數字化掃描。
關鍵詞:掃描;檔案;數字化;紙質;實踐
1 前期紙質檔案數字化掃描準備
1)紙質檔案的準備。在掃描前,必須取出活頁夾,檢查文檔中是否有任何干擾(如訂書釘、碎紙),以免卡紙和損壞掃描儀。有必要保持文檔的清潔并將其放入掃描儀。不能掃描的損壞部分應先修復粘貼。掃描前應將原件的掃描質量平整;紙張太薄且透明(如信紙、便簽紙)、紙張太厚、照片等采用高速掃描儀平掃;當有附小頁、紙張時,頁面的大小將為在平板上分別掃描。
2)拆卸捆綁。在刪除文檔中的綁定時,應注意在刪除綁定時保護文件不受損壞;在不刪除綁定的情況下,應保護影響掃描工作的文件。
3)區分掃描件和非掃描件。根據需要在同一文件中將掃描儀與非掃描儀分開。通用文件的區分原則是刪除無關的重文件,不能掃描有正版或原版文件的文件。
4)頁面裁剪。對于嚴重損壞不能直接掃描的文件,應先進行技術維修和粘貼。對皺紋影響掃描質量的原始零件,應在掃描前進行處理(平整或均勻燙傷)。
5)掃描設備和軟件的選擇。考慮到本單位檔案的數字掃描大部分是A3和A4,我們配備了A3和A4掃描儀。當我們需要掃描一些大型文檔時,例如基礎設施圖紙,我們使用塊掃描方法,然后使用圖像處理軟件進行圖像拼接。為了保證拼接后的信息完整性,需要注意幾個問題:第一,在掃描大面積塊時,要保證每個塊有一定的距離,沒有重疊部分;第二,要將這些數據塊單獨存放在文件夾中,統一存放。第三,掃描的圖像屬性要統一。
2 紙質檔案數字化掃描的過程
2.1 掃描范圍的確定
在實施紙質檔案數字化之前,首先要確定檔案數字化的優先范圍。合理確定掃描范圍:先掃描利用率高的檔案;先保存利用率低、價值高但不適合掃描的檔案。根據《檔案查閱登記表》、《使用效果登記表》、《咨詢人意見書》、《檔案出入境登記表》中的相關項目,確定了整個檔案掃描的優先順序、年度優先順序、內容優先順序等,并對檔案進行了整理。有計劃、有秩序的掃描。如:黃熱病疫苗使用率高但無計算機管理的原始記錄和外國留學生的外語形式被納入優先掃描范圍。
2.2 掃描參數的選擇
首先是分辨率,原則上,分辨率的參數是由筆跡和紙張的質量來決定的,但由于速度的原因,統一的技術條件和標準不能完全實現。一般來說,文件的分辨率為300dpi,但對于筆跡不清楚的特殊文件,應采用較高的分辨率。例如,當掃描帶有印章的文檔時,尤其是帶有外國印章的文檔時,我們應該將分辨率設置為600 dpi。檔案的書寫材料和字體不同,掃描參數的選擇也有很大的差異。但原則上,我們只需掌握清晰易讀的圖像,就可以滿足瀏覽和搜索的需要。其次是顏色模型,顏色模式分為黑白、RGB顏色、灰度、CMYK顏色、LAB、Web/Internet顏色、256色等,一般文本文件選擇黑白,圖片選擇RGB顏色或256色。最后是圖像模式,根據掃描文件的特點和清晰度要求,可采用編輯文本模式,也可采用彩色圖片模式,如黑白圖片、彩色圖片等類型。
2.3 紙質檔案數字化掃描方式
1)文件數字化。(1)建立數字圖像存儲文件夾。在項目單元中建立用于存儲掃描數據的文件夾,并根據文件的流水線編號建立子文件夾。(2)圖像格式及數字圖像命名。數字圖像為jpeg格式。圖像的壓縮比設置為85。根據三位流水線編號:aal jpg”002.jpg,003.jpg”,”003.jpg”,”和”圖像名稱的流水線編號必須與對應頁面的頁碼一致。(3)數字圖像的掃描彩色模式。通常采用顏色模式,顏色位數設置為24位。對于筆跡清晰、無灰底、無印章、無插圖的黑白文件,可以采用黑白二值模式掃描。(4)數字圖像掃描分辨率。對于頁面上手寫或插圖清晰的文件,分辨率設置為200 dpi。對于小、密集、清晰度差的文件,分辨率提高到300。(5)數字圖像掃描方式的選擇。利用高速掃描儀的自動送紙功能,可以掃描出質地較新或較好的A3、A4格式的紙張文件。質地差、易碎、薄、軟、厚的文件應采用平板掃描。大于A3的文件應使用大型工程掃描儀進行掃描。(6)掃描頁碼檢查。在掃描檔案前,必須檢查紙質檔案的頁數和頁數是否與目錄和參考表中記錄的頁數一致。使用自動糾偏軟件。如果用軟件對彩色圖像進行自動校正,校正角度較大時可能會自動填充白色邊緣。這些白色邊緣應手動切割和去除。在圖像裁剪中,應注意保留原始圖像的內容,以保證圖像的完整性。
2)圖像數字化掃描。以24位彩色模式掃描的文檔的分辨率為100dpi;(上述模式的分辨率設置在A4紙上,其他規格根據需要進行調整)掃描行數、閾值、亮度、灰度和對比度可根據掃描文檔材料的清晰度進行調整;(1)創建以項目為單位存儲圖形數字數據的文件夾,然后根據文件的流水線編號建立子文件夾(同一文檔的數字化)。(2)數字圖像采用jpeg格式,圖像壓縮比設置為85。圖像文件按照三位數流水線編號進行處理:ool;jpg,002 jpg,003.jpg””。圖像名稱的管道編號必須與對應頁面的頁碼一致。(3)圖紙數字化應采用顏色模式,顏色位數應設置為24位。(4)將繪圖掃描分辨率設置為200dpi。(5)所有圖紙均采用大型掃描儀(工程圖紙)進行掃描。(6)數字化圖紙的頁碼檢查和質量初審要求與數字化文件相同。
以24位彩色模式掃描的文檔的分辨率為100 dpi;(上述模式的分辨率設置在A4紙上,其他規格根據需要進行調整)。掃描行數、閾值、亮度、灰度和對比度可根據掃描文檔材料的清晰度進行調整;必要時,可根據原稿的清晰度適當調整掃描分辨率。如果原稿質量差,尺寸小,可以適當提高分辨率;反之,可以相應降低分辨率。增加或減少取決于掃描圖像根據原始尺寸顯示后是否清晰。
3 紙質檔案數字化后的存儲
1)存儲格式。文本文件存儲包括DOC、RTF、HTML、DOT(MS文檔模板)和TXT。其中,前兩種是最常見的存儲格式,后三種不適合文本文件的訪問和標準化處理,因此一般不使用。圖像存儲的常見格式是TIFF和JPEG。前者不丟失圖像,但占用較大的磁盤空間;后者是可壓縮的,占用較小的磁盤空間,但在數據傳輸中會有不同程度的損失。因此,在掃描過程中,要堅持正確的工作方法和標準,及時進行數據質量檢查,確保掃描文件的質量和效率。
2)儲存方法。首先是對紙質檔案數字化文件保存和分類,在硬盤中設置多個文件夾并分別命名,分別存儲掃描的文件,并根據年份在每個文件夾中創建子文件夾。掃描后形成的文件按年度分類,便于管理和編目,也便于年復一年地檢索。其次要對紙質檔案數字化文件排列和編號。掃描的圖像文件按時間順序排列,按順序編號,并形成文檔的流水線編號。命名規則為:類別-年份-存儲期間-文檔編號。例如,”HR 200910001”,其中第一至第二位表示類別,第三至第六位表示年份,第七位表示保質期,第八至第十一位表示文件編號。最后掃描完每個文檔后,根據原文仔細檢查掃描是否清晰、完整;使用掃描儀并按要求清潔,每次使用后清潔掃描儀,檢查電源是否關閉。
4 結束語
通過紙質檔案數字化掃描的實踐,實現對檔案內容的“拷貝”,使其內容傳播,不再受限于紙質載體。通過網絡化設施,實現檔案數字化副本的實時查閱與異地利用,使檔案資源利用不再受限于某一時空。
參考文獻
[1]李紅梅,張棟.紙質檔案數字化前處理工作探析[J].檔案學研究,2015(04):111-112.
[2]毛海帆.數字化過程中促進紙質檔案數字副本憑證效力研究[J].檔案學研究,2011(06):66-67.
[3]梁沙,史江.紙質檔案數字化工作中存在的問題及對策探討[J].蘭臺世界,2011(30):168-170.
[4]張文波.綜合檔案館紙質檔案數字化思考[J].山西檔案,2018(02):99-100.