馮雪
【摘要】在現今檔案數字化已成為一種潮流,推動館藏檔案數字化建設,逐步實現對數字檔案信息資源的網絡化管理以及多渠道提供檔案信息資源利用已成為大勢所趨。在現今階段各個檔案部門大多數已開展檔案數字化工作,對檔案數字化工作有了一定經驗,數字化的基本工作流程都能做的很好,但面對海量的館藏和有限的經費如何保質保量地完成檔案數字化是一個值得深入探討的問題。
【關鍵詞】紙質檔案;數字化;鑒選;儲存格式;OCR;安全性
檔案資源的數字化是當前數字化檔案建設工作的基礎、關鍵,在現今階段各個檔案部門大多數已開展檔案數字化工作,并已積累了一定經驗,建立了較好的工作流程。本文僅就目前紙版檔案數字化工作中需要注意的幾點問題進行論述。
一、檔案數字化必要性的鑒選
鑒選是企業檔案數字化處理的第一步,檔案數字化處理需要大量的資金和人力投入,所以鑒選顯得尤為重要。鑒選要遵循以下原則:一是以有效性為原則,注重內容的真實性。不管是原件,還是復制件,只要內容是真實的,都應該鑒選為數字化處理的范圍。二是以利用為原則,具有較高利用價值的檔案應進行數字化處理,以便利用者能得到快捷方便的服務。對利用頻率過低的檔案可暫緩進行數字化轉換,甚至不進行數字化轉換。三是以搶救性保護為原則,防止珍貴檔案缺失。在鑒選時,對一些形成時間較長,歷史價值較高,甚至已經破損的檔案,本著搶救的需要出發,可先考慮進行數字化處理。四是以系統性為原則。數字化后的檔案必須具有邏輯上的完整性與系統性,不能只數字化其中一部分或幾部分,保證其信息的關聯性,增加其利用的可靠性。
二、選擇數字檔案的存儲格式
掃描之后圖像文件有許多存儲格式,長久可行的存儲優勢決定文檔存儲格式。下面對實際工作中經常使用的幾種存儲格式進行比較,以便于利用。
JPEG格式是目前網絡上最常用的圖像格式,它可以把文件壓縮到最小的格式。由于它是一種有損壓縮,圖像中重復或不重要的資料會被丟失,因此容易造成圖像數據的損傷,壓縮比越大,品質就越低,不過JPEG壓縮技術也能在獲得極高的壓縮率的同時能展現十分豐富生動的圖像。由于JPEG格式的文件尺寸較小,下載速度快,所以它已成為網絡上最受歡迎的圖像格式。
JPEG2000作為JPEG的升級版相比優勢明顯,同時支持有損和無損壓縮。且向下兼容,隨著檔案信息網絡傳輸的開展,這一格式也可以成為檔案數字化的標準格式。
TIFF格式是一種主要用來存儲包括照片和藝術圖在內的圖像的文件格式,可以制作質量非常高的圖像,因而經常用于出版印刷。TIFF格式為無損壓縮文件,壓縮率低,占用空間較大,但是畫質高于JPEG格式,一般應用于珍貴檔案的數字化。
CEB格式文檔轉換過程中采用了“高保真”技術,從而可以使CEB格式的電子書最大限度地保持原來的樣式,目前在政府機關電子政務公文處理中使用比較廣泛。
PDF格式,可以保證打印精確的顏色和準確的打印效果,即PDF會忠實地再現原稿的每一個字符、顏色以及圖象。這種文件格式與操作系統平臺無關,這一特點使它成為數字化信息傳播的理想文檔格式。
紙版檔案數字化可以根據用途分別選擇存儲方式。對于主要用于利用用途的可以選擇尺寸較小的格式,可以有較快的網絡傳輸時間和調用速度。對以備份為目的的可以選擇圖像清晰、分辨率高的存儲格式。但也應考慮到到存儲成本和維護費用。在實際工作中選擇何種存儲方式受經費、軟硬件設備、目的等多方面因素的制約,在數字化工作中可根據自己的實際情況的選擇適合自己的存儲方式。
三、提高OCR文字識別率
OCR文字識別軟件可以把圖片轉換成可以編輯的文字,支持JPG、PNG、GIF、BMP、DOC等圖片格式。在對數字化檔案進行OCR識別后,生成可以直接檢索的文件,可以在文件中進行選擇、復制與檢索的操作,然后進行快速的關鍵詞的查找,從而實現對數據的管理和利用。用于OCR識別的紙質檔案掃描最好選擇≥200dpi分辨率不要超過300dpi,過高的分辨率會造成OCR辨認困難,特別是在一些存在輕微掃描失真的掃描儀上。在掃描中做到以下幾點:盡量將掃描原稿放正,否則會使字符識別困難;在掃描前人工手動清除稿件上的各種干擾小點,避免形成怪異字符;在掃描前對原稿進行水平矯正,保證所有文字的水平;對于一些紙張較薄的稿件,掃描時可能會因為透明而受到背面文字干擾,此時應使用灰度掃描。
四、注意檔案數字化的信息安全性
一是確保數字化檔案信息內容不被泄露。要建立相應的規章制度和技術手段,根據其信息價值的不同,對掃描檔案進行安全風險評估,遵循原始檔案的保密性,對一些重要的核心檔案可以脫機備份,防止數據泄密。采取委托加工方式數字化服務的,必須與承包單位簽訂保密協議、加強數字化現場安全管理等措施,防止檔案信息外流。檔案數字化后的副本在利用中要根據用戶訪問權限,控制訪問范圍和操作權限。二是與紙質檔案相比較,數字檔案由于其不穩定性、易修改性和對設備的依賴性等特點,其保管的安全性會受到威脅。一旦所保存的數據被破壞或丟失,就會對整個電子文檔系統的價值造成嚴重的影響。實施數字檔案備份后,在數字檔案信息遭到破壞后,具有較強的可恢復性。數字檔案備份要堅持備份形式的多樣性,可以使用光盤、移動硬盤或服務期在線備份但在此基礎上還要進行異地備份。注意備份的周期的規律性與備份內容的完整性,保證數字檔案信息安全。