秦亞平
(靖江市黨史方志檔案辦公室,江蘇靖江,214500)
檔案數字化是依托先進的數字技術,將各類傳統載體檔案信息轉換成數字檔案信息的處理過程。檔案數字化工作是構建統一規范的數據庫、實現檔案信息資源社會共享、充分保護實體檔案安全、提高檔案利用效率、建設高質量的數字檔案館的一項基礎工作,數字化工作的好壞,直接影響到檔案館社會服務功能的發揮。
目前江蘇省內各級檔案館的館藏檔案數字化加工工作,絕大多數是通過招標采購,以外包的方式由專業公司進行的。因此,這更需要檔案館作為數字化工作的主體責任人進行項目的整體監督和把關,對數字化過程中出現的問題進行及時修正,以便更好地保護檔案實體,使檔案信息能更安全、真實、準確、有效地得以利用。筆者通過所在檔案館的紙質檔案數字化工作實踐,就檔案館數字化工作過程中各環節出現的一些突出問題進行剖析,提出對策建議,以期拋磚引玉,共同推進檔案數字化工作。
目前,大多數檔案館的提卷工作都由數字化加工公司工作人員完成。數字化加工公司工作人員根據檔案館制定的掃描工作方案中所確定的掃描對象,到指定的檔案庫房進行提卷,加工結束后再入庫還卷。因人手原因,檔案館工作人員對回庫的檔案案卷只進行數量清點后便填寫出入庫登記表,而未對檔案出入庫前后的齊全狀況、破損狀況進行檢查及描述登記。這使得檔案出庫后處于失控狀態,得不到有效監管,容易導致檔案實體安全得不到保證,一些破損檔案受到二次損壞。
應對做法:檔案館工作人員應對檔案的出入庫進行全程監管。首先,從檔案的出架開始,就應該進行逐卷清點,對檔案的數量及案卷狀況進行登記,對有問題的案卷進行狀況描述。破損案卷最好在數字化加工前進行裝裱修復,以防止在掃描過程中受到二次損壞。其次,檔案在掃描結束還卷時,檔案館工作人員應對照提卷登記進行認真細致的還卷登記。在登記過程中,要著重對檔案數量及案卷狀況進行檢查,重點檢查是否有缺卷、損壞,頁碼亂編、漏編,裝訂混亂等問題,如發現問題及時整改到位。
目錄數據庫建設是全文數據庫建設的重要基礎和前提。由于歷史原因,館藏歷史檔案的整理存在很多不規范狀況,如:檔案頁碼錯編、漏編、數件合并等。數字化加工人員往往只根據原有檔案情況,僅對頁碼進行重新編制,而不對原有檔案進行規范整理,出現“件”與“件”界定不清、多件檔案作一件著錄等情況。另外,由于一些數字化加工人員責任心不強,在著錄過程中粗心大意,錯錄、漏錄、亂錄等現象時有發生。一些數字化加工單位為降低成本,通常采用單機進行著錄,其一校正確率只能達到60%—70%,甚至更低。目錄數據著錄錯誤將會導致相關檔案成為“死檔”,因此目錄著錄正確率的重要性不言而喻。
應對做法:按照《檔案數字化轉換操作規程》(DB32/T 1894-2011)的要求,目錄數字化要求著錄字段基本反映檔案信息,能滿足利用者在查閱中進行檢索。檔案的數字化過程也是對館藏檔案進行重新整理的過程,對不規范的頁碼、條目進行重新編制頁碼、錄入條目,條目的錄入要盡可能地反映更多的檔案信息,如文號、文件標題、責任者、成文時間、主題詞等,通過這些字段可直接提高檔案的查準率及查全率。特別是涉及人的檔案,著錄時必須著錄齊全,對于諸如任免、名冊等可以建立專題檔案數據庫,檔案館要對著錄項目是否完整、著錄內容是否規范、準確等進行嚴格的審查,對不合格的數據要嚴格按要求進行整改,以達到規定標準。另外,為解決檔案著錄錯誤問題,根據筆者實踐,可以通過雙機著錄、軟件比對的方法來提高著錄的正確率,同時也能極大地提高勞動效率、降低勞動成本。詳見表1。

表1
掃描環節是數字化加工的中心環節,檔案掃描的質量直接影響到檔案數字化成果的利用質量及利用效果。掃描環節中容易出現的問題具體表現為:圖像的完整度清晰度不高、分辨率不夠;檔案錯掃、漏掃;由于紙張凹凸不平,陰影嚴重,達不到規定的影像標準,影響OCR識別的準確率。
應對做法:當前按照相關規范標準,數字化掃描的參數一般選擇24 位全彩色方式、300dpi 精度。這個參數對于絕大部分檔案是適用的,但對于某些特殊類型的檔案,如原件字跡模糊、字體過小,計劃用來仿真的檔案等,掃描精度需要適當提高。需要仿真的檔案一般采用600dpi 以上的精度進行掃描,字跡模糊及字跡過小的檔案選取的精度標準以100%大小觀察電子圖像能夠清晰辨認文字為標準。精度的選擇并不是越高越好,因為更高的掃描精度會帶來更大的存儲壓力。
對于錯掃、漏掃的情況,筆者認為要重點從兩個方面著手控制。一是以案卷(件)為單位實施嚴格的校對工作,確保電子文件與實體檔號100%正確對應,杜絕錯掃現象。二是對于漏掃的問題,可以通過圖像個數與頁碼校對的手段來快速發現。具體做法為通過軟件工具將每個案卷(件)文件夾中的圖像個數與相應的電子檔案目錄中的頁數字段進行比對,比對不一致的結果無非是漏掃、錄錯兩種情況,因此這也是對電子檔案目錄的一次核對,起到了一舉兩得的效果。
一些年代久遠的檔案紙張難免會有褶皺變形現象,這樣的檔案如果直接掃描文字會出現波紋、陰影等,這樣的圖像在進行OCR識別的時候會嚴重影響識別的正確率。對于此種類型的檔案,在掃描前應先做熨平處理。具體做法,可將彎曲褶皺的檔案放在兩層特氟龍薄膜之間,用溫度調至70攝氏度左右的干式電燙斗對其熨燙,熨平后的檔案紙張再進行掃描,不僅圖像質量能夠大幅提高,而且對檔案原件也相當于做了一次簡單修整。
掃描環節中電子圖像的存儲格式也是一個容易出問題的地方。我們的經驗是,加工過程中一律采用單頁JPG 的存儲格式,以案卷(件)為單位建立電子圖像目錄結構,以案卷(件)檔號對文件夾命名,以頁號(順序號)對JPG 文件命名。按照這種標準,可以通過軟件工具批量地轉換成PDF、TIF 等其他多頁文件格式。
圖像處理環節最容易出現的問題是圖像傾斜度校準。目前行業內對圖像傾斜的要求一般為正負1度。這個傾斜度一般肉眼很難覺察出來,并且如果沒有一個標準參照物,由于每個人的主觀感覺不同,根本就沒辦法去認定正負1 度的傾斜標準。
應對做法:可以在加工中使用帶有網格標尺功能的顯示器(如華碩PA238Q)進行圖像處理,打開其網格標尺功能,并以此為參照物,對電子圖像進行糾偏處理,確保圖像傾斜度不超過正負1度。
檔案數字化是一項繁重而復雜的工程,做好檔案數字化,將是數字檔案館立足自我、服務社會,實現檔案信息資源深入、長遠、廣泛利用的生命線,因此,我們要以“質量第一”為前提,穩步推進館藏檔案數字化,切不可盲目追求數量和進度,否則將不利于數字檔案館的健康持續發展。