蘇 芳 韋建中
檔案數字化是檔案管理過程中一場深刻的革命,在石化集團公司對各單位“廣泛應用數字化、網絡化技術,加快檔案信息化建設步伐,建設數字化檔案館”的要求下,我館作為試點單位,開始了建設數字檔案館的摸索。館藏檔案數字化是建設數字檔案館的基礎和前期工作,是組成數字檔案館的主要資源。為了實現數字資源的共享和統(tǒng)一利用,同時也為了保護檔案原件,將現有檔案進行數字化加工勢在必行。
一、目前檔案數字加工面臨的問題
1、數字化對象數量龐大、類型多樣
中原油田檔案館是油田檔案資源的管理服務中心,伴隨著油田的勘探開發(fā)和生產建設,形成了大量的檔案資料。目前庫藏紙質檔案約230多萬卷,錄音錄像檔案14305盤,照片檔案56116張,底圖640087張,磁帶60512盤,光盤1329張,檔案數量以每年10多萬卷的速度遞增。如果把目前館藏檔案全部數字化,將是一項經年累月的浩大工程。
2、檔案數字化效率問題
在數字化流程的各個環(huán)節(jié),都需要進行質量控制,而這就需要大量的工作時間為保障。以紙質檔案為例,陳舊發(fā)黃的油印文件與現行的打印文件相比,識別率明顯要低很多,已損壞的文件還需要修復處理,甚至有些文件識別下來并不會比手工錄入快。
3、部門之間的協調問題
館藏檔案數字化工作是一項需要投入大量人力、物力和財力的工程,不僅僅是檔案信息部門的事情,還會涉及業(yè)務指導部門、檔案保管部門等。爭取分管領導的支持與協調,才是館藏檔案數字化工作得以順利進行的保障。
二、館藏檔案數字化的實施
1、做好檔案鑒定工作,突出重點
由于我館保管的檔案數量龐大,檔案的價值也各有不同,所以不可能將全部檔案數字化,既浪費有限的資金,又會增加檔案部門的工作量。因此,要根據館藏實際情況,先進行檔案價值鑒定,篩選重要全宗,突出重點,有選擇地對館藏檔案進行數字化。
第一,對檔案館中保存年代久遠已瀕臨損壞的珍貴老檔案進行數字化。第二,對具有長遠使用價值且不方便用戶反復翻閱的原件檔案進行數字化。第三,對利用率高、需求量大的開放檔案進行數字化。第四,針對主體服務對象,對具有油田特色的檔案進行數字化。
2、細分檔案數字化加工流程,嚴格控制精度
按照先公開后保密、先近期后歷史的原則,分步開展數字化加工工作。以紙質檔案為例,2000年以來的公文檔案、數據庫中未有的且利用率較高的勘探開發(fā)類檔案、油田生產建設項目檔案、局級科研檔案進行全文錄入。
①整理拆分:從檔案管理員處填寫《檔案領取記錄單》,并領取檔案后,以件為單位拆除檔案的裝訂線,區(qū)分出需掃描的檔案材料。對檔案進行整理,將其中夾雜的紙屑以及訂書針等金屬物全部去掉,對已破損的文件進行必要的修復,對于不清楚的文件資料在征得檔案管理員的同意后進行素描,以保障掃描圖像的質量。
在檔案整理拆分過程中,對于破損的檔案材料要做相應登記,在征得檔案管理員的同意后,用透明膠從背面粘合。破損情況嚴重、無法粘合的,可用專用紙在背面托襯進行文件的修復;也可復印后掃描。
②檔案掃描:檔案經過整理后,將需要掃描的案卷交給檔案掃描人員,紙張狀況較差,以及過薄、過軟或超厚的檔案,采用平板掃描方式;紙張狀況好的檔案采用高速掃描方式以提高工作效率。
使用的數字化檔案管理系統(tǒng)支持任意類型的掃描儀,支持黑白、彩色、灰度圖像掃描,支持各種分辨率的掃描方式,能夠掃描從A4到A0幅面的圖紙。操作員可在系統(tǒng)界面上實時瀏覽、監(jiān)控掃描的圖像,適時做出相應調整。
③圖像處理:系統(tǒng)具有去黑邊、糾偏、條碼識別等功能,還可為圖像增加數字水印。操作員可對圖像進行鏡像、任意角度旋轉,調整亮度、對比度,銳化、鈍化、模糊、腐蝕,拼接、裁邊等處理,提高影像質量。
④圖像識別:針對掃描得到的電子文件的不同文檔類型,靈活定義各種文檔的版面。使用內置OCR識別引擎,根據區(qū)域特征自動進行版面還原,對文檔中的文字信息進行識別。自動提取文檔中的文號、標題、責任者等信息。
⑤索引錄入:經由OCR自動提取的信息在數據庫中形成索引,還可手工補充其他的圖像索引信息。這樣掃描圖像入庫后,就有索引信息支持用戶通過文號、標題、作者等屬性進行查詢。錄入人員首先檢查條碼的正確與否、圖像文件的頁數及圖像質量,然后創(chuàng)建索引,同時檢查索引建立的正確性,進行必要的人工修改。
⑥檔案復原:在索引錄入檢查無誤后,檔案資料以件為單位歸入檔案盒,檢查是否有缺失、遺漏的內容,填寫《掃描生產流程單》,交由檔案管理員檢查接收入庫,要保證盒內每件檔案的完整準確。
3、數字化成果的存儲
同一種檔案在數字化后可以生成不同的格式,在實際工作中,采用最多的就是TIFF和PDF兩種格式。其中TIFF格式主要用于存儲生產圖紙等輸出精度要求較高的圖像文件;而PDF格式一般用于存儲輸出分辨率要求不高或者多頁的文字內容較多的文件。
采用服務器、磁盤陣列、光盤等多種存儲方式對數字化后的文件進行安全存儲,依據檔案的類別建好相應的目錄結構,以文件的檔號為掃描后的圖像文件命名,再將文件存儲到對應的目錄下。規(guī)范文件名稱及存儲邏輯結構,便于對加工好的文件進行組織和掛接利用。
三、檔案數字化的重要意義
1、實現資源共享,提高工作效率
檔案資料經過數字化加工后,社會公眾(開放檔案)和各職能部門都能通過檔案管理系統(tǒng)即時查詢利用所需要的電子文檔原文信息,檔案利用不再受檔案原文不能共享的限制,也避免了傳統(tǒng)檔案利用方式對檔案實體多次輾轉造成的時間浪費和重復勞動,從而提高工作效率,降低檔案信息利用的成本。
2、有效地保護檔案實體的安全
檔案因經常外借翻閱易產生破損甚至丟失,給檔案的永久保管造成威脅。而檔案進行數字化加工后,可通過電子方式提供利用,減少了原件的使用頻率,有效地保護了原件。
3、提升企業(yè)形象
館藏檔案數字化,是促進檔案管理信息化、現代化的具體舉措。數字化項目完成后,不僅檔案管理和利用手段實現了現代化,檔案利用效率也大大提高,檔案作用也越發(fā)顯著,同時也將極大地提升企業(yè)形象。