1.徐 媚 2.沈繼紅
1.國網新疆電力公司昌吉供電公司 2.國網新疆電力公司新湖供電公司
庫藏檔案數字化質量檢測初探
1.徐 媚 2.沈繼紅
1.國網新疆電力公司昌吉供電公司 2.國網新疆電力公司新湖供電公司
針對國網昌吉供電公司庫藏檔案數字化過程中存在的數字化檔案掃描件檢測數量大、掃描件達標率不高、工作效率低等問題,通過研發檢測工具,實際應用,統一了數字化檔案掃描件的檢測標準,降低了檔案工作人員檢測強度。
檔案;數字化;質量檢測
隨著紙質檔案數字化工作至上而下逐步的展開與完善,紙質檔案如何通過現代計算機技術快速得到利用,是整個檔案行業所面臨的重大課題。國網公司自2010年開始在全系統實施檔案數字化,同步開展存量檔案數字化、增量檔案電子化工作。據統計,截止到2014年年底,僅國網昌吉供電公司開展存量檔案數字化量就達383萬頁,2014年當年增量數字化檔案達205萬頁。如此大量的數字化檔案是否符合《國家電網公司紙質檔案數字化技術規范》是當前檔案工作人員面臨的一個難題。
在人員、時間各方面條件有限的情況下,面對大量的數字化檔案,檔案工作人員在抽檢過程中發現很多數字化檔案的質量不過關,如:數字化檔案掃描件中存在大量黑點、掃描件傾斜角度過大、分辨率過高或過低、用真彩色或灰度的黑白掃描件代替黑白二值等現象。數字化的各項指標只能憑借檔案工作人員肉眼識別,導致評判標準不統一,檢查方和移交方矛盾激化。
原因一是沒有統一的掃描軟件來滿足標準的需要;二是檢測的檔案人員沒有合適的檢測工具。尋找一種有效的方法(技術手段)快速檢測并挑出不符合標準的檔案掃描件,是當前檔案數字化工作中的一大難題。
(一)數字化檔案掃描件主要存儲形式
1.以原始掃描圖像格式存儲。國家檔案局頒布的標準,以單頁的TIFF格式文件和JPG格式文件進行存儲和應用。
2.以多頁TIFF文件格式存儲。是將原始掃描數據進行二次加工,通過TIFF文件格式以多頁鏈表的特點,將原始掃描圖像數據文件,添加轉換成TIFF文件的頁面中。
3.以多頁PDF文件格式存儲。包括單圖像層和雙層兩種。將原始掃描圖像“腳本化”包裝處理后,合成到一個文件的頁面中。
目前國網公司文字材料類檔案統一采用的是多頁PDF文件圖像頁面的檢查,在數字化檔案掃描件的檢測時,需要在加載文件的同時獲取每一頁的圖像信息。
(二)數字化檔案掃描件檢測原理
針對上述的電子檔案掃描圖像的檢測指標,利用計算機軟件程序批量的來完成檢測任務,是一種切實可行的辦法,其具體的方法和原理如下:
1.圖像顏色數的檢測。“黑白二值”圖像是指用于存放黑與白色像素數量為“1bit”的圖像,一個字節可以存放8個像素點。彩色256色黑白圖和真彩色黑白圖的每像素所占的bit位數,為8bit和24bit。可以直接從圖像的DIB數據結構頭中,直接獲取出當前讀取圖像的單位像素所占的bit數量,從而獲得圖像的顏色信息是否符合標準。檢測中發現,很多用戶錯將16/256色或真彩色黑白圖像當作黑白二值圖像進行存儲,這是人工檢測時很難發現的問題。
2.圖像分辨率的檢測。對于原始數據(單頁的TIFF和JPG文件)和多頁TIFF文件而言,文件結構本身內置了分辨率字段,用來保存了掃描時填寫的圖像水平分辨率和垂直分辨率數值。要準確的檢測出圖像分辨率,需要根據圖像尺寸來重新計算,A4頁面的尺寸為827x1169像素,水平方向分辨率=W/827*100,垂直方向分辨率=H/1169*100。由于掃描圖像在優化處理過程中,圖像糾偏操作可造成圖像尺寸變大,圖像切變操作可造成圖像尺寸變小,因此,W/827和H/1169結果并非整數,而是一個取值區間。在這個區間范圍內的數值,所計算出來的分辨率是一個近似值,根據這個近似值所在頻帶來判斷圖像分辨率是否達標。
3.圖像傾斜角度的檢測。檢測指標主要針對黑白二值圖像的檢測操作。對于彩色圖像數據,可以先進行“高清化”處理,并將圖像底色替換為白色,將其轉換為文字內容與底色有很高對比程度的圖像,然后再對其進行黑白二值化轉換。先統計出水平和垂直方向上的“權值”數組,作為圖像內容版面分析的原始依據。然后,在得到圖像內容區間范圍內順序采樣,并對每一份采樣矩陣中的數據進行分析,最終計算得出整個頁面的平均斜率值,將該值轉換為圖像的傾斜角度,根據該角度值來是否符合標準。
4.圖像去污質量檢測。指標的檢測,重點針對圖像黑邊框情況進行檢測,黑點的檢測目前還沒有足夠的理論依據。
5.圖像頁面是否加載的檢測。對于多頁的PDF格式文件,由于其使用的制作軟件不同,其頁面數據格式不完全相同。為了對掃描后圖像進行優化處理,很多制作軟件會在原有PDF頁面的基礎之上,插入修改過后的圖像數據節點,用來保存修改痕跡;或者插入“Shape”繪圖節點,來覆蓋掉圖像中的黑色邊框。加載PDF文件頁面的成功與否,直接影響到其它指標項的檢測。
6.圖像圖層數量的檢測。對于多頁PDF文件存儲的檔案圖像數據,是通過加載PDF文件的交叉引用表(xref),來獲取每一頁圖像數據的Stream流對象,同時統計其數量。原始歸檔的PDF文件應該只有一個圖像層。可通過判斷圖像層數量的檢查,來確認電子檔案是否被非法篡改過改,并進一步確認其真實性、可利用性。
7.文本層數據的檢測。雙層PDF文件,是指PDF文件中的每個頁面中會同時存在兩種類型數據:一是光柵圖像數據,二是矢量文本數據。通過將雙層PDF文件頁面中隱含的文字信息提取出來的方法,判斷其頁面中是否存在文字內容。
國網昌吉供電公司通過檢測軟件的應用,統一了數字化檔案掃描件的檢測標準,降低了檔案工作人員檢測強度,提高了工作效率,同時也減少了檢測人與被檢測人直接矛盾關系。國家/行業標準的建立,需要有配套的檢測措施,才能更好為行業創造出更有價值的成果。數字化檔案掃描件是否符合標準、是否達標的檢測方法和技術手段,是紙質檔案數字化工作中必不可少的重要一環。
[1]《中央企業檔案信息化建設工作指引》(國資廳發[2014]2號)
[2]《紙質檔案數字化技術規范》(GBDA/T31-2005)
[3]《PortableDocumentFormat-ReferenceManualVersion1.3》
[4]《國家電網公司紙質檔案數字化技術規范》(Q/GDW135-2006)