文·李青
淺談檔案數字化圖像信息的處理
文·李青
近年來,隨著社會網絡化、信息化程度不斷提高,人們獲得信息和利用信息的方式和手段也不斷發展更新,傳統檔案信息低效率和高成本的保存與利用方式已不能適應現階段的利用需求。利用計算機、網絡等信息技術開展館(室)藏紙質載體檔案“存量數字化”,提高檔案信息綜合服務水平,已成為檔案界的共識,也是檔案部門開展數字檔案館(室)建設的必由之路。
紙質檔案數字化是指采用掃描儀或數碼相機等數碼設備對紙質檔案進行數字化加工,將其轉化為存儲在磁帶、磁盤、光盤等載體上并能被計算機識別的數字圖像或數字文本的處理過程。數字化成果很重要的一個部分是數字圖像信息,相對于數字文本信息來講,圖像信息的處理和存儲較為復雜多樣,根據目前的設備和技術情況,摸索建立一套行之有效的工作流程和標準規范,對于信息資源數字化后信息質量的統一和提高,促進檔案事業持續快速健康發展,對于今后各檔案館之間以及與其他單位的信息資源交換具有重要意義。
(二)需要“永久保存”;
(三)需要便于查閱;
(四)需要便于網絡傳輸;
(五)在滿足以上條件基礎上需要占用最小空間。
數字化的圖像存儲就是要盡可能多地將原始資料的圖像信息保留至數字化載體中。由于紙質載體數字化后數據量非常龐大,壓縮技術一直就是圖像存儲的重要課題。圖像壓縮的原理是在保證一定的圖像質量的前提下,以一種數學運算方法將圖像的數據量降到最小。圖像壓縮分為無損壓縮和有損壓縮,顧名思義無損壓縮就是不破壞原有圖像信息或所有圖像信息均可通過一定的算法恢復的壓縮方法,而有損壓縮則是在可接受的圖像質量條件下對圖像進行的一種不可復原的壓縮方法。有損壓縮比無損壓縮有更高的壓縮比,因而壓縮后的圖像數據量更小,因此多用于網絡傳輸等對數據量要求較為嚴格的條件下。關于圖像壓縮存儲的方法很多,現階段檔案行業一般常用下面幾種格式:
后評估作為檢驗配電網規劃成效、改進配電網規劃工作的手段之一,其重要意義已得到廣泛認知,電網企業在加強配電網規劃工作時普遍提出了后評估的要求。
(一)TIFF
TIFF格式的圖像允許存儲相當多的位信息,最多每個象素點可存儲到32 bit,一般最常用的是24 bit。最初設計TIFF的初衷就是要能夠將掃描的圖像在不同的平臺上進行高質量的打印,所以TIFF格式比較適合作為高質量的保存原件的圖像存儲格式。TIFF格式允許RGB模式或者CMYK模式,因此TIFF圖像在顯示及打印兩方面都能保持較高質量,尤其是在設計和印刷領域,TIFF文件格式的應用范圍相對較廣,質量也相對較好。TIFF能以符合LZW算法的無損壓縮格式存儲彩色圖像或256級灰度圖像,也能以符合CCITT G4算法的無損壓縮格式存儲黑白圖像。TIFF還可以JPEG算法保存有損壓縮圖像,但這種圖像保存方式與JPEG沒有太大區別,因此應用范圍較少。
(二)JPEG
JPEG是目前網絡應用中最常見的圖像格式之一。JPEG也是目前應用最廣泛的壓縮存儲格式,其圖像壓縮的效率極高。JPEG還是一個很靈活的圖像存儲格式,允許以不同的質量要求來對原圖進行不同倍率的壓縮。JPEG采用的是一種有損壓縮的算法,這在放大顯示時很明顯可以看出,對于高質量的打印其效果也會有差別。所以JPEG不適合作高質量保存原件的存儲格式,但因其壓縮效率極高,因此非常適合網絡應用,通常情況下可以用JPEG對原圖作15到20倍的壓縮,仍能得到可以接受的視覺效果。
(三)JPEG2000
JPEG2000作為JPEG的升級版,其壓縮率比JPEG高約30%左右,同時支持有損和無損壓縮。JPEG2000格式有一個極其重要的特征在于它能實現漸進傳輸,即先傳輸圖像的輪廓,然后逐步傳輸數據,不斷提高圖像質量,讓圖像由朦朧到清晰顯示。此外,JPEG2000還支持所謂的"感興趣區域" 特性,可以任意指定影像上感興趣區域的壓縮質量,還可以選擇指定的部分先解壓縮。JPEG2000和JPEG相比優勢明顯,且向下兼容,因此可取代傳統的JPEG格式。JPEG2000即可應用于傳統的JPEG市場,如掃描儀、數碼相機等,又可應用于新興領域,如網路傳輸、無線通訊等等。
(四)PDF和OFD
PDF和OFD是兩種版式文件格式。PDF是美國Adobe公司于1993年開發的一種版式文件格式,目前已經成為國際標準格式。OFD是按照我國工業信息化部組織成立的電子文件存儲和交換格式工作組版式文檔編寫組制訂的版式文檔標準形成的版式文件格式。這兩種文件格式并不是專業的數字圖像壓縮或存儲格式,他們只是將現成的圖像文件合并組織為一個完整的版式文件。采用版式文件管理數字圖像一是便于將一件檔案文件組合為一個計算機文件,方便瀏覽與傳輸;二是數字圖像格式的文字可以通過OCR技術形成雙層PDF或者雙層OFD,實現數字圖像的全文檢索。
根據對相關技術與標準的考察,并且考慮到目前國內的應用水平與未來的擴展情況,筆者認為在開展檔案數字化圖像處理時應依據如下原則:
(一)標準性
標準性即是要求選用的圖像標準或方法符合國際上的通行標準、事實標準或通行做法,以保證不會在國際交流中的產生困難,從而保證一定的互操作性。只有符合現有的通用標準,才具有較強的生命力。標準性提供了可擴充性,具有升級的能力,具備被向下兼容的權利。
(二)可操作性
指所采用的標準規范及工作流程要符合工作人員實際的能力和技術水平,使一般工作人員經過短時間的培訓就能夠操作。信息資源的建設是一個勞動密集型的行業,雖然具有相當的知識要求,但大量的基礎工作不能要求普通工作人員都具備應付復雜工作的能力,過于復雜的標準和處理過程也不利于品質的控制。
(三)前瞻性
在開展檔案數字化時要在考慮軟硬件因素時適當的留有發展余地,如在網絡帶寬發展的情況下就能合理的時間內傳送更高質量的圖像。同樣對于電腦、顯示器,其它硬拷貝等設備也要考慮到它們快速發展的可能性。在制定標準的情況下留有相當的發展空間。
(四)多用途
在一定程度上講,檔案數字化也是對檔案原件的一種損毀。因此在開展檔案信息資源數字化時,要充分考慮檔案數字化成果多方面的應用場景,盡量保證一次數字化能盡量滿足絕大部分利用需求。不推薦僅從方便檔案查閱的角度簡單地確定數字化技術參數,還應充分考慮仿真件制作、檔案展覽等應用。
綜上所述,筆者對檔案數字化工作的技術參數和后期處理提出如下建議:
(一)應當采用較高的技術參數開展紙質檔案數字化。頁面中有紅頭、印章或插有彩色照片、彩色插圖的檔案應采用彩色模式進行掃描,頁面為黑白兩色的檔案應采用灰度模式進行掃描,盡量不使用黑白二值模式。
(二)應用彩色模式掃描時,其分辨率一般建議選擇600dpi?;叶饶J綊呙钑r,其分辨率一般建議選擇200dpi。特殊情況下,如文字偏小、密集、清晰度較差等,可適當提高分辨率。
(三)數字化成果中應當盡量保持紙質檔案原貌,不應不加選擇的進行去污和裁邊處理。
(四)有條件的單位,在開展檔案數字化工作的同時,應該同時開展OCR識別工作,便于實現全文檢索、計算機輔助編目、編研開發和數據挖掘等。
檔案數字化完成后,應按照不同的應用形式,分存儲層、應用層、索引層等三個層次進行數字圖像處理,分別用于圖像的存儲與再生、網絡應用和圖像索引。
(一)存儲層保存紙質檔案數字化原始成果圖像,以現有的通用軟硬件來達到以較高品質儲存原圖像資源,并能夠以現有的硬拷貝設備來再生原有的圖像資源。這一層的規范既要考慮到現有軟硬件設備及存儲設備的限制,又要保證一定質量上的再生效果。同時這一層次應不要求進行實時利用,這樣就能利用現有的設備進行前處理及輸出的時候就可以接受較長的處理時間。在圖像格式方面,由于數字化處理對原有資源信息已有相當大的損耗,因此在存儲格式上必須采用無損壓縮的數據格式,而采用無損壓縮的TIFF格式能完整再生我們處理的數字化圖像信息
(二)應用層主要以網絡傳輸及電腦利用為目的??紤]目前的網絡傳輸帶寬及現有電腦的輸入輸出能力是界定這一層次標準的參考指標。同時這一層次作為一個中間的應用層,可以根據今后網絡及電腦能力的發展而進行重新定義,以滿足更高層次的應用需求。因為這一層圖像資料是由存儲層的資源生成而來的,所以其標準最高上限是存儲層的標準。目前網絡上應用最廣泛的存儲格式就是JPEG,因此選用JPEG格式作為應用層圖像存儲格式。根據實踐經驗,目前在網絡上傳輸的單個圖像文件,其容量最好不要超過1MB,否則在網絡上傳輸會遇到時延過長的問題。另外,在應用層次上,也要考慮現有顯示設備的限制。以19寸液晶顯示器為例,傳統的4:3顯示器分辨率為1280×1024, 16:10的寬屏顯示器分辨率為1440×900,所以選擇以1440像素為應用層的最大圖像尺寸限制。有條件的單位可以考慮使用Jpeg2000文件格式在網絡上傳送容量較大的數字圖像,利用其“逐漸清晰”的顯示特性獲得較為人性化的應用體驗。
在應用層也可以考慮將數字圖像壓縮后組織成PDF或OFD等版式文件形式進行利用,有條件的可使用雙層PDF或者雙層OFD實現全文檢索。需要注意的是,在某些按檔案頁數付費應用的系統中,使用版式文件可能會增加付費系統程序設計的復雜程度。
(三)索引層是為了網絡瀏覽導航,簡介,索引庫等應用而設,這一層的設置要求以最小合理的資源大小來滿足索引的應用需求。這一層的格式一經界定后較為固定,一般也不會隨著應用的變化而有所改變。索引層作為通常意義的拇指圖,對圖像不會有過高的質量要求,一般選擇最大圖像尺寸為200像素的JPEG格式存儲索引層圖像。
下表為三層的具體技術標準(表中數據數字化原件為A4文件,圖像尺寸與大小僅供參考):

層名圖像類型存儲格式分辯率圖像尺寸(大?。┎噬玊IFF(LZW) 600dpi 1275×1750(6.7M)灰度TIFF(LZW) 200dpi 2550×3501(4.4M)存儲層彩色JPEG 600dpi 1048×1440(667K)*灰度JPEG 200dpi 1048 x 1440(442K)黑白JPEG 200dpi 1048 x 1440(237K)**應用層彩色JPEG 600dpi 145 x 200(15K)***灰度JPEG 200dpi 145 x 200(10.6K)黑白JPEG 200dpi 145 x 200(8.5K)索引層
*應用層圖像大小在保證圖像縱橫比不變的情況下,將長邊設定為1440像素。
**黑白圖像為灰度圖像做二值化處理后的結果。
***索引層圖像大小在保證圖像縱橫比不變的情況下,將長邊設定為200像素。
(作者單位:青島市廣播電視臺)
