文/個舊市城市建設檔案館 許明
檔案數字化圖像信息的處理研究
文/個舊市城市建設檔案館 許明
近幾年,伴隨社會網絡化、數字化程度的進一步提升,人們獲取信息與使用信息的途徑與手段也得到了較大的發展,以往檔案資料低效率與高成本存儲和使用方法,已經明顯無法適應當前的使用要求。借助計算機、互聯網等數字技術實施館藏紙質載體信息“存量信息化”,增加檔案資料綜合服務質量,已經變成檔案領域的共識,還是檔案部門進行信息檔案館創建的必經階段。文章首先分析了通用的圖片壓縮和保存標準,接著講述了檔案數字化需要注意的問題,最后對檔案信息化圖像數字處理的相關內容進行了詳細的分析,以供參考。
檔案資料;數字化;圖像信息;處理方式;研究
數字化圖像處理是指借助電腦對圖像信息展開加工,以符合人的視覺要求或是使用需要的行為。結合《紙質檔案信息化技術規范》的規定,掃描獲得的檔案初始圖像應實施傾斜度、明晰度以及失真度等層面的加工。例如,傾斜圖像應進行糾正、旋轉還原加工。模糊與不可見圖像應實時增強加工,偏斜失真、幾何失準、非線性失準的圖像應實時復原處理等。為此,有同行提出了反對意見,理由在于圖像處理轉變了檔案的原貌,脫離了檔案的準確性需要。
圖像壓縮的機理是在確保較高的圖像質量的基礎上,用一種數學計算方式把圖像的信息量減到最少。而有關圖像壓縮保存的方式有許多,當前檔案管理方面通常使用如下幾種格式:
(一)TIFF。該種格式的圖像可以保存非常多的資料,最多各個像素點能夠保存32bit,通常情況下,最常見的為24bit。最早設計TIFF的想法便是可以把掃描獲得的圖像在各種平臺上實現高效果的打印,因此,TIFF格式較為適合當做高性能的存儲原件圖像的保存格式。TIFF格式能夠融入RGB模式或是CMYK模式,所以,TIFF圖像在呈現與打印上均可以保證很高的質量,特別是在設計與印刷方面,TIFF資料格式的使用范圍非常廣闊,質量也十分顯著。TIFF可以用滿足LZW算法的無損壓縮模式保存彩色圖像和256級灰度圖像,還可以滿足CCITT G4算法的無損壓縮模式保存黑白圖像。TIFF也能夠以JPEG算法存儲有損壓縮圖像,可是該種圖像存儲模式和JPEG沒有明顯差別,所以,使用范圍狹窄。
(二)JPEG。JPEG屬于當前網絡使用中最頻繁的圖像格式之一,其還是當前使用最普遍的壓縮保存格式,JPEG的圖像壓縮效率很高。JPEG也是一個較靈活的圖像保存格式,可以通過不同的質量標準來對圖像實施不同倍率的處理。JPEG采取的是一項有損壓縮算法,如此在放大呈現時能夠較明顯看到,針對高性能的打印其質量也會存在區別。因此,JPEG不適宜作高質量才能出原圖的保存格式,但由于其壓縮倍率較高,所以比較適用于網絡中,一般情況下,能夠用JPEG對原件進行15—20倍的壓縮,依舊可以獲得非常好的視覺成效。
(三)JPEG2000。JPEG2000是JPEG的升級版,它的壓縮率和JPEG相比明顯高出30%左右,而且允許有損與無損壓縮。JPEG2000格式存在一個非常關鍵的特征是,其可以達到漸進傳遞,是指先傳送原圖的輪廓,再逐步傳送信息,進一步提升圖像質量,使圖像從模糊到清楚呈現。另外,JPEG2000還具備“感興趣區域”的性能,能夠制定圖像中感興趣位置的壓縮質量,也能夠選取指定的區域先壓縮。JPEG2000的優點會明顯高過JPEG,同時向下兼容,所以,能夠代替以往的JPEG格式。JPEG2000格式不僅能夠使用在傳統的JPEG條件下,像掃描器、數碼相機等,還能夠使用在新興領域,像互聯網傳遞、無線通信等。
(四)PDF與OFD。PDF與OFD屬于兩類板式文本格式,其中,PDF是由國外的Adobe企業在1993年研發的一種板式資料格式,當前已成為世界標準格式。OFD是根據國內工業數字化部組織創建的電子文件保存,與交換格式作業組板式文件編制組建立的板式文件標準產生的板式文檔格式。這兩類文檔格式并非專門的信息圖像壓縮和保存格式,其僅僅是把現有的圖像資料合并組織成一個齊全的板式文件。使用板式文檔管理信息圖像:一是把一個檔案信息組合成一個電腦文件,便于瀏覽和傳遞。二是信息圖像格式的資料能夠使用OCR技術產生雙層PDF或是雙層OFD,進行信息圖像的文件檢索。
通過上述詳細分析,現將檔案數字化處理的技術參量以及后續處理提出以下建議:
1.需要使用很高的技術參數進行紙質檔案信息化。頁面上有紅頭、印章以及含有彩色圖片、彩色插圖的資料選擇彩色模式來掃描,頁面是黑白兩色的資料要使用灰度模式來掃描,盡可能不采用黑白二值形式。
2.使用彩色模式處理時,它的分辨率通常建議選用600dpi。灰度形式掃描時,它的分辨率通常建議選用200dpi。獨特條件下,如文字很小、集中、清晰度很差等,能夠適當提升分辨率。
3.信息化成果中需要盡可能維持紙質資料原貌,不能不進行選擇地展開去污以及裁邊操作。
4.有條件企業,在進行檔案數字化任務的時候,需要同步進行OCR辨別工作,方便進行全文檢索、電腦輔助編目、編研研究以及信息開發等。
檔案信息化完成后,要根據不同的使用模式,分保存層、使用層以及索引層這三個層次來進行信息圖像處理,分別用來進行圖像的保存和再生、網絡使用與圖像索引。
(一)保存層保存紙質檔案信息化原始成果照片,以現行的通用軟件來實現很高質量保存原圖像信息,并可以用現存的硬拷貝裝置來恢復原有的圖像信息。該層的規范不僅要考慮到現有軟硬件裝置和存儲裝置的制約,還應當確保較高質量方面的再生質量。而且,該層次應不需要展開實時應用,如此便可以使用現存的設備來前處理與處理時就能夠接受很長的處理時段。在圖像格式上,因為信息化處理對原始圖像資料已有非常大的耗損,所以在保存格式上一定要使用無損壓縮的信息格式,而使用無損壓縮的TIFF格式可以完整再生當前處理的信息化圖像資料。
(二)使用層重點以網絡傳遞和計算機使用為目的。思考當前的網絡傳遞寬帶和現有計算機的輸入輸出功能是界定該層次標準的重要依據。而且,該層次是一個中間的使用層,能夠按照以后網絡和計算機功能的發展而再次定義,以符合更高層次的使用要求。由于這個層次圖像信息是由保存層的資源形成出來的,因此,其標準最大上限為保存層的標準。當前,網絡上使用最普遍的保存格式為JPEG,所以,選擇JPEG格式當做使用層圖像保存格式。結合實踐經驗得知,當前在網絡中傳遞的單一圖像資料,其容量盡量不要大于1MB,要不然在網絡中傳遞將面臨時延偏長的情況。
(三)索引層是給網絡瀏覽導航、介紹、索引庫等使用而設的,該層的設置需要以最小科學的資源大小來符合索引的使用要求。該層的格式通過界定后比較固定,通常不會隨著使用的改變而出現變化。索引層作為一般含義的拇指圖,對資料不會有很高的質量需要,通常選用最大圖像規格是200像素的JPEG格式保存索引層資料。
數字化成果很關鍵的一個部分為數字圖像資料,相較于信息文本資料來說,圖像資料的處理與保存非常復雜多樣,結合當前的設施與技術狀況,研究創建一套切實可行的操作流程與標準規范,針對信息資料數字化與資料質量的統一與提升,推動檔案事業長遠健康發展,針對以后檔案館之中和與其他企業的數據資料交換具備顯著的意義。
[1]劉虎,孫娜,張學干.試析檔案數字化過程中遇到的特殊情況及處理方法[J].山東檔案,2014(03):49-51.
[2]胡紅霞.論數字檔案館的建設——數字檔案館檔案信息采集的研究[J]. 中國教育研究論叢,2015(00):25-27.
[3]程妍妍.國際圖像電子文件元數據發展新趨勢——NISO Z39.87技術元數據標準的分析與研究[J].浙江檔案,2014(10):37-39.
[4]李昕陽.努力實踐科學發展觀 扎實推進高職畢業生就業檔案信息資源利用[J].機電兵船檔案,2016(06):55-57.
[5]劉宇,曹強.城建檔案管理系統的設計與實現——以江蘇某城建檔案館為例[J].山西檔案,2012(05):58-61.