◆郭 軍
(鐵道警察學院 河南 450000)
基于數字掃描儀性能的文本型數字圖像OCR識別準確度提高策略研究
◆郭 軍
(鐵道警察學院 河南 450000)
本文認為,文本型數字圖像OCR識別的數字圖像生產階段,OCR識別準確度的影響因素主要體現在數字掃描儀的選擇和使用兩個方面,進而提出了針對性的文本型數字圖像OCR識別準確度提高策略。
OCR識別準確度;文本型數字圖像;信息資源數字化
OCR(Optical Character Recognition,光學字符識別)這一概念最早于1929年由德國科學家Tausheck提出[1]。信息資源數字化實踐的廣泛開展,為OCR識別提供了廣泛的應用空間。從操作環節方面來看,信息資源數字化中的OCR識別工作流程可以劃分為為數字掃描對象的獲取、數字圖像的生產、數字圖像的處理和OCR文本識別等四個階段[2]。針對文本型數字圖像OCR識別的數字圖像生產階段,筆者認為應主要從數字掃描儀的選擇和使用兩個方面入手提高OCR識別準確度。
為確保文本型數字圖像的數字掃描質量,筆者認為應主要圍繞圖像傳感器性能、掃描分辨率、對不同掃描對象的適應能力和操作便捷性等4個方面著手選擇合適的數字掃描儀。
(1)圖像傳感器性能
圖像傳感器是數字掃描儀的核心部件,數字掃描儀的傳感器主要有光電耦合器(Charged Coupled Device,CCD)、互補金屬氧化物半導體(Complementary Metal-Oxide-Semiconductor, CMOS)、接觸式圖像傳感器(Contact Image Sensor,CIS)及光電倍增管(Photo Multiplier Tube,PMT)等4種類型。僅從圖像傳感性能方面來看,PMT在敏銳度、信噪比、動態密度范圍、環境溫度適應能力等方面,相較于其他3種圖像傳感器處于明顯優勢地位。但是,PMT的價格昂貴,而且目前只適用于專業滾筒式掃描儀,在文本型數字圖像OCR識別領域應用極少。20世紀90年代之前,CCD一直在數字成像裝置光電轉換元件市場上處于壟斷地位。相較于其他3種圖像傳感器,CCD具有數據傳輸標準性高、綜合技術發展成熟、對數字掃描設備適應能力強、應用領域廣泛等優點。筆者認為,為確保文本型數字圖像數字掃描質量,信息資源數字化操作應優先選擇配有CCD的數字掃描儀。
(2)掃描分辨率大小
數字掃描儀的掃描效果,與掃描儀掃描分辨率中的光學分辨率大小密切相關。理論上講,數字掃描儀的掃描分辨率越高,所生成的數字掃描圖像清晰度越高,進而越有利于OCR精確辨識。但是,過高的數字掃描分辨率不僅無法增強數字掃描圖像的清晰度,反而會增強數字圖像中的噪點進而影響OCR識別準確度。信息資源數字化實踐表明,針對文本型數字圖像OCR識別,數字掃描儀的最低光學分辨率應在300 dpi以上,最高光學分辨率應能夠達到600dpi。
(3)對不同掃描對象的適應能力
面對相同的原始文獻資料,不同的數字掃描儀的掃描質量往往不同。為確保掃描質量,數字掃描儀應能夠適應各種類型的原始文獻資料。一方面,數字掃描儀應能夠支持對不同類型、不同尺寸、不同厚度的原始文獻資料的數字掃描。另一方面,數字掃描儀應確保在數字掃描過程中不對原始文獻資料(尤其是部分珍本、善本、孤本資料)造成損壞。
文本型數字圖像的原始文獻資料,主要有印刷體文本和縮微膠片資料兩種類型。信息資源數字化操作實踐表明,平臺式數字掃描儀適宜于對印刷體文獻資料的掃描,便于散頁掃描并便于原始文獻資料的拆分和裝訂;縮微膠片數字掃描儀適宜于對縮微膠卷、縮微膠片、普通縮微平片、套裝縮微平片及全幀縮微平片的數字掃描;滾筒式數字掃描儀適宜于對全幀縮微平片的數字掃描。
(4)操作便捷性
信息資源數字化工作工序繁雜,且部分環節存在大量的重復操作。在對原始文獻資料進行數字掃描時,應盡量減少工作人員因使用數字掃描儀而產生的智力及體力負擔。數字掃描儀的操作界面應簡潔明了,功能按鈕及按鍵設置應與實際操作緊密結合。對于能夠通過功能預設實現批量處理的操作環節,應盡量減少工作人員的手工操作次數與頻率。
2.1 掃描參數的合理設置2.1.1以黑白掃描模式為主
黑白掃描模式、灰色掃描模式和彩色掃描模式是各種類型的數字掃描儀均支持的3種掃描模式。信息資源數字化實踐中,常見的數字掃描對象主要包括印刷型文本、黑白線條圖、手稿資料、半色調型文獻資料、黑白照片、彩色照片、地圖等。數字掃描過程中,不同類型的原始文獻資料對數字掃描模式有著不同的要求。印刷型文本和黑白線條圖適宜黑白掃描模式,其中印刷型文本的最小掃描分辨率應不低于600 dpi;黑白照片、半色調型文獻資料和一般手稿資料適宜灰色掃描模式,其中半色調型文獻資料和一般手稿資料的最小掃描分辨率應不低于300 dpi;彩色照片、地圖、老舊手稿資料適宜彩色掃描模式,其中地圖和老舊手稿資料的最小掃描分辨率應不低于600 dpi。
鑒于文本型數字圖像的原始文獻主要包括印刷型文本資料和縮微膠片資料,在對其進行數字掃描時應以黑白掃描模式為主。但是,對于頁面嚴重污損、頁面嚴重變色、頁面中包含繁雜信息(圖案、注釋、批注等)、頁面中的字符內容色彩超過1種的文本型數字圖像,在對其進行數字掃描時應視情況采用灰色掃描模式或彩色掃描模式。
2.1.2 合理確定最佳掃描分辨率
在一定的數值范圍內,數字掃描儀的掃描清晰度與所設置的掃描分辨率成正比。超過一定的數值之后,掃描分辨率的提高不僅無助于增強掃描清晰度,還會在下列3個方面影響信息資源數字化工作:
(1)降低數字掃描速度。數字掃描分辨率提高,數字掃描儀針對單個原始文獻資源的掃描時間將會相應提高,進而影響整體數字掃描速度。
(2)增加數字圖像存儲負擔。數字掃描分辨率提高,單個數字掃描圖像所占存儲空間勢必增加,進而增加整個信息資源數字化工作的數字圖像存儲負擔。
(3)降低OCR識別準確度。數字掃描分辨率提高,在增強數字掃描圖像清晰度的同時也強化了數字圖像中所存在的噪聲的強度,勢必會降低文本型數字圖像的OCR識別準確度。
可見,為確保數字掃描質量和文本型數字圖像的OCR識別準確度,客觀上存在著一個最佳分辨率。面對同類型原始文獻資源,同一數字掃描儀最佳掃描分辨率的確定基于多次的實驗與對比。但是,信息資源數字化實踐中,通過實驗與對比的方法確定大量甚至海量原始文獻資源的最佳掃描分辨率顯然不現實。實際操作中,可采用美國康奈爾大學圖書館提出的基于掃描等級參數值和字符高度值的最佳掃描分辨率計算方法[3]。該方法將數字掃描質量劃分為優、良、中、差4個等級,并為每個質量等級賦予相應的等級數值(QI值)。中文印刷型文本數字圖像優、良、中、差的QI值[4],依次為18.0、11.0、7.0、7.0以下;西文印刷型文本數字圖像優、良、中、差的QI值[5],依次為8.0、5.0、3.6、3.6以下。在此基礎上,美國康奈爾大學圖書館提出了印刷型文獻資料最佳數字掃描儀的計算公式。適宜于黑白掃描模式的印刷型文獻資料,其最佳掃描分辨率計算公式[6]為:dpi=3QI/0.039h(QI取“優”等級值,h為字符高度,單位為毫米);適宜于灰色掃描模式或彩色掃描模式的印刷型文獻資料,其最佳掃描分辨率計算公式[7]為:2QI/0.039h(QI取“優”等級值,h為字符高度,單位為毫米)。
需要說明的是,美國康奈爾大學圖書館的最佳掃描分辨率計算公式僅是對其信息資源數字化操作實踐經驗的提煉與歸納,其意義在于為最佳掃描分辨率的確定提供參考。最終最佳掃描分辨率的確定,還應結合具體的數字掃描對象,參考由該公式計算得出的掃描分辨率數值根據具體的實驗與對比情況進行優化。
2.1.3 選擇合適的黑白掃描閾值
對于適宜于黑白掃描模式的文本型數字圖像,在對其進行數字掃描之前應設置一個合適的掃描閾值。確定黑白掃描閾值的目的在于,明確數字掃描結果中的哪些像素點被轉換為黑色,剩余的像素點則被轉換為白色。OCR軟件在對字符圖案進行辨識時,主要是依據字符圖案邊沿的特征信息。可見,黑白掃描閾值的確定直接影響著文本型數字圖像的數字掃描效果,進而影響OCR識別準確度。信息資源數字化操作實踐中,應根據被掃描對象的具體情況,在多次試驗、調整的基礎上確定合適的黑白掃描閾值。
2.1.4 調試合適的亮度、對比度
數字掃描儀亮度、對比度的設置,直接影響著最終的數字掃描質量。合適的亮度、對比度,應保證數字掃描儀能夠清晰捕捉到原始文獻資料中最細微的字符特征信息。不同的原始文獻資料,其印刷質量不同、在流通使用過程中的污損及破壞程度不同,對數字掃描亮度、對比度的條件要求也不同。因此,信息資源數字化過程中不能簡單地為批量原始文獻資料設置唯一的掃描亮度和對比度。應結合不同原始文獻資料的具體情況,在合理分類、多次試驗調試的基礎上,分別選擇合適的掃描亮度及對比度。
2.1.5 選擇合適的文件格式保存數字掃描圖像
在對原始文獻資料進行數字掃描之后,需將數字圖像以一定的文件格式進行保存以便進入后續的數字圖像處理及OCR文本識別環節。筆者認為,應從以下三個方面著手選擇數字掃描圖像的文件保存格式:
(1)能夠確保不數字掃描圖像的分辨率不受影響。為確保OCR識別準確度,在對數字掃描圖像進行保存時,所選擇的文件保存格式應確保數字掃描圖像的掃描分辨率不受影響。
(2)能夠支持無損壓縮保存。在對數字掃描圖像進行壓縮保存時,部分文件格式的數字掃描圖像可能會對數字圖像中的細節特征信息造成破壞。為確保OCR識別準確度,所選擇的數字掃描圖像文件保存格式應能夠支持無損壓縮保存。
(3)能夠適應主流圖像編輯軟件和OCR識別軟件。為保證后續的數字圖像處理和OCR文本識別環節順利進行,所選擇的數字掃描圖像文件保存格式應能夠支持全部或主流數字圖像編輯軟件和OCR文本識別軟件。
根據國內外現有的信息資源數字化實踐經驗,筆者認為數字掃描圖像保存應選用Tiff文件格式。
2.2 采用正確的使用方法
(1)避免鏡頭成像組件松動。數字掃描儀的鏡頭成像組件屬于精密設備,在使用過程中應注意避免大幅度的顛簸與振動。信息資源數字化過程中,如確實需要在物理空間上搬運或挪動數字掃描儀,應確保數字掃描儀自身相應的固定及防震動功能開啟,并注意采取必要的外部防震動、防撞擊措施。
(2)確保被掃描對象位置擺放到位。信息資源數字化實踐中,尤其是部分需要手動造作進行數字掃描的原始文獻資料,時常出現因原始文獻資料位置擺放不到位造成數字掃描圖像歪斜或不完整的現象。可借助數字掃描儀的圖像預覽功能,必要情況下需要多次手工調整,確保原始文獻資料位置擺放到位。
(3)保持清潔的周圍環境。數字掃描儀性能的正常發揮,對周圍環境的要求較高。信息資源數字化操作過程中,部分原始文獻資料中存在較多的塵土及紙張碎屑,必須異地進行清理后再進行數字掃描操作,避免對數字掃描儀的掃描與成像質量造成干擾。平時使用過程中,應經常對數字掃描儀的數字玻板進行擦拭,但注意應使用柔軟不掉屑的布料輕輕擦拭以避免劃傷數字玻板。特別需要注意的是,禁止使用酒精類液體清洗數字玻板,否則會嚴重影響數字掃描儀的掃描質量。工作間隙,應使用整潔、不掉屑的蠟染布、絲綢等面料對數字掃描儀進行覆蓋,避免灰塵和碎屑進入數字掃描儀。
(4)對機器進行充分預熱。數字掃描儀在正式掃描之前需要進行預熱,受制造工藝、機器配置及周圍環境溫度等因素影響,不同的數字掃描儀對預熱的時間存在不同的要求。為確保數字掃描儀性能能夠正常發揮,信息資源數字化實踐中應根據具體掃描對象的實際情況多次試驗,在確保數字掃描儀已經預熱充分的前提下再進行數字掃描操作。
(5)充分利用去網紋功能。在對原始文獻資料進行數字掃描過程中,容易在數字掃描圖像中形成網紋,網紋對OCR精確識別有較大影響。去除數字圖像中的網紋,一方面可在后續的數字圖像處理階段實現,一方面也可在數字掃描階段借助數字掃描儀的去網紋功能實現。鑒于數字掃描環節在信息資源數字化流程上處于數字圖像處理環節之前,筆者認為應根據原始文獻資料的具體情況,充分利用數字掃描儀的去網紋功能去除數字掃描圖像中的網紋。
信息資源數字化實踐的廣泛開展,為OCR識別提供了廣泛的應用空間。針對文本型數字圖像OCR識別的數字圖像生產階段,本文認為,OCR識別準確度的影響因素主要體現在數字掃描儀的選擇和使用兩個方面,并且通過實驗分析,提出了正確使用數字掃描儀,提高文本型數字圖像OCR識別準確度的策略。
[1]Schantz, Herbert F. The History of OCR, Optical Character Recognition[J]. Recognition Technologies,1982.
[2]臧國全.文本數字化圖像OCR識別的準確度測度實驗與提高[J].圖書情報知識,2010.
[3]Cornell University Library.Benchmarking for digital capture.[2017-3-27].http://www.library.cornell.edu/preservation /tutorial/conversion/conversion-04.html.
[4]查奕.文獻數字影像的制作與使用[J].數字與縮微影像,2006.
[5]Cornell University Library.Benchmarking for digital capture.[2017-3-27].http://www.library.cornell.edu/preservation /tutorial/conversion/conversion-04.html.
[6]Cornell University Library.Benchmarking Resolution Requirements For Printed Text.[2017-3-27].http://www.librar y.cornell.edu/preservation/tutorial/conversion/conversion-04.ht ml.
[7]Cornell University Library.BENCHMARKING RESOL UTION REQUIREMENTS FOR PRINTED TEXT.[2017-3-27 ].http://www.library.cornell.edu/preservation/tutorial/conversion /conversion-04.html.