◆郭 軍
(鐵道警察學院 河南 450000)
基于OCR軟件性能的文本型數字圖像OCR識別準確度提高策略研究
◆郭 軍
(鐵道警察學院 河南 450000)
本文以OCR軟件性能為視角,從對圖像噪聲的免疫力、對標點符號的辨識、數字圖像預處理能力、能夠辨識的內容范圍、交互界面便捷性、軟件自學習功能等7個方面對OCR識別準確度的影響因素展開分析,并提出相應針對性的應對策略。
OCR識別;文本型數字圖像;信息資源數字化
OCR(Optical Character Recognition,光學字符識別)這一概念最早于1929年由德國科學家Tausheck提出[1]。信息資源數字化工作的目標對象,是大量甚至海量的紙質載體或固體載體形態的文獻資源,OCR憑借自身的智能識別及批量操作性能得以在信息資源數字化工作中廣泛應用。信息資源數字化工作中的 OCR識別,其生命周期可以劃分為數字掃描對象的獲取、數字圖像的生產、數字圖像的處理和OCR文本識別等四個階段[2]。OCR文本識別,是信息資源數字化 OCR識別生命周期中的最后階段,是決定識別準確度的關鍵階段。本文嘗試以OCR軟件性能為視角,對 OCR識別階段影響識別準確度的相應因素展開分析并提出針對性的應對策略。
筆者曾借助具體的 OCR識別案例對清華紫光股份有限公司的 TH-OCR MF7.5、北京漢王科技股份有限公司的HW-PDF-OCR8.0等兩款常用OCR識別軟件的性能進行分析[3],結果表明 OCR識別階段軟件性能是影響是識別準確度的關鍵因素。具體而言,文本識別階段OCR 軟件的性能優劣主要體現在對形近字符的辨識、對圖像噪聲的免疫力、對標點符號的辨識、數字圖像預處理能力、能夠辨識的內容范圍、交互界面便捷性、軟件自學習功能等7個方面。
1.1 對形近字符的辨識
文本型數字圖像的 OCR識別,實際上是基于字符圖案筆畫邊緣特征的模板匹配過程[4]。形近字符(如“籍”和“藉”、“璧”和“壁”)之間在筆畫邊緣部分存在較大相似度,辨識過程中容易造成 OCR軟件的誤判。信息資源數字化實踐證明,因誤判形近字符造成的錯誤識別在影響OCR識別準確度的眾多因素中穩居前列。
1.2 對數字圖像噪聲的“免疫力”
在對文本型數字圖像進行 OCR識別之前,通常均已經過了數字圖像的預處理操作,一般都對數字圖像中的噪聲進行了降噪處理。但是,受數字圖像預處理程度、文本型數字圖像自身質量等因素影響,在對文本型數字圖像進行 OCR識別時數字圖像中往往仍然存在著不同程度的噪聲。因此,OCR識別軟件必須對數字圖像中的噪聲具備一定的抗干擾能力。
1.3 對標點符號的辨識
文本型數字圖像中的標點符號具備字符圖案體積小、所處空間位置特殊等兩個顯著特點。標點符號字符圖案體積小,容易與其臨近的文字字符圖案混為一體,造成 OCR軟件的錯誤辨識。標點符號字符圖案所處空間位置偏僻、且成對出現的標點符號的不同部分之間往往有文字字符圖案,容易對OCR軟件的完整、準確辨識造成干擾。
1.4 數字圖像預處理能力
在對文本型數字圖像(尤其是原始印刷、排版質量欠佳的數字圖像)進行正式識別之前,需要借助 OCR軟件的圖像預處理功能對數字圖像進行微調,微調效果對識別準確度有直接影響。OCR軟件的圖像預處理功能主要包括圖像旋轉、傾斜矯正、剪切以及亮度、對比度、飽和度、清晰度調整等。
1.5 支持辨識的內容范圍
文本型數字圖像中的字符信息,在語言種類、字體類別、字號大小等方面經常呈現出混合排列的現象,部分數字圖像的文本內容為手寫體稿件,部分數字圖像的文本內容中在打印版字符圖案旁還存在手寫體批注內容。OCR軟件能夠支持辨識的內容范圍,不僅應包括常規印刷版面的數字圖像,還應支持對綜合、復雜版面數字圖像的辨識。
1.6 交互界面便捷性
信息資源數字化操作過程中,OCR軟件交互界面的友好、便捷程度會對操作人員的使用舒適性和最終的識別準確度造成影響。OCR軟件交互界面的便捷性主要體現在頁面及窗口切換、快捷鍵及工具欄設計、鍵盤操作和鼠標操作的兼容性、數據輸入、編輯及輸出保存的便利程度等方面。
1.7 軟件自學習功能
信息資源數字化過程中,同一字符圖案的辨識會經常反復多次出現。對同一字符圖案的辨識,其操作具有統一性與穩定性。為確保識別準確度,OCR軟件應具備一定程度的自學習功能,自動記憶存儲并強化對部分特殊字符圖案(形近字符、易混字符、簡寫手稿等)的辨識結果,并與具體的實踐操作保持同步更新。
基于上述對OCR文本識別階段識別準確度影響因素的分析,筆者認為應圍繞強化OCR軟件性能,從強化對形近字符的辨識、提高對數字圖像噪聲的“免疫力”、增強對標點符號的辨識、提高數字圖像預處理能力、拓展支持辨識的內容范圍、增強交互界面便捷性、強化用戶自學習功能等7個方面著手提高文本型數字圖像的OCR識別準確度。
2.1 強化對形近字符的辨識
(1)豐富形近字字符特征信息庫
OCR軟件對字符圖案的辨識,基于被識別字符圖案特征與OCR軟件自身字符特征信息庫的比對。OCR軟件形近字符特征信息庫,是其對形近字符進行辨識的基礎和前提。為提高對形近字符的識別率,OCR軟件應將各語種、各字體的形近字符特征抽取存儲至自身字符特征信息庫中,并在具體實踐過程中將其不斷豐富、完善。
(2)優化形近字符匹配算法
OCR識別的核心和關鍵,在于被識別字符圖案特征和 OCR軟件自身字符特征庫之間的匹配算法。形近字符匹配算法,基于KMP算法、Horspool算法、BM算法、Shift-And算法等幾種常見的字符串匹配算法演變而來。不同的形近字符匹配算法,其出發點不同、匹配識別策略不同,相應地對不同形近字符的適應能力也不同。信息資源數字化操作實踐過程中,應根據被識別對象的具體情況選擇合適算法的OCR軟件。
(3)加強人工抽驗與校對
任何一種形近字符匹配算法,在存在其識別強項的同時也不可避免地存在著識別盲區。因此,無論選用何種算法的 OCR軟件,信息資源數字化過程中均需要有必要的人工校正干預環節。具體實踐中,對識別結果進行全部校正不現實也沒必要,可采用科學抽樣的方法抽取一定數量的識別結果進行人工校正,以彌補OCR軟件對形近字符的識別誤差。
2.2 提高對數字圖像噪聲的“免疫力”
在對數字圖像進行 OCR識別之前,如果原始數字圖像中噪點明顯且大量存在,需要先對其進行降噪處理。但是,信息資源數字化實踐中對全部的原始數字圖像進行降噪處理將會耗費大量的人力和時間成本。即便對原始數字圖像進行降噪處理,實踐證明無論如何調整濾波方案,均無法完全去除數字圖像中的噪點。同時,如果對原始數字圖像進行過度濾波處理,容易對數字圖像中的字符細節特征造成損壞,反而會干擾OCR精確識別。因此,OCR軟件自身應具備一定程度的對數字圖像噪聲的抗干擾能力,這是信息資源數字化流程中對抗數字圖像中噪聲的最后一道防線。
2.3 增強對標點符號的辨識
提高對文本型數字圖像中標點符號的識別率,應緊緊圍繞標點符號字符圖案體積小、所處空間位置特殊這兩個特點進行??梢越柚岣邔υ嘉墨I資料的掃描分辨率,來克服標點符號字符圖案體積小的困難,但是同時應注意如果分辨率過高反而會影響識別速度和整體識別率[5]??梢酝ㄟ^提高OCR 軟件對數字圖像中各字符圖案的切分精確度,來克服標點符號所處空間位置特殊的困難。
2.4 提高數字圖像預處理能力
在對文本型數字圖像OCR識別之前,應對其進行必要的預處理操作。為確保識別準確度,筆者認為 OCR軟件的數字圖像預處理性能應主要包括以下6個方面:
(1)圖像傾斜校正
因原始文獻資料印刷排版質量或物理損傷,造成文本型數字圖像中的字符偏離水平或垂直方向,影響 OCR軟件對其進行文本定位和字符分割,進而影響后續的識別準確度。因此,OCR識別之前應進行數字圖像傾斜校正,OCR軟件應具備自動校正和人工校正兩種校正功能。實際操作中,一般是以自動校正為主,必要情況下用人工校正作為補充。
(2)圖像反白
數字圖像經二值化處理之后,數字圖像中的字符圖案呈黑色,其余背景部分呈白色。經反白處理之后,數字圖像中的字符圖案呈白色,其余背景部分呈黑色。借助圖像反白處理,可以在黑色背景下把存在于數字圖像中的噪點凸顯出來,便于后續的降噪處理。
(3)圖像版面分析
在版面語種方面,OCR軟件應支持對常見語種(如中文、英文、法文、德文)及混合語種內容版面的分析能力,應能夠根據版面語種的不同采取相應的版面分析策略。在原始文獻資料的出版物類型方面,OCR軟件應支持對圖書、期刊、報紙等常見出版類型的版面分析能力,應能夠根據出版類型的不同采取相應的版面分析策略。在版面分析功能類型方面,OCR軟件應提供自動版面分析和手動版面分析兩種選擇,應支持常規情況下進行自動版面分析,特殊情況下輔以人工版面分析。
(4)版面屬性設置
文本型數字圖像在語種、字體、排版等方面的存在較大差別,尤其是部分文本型數字圖像出現多語種、多字體、多版型混合排版的情況。因此,針對有特殊排版情況的文本型數字圖像,OCR軟件在對其進行識別之前應進行針對性的版面屬性設置以確保精確識別。
(5)圖像旋轉
因原始文獻資料印刷排版質量或者數字掃描成像階段操作不慎,容易造成文本型數字圖像在水平或垂直方向上產生一定角度的傾斜。為確保對文本型數字圖像的精確識別,OCR軟件應具備圖像旋轉功能,一般應支持在順時針(或逆時針)方向上連續旋轉90度,并支持在順時針(或逆時針)方向上連續旋轉任意角度以供選擇。
(6)圖像剪裁
因原始文獻資料印刷排版質量欠佳,或流通使用過程中產生污損,或在數字掃描成像階段操作不慎,容易在文本型數字圖像邊沿或文字區域形成明顯的噪點。借助數字圖像剪裁功能,OCR軟件可以輕松去除這部分噪點。
2.5 拓展支持辨識的內容范圍
信息資源數字化實踐中,原始文獻資料在載體形態、語種、字體、字號等方面呈現出多樣性和復雜性的特點。為確保精確識別,OCR軟件在面對種類繁多、類型不一的文本型數字圖像時應具有廣泛的適應性。一方面,OCR軟件應支持對常見語種、常見字體、常見字號單獨或混合排列的文本型數字圖像的識別。另一方面,OCR軟件應支持對含有手寫字體、毛筆字、常規文字行間及旁邊的批注、藝術簽名等內容的文本型數字圖像的識別。
2.6 增強交互界面便捷性
根據具體的文本型數字圖像 OCR操作實踐,筆者認為應從以下5個方面著手增強OCR軟件的交互界面便捷性。
(1)文本型數字圖像OCR識別過程中,在版面分析、圖像旋轉等環節需要將數字圖像的局部與整體進行對比操作。OCR軟件應能提供局部圖像與整體圖像的對比分析界面,并能提供相應的快捷鍵設置選項。
(2)OCR軟件應能在“后編改”界面下,將被識別的文本型數字圖像的原始內容、初次識別結果及其他備選識別結果在同一窗口下集中展現,以供用戶對初次識別結果進行必要的判斷、編輯與修正。
(3)信息資源數字化過程中,在對文本型數字圖像進行批量識別操作時需要將正在識別的數字圖像、已經識別的數字圖像和尚未識別的數字圖像之間進行參照,OCR軟件應能夠將某一單個數字圖像和整批全部數字圖像之間建立鏈接與映射。
(4)OCR軟件應結合信息資源數字化具體實踐操作需求,提供常用功能造作的快捷鍵。同時,OCR軟件應支持對快捷鍵的隱藏、顯示、編輯、重設等操作。
(5)OCR軟件應支持用戶對識別結果存儲路徑和保存格式的選擇。在存儲路徑方面,OCR軟件應能夠支持對識別結果存儲路徑的預設與編輯操作。在保存格式方面,OCR軟件應能夠支持txt、doc、log、conf 等常用文本格式。
2.7 強化用戶自學習功能
OCR軟件的用戶自學習,是指在信息資源數字化過程中,用戶根據實際情況用新的字符圖案匹配選擇替換已有相應的字符圖案匹配方案,是 OCR軟件在用戶的干預下更新字符特征匹配信息庫的過程。一方面,OCR軟件借助用戶自學習功能能夠實現對字符圖案匹配方案的不斷更新與優化;另一方面,新的字符圖案特征匹配方案也可能只是對已有匹配方案的補充但并不能將其完全替代。因此,在信息資源數字化操作實踐過程中,OCR軟件應能夠支持在向用戶推送新匹配方案的同時,向用戶提供是對原匹配方案進行補充或是替換的選項。
[1]Schantz,Herbert F.The History of OCR,Optical Character Recognition[J].Recognition Technologies, 1982.
[2]臧國全.文本數字化圖像OCR識別的準確度測度實驗與提高[J].圖書情報知識,2010.
[3]郭軍.兩款常用中文OCR軟件的性能比較實驗與分析[J].情報探索,2011.
[4](日)谷口慶治.數字圖像處理—應用篇[M].北京:科學出版社,2002.
[5]張青楊.提高OCR識別率的訣竅[N].電腦報,2005.