馬文平,卿粼波,吳小強,何小海
(四川大學 電子信息學院 圖像信息研究所,四川 成都 610064)
?
基于HOG+SVM模型的場景文字二次檢測算法
馬文平,卿粼波,吳小強,何小海
(四川大學 電子信息學院 圖像信息研究所,四川 成都 610064)
針對基于邊緣檢測的文字定位虛警率過高的問題,提出了一種基于Canny邊緣檢測和HOG+SVM模型相結合的場景文字檢測算法。首先采用基于Canny邊緣檢測和文字的幾何約束條件得到候選文字區域,再利用HOG+SVM模型對候選文字區域進行二次檢測,過濾掉大部分非文字區域。實驗結果表明,該算法能夠有效地去除基于邊緣檢測算法產生的誤檢區域,大大降低了基于邊緣檢測的場景文字定位的虛警率,并對背景復雜的圖像也具有一定的魯棒性。
自然場景;文字檢測;Canny邊緣檢測;HOG+SVM模型;二次檢測
隨著多媒體技術和網絡的快速發展,數字圖像和數字視頻的數量急劇增加,而圖像中的文字攜帶了大量信息,如果能夠提取這些文字信息,這對全面理解圖像、過濾網上含有色情、反動言論和詐騙信息的圖像以及幫助視障人群等都非常重要。然而,自然場景中的文字大多融合在復雜的背景中,而且場景文字的大小不一、字體多樣、形變劇烈、光照不均勻和圖像分辨率太小等因素[1]都會增加場景文字檢測和提取的難度。因此,如何快速準確地定位和提取場景圖像中的文字信息成為當今圖像處理領域研究的熱點話題。
截止到目前為止,對場景文字的檢測主要可以分為基于連通域的[2-4]、基于紋理的[5]以及基于機器學習的場景文字檢測[6-7]。基于連通域的方法一般要先通過某種特定的方法將圖像中的連通域標定出來,再根據文字的幾何約束剔除非文字區域;基于紋理的方法主要是將文字作為一種特定的紋理,利用無監督的聚類方法將每一個像素歸類為文字區域或非文字區域;基于機器學習的方法主要是先對分類器用樣本進行訓練,將得到的分類器模型用于檢測測試樣本。
由于自然場景圖像比較容易受光照和噪聲的影響,本文算法先對輸入圖像進行Mean Shift[8]濾波處理。然后采用具有信噪比大和檢測精度高的Canny[9]邊緣檢測算法提取圖像的邊緣;之后對提取出來的邊緣利用形態學中的閉運算[10]進一步將斷裂的連通域連接到一起。接著對處理過的圖像進行二值化處理[11]以防漏檢一些低對比度的文字。因為自然場景中的文字大小和排列方式都有一定的規則,所以利用圖1中文字的幾何約束條件[12]初步剔除一些非文字區域,其中,Wi和Hi分別表示連通域的寬和高,Δx和Δy分別表示相鄰兩個連通域中心點的水平距離和垂直距離。

圖1 文字幾何約束條件
經過大量的實驗發現,有些含有內外兩層邊緣的文字,如圖1所示,在定位的時候會對一個文字定位兩次,為了解決這種問題,本文增加了另外一個文字限制條件,即如果兩個距離最近的連通域互相包含,就將連通域中被包含的去除,即
ifC1?C2,deleteC1
(1)
式中:C1為里層的連通域;C2為外層的連通域。
將滿足以上文字幾何約束條件的連通域判定為候選文字區域,如圖2所示。從圖2b中可以看到,很多非文字區域被誤判為文字區域,所以要對這些候選文字區域進行二次判斷。

圖2 候選文字區域的生成
為了更有效地對候選文字區域進行判斷,本文提取候選文字區域的HOG特征即方向梯度直方圖(HistogramofOrientedGradient)輸進訓練好的SVM分類器進行分類判別,再次將非文字區域剔除。
2.1 方向梯度直方圖
由于HOG特征是在圖像的局部方格單元上操作,所以它對圖像幾何和光學的形變都能保持很好的不變性,因此HOG特征特別適合于場景文字的判別。HOG特征提取[13]的步驟如下:
1)圖像歸一化
為了減小強光照射和陰影對文字定位的影響,本文采用一種靈活的gamma校正方法[14]對圖像進行規范化處理,該方法公式如下
Y(x,y)=
(2)
其中,原始圖像I的灰度值被歸一化到0~1之間,I(x,y)為原始圖像的灰度值,Y(x,y)為校正之后的灰度值。對于圖像中比較暗的部分,即I(x,y)≤0.5時,gamma取值小于1,這樣會將低灰度值拉伸,達到增強的效果;而對于圖像中比較亮的部分,即I(x,y)>0.5時,gamma取值大于1,這樣會將高灰度值壓縮。這種歸一化方法能比較有效地減少強光和陰影的影響。
2)計算圖像梯度[15]
計算圖像每個像素x方向和y方向的梯度,并由此計算每個像素位置的梯度方向幅值。求導操作不僅能夠得到一些紋理和輪廓信息,還能夠減少圖像受光照的影響。
3)HOG特征向量歸一化
將圖像劃分成細胞單元cells,將cells的梯度方向360°分成9個方向塊并統計每個cell的梯度直方圖。將每幾個細胞單元cells組合成一個block,并歸一化其中的HOG特征向量。歸一化主要是為了減少光照、陰影和邊緣變化對特征向量空間的影響,一般采用以下4種歸一化函數:
(2)L2-Hys,同(1),先做一次(1),然后把大于等于0.2的分量賦值為0.2,再做一次(1)。
(3)L1-norm,v←v/(‖v‖1+ε)。
其中,‖v‖k表示k范數,k=1,2,ε是一個很小的常值,避免分母為0。在場景文字檢測實驗中,(1)效果最好,所以本文選用(1)。
4)得出HOG最終的特征向量
將檢測窗口中所有重疊的塊進行HOG特征的收集,最終可以通過以上步驟得到一個β×ζ×η個數據組成的高緯度向量,即圖像的HOG特征向量,其中,β表示每個cell中方向單元的數目,ζ,η分別表示block的個數以及一個block中cell的數目。
2.2 基于HOG特征的SVM分類器
將提取的HOG特征輸進分類器進行訓練,并將訓練好的分類器用于候選文字區域二次檢測。基于SVM分類器[16]在解決小樣本、非線性和高維模式識別中特有的優勢,本文用SVM分類器對候選文字區域進行檢測。SVM是一個能夠將不同類別的樣本在樣本空間分割的超平面。其實質就是找出一個能夠將某個值最大化的超平面,這個值就是超平面與所有訓練樣本的最大距離即間隔M。本文用SVM處理二元線性分類問題,即判斷候選文字區域是否為文字區域。超平面的表達式為
f(x)=β0+βTx
(3)
式中:β是權重向量;β0是偏置;x表示訓練樣本的HOG特征向量。
樣本點的HOG特征向量x到超平面的距離為
(4)
所以,使得M最大化就變成在附加限制條件下使得函數L(β)最小化的問題。即

(5)式中:yi表示樣本的類別標記,本文中正樣本的類別標簽為+1,負樣本的為-1,這是一個拉格朗日優化問題,可以通過拉格朗日乘數法得到最優超平面的權重向量β和偏置β0。
求得最優超平面之后,當候選文字區域的HOG特征使得式(3)中的值大于0時,則判定該待測區域的類標簽為+1,即屬于文字區域,并將該區域確定為最終的文字區域;反之,若候選文字區域的HOG特征使得式(3)中的值小于0,則判定該待測區域的類標簽為-1,即屬于非文字區域,并將其剔除。二次檢測的結果如圖2c所示。
本文對SVM進行訓練的正樣本采用Chars74K圖像庫里面的圖像,正樣本庫中共78 936張圖像;負樣本采用手動截取的沒有文字的圖像,負樣本庫中共60 000張圖像,圖3給出了訓練樣本集中正負樣本的示例。為了驗證本文算法的有效性,實驗采用公開的ICDAR2003競賽圖像庫[17]中的527張包含了各種字體、尺寸、排列方式場景文字的圖像進行測試。

圖3 訓練樣本示例
3.1 HOG+SVM分類器訓練
本文結合速度和效果的綜合分析,將HOG特征的細胞單元大小、塊滑動增量、塊大小和窗口大小分別選為4×4、4×4、8×8、16×16,每個細胞單元的方向角度選為9,樣本大小統一為16×16,HOG特征的維數為324維。將正樣本的類標簽標為+1,負樣本標為-1,提取正負樣本的HOG特征連同它們的類標簽輸到SVM里面進行訓練。本文分別從正負樣本庫中隨機選取一定數量的樣本用于對分類器進行訓練,再分別從正負樣本庫中隨機選取一定數量的測試樣本對訓練好的分類器進行預測。表1給出了對于不同數量的正負樣本,SVM進行分類的準確率情況。從表1中可以看出,正樣本20 000,負樣本20 000這組使得SVM分類準確率比較高。所以本文將用這組樣本訓練好的HOG+SVM分類器模型對候選文字區域進行二次檢測。

表1 不同數量正負樣本SVM分類準確率
3.2 實驗結果與分析
為了全面地看到本文算法的效果,實驗分別定性定量地測試文獻[3]基于邊緣的方法和本文算法。定性分析能夠直觀地看到本文算法的效果,而定量分析則能夠更嚴謹地從數值上看到本文算法的有效性。
3.2.1 定性分析實驗結果
圖4列出了對于測試圖像集中不同復雜度的4組圖像,文獻[3]的方法和本文算法對比結果圖。

圖4 部分實驗結果
從圖4中的檢測結果可以清楚地看到,對于不同復雜度的測試圖像,文獻[3]的測試結果中,很多非文字區域被誤判斷為文字區域,而本文算法的測試結果中,大部分的非文字區域被過濾掉,真正的文字區域被保留了下來。可見,本文算法能夠大大降低基于邊緣的場景文字定位的虛警率并且能夠準確地對各種復雜度的場景圖片進行文字檢測。
3.2.2 定量分析實驗結果
為了進一步定量地驗證本文算法的有效性,本文定義了準確率和召回率,召回率從側面反映虛警率,召回率越大,虛警率越小;召回率越小,虛警率越大。定位的準確率和召回率計算公式分別為
(6)
(7)
式中:T為每一類圖像集中定位到的所有文字區域的數量;C為每一類圖像集正確定位到的文字區域數量;M為漏檢的文字區域數量。
實驗將對測試圖像根據圖像的復雜度不同,歸類整理成兩大類,分別為一般復雜度的圖像集GenImg和背景復雜度較高(如文字鑲嵌在背景中、受光照和陰影等干擾比較嚴重)的圖像集HardImg。表2給出了本文算法和文獻[3]算法的性能比較,其中,N為每一類圖像的數量,F為誤檢的區域數量。在統計時,實驗只統計有效的文字數量,因為在自然場景圖像中,有些文字很小或很模糊,人眼都無法看清楚,提取這些文字沒有實際意義,將這些文字視為無效文字。

表2 算法性能比較
由表2中的統計結果可以清楚地看到,在圖像集GenImg的測試中,文獻[3]誤檢的區域個數F幾乎達到了本文算法誤檢區域個數的4倍,召回率僅僅達到了66.0%,這是由于對于背景復雜的場景圖像,文獻[3]僅僅利用文字的幾何約束條件會把大量的與文字區域邊緣相似的非文字區域誤判斷為文字區域,文字定位的召回率大大降低。而本文算法經過HOG+SVM分類器二次檢測后,大部分的非文字區域被過濾掉,召回率達到了87.9%。在對HardImg圖像集的測試中,由于HardImg圖像集中的圖像大多是文字部分鑲嵌到復雜背景中、文字部分有陰影、文字部分受光照不均勻以及文字邊緣模糊不清等復雜情況,致使文字定位的難度大大增加,由表2可以看到,文獻[3]文字定位召回率僅僅達到了49.6%,而本文算法的召回率和準確率依然保持在70%以上,可見,本文算法對于背景非常復雜的場景圖像,依然具有一定的實用價值。
為了解決基于邊緣的場景文字定位算法對于背景較為復雜的場景圖像文字定位產生的虛警過高的問題,本文提出了一種基于Canny的邊緣檢測和HOG+SVM模型相結合的場景文字二次檢測算法。該算法先用基于Canny的邊緣檢測和文字的幾何約束條件得到候選文字區域,再利用HOG+SVM模型對候選文字區域進行二次檢測,將非文字區域剔除,大大降低了文字定位的虛警率。實驗結果表明,該算法能夠有效地去除基于邊緣檢測算法的誤檢區域,并對背景復雜的圖像也具有一定的魯棒性。但是對于文字鑲嵌到復雜背景中的情況會產生誤檢、漏檢,所以需要下一步繼續研究改進。
[1]DOERMANN D,LIANG Jian,LI Huiping. Progress in camera-based document image analysis[C]//Proc.ICDAR. [S.l.]:IEEE Press,2003:606-616.
[2]YI C,TIAN Y. Text string detection from natural scenes by structure-based partition and grouping[J]. IEEE Trans.Image Processing,2011,20(9):2594-2605.
[3]劉勇,孫燾,李琛. 自然場景下標志牌文本的提取[J]. 自動化技術,2007,30(23):112-114.
[4]GARG R,HASSAN E,CHAUDHURY S. A CRF based scheme for overlapping multi-colored text graphics separation[C]//Proc.ICDAR. [S.l.]:IEEE Press,2011:1215-1219.
[5]PAN Y F, HOU X W,LIU C L. A Hybrid approach to detect and localize texts in natural scene images[J]. IEEE Trans. Image Processing,2011,20(3):800-813.
[6]YAO Cong,BAI Xiang,SHI Baoguang. Strokelets:a learned multi-scale representation for scene text recognition[C]//Proc.CVPR. [S.l.]:IEEE Press,2014:1-9.
[7]WANG Kai,BABENKO B, BELONGIE S. End-to-end scene text recognition[C]//Proc.ICCV. [S.l.]:IEEE Press,2011:1457-1464.
[8]COMANICIU D, MEER P. Mean shift: a robust approach toward feature space analysis[J]. IEEE Trans. Pattern Analysis and Machine Intelligence,2002,24(5):603-619.
[9]陳世文. 一種基于最小交叉熵的canny邊緣檢測算法[J]. 電視技術,2013,37(1):165-168.
[10]HUANG Hailong,WANG Hong,GUO Fan. A Gray-scale image edge detection algorithm based on mathematical morphology[C]//Proc.ICMTMA. [S.l.]:IEEE Press,2011:62-65.
[11]徐奕奕, 劉智琦, 劉琦. 基于文本圖像的自適應補償二值化處理算法[J]. 計算機仿真, 2011, 28(10): 240-243.
[12]EZAKI N, BULACU M, SCHOMAKER L. Text detection from natural scene images: towards a system for visually impaired persons[C]//Proc.ICPR. Cambridge,UK:[s.n.],2004:683-686.
[13]KOBAYASHI T. BOF meets HOG: feature extraction based on histograms of oriented p.d.f. gradients for image classification[C]//Proc.CVPR. [S.l.]:IEEE Press,2013:747-754.
[14]KHUNTETA A. Fuzzy rule-based image exposure level estimation and adaptive gamma correction for contrast enhancement in dark images[C]//Proc.ICSP. [S.l.]:IEEE Press,2012:667-672.
[15]NEZHADARYA E. A new scheme for robust gradient vector estimation in color images[J]. IEEE Trans.Image Processing,2011,20(8):2211-2220.
[16]LIANG Ye,HUANG Limei,XIAN Yueping. Trojan detection model of nonlinear SVM based on an effective feature selection optimization algorithm[C]//Proc.ITA. [S.l.]:IEEE Press,2013:138-142.
[17]LUCAS S M, PANARETOS A,SOSA L. ICDAR 2003 Robust Reading Competitions[C]//Proc.ICDAR. Edinburgh,UK:[s.n.],2003:682-687.
責任編輯:閆雯雯
Scene Text Secondary Location Algorithm Based on HOG+SVM Mode
MA Wenping, QING Linbo, WU Xiaoqiang, HE Xiaohai
(ImageInformationInstitute,CollegeofElectronicsandInformationEngineering,SichuanUniversity,Chengdu610064,China)
To reduce the false alarm rate in the scene text location algorithm based on edge detection, a scene text detection method based on the combination of Canny edge detection and HOG+SVM mode is proposed. Firstly, the candidate text regions are extracted by the combination of Canny edge detection and the word’s Geometric constraints.Secondly, most of the non-word candidate text regions are deleted by HOG+SVM mode. Experimental results show that the proposed method can filter out the false detected regions, whereas the false alarm rate based on the edge detection is reduced greatly. In addition, the proposed method can also deal with the complex scene images well.
natural scene; text detection ; Canny edge detection; HOG+SVM mode; secondary detection
國家自然科學基金委員會和中國工程物理研究院聯合基金項目(11176018)
TP391.1
A
10.16280/j.videoe.2015.07.028
2014-04-23
【本文獻信息】馬文平,卿粼波,吳小強,等.基于HOG+SVM模型的場景文字二次檢測算法[J].電視技術,2015,39(7).