繆裕青,劉水清,張萬楨,歐威健,蔡國永
(1.桂林電子科技大學 計算機與信息安全學院,廣西 桂林 541004;2.桂林電子科技大學 廣西可信軟件重點實驗室,廣西 桂林 541004;3.桂林航天工業學院 實踐教學部,廣西 桂林 541004)
自然場景圖像中的文本識別主要包括3個步驟:圖像二值化、文本檢測和文本識別。本文主要研究圖像二值化和文本檢測。其中,圖像二值化常用的算法是最大穩定極值區域算法[1-3](maximally stable extremal region,MSER)。文本檢測過程常用的算法是筆畫寬度變換算法[4-6](stroke width transform,SWT)。Chen等[7]使用M SER算法做預處理以改進SWT算法的性能。該算法較準確地提取極值區域,但對背景復雜的圖像中的文字檢測準確率不高。Buta等[8]提出一種易于使用的筆畫探測器。該算法檢測速度較快,檢測效果較好,但當圖像對比度低、圖像背景復雜時,文本檢測的準確率不高。當前,國內外很多學者聚焦于英文場景文本檢測的研究[9,10],對中文環境下的場景文本檢測研究較少,對中文的檢測效果不佳。
綜上所述,在當前場景文本檢測算法中,雖然能較準確的檢測場景圖像中的文本,但當場景圖像背景較復雜時,誤檢率較高。此外,許多研究都是針對場景圖像中的英文進行檢測,少有針對中文的檢測。針對這些問題,本文提出一種基于自然場景圖像的中文文本檢測算法TDSI(text detection algorithm in natural scene images)。TDSI算法將MSER和SWT兩種算法的優勢相結合,既使用MSER算法去掉大量干擾信息,又使用SWT算法根據候選區域的筆畫寬度值區分文本區域和非文本區域。通過本文提出的改進MSER算法和改進SWT算法過濾掉大量非文本區域。最后根據漢字結構將文本區域聚集成單個漢字,再將其聚合成文本行。
針對圖像背景復雜時對中文文本檢測效果差的問題提出改進算法TDSI。該算法首先使用啟發式規則改進MSER算法和SWT算法。然后使用改進的MSER算法對目標圖像進行預處理,得到二值圖像,即文本候選區域;然后使用改進的SWT算法將非文本區域過濾掉;最后根據漢字的結構特征,將候選區域聚集成漢字,再將之聚集成文本行。TDSI算法流程如下:
(1)通過MSER算法得到最穩定極值區域即候選文本區域。使用啟發式規則過濾掉部分明顯的非文本區域;
(2)通過SWT算法得到筆畫寬度圖像。運用相應的啟發式規則將非文本區域過濾掉,得到文本區域;
(3)根據漢字的結構特征聚集成中文單字;
(4)把漢字聚集成文本行,使用矩形框進行渲染。
算法流程如圖1所示。

圖1 算法流程
通過MSER算法得到的最大穩定極值區域是一些不規則圖形,不方便提取特征。一個候選區域的特征包括位置、長寬和質心等,通過對最大穩定極值區域進行橢圓擬合,可以較易地得到這些特征。最大穩定極值區域既包括文本區域,也包括非文本區域,對橢圓擬合后的最大穩定極值區域使用啟發式規則可以將部分明顯的非文本區域過濾掉。TDSI算法使用的基于MSER的啟發式規則包括:
(1)候選區域面積
候選區域中面積非常小的一般不是文本區域,需對其進行過濾。當將候選區域的面積閾值定為20時,結果最優,如式(1)所示
ResultMSER1={MSERi|AreaMSERi}>20
(1)
(2)橢圓擬合后的長寬比
漢字筆畫有的短粗、有的細長,如果擬合后的橢圓特別細,近似一條直線,說明該區域一定不是文本區域,需將長寬比大于一定閾值的區域過濾掉。當將閾值定為5時,結果最優,如式(2)所示
(2)
其中,長寬比是指擬合后的橢圓的長軸與短軸之比,Long-Axisi是擬合橢圓長軸的長度,ShortAxisi是擬合橢圓短軸的長度,i表示最大穩定極值區域的個數。
(3)擬合橢圓與最大穩定極值區域的面積比
擬合橢圓是對最大穩定極值區域的擬合,其面積與最大穩定極值區域存在一定差異。如果最大穩定極值區域是非文本區域比如樹葉,最大穩定極值區域的面積與擬合橢圓面積差異不大。相反,如果最大穩定極值區域是文本區域,其面積與擬合橢圓面積差異較大。根據該規則,將擬合橢圓的面積與最大穩定極值區域的面積之比太小的區域過濾掉。當閾值取1.35時,結果最優,如式(3)所示
(3)
其中,AreaEllipsei是擬合橢圓的面積,AreaMSERi是最大穩定極值區域的面積。
(4)圖像邊界像素交集
場景圖像中的文本區域一般不會出現在圖像的邊界位置,因此將含有圖像邊界像素的最大穩定極值區域過濾掉,如式(4)所示
ResultMSER4={ResultMSER3i|ResultMSER3i∩edge=?}
(4)
其中,edge是圖像的邊界像素。
使用SWT算法得到的筆畫寬度圖像,包括文本區域和非文本區域。通過基于SWT算法的啟發式規則將部分非文本區域過濾掉,便于將文本區域聚集成漢字。使用的啟發式規則包括:
(1)同一幅圖像中漢字的筆畫寬度值基本保持不變,即一個候選區域的筆畫寬度值與圖像的平均筆畫寬度值差距較小。而標準差就是用于衡量一組數據中某個數據與其平均值的差異程度的指標。也即當某個區域筆畫寬度值的標準差較小時,該區域為文本區域;而標準差較大時,則該區域為非文本區域。把筆畫寬度值的標準差大于5.2的區域認為是非文本區域,將其過濾掉,如式(5)所示

(5)
其中,N表示一幅圖像中候選區域的個數,SWTj是一幅圖像中第j個候選區域的筆畫寬度值,μ是一幅圖像的筆畫寬度值的算術平均值。
(2)在同一幅圖像中,一般相鄰文本字號一致,其筆畫寬度值相差不大。如果候選區域鄰域像素的筆畫寬度值與當前像素的筆畫寬度值相差較大,說明該區域是非文本區域,需將之過濾掉。當鄰域像素的筆畫寬度值與當前像素的筆畫寬度值之比小于3時,效果最佳,如式(6)所示
砂石料:按要求選用天然河砂和人工碎石,天然河砂產自麻城巴河,經人工淘洗保證含泥量滿足要求;人工碎石選用湖北陽新生產的5~10mm和10~20mm的石灰巖碎石,天然河砂和人工碎石經檢測均滿足規范要求。
(6)
其中,NeiSWi是鄰域像素的筆畫寬度值,CurSWi是當前像素的筆畫寬度值。
(3)將筆畫寬度值限定在(20,300)之間,過濾掉筆畫寬度值過大或過小的區域。如果筆畫寬度值過小,一般是小的點或極細的線條,而不是字符區域,應該被過濾掉;而在拍攝的自然場景圖像中,大多文字筆畫寬度不會很大,需過濾掉筆畫寬度值過大的區域,如式(7)所示
ResultSWT3={ResultSWT2i|20 (7) 其中,SWi是筆畫寬度值。 在英文中大部分字母都是由一個完整的部分構成,只有“i”由兩部分構成。但由于“i”上方的點很小,即使丟失也不影響最終結果。相對而言,漢字復雜多變,包括上下結構、左右結構、全包圍結構、半包圍結構和品字形結構等,結構與結構之間互不相連。如果不對其進行處理,當圖像中的文本行走向是水平方向,并且有漢字是上下結構時,就無法將文本聚合成文本行;反之亦然。因此要先將候選區域聚集成漢字,再將漢字聚合成文本行。 由于單個漢字各結構間的距離一定小于相鄰漢字間的距離,根據該規則可以將候選區域組合成漢字。首先計算兩兩候選區域間的距離,從距離最小的兩個開始,判斷這兩個候選區域是否滿足以下規則: (1)如果兩個候選區域有重合部分,說明這兩個區域是同一個漢字的兩部分; (2)如果兩個候選區域的質心坐標近似重合,說明這兩個區域是同一個漢字的兩部分; (4)如果兩個候選區域的像素值相差不超過30,可能是一個漢字的兩部分; (5)如果兩個候選區域的筆畫寬度值相差不超過100,可能是一個漢字的兩部分。 若滿足,則將兩個候選區域組合成一個漢字。然后根據距離從小到大依次進行組合,直到沒有符合條件的候選區域為止,這樣就將候選區域組合成一個個漢字。 文本行中的漢字一般都在同一條直線上,這些漢字質心的縱坐標(或橫坐標)大小相差不大,每個漢字的最高點的縱坐標(最左側點的橫坐標)、最低點縱坐標(最右側點的橫坐標)都大致相同。根據這些特性,將漢字聚合成文本行。 目前大多數公開的自然場景圖像數據庫都是基于英文環境,少數是中英環境混合,但沒有完全基于中文環境的自然場景圖像數據庫。為測試TDSI算法的性能,構建了一個完全基于中文環境的自然場景圖像數據庫。其中圖像內容主要涉及路標、交通警示語、標語、橫幅等。這些圖像背景復雜,具有不同的顏色、字體、字號、光照、對比度等,比較適合做算法測試。 根據文檔分析與識別國際會議(international confe-rence on document analysis and recognition,ICDAR)2013比賽[11]的要求,為每張圖像添加標注。每張圖像的標注內容和格式為“圖像編號矩形最左上角點的坐標的X值矩形最左上角點的坐標的Y值矩形最右下角點的坐標的X值矩形最右下角點的坐標的Y值”。 2.2.1 文本區域對比 實驗使用Buta等[8]算法、Chen等[7]算法和TDSI算法作對比。實驗過程中,TDSI算法忽略所有字符數目少于3和包含非法字符的文本區域。實驗結果如圖2所示。圖2(a)為數據庫中任意抽取的兩張原圖,圖2(b)為由Chen等算法得到的實驗結果圖,圖2(c)為由Buta等算法得到的實驗結果圖,圖2(d)為由TDSI算法得到的實驗結果圖。其中黑色矩形框框出的部分即為算法檢測到的文本區域。在圖2(b)中把第一張圖中的商品錯誤識別成文本區域,第二張圖只檢測出部分文本區域。在圖2(c)中第一張圖檢測出部分文本區域,把一部分商品錯誤識別成文本區域,把第二張圖背景中的人錯誤識別成文本區域。在圖2(d)中文本區域定位基本正確,說明針對背景復雜的自然場景圖像中的中文,TDSI算法比Chen等算法、Buta等算法有明顯優勢。 圖2 TDSI算法與Chen等算法、Buta等算法實驗結果對比 2.2.2 檢測結果對比 準確率、召回率和F值取自建圖像數據庫中所有圖像檢測結果的平均值。實驗結果采用ICDAR文本定位競賽的評價標準[10]。檢測結果對比如表1、圖3所示。 表1 檢測結果對比 圖3 算法檢測結果對比 由表1和圖3可知,TDSI算法的準確率、召回率和F值均最高。Buta等算法的準確率最低,召回率和F值較高。Chen等算法的召回率和F值最低,準確率較高。 據Buta[8]等介紹,其算法提取的文本區域比MSER算法多,而Chen等算法使用MSER,因此Buta等算法的召回率比Chen等算法高。又因為Chen等算法使用筆畫寬度值過濾大部分非文本區域,而Buta等算法沒有使用任何方法過濾非文本區域,所以Buta等算法的準確率沒有Chen等算法高,即Buta等算法的誤檢率較高。 TDSI算法使用改進的MSER算法提取的文本區域比Buta等算法多,因此TDSI算法的召回率比Buta等算法高。另外,TDSI算法使用改進的SWT算法過濾非文本區域,而Buta等算法沒有過濾非文本區域,因此TDSI算法的準確率比Buta等算法高。雖然Chen等算法同時使用MSER和SWT算法,但Chen等算法只對MSER算法進行改進。而TDSI算法分別對MSER算法和SWT算法都做了改進,且根據漢字的結構特征進行了改進,因此TDSI算法的準確率比Chen等算法高。總體上,TDSI算法的檢測結果比Chen等算法和Buta等算法都好。 針對圖像背景復雜時大多數場景文本檢測算法的誤檢率較高,且很少有算法專門針對中文文本進行檢測的問題,本文提出了基于自然場景圖像的中文文本檢測算法TDSI。使用一系列啟發式規則分別對MSER算法和SWT算法進行改進,將改進的MSER算法和改進的SWT算法相結合,過濾非文本區域。然后根據漢字的結構特征將文本區域聚集成漢字,再將之聚集成文本行。實驗結果表明,對于背景復雜的場景圖像,TDSI算法對中文的處理效果較好,能較準確地檢測出文本區域,對中文文本檢測的準確率、召回率和F值均較高。 [1]Xiao C,Ji L,Gao C,et al.Fast and accurate text detection in natural scene images[M]//Intelligence Science and Big Data Engineering.Image and Video Data Engineering.Springer International Publishing,2015. [2]Liu J,Su H,Yi Y,et al.Robust text detection via multi-degree of sharpening and blurring[J].Signal Processing,2015,124(C):259-265. [3]Liu J,Su H,Yi Y,et al.Robust text detection via multi-degree of sharpening and blurring[J].Signal Processing,2015,124(C):259-265. [4]Yao C.Detecting texts of arbitrary orientations in natural images[C]//Computer Vision and Pattern Recognition.IEEE,2012:1083-1090. [5]Zhang Y,Lai J,Yuen P C.Text string detection for loosely constructed characters with arbitrary orientations[J].Neuroco-mputing,2015,168(C):970-978. [6]LIU Yaya,YU Fengqin,CHEN Ying.Scene text localization based on stroke width transform[J].Journal of Chinese Computer Systems,2016,37(2):350-353(in Chinese).[劉亞亞,于鳳芹,陳瑩.基于筆畫寬度變換的場景文本定位[J].小型微型計算機系統,2016,37(2):350-353.] [7]Chen H,Tsai S S,Schroth G,et al.Robust text detection in natural images with edge-enhanced maximally stable extremal regions[C]//IEEE International Conference on Image Processing.IEEE,2011:2609-2612. [8]Buta M,Neumann L,Matas J.FASText:Efficient unconstrained scene text detector[C]//IEEE International Confe-rence on Computer Vision.IEEE,2015:1206-1214. [9]Zhong G,Cheriet M.Tensor representation learning based image patch analysis for text identification and recognition[J].Pattern Recognition,2015,48(4):1211-1224. [10]Tian S,Bhattacharya U,Lu S,et al.Multilingual scene character recognition with co-occurrence of histogram of oriented gradients[J].Pattern Recognition,2016,51(C):125-134. [11]Karatzas D,Shafait F,Uchida S,et al.ICDAR 2013 robust reading competition[C]//International Conference on Document Analysis and Recognition.IEEE,2013:1484-1493.1.4 針對中文場景的改進
2 實驗與結果分析
2.1 數據庫構建和標注
2.2 實驗結果及分析



3 結束語