蘇江,房濤,王曉明,仵媛媛,高博
(國網陜西省電力公司信息通信公司 陜西 西安710004)
基于組件樹和霍夫森林的場景文字檢測識別
蘇江,房濤,王曉明,仵媛媛,高博
(國網陜西省電力公司信息通信公司 陜西 西安710004)
自然場景中的文字檢測與識別是圖像理解中的重要部分,在大部分的系統設計中,檢測和識別被看成是孤立的兩部分進行處理,本文提出使用多類霍夫森林建立一個統一的檢測識別框架。同時為了解決霍夫森林在類別增多時識別率下降,以及在尺度多變的情況下定位偏移的問題,文中提出利用組件樹提取出具有層級的連通域,同時針對文字本身的特征建立分類器。通過級聯該分類器,提取出文本的候選位置并確定目標的尺度大小,為后級精細的定位和識別奠定基礎。實驗結果顯示該方案在檢測和識別方面均與目前最優的方案具有競爭性。
組件樹;霍夫森林;圖像理解;文字檢測;文字識別
隨著互聯網的發展,網絡帶寬的不斷提高,圖像、視頻由于易于理解,符合現代人快速的生活節奏,逐漸取代文本成為主要的信息傳播載體。由于微博類網站對文本長度的限制,要發表較豐富的內容通常需要圖文結合的方式,同時,圖片分享類網站的蓬勃發展,給圖像理解領域帶來新的機遇和挑戰。自然場景的文字檢測和識別作為圖像理解的重要一環,一直受到研究者的關注。一般來說,光學字符識別(OCR)系統只能處理背景簡單且文本相對密集的圖像,對于包含復雜背景的自然圖像,必須先通過文字定位取出包含文本的圖像塊,才能實現準確的識別。對于文本背景較為復雜的圖像,還必須經過文本背景分離才能得到理想的識別結果。
在目前大部分的解決方案中,文字檢測和識別作為孤立的兩部分的工作分別進行處理,本文提出使用多類霍夫森林,建立統一的文字檢測和識別框架。同時針對霍夫森林在檢測中尺度不準確以及定位漂移的問題,提出通過組件樹級聯分類器的方式提取文字候選區域。
霍夫變換是用于檢測具有解析表達式的幾何形狀的常用目標檢測方法,如直線、圓檢測等[1]?;舴蜃儞Q的核心思想是把原圖像中的像素點或特征(如邊緣)變換到霍夫空間(即參數空間)進行投票,而投票的峰值即為檢測的目標。廣義霍夫變換在霍夫變換的基礎上進行擴展,可對一般形狀的目標進行檢測[2]。廣義霍夫變換的基本思想是通過圖像中每一個分塊的邊緣切向量估算目標的中心點位置,本質上利用邊緣切向量,為不存在解析表達的形狀建立參數空間,從而應用霍夫變換。
廣義霍夫變換假設的前提是,圖像中每個像素都是獨立的,在投票過程中對每一個分塊賦予相同的權重,使得該方法在復雜場景下容易失效。Gall等人基于霍夫變換的思想,在2009年提出建立霍夫森林進行目標檢測[3]?;舴蛏謱D像中每一個分塊通過一組決策樹進行分類(前景和背景),并估算目標的中心位置,使用決策樹輸出的概率作為投票權重。
文中提出把每一種字符作為單獨一類,建立多類霍夫森林進行字符檢測,同時完成檢測和識別任務,避免檢測和識別問題的孤立,計算效率更高。但針對具體的文字檢測和識別問題,霍夫森林在應用中存在一定問題。
首先是對不同大小的文字進行檢測,常用的方法有兩種:第一種是沿用廣義霍夫變換中的方案,在參數空間內加入尺度的維度,然后在該維度上進行搜索;第二種方法是使用圖像金字塔,對輸入圖像的多個尺度進行檢測,然后進行合成。兩種方法原理上是相似的,但隨著搜索的尺度范圍增大,計算量也會成倍增加。同時由于不同尺度下獨立進行檢測,使用不適合的尺度將會出現定位漂移的問題,如圖1所示。

圖1 霍夫森林對字符“A”檢測結果
此外,文字中存在有大量的部分相似現象,如B的上半部和R的上半部,甚至在同一個字符中也會出現自相似的情況,如B上半部和下半部。在無法確定尺度的情況下檢測,很有可能出現一個字符被判定為多個目標的情況,如圖2所示。

圖2 霍夫森林對字符“B”檢測結果(左:原圖;右:檢測結果)
除此以外,實驗結果表明,霍夫森林雖然能夠適應多類識別的問題,但隨著類別的增多,準確率會有一定程度的下降[4]。而對于典型的文字識別問題,類別為27類(26個大寫字母和背景類),僅僅依賴于霍夫森林進行檢測顯然是不夠的。
該方案主要分為兩部分,分別是基于組件樹的文字候選區域提取,以及使用霍夫森林進行的文字檢測和識別。首先,通過建立組件樹從圖像中提取出具有層級的連通域,然后對每一個區域分別提取出一組表征文字的特征并輸入至分類器,根據分類器的判決結果提取文字的候選區域。然后把每一個文字候選區域放縮至同一尺度,并作為獨立的樣本輸入至霍夫森林,進行精細的檢測及識別。
2.1 訓練樣本生成
對于自然場景的文本檢測和識別問題,標記樣本十分稀少,文中通過樣本生成的方式建立訓練集。考慮到日常中的文本大都是水平分布,在文中通過隨機選取字體,根據二元語法(2-gram)模型隨機生成多個字符,并在水平居中的前提下進行隨機旋轉和平移,作為基礎的文本單元。同時從隨機選取的背景圖中采樣相同大小的塊,然后把文本疊加于背景之上。為使樣本更具挑戰性,在融合過程中,文本圖像需乘以0.5~0.8的隨機系數,以降低文本與背景的對比度。
2.2 基于組件樹的文字候選區域提取
文字候選區域提取的目的有兩個,一是盡量去除背景圖像塊,提高后級的計算效率;二是確定目標文字的尺度大小,以提高霍夫森林的檢測的準確率。同時,文字候選區域提取還必須保證簡單快速,避免降低整個系統的性能。
文字本身邊緣特征豐富而紋理簡單,使用連通域提取文字候選區域是一個快速而有效的方法[5]。但由于場景的復雜性,提取出的連通域數量會相當多,并且使用單一分割閾值提取的連通域往往不能提取出完整的文字。
最大穩定極值區域(MSER)[6]有效解決了以上兩個問題,并被廣泛應用于文字檢測方案中[7-8]。首先,最大穩定極值區域針對不同的閾值提取連通域,其次,以相對面積隨閾值變化較小作為條件,提取出穩定的連通域。組件樹是提取最大穩定極值區域的常用線性時間算法[9]。

圖3 MSER提取結果
圖3所示是使用組件樹提取最大穩定極值區域的結果??梢钥闯觯趶碗s的場景下,文字區域并不一定能滿足“穩定”的要求。因此,文中在應用中去除該約束,通過對組件樹中的每一個區域進行特征提取,確定文字的候選區域。
對每一個連通域提取以上特征,然后輸入至分類器進行獨立識別。分類器輸出的所有正樣本分別重采樣至同一尺度大小,作為文字的候選區域。
文中使用的分類器是AdaBoost分類器[10],同時為了保證盡量多的文字被檢測到,即較高的召回率,在此前提下犧牲檢測的準確率,當后驗概率大于0.4時即判定為正樣本。準確率由后級的霍夫森林檢測進一步提高。
2.3 基于霍夫森林的檢測與識別
霍夫森林由一組獨立的霍夫樹組成,霍夫樹是分類樹和回歸樹的結合,每一個節點可能是分類節點或者回歸節點?;舴蛏直举|上是基于概率投票的廣義霍夫變換,投票的權值以及目標位置的估計值由葉子節點保存的碼本決定。
針對文字檢測和識別問題,以每個字符作為獨立的檢測目標,應用多類霍夫森林,可在檢測的同時完成識別,避免檢測和識別問題的孤立,并保持降低的計算復雜度。而霍夫森林在在多類檢測情況下雖然能保持較高的召回率,但準確率會有一定程度下降[4]。針對這一情況,文中除了通過前級文字候選區域提取去除大量背景外,還在決策樹的節點分割函數對背景類進行獨立計算,保證在分類過程中優先進行背景和文字的分離。除此之外,文中通過使用區域特征取代點特征提高算法的魯棒性,降低算法對目標尺度的敏感性。最后,針對多類字符的目標搜索,文中提出使用貪婪迭代搜索的方式進行定位。
文中,使用的是文獻[3]提出的二類霍夫森林框架,并在此之上針對文字檢測識別應用進行了以下改進。
首先是把二類分類問題推廣到多類。在二類分類的問題中霍夫樹每一個節點的目標是最小化不確定性,包括類別的熵

以及中心位置的聚類

針對多類物體檢測的問題,中心位置的不確定性可由每一個類別的確定性相加獲得



其次,如圖2所示,霍夫森林在對于不確定的尺度無法進行精確定位,必須通過對原圖進行不同尺度的采樣分別進行檢測,時間復雜度較高。除了利用候選區域提取確定尺度大小外,文中還通過修改霍夫森林的分類特征,進一步提高霍夫森林對尺度變化的適應性。
霍夫森林使用的特征是二進制特征,典型的形式如下:

其中τ是閾值,Pl(x)是像素在特征空間的l取值。文中,將其推廣為區域特征。

該形式可看作是點特征的超集。以區域的均值作為判決準則,可提高算法抗干擾能力,并減少對尺度的敏感性。
除此以外,對于單類目標檢測的問題,通常在霍夫投票圖像,即后驗概率P(xi=l|fi),使用非極大值抑制(Non-Maximal Suppression)[12],搜索極大值作為目標,但該方法并不能推廣到多類情況。文中,提出圖4所示的貪婪迭代搜索算法確定目標位置。首先初始化所有候選目標均為背景,然后進入迭代。每一次迭代中,求出每個候選目標的最優所屬類別,并選出優化效果最顯著的候選目標賦予新的標簽值,然后再更新該候選目標的鄰域標簽值。當無法通過改變標簽值來提高后驗概率時,退出迭代。

圖4 霍夫空間貪婪搜索算法
文中生成的訓練樣本大小為32×32,字符使用26個字母(區分大小寫)和10個阿拉伯數字,共62類。背景圖像從VOC2009數據集[13]中隨機抽樣獲得,圖5所示為部分合成的樣本。每類字符樣本各生成1 000張。
在組件樹提取時,把彩色圖像轉換為灰度圖以及HSV顏色空間,每個顏色通道獨立進行提取后進行融合。考慮到日常生活中存在黑底白字和白底黑字兩種情況,對每個通道的每像素的二進制反值也做同樣的處理[14]。區域分類使用的AdaBoost分類器,以單層決策樹作為弱分類器,弱分類器數量為100。
霍夫森林使用的特征空間是原始的灰度圖,以及X方向和Y方向的Sobel邊緣特征,提取的塊大小為16×16,決策樹的數量為10,樹的最大深度為20,節點的最少樣本數量為20。每個節點從參數空間采樣1 000個樣本,取最優值作為判決特征。
文中使用的測試集是ICDAR 2013[15],其中組件樹的定位準確率是52.8%,召回率是87.1%。由于組件樹只作為文字候選區域的提取,較低的準確率是可以接受的。

圖5 部分訓練樣本
圖5所示是部分檢測成功的樣本,圖6是部分檢測失敗的樣本。表1是文中檢測結果與ICDAR 2013前3名的對比,其中召回率與ICDAR 2013的第1名接近,而準確率高于第一名的成績,這得益于檢測與識別的結合。
表2是文中識別結果與ICDAR 2013文字識別前3名的比較,使用的是大寫字母子集。文中使用的是隨機自動生成的訓練樣本,以檢測和識別為目標,而其他算法使用的訓練和測試樣本均是人工切割好的字符區域,且僅以識別為目的,兩者的測試樣本并不相同,結果只作為參考對比。

圖6 檢測成功的樣本

表1 ICDAR 2013文字檢測結果

表2 ICDAR 2013文字識別結果

圖7 檢測失敗的樣本
在時間復雜度方面,文中提出的算法在時間上的消耗主要為兩部分,分別是組件樹提取和霍夫森林檢測。由于不同顏色通道的組件樹提取以及各個霍夫樹的計算是相互獨立的,本文使用并行計算來提高效率。在一臺配置為Intel Core i5 1.8 GHz的電腦上,對一張大小為的圖像提取組件樹大約需時100毫秒,霍夫森林對整幅圖像進行檢測大約需時250毫秒。由于實際應用時霍夫森林僅對候選文字區域進行檢測,因此真實需時會更少。
文中針對自然場景中的文本檢測識別問題,提出使用組件樹結合混合特征分類形成候選區域,再用霍夫森林進行檢測識別的整體解決方案,與目前提出的最優方案具有競爭性。該方案利用霍夫森林統一了文字檢測和識別兩部分工作,并應用組件樹提高了算法對不同尺度文字的適應性,同時以合成圖像作為訓練樣本,提高了方案的適用性。雖然本文提出的方案與目前提出的最優方案效果接近,但從實驗結果來看,自然場景中文字檢測和識別問題仍未被完全解決,自然場景的復雜性和文字本身的多樣性是該問題的最大難點。
[1]Duda R O,Hart P E.Use of the Hough transformation to detect lines and curves in pictures[J].Communications of the ACM,1972,15(1):11-15.
[2]Ballard D H.Generalizing the Hough transform to detect arbitrary shapes[J].Pattern recognition,1981,13(2):111-122.
[3]Gall J,Lempitsky V.Class-specific hough forests for object detection [M]//Computer Vision and Pattern Recognition(CVPR),2009:1022-1029.
[4]Gall J,Yao A,Razavi N,et al.Hough forests for object detection,tracking,and action recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(11):2188-2202.
[5]Koo H I,Kim D H.Scene text detection via connected component clustering and nontextfiltering[J].IEEE Transactions on Image Processing,2013,22(6):2296-2305.
[6]Matas J,Chum O,Urban M,et al.Robust wide-baseline stereo from maximally stable extremal regions[J].Image and vision computing,2004,22(10):761-767.
[7]Chen H,Tsai S S,Schrith G,et al.Robust text detection in natural images with edge-enhanced maximally stable extremal regions[C]//Image Processing (ICIP),2011:2609-2612.
[8]Neumann L,Matsa J.A method for text localization and recognition in real-world images[C]//Asian Conference of Computer Vision(ACCV),2010:770-783.
[9]Nistér D,Stewénius H.Linear time maximally stable ex-tremal regions[C]//Computer Vision-ECCV,2008:183-196.
[10]Freund Y,Schapire R E.A desicion-theoretic generalization of on-line learning and an application to boosting[C]//Computational learning theory,1995:23-37.
[11]Razavi N,Gall J,Van Gool L.Scalable multi-class object detection [C]//Computer Vision and Pattern Recognition(CVPR),2011:1505-1512.
[12]Blaschko M B.Branch and bound strategies for non-maximal suppression in object detection [C]//Energy Minimization Methods in Computer Vision and Pattern Recognition,2011: 385-398.
[13]Everingham M,Van Gool L,Williams C K I,et al.The pascal visual object classes(voc)challenge[J].International journal of computer vision,2010,88(2):303-338.
[14]Epshtein B,Ofek E,Wexler Y.Detecting text in natural sceneswith stroke width transform[C]//Computer Vision and Pattern Recognition(CVPR),2010:2963-2970.
[15]Karatzas D,Shafait F,UCHIDA S,et al.ICDAR 2013 robust reading competition[C]//Document Analysis and Recognition(ICDAR),2013:1484-1493.
Text detection and recognition in natural scenes based on component tree and Hough forest
SU Jiang,FANG Tao,WANG Xiao-ming,WU Yuan-yuan,GAO Bo
(Shaanxi Electric Power Company Information Communication Co.,Ltd.,Xi'an 710004,China)
Text detection and recognition in natural scenes play an important role in image understanding.Inmost of current system design,detection and recognition are isolated and processed separately.A unified framework for detection and recognition based onmulti-class Hough forest is proposed.In order to improve the performance when the quantity of classes increases,aswellas improve accuracy with uncertain scale,component tree is used for extracting connected componentwith hierarchy,while a set of features based on text characteristics is extracted and feed to a classifier.With the help of the classifier,the scale of the target is determined and all candidate texts are located,which build the foundation of subsequent stage for fine positioning and recognition.Experiments show that the scheme is competitive with current optimal solutions in both detection and recognition.
component tree;Hough forest;image understanding;text detection;text recognition
TN99
A
1674-6236(2016)20-0178-04
2015-10-28 稿件編號:201510202
蘇 江(1984—),男,陜西蒲城人,碩士,工程師。研究方向:信息系統開發維護、模式識別。