吳慧,趙于前, 3,李香花,鄒北驥,鄒潤民
?
基于色彩聚類的自然場景文本檢測
吳慧1, 2,趙于前1, 2, 3,李香花4,鄒北驥2,鄒潤民2
(1. 中南大學地球科學與信息物理學院,湖南長沙,410083;2. 中南大學信息科學與工程學院,湖南長沙,410083;3. 中南大學有色金屬成礦預測教育部重點實驗室,湖南長沙 410083;4. 中南大學土木工程學院,湖南長沙,410075)
基于場景圖像背景復雜,圖像中的文本變化多樣,提出一種基于色彩聚類的自然場景文本檢測算法。其步驟為:首先,用-均值聚類算法將彩色圖像聚成5種色彩層,分析各色彩層中連通域外接矩形的幾何特性,去掉離散的非文本連通域;然后,根據相鄰連通域外接矩形的幾何性質和空間位置關系,將離散的連通域連接形成候選文本塊;最后,通過分析候選文本塊的幾何特性和邊緣密度驗證文本,得到最終文本檢測結果。實驗結果證明了本文算法的有效性和可行性。
場景文本檢測;色彩聚類;文本驗證
隨著數字圖像獲取設備的廣泛應用,基于內容的圖像分析技術得到人們越來越多的關注。這些圖像分析技術的內容主要包括對圖像中的人、場、景等方面進行分析,其中,對圖像中文本的分析顯得尤為重要。提取圖像中的文本有利于對圖像內容的理解和分析,可廣泛應用于盲人視覺輔助[1]、地理編碼、基于內容的圖像檢索等領域,因此,研究自然場景圖像文本檢測具有重要的意義。然而,自然場景圖像通常比較復雜,圖像中文本的表現形式也多種多樣,這給場景文本檢測帶來了一定困難,為此,國內外學者提出了許多場景文本檢測算法。
1) 基于邊緣(梯度)的文本檢測方法[2?6]。場景圖像中的文本區域通常含有豐富的邊緣信息,而背景區域較少,因此,可以利用邊緣信息檢測文本。這類方法通常利用邊緣濾波器進行文本區域定位,并通過文本判定方法驗證文本。當圖像復雜、背景區域邊緣信息豐富時,這種方法的文本檢測效果不佳。Shivakumara等[2]提出了一種基于濾波器和邊緣特征的文本檢測方法。該方法將圖像分為16塊,對每個塊應用不同的邊緣濾波器,用得到的邊緣信息確定文本邊界。Wei 等[3]提出了一種金字塔式的基于邊緣信息的文本檢測方法。該方法對原始圖像進行插值運算,得到不同大小的圖像,提取它們的梯度信息定位文本,并分別采用投影和分類方法精確研究邊緣并驗證文本。Neumann等[4]通過檢測圖像的最大穩定極值區域(maximally stable extremal regions,MSER),定位文本。Minetto等[5]通過對不同方向梯度直方圖(histogram of oriented gradients, HOG)進行分析,提出了一種基于HOG紋理描述符的文本檢測方法。Liu等[6]分別用4個不同方向的邊緣探測器對圖像進行濾波,并使用形態學方法定位文本,然后通過分析候選文本的邊緣強度、邊緣密度和邊緣方向的變化來區分文本和非文本。
2) 基于紋理的方法[7?11]。圖像中文本區域與背景區域有不同的紋理特征,根據這些特征可對圖像分類,得到文本區域。提取紋理特征的方法有小波分解、Gabor濾波、快速傅里葉變換、離散余弦變換等。Zhao等[7]應用小波變換提取圖像的紋理信息,并將圖像分成多個小塊,對每個塊進行分類,得到候選文本塊,然后運用平滑和投影法精確定位文本區域。Saoi等[8]對彩色圖像的3種色彩通道分別進行二維小波變換,并使用均值聚類提取文本像素點,合并3個通道上的文本像素點,得到最終文本區域。Zhou等[9]提出了一種多語言場景文本檢測算法,該方法提取圖像的梯度方向直方圖、平均梯度值和局部二值模式(local binary pattern, LBP)作為特征,通過分類器得到文本區域。Pan等[10]根據梯度和邊緣信息對圖像進行濾波,并運用投影法定位文本,得到候選文本塊。用訓練好的分類器驗證文本塊,合并性質相似的候選塊形成連通的文本區域。Angadi等[11]對圖像進行離散余弦變換和高頻濾波,以增強文本區域,并根據均一性和對比度驗證文本區域。
3) 基于連通區域的方法[12?16]。這種方法是基于同一視頻圖像中的文本在顏色、大小、形狀和空間排列等方面具有相似性,提取特征相似像素點組成連通區域,分析連通區域的幾何特性組成文本塊。該方法可檢測不同方向排列的文本,但對顏色變化比較敏感,對背景復雜的圖像檢測效果不佳。Shivakumara等[12]提出了一種基于貝葉斯分類器和邊緣生長的文本檢測算法。該方法結合Laplace算子和Sobel算子增強圖像,并使用貝葉斯分類器對像素點分類,得到候選文本字符。通過邊緣生長的方法,將具有相似幾何特征的候選字符形成連通塊。Koo等[13]提出了一種新的場景文本檢測算法,該算法2次應用分類器檢測文本塊。第1次應用相鄰連通塊的特征進行分類得到候選字符,第2次應用文本塊和非文本塊之間的不同特征進行分類得到最終檢測結果。Yi等[14]提出了基于字符結構劃分和分類的場景文本檢測算法,該方法根據梯度和色彩信息提取字符,分析字符的幾何特性,將特征相似的字符連接形成文本區。Le等[15]應用Mean-shift方法對圖像進行聚類,分析每一類中連通區域的邊緣特征,移除非文本塊。Zhang等[16]使用兩步條件隨機場(conditional random field, CRF)對文本塊和非文本塊進行標記。首先使用CRF找到確定的文本塊,然后對不確定的文本塊再次應用CRF,得到最終檢測結果。
本文作者基于連通區域的思想,提出一種基于色彩聚類的自然場景文本檢測算法。首先提取圖像的色彩特征進行均值聚類,得到候選字符;然后分析候選字符外接矩形的幾何性質,去掉離散的非文本連通域;接著分析相鄰連通區域外接矩形的幾何性質和空間位置關系,合并特征相似的連通域,得到候選文本區;最后對候選文本區進行驗證,得到最終檢測結果。
1 算法
1.1 色彩聚類
同一自然場景圖像中的文本色彩相近,利用這種特性可定位文本。分別提取圖像在,和3個通道上的色彩分量作為特征,用-均值算法對圖像上的像素點進行聚類。具體算法流程如下。
Step 2 分別計算圖像中每個像素點與第個聚類中心的色彩距離D,并對該像素點所屬類別進行劃分:
Step 3 計算每個類中像素點色彩的均值,作為新的聚類中心:
Step 4 重復Step2和Step 3,直到每個聚類中心色彩分量不再發生變化為止。
由于不同場景圖像色彩的復雜程度不同,選擇合適的聚類數目對文本檢測的效果影響很大。為了確定聚類數目,本文對ICDAR2003數據庫[17]中的訓練集進行實驗,分別得到不同聚類數的文本檢測結果。當聚類數較小時,復雜圖像中的文本無法與背景分離;當聚類數較大時,文本會出現過分割現象。綜合考慮訓練集中的圖像,當聚類數為5時,得到的聚類結果最佳。
1.2 字符驗證
K-均值聚類得到的5個色彩層都包含了文本和大量離散的非文本連通域。為了減小字符合并時的計算量,移除離散的背景信息,本文對每個色彩層的連通域進行字符驗證。找到色彩層中每個連通域的最小外接矩形,分析外接矩形的幾何性質。
連通區域外接矩形幾何性質計算舉例如圖1所示,其中和分別表示外接矩形的寬和高。對ICDAR2003數據庫訓練集中的文本進行分析發現,文本外接矩形的幾何性質通常滿足一定條件,本文移除不滿足下列條件的連通區域:1)>8;2)>10; 3) 0.4</<8;4)>50(其中,為連通區域內像素點的個數)。

圖1 連通區域外接矩形幾何性質計算舉例
1.3 字符合并
字符驗證后的色彩層,包含文本塊和顏色相近的非文本塊。為了將分散的文本字符連接形成連通的文本區域,提出基于幾何特性和空間位置關系的字符合并算法。對于每一個連通域,找到其最大外接矩形,通過比較相鄰連通域外接矩形的幾何性質和空間位置關系,判斷是否屬于同一文本塊。相鄰連通域外接矩形幾何性質和空間位置關系計算舉例如圖2所示。圖2中:1和2分別為2個連通域外接矩形的寬,1和2分別為2個連通域外接矩形的高;為兩連通域在垂直方向上重合的長度。

圖2 相鄰連通域外接矩形幾何性質與空間位置關系計算舉例
Fig. 2 Example of geometrical properties and spatial locations computation on neighboring connected-components’ bounding-boxes
一般來說,屬于同一文本塊的相鄰2個字符,其外接矩形的幾何性質相似,2個字符間的距離和垂直方向上重復的長度都在一定范圍內變動。本文對相鄰2個字符間的性質進行如下定義,其中R,R和R分別表示相鄰字符的寬度比、高度比和像素點的個數比,1和2分別表示2個字符包含像素點的個數:
本文將滿足條件式(7)~(11)的2個相鄰連通域連接形成1個文本候選塊。
圖3所示為字符合并過程。從圖3可以看出:通過比較相鄰連通區域的幾何性質和空間位置關系,可將特性相似的離散字符合并形成文本塊;遍歷色彩層中的所有連通域,通過字符合并得到候選文本塊,其中既包含了真實文本塊,也包含了錯誤檢測的非文本塊。對于由字符合并形成的候選文本塊,如圖4(a)所示,黑色背景中包含的連通域數目大于1。本文假設只對包含字符數目大于1的文本塊進行檢測,去掉字符合并后連通域數目為1的候選文本塊,如圖4(b)所示,圖中黑色背景中包含的目標連通區域為1。

圖3 字符合并過程舉例

1.4 文本塊驗證
通過字符合并,且去掉連通域數目為1的候選文本塊,得到文本塊,同時產生因大量錯誤合并形成的非文本塊,為了提高文本檢測的正確率,需要對候選文本塊進行驗證。本文分別采用幾何性質分析和邊緣密度判斷的方法對候選文本塊進行驗證。
1.4.1 幾何性質分析
文本塊的幾何性質通常滿足一定條件,因此,分析候選文本塊的幾何特性可以排除非文本塊。分別計算第個候選文本塊的寬W、高H、比率R=W/H和文本塊中連通域像素點之和N,將不滿足以下條件的候選文本塊判定為非文本塊:
本文取1,2,3和4分別為20,20,1和100。對圖5(a)所示字符合并結果圖中候選文本塊進行幾何性質分析,所得結果如圖5(b)所示,可見較明顯的非文本塊被去除。

(a) 字符合并結果;(b) 幾何性質分析結果
1.4.2 邊緣密度判斷
從圖5(b)可以看出:幾何性質分析可以去除較明顯的非文本塊,但檢測結果中仍然包含非文本塊。為了進一步提高文本檢測的準確率,本文通過邊緣密度判斷的方法去掉非文本塊。邊緣密度d定義如下:
d=Sobel/Area(13)
其中:Sobel為候選文本塊中包含的Sobel邊緣像素點個數;Area為候選文本塊的面積。本文將真實文本塊的判定條件設為。
對圖5(b)中的候選文本塊進行邊緣密度判斷,所得結果如圖6(a)所示。顯然,大部分非文本塊被移除。

圖6 邊緣密度判斷結果舉例
2 實驗結果與討論
選取ICDAR2003數據庫對算法進行驗證。ICDAR2003數據庫由509幅場景圖像組成,其中,訓練集258幅,測試集251幅。這些場景圖像中包含不同大小、樣式和顏色的水平方向排列的文本。將本文算法在測試集上試驗,圖7所示為隨機選擇的部分結果。從圖7可以看出:由本文算法可以檢測出不同場景圖像中的文本。

圖7 文本檢測結果舉例
為了進一步說明本文算法的有效性,將它與文獻[4],[9],[15],[17]和[18]中的算法進行比較,并采用回召率r、正確率r和系數m作為比較變量,分別定義如下:
根據上述標準,不同算法的檢測結果比較見表1。從表1可以看出:與其他算法相比,本文算法取得了較高的r,r和最高的m,分別為0.66,0.56和0.61。這說明本文算法能檢測出較多的文本塊,且檢測結果中正確文本塊的比例較高,綜合檢測性能最好。

表1 不同算法檢測結果比較
3 結論
1) 提出了一種基于色彩聚類和字符合并的場景文本檢測方法。首先對彩色圖像進行-均值聚類,得到5個不同的色彩層;然后對色彩層進行預處理,去除離散的非文本連通域,分析連通域外接矩形的幾何性質和空間位置關系,合并滿足條件的相鄰連通域組成候選文本塊;最后分析候選文本塊的幾何特性和邊緣密度,移除非文本塊,得到最終檢測結果。
2) 本文算法能檢測出不同場景圖像的文本,并取得了較好的r,r和m,與其他場景文本檢測算法的比較也表明了本文算法的優越性。
[1] YI Chucai, TIAN Yingli. Assistive text reading from complex background for blind persons[C]//The 4th International Conference on Camera-based Document Analysis and Recognition, Beijing, China, 2012: 15?28.
[2] Shivakumara P, Phan T Q, Tan C L. Video text detection based on filters and edge features[C]//IEEE International Conference on Multimedia and Expo. New York, USA, 2009: 514?517.
[3] WEI Yicheng, Lin Changhong. A robust video text detection approach using SVM[J]. Expert Systems with Applications, 2012, 39(12): 10832?10840.
[4] Neumann L, Matas J. A method for text localization and recognition in real-world images[C]//The 10th Asian Conference on Computer Vision. Queenstown, New Zealand, 2010: 770?783.
[5] Minetto R, Thome N, Cord M, et al. T-HOG: An effective gradient-based descriptor for single line text regions[J]. Pattern Recognition, 2013, 46(3): 1078?1090.
[6] LIU Xiaoqing, Samarabandu J. Multiscale edge-based text extraction from complex images[C]//IEEE International Conference on Multimedia and Expo. Toronto, Canada, 2006: 1721?1724.
[7] ZHAO Ming, LI Shutao, Kwok J. Text detection in images using sparse representation with discriminative dictionaries[J]. Image and Vision Computing, 2010, 28(12): 1590?1599.
[8] Saoi T, Goto H, Kobayashi H. Text detection in color scene images based on unsupervised clustering of multi-channel wavelet features[C]//IEEE International Conference on Document Analysis and Recognition. Seoul, Korea, 2005: 690?694.
[9] ZHOU Gang, LIU Yuehu, MENG Quan, et al. Detecting multilingual text in natural scene[C]//2011 1st International Symposium on Access Spaces. Yokohama, Japan, 2011: 116?120.
[10] PAN Yifeng, LIU Chenglin, HOU Xinwen. Fast scene text localization by learning-based filtering and verification[C]//IEEE International Conference on Image Processing. Hong Kong, China, 2010: 2269?2272.
[11] Angadi S A, Kodabagi M M. A texture based methodology for text region extraction from low resolution natural scene images[C]//IEEE 2nd International Advance Computing Conference. Patiala, India, 2010: 121?128.
[12] Shivakumara P, Phan T Q, Tan C L. A Laplacian approach to multi-oriented text detection in video[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(2): 412?419.
[13] Koo H I, Kim D H. Scene text detection via connected component clustering and nontext filtering[J]. IEEE Transactions on Image Processing, 2013, 22(6): 2296?2305.
[14] YI Chucai, TIAN Yingli. Text string detection from natural scenes by structure-based partition and grouping[J]. IEEE Transaction on Image Processing, 2011, 20(9): 2594?2605.
[15] Le H P, Toan N D, Park S, et al. Text localization in natural scene images by mean-shift clustering and parallel edge feature[C]//Proceedings of the 5th International Conference on Ubiquitous Information Management and Communication. Seoul, Korea, 2011:116.
[16] ZHANG Hongwei,LIU Changsong,YANG Cheng, et al. An improved scene text extraction method using conditional random field and optical character recognition[C]//IEEE International Conference on Document Analysis and Recognition. Beijing, China, 2011: 708?712.
[17] Lucas S M, Panaretos A, Sosa L, et al. ICDAR 2003 robust reading competitions[C]//IEEE International Conference on Document Analysis and Recognition. Edinburgh, UK, 2003: 682?687.
[18] Lucas S M. Text locating competition results[C]//IEEE International Conference on Document Analysis and Recognition. Seoul, Korea, 2005: 80?85.
(編輯 陳燦華)
Text detection from natural scene images based on color clustering
WU Hui1, 2, ZHAO Yuqian1, 2, 3, LI Xianghua4, ZOU Beiji2, ZOU Runmin2
(1. School of Geosciences and Info-Physics, Central South University, Changsha 410083, China;2. School of Information Science and Engineering, Central South University, Changsha 410083, China;3. Key Laboratory of Metallogenic Prediction of Nonferrous Metals, Ministry of Education,Central South University, Changsha 410083, China;4. School of Civil Engineering, Central South University, Changsha 410075, China)
Considering that the natural scene images have complex background and the text in them is usually various, a text detection method based on color clustering was proposed. The procedures are as follows. Firstly,-means was utilized to group pixels in color images into five different color layers and the bounding-boxes of connected-components in every color layer were obtained. Some non-text components were removed by analyzing geometrical properties of the bounding-boxes. Subsequently, the scattered components were connected to form candidate text blocks according to their bounding-boxes’ geometrical properties and locations. Finally, text verification was performed by geometrical and edge density identifications. The experimental results show that the proposed method is feasible and effective.
scene text detection; color clustering; text verification
10.11817/j.issn.1672-7207.2015.06.017
TP391.4
A
1672?7207(2015)06?2098?06
2014?06?24;
2014?08?28
國家自然科學基金資助項目(61172184, 61174210, 61379107, 61402539);新世紀優秀人才支持計劃項目(NCET130603);高等學校博士學科點專項科研基金資助項目(20130162110016);湖南省科技基本建設項目(20131199);中南大學中央高校基本科研業務費專項資金資助項目(2015zzts052) (Projects (61172184, 61174210, 61379107, 61402539) supported by the National Natural Science Foundation of China? Project (NCET130603) supported by Program for New Century Excellent Talents in University? Project (20130162110016) supported by the Specialized Research Fund for the Doctoral Program of Higher Education? Project (20131199) supported by Science and Technology Basic Construction of Hunan Province; Project (2015zzts052) supported by the Fundamental Research Funds for the Central Universities of Central South University)
李香花,博士,副教授,從事管理與決策支持、信號與信息處理等研究;E-mail:lpstonecsu@163.com