姜 維 盧朝陽 李 靜 劉曉佩 姚 超
?
基于視覺顯著性和提升框架的場景文字背景抑制方法
姜 維*盧朝陽 李 靜 劉曉佩 姚 超
(西安電子科技大學綜合業務網國家重點實驗室 西安 710071)
為解決復雜背景對場景文字自動定位算法干擾的問題,該文利用視覺顯著性抑制背景且突出前景的特點,以方向梯度直方圖特征、方向梯度直方圖統計特征、梯度幅度特征和梯度曲線特征的弱分類器,結合提升框架提出一種背景抑制算法。該文算法的目標是抑制自然圖像中復雜背景且突出前景文字,作為場景文字自動定位算法的預處理階段增強算法效果。在ICDAR2011場景文字定位競賽數據庫和實驗室場景中文數據庫中實驗結果表明,該文算法較好地抑制自然場景中復雜背景,并有效提升場景文字自動定位算法的性能。
圖像處理;場景文字;背景抑制;視覺顯著性;提升方法
視覺顯著性分析是人類特有的能力,可幫助人類快速準確檢測識別目標。但是計算機在該方面仍無法與人類媲美,所以視覺顯著性一直都是計算機視覺領域中的熱點問題并在近年受到更廣泛的關注[1]。
場景圖像中的文字自動定位是計算機視覺領域中一個重要但未被較好解決的問題,主流算法性能遠不及人類。文字的位置、大小與字體的不確定性,光照強度的變化性與背景的復雜性均是影響場景文字自動定位算法性能的重要因素,而背景的復雜性是造成算法效果不佳的首要原因。抑制場景圖像背景,突出前景文字并提高文字定位算法性能是本文的研究目標。
場景文字自動定位算法通常分為兩類:基于區域的方法和基于連通域的方法?;趨^域的方法[2,3]認為文字區具有明顯不同于背景區的紋理結構特性,首先將場景圖像分割為塊狀區域,然后提取特征使用分類器去除背景區,最后按照某些原則聚合文字區;基于連通域的方法[4,5]假定因為某種特性文字區是獨立與周圍可分離的連通域,首先按照顏色,筆畫寬度或邊緣等特性作連通域分析獲取文字候選區,再根據特征剔除背景區域,最后將文字區聚合成文本行。
基于區域的方法和基于連通域的方法各具優劣,但二者均會因為復雜背景的干擾影響定位算法性能。解決該問題的方法之一是在場景文字定位自動算法中增加預處理步驟,抑制自然圖像的背景區域并突出前景文字。目前僅有文獻[6]針對場景文字提出背景抑制算法,該算法使用圖模型結合顏色、邊緣和紋理信息達到場景文字背景抑制效果。
綜上,場景圖像的復雜背景是影響定位算法性能的重要因素,而視覺顯著性的重要特點是抑制背景區域,突出顯著目標?;诖?,本文嘗試模仿人類視覺的處理過程設計算法。人類視覺處理過程分為兩步[7]:首先是快速簡單的并行預注意過程,此過程快速忽略背景,獲得顯著目標;然后是一個較慢的復雜的串行注意過程,該步驟有目的地去除無效目標,突出感興趣目標。人類認知場景文字的過程也符合以上步驟,本文據此設計的算法如圖1所示。(1)根據譜殘差理論獲取輸入圖像的顯著性圖,將滿足閾值條件的區域輸入到下一階段;(2)根據上一步驟的輸入區域,利用方向梯度直方圖特征、方向梯度直方圖統計特征、梯度幅度特征和梯度曲線特征組成的級聯分類器做6個尺度的文字區域檢測,最終根據校正的提升分類器輸出文字置信圖;(3)顯著性圖與文字置信圖進行幾何平均,最終達到場景文字背景抑制效果。步驟(1)屬于快速簡單的并行的無意識的預注意過程,步驟(2)和步驟(3)屬于較慢的復雜的串行注意過程。
本文創新點在于提出基于視覺顯著性與提升框架的場景文字背景抑制方法,并設計梯度曲線特征與方向梯度直方圖統計特征。


圖1 算法流程圖

自然場景的文字多為標語、廣告和指示牌等,普遍顯著而突出。文獻[8]表明,人類對人臉與文字的快速準確定位能力,至少部分依賴于圖像傅里葉幅度譜中的信息,而譜殘差視覺顯著性算法正是基于圖像傅里葉幅度譜。因此,本文采用此顯著性算法針對場景文字進行背景抑制,是可行且有依據的。
圖2是利用譜殘差視覺顯著性分析得到的場景文字顯著性圖,其中場景圖像分別來自ICDAR2011場景文字定位競賽數據庫和實驗室場景中文數據庫。圖2(a)為原圖,圖2(b)是原圖對應的譜殘差顯著性圖,圖像亮度代表顯著性程度。圖2中,譜殘差視覺顯著性算法成功抑制了背景區域,有效突出了包含文字在內的顯著區域,但同時保留了其它顯著元素,本文后續的文字區域檢測階段可有效抑制這部分干擾元素。


圖2 譜殘差視覺顯著性分析樣圖
文字區域檢測算法使用提升框架將方向梯度直方圖特征、方向梯度直方圖統計特征、梯度幅度特征和梯度曲線特征的弱分類器組成級聯分類器,以16×16的滑動窗口,4×4步長分6個尺度遍歷之前篩選的顯著性區域,最終通過分類器的校正獲得文字置信圖。
方向梯度直方圖特征(Histogram of Oriented Gradients, HOG)最早被應用于行人檢測[9],現已廣泛應用于計算機視覺領域中各問題。本文同時采用文獻[9]的R-HOG特征與文獻[3]相似的T- HOG特征。
文字筆畫通常是具有同一顏色或相同背景的雙邊區域,且筆畫兩側梯度方向相反,幅度值近似相等;在具有完整文字的區域中,梯度幅值在各方向上差別不大。文獻[3]驗證了該假設,本文據此設計了方向梯度直方圖的統計特征。
觀察可發現,文字頂部與底部區域多聚集水平筆畫,中間區域的豎直筆畫更集中(水平筆畫是方向梯度,豎直筆畫為方向梯度)。圖3很好地體現如上觀察結果,圖3(b),圖3(c),中曲線是先按照圖4(a)劃分滑動窗口區域為8×1(等分為8行1列),然后對8塊區域分別求方向梯度幅度和方向梯度幅度均值,最后分別描繪曲線得到的。正如觀察所發現:方向梯度幅度值在滑動窗口頂部與底部較小,中部達到峰值;方向梯度幅度值在滑動窗口頂部和底部較大,中部最?。涣硗?,文字一定程度的傾斜不影響該結論。根據以上分析,本文算法采用梯度幅度特征并設計梯度曲線特征。

圖3 梯度曲線樣例圖

3.1.2方向梯度直方圖統計特征 基于之前的觀察結果,本文采用式(2)和式(3)表示方向梯度直方圖統計特征。該特征針對的是整個滑動窗口,不再是窗口局部區域。

圖4 滑動窗口區域的劃分


3.1.3梯度幅度特征 梯度幅度特征按照圖4(a)將滑動窗口劃分為8個區域,對每個區域求幅度均值,得到8個特征;同時按照1-2, 3-6, 7-8方式組合區域求幅度均值,得到3個特征。因為梯度幅度特征分為方向梯度幅度特征和方向梯度幅度特征,所以共有22((8+3)×2)個特征。
3.1.4梯度曲線特征 梯度幅度特征描述的是8×1區域中單個區域的方向梯度幅度或方向梯度幅度,梯度曲線特征將8個區域的梯度幅度作為整體考慮,即把8個區域梯度幅度作為8維向量。因為梯度幅度有兩個方向,所以共計產生2(1×2)個8維特征。


3.2.2聯合特征 本文算法共使用 45(19+2+22+2)個簡單特征。45個簡單特征兩兩組合生成990個聯合特征,得到包含1035(45+990)個特征的特征池,最終通過提升方法選擇特征組成提升級聯分類器。
3.3 校正級聯提升分類器與文字置信圖
校正級聯分類器由5級組成,第1級為簡單特征分類器,后4級為聯合特征分類器。每一級弱分類器數目分別為26, 49, 64, 75與75。
提升方法具有良好的泛化能力,但無法進行類別準確概率估計。算法根據文獻[11]進行校正,得到準確的后驗概率。通過校正級聯分類器可得到圖像6個尺度的文字置信圖,將其歸一化到原始尺度做均值得到最終的文字置信圖如圖5(c)所示。圖5(b), 5(c), 5(d)分別是本文算法3個階段的效果圖。
級聯分類器的訓練數據來自ICDAR2011場景文字定位競賽數據庫中的229幅訓練圖像和實驗室場景中文數據庫隨機抽取的250幅圖像。訓練時以16×16的滑動窗口遍歷訓練圖像的文字區域提取25929個正樣本數據,相同方法遍歷訓練圖像的背景區域提取300000個負樣本數據。





圖5 算法各階段效果圖





本文實驗圖像來自ICDAR2011場景文字定位競賽數據庫和實驗室場景中文數據庫。ICDAR2011場景文字定位競賽數據庫是目前英語文字定位算法的主要測試數據庫,包含255幅自然場景下英文環境測試圖像;實驗室場景中文數據庫是本實驗室建立的自然場景下中文環境圖像數據庫,擁有5000幅場景漢字圖像。



表1 ICDAR2011場景文字定位競賽數據庫中算法性能比較(%)

圖6中是4種場景文字背景抑制算法效果的比較,圖6(a)是原圖,圖6(b), 6(c), 6(d)分別是文獻[12],文獻[13],文獻[6]的算法效果圖,圖6(e)是本文算法效果圖。因為前3種算法是基于邊緣的,所以本文也將背景抑制結果二值化后與邊緣圖結合后再進行比較。如前文分析本文算法結果中含有更少的背景像素(像素級別準確率高),文字區域更完整(區域級別召回率高),會出現微小的背景區域(區域級別準確率略低),但較容易在后續步驟去除。

圖6 場景文字背景抑制算法比較效果圖
本文利用譜殘差視覺顯著性方法,結合提升框架基于方向梯度直方圖特征,方向梯度直方圖統計特征、梯度幅度特征和梯度曲線特征提出一種針對場景文字的背景抑制算法。實驗證明,本文算法適用于自然場景下英文環境和中文環境的背景抑制,可有效提高場景文字自動定位算法的準確率,改善綜合性能。
本文算法針對場景文字進行背景抑制取得較為顯著效果,在未來工作中將繼續完善該算法,將其擴展為完整的基于視覺顯著性的場景文字自動定位系統。
[1] Qi Zhao and Koch C. Learning saliency-based visual attention: a review[J].,2013, 93(6): 1401-1407.
[2] Lee J J, Lee P H, Lee S W,.. AdaBoost for text detection innatural scene[C]. International Conference on Document Analysis and Recognition, Beijing, 2011: 229-434.
[3] Minetto R, Thomeb N, Cord M,.. T-HOG: an effective gradient-based descriptor for single line text regions[J]., 2013, 46(3): 1078-1090.
[4] 劉曉佩, 盧朝陽, 李靜. 結合WTLBP特征和SVM的復雜場景文本定位方法[J]. 西安電子科技大學學報, 2012, 39(4): 103-108.
Liu X P, Lu Z Y, and Li J. Complex scene text location method based on WTLBP and SVM[J]., 2012, 39(4): 103-108.
[5] 姜維, 盧朝陽, 李靜, 等. 基于角點類別特征和邊緣幅值方向梯度直方圖統計特征的復雜場景文字定位算法[J]. 吉林大學學報(工學版), 2013, 43(1): 250-255.
Jiang W, Lu Z Y, Li Jing,.. Text localization algorithm in complex scene based on corner-type feature and histogram of oriented gradients of edge magnitude statistical feature[J].(), 2013, 43(1): 250-255.
[6] Shi C Z, Xiao B H, Wang C H,.. Graph-based background suppression for scene text detection[C]. International IAPR Workshop on Document Analysis Systems, Queensland, 2012: 210-214.
[7] Hou X D and Zhang L Q. Saliency detection: a spectral residual approach[C]. IEEE Conference on Computer Vision and Pattern Recognition,Minneapolis, 2007: 1-8.
[8] Honey C, Kirchner H, and Van Rullen R. Faces in the cloud: Fourier power spectrum biases ultrarapid face detection[J]., 2008, 8(12): 1-13.
[9] Dalal N and Triggs B. Histograms of oriented gradients forhuman detection[C]. IEEE Computer SocietyConference onComputer Vision and Pattern Recognition, San Diego, 2005: 886-893.
[10] Hanif S M and Prevost L. Text detection and localization in complex scene images using constrained adaBoost algorithm[C]. International Conference on Document Analysis and Recognition, Barcelona, 2009: 1-5.
[11] Niculescu-Mizil A and Caruana R. Predicting good probabilities with supervised learning[C]. Proceedings of International Conference on Machine Learning, Bonn, 2005: 625-632.
[12] Lyu M R, Song J Q, and Cai M. A comprehensive method for multilingual video text detection, localization, and extraction[J]., 2005, 15(2): 243-255.
[13] Liu C M, Wang C H, and Dai R W. Text detection in images based on unsupervised classification of edge-based features[C]. International Conference on Document Analysis and Recognition,Seoul, 2005: 610-614.
[14] Shahab A, Shafait F, and Dengel A. ICDAR 2011 robust reading competition challenge 2: reading text in scene images[C]. International Conference on Document Analysis and Recognition, Beijing, 2011: 1491-1496.
姜 維: 男,1981年生,博士生,研究方向為自然環境文字分析與識別.
盧朝陽: 男,1963年生,教授,博士生導師,研究方向為圖像分析與圖像理解、圖像與視頻編碼,基于指紋、虹膜及人臉的生物特征識別,基于圖像分析的智能交通系統應用和自然環境文字分析與識別.
李 靜: 女,1979年生,副教授,碩士生導師,研究方向為圖像處理與模式識別、圖像配準、文字識別、增強現實.
Visual Saliency and Boosting Based Background Suppression for Scene Text
Jiang Wei Lu Zhao-yang Li Jing Liu Xiao-pei Yao Chao
(,,710071,)
To solve the issue of background interferences on the scene text automatic localization algorithm, a scheme of background suppression for scene text is proposed, which utilizes characteristic of visual saliency to combine histogram of oriented gradient features, its statistical features, gradient magnitude features and gradient curve features with the boosting frame. The scheme aims to suppressing the complex background and highlighting the foreground text in natural scene. It can consider be as the preprocessing stage of the scene text automatic localization algorithm, and it improves the performances of the scene text automatic localization algorithm. The experimental results in both the ICDAR2011 scene text localization competition test dataset and the laboratory Chinese dataset show that the proposed scheme can suppress effectively the complex background and improve the scene text localization algorithm.
Image processing; Scene text; Background suppression; Visual saliency; Boosting method
TP391
A
1009-5896(2014)03-0617-07
10.3724/SP.J.1146.2013.00974
2013-07-08收到,2013-12-16改回
國家自然科學基金(60872141),中央高校基本科研業務費專項資金(K50510010007)和華為高校創新研究計劃(IRP-2012-03-06)資助課題
姜維 jwmianzu@gmail.com