楊高波,吳 瀟,張兆揚,朱寧波
(1.湖南大學信息科學與工程學院,湖南長沙 410082;
2.上海大學新型顯示技術及應用集成教育部重點實驗室,上海 200072)
基于過渡像素的視頻圖像文本檢測與定位*
楊高波1?,吳 瀟1,張兆揚2,朱寧波1
(1.湖南大學信息科學與工程學院,湖南長沙 410082;
2.上海大學新型顯示技術及應用集成教育部重點實驗室,上海 200072)
提出一種基于過渡像素的視頻流人工文本檢測與定位算法.該算法在水平和垂直方向上提取過渡像素點,生成過渡圖.通過塊濾波器抑制背景的過渡像素,采用基于密度的快速區域生長算法形成候選文本區域;再利用改進的局部二進制模型(LBP)驗證候選文本區.仿真實驗結果表明,本文的改進算法相對于Kim算法,字符定位的準確率更高.
文本處理;視頻流;視頻文本檢測;過渡圖;區域生長;局部二進制模型
隨著視頻編輯技術的發展,越來越多的視頻在后期制作過程中嵌入文本字符,以幫助觀眾理解[1].通常,將出現在視頻中的文本分為2類:場景文本和人工文本.視頻文本檢測和定位是進行視頻文本識別、視頻內容自動標注和基于內容視頻檢索的關鍵.然而,由于視頻場景的背景復雜,文本顏色不確定以及字體大小多樣等因素,自動文本檢測和定位仍然是有待解決的難題.
目前,視頻文本檢測的方法可以歸納為3類主流技術:基于連通域、基于邊緣梯度和基于紋理的方法.基于連通域的方法利用文本區域字符顏色相似性以及字符筆畫相互連通的特征.Jiang等[2]采用Niblack聚類算法把一幅輸入圖像分解成多尺度聯通分量,然后所有的聯通分量通過cascade分類器以及支持向量機(SVM)進行分類與驗證.該方法的通用性不夠,因為一些閾值需要根據經驗確定.基于紋理的方法認為視頻幀的文本具有特殊的結構且表現出不同的紋理特性.在利用Gabor濾波器[3]、DCT紋理能量[4]或者小波變換[5]計算圖像紋理特征的基礎上,再通過神經網絡或者支持向量機等分類器劃分文本區和非文本區.此類方法對于字體比較小,或者對比度比較低的文本時,定位效果不是很理想,而且比較耗時.基于邊緣梯度的方法則利用文本和背景之間具有較高對比度的特點進行文本定位.Wang等[6]提出在鏡頭分割的基礎上,每個鏡頭內每隔30幀進行一次文本定位操作.它在文本定位前還結合進行多幀合成得到合成圖像,以提高整幅圖像的質量.但是對于背景比較復雜,存在較多強邊緣的視頻圖像定位效果不是很理想.文獻[7]對復雜視頻場景下的疊加文本,提出了一種提取過渡圖進行文本檢測和定位的方法.相對于其他方法,該方法可以適應不同對比度的視頻圖像以及不同國家的文字,同時對嵌入在復雜背景中的文本能夠進行更準確的定位.但從實驗結果看該方法在獲得過渡像素時文本區域像素稀疏,同時背景區也會產生比較多的噪點,給后續的處理操作增加難度.另外,該方法在形成候選文本區域時使用近似形態學操作的方法,使得許多非文本區域也形成連通區域.
本文針對文獻[7]的缺陷,提出一種改進的文本檢測和定位算法.它的主要依據是通過觀察發現在人工文本和相鄰的背景像素之間存在著過渡像素,可以輔助進行文本檢測和定位.在提取視頻幀過渡圖的基礎上,通過基于密度的區域生長算法得到候選文本區域,結合連通域分析以及改進的LBP模型對文本區進行判定,再使用過渡圖的水平和垂直映射精確地定位文本區域.
如圖1所示,通過觀察可以發現字符和相鄰的背景之間存在過渡像素.而且由于人工文本是后期制作工程中嵌入視頻中去的,所以字符區域一般具有較高的飽和度.

圖1 字符與背景間的過渡像素Fig.1 Transition pixels between texts and background
由圖1可知,當文本區域的背景比較暗時,文本亮度一般比較高.這樣,字符和相鄰的背景之間存在像素損溢,使得字符和相鄰的背景之間產生了過渡像素,而且,相鄰的背景像素、過渡像素和字符像素的灰度值一般呈現出對數變化關系.
當視頻圖像對比度比較低時,字符邊緣和背景之間的灰度變化比較小.為了能夠有效地檢測字符和背景間的過渡像素,采用計算像素飽和度的方法.

文獻[7]在計算像素灰度變化和飽和度變化時,只考慮了像素水平方向上的變化.缺點體現在:首先,會漏掉許多垂直方向的過渡像素,造成候選文本區過渡點稀疏;其次,當文本區域包含諸“一、二”等水平筆畫較多的中文字符時無法檢測.此外,文獻[7]要對每個像素計算灰度和飽和度的變化,以判別是否為過渡像素,因此非常耗時.考慮到大多數視頻圖像的背景區域灰度變化并不像文本區域那樣明顯,因此沒有必要逐像素進行類似處理.為此,本文在文獻[7]基本思想的基礎上進行如下改進:


當Blocki,(j)為1時,表示該塊可能含有過渡像素.由于同時考慮了文本區域的水平和垂直2個方向,雖然文本區域的像素密度增加了,但是背景區域的過渡點也會得到加強(如圖2(c)所示).它既可以提高算法的處理速度,也可以有效地抑制一些對比度較低的背景過渡點.
2)判別過渡像素I(x,y)的方向為:

因為字符像素、過渡像素和背景像素之間灰度以及飽和度的變化呈一種近似指數的變化關系,這種變化關系可以簡單描述為DH和DL之間有一個大小為TH的梯度變化.如果像素I(x,y)滿足式(12)的指數變化約束條件,那么該像素被認為是過渡像素.

使用一幅復雜背景的視頻圖像進行實驗比較,結果如圖2所示.由圖2可知,本文方法得到的過渡圖一方面背景過渡像素減少,同時文本區域邊緣更加清晰,從而可以有效地減少背景過渡像素對文本定位的干擾.
為了把過渡像素形成候選文本區域,文獻[7]采用了近似形態學操作方法.如果過渡圖中2個非零像素之間的間隙小于圖像寬度的5%,那么這些像素值為1.但是這樣的操作,使得相互靠近的像素不管是文本還是背景都會連接起來.

圖2 復雜視頻場景的過渡圖Fig.2 Transition map of complex video
文本區域是由許多筆畫組成的,在生成過渡圖時文本區域必然存在許多過渡像素.也就是說,文本區域具有很高的密度.因此,本文采用基于密度的區域生長算法,得到候選文本區域.如果一個像素P(x,y)在它的領域內候選像素密度Dens(x,y)超過閾值TD,那么該像素就作為種子像素.本文中,根據經驗TD取值為0.25,鄰域大小為11×15.具體算法描述如下:
1)如果像素P(x,y)的密度Dens(x,y)大于閾值TD,則該像素標記為種子點;
2)以此種子點為中心,將其大小為7×11領域內的像素點標記為同一區域;
3)如果還存在未檢測的像素,則繼續尋找下一像素,并轉到步驟1).

不同方法得到的侯選文本區域的實驗效果如圖3所示.

圖3 候選文本區比較Fig.3 Comparison of candidate text region
連通域的四個角點(min_x,min_y),(max_x,min_y),(min_x,max_y)和(max_x,max_y)可以形成優化的候選文本區.接下來,采用一些規則去除一些虛檢的文本區.當連通域面積、長度或者寬度過小時被認為是虛假文本區;閾值的選擇通過觀察人工文本的最小尺寸,根據經驗選擇.但是對于背景比較復雜的視頻圖像就需要一個更優的算法來減少虛檢發生的概率.我們發現,由于文本區域結構復雜,在過渡像素周圍的灰度變化比較劇烈,文獻[7-8]采用了局部二進制模型(LBP)算法描述過渡像素的這種紋理特征.本文在文獻[7]方法的基礎上對LBP算法進行了改進.傳統的LBP算法是通過比較當前像素和周圍像素的大小關系得到一個二進制模型,即當周圍像素的灰度大于當前像素時則賦值為1,當小于當前像素灰度則賦值為0.但是傳統的算法僅僅考慮大小的方向,卻忽視了大小的程度.傳統的LBP算法如圖4所示.從圖中可以發現圖4(a)圓周像素和圓心像素之間的差值一般比較大,這就意味著其對應背景邊緣信息比較豐富.而圖4(b)圓周上的像素和圓心像素差值比較小,意味著該像素所在區域相對比較平滑.但是圖4(a)LBP值卻小于圖4(b)的LBP值.
本文對傳統的LBP算法做2點改進.1)假定當前像素灰度值為gc,圓周上某像素灰度為gi.當|gi-gc|/gc小于閾值T時,則該像素的二進制值就賦為0,否則就賦為1.2)傳統的LBP算法是從圓周上一點開始逆時針方向旋轉,把“0”“1”按照出現的順序排列得到一個二進制模型.假定通過上面方法得到2個二進制“011011”和“100000”,顯然“011011”小于“100000”,但是“011011”所對應的區域灰度變化顯然又比“100000”所對應的區域強烈.為了克服上述缺點,本文不再按照“0”和“1”在圓周上出現的順序排列,而是對得到的二進制模型重新排列組合.把所有“0”放在二進制的前面,而“1”放在后面.將上述2個二進制重新排列后得到的二進制分別為“001111”和“000001”,然后再通過式(14)轉化為十進制.

圖4 LBP算法流程圖Fig.4 Flowchart of LBP algorithm

計算人工文本區域的概率(POT):1)對候選文本區內的每一個過渡像素進行LBP操作;2)計算所有過渡像素具有的不同LBP值的數量;3)當一個LBP值所對應的過渡像素數目過少時,我們認為這是噪聲引起的,應將總的數量減1,并且從該區域中去除這部分過渡像素;4)wi為過渡像素密度,可以通過候選文本區域過渡像素數量除以候選區域面積得到.POT的計算為:

式中:N為候選文本區數量;NOLi為歸一化以后的不同LBP值的過渡像素數目.若候選文本區的POT值大于一個預先設定的閾值,則相應的候選文本區就被判定為文本區.這個閾值根據大量實驗數據設為0.05.
為了驗證本文提出的方法效果,實驗所需的數據來自不同類型以及不同背景復雜度的視頻.視頻大小從320×240到880×480不等,視頻格式為AVI格式.
將本文方法生成的過渡圖和文獻[7]提出方法的過渡圖進行比較.從圖2可以清楚地發現,本文提出方法生成的過渡圖在文本區域含有豐富的過渡像素,同時背景區域檢測的過渡像素在很大程度上減少很多,故本文提出的方法在檢測文本區域時具有更高的效率.為了測量2種方法的優劣,本文采用查全率(Recall)和查準率(Precision)2個指標來衡量:

式中:P為使用每一種方法檢測到的過渡像素集合;T為屬于文本像素的數量.具體實驗數據如表1所示.從表1可以看出,本文方法所生成的過渡圖精確度更高.這樣為后續的步驟比如基于密度的區域生長和采用LBP算法判別候選文本區等打下了一個良好的基礎,同時在處理速度上也得到很大程度的改善,滿足了實時性的要求.

表1 2種方法得到的過渡圖數據比較Tab.1 Data comparison of two different algorithms
對本文提出的改進LBP算法進行評測.本文改進的算法可以保證文本區域具有較高的LBP值,而背景區域的LBP值比較低.兩者之間的距離可以用均值差來描述,若均值差越大則意味著文本和背景之間用LBP描述的紋理特征區別越明顯.
圖5給出了4組圖像,每一組都分別包含一幅文本圖像和一幅背景圖像.對4組圖像分別求其LBP均值以及差值.背景和文本區域的均值可以通過加總該區域內的所有像素點的LBP值,然后再除以該區域面積獲得.本文以第1組圖像為例,給出實驗數據如表2所示.

圖5 測試圖片Fig.5 Test images

表2 LBP均值比較Tab.2 Comparison of LBP-mean
從表2可以看出,改進的LBP算法文本區和背景區均值之間的差值更大.圖6給出了4組圖像采用2種方法時的性能比較.從圖6中可以看出,本文算法得到的均值差明顯大于傳統方法獲得的均值差,故本文改進的LBP算法更能描述文本和背景的紋理特征.
對人工文本檢測結果進行測評,來自于不同復雜視頻場景的人工文本檢測結果如圖7所示.從圖7中可以看出,對于中英文字符的不同字體大小、尺寸、位置以及顏色都能夠很成功地實現定位.

圖6 2種LBP算法比較Fig.6 Comparison of two different LBP algorithms

圖7 文本檢測效果Fig.7 The results of text detection
本文的檢測方法是基于發現在人工文本和相鄰的背景之間存在著過渡顏色,在字符、過渡像素以及背景之間像素的灰度和飽和度滿足對數變化關系,從而得到過渡圖.基于密度區域生長算法生成候選文本區,并進行邊緣平滑處理,改進的LBP算法對得到的候選區域進行判別.從實驗結果可以看出,本文方法具有更好的魯棒性.
[1] SNOEK C G M,WORRING M.Time interval maximum entropy based event indexing in soccer video[C]//International Conference on Multimedia and Expo,Baltimore:IEEE Press,2003,3:481-484.
[2] JIANG Ren-jie,QI Fei-hu,Li Xu,etal.A learning-based method to detect and segment text from scene images[J].Journal of Zhejiang University Science,2007,8(4):568-574.
[3] CHEN Xi-lin,YANG Jie,ZHANG Jing,etal.Automatic detection and recognition of signs from natural scenes[J].IEEE Transactions on Image Processing,2004,13(1):87-99.
[4] XU Jiang-bo,JIANG Xiu-hua,WANG Yu-xi.Caption text extraction using dct feature in MPEG compressed video[C]//WRI World Congress on Computer Science and Information Engineering.Los Angeles:IEEE Press,2009,6:431-434.
[5] 李念永,梁艷梅,張舒,等.基于BP神經網絡的復雜彩色圖像文本定位[J].光子學報,2009,38(10):431-434.
LI Nian-yong,LIANG Yan-mei,ZHANG Shu,etal.Text location in complex color images based on BP neural network[J].Acta Photonica Sinica,2009,38(10):431-434.(In Chinese)
[6] WANG Rong-rong,JIN Wanjun,WU Li-de.A novel video caption detection approach using multi-frame integration[C]//Proceedings of the 17th International Conference on Pattern Recognition.Cambridge:IEEE CS Press,2004,1:449-452.
[7] KIM W,KIM C.A new approach for overlay text detection and extraction from complex video scene[J].IEEE Transactions on Image Processing,2009,18(2):401-411.
[8] OJALA T,PIERIKAINEN M,MAENPAA T.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):971-987.
A Transition Pixels Based Text Detection and Localization for Video Images
YANG Gao-bo1?,WU Xiao1,ZHANG Zhao-yang2,ZHU Ning-bo1
(1.College of Information Science and Engineering,Hunan Univ,Changsha,Hunan 410082,China;
2.Key Lab of Advanced Display and System Applications,Ministry of Education,Shanghai Univ,Shanghai 200072,China)
A transition pixel based detection and localization algorithm was proposed for the artificial texts in the video frame.The transition map was generated by extracting transition pixels in both horizontal and vertical directions.The transition pixels in the background were suppressed by block filtering,and candidate text regions were obtained by intensity based region growing.Finally,the candidate text regions were verified by improved local binary pattern(LBP).Experiment results have shown that,compared with Kim's work,the proposed approach can achieve more accurate text detection and localization.
text processing;video streaming;video character detection;transition map;region growing;local binary model
TP391
A
1674-2974(2011)06-0069-06*
2010-09-02
計算機信息處理江蘇省重點實驗室開放課題(KJS0921);圖像處理與圖像通信江蘇省重點實驗室開放課題(ZK207006);新型顯示技術及應用集成教育部重點實驗室開放基金資助項目(P200801);湖南省青年骨干教師培養對象資助項目
楊高波(1974-),男,湖南岳陽人,湖南大學教授,博士
?通訊聯系人,E-mail:jt_gbyang@hnu.cn