唐思源 高琦 邢俊鳳
摘 要: 檢測并提取視頻圖像中的文本信息對視頻圖像和內容的理解意義重大。以現有的文本檢測算法為基礎,提出一種基于角點與BP神經網絡相結合的文本檢測算法。該算法首先應用多尺度角點算法提取文本角點信息并初步定位文本行,接著提取文本特征,最后應用BP神經網絡精確定位文本。實驗結果表明,此算法與經典方法相比具有更高的正確率和魯棒性,視頻中文本的正確檢測率達到90.3%。
關鍵詞: 文本檢測算法; 多尺度角點算法; BP神經網絡; 文本信息提取
中圖分類號: TN911?34; TP317.4 文獻標識碼: A 文章編號: 1004?373X(2016)04?0112?04
Abstract: The detection and extraction of text information in video image has important significance on understanding the video image and content. On the basis of the current text detection algorithm, an text detection algorithm based on the integration of angular?point and BP neural network is proposed. The multi?scale angular?point algorithm is used to extract the text angular?point information and primarily locate the text line, and then extract the text features. Finally the text is precisely located by BP neural network. The experimental results prove this method has higher accuracy and robustness in comparison with the classical method. The correct detection rate of text in the video can reach up to 90.3%.
Keywords: text detection algorithm; multi?scale angular?point algorithm; BP neural network; text information extraction
0 引 言
在數字視頻中,常會有一些文本的信息內容,這些文本信息大部分都是對視頻內容起到補充及重要內容提示的作用。比如,對人物姓名,產品介紹,交通指示標牌等文字的說明,這些文字說明有助于人們更好地理解和分析相關的視頻內容。因此,正確地檢測并提取出視頻中的文本信息,對圖像的理解、分析有重要的研究意義。在對視頻幀圖像進行文本檢測時,選取一個合適的文本區域檢測方法非常重要。因為在視頻幀中,文字與其他背景圖像存在特征差異,所以,研究者們用得最多的方法是基于特征的方法。可以根據文字特有的特征,比如:文字的排列多為水平、垂直方向,顏色多為單色,文字的大小是在肉眼觀察范圍內,以及文字的筆畫比較豐富等來檢測并定位文本區域。研究者們可以根據這些特征,利用基于邊緣檢測或基于角點檢測[1]等方法來確定文本區域。但應用上述等方法只能檢測出一些規范條件的文本,隨著制作視頻的復雜及處理圖像的進步,視頻中的文本也越來越多樣化,基于特定規則的傳統方法已經無法檢測出比較復雜的文本,所以,本文提出了應用基于特征的方法與基于學習的方法相結合的思想來更好地檢測文本區域。基于學習的方法[2]是通過訓練學習來獲取可靠的參數模型,通過此模型,可以檢測出在變化因素,如不同尺寸、字體、語種下的文本區域,從而提高檢測結果的精度,同時可以增加訓練樣本,擴大學習區域來擴充檢測范圍,提高檢測率。
1 視頻中文本的檢測與定位
本文首先應用基于角點的方法[3]對潛在文本區域進行粗檢測,由于采集的視頻中,主要是中文文字,中文的文字筆畫數比較多,具有大量的角點信息,而且相同的文本區域中字體和大小都是統一的,應用該方法能生成準確的候選文本區域。由于背景復雜等原因,有些和背景相似的文字區域可能遺漏,本文應用BP神經網絡[4]實現文本區域的精確檢測,精確定位出文本區域。
1.1 基于角點檢測的粗定位算法
角點和邊緣是圖像比較明顯的特征,視頻圖像中文本筆畫的邊緣及角點信息比較突出,本文通過檢測視頻圖像中角點信息來粗略地定位文本區域。
1.1.1 角點檢測算法的選取
比較經典的角點檢測算法有:moravec,susan,mic和harris等[5],本文選取harris角點算法來檢測圖像中的角點。傳統方法中檢測圖像的角點信息完全通過閾值來判斷,閾值大了部分角點會檢測不到,閾值小了會把一些非角點信息檢測成角點。為了改進傳統的算法,本文提出了多尺度角點檢測方法,該方法把圖像分割成不同尺度的圖像,在不同尺度的圖像上檢測角點信息,打破了單靠閾值來檢測角點的局限性。通常,尺寸小的參數可以檢測出細小的灰度變化,能反映一些特殊點的信息,但對噪聲比較敏感;而尺寸大的參數可以檢測出差異大的灰度變化,能反映一些劇烈變化點的信息,對噪聲不敏感。
1.1.2 多尺度角點算法實現
本文獲取的圖像都是彩色圖像,彩色圖像色彩變化大,獲取角點比較困難。首先將彩色圖像轉化成灰度圖像。本文應用平均值法將彩色圖像轉化成灰度圖像,如圖2所示。
多尺度角點檢測算法流程圖如圖3所示。角點檢測后圖像的角點分布圖如圖4所示。
1.1.3 偽角點的濾除
由于文本區域角點分布比較集中、有一定規律,而非文本區域的角點分布雜亂無章。根據文本的特征,本文通過角點濾波算法[6],去除偽角點。
其步驟如下:
Step1:文本信息基本都是按行排列,本文設定閾值n=5。用[corners(i)]表示統計后每一行角點的數目,如果[corners(i)≤N],則第i行為非文本角點,否則為文本行角點。
Step2:有一些成片的干擾噪聲,通過模板運算去除。定義2個模板:[M1]為[8×10],[M2]為[8×20],用[Ni]表示每個模板對應的閾值,本文設[N1=3,N2=4]。用[cornersP,Mi]表示在角點P處落在模板[Mi]里的總角點數,如果[cornersP,Mi 如圖5所示為經過角點濾波算法去除偽角點的角點分布圖,根據去除前后對比,大部分偽角點信息都被去除,證明該算法是合理可行的。 1.1.4 二值化處理 圖像二值化[7]是把圖像分割成只有背景(黑色)和對象(白色)的一種操作,通過設定閾值來對圖像進行二值化。本文通過反復試驗的方法,來選取閾值,直到圖像產生比較好的區分結果為止。通過創建一個圖形控件來改變閾值的大小,確定閾值后,像素灰度值與閾值之差小于30,將像素置為0,即為黑色,否則置為255,即為白色。處理后的結果如圖6所示。 1.1.5 文本區域的粗定位 經過二值化處理后,可以觀察到文本區域的角點比較分散,為了將角點聚集成塊,對其進行形態學運算[8]。通過形態學的膨脹運算將分散的角點連成片,再進行腐蝕運算去除周邊及內部的孤立點,如圖7所示,經過粗定位后,已經去除了大部分背景區域,也盡可能多地留下文本區域,而且在一定程度上保證了文本區域不會被漏掉。 1.2 基于BP神經網絡文本區域的精確定位 在完成文本區域的粗檢測后,有一些和文字筆畫及特征相似的區域被誤判為文本區域。本文繼續用紋理分析的方法去掉干擾的背景區域。最后經過BP神經網絡的鑒別,真實的文本將被定位出來。 1.2.1 Gabor濾波及文本特征的提取 Gabor[9]是一種窄帶帶通濾波器,主要是在方向上提取圖像的紋理特征,特別對文本的筆畫方向比較敏感。一般文字的筆畫特征比較豐富,筆畫方向基本都集中在垂直、水平、兩個對角線方向,且表現出一定的周期性,文字的筆畫可以看成是一種特殊的紋理,利用Gabor濾波器提取文字方向特性并結合一些其他的紋理特征可以很好地將文本與背景分開。 本文把圖像分成4×4個子區域,應用多尺度Gabor濾波器對候選區的4個方向進行濾波。對每個子區域的候選區域提取均值、方差、能量、熵、慣量和局部統一性6個紋理特征[10]。計算Gabor特征向量為4×4×4=64維;同理,提取6個紋理特征的向量為4×4×6=96維,對這兩類特征進行歸一化后,將這兩類特征級聯就可以得到最終文本特征向量,該特征向量的維數為160維。 1.2.2 特征選擇 一共提取了160個特征,但并不是把所有提取的特征都放入特征訓練集中,有一些特征相近的特征值選取其中一到兩個放入訓練集中就可以,這樣可以減少特征提取的時間。本文通過生成圖像的傅里葉變換,并對變換數據進行分類,以便得到一組量度。通過量度值來選擇文本的紋理特征,經過測試一共選取24個特征來訓練神經網絡。 1.2.3 BP神經網絡定位及分類 在本課題的實驗中,應用三層BP神經網絡結構實現對文本的定位。BP網絡輸入層和輸出層的神經元個數由試驗得出均為5;隱含層神經元數目的確定一直沒有通用的方法。因此,設計一個可以在一定范圍內調整隱層神經元個數的BP網絡結構,采用函數traingdx對網絡進行訓練,該函數的學習算法是梯度下降動量法,而且學習速率是自適應的。通過誤差對比,確定最佳的隱含層神經元個數,得出網絡的訓練誤差,如表1所示。 表1表明,在經過2 000次訓練后,隱含層神經元為26的BP網絡對函數的逼近效果最好,它的誤差最小,而且網絡經過232次訓練就達到了目標誤差。在BP反向傳播學習算法中,初始值采用隨機分配值的方法,這樣做是為了取得分布均勻的小數,但是這樣就為測試帶來了不便,因為沒有一個基準點進行比較。因此,本文對誤差反向傳播訓練算法進行改進,根據文本的特征,采取如下測試方法: 取50次學習平均值,運行程序50次,設定學習速率0.5,動向量0.5,輸入24節點,輸出2節點,誤差e<0.000 01,學習結束。本文共收集樣本161份,其中彩色圖像55份、視頻圖像52份、場景圖像54份。在彩色圖像中取35份、視頻圖像中取27份、場景圖像中抽取25份作為訓練的樣本集,其余部分用作測試樣本集,使用改進后的BP算法進行試驗對比,括號內的是改進的算法結果,如表2所示。 2 實驗結果 本文在Matlab 7.0開發環境中實現,實驗數據集中隨機選取新聞類、不規則文本類和廣告類三類,視頻數據圖像共500余張,在視頻文本定位中通過查全率R和精確率P來度量定位算法的性能[12]:查全率R=正確檢測到的文本數/視頻中的文本總數;精確率P=檢測正確文本區域數/檢測文本區域總數。經過實驗后,對前后改進的定位算法數據進行了對比,其結果如表3所示。 由表3分析測試結果可見,該算法可以提取出大部分的文本區域,特別是新聞類視頻文本具有較高的準確性,從數據看出,本文改進的算法對廣告類視頻定位的準確率同樣優于改進前的定位結果,改進前與改進后部分對比圖如圖9、圖10所示。 由圖9、圖10可知,改進后的定位算法很好地提取了大小不一的字體,避免了較大字符的漏檢,提高了定位精度,同時提高了對背景復雜的文字區域的檢測精度,但也存在對模糊文本區域的漏檢情況。實驗表明,本文提出的算法對于檢測定位文本區域具有良好的準確性和魯棒性,平均正確的檢測率達到了90.3%。
參考文獻
[1] WU H C, CHANG C C. A novel digital image watermarking scheme based on the vector quantization technique [J]. Computers & security, 2005, 24(6): 460?471.
[2] LIANG C W, CHEN P Y. Dwt based text localization [J]. International journal of applied science and engineering, 2014, 2(1): 105?116.
[3] JUNG K, KIM K I, JANI A K. Text information extraction in images and video: a survey [J]. Pattern recognition, 2004, 37(5): 977?997.
[4] 王學武,譚得健.神經網絡的應用與發展趨勢[J].計算機工程與應用,2003,39(3):98?100.
[5] 陳又新,劉長松,丁曉青.復雜彩色文本圖像中字符的提取[J].中文信息學報,2003,17(5):55?59.
[6] 章毓晉.圖像處理與分析技術[M].北京:清華大學出版社,2000.
[7] 王曉丹.基于Matlab的系統分析與設計[M].西安:西安電子科技大學出版社,2000.
[8] 楊淑瑩.圖像模式識別[M].北京:清華大學出版社,2005.
[9] 岡薩雷斯.數字圖像處理[M].北京:電子工業出版社,2004.
[10] 郝文化,董秀芳.Matlab圖形圖像處理應用教程[M].北京:中國水利水電出版社,2004.
[11] 歐文武,朱軍民,劉昌平.視頻文本定位[J].計算機工程與應用,2004,40(30):65?67.
[12] 陳又新,劉長松,丁曉青.復雜彩色文本圖像中字符的提取 [J].中文信息學報,2003,17(5):55?59.
[13] 張引,潘云鶴.面向彩色圖像和視頻的文本提取新方法[J].計算機輔助設計與圖形學學報,2002,14(1):36?40.