劉明珠 鄭云非 樊金斐 于芳



摘要:通過對視頻圖像進行快速、準確的文本定位與識別,有利于提高視頻信息處理的效率與準確率,采用Gabor濾波器實現在橫、豎、撇、捺四個方向上的視頻圖像的紋理特征的提取,再通過RBM逐層增量深度學習算法構建深度置信網絡,實現對提取的紋理特征圖像中文本區域的定位.論文同時研究了利用形態學處理方法和OCR字符庫實現對視頻圖像文本識別的可行性,并分析了識別效果,測試結果表明,本文提出的深度學習算法與形態學字符識別方法相結合,不但能夠實現對視頻圖像文本區域的準確定位,還有利于提高字符識別的效率和準確率。
關鍵詞:深度學習算法;視頻圖像;文本區域定位;形態學去噪;字符識別
DoI:10.15938/j.jhust.2016.06.012
中圖分類號:TP391.43
文獻標志碼:A
文章編號:1007-2683(2016)06-0061-06
0.引言
視頻中的文字檢測與識別是視頻圖像檢測領域的一項重要研究內容.在復雜背景下,視頻文本的準確定位與識別有利于進行視頻圖像檢測,只有準確的視頻文本區域的定位,才能提高OcR字符識別系統的文本識別準確率,進而提高基于內容的視頻圖像的正確檢測的效率,對視頻定位與檢索有十分重要的應用價值,一般的文本定位方法主要包括:邊緣特征定位法、筆畫寬度定位法、紋理特征定位法、機器學習法等,本文采用2D-Gabor濾波器與深度學習算法相結合的方法,實現對復雜背景視頻中文本區域的定位,并研究了基于形態學的視頻圖像去噪方法,再通過OCR系統實現字符的識別,以提高OCR系統字符識別的準確率。
1.深度學習視頻文本區域定位與識別流程
本文將深度學習算法理論應用于視頻文本區域定位與識別過程,設計了一種基于紋理特征的逐層增量深度學習算法.該算法的處理流程如圖1所示.首先,將視頻圖像通過Gabor濾波器濾波,獲得視頻圖像文本中文字的紋理特征;接著,將紋理特征作為訓練樣本,利用受限玻爾茲曼機(restricted bolt-zmann machine,RBM)逐層對紋理圖像進行增量學習,在學習過程中,用標記樣本作為監督數據進行網絡微調,構成深度置信網絡(deep belief network,DBN),并標記文本區域和背景區域的二值圖像;之后,利用形態學方法對二值圖像去噪處理,再映射到定位圖像上,得到僅包含文本區域而去除背景區域的文本圖像,最后,再將圖像進行二值化、灰度等后續處理,送入到OCR字符識別系統進行字符識別.
2.逐層增量深度學習視頻文本定位算法
2.1視頻圖像紋理特征的提取
字符的紋理具有周期性,并且在一定的頻率范圍內能量相對集中,所以可以利用二維Gabor濾波器對視頻圖像在不同尺度和方向上進行濾波,Gabor濾波器理論最早由Daugman提出,能夠很好地描述對應于空間頻率(尺度)、空間位置及方向選擇性的局部結構信息。
鑒于中文字符主要由橫、撇、豎、捺4種基本筆畫組成,所以Gabor濾波器要求能夠在這4個方向上反映中文字符的筆畫特征,并且要求能夠保證對這4個方向紋理區域的頻率分量均有很好的響應。Wang等研究了Gabor濾波器中心頻率與漢字的筆畫的關系,發現Gabor濾波器的中心頻率與周期入成倒數關系,且周期入是筆畫寬度η的一半,當筆畫的方向與Gabor濾波器的方向處于正交時,Ga-bor濾波器輸出最優,因此,可以通過筆畫的寬度來確定Gabor濾波器的中心頻率,本文中Gabor濾波器所選擇的參數為低頻中心頻率U1,/sub>=0.2,高頻中心頻率U,sub>h0.4,方向數和尺度數分別為T=4,M=4。
圖2(b)所示為圖2(a)原視頻圖像在橫、撇、豎、捺4個方向進行Gabor濾波后的結果.由圖2(b)可知,Gabor濾器能夠將文字紋理和背景紋理分離,并使文字在橫、撇、豎、捺4個方向的紋理信息得到保持,同時背景區域的紋理被有效的抑制。
2.2深度學習算法基本原理
深度學習是機器學習研究領域中的一個新問題,其目的在于建立、模擬人腦進行分析學習的神經網絡,深度學習算法是由深信度網絡(depth be-lief network,DBN)上的一系列受限玻爾茲曼機(re-stricted bohzmann machine,RBM)的概率模型組成.深度學習算法一般描述過程如下:假設有一個系統s,它有n層,S1,S2....Sn設輸入為I,輸出為o,學習的一般過程表示為:I=S1=S2,…Sn=O,如果輸出O等于輸入I即輸入I經過這個系統變化之后沒有任何的信息損失或者損失很小,可以看作基本上保持不變,這意味著輸入,經過每一層Si,都幾乎沒有信息的損失,即任何一層SI,都是原有信息(即輸入i)的另外一種表示,深度學習算法的核心思路有:①無監督學習用于每一層網絡的預訓練;②每次用無監督學習只訓練其中一層,將其訓練結果作為其高一層的輸入;③用自頂而下的監督算法去調整所有層。
2.3深度學習網絡(DBN)的構建
本文采用的深度置信網絡的深度學習算法,是通過一系列受限波爾茲曼機(RBM)的概率模型組成.Hinton和sejnowski等設計了一種能夠用在機器學習中的隨機循環網絡一受限波爾茲曼機,它是一種如圖3所示的兩層無向圖模型,包含可視層v和隱藏層h,同時限制同一層節點之間的連接,而不同的單元層之間有連接。
2.4網絡訓練與權值調整
DBN網絡需要進行訓練以獲得最佳權值,通常DBN網絡訓練包括自底向上非監督學習和自頂向下的監督學習兩個部分,其過程為先對紋理特征圖像采用RBM進行逐層增量學習,應用最大似然估計法不斷地調整網絡中權值,使RBM達到能量平衡,再用監督數據,對整個DBN網絡進行微調,
在非監督學習過程中,DBN網絡中每一個狀態值都對應一層的結點,計算的輸入輸出數據都是對應結點狀態值為“1”的概率值,而Hn層的輸入向量是每個文字區域的紋理樣本,通過交替的吉布斯采樣后,作為DBN網絡的輸入.設深度學習網絡結構包含n個隱藏層,每層的節點數分別是L1,L1,…,LN,紋理特征圖像送入到DBN網絡中的輸入層Ho層,不斷的調整Hn和H1,之間權值Wo,根據式(8)、(9)將調整得到的權值Wn與初始數據根據式(7)計算出一組新的概率送入H1層,作為H1層的輸入數據.重復上述計算過程得到WS1,WS1,…,Wn-1最終得到DBN網絡的初始權值Wi={Wo,w1,W2,…,Wn-1},DBN網絡包含n+2層,即H0,H1,H2,…,Hn層和樣本標簽數據層,其中HSn作為輸入層,其節點數為64,標簽樣本層為輸出層,中間n層的節點數分別是L1,L2,LSn,…采用無標注的訓練樣本構建DBN網絡,以HSo和H1之間的訓練為例,HSn和Hn,層構成了一個RBM,HN與可見層移的節點數相同,H1,與隱藏層h的節點數相同,利用交替的吉布斯抽樣來調整權值WSn,直到RBM收斂。
在非監督學習過程中,保存RBM調整得到的權值,并作為自頂向下的監督學習的初始權值,與監督學習過程一樣,根據樣本的標注,采用梯度下降法再次微調權值,這里,RBM網絡和DBN網絡采用同樣的網絡結構,都具有相同的輸入層和隱藏層,包括每層的節點數目也都相同,只是DBN網絡最后還有一個輸出層.DBN網絡訓練過程如圖4所示,
3.形態學視頻圖像去噪處理
通過深度置信網絡法對文本區域準確定位后,再根據字符的特征,采用形態學處理方法實現對空洞區域和孤立點進行填充、去噪、腐蝕以及膨脹等操作,最后再將獲得的標記二值圖像映射到原圖像,實現清晰背景的文本圖像。
針對圖像中存在的孤立點噪聲問題,通過鄰域背景區域形態學比較,修改標記二值圖像中孤立點背景區域值,實現孤立點去噪處理,如在標記二值圖像過程中,由于字符之間存在間隔和中文標點符號,經過DBN網絡處理后,該區域易被判定為背景區域,此時需要根據形態學法進行背景填充,即將背景區域值“0”修改為文字區域值“1”,為消除視頻圖像中次要文本區域的定位,以達到對視頻中主要文字信息的提取與識別,本文采用了基于形態學的圖像腐蝕與膨脹方法。
選用原點位于中心的5×5對稱結構元素作腐蝕和膨脹運算,由于腐蝕運算,在去除噪聲點的同時,會對圖像中文本區域的形狀有影響,故在進行腐蝕運算,去除部分噪聲點后,再進行膨脹運算以消除腐蝕運算之后對文本區域的影響。
經過DBN網絡、形態學去噪處理以及圖像映射后的效果如圖5所示,由圖5所示可見視頻圖像在經過訓練的DBN網絡處理后,可以有效定位出字符、文本區域信息,如圖5(b)所示;而經過形態學處理后圖像中的噪點和不連續點被有效去除,獲得清晰的文本區域圖像,如圖5(c)所示。
4.OCR字符識別及結果分析
視頻圖像文本區域定位都是從最底層特征映射出相應的頂層特征,依次層層映射,直到得到最頂層的結果。
通過對DBN網絡及經形態學處理后文本區域,進行二值化處理,去除與邊界相連的區域,將文本域背景黑白反轉,再送到OCR軟件進行識別。圖6所示為圖5中視頻幀圖像中的一段文本區域的二值反轉圖像,圖7為此二值反轉圖像經OCR識別后的結果。
將本文提出的逐層增量深度學習算法與神經網絡、經典Kim方法以及SVM方法對文本區域的定位作對比.采用式(12)中的查全率(RR)、查準率(PR)以及系數F來綜合評價這幾種方法的使用效果。
其中:c為圖像中正確檢測到的文本區域個數;m為圖像中檢測到的文本區域總數;n為圖像中實際存在的文本區域總數;F系數用來對各個算法性能進行綜合排名,是將查全率和查準率這兩個性能的指標線性合并而成。
4.1不同網絡結構的比較
為研究不同DBN網絡結構對算法性能的影響,故測試了不同DBN網絡層數的性能,實驗結果如表1所示,測試數據表明,隨著網絡層數的增加,DBN網絡的正確率逐步提高,網絡的逼近能力逐步增強,但是,隨著網絡層數的增加,網絡的復雜度也會不斷的增加,網絡的泛化力會逐步降低,所以并不是網絡層數越多越好,實驗中,認為4-DBN網絡能夠滿足文本區域的需求,因此后續實驗選擇4-DBN網絡為基準。
4.2與其他方法的比較
通過選用100幅不同背景的視頻幀圖像、字體大小、字體顏色、單行或者多行等情況下,采用如上4種不同方法對文本區域進行定位和對比,測試結果如表2所示。
從表2的試驗結果對比可以看出,DBN網絡文字區域定位的效果要明顯優于其它3種方法,其查全率和查準率均高于Kim和SVM法,并且其F系數也是最高的.針對表1中DBN網絡正確定位的文本區域總數378個,總字符數為5059個,進行文本識別實驗,經二值化和形態學去噪處理后再進行OCR識別,表2測試結果表明,DBN網絡在文本定位方面與其他3種算法有著明顯的優勢.通過正確定位出文本區域,使對視頻中的文本字符的正確識別率也明顯提高,保障了后續文本識別的正確率.
5.結論
本文將深度學習算法應用在了文字區域的定位與識別中,根據文字區域的紋理特征,利用Gabor濾波器提取這些特征,通過逐層增量深度學習調整DBN網絡進行文本區域定位,并對定位后的結果采用形態學等后續處理與OCR識別,實驗結果表明,逐層增量深度學習算法具有較高的定位準確性,有利于視頻文本的正確識別。