基于CEMA的視頻文字提取與背景修復

2015-04-29 02:09:50季麗琴

智能計算機與應用 2015年3期

季麗琴

摘要：本文在綜合分析文字提取與圖像修復算法的基礎上，提出了一種新的基于CEMA的視頻文字提取與背景修復算法。即應用垂直、水平、對角三個方向的彩色邊緣檢測算子（Color Edge）檢測出相應的文字邊緣信息，再運用形態學（Morphology）對每個方向的邊緣圖像進行處理，并運用與融合（And）提取出文字區域，最后運用紋理修復算法對文字遮擋的背景進行修復。實驗證明，本文的算法具備較好的文字提取及修復效果，對圖像中人工添加的傾斜文字有一定的魯棒性。

關鍵詞：文字提取；邊緣檢測；形態學；圖像修復

中圖分類號 TP391.1 文獻標識碼 A

Text Extraction and Background Restoration in Video Images based on CEMA

JI Liqin

（Electrical engineering college in SuZhou Chien-Shiung Institute of technology， Taicang，215411， Jiangsu，China ）

Abstract： On the basis of comprehensive analysis of text extraction and image inpainting algorithm， this paper proposes a new method based on CEMA ，which is used for automatic extracting text regions and background restoration in video images. First， using vertical， horizontal and diagonal three directions of edge detection operator to detect corresponding text edge information in three directions， then， using morphology for each direction of edge images， also using “and” mergeing for text regions extraction. Finally， using texture inpainting algorithm for restoring the background sheltering by texts.Experiments show that the proposed method achieves good effect in text extraction and restoring， and it is robust to man-made tilt texts in images.

Keywords： Text Extraction； Edge Detection； Morphology； Image Inpainting

0 引言

在互聯網與多媒體技術飛速發展的背景下，大量的數字視頻出現在電視廣播和互聯網上。這些視頻中的多數均存在嵌入性的、含有豐富語義信息的文字，例如：電視畫面中的字幕、滾動的文字新聞、運動員號碼、時間等信息[1-3]。如果能自動提取出這些文字，將對視頻的索引發揮關鍵作用，即能幫助用戶快速、準確地從海量的視頻中找到其感興趣的內容[4]。在提取出文字信息之后，繼續對文字區域所在的背景進行修復，并添加上不同語種的文字，這對于不同語種國家之間的文化交流也將起到積極的推進作用。

文字提取的方法大致可以分為基于邊緣、基于紋理和基于連通區域三類方法。一類是由Keechul Jung[5]提出的定位方法，即綜合運用文字紋理和連通組元分析的方法來定位文字，但整個算法復雜，訓練樣本大。Kim[6]等人提出用支持向量機的紋理分類器來檢測視頻中的文字，該方法的檢測結果雖然較好，但是計算量大。Adrian[7]等人提出基于顏色聚類的方法進行文字定位，但主要針對于手機上的視頻圖像。圖像修復方面，文獻[8]提出一種基于改進的規范化卷積的圖像修復算法，但主要針對大量數據連續缺失的圖像，計算量也較大。另有文獻[9]則提出基于PDE 的圖像修復算法，該算法基于待修復區域的邊緣信息，并利用紋理塊匹配的方式對背景進行填充。

本文在綜合分析文字提取與圖像修復算法的基礎上，提出一種基于CEMA的視頻文字提取與背景修復算法。實驗結果表明，該算法能較好地從復雜背景中提取出不同方向（包括橫向、對角等）的文字信息，并能夠修復文字的背景區域。

1 算法設計與實現步驟

1.1 算法設計方案

視頻圖像內的文字信息一般可分為兩大類。一類是人工編輯加入到視頻中的字幕文字，例如：新聞中的標題，電影和電視劇人物對話的字幕等；另一類是視頻內的場景文字，即在視頻拍攝時場景中所含帶的文字信息，比如會場中橫幅上的文字、參會人員的名字等。這些文字均呈現出一個特點，即文字大小適中，且與背景有著明顯的對比，且含有較為豐富的邊緣特征。基于上述特點，本文提出一種基于CEMA的文字提取與背景修復算法，算法流程如圖1所示。

圖1 基于CEMA的文字提取與背景修復流程

Fig.1 The flowchart of texts extraction and background restoration based on CEMA

1.2 三個方向的彩色邊緣（Color Edge）提取

圖像邊緣信息的提取通常需要邊緣檢測來完成，目前，基本的、常用的檢測算子有三種：一是Roberts邊緣檢測算子，特點是算子采用對角線方向相鄰兩像素之差近似梯度幅值檢測邊緣。檢測水平和垂直邊緣的效果要好于斜向邊緣，定位精度高，對噪聲敏感。二是Sobel邊緣檢測算子，根據像素點上下、左右鄰點灰度加權差，在邊緣處達到極值這一現象檢測邊緣。對噪聲具有平滑作用，提供較為精確的邊緣方向信息，邊緣定位精度也不高。但當對精度要求也并不為高時，是一種較為常用的邊緣檢測方法。三是拉普拉斯算子，也稱為二階微分算子，是利用邊緣點處二階導函數出現零交叉原理檢測邊緣。不具方向性，對灰度突變敏感，定位精度高，同時對噪聲也較為敏感，且不能獲得邊緣方向等信息。

針對目前視頻圖像一般為彩色圖像及彩色圖像邊緣信息較豐富這一情況，本文研究刻畫了圖像色彩的綜合信息，并在上述三個算子的基礎上提出了一個新的檢測垂直、水平、對角三個方向的彩色邊緣算子（如圖2所示）。

0 0 0

-4 4 0

0 0 0

0 -4 0

0 4 0

0 0 0

-4 0 0

0 4 0

0 0 0

（a）垂直方向（b）水平方向（c）對角方向

（a）Vertical （b）Horizontal （c）Diagonal

圖2 三個方向的彩色邊緣檢測算子

Fig.2 Three color edge detection operators of different direction

1 1 1

圖3 結構元素B

Fig.3 Structure element B

以像素點為例，利用如下公式獲取垂直方向的邊緣圖像。具體公式為：

（1）

（2）

（3）

其中，為圖2（a）中的垂直檢測算子，、和分別為檢測算子在視頻圖像中所掃描到的像素點處及其八鄰域內的紅、綠、藍分量。其他方向的邊緣檢測方法同上。

實驗證明，這種模式能較精確地提取出三個方向的邊緣圖像。

1.3 形態學處理[10-12]（Morphology）

利用開啟運算，可刪除目標區域以外的噪聲；利用閉合運算可填補目標區域內的空洞；膨脹與腐蝕則具備擴大目標和縮小目標的作用。本文綜合利用以上4個運算，設計了一個針對三個方向邊緣圖像的形態學處理方案，每個方向的邊緣圖像都經過下面的處理，具體步驟如下：

STEP1：做一次閉合運算。利用（A代表圖像，B代表結構元素，B的結構如圖3所示）填補邊緣圖像中的空洞。

STEP2：做一次開啟運算。利用刪除文字區域外的噪聲。此處的B同STEP1中的B。

STEP3：六次水平方向的膨脹。視頻圖像內文字普遍呈水平方向分布，為了有效地形成文字的連通域，本文采用水平方向的結構元素。實驗證明此結構大小適中，且能有效地形成文字連通域。

STEP4：三次水平方向的腐蝕。同樣采用結構元素對膨脹后的文字連通域進行腐蝕，以此達到文字區域與原圖中大小接近的目的。

1.4 與融合及文字區域的提取（And）

為了較精準地定位出文字區域，本文提出采用“與”融合的方法將垂直、水平、對角三個方向的文字連通域圖進行相與運算。實驗證明，采用與融合方法能去除很大部分的噪聲區域，從而較準確地定位出文字區域。但同時，也發現了仍存在小部分的偽文字區域，因此，本文運用遞歸統計法進一步確定出最終的文字區域，實驗證明，此方法簡單且有效。

（a）原圖

（a） original image

（b）文獻[5]提取的文字區域

（b） extracted text regions of literature 5

（c）本文方法提取的文字區域

（c） extracted text regions of this thesis

圖4 文字區域提取的比較

Fig.4 Comparation of text regions extration

圖4給出了文字區域提取的效果及比較。可以看出，本文的文字提取算法較文獻[5]的方法要更為優良、精準。

1.5 形成待修復區域

為了將文字所遮擋的背景區域進行修復，在提取出文字區域后，本文采用以下算法形成待修復區域。算法實現步驟為：

STEP1：采用八叉樹顏色量化算法對文字區域進行二值化處理；

STEP2：利用結構元素B（如圖3所示）對二值化的文字進行全方向膨脹的形態處理，以形成較大的待修復區域，從而避免文字部分的漏檢。

STEP3：將膨脹后的待修復區域設置成綠色（[R=0，G=255，B=0]，其中R為紅色分量、G為綠色分量、B為藍色分量），并映射至原視頻圖像中，最終形成確定的待修復對象。

1.6 文字背景修復

在圖像修復方面，Criminisi [10]等人提出基于紋理的修復算法，該算法的修復示意圖如圖5所示。其主要思想為：首先從待修復區域的邊界上選取一個像素點p，并以該點為中心，選取最優先修復的紋理塊，而后在待修復區域周圍尋找到之最近似的紋理匹配塊來替代。

圖5 紋理修復示意圖

Fig.5 Sketch Map of texture restoration

在選取的時候，該算法利用以下公式求出以像素點P為中心的最優先修復的紋理塊。具體公式為：

（4）

（5）

其中，為待修復模板的置信度，為的數據信息項。

在尋找最近似紋理匹配塊的時候，該算法利用如下公式計算出與最近似的紋理匹配塊，計算公式為：

（6）

并且，

（7）

其中，為視頻圖像中的非修復區域，、、、、、分別為待修復紋理塊區域和匹配塊區域的紅、綠、藍三個分量。

實驗證明，該算法較好地修復了文字背景區域。

2 實驗結果

本文的實驗基于windows MFC環境下設計完成。圖6為一段視頻圖像中傾斜文字的提取與背景修復的過程，實驗證明，本算法定位的文字準確，且對傾斜文字的提取有一定的魯棒性。

（a）原圖（b）文字區域的提取

（a） Original image （b） Extraction of Text regions

（c）形成的待修復區域（d）修復后的圖像

（c） Regions to be repaired （d） Image after repair

圖6 傾斜排列的文字提取與修復

Fig.6 Tilt text extraction and restoration

3 結束語

本文提出的基于CEMA的文字提取與背景修復算法借鑒了“與”融合的思想，應用垂直、水平、對角三個方向的檢測算子，較精確地提取出了文字區域，再利用紋理修復算法對文字的背景進行修復，取得了較為滿意的修復效果。但紋理修復算法計算量較大，下一步將重點研究如何優化改算法，以期達到更為理想的效果。同時，也可以在算法的實現環境方面實現一個突破：基于visual C++6.0 MFC的開發環境下，結合開源計算機視覺庫opencv進行相關代碼的優化。

參考文獻

[1] 王琦，陳臨強，梁旭.視頻中的字幕提取[J]，計算機工程與應用，2012，48（5）：177-216.

[2] 曹喜信，劉京，楊旭東，等. 一種新的視頻字幕提取算法[J]. 北京大學學報（自然科學版），2013，49（2）：197-202.

[3] 吳進，視頻幀中字幕信息提取的區域檢測算法研究[J]，電視技術，2011，35（11）：118-120.

[4] 章毓晉，基于內容的視覺信息檢索[M]. 北京：科學出版社，2003.

[5] JUNG K， HAN J H. Hybrid approach to efficient text extraction in complex color images[J].Pattern Recognition Letters， 2004， 25：679-699.

[6] KIM K I， JUNG K，et al. Support vector machines for texture classification[J]. IEEE Trans Image Processing， 2002，124（11）：1542-1550.

[7] CANEDO-RODRIGUEZ A， KIM J H， KIM S H. Efficient Text extraction algorithm using color clustering for Language Translation in Mobile Phone[J]. Signal and Information Processing， 2012， 3： 228-237.

[8] 秦緒佳，桑賢生，程時偉，等. 改進的規范化卷積圖像修復算法[J].計算機輔助設計與圖形學學報， 2011，23（2）：371-376.

[9] CRIMINISI A， PEREZ P， TOYAMA K. Region filling and object removal by exemplar-based image inpainting[J]. IEEE Transactions on Image Processing， 2004，13（9）： 1200-1212.

[10]PRATHEEBA T， Dr. KAVITHA V， RAJESWARI S R. Morphology based text detection and extraction from complex video scene[J]. Engineering and Technology， 2010， 2（3）： 200-206.

[11] 劉海波，沈晶，郭聳. Visual C++數字圖像技術詳解[M]. 北京：機械工業出版社，2010.

[12] 俞朝暉，龐也馳等. Visual C++數字圖像處理與工程應用實踐[M].北京：中國鐵道出版社，2012.

智能計算機與應用2015年3期

智能計算機與應用的其它文章: 基于DBSCAN算法的城市交通擁堵區域發現; 基于AS3.0的位圖置換圖圖像濾鏡應用研究; 基于免疫原理詞表示的詞相似度計算; 分布式數據不一致性檢測的實現與優化; 基于知網的中文詞語相似度計算; 基于Android手機傳感器數據識別運動狀態