趙潔 羅丹 樊李行 曹夢琪 耿耀君
摘要:農業科教視頻中的文字內容包含了豐富的語義信息,視頻文字自動提取對視頻分析、索引和檢索有著極其重要的作用。在農業科教視頻復雜的背景下,現有提取方法難以高效準確地定位并提取文字。本文提出一種基于復雜背景下穩健的農業科教視頻文字提取方法,該算法主要通過視頻解碼、MSER文本定位、投影分割及Tesseract文字識別實現視頻文字提取。實驗結果表明:該方法可以快速提取視頻文本信息,提取精度較高,具有較好的穩健性。
關鍵詞:文字提取;MSER;投影分割;Tesseract
中圖分類號:TP391.41 文獻標識碼:A 文章編號:1007-9416(2018)06-0129-02
1 引言
隨著互聯網和多媒體技術的發展,越來越多的農業科教視頻出現在互聯網上,但農戶如何從海量視頻中快速找到感興趣內容是一個非常值得研究的問題。視頻中的文字與視頻的語義有著密切的關系,提取視頻中的文字對視頻內容的快速查找有著重要的意義[1]。
近年來,視頻中文字的提取受到了越來越多關注,很多國內外學者已經在這方面做了研究。主流方法均包括五個步驟,分別是:文字檢測、文字定位、文字增強、文字分割和文字識別。A.Jain等提出了一種基于文字紋理的頁面分割算法[2],可以根據色調等信息很好的分割出包含文字塊的頁面;Smith等人提出可以檢測到某一范圍內的文字的算法,具有一定的尺度約束[3]。Li等人通過使用前向神經網絡來定位視頻中的文字,并使用塊匹配方法跟蹤文字,達到了很好的效果[4]。國內學者在視頻文字提取方面也有了很大的突破,宋硯等人提出了一種基于聚類的視頻字幕提取方法,該方法對于網絡視頻敏感詞語的檢測具有很好的效果,中文識別結果可以達到83.11%[5]。
本文提出了一個農業科教視頻中的文字信息提取算法,實驗證明該算法的文本信息提取精度較高,具有一定的魯棒性。本論文的組成結構如下:第二部分對所采用的農業科教視頻及方法進行了詳細介紹;第三部分對實驗結果進行了圖表展示以及詳細的分析;最后對本文工作進行總結和展望。
2 文字提取方法
農業科教視頻中的文字包含大量的語義信息,如圖1所示。從圖中可知農業科教視頻中的文字大多嵌在復雜的背景中,增加了農業科教視頻中文字提取的難度。
針對農業科教視頻的特點,本文提出了一種農業科技視頻中文字的提取算法,具體步驟包括:視頻解碼、文本區域定位、投影分割以及Tesseract文字識別。
2.1 文本區域定位
文字提取的前提是文本區域定位,本論文采用最大穩定極值區域方法(MSER)[6]定位文本區域,主要步驟為:首先對圖像進行高斯平滑去除噪聲,分別得到灰度圖和反值灰度圖;然后分別使用MSER+和MSER-區域檢測算法處理兩個灰度圖得到兩個二值化圖像,將二值化圖像進行與操作減小檢測的范圍,再進行閉運算使各個文字連接在一起;對最終得到的區域進行閾值篩選,去除小于一定面積的區域,篩選后留下來的區域即為定位到的文本區域。
2.2 投影分割
在所提取的文本區域,使用投影法對二值化圖片像素的分布直方圖進行分析,找出相鄰字符的分界點進行分割。具體步驟為:(1)使用數組來儲存每一列像素中黑白色像素的個數;(2)遍歷二值化后的圖片,分別將白色的和黑色的(即數字區域)像素記錄在數組中;(3)根據數組里的灰度值畫出投影圖,分割圖像。
2.3 文本識別
在文本定位和投影分割的基礎上,使用Tesseract實現文本識別。Tesseract[7]是一個開源的OCR引擎,其識別文本的主要流程為:(1)分析連通區域,檢測出字符區域的區域輪廓和子輪廓,集成為塊區域;(2)尋找塊區域,檢測出字符輪廓,得到文本行,再得到單字;(3)采用自適應分類器,分析單字,進行文字識別。
3 實驗結果與分析
目前針對視頻中的文字檢測算法有很多種比較詳細的評價準則,比如檢測難度、文字邊框的檢測質量、檢測重要性,以及查全率和查準率等各種指標。本論文采用所提取文字的查全率和查準率來評價視頻文字提取算法的性能,其公式定義如下:
實驗采用寶雞電視臺《農事直通車》的5個農業科教視頻進行測試,字查準率和字查全率如表1所示。
實驗結果表明本論文提出的文字信息提取算法字查準率可達89.90%,字查全率可達85.19%。其中從表1可以看出,使用本論文中的方法,中文字符的查準率和查全率可分別達到90.08%和85.69%,英文字符的查準率和查全率可分別達到88.89%和82.76%,比宋硯等人提出的基于快速8-連通域標記的視頻字幕提取算法的中文識別率83.11%提高了6.97%。
4 結論與展望
本文提出了一個農業科教視頻中文字信息的提取算法,該算法的主要流程是視頻解碼、文本定位、投影分割及Tesseract文字識別,其中文本定位采用提出的MSER算法。實驗結果證明該算法文字信息提取的查準率和查全率較高,具有一定的實用性。
雖然使用OCR引擎的Tesseract框架可以進行視頻字幕的提取,視頻字幕檢索算法也取得了很多重大的突破,但是在檢索準確率提升的同時,視頻中包含的大量的圖像、文字信息成了制約提取速率的重大瓶頸。如何利用高性能協處理器,使視頻文字信息提取算法可以進行并行計算是接下來本實驗可以繼續優化的地方,以期可以高效率、高準確率的進行文字信息的提取。
參考文獻
[1]田破荒,彭天強,李弼程.基于文字穿越線和筆畫連通性的視頻文字提取方法[J].電子學報,2009,37(1):72-78.
[2]Jain A K, Zhong Y. Page segmentation using texture analysis[J]. Pattern Recognition,1996,29(5):743-770.
[3]Smith M. Video Skimming for Quick Browsing based on Audio and Image Characterization[J]. Tech.rep.school of Computer Science Carnegie Mellon University,1995.
[4]Li H, Doermann D, Kia O. Automatic text detection and tracking in digital video[J]. IEEE Transactions on Image Processing, 2000, 9(1):147-56.
[5]宋硯,劉安安,張勇東,等.基于聚類的視頻字幕提取方法[J].通信學報,2009,30(2):136-140.
[6]Endicott J, Spitzer R L, Fleiss J L. Mental status examination record (MSER): reliability and validity[J]. Comprehensive Psychiatry, 1975, 16(3):285-301.
[7]Smith R, Antonova D, Lee D S. Adapting the Tesseract open source OCR engine for multilingual OCR[C]// International Workshop on Multilingual Ocr. ACM, 2009:1.
Abstract:The text content in agricultural science education video contains rich semantic information.,and the automatic extraction of video text plays an extremely important role in video analysis, indexing and retrieval. Under the complex background of agricultural science and education videos, existing extraction methods are difficult to locate and extract texts efficiently and accurately. This paper proposes a robust agricultural science and education video text extraction method based on a complex background. It realize text extraction by decoding video, localization of text by MSER, projecting and segmenting the text area and text recognition by using Tesseract. Experiments show that this method can quickly locate the video text area, with high accuracy and good robustness.
Key words:text extraction; MSER; projection segmentation; tesseract