王康
摘 要:隨著現代科學技術的快速發展,視頻圖像技術的應用越來越廣泛,與此同時,人們對從視頻圖像中檢測識別文字的要求也越來越高。文字檢測是文字信息提取系統的前端,是文字信息提取中最關鍵的一步。近年來,視頻圖像文字信息檢測領域有了新的重要的發展,本文分析了近年來文字檢測技術的主要進展,并對視頻圖像中的文字檢測技術的難點進行總結。
關鍵詞:視頻圖像文字 文字檢測 邊緣檢測 區域分析 基于紋理方法 機器學習
圖像的內容可以分為感知內容和語義內容。色彩、灰度、形狀、紋理及其隨時間的變化是感知內容,而物體、事件以及關系是語義內容。語義內容根據文字、人臉、車牌和人的行為等進行分類。在這些分類基準中,文字是本文尤其感興趣的部分,因為:(1)文字相對其他語義內容更容易被提取;(2)文字在描述圖像內容時十分有效;(3)文字能夠支持關鍵字搜索、自動視頻日志和圖像索引。通過提取視頻圖像中的文字內容信息,可對視頻圖像內容進行描述。提取視頻圖像中的文字,首要的是進行視頻圖像中的文字檢測。因此,本文只關注文字檢測的發展進程。
一、視頻文字檢測的定義
視頻本質上是序列圖像流,故下文在敘述上對視頻和圖像、視頻中的文字和圖像中的文字,不作嚴格區分。文字信息提取系統是指從視頻圖像中獲取文字信息的系統,主要包括文字檢測和識別。文字檢測性能的好壞直接決定了文字識別的結果,所以文字檢測是文字信息提取系統中最關鍵的一步。
文字檢測是指檢測視頻圖像是否含有文字,若有,則將文字區域定位并分割,它的結果可以直接用于文字識別。有研究中將文字檢測、定位、提取嚴格區分,但大部分研究是不作區分的,因此在本文中默認這些概念可相互交換使用。視頻文字主要可分為兩種。一種是場景文字,即在視頻拍攝時自然包含在場景中的文字,如車牌、商標、路標和運動服編號等;另一種是通過人為加工嵌入視頻中的字幕文字,如新聞標題、電視劇/電影字幕和不法分子在某些視頻圖像中添加的非法宣傳、標語等。早期主要研究字幕文字,近年來場景文字的檢測也取得了一定的發展。
二、文字檢測的性能指標
文字檢測中主要的性能指標有查全率、查準率和f指數等。這些指標來源于信息檢索中的評價參數,查全率指所有正樣本中正確檢測出來的正樣本所占比例;查準率指所有檢測出來的樣本(可能包含正、負樣本)中被正確檢測出來的正樣本所占比例。上述正樣本表示文字區域,負樣本表示虛警區域。f指數是查全率和查準率的加權調和平均。
三、文字檢測的方法
文字檢測方法分為兩類:基于區域和基于紋理的方法。基于區域方法采用自底向上的結構,將圖像中的細小區域合并成可能的文字區域。一般采用的特征有連通區域、顏色和邊緣。基于紋理方法采用自頂向下的結構,利用文字的紋理特征將文字從背景分離出來。主要方法有小波變換、濾波器、傅里葉變換和基于機器學習的方法。
四、文字檢測技術的難點與趨勢
至今,還沒有找到一種能夠完全代表文字的特征,所以大部分文獻采用粗細法結構,使用兩種或多種特征。一般可將特征分為兩種:第一特征和第二特征。第一步粗檢測中,根據第一特征去除掉明顯的非文字場景;第二步細檢測中,提取第二特征,使用機器學習方法或啟發式方法進行模式識別。雖然圖像文字檢測取得了很大發展,但是至今依然沒有一種統一的方法能有效處理各種背景下的文字。這是因為,圖像背景通常變化多端,各種方法幾乎只在某些特定情況下才顯得有效。相當一部分視頻圖像文字檢測的方法是啟發式的,研究人員一般沒有給出數學模型或者物理意義,只提出在某些情況下,該方法比較有效,這不利于進一步研究發展。文字檢測方法繁多,尤其是近年來,基于區域、基于紋理的方法的分類方式已經顯得乏力,圖像文字檢測方法的分類越來越模糊,使用綜合性方法呈增多趨勢。如何更好地歸納和總結這些方法,給研究人員們提出了新的挑戰。另外,從本文中可以看到,不同方法的性能指標的結果也大相徑庭,更優的性能指標結果并不能說明方法就一定好,因為目前沒有一個標準的視頻圖像數據庫用來測試,這在很大程度上影響了不同方法的性能評價。所以,未來視頻圖像文字檢測也對標準數據庫的建立提出了強烈需求。
五、基于區域的文字檢測方法
基于區域的方法利用顏色同質性、強邊緣性將圖像像素組成文字,根據顏色、大小和幾何規則組成文字行。主要用到的特征有:顏色、邊緣、連通分量、角點等。
有研究中采用粗細法結構,第一步用塔式結構處理不同大小的文字,K-均值法計算最大梯度差圖,得到文字區域的粗結果。第二步根據幾何特點和紋理特征修正結果后,對圖像進行離散小波變換DWT變換,使用主成分分析法和SVM方法將文字和非文字區域分類。該方法能夠檢測不同大小的文字,方法穩定,但是算法復雜度較高。
5.1基于邊緣的文字檢測
基于邊緣的文字檢測把文字和背景的強對比性作為最主要的特征。通常利用邊緣提取算子對圖像進行邊緣檢測,再用平滑算子或形態學算子將其合并。
(1)基于連通分量
有研究通過從極值區域集合中高效地進行順序選擇先計算極值區域的文字概率分布,獲得局部最大概率極值區域;再使用高效的反饋循環窮舉搜索算法將極值區域組成字母、單詞。該文實現了一種端到端的實時文字檢測和識別方法。
(2)角點檢測方法
角點檢測是一種新型的方法。在文字區域,角點響應強;在非文字區域,響應較弱。基于角點對文字進行檢測,生成角點響應圖,利用基于塊的閾值法得到候選文字區域,進行連通區域分析后用投影法得到文字行。有相關研究中對圖像進行角點檢測,經形態學膨脹,得到包含角點的區域。提取區域的五個特征:面積、飽和度、基于紋理的文字檢測方法
5.2 變換域中的紋理檢測方法
離散余弦變換DCT系數與灰度的周期性相對應。有研究中提出了基于DCT系數的文字檢測、定位和追蹤的方法。將視頻中1-幀分為8*8的塊,從各塊中取紋理特征強的DCT系數,根據它們可以得到水平、豎直和對角線的紋理信息,最終用投影法得到水平和垂直方向的文字框。
視頻圖像一般存儲在變換域中,因此基于變換域的文字檢測方法不需要轉換輸入格式就能對視頻圖像直接處理,有利于工程實踐,但是隨著滑動窗口的增大,計算量迅速增大。
六、結束語
隨著計算機技術的發展和互聯網的興起,人們對視頻數據庫檢索的需求越來越迫切,以往的視頻數據庫主要依靠人工添加標簽,這種作法不但效率低,而且受人的主觀因素很大。建立穩定、快速和低成本的視頻文字提取系統勢在必行,本文主要關注近五年來的圖像文字檢測方法的進展,將方法概括為基于區域和基于紋理的方法,以及綜合性方法。
參考文獻
[1]崔愛斌.淺談數字視頻圖像檢測技術的應用[J].科技情報開發與經濟. 2010(35).
[2]曹毅,王林澤.圖像檢測技術在液態試劑濃度檢測中的研究與應用[J]. 杭州電子科技大學學報. 2009(02).
[3]焦圣喜,張利輝,江絳.圖像檢測技術在工件在線分選中的應用[J].機床與液壓. 2010(05).