圖像中的文本定位技術研究綜述

2007-01-01 00:00:00晉瑾平西建張濤陳明貴

計算機應用研究 2007年6期

摘要：介紹了圖像中文本定位技術的研究現狀，依據定位所利用的特征進行分類，分析了其中幾種典型算法，并對文本定位算法的性能評價標準進行了深入討論。

關鍵詞：文本定位；文本檢測；文本提取；圖像檢索

中圖分類號：TP391.4文獻標志碼：A

文章編號：1001-3695(2007)06-0008-04

0 引言

圖像中的文本包含豐富、明確的信息。如果這些文本能被自動地提取出來，則對圖像高層語義的自動理解、索引和檢索是非常有價值的。圖像中的文本提取可概括為兩個步驟：①文本定位。即找出圖像中文本所在的位置或剛好包圍文本的矩形區域。②文本識別則。對定位出的文本區域進行二值化、增強處理，再送入光學字符識別系統(OCR)中進行字符識別。文本定位是文本識別的前提，是文本提取的關鍵。

（1）圖像中的文本。

圖像中文字可以分為人工文本和場景文本［1］。人工文本(Artificialtext)是指通過圖像處理工具對圖像進行編輯，人工加在圖像上的文本。這種文本多出現在視頻幀中，一般與背景的對比度較強，字體很突出，排列也很有規律性，以水平方向為主。這類文本的內容意義性極強，對圖像、視頻的檢索有重要作用。

場景文本(Scenetext)是指拍攝場景中所包含的文字。它是場景的一部分，隨場景一同被拍攝到圖像中，如廣告牌、車牌等。場景文字的方向、大小沒有限制，顏色千變萬化，圖像的光照情況與場景所在的環境有很大關系；而且由于攝影機的投影變換關系，圖像中的文字有可能會發生移動、旋轉、縮放等變形，定位難度較大。

文本的特征主要包括：

①顏色特征。大部分情況下同一行字符顏色相似，但也有特殊的情況（如藝術字中顏色漸變的情況）。

②字符大小。圖像中的文字大小變化很大，有的可以占到一幅圖像的80%以上，而有的卻不到10個像素。提取字符的目的是為了識別這些文字，所以太小的字符可以忽略。

③字符邊緣。大部分的文字邊緣均很突出，這樣就可以采用邊緣檢測的方法提取文本。不同語言的文字邊緣突出的方向也不同，如拉丁文在垂直方向上邊緣較突出，而中文在水平和垂直方向上邊緣均比較突出。

④字符間距。同一文本行中文字的字符間距相同，間距與字符之間滿足一定比例，如大于字符高度的十分之一而小于兩倍字符高度。

⑤紋理特征。含文本區域周期出現的高強度和高頻率。

（2）文本定位的應用。

文本定位結合文本識別技術可以有效獲取圖像中的文本。這對于信息檢索、圖像注釋、數字圖書館等領域都有重要意義。

①圖像、視頻檢索。隨著多媒體技術和計算機網絡的飛速發展，越來越多的信息以數字圖像的形式傳播和存儲，圖像、視頻檢索成為計算機領域研究的熱點之一。傳統的基于關鍵詞的檢索技術已不能滿足人們的需求，基于內容的圖像檢索應運而生，而圖像中的文字是圖像高層語義內容的重要來源。

②網絡過濾。一些不良網絡信息的提供者將文本嵌入到圖像文件中，或直接以圖像文件的形式顯示文本以繞開網絡過濾系統。基于圖像內嵌文本的語義分析可以部分實現基于圖像內容的檢索和過濾。

③智能交通。文本定位可幫助自動提取交通中車輛牌照、路標等信息［2，3］。

④數字圖書館。隨著數字圖書館的興起，大量文檔文獻需要數字化，文本定位結合文本識別技術能自動提取這些文字信息。

1 文本定位的主要技術方法

1.1 基于區域的方法

基于區域的方法是利用同一行字符的顏色相似這一特性來進行定位的。這類方法通常是用顏色聚類或圖像分割的技術把圖像中的連通區域分割出來，再對連通區域進行大小、寬高比等啟發性知識的限制以及投影分析等來獲得文本區域。

Kim等人［4］利用RGB空間的顏色聚類來分割圖像，然后去除明顯的非文本區，如細長的水平線段、圖像邊框等；文本區域通過投影分析來提取；最后將這些文本區域基于知識規則進行合并。一些門限值需要根據經驗來決定，所以這個方法通用性不強。實驗采用了50幅視頻圖像。這些圖像中包含不同大小和風格的文字，準確率達87%。

Lienhart等人［5］把文本區域看做是顏色相似的連通區域，用分離和合并算法對圖像進行分割，并把分割得太大和太小的塊都去掉；在形態學膨脹后，再利用相鄰幀的運動估計增強文本提取效果；最后用文本的啟發性知識濾除非文本區。他們的實驗對象為2 247幀視頻圖像。實驗表明該算法能提取視頻幀中86%~100%的標題文本。

Jain和Yu［6］先把24 bits的真彩色圖像降低為6 bits的彩色圖像，再用顏色聚類的方法把原圖像分解成不同顏色的子圖像；檢查每幅子圖像中是否包含滿足特定啟發式搜索的文本；最后將每幅子圖像中檢測到的文本區域進行合并。

Soochang Pei等人［7］首先用一個SOFM神經網絡對輸入圖像進行顏色量化，然后分析三維彩色直方圖；當某一顏色處的梯度大于閾值時，則認為該顏色可能是文本顏色，并將該顏色所占區域賦值為1，其他為0，從而得到二值子圖像。再對各二值子圖像進行形態學處理、連通域分析，得到候選文本區。該算法的魯棒性較強。文中實驗采用的圖像具有不同分辨率和背景復雜度，其中的文字大小、風格也不相同，達到87.26%的準確率。 

基于區域的算法實現簡單，因此被廣泛應用于文本定位。但是當文本是多彩的，或圖像分辨率低噪聲高時，此類算法常將一個字符分割成幾塊。此外，在濾除非文本區域時用到的各種門限值（如高度、寬度、黑白像素比等）是依賴于經驗的，與實驗的數據庫有很大關系。

1.2 基于邊緣的方法

基于邊緣的方法是利用了圖像中的文本與背景之間有較高對比度這一特性來進行定位的。此類方法通常是先檢測出圖像的邊緣；然后用平滑濾波或形態學膨脹等方法將邊緣連接成塊；再利用文本的啟發性知識濾除非文本塊。

Smith和Kanade［7］先用一個3×3的水平差分濾波器來獲得垂直邊界，然后用平滑濾波器來使分離的文字部分相連，并排除多余碎片，再利用一些啟發式知識(如寬高比、填滿率等)來去除非文字區域。

Hasan和Karam［8］先將彩色圖像轉換成灰度圖像；然后提取灰度圖像的邊緣，并將邊緣圖像二值化，再對二值邊緣圖像作形態學處理；最后利用大小、寬高比、密度等啟發性知識濾除非文本區域。該方法對噪聲不敏感，并且能夠定位不同排列方向的文本，包括傾斜和彎曲的文本。但是有些顏色在RGB空間有明顯的差異，轉換到灰度空間后灰度值卻相似。這種情況下該算法處理起來很困難。

Datong Chen等人［9］先用Canny算子提取圖像邊緣，并用形態學膨脹的方法將邊緣連接成塊；再利用基線定位和啟發性知識限制獲得文本行；最后利用支持向量機進一步確認文本行。他們的實驗對象為18 000幅視頻幀及50幅JPEG圖片（包括雜志封面、地圖）。他們公開的實驗結果為98.7%的準確率及1.7%的誤檢率。

Lyu等人［10］提出了一種提取視頻中文字的方法。他們用多分辨分析的方法解決字符大小不同的問題，對多分辨分解后不同尺度的圖像進行相同的定位算法處理，即先采用一種改進的Sobel算子提取邊緣；再用一種局部自適應閾值的方法將邊緣圖像轉換為二值圖像；然后用投影分析的方法定位文本區域。

基于邊緣的定位方法速度較快，但是要求文字的筆畫邊緣突出，背景的邊緣較少，且不能與文字邊緣有太多連接交叉。當背景邊緣比較復雜時，這類算法處理起來較困難。

1.3 基于紋理的方法

基于紋理的方法利用圖像中的文本有明顯的紋理特征來區分背景。常用的紋理分析方法如Gabor濾波［1］、Gussian濾波［11，12］、小波［13，14］、空間方差［15］均可用來檢測文本的紋理特性。

Park等人［13］利用文本的空間差異定位車輛牌照，他們采用兩個時延神經網絡在HSI空間檢測紋理。兩個神經網絡一個用于檢測水平方向紋理，一個用于檢測垂直方向紋理。最后將兩個神經網絡的輸出結果加以合并，并結合投影分析得到牌照的矩形區域。

Wu等人［11，12］提出了一種多尺度紋理分割方法用于文本定位。他們用三種不同尺度的二階高斯濾波器對圖像濾波，并對濾波后的圖像作非線性變換；變換后的結果作為每個像素的特征用Kmeans聚類的方法進行紋理聚類、分割。由于該方法是基于不同尺度紋理檢測的方法，對圖像分辨率高低不敏感，但是處理速度較慢。

Mao等人［13］利用小波變換檢測圖像紋理，再通過紋理分析進行文本定位。他們先對一幅圖像進行Haar小波分解，并計算不同尺度圖像的局部能量差異，再將局部能量差異圖閾值化從而得到二值圖像（通常邊緣處的像素局部能量差異大，而邊緣內部的像素局部能量差異小）；然后在不同尺度的二值圖像中進行連通域分析，利用文本的幾何特性限制去除非文本區域；最后將不同尺度圖像中檢測到的文本區域進行合并。

基于紋理信息的文本定位方法通常對文字的大小和風格很敏感，很難手工設計出一個通用的紋理分類器適用于各種情況。因此，人們提出了基于學習的方法以自動分類紋理。

Huiping Li等人［14］利用基于學習的方法定位視頻中的文字。他們先用Haar小波分解得到文本和非文本的紋理特征；然后用16×16的窗口掃描整個圖像，采用三層BP神經網絡作為分類器識別分類文本區域和非文本區域。為了解決訓練樣本的不足，采用由Sung、Poggio提出的Bootstrap(自舉)方法進行樣本訓練。由于通過紋理檢測所得到的文本區域不夠準確，最后再對候選文本區進行水平和豎直的投影分析，以進一步確認文本區域。

Kim［16］將支持向量機(SVM)用于分析圖像中文本的紋理特性。該方法不需要專門提取紋理特征，而是直接將像素的灰度值作為支持向量機的輸入，經支持向量機處理后輸出分類結果（即文本或非文本）；然后再通過消除噪聲和合并文字區域就可得到定位結果。支持向量機對于文本定位有很好的魯棒性，并且可在有限的樣本中進行訓練。

基于紋理的方法通常具有較高的魯棒性，能夠檢測到字符與背景對比度較小、背景復雜的文本，但定位不夠準確。另外，紋理分析的計算量大、復雜度高，所以此類算法比較耗時。 

1.4 其他方法

許多圖像和視頻都是經編碼壓縮后以壓縮的格式存儲和傳輸的，因此直接在圖像的壓縮域上進行文本定位可提高定位的速度。Zhong等人［17］利用8×8窗口中的DCT系數來獲得紋理特性，如子圖像塊的方向性和周期性；然后判斷該窗口是否是文本區域，如果是標記為1，否則為0；最后對判為文本的子塊進行形態學處理和連通域分析，得到圖像中的文本區域。該算法處理速度快、計算復雜度低。但是由于該算法是以8×8窗口為單位來判別該塊是否是文本區的，不能夠精確定位；并且圖像、視頻的編碼方法也在不斷發展，所以這類算法的應用范圍不是很廣。

Tran等人［18］提出了一種利用Ridge定位文本的方法。他們先在兩種不同尺度上提取圖像的Ridge。大尺度的稱為Central Ridge，小尺度的稱為Skeleton Ridge。然后用Ridge的長度限制及兩種Ridge的位置關系限制來定位文本區域。該算法可處理各種大小、類型和排列方向的文字，但是當背景復雜時效果不佳。文中實驗采用了四組不同類型的數據，得出平均查全率為90.7%，查準率為78.3%。

L’assainato等人［19］利用沒影點(Vanishing Point)輔助提取自然場景圖像中有透視變形的文本。他們先提取圖像中的沒影點，然后把灰度相似、與背景對比度大且幾何形狀滿足一定要求的連通區域作為候選單字符區域，再用Hough變換檢測連接這些候選區域質心的直線方向。當該直線方向接近水平或垂直并指向沒影點時，認為這些候選區為文本區，并把它們合并。該算法適用于提取自然場景中廣告牌、標牌等與背景對比度大的文本。

2 文本定位算法的性能評價標準

近些年，越來越多的學者開始研究復雜圖像中的文本定位。這就需要一個客觀、有效的量化標準來對不同的文本定位算法進行評價和比較。然而，制定文本定位算法的評價標準存在很多問題和困難，主要表現在：

(1) Groundtruth的標定。Groundtruth是指由邊界矩形標定的正好包含文本的矩形區域。從不同的角度標定，或不同的人標定均會產生不同的結果；即使是同一個人，在不同的時間標定的結果也可能有很大的出入。

(2)性能評價。標定Groundtruth后，需要一個評估算法對定位結果和Groundtruth進行匹配。目前還沒有統一的評估算法。 

(3)無統一樣本庫。復雜背景文本定位研究到目前為止還沒有一個通用樣本庫，不同的算法都是在各自的樣本庫上進行評測的。這就產生了這樣一個問題:由于樣本的數量、質量各不相同，使得各算法的評價結果缺乏說服力，參考價值極小。

(4)實際應用不同。每個文本定位系統的目的都可能不同。有些實際應用要求能定位出圖像中的所有文本，而有些則只要求能定位出重要的文字。

ICDAR(International Conference on Document Analysis and Recognition)2003文本定位競賽給出了一種性能評價算法［20］。該評價算法是基于矩形匹配的方法，并利用查準率p和查全率r對定位算法進行評估。通常，查準率是指定位結果集中屬于正確定位結果的塊數與定位結果集中總塊數的比值；查全率是指定位結果集中屬于正確定位結果的塊數與總的Groundtruth塊數的比值。這里的“正確”定義得不是很準確，定位的結果與Groundtruth符合什么條件算是正確呢？ICDAR中采用了匹配分數來解決這個問題。

兩個矩形r1、r2的匹配分數mp定義如下：

其中，a(r1∩r2)為相交矩形的面積，圖1中的黑色實矩形表示；a(r1∪r2)為兩矩形并集的最小外接矩形的面積，圖1中黑色虛線矩形表示。

一個矩形r在一個目標矩形集合R中的最佳匹配分數m(r，R)定義為r與R中的所有矩形相匹配得到的匹配分數的最大值。用公式表示如下：

其中，E表示檢測到的文本區域集合；T 表示Groundtruth的集合；｜R｜表示集合內元素個數。

為了綜合考慮文本定位的查準率和查全率，定義綜合評價結果f：

其中，a是體現p和r相對重要性的加權系數。

3 結束語

眾學者已提出了多種文本定位算法用于圖像和視頻中的文字提取。但是由于復雜圖像中文字的大小、風格、顏色等復雜多變，目前還沒有一種算法在各種應用中均能達到令人滿意的效果。

圖像中的人工文本通常有較強的對比度，且排列規則，因此較場景文本而言它更容易提取。目前已有一些研究成果投入實際應用，如自動視頻檢索系統，但對場景文本提取的研究則較少。因為場景文本大小沒有限制，顏色、字體、排列方向復雜多變，易受光照影響，定位難度大。

文本的多種特征均可用于文本定位（如顏色、紋理、形狀等），只利用一種特性進行文本定位往往不能達到要求，而將幾種特征結合起來可改進定位系統的性能，提高通用性。因此，如何將基于單一特征的算法進行聯合需要進一步的研究。

隨著神經網絡、支持向量機等智能學習技術的發展，越來越多的文本定位算法開始借助于智能學習機。智能學習的方法可以有效處理復雜多變的情況，所以也成為今后研究的重點。

本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

計算機應用研究2007年6期

計算機應用研究的其它文章: 具有變結構控制器的無定標視覺伺服; 粗糙集理論在網絡攻擊效果評估中的應用研究; ＷＲＦ數值氣象預報模式系統在深騰６８００上的移植與測試; 地質結構三維建模及其可視化方法研究; 基于ＸＡＣＭＬ的Ｗｅｂ服務訪問控制模型; 網絡視頻監控系統管理平臺的設計