楊 飛
(1.中國科學院上海微系統與信息技術研究所 上海200050;2.上??萍即髮W 信息科學與技術學院,上海201210;3.中國科學院大學 北京 100049)
自然場景圖像中的文字檢測綜述
楊 飛1,2,3
(1.中國科學院上海微系統與信息技術研究所 上海200050;2.上??萍即髮W 信息科學與技術學院,上海201210;3.中國科學院大學 北京 100049)
近年來自然場景圖像中的文字檢測與識別越來越得到人們的關注,主要是因為圖像中的文字檢測與識別對于理解圖片內容、建立圖像索引具有重要的意義。本文針對圖像文字檢測與識別這一領域的核心的問題即文字檢測與定位,首先通過介紹了圖像中的文字檢測的基本概念,然后通過介紹和對比各種圖像文字檢測的方法的優缺點,我們可以得出這樣一個結論即結合深度學習方法和大數據來進行自然場景圖像文字檢測與識別已經成為一個趨勢和熱點,文章最后總結了該領域的挑戰和最新的發展趨勢。
自然場景文字檢測;文字識別;深度學習方法
自上世紀90年代,復雜彩色圖像中的文本定位課題被提出以來,由于具有巨大的經濟效益,該課題已經成為計算機視覺領域和文檔分析領域的一個熱點,吸引了眾多的研究人員持續進行研究。比如從2003年開始,每兩年舉辦一次的國際范圍內的魯棒性閱讀競賽[1],每次比賽國內外都有許多學者及研究人員參與。近年來隨著數字多媒體技術的發展,移動互聯的發展,數碼相機以及智能手機的普及,抓拍的非文檔圖片越來越多,怎么樣才能使得圖像、視頻檢索更加方便、快速,成為了亟待解決的一個課題。其中的一個解決方案就是基于圖像語義理解圖片內容以及建立索引,從而更利于我們理解圖片的內容、使得我們對圖像、視頻的檢索更加方便、高效。正因為文字檢測、識別的這個優勢,催生了文字檢測、識別在諸多行業的應用,如智能手機實時拍照翻譯軟件、智能交通系統的車牌識別、視頻檢索系統、結合穿戴式的計算機視覺識別系統、工業自動化以及機器人視覺等。
場景圖像中的文字識別不同于文檔圖像中的文字識別,文本文檔一般是白底黑字,背景顏色單一,因而文本文檔的識別率早已達到實用的要求,比如常見的OCR應用。而復雜的圖像尤其自然場景圖像文字檢測存在許多的新挑戰,比如光照變化、分別率不同、復雜的背景、字體大小不同、文字的位置的變化等[2],這些因素給場景文字的檢測、識別造成了很大的干擾,往往檢測、識別的準確率不夠高,難以達到工業應用的要求。
圖片中的文字信息提取的第一步驟是文字檢測,而檢測的效果直接決定后面的識別結果的好壞,正因為此原因,文字檢測顯得尤其的重要。如前文所提到的場景圖片文字檢測、識別存在各種各樣的挑戰,為了解決這些問題,研究人員已經提出了許多的方法,文章將主要介紹、分析、對比各種文字檢測的方法。
1.1 場景文字檢測概念
場景文字檢測主要是指從圖像中提取圖片所包含的文字,這些文字本身是圖像內容的一部分。場景圖像文字檢測,首先需要根據文字所具有的特征去確定圖像中的文字區域,當然會因為干擾因素的存在錯把一些非文字區域判為文字區域,這需要根據一些規則或者候選區域的統計特性等來予以排除非文本區域,從而能準確定位圖片中的文本區域。然后還需要對多行文本進行分割,也需要對同一文本行進行字符分割,拆分成一個個單詞。

圖1 自然圖像文字檢測
1.2 場景文字檢測方法
自文復雜的彩色圖像中的文字檢測被首次提出來后,在過去的20年,有許多的文字檢測和識別的方法被提出來。專門針對場景文字檢測的工作也有許多,尤其近5年來場景圖片文字的研究頗多,如其中的部分文獻[3-5]都是專門研究場景圖片文字檢測的。一般來說這些不同的方法可以分為基于邊緣特征、基于連通區域、基于紋理特征、基于機器學習、深度學習的方法這四大類,也有文獻將這些方法歸納為三類方法即基于連通域、基于紋理和綜合方法[6]?;谶吘壍姆椒ㄖ饕昧宋淖钟胸S富的邊緣信息這一特征,一般來說文字具有邊緣密度大、文字和背景具有較高的對比度的特點。該類方法常用Canny算子、Sobel算子[7]在來進行邊緣檢測。基于連通域的方法主要利用文本區域的顏色和背景區域具有強的對比性這一特點,從而將文本區域和背景區域分割開來。基于紋理的方法將文本看成一種特殊的紋理,比如局部像素強度信息、小波變換系數等,利用這些紋理特性將文本區域和背景區域區分開來。如前文提到的場景圖片文字檢測存在光照、字體顏色和大小、多語言等干擾,這些干擾因素也沒有什么規律可循,因此利用機器學習方法來解決這個復雜問題取得了不錯的效果,常用的有SVM、卷積神經網絡[8]、Adaboost等方法。除了利用上述的單一方法,也有像文獻[4]的作者一樣綜合利用多種方法來進行文字檢測和識別的,文獻[4]主要利用連通域和紋理特征中的HOG特征來做文字檢測。
2.1 基于邊緣的文字檢測
邊緣特征是在文字檢測中常用的一種特征,主要是根據文字的邊緣信息來區分文本與非文本,這一類方法也是比較早就被學者們提出了。Zhang等[9]在研究從場景文字檢測的時候,基于他們的觀察——文字區域都是封閉的、文字的邊緣都是成對出現,然后在這兩個現象上基于邊緣的特性計算候選字符區域的能量,然后再利用計算出來的能量的不同來排除非文本。作者假設每個文本包含至少兩個字符,然后根據相鄰區域的空間關系以及區域的顏色、高度、寬度等信息的相似度求得能量鏈接,最后也是根據顏色信息、像素強度、尺寸等信息將候選區域連接成文本。印度學者Shivakumara等[10]提出的檢測文字的方法比較簡單,首先是對輸入圖像做拉普拉斯變換,然后在大小為3*3的滑動窗內求得最大值與最小值的差作為窗口中心位置的像素值,這樣得到和原圖同尺寸的MGD圖,然后對MGD用k-means方法聚類,均值大的區域認為是文本候選區,最后在利用水平和豎直方向投影,確定文字區域的精確位置,最后利用候選區域的寬度、高度、寬高比、邊緣密度等信息排除非文本區域。
基于邊緣方法的有點是原理簡單易于實現,同時計算速度快,缺點是當背景復雜,邊緣檢測不到的時候,該類方法就會失效。
2.2 基于連通域的文字檢測
基于連通域的方法首先是通過顏色或者區域極值等屬性聚類,得到連通域,如最近非常流行的MSER方法,然后再根據人為設置的規則或者機器學習方法學習到的特征來排除非文本區域。文獻[3]基于字符的筆畫寬度近似常量這么一個假設,設計了SWT特征。作者認為字符的邊緣是成對出現的,先是利用Canny算子對灰度圖做邊緣檢測得到一個邊緣圖,然后從每一個邊緣點p沿梯度方向出發,如果達到一個邊緣點q,若p和q點的梯度方向近似地在同一直線上,那么p和q之間的距離|p-q|作為這兩點之間的筆畫寬度,然后將距離|p-q|賦值給線段pq上的每一個像素點,直到它有更小的值則選擇更小的值作為當前點的筆畫寬度。若沒有找到q點,則從p出發的射線被丟掉。在找出所有線段后,再從找出的這些線段上的邊緣點出發,選擇線段上的中位值作為改線段上的每一個點的像素值,直到線段的上的每一個點都有更小的值為止,得到一個SWT圖。最后再利用SWT圖中的相鄰像素的比值不超過3這一規則構造連通域,然后要求每個連通域的方差的值比較小,以及寬度和高度、高寬比等信息來排除非文本區域。Shi等[11]利用極值穩定區域(MSER)方法,找到原圖中MSERs,然后為MSERs區域設計一些特征,利用Graph模型去區分文本和非文本區域。
基于連通域方法的優點是提取出來的連通域的數目相對較少,方法比較有效,同時具有尺度不變性、對文字大小不敏感等優點,因為該類方法成為了一個主流的方法,尤其近年來SWT,MSER方法非常普遍,也有許多文獻是基于這兩種方法的,比如文獻[5]就是對SWT的改進,使得該方法能檢測任意方向的文字。缺點是這一類方法需要得到好的連通域,而自然場景圖中文本和非文本往往很難根據顏色、亮度等信息區分開,從而導致該方法在有復雜背景的自然場景圖像中有時表現不太好。
2.3 基于紋理的文字檢測
基于紋理的方法將字符看成一類特殊的紋理,然后根據局部的強度信息、Gabor變換、小波變換以及傅里葉變換等來檢測文本的紋理,然后根據檢測到的紋理的特性來區分文本和非文本??梢岳盟娇臻g的方差信息來對文本進行定位,首先對整個圖像做一個邊緣檢測,常用Canny算子做邊緣檢測,然后對每一行計算空間方差,方差比較大的為候選文本行,方差小的為非文本行,在得到文本候選區域后,再利用顏色信息來排除非文本區域。主要根據候選區域的局部極值來構建連通域,根據連通域內文本的像素比較接近,從而排除非文本區域。Kim等[12]直接利用原圖的像素的值作為SVM分類器的輸入,根據有標簽的訓練數據來學特征,區分文本與非文本,得到的候選區域再用自適應的meanSIFT算法進行連通域紋理分析,最后得到文本區域。
基于紋理的方法的有點在于對字體、大小有比較好的魯棒性,但是計算復雜度高,耗時長,尤其很多結合機器學習算法如SVM,Adaboost等,需要大量的有標簽的訓練數據來訓練分類器,制作這些有標簽的數據成本高。
2.4 基于機器學習的文字檢測
自然場景圖像最大的一個特點就是背景復雜,文字的位置、顏色、大小等沒有規律地變化,有時還是多語言的,這些因素使得自然場景圖片中的文字檢測非常麻煩,而機器學習算法在解決自然場景圖片的文字檢測常常有不錯的結果,這也是最近幾年為什么機器學習尤其深度學習在場景圖片文字檢測應用中越來越行得原因。文獻[12]采用SVM來訓練分類器,得到文本候選區域。Kung等[13]也使用了SVM,只不過文章中沒有像其他的研究人員使用傳統的特征比如邊緣、腳點、紋理等,而是提取了新的特征。首先利用一種用于檢測文本的筆畫濾波器排除了干擾強的非文本區域,然后還利用了形態學操作。然后文章中設計了兩種特征即歸一化后的灰度和常量梯度,把這兩種特征作為SVM的輸入來訓練分類器,篩選出候選文本區域,最后為了增強效果還做了文本增強的處理。Huang等[14]在2014年的研究中,先利用MSER檢測到文字候選區域,然后利用卷積神經網絡(CNN)來做分類器,從而區分開文本和非文本區域,MSER和CNN結合取得了比之前其他研究人員更好好的結果。
隨著文字檢測這個領域的研究不斷進展,有越來越多的公開數據集可供研究人員用來檢驗他們自己所提出的方法的性能。最常見的數據集有國際文檔分析識別大賽的ICDAR03,ICDAR05,ICDAR11,ICDAR13,最具難度的IIIT 5K-Word以及微軟的MSRA-TD500等。這些數據的特點如表1所示。

表1 常用數據集


表2 不同算法在場景文字中的檢測識別準確率(%)
從表2中的數據我們可以看到,準確率已經從5年前的文獻[6]中的75.7%增長到2014年的文獻[8]中的90%以上。通過閱讀文獻,我們發現在文獻[8]中利用了深度學習和大數據的方法,從而大大提高了準確率。同時從最近5年發表的論文來看,借助深度學習、大數據等方法的論文越來越多。
從前文的論述我們可以知道,場景文字檢測和識別是一個非常熱的研究領域。盡管由于自然圖片背景復雜多變,給場景文字檢測與識別帶來了巨大的挑戰。但是在近年來也取得了非常快速的發展,比如針對ICDAR2011這個數據集,檢測結果的F指數從2011年的0.58增長到2014年的0.78,針對更有難度的數據集IIIT 5K-Word已經從2012年的0.555增長2014年的0.802[16]。場景文字檢測雖然取得了大進步,但是仍然面臨很多挑戰。研究趨勢和熱點也正從單一的方法、單一方向的文字檢測、單一語言文字的檢測研究,轉向如文獻[5]等多方向或者任意方向的文字檢測,這更具有實際應用價值,因為現實中,水平方向的文字只占很小的一部分,大多數情況下場圖片中文字的方向是多方向的?,F有的研究大多是針對英語這種語言研究的,但是現在研究不同語言的文字檢測也正在變為一個趨勢,如文獻[5]中有漢字的檢測,比如有涉及韓文等的檢測。而實際應用中比如拍照翻譯軟件,需要的是多種語言的檢測、識別。另外的一個大的研究趨勢就是結合深度學習和大數據方法的端到端的文字檢測、識別系統的研究[17],也更接近實際應用的要求,如文獻[8]中就使用了深度學習和大數據的方法,取得了非常好的效果。
文字具有高層的語義信息,而語義信息能用于許多自動化的應用,因而具有非常大的經濟價值,這導致關于自然場景圖片中的文字檢測與識別成為了研究熱點。但是由于自然場景圖片具有復雜的背景,這給文字檢測識別帶了非常大的干擾,為了解決這一難題,許多的研究人員不斷提出新方法,從而不斷改善了場景文字檢測與識別的效果。文章總結了最近幾年國內外同行在該領域的主要方法,同時對不同類別的方法進行了分析和對比,同時還展望了該領域未來的研究趨勢即使用深度學習和大數據結合的方法,希望能對國內的該領域的學者了解國內外該領域的研究有所幫助。
[1]Ye Q,Doermann D.Text detection and recognition in imagery: A survey[J].2014.
[2]Chen X,Yang J,Zhang J,et al.Automatic detection and recognition of signs from natural scenes[J].Image Processing,IEEE Transactions on,2004,13(1):87-99.
[3]Epshtein B,Ofek E,Wexler Y.Detecting text in natural scenes with stroke width transform[C]//Computer Vision and PatternRecognition(CVPR),2010IEEEConferenceon.IEEE,2010:2963-2970.
[4]Pan Y F,Hou X,Liu C L.A hybrid approach to detect and localize texts in natural scene images[J].Image Processing,IEEE Transactions on,2011,20(3):800-813.
[5]Yao C,Bai X,Liu W,et al.Detecting texts of arbitrary orientations in natural images[C]//Computer Vision and Pattern Recognition(CVPR),2012 IEEE Conference on.IEEE,2012:1083-1090.
[6]Zhu Y,Yao C,Bai X.Scene text detection and recognition: Recent advances and future trends[J].Frontiers of Computer Science,2016,10(1):19-36.
[7]Sun Q,Lu Y.Text Detection from Natural Scene Images Using Scale Space Model[M]//Advances on Digital Television and Wireless Multimedia Communications.Springer Berlin Heidelberg,2012:156-161.
[8]Jaderberg M,Simonyan K,Vedaldi A,et al.Reading text in the wild with convolutional neural networks[J].International Journal of Computer Vision,2014:1-20.
[9]Zhang J,Kasturi R.Character energy and link energy-based text extraction in scene images[M]//Computer Vision-ACCV 2010.Springer Berlin Heidelberg,2011:308-320.
[10]Phan T Q,Shivakumara P,Tan C L.A Laplacian method for video text detection[C]//Document Analysis and Recognition,2009.ICDAR'09.10thInternationalConferenceon.IEEE,2009:66-70.
[11]Shi C,Wang C,Xiao B,et al.Scene text detection using graph model built upon maximally stable extremal regions[J].Pattern Recognition Letters,2013,34(2):107-116.
[12]Kim K I,Jung K,Kim J H.Texture-based approach for text detection in images using support vector machines and continuously adaptive mean shift algorithm[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2003,25(12):1631-1639.
[13]Jung C,Liu Q,Kim J.A stroke filter and its application to text localization[J].Pattern Recognition Letters,2009,30(2):114-122.
[14]Huang W,Qiao Y,Tang X.Robust scene text detection with convolution neural network induced msertrees[M]//Computer Vision-ECCV 2014.Springer International Publishing,2014:497-511.
[15]Almazán J,Gordo A,Fornés A,et al.Word spotting and recognition with embedded attributes[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2014,36(12): 2552-2566.
[16]張翔,徐洪平,安雪巖,等.液體火箭發動機穩態運行故障數據聚類分析研究[J].火箭推進,2015(2):118.
[17]張少博,王乃世,陳海峰,等.基于聲壓測量的閥門故障檢測方法研究[J].火箭推進,2015(4):100.
Detecting text in natural scence images were reviewed
YANG Fei1,2,3
(1.Shanghai Institute of Microsystem and Information Technology,Chinese Academy of Sciences,Shanghai 200050,China;2.School of Information Science and Technology,ShanghaiTech University,Shanghai 201210,China;3.University of Chinese Academy of Sciences,Beijing 100049,China)
In recent years,natural image scene text detection has attracted more and more attention.Scene text detection is of significant value for comprehending content of image and retrieving image.To detect and locate text in image is the key problem in image text recognition.First,the paper introduces the basic concept of scene text detection and recognition.Then the paper analyzes,compares,and contrast different methods.So we can learn about the advantages and disadvantages of different methods.Naturally,we can conclude that the combination of deep learning and big data has become a trend for researchers because of the obvious of big data.At the end of the paper,it summarizes the challenge and trend in natural image scene text detection and recognition.
scene text recognition;natural scene text recognition;deep learning
TN911.73
A
1674-6236(2016)24-0165-04
2015-12-15 稿件編號:201512159
楊 飛(1988—),男,湖南邵陽人,碩士研究生。研究方向:圖像視頻中的文字檢測識別、數據挖掘。