段喜萍,劉家鋒,王建華,唐降龍
(1.哈爾濱工業大學計算機科學與技術學院,150001 哈爾濱;2.哈爾濱師范大學計算機科學與信息工程學院,150025 哈爾濱;3.黑龍江省高校智能教育與信息工程重點實驗室,150025 哈爾濱)
一種語義級文本協同圖像識別方法
段喜萍1,2,3,劉家鋒1,王建華2,3,唐降龍1
(1.哈爾濱工業大學計算機科學與技術學院,150001 哈爾濱;2.哈爾濱師范大學計算機科學與信息工程學院,150025 哈爾濱;3.黑龍江省高校智能教育與信息工程重點實驗室,150025 哈爾濱)
為解決單純依賴圖像低級視覺模態信息進行圖像識別準率低的問題.考慮到許多圖像中存在文本信息,提出了利用圖像中的文本信息輔助圖像識別的語義級文本協同圖像識別方法.該方法通過文本定位方法定位到圖像中的文本塊,對其進行分割、二值化、提取特征等處理;然后獲取語義,提取圖像底層視覺信息,計算兩模態的相關性,從而得到協同后驗概率;最后,得到聯合后驗概率,并取其中最大聯合后驗概率對圖像進行識別.在自建體育視頻幀數據庫中,通過與以樸素貝葉斯為代表的單模態方法進行比較,方法在3種不同視覺特征下均具有更高的準確率.實驗結果表明,文本協同方法能夠有效輔助圖像識別,具有更好的識別性能.
文本定位;圖像識別;多模態
如何有效地對圖像或視頻等多媒體信息進行分類和識別,以實現諸如圖像自動標注、圖像檢索等應用具有重要意義,也是目前一個迫切需要解決的熱點問題.在圖像識別中,由于“語義鴻溝”的存在,單純利用圖像底層視覺信息往往不能達到很好的識別效果.同時許多圖像中包含著與圖像語義更為相關的文字或文本信息,并且這種圖像的數目相當可觀,如圖1所示.而從目前的情況來看,對于這類圖像,存在不同角度的研究,關心圖像內容識別的一般不關心其中包含的文本信息,將其視作與問題無關的背景或者是場景的一部分來處理;而關心圖像文本識別的則在檢測出文本所在的區域之后就不再關心圖像其他部分的內容了.不論是圖像識別還是文本識別都沒有完整地利用圖像中所包含的視覺和文本兩種模態信息進行識別,圖像中的信息被孤立地處理.而其中一種模態信息對另一種態的語義識別具有重要意義.例如,圖1給出的一組建筑物圖像,借助圖像中的文本信息,很容易對它們進行區分和識別.著眼于此,本文研究利用圖像上的文本信息輔助圖像內容識別.

圖1 包含嵌入文本的圖像
據進行文獻搜索所掌握的資料來看,目前還沒有同時利用圖像視覺信息以及其上的文本信息進行圖像識別的先例.與之相關的研究有:1)基于圖像底層信息進行圖像識別,即基于計算機視覺的圖像識別,該類方法可進一步分為判別式方法[1-3]和產生式方法[4-11].由于“語義鴻溝”現象的存在,不能保證視覺特征相似的圖像在語義上也相近.因而該類方法無法實現對圖像內容的準確識別.2)對圖像場景文本進行檢測與識別[12-13].該類方法在圖像中檢測文本區域,然后提取文本區域的字符前景,使用字符識別技術識別圖像區域中的文本,一旦檢測出文本所在的區域之后就不再關心圖像其他部分的內容.3)利用圖像周邊文本輔助圖像識別[14].這類方法利用圖像周圍文本,如圖像的標題、鏈接、錨定文本以及替代文本等,建立圖像和文本之間的關聯關系,輔助圖像識別,這類方法適用于具有周圍文本的網絡圖像識別.
本文提出一種能夠同時利用圖像視覺信息與圖像上嵌入的文本信息的方法,將每個模態的識別結果作為一種最簡單的語義信息用于協同,而不涉及更高層級的語義內容.具體來說,同時提取圖像視覺特征信息和文本特征信息,獲取文本語義信息,然后利用文本語義信息輔助圖像視覺信息進行建模,建立聯合后驗概率.模型可分解為:單模態文本語義識別、單模態圖像內容識別以及兩模態類別相關程度計算.通過對以上模型的訓練,建立各圖像類識別器,對新圖像進行識別.
利用文本模態輔助圖像視覺模態進行圖像識別的過程可以看作是一種利用“跨模態(crossmodality)”信息進行識別的過程.單模態的識別過程一般是在觀察到屬性特征x的條件下對類別屬性ω的后驗概率進行建模的過程.而在跨模態假設之下,其中某一模態類別屬性的后驗概率需要使用兩個模態的特征屬性共同建模.即對圖像類別ωI的識別不僅需要圖像視覺模態的特征xI,同時還需要考慮圖像中文本模態的特征 xT,即需要對進行建模,這里將稱作聯合后驗概率,它可以通過以下兩種方式建模.
從理論上講,聯合后驗概率只是擴大了識別對象的特征屬性集合,可以采用一般的識別方法進行建模,即通過擴大特征向量維數直接對多模態信息建模.然而對于實際問題來說,直接對聯合后驗概率建模往往存在著一定的困難,原因是:
1)特征的描述方式不同.來自于不同模態的特征可能是以不同方式描述的,如圖像內容特征可以用顏色或梯度直方圖描述,顯著性區域的散列表示,甚至是采用多示例包的方式描述;而文本和文字特征則可以描述為筆劃的密度,傅里葉變換、小波變換系數、筆劃之間的結構關系等等.按照不同方式描述的特征很難采用統一的形式建模,更適合于分別采用不同的模型描述.
2)模型學習困難.即使來自于不同模態的特征可以采用相同的方式描述,如果將兩個模態的特征組合為擴大的特征集合,勢必造成描述聯合后驗概率的模型的復雜度的增加.而在圖像識別的實際應用中,可獲得的學習樣本一般是有限的,采用數量不足的樣本學習一個復雜的模型,無法保證模型的泛化能力.
為解決聯合后驗概率直接建模和學習的困難,本文提出使用文本模態輔助視覺模態對聯合后驗概率建模,如圖2所示.

圖2 語義級文本協同的圖像識別過程
模型主要通過Stieltjes積分實現聯合后驗概率的簡化,具體簡化為

1)直接方式.已知某模態特征和另一個模態語義類別信息條件下,協同后驗概率描述的是該模態類別的發生概率.因此可以在學習階段,按照一個模態的類別監督信息將樣本劃分成不同的子集,分別學習當該模態屬于某個類別時另一個模態的分類器.協同識別時根據一個模態的識別結果分別使用不同的分類器計算另一個模態的類別后驗概率.
直接方式計算的好處是可以模型化一個模態的特征與另一個模態語義類別信息之間的關聯性,其缺點是學習時需要對樣本集合進行劃分,這就造成了單個分類器的學習樣本較少,降低了模型的泛化能力.
2)間接方式.一般情況下,假設一個模態的特征與另一個模態的語義信息之間相互獨立是合理的,例如在不同場景下,某字符的特征是由所屬文本類別決定的,與其所處的環境無關.在此假設下,協同后驗概率可被簡化為

將式(1)、(2)結合可以得到

由于語義類別信息是一個離散隨機變量,因此協同識別可以將式(1)和式(3)的Stieltjes積分轉化為有限求和式直接進行計算.這樣式(3)可轉化為

式中:c為文本語義類別數.需要強調一點,上述模型適合于僅利用圖像中的單字協同圖像識別的情況.考慮到多字情況,如 N個字,則可對式(1)~(4)進行擴展,得到

文本識別的過程可歸結為文本定位、分割、二值化、特征提取以及識別的過程.其中前兩個過程本文采用文獻[12]的方法,首先將圖像劃分成塊,通過濾波器結合邊分析進行文本定位;然后對確定的文本塊分別進行垂直和水平投影,通過得到的垂直和水平柱條進行文本分割.對分割出的每個字符圖像進行二值化處理后可將得到的二進制文本塊放縮到某一指定大小,并拉成一行向量,經PCA處理后得到最終的文本向量,即特征向量.對通過以上過程得到的一組訓練樣本,采用樸素貝葉斯方法可得到各文本類結構P(ωT|xT),其中:ωT=1,2,…,cT,cT為文本類別總數.
圖像內容識別可以根據具體應用提取相應的視覺特征,構造相應的識別器.當需要對整體場景屬性分類時,可以以顏色分布、紋理特征為基礎構建圖像分類器,而當需要識別圖像中某類目標時,則需要提取圖像的局部描述特征(如顯著性區域,Blob區域特征等)構成Bag of Features,然后采用Constellation模型或多示例的方式構造分類器.本文在實驗中分別提取了顏色分布特征、小波紋理特征以及Blob量化特征.同樣,在識別器設計過程中,基于提取的圖像視覺特征采用樸素貝葉斯方法訓練出多個視覺模態識別器結構P(ωI|xI),其中:ωI=1,2,…,cI,cI為圖像類別總數.

為了檢驗本文本協同模型對圖像識別問題的有效性,這里對本協同模型與單模態分類器的識別性能進行比較.單模態分類器選擇了樸素貝葉斯方法.
本實驗采集的圖像數據是從CCTV5網絡電視臺下載的包括籃球、排球、短道速滑、羽毛球等4類視頻,從中抽取了360張帶文本的視頻幀,建立體育視頻圖像數據庫,其中3/5用于訓練,2/5用于測試,即有216張用于訓練,144張用于測試.對文本數據,在訓練階段,一部分取自前面帶文本的圖像中的文本,另一部分為人工生成文本.增加人工生成文本的目的,主要是擴大文本樣本數量,提高識別的泛化能力;在測試階段的文本,直接取自從測試圖像中獲得的文本.需要注意的是,本文在視頻圖像中提取的文本主要是體育視頻在后期制作中所添加的標題文本(caption text或superimposed text),做這樣的選擇主要基于兩個原因:1)標題文本是人為添加的,與視頻內容具有更強的相關性和概括性;2)標題文本相對于可能出現的場景文本(scene text)更清晰、更容易識別,并且識別準確率高.本文在標題文本定位過程中,除了使用文獻[12]中的方法外,還考慮到標題文本通常在位置、高、寬等方面的限制,從而大大排除了場景文本的影響.
本文在實驗過程中,分別提取了圖像的全局顏色、全局紋理、Blob特征,設定的文本類別為8類,其目的是驗證本文本協同方法是否對不同的圖像視覺特征具有普遍適用性.

圖3 視覺特征取全局顏色特征的分類結果

圖4 視覺特征取全局紋理特征的分類結果

圖5 視覺特征取Blob特征的分類結果
在與單模態方法進行的對比實驗中,圖像識別的性能通過識別準確率進行衡量,具體的識別結果如圖3~5所示,準確百分率如表1所示.實驗表明:由于本文方法使用了除視覺模態信息外的文本模態信息,圖像表示更為全面和恰當.因此,本文方法的識別結果優于單模態方法.特別是在單模態識別性能較低的情況下,本文方法能顯著提高性能.如在視覺特征取全局紋理時,單模態方法的準確率為64.58%,本文方法的準確率可達94.44%,提高了29.86%;在視覺特征取Blob特征時,單模態方法的準確率為53.47%,本文方法的準確率可達82.64%,提高了29.17%.

表1 識別準確率比較 %
對上述結果進行分析,可以得出:對選擇的不同圖像視覺特征,本文的文本協同方法都一定程度地提高了圖像識別的準確率,從而驗證了本文最初想法的正確性和合理性.需要指出的是,本方法取得較好效果取決于文本識別要有較高精度,因而對標題文本進行操作可得到理想結果.
1)本文提出一種使用文本模態信息輔助圖像視覺模態進行圖像識別的方法,即一種語義級文本協同圖像識別方法.其優勢在于:能夠全面地利用圖像中的視覺模態信息和文本模態信息.
2)該圖像識別方法的精度取決于選擇的圖像特征、選擇的文本類別數以及文本分類器的分類能力等方面.在選擇的幾種圖像視覺特征上實驗,本識別方法的識別準確率均高于單模態方法.
3)需要指出的是,本文選擇的文本是體育視頻圖像中相對清晰的標題文本,對場景文本情況并不理想.
[1]PANDA N,CHANG E Y.Efficient top-k hyperplane query processing for multimedia information retrieval[C]//Proceedings of the 14th annual ACM international conference on Multimedia.New York,NY:ACM,2006:317-326.
[2]LU Zhiwu,IP H H S.Image categorization with spatial mismatch kernels[C]//IEEE Conference on Computer Vision and Pattern Recognition.Miami,FL:IEEE,2009:397-404.
[3]SONG X,JIAO L C,YANG S,et al.Sparse coding and classifier ensemble based multi-instance learning for image categorization[J].Signal Processing,2013,93(1):1-11.
[4]RUSSELL B C,FREEMAN W T,EFROS A A,et al.Using multiple segmentations to discover objects and their extent in image collections[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2006:1605-1614.
[5]VAILAYA A,FIGUEIREDO M A T,JAIN A K,et al.Image classification for content-based indexing[J].IEEE Transactions on Image Processing,2001,10(1):117-130.
[6]LI F F,PERONA P.A bayesian hierarchical model for learning natural scene categories[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2005:524-531.
[7]LIU D,CHEN T.Unsupervised image categorization and object localization using topic models and correspondences between images[C]//International Conference on ComputerVision. Piscataway. NJ:IEEE,2007:1-7.
[8]FERGUS R,PERONA P,ZISSERMAN A.Object class recognition by unsupervised scale-invariant learning[C]//IEEE Conference on ComputerVision and Pattern Recognition.Piscataway,NJ:IEEE,2003:264-271.
[9]LIU Y,GOTO S,IKENAGA T.A robust algorithm for text detection in color images[C]//Proceedings of the Eighth InternationalConference on DocumentAnalysis and Recognition.Piscataway,NJ:IEEE,2005:399-403.
[10]CHEN Y,WANG J Z.Image categorization by learning and reasoning with regions[J].The Journal of Machine Learning Research,2004,5(12):913-939.
[11]ZHU L,ZHAO B,GAO Y.Multi-class multi-instance learning for lung cancer image classification based on bag feature selection [C]//Fifth International Conference on Fuzzy Systems and Knowledge Discovery.Piscataway,NJ:IEEE,2008:487-492.
[12]SHIVAKUMARA P,HUANG W,TAN C L.An efficient edge based technique for text detection in video frames[C]//The Eighth IAPR International Workshop on Document Analysis Systems.Piscataway,NJ:IEEE,2008:307-314.
[13]MISHRA A,ALAHARI K,JAWAHAR C V.Top-down and bottom-up cues for scene text recognition[C]//2012 IEEE Conference on ComputerVision and Pattern Recognition.Piscataway,NJ:IEEE,2008:2687-2694.
[14]許紅濤,周向東,向宇,等.一種自適應的Web圖像語義自動標注方法[J].軟件學報,2010,21(9):2183-2195.
A collaborative image recognition method based on semantic level of text
DUAN Xiping1,2,3,LIU Jiafeng1,WANG Jianhua2,3,TANG Xianglong1
(1.School of Computer Science and Technology,Harbin Institute of Technology,150001 Harbin,China;2.Computer Science and Information Engineering College,Harbin Normal University,150025 Harbin,China;3.Heilongjiang Provincial Key Laboratory of Intelligence Education and Information Engineering,150025 Harbin,China)
To solve the problem that singular-modal image recognition using only the low-level visual features has low accuracy,considering that many images have embedded-in textual information,a collaborative method using the embedded-in text to aid the recognition of images is proposed.The method includes three steps.Firstly,after localization,segmentation,binarization and feature extraction,semantics of text is gotten.Secondly,the collaborative posterior probability is calculated by extracting visual features of images and counting correlation of visual and textual modals.At last,for each class of images,the joint posterior probability is calculated using the previous two items.A new image is recognized to the class with maximal joint posterior probability.Experiments on the self-built data set of sports video frames showed that the proposed method performed better than the singular-modal method on three different visual features and had higher accuracy.
text localization;image recognition;multi-modal
TP391.41
A
0367-6234(2014)03-0049-05
2013-05-24.
國家自然科學基金資助項目(61173087,41071262).
段喜萍(1980—),女,博士研究生;
唐降龍(1960—),男,教授,博士生導師.
段喜萍,xpduan_1999@126.com.
(編輯 張 紅)