宋海玉,李雄飛,包翠竹,金 鑫,岳青宇
(1.大連民族學院計算機科學與工程學院,遼寧大連116605;2
.吉林大學計算機科學與技術學院,吉林長春 130012)
基于視覺內容與語義相關的圖像標注模型
宋海玉1,2,李雄飛2,包翠竹1,金 鑫1,岳青宇1
(1.大連民族學院計算機科學與工程學院,遼寧大連116605;2
.吉林大學計算機科學與技術學院,吉林長春 130012)
針對當前標注系統的不足,設計了一種高效的標注模型,其標注步驟包括標注和標注改善,標注算法采用加權的正反例標志向量法,標注改善采用NGD方法。實驗表明,標注效率遠優于經典的標注模型,標注質量優于大多數標注模型。
圖像標注;標注改善;歸一化Google距離
近年來,隨著計算機技術、數碼技術、存儲技術的迅速發展,以及計算機網絡的普及,每天大量的圖像由數碼產品制作,并在網絡上存儲、傳播。如何有效地訪問和管理這些數據成為一項亟需解決的課題。近年來涌現出了很多經典的基于內容的圖像檢索系統(CBIR),例如 IBM QBIC,MIT PhotoBook等。它們都是通過計算圖像的底層視覺信息(如顏色、紋理)確定相似圖像。盡管CBIR系統取得了很大進展,但其檢索效果和方式依然不能令人滿意。其主要原因是計算機所使用的低層視覺特征與人所理解的高層語義之間存在著巨大的語義鴻溝[1]。人們更習慣于提交待檢索目標對象的名稱或者相關的語義描述作為檢索線索,而不是提交一幅完整圖像。此外,CBIR僅僅解決了圖像檢索問題,而作為無結構化的圖像數據,其存儲、管理等依然是一個有待于解決的問題。自動圖像標注是上述問題的可行解決方案。通過對圖像標注文本詞匯,很容易采用傳統的關系數據庫方式組織和管理圖像數據。自1999年提出圖像標注以來,自動圖像標注已經逐漸成為圖像檢索、計算機視覺、機器學習等領域非常活躍的研究熱點。
當前主流的圖像標注方法主要有兩種:概率模型方法、分類方法。
第一種方法是學習圖像與關鍵詞之間相關的概率模型,使用概率模型方法完成圖像標注。概率模型的最早的方法是Mori于1999年提出的共生模型[2],此后,Duygulu 和Kobus于ECCV2002上提出翻譯模型[3],Jeon于 ACM SIGIR2003提出著名的跨媒體相關模型(Cross-Media Relevance Model,CMRM)[4]。CMRM 是概率模型的代表性模型,它對后續的標注模型產生了很大的影響。諸如著名的Continuous Relevance Model(CRM)和Multiple Bernoulli Relevance Model(MBRM)等都可以認為是 CMRM 的后續模型[5-6]。
第二種方法把圖像標注問題視為圖像分類問題,每個概念或文本標注詞可視為分類系統中的類標簽。對每一個類,在訓練階段通過從有類別標簽的訓練圖像集中學習并獲得相應模型后,在測試階段就可以為新圖像(測試圖像)生成類別標簽,即完成測試圖像的標注。代表性作品有Bayes,SVM,2D -HMM 等用于圖像標注中[7]。
共生模型、翻譯模型的標注效果較差(F1分別為2%和4%),CMRM以較低的代價取得了較好的效果(F1為9.47%)。CMRM的后續算法CRM、MBRM性能有了極大的提升(F1分別為17%,23%),但他們系統開銷極大,很難用于大規模數據處理。分類方法最大的優點在于可以應用現有的成熟的機器學習模型,但其缺點是訓練代價大,而且,由于分類數非常有限,很難用于幾百、幾千個概念的多類分類。
Jin于2005年率先提出了標注改善方法[8],他提出了利用語義網(WordNet)來計算標注詞之間的語義關系,以去除噪音標注詞的標注改善算法。在圖像標注改善中,包括Jin在內的幾乎所有的基于語義網的標注改善方法,在計算概念的語義相似度時候,都簡化了語義知識。并且,以WordNet為代表的語義網,僅僅給出概念之間是否相關的定性評判,不能給出概念的語義相似度的定量測量。圍繞如何定量表示語義相似度,研究人員給出了很多嘗試,但沒有一種完美的方法,而且往往容易與人的理解相矛盾。另外,WordNet還存在詞匯不可擴展性,若WordNet中不包含候選標注詞的話,則無法使用。
由于基于語義網的標注改善算法關注的詞匯之間的語義相近程度,而不是詞匯相關性,標注改善沒有取得預期效果。很多學者提出了利用訓練集中圖像標注詞的共存性計算詞匯相關性,標注改善性能有一定提升。但受到訓練集中圖像數量的限制,很多詞匯之間的關聯性無法通過訓練集體現出來。
本文所提出的模型如圖1,該系統由兩部分組成。第一部分完成模型訓練,即為圖像集中所有關鍵詞構造標志性特征向量。訓練集中所有圖像均實現標注詞的人工標注。訓練集中所有圖像柵格化為固定大小的圖塊(patch),根據特征選擇和表示算法提取每個圖塊的視覺特征。通過聚類算法使得相似的圖塊聚成一類,每一聚類稱為一個可視詞匯(visual word),并由該可視詞匯代表該聚類內的所有圖塊的視覺特征。這樣就實現了圖塊特征從連續向量到離散向量的轉變。借鑒文本檢索模型中的bag-of-model,每幅圖像就可以視為一組可視詞匯的集合。統計圖像中可視詞匯的分布,并使用直方圖方式表示,每幅圖像可以表示為可視詞匯的直方圖(Histogram of Word,HOW)向量。由圖像的HOW向量可以構造出每個標注關鍵詞的HOW向量,即標志向量。
第二部分標注工作。對于一副無標注詞匯的測試圖像,首先,生成其可視詞匯直方圖向量,方法同訓練階段。然后,通過計算HOW向量得出測試圖像與關鍵詞的相似度。取相似度最大的前若干個詞匯,即為該測試圖像的標注詞匯。

圖1 系統體系結構
由于基于區域的特征表示質量過于依賴于圖像分割質量,而即使當前最優秀的圖像分割算法也無法取得令人滿意的分割效果[9]。基于柵格化的性能往往優于基于區域的方法。而且,考慮到圖像分割的時間開銷較大,本文采用柵格化方法。提取柵格化圖塊的視覺特征,包括12維的顏色信息(RGB和Lab共6個通道的均值和方差)和128維的SIFT紋理信息,使用K-means算法分別對顏色和紋理聚類成500和1000類。每幅圖像最終可以表示為1500維的HOW向量。
針對傳統相關模型等存在的不足,我們提出了一種非常簡單的標注模型,它無需復雜的訓練過程和參數學習。該方法根據每個概念(標注詞)所對應的正例圖像與反例圖像,為每個概念構造視覺特征向量,通過圖像向量與概念向量的相似度來確定該概念U與圖像的相關性或隸屬度,稱為正反例標志向量法[10],其基本思想是通過正例與反例圖像特征向量的差異來構造代表該詞匯的視覺向量,即表示詞匯w的正例向量均值表示詞匯w的反例向量均值,該算法詳細步驟見參考文獻[10]。在該算法基礎之上,本文提出了加權的正反例標志向量法,其詞匯視覺向量為
鑒于WordNet等方法標注改善存在的不足,我們采用歸一化Google距離(NGD)方法作為詞匯相關性的定量度量。NGD把任何兩個詞匯的相關性問題轉化兩個詞匯在Web頁面中共存的概率關系[11]。NGD計算方法為

其中,w1和w2分別代表兩個文本詞匯。f(w1)和f(w2)分別代表Google搜索引擎分別檢索出包含查詢詞w1和w2詞匯的網頁個數,而f(w1,w2)代表檢索出同時包含w1和w2兩個詞匯的網頁個數。M是Google搜索引擎所涵蓋的網頁的總個數。僅從NGD的定義可知,它側重的是詞匯在上下文的相關性,而基于WordNet的方法關注的是概念的語義。另外,標注改善關注的應該是詞匯之間的相容性,而不是同義詞。因此,NGD是一種更適合于標注改善的詞匯相關性度量方法。通過調用Google提供的接口,可以計算出包含任何詞匯的網頁個數。
由于每個詞匯對應網頁數量在一段時期內相對穩定,詞匯對應網頁的數量及NGD(w1,w2)可以事先保存起來,此后,周期性更新即可。在后續的標注改善過程中,可以直接訪問NGD(w1,w2)信息,而無需在每次標注圖像時調用Google接口。
為了評價所提出的模型,我們與主流的標注算法進行對比。性能指標包括查準率、查全率、N+,以及算法復雜度和時間開銷等,為公平起見,所有模型實驗都在相同的圖像數據集上完成。
Corel5K數據集已經成為圖像檢索和標注領域最常用的標準數據集,該數據集包括5000幅圖像、371個標注詞匯,平均每幅圖像包含詞匯個數為3.5個。與原始CMRM/CRM/MBRM算法數據劃分一樣,我們取4500幅圖像作訓練集,500圖像作測試集,其中訓練集與測試集中相交詞匯260個。在CMRM/CRM等基于區域方法中,采用N-cut圖像分割算法,且每幅圖像分割為1-10個區域。柵格化方法中,每幅圖像被等分為16*16像素的柵格。
采用查準率(Precison)、查全率(Recall)、F1和N+作為標注質量評價指標。N+為查全率不為0的詞匯個數。其他指標定義為


其中,r代表算法正確標注的詞匯個數,n代表人工標注的實際個數,w代表算法錯誤標注出的詞匯個數。
實驗平臺為HP筆記本,硬件配置為2.2GHz的Intel Duo CPU,3.0G內存,操作系統為Windows XP,軟件環境為Matlab7.1以及NGD API包。與CMRM、MBRM等算法一樣,標注算法為每幅圖像生成5個標注詞匯。本文所實現系統的標注效果與真實(手工)標注結果的對比見表1。本文方法與經典的標注模型性能對比見表2。

表1 標注結果對比

表2 算法性能對比表
表2中,視覺特征列中,C代表顏色,T代表紋理,S代表形狀。算法復雜度列中,|W|代表數據集中詞匯的個數,|D|代表訓練圖像個數,N代表圖像分割后區域的個數,M是圖像區域特征向量的維數。系統中數據集大時候,|D|會非常大,因此CRM和MBRM的時間開銷會非常大;而即便系統的圖像數據集再大,詞匯個數|W|也非常有限;只要特征選擇方法確定后,特征向量維數M是常量,與數據集大小無關。因此,越是訓練集大的系統,本文方法優勢越明顯。本文所采用的加權正反例方法最優參數α、β分別是0.98和0.79。
通過調用Google接口獲取網頁數量的時間開銷很大程度上取決于網絡狀況,且無需每次都調用Google接口,因此,表2中算法復雜度和平均耗時沒有包括NGD的時間開銷。
針對當前圖像標注模型存在的不足,本文設計了一種非常高效的標注模型,通過NGD方法對圖像候選標注詞進行標注改善,有效地保證了標注系統的總體質量。該系統既可以作為一個獨立標注系統運行,也可以作為復雜系統的相關模塊。
[1] RITENDRA DATTA,DHIRAJ JOSHI,JIA LI ,et al.Image Retrieval:Ideas,Influences,and Trends of the New Age[J].ACM Computing Surveys,2008,40,(2):1-60.
[2]MORI Y,TAKAHASHI H,OKA R.Image-to-word transformation based on dividing and vector quantizing images with words[C]∥ In MISRM'99 First International Workshop on Multimedia Intelligent Storage and Retrieval Management,1999.
[3]DUYGULU P,BARNARD K,DE FREITAS N,et al.Object recognition as machine translation:Learning a lexicon for a fixed image vocabulary[J].Proc.of Seventh European Conference on Computer Vision,2002:97 -112.
[4]JEON J,LAVRENKO V,MANMATHA R.Automatic Image Annotation and Retrieval using Cross-Media Relevance Models,Proc.of the 26th annual international ACM SIGIR conference on Research and development in information retrieval,2003:119 -126.
[5]LAVRENKO V ,MANMATHA R,JEON J.‘A model for learning the semantics of pictures’[C]∥Advances in Neural Information Processing Systems,2003.
[6]FENG S L,MANMATHA R,LAVRENKO V.‘Multiple Bernoulli Relevance Models for Image and Video Annotation’[C]∥IEEE Conf.Computer Vision and Pattern Recognition,2004.
[7]CHIH -FONG TSAI1,CHIHLI HUNG.Automatically Annotating Images with Keywords:A Review of Image Annotation Systems,Recent Patents on Computer Science,2008,1(1):55 -68.
[8]JIN Y,KHAN L,WANG L,et al.Image annotations by combining multiple evidence & wordNet[J].In Proceedings of ACM Multimedia,706-715,2005
[9]SHI J,MALIK J.Normalized cuts and image segmentation.IEEE Transactions on Pattern Analysis and Machine Intelligence,22(8):888–905,2000.
[10]SONG Haiyu,LI Xiongfei,BAO Cuizhu,et al.An Efficient and Effective Automatic Image Annotation using Positive and Negative Example Images,ICIC -EL,2011,5(8):2927-2932.
[11]CILIBRASI R,VITANYI P.The Google similarity distance.IEEE Transactions on Knowledge and Data Engineering 19(3),370–383,2007.
An Image Annotation and Refinement Model Based on Visual Content and Semantic Correlation
SONG Hai- yu1,2,LI Xiong - fei2,BAO Cui- zhu1,JIN Xin1,YUE Qing - yu1
(1.College of Computer Science and Engineering,Dalian Nationalities University,Dalian Liaoning 116605,China;
2.College of Computer and Technology,Jilin University,Changchun Jilin 130012,China)
The efficiency and qulaity of image annotation system determine the ability to manage images in the fields of computer vision and image retrieval.To overcome the drawback of current annotation system,an efficient annotation system is designed,including annotation and refinement stages by weighted positive and negative symbol vector method and NGD method respectively.The experiments demonstrate our proposed system perfomance,whose efficiency outperforms classicial image annotation models and qulity outperforms most current image annotation models.
image annotation;annotation refinement;normalized Google distance
TP391
A
1009-315X(2012)01-0067-05
2011-11-07;最后
2011-11-23
中央高校基本科研業務費專項資金項目(DC10040111);遼寧省教育科學“十二五”規劃立項課題“應用型院校中本科生研究性學習模式的研究與實踐”(JG11DB062)。
宋海玉(1971-),男,河南安陽人,副教授,主要從事圖像分析與理解、計算機視覺、信息檢索研究。
(責任編輯 劉敏)