呂海峰 蔡明



摘要 圖像自動標(biāo)注作為計算機(jī)視覺領(lǐng)域重要的研究課題,近年來取得了巨大的成果,但由于語義鴻溝的存在,仍然存在巨大的挑戰(zhàn)。本文提出一種基于概率潛在語義分析模型的分類融合圖像標(biāo)注方法。首先,該方法分別提取圖像的形狀和視覺特征,聚類生成詞袋;然后利用融合概率潛在語義分析模型計算得出圖像標(biāo)注詞的概率,并利用支持向量機(jī)依據(jù)圖像顏色特征分類得到分類標(biāo)簽的類別杈重;最后在得到的標(biāo)注詞概率中融入類別權(quán)重,最終得到圖像的標(biāo)簽。并且使用Corel圖像數(shù)據(jù)集進(jìn)行標(biāo)注模型的訓(xùn)練和圖像的標(biāo)注。實驗結(jié)果表明,對比幾種前沿的標(biāo)注方法,本文獲得了良好的性能。
【關(guān)鍵詞】圖像自動標(biāo)注 詞袋 支持向量機(jī)概率潛語義分析 分類
1 引言
圖像自動標(biāo)注就是計算機(jī)系統(tǒng)根據(jù)已經(jīng)標(biāo)注的圖像和標(biāo)簽的關(guān)系,去預(yù)測未標(biāo)注圖像的標(biāo)簽并標(biāo)注圖像。但由于存在語義鴻溝,視覺特征相似的圖像很可能在語義上是不相關(guān)的。為了獲得語義相關(guān)的檢索結(jié)果,同時避免大量的手工標(biāo)注,圖像自動標(biāo)注成為目前關(guān)鍵的具有挑戰(zhàn)性的課題。Duygulu等[3]將對象識別模型描述為機(jī)器翻譯,在這個模型中,圖像被分割成區(qū)域,這些區(qū)域使用各種特征被分類為區(qū)域類型;然后使用基于EM的方法來學(xué)習(xí)與圖像一起提供的區(qū)域類型和關(guān)鍵字之間的映射。李志欣等[5]在PLSA模型和PLSA-WORDS模型的基礎(chǔ)上提出了PLSA-FUSION標(biāo)注方法,該方法分別從文本模態(tài)和視覺模態(tài)中學(xué)習(xí)兩組潛在主題,然后把這兩種潛在主題融合成一個潛在主題空間,有較好的性能,但特征數(shù)據(jù)在量化過程中仍會丟失重要信息。邱澤宇等[6]結(jié)合區(qū)域之間的位置關(guān)系及其標(biāo)簽之間的共生關(guān)系輔助標(biāo)注圖像,提出兩種模型對標(biāo)簽共生關(guān)系建模輔助修正標(biāo)簽集,標(biāo)注效果和性能有了較好的改善。Wu等[7]提出了一種稱為弱標(biāo)簽的半監(jiān)督深度學(xué)習(xí)方法,一個新的弱加權(quán)兩兩排序損失被有效地用來處理弱標(biāo)記的圖像,而三重相似性丟失被用來處理未標(biāo)記的圖像。
由于支持向量機(jī)(Support Vector Machine,SVM)是基于學(xué)習(xí)理論產(chǎn)生的,支持向量機(jī)通常具有很好的分類性能,可以用來解決局部極值問題和高維問題。用SVM解決多分類問題的方式是訓(xùn)練多個分類器,使每一類都可以通過SVM分類器與其它類分開。在圖像標(biāo)注問題中,可以將圖像的類別看成是語義標(biāo)簽,進(jìn)而把該問題轉(zhuǎn)換成圖像分類問題。
所以本文提出一種基于概率潛在語義分析模型的分類融合圖像標(biāo)注方法,該方法首先利用PLSA-FUSION模型計算出圖像和標(biāo)簽之間的概率關(guān)系;然后利用支持向量機(jī)對圖像的顏色特征進(jìn)行分類得到分類標(biāo)簽的類別權(quán)重;最后在圖像語義傳播的過程中融合到概率中,作為最終的標(biāo)注關(guān)鍵詞概率集。
2 基于概率潛在語義分析模型的分類融合圖像標(biāo)注
2.1 圖像表示
本文的圖像的視覺特征表示采用圖像的稠密的尺度不變描述子SIFT(scale-invariantfeature transform)和HSV顏色特征。首先對于每幅圖像利用SIFT描述子提取固定網(wǎng)格的大量局部特征,生成128維的特征向量,通過k-means聚類生成SIFT詞袋 BOW(bag-of-words);然后按圖1所示的5個區(qū)域提取其HSV顏色直方圖并合并成288維的直方圖,并通過k-means聚類生成HSV詞袋;通過實驗發(fā)現(xiàn)當(dāng)k取1000時聚類效果最佳,最后對這兩類詞袋詞袋進(jìn)行簡單的連接生成最終的詞袋。
2.2 建立特征數(shù)據(jù)庫
在標(biāo)注圖像之前,需要建立一個數(shù)據(jù)庫。這里,從圖像中提取特征描述子,利用k-means聚類將這些描述子轉(zhuǎn)換視覺單詞,并保存圖像的視覺單詞和對應(yīng)的單詞直方圖。進(jìn)而對圖像進(jìn)行分類,標(biāo)注和檢索,并獲得圖像的相似性作為中間結(jié)果。
2.3 支持向量機(jī)分類模型的選取
2.4 概率潛在語義分析模型
如圖2所示,PLSA-FUSION(融合的概率潛語義分析)是在PLSA的基礎(chǔ)上采用了兩個PLSA模型分別建模視覺模態(tài)和文本模態(tài)的數(shù)據(jù),然后再以自適應(yīng)的方式不對稱地融合兩個PLSA模型,使得它們共享同樣的潛在空間(即對于每幅訓(xùn)練圖像具有相同的主題分布),然后利用PLSA模型得到圖像標(biāo)注詞的概率。
2.5 融合分類信息的概率語義分析模型的圖像標(biāo)注
因為PLSA-Fusion模型需要對圖像的特征進(jìn)行聚類處理,所以標(biāo)注的精度局限于聚類的效果。由于圖像分類不需要聚類,故不會受到底層特征聚類的影響,將圖像的分類信息作為權(quán)重融合入概率語義分析模型中,有效的提高了概率語義分析模型的標(biāo)注精度。
對于概率語義分析模型中圖像特征數(shù)據(jù)在量化過程中仍會丟失重要信息問題,本文通過融合圖像的分類信息,使圖像標(biāo)注有了更好的標(biāo)注性能。標(biāo)注模型如圖3所示。
利用支持向量機(jī)對圖像的區(qū)塊顏色特征進(jìn)行分類,獲得圖像的類別信息。根據(jù)分類過程中類別出現(xiàn)的次數(shù)作為評價類別重要性的標(biāo)準(zhǔn)。
利用融合的概率語義分析模型可以計算得到文本標(biāo)簽和圖像之間的概率關(guān)系,通過前面分類得到的類別權(quán)重,在圖像語義傳播過程中將權(quán)重融合到文本標(biāo)簽的概率中,得到了融合了類別權(quán)重的標(biāo)注詞概率。用P(wIF)表示類別在分類結(jié)果中的權(quán)重,融合后得出的圖像文本標(biāo)簽的概率為:
3 實驗及分析
本文在Core15K圖像集上進(jìn)行仿真實驗,本實驗首先提取圖片的視覺特征,然后使用k-means方法聚類生成視覺詞匯表,通過實驗得出k為1000時聚類效果最佳。圖像標(biāo)注的評價標(biāo)準(zhǔn)為精度preclsion和召回率recall。對于一個給定的語義關(guān)鍵詞w,precision(w)=B/A,recall(w)=B/C。其中,A表示所有自動標(biāo)注了關(guān)鍵詞w的圖像個數(shù),B表示正確標(biāo)注了關(guān)鍵詞w的圖像個數(shù),C表示原始標(biāo)注中包含關(guān)鍵詞w的圖像個數(shù)。本文采用所有標(biāo)注詞的平均精度和平均召回率評價圖像的標(biāo)注性能。標(biāo)注結(jié)果比較如表1和表2所示。
在表l中給出了各種圖像自動標(biāo)注模型的性能比較,在兩個關(guān)鍵詞集合上的標(biāo)注結(jié)果最佳49個關(guān)鍵字和全部260個關(guān)鍵字,本文算法基本上不僅優(yōu)于PLSA-FUSION,而且優(yōu)于PLSA-WORDS。在這兩個關(guān)鍵詞集合上,平均精度比PLSA-WORDS分別提高了17%和10%,平均召回率比PLSA-WORDS提高了分別提高了11%和6%。
在表2中給出了4張圖片的在幾種標(biāo)注模型下標(biāo)注結(jié)果對比,由表2可以得出在大部分情況下本文算法要優(yōu)于PLSA-FUSION和PLSA-WORDS。
4 結(jié)束語
本文提出的一種概率潛在語義分析模型的分類融合圖像標(biāo)注方法,通過實驗得出本文算法與幾種比較前沿的標(biāo)注方法相比具有更好的性能。SVM分類權(quán)重的加入對圖像語義標(biāo)注有很大的正向作用。由于PLSA Fusion模型采用的是PLSA和EM算法,所以收斂速度較慢,導(dǎo)致訓(xùn)練算法比較耗費時間資源,下一步的工作為尋找新的方法以優(yōu)化本文的標(biāo)注模型,進(jìn)而提高圖像標(biāo)注的效率和精度。
參考文獻(xiàn)
[1] Smeulders A W M,Worring M, Santini S, etal.Content-Based image retrieval atthe end of the early years[J].IEEETrans.on Pattern Analysis and MachineIntelligence, 2000, 22 (12) : 1349-138 0.
[2] Dat to R, Joshi D, Li J, et al. Imageretrieval: Ideas, influences, and trendsof the new age[J].ACM ComputingSurveys,2008,40(02):1-60.
[3]Duygulu P,Barnard K,F(xiàn)reitas J F G D,et al.Object Recognition as MachineTranslation: Learning a Lexiconfor a Fixed Image Vocabulary[C].European Conference on ComputerVision, 2002, 2353 (06): 97-112.
[4]Dempster A P,Laird N M,Rubin D B.Maximum-likelihood from in completedata via the EM algorithm[J].Journal of the Royal StatisticalSociety,1977,39(01):1-38.
[5]LI Zhi-Xin,SHI Zhi-PING,LI Zhi-Qing,et al.Automatic Image Annotation byFusing Semantic Topics [J]. Journal ofSoftware, 2011, 22 (04): 801-812.
[6] QIU Ze-Yu, FANG Quan, SANG Ji-Dao,et al.Regional Context-Aware ImageAnnotation [Jl.Chinese Journal of Computers, 2 014, 37 (06) : 139 0-13 9 7.
[7] Wu F,Wang Z, Zhang Z, et al. WeaklySemi-Supervised Deep Learning forMul t i-Label
Image Anno tation [J] .IEEE Transactions on BigData, 2017,1(03):109-122.
[8] Han J W, Kamber M, Pei J. DataMining: Concepts and Techniques [M].3rd ed. San Francisco: MorganKaufmann, 2011: 327-330.
[9]Lowe D G.Distinctive Image Featuresfrom Scale-Invariant Keypoints [J].International Journal of ComputerVision,2004,60(02):91-110.
[10] Bosch A, Munoz X, Mart i
R. Which isthe best way to organize/classifyimages by content?[J].Image & VisionComputing, 2007, 25 (06): 778-791