李夢縈 宋海玉 王澤宇
摘要:隨著成像技術和存儲技術的發展,電子圖像數據呈現爆炸式增長。為了方便快捷地利用這些圖像資源,自動圖像標注技術應運而生。場景理解的核心任務是通過根據給定一組固定的場景詞匯來對場景圖像數據集進行自動標注,是計算機視覺的主要研究方向之一。
關鍵詞:場景理解;圖像標注;主題模型;實時監視;成像技術;存儲技術 文獻標識碼:A
中圖分類號:TP391 文章編號:1009-2374(2016)02-0045-02 DOI:10.13535/j.cnki.11-4406/n.2016.02.022
1 概述
近年來,中國的大多數城市都安裝了城市攝像頭,但這些攝像頭只能記錄信息,由于人力資源的限制,大部分視頻都只有在取證時發揮作用,沒能物盡其用。視頻的本質就是圖像的序列。視頻信息的監視實質上就是圖片內容的監視。本項目通過計算機對圖像進行分析與解析,得到可以準確描述和解釋相應事件、場景的詞匯,進而對圖像進行標注,即事件識別。
視頻相當于人的眼睛捕捉到的畫面,而事件識別是在模擬人類大腦的圖像分析。圖像理解、事件理解、場景理解是圖像分析的三部曲,圖像標注是基礎,事件理解是目的,場景理解是關鍵。圖像標注是針對“who”,即有誰;場景理解是針對“where”,即環境;對象理解則是“what”,即干什么。也就是說對象標注是具體的、直觀的視覺信息,比如對象的紋理特征,但場景理解和事件理解是抽象的。所以用底層視覺特征來表示圖像特征的時候很難完成場景理解和事件理解,因此我們引入了基于主題特征的場景理解系統。
2 基于主題特征的場景理解系統
本文借鑒了在文本檢索領域中非常成熟的Bag of Words(BOW)思想,在文本檢索中一篇文章會被描述成很多語義詞匯的集合,只考慮詞匯的出現次數,而不考慮出現位置,這樣的一篇文本文章就好比是一個裝滿了單詞的袋子,所以顧名思義為BOW。主題模型已經被應用于文本檢索多年,而且大大提高了文本檢索的準確性。近幾年越來越多的計算機視覺研究者將主題模型引入圖像標注檢索技術中。一般都是將每幅圖像看作一個文檔,圖像中對象對應的詞就是文檔詞匯,這樣就自然而然地將文本主題模型應用到圖像上。主題特征標注模型的最大特征就是借助了主題詞匯這個中間鍵,縮短了高層語義與底層圖像特征之間存在的語義鴻溝,如圖1所示:
很多研究者已經將文本PLSA主題模型成功應用到了圖像的標注檢索系統中,本文綜合前人的模型結構,對各種圖像主題模型進行了實驗分析,最終得到了一個較為理想的基于PLSA主題特征的場景理解系統。模型系統主要分為兩個過程,即訓練模型過程和測試標注圖像過程,主題模型的核心任務是找到圖像中隱藏的主題詞匯,并且通過主題詞匯這個橋梁找到待標注圖像中的主題詞匯概率分布,最后通過語義詞匯在主題中的概率分布計算出測試圖像語義詞匯的概率分布。我們發現這與人類認知圖像的過程非常相似,當我們看到一幅圖像時,可能先會確定這個圖像是哪種主題的圖像,比如山水畫,確定了山水畫之后我們接著會開始聯想山水中一般會含有什么對象景物,再結合圖像本身,人類便很容易理解一幅圖像。我們的訓練過程其實就是人類的學習過程,目的在于讓計算機學會圖像中都有什么樣的主題特征,并且讓計算機記住每種主題包含的詞匯分布。
基于PLSA主題模型的圖像標注系統的整體結構是將圖像集分為訓練集圖像(被手工標注的圖像)和測試圖像(待系統標注圖像)。將訓練圖像通過Bag of Wrd處理得到訓練圖像的視覺詞匯BOW特征,這樣訓練圖像集就成了兩種詞匯的集合,即語義詞匯和視覺詞匯。接著對圖像集進行兩次LDA建模:第一次得到P(w|z)和P(z|d)兩個關于主題詞匯的概率分布;第二次針對視覺詞匯建模,結合上次得到的P(z|d)可以得到P(v|z)——視覺詞匯在主題詞匯中的分布規律。測試圖像只有視覺詞匯BOW特征,結合訓練得到的P(v|z)可以計算出P(z|d)——測試圖像中隱藏的主題詞匯,最后可以由P(z|d)和P(w|z)計算出測試圖像的P(w|d),即我們的標注結果,語義詞匯的概率分布。
3 實驗及結論
實驗數據采用事件識別領域參考文獻[2]提供的訓練數據集和測試數據集,本文所采用算法所完成的效果見圖2所示,取得了預期效果。
為了更加準確、客觀地評價本文所采用的算法,我們在計算機視覺、圖像標注于分類領域影響非常大的Corel5k數據集上完成了模型訓練與測試,并與影響較大的同類算法比較性能,性能比較如表1所示。其中CMRM是圖像標注領域影響最大的算法,SML是被PAMI等國際頂級期刊認為最優的標注算法,PLSA_MIXED、PLSA_WORDS是主題模型用于計算機視覺領域的成果模型。
國內外已經有越來越多的研究人員將主題模型應用在圖像標注檢索領域,并且都取得了一定的研究成果,本文結合前人工作,將PLSA主題模型結果應用在場景理解中,并以此為核心模塊完成了場景理解算法和事件識別應用,實踐結果表明主題模型可以應用于場景理解和事件識別中。
參考文獻
[1]俞偉峰.基于BoW-SIFT模型和層次網絡特征的三維檢索系統[D].北京理工大學,2001.
[2]Li-Jia Li,Li Fei-Fei.What,where and who?Classifying events by scene and object recognition.CVPR,2009.
[3]J.Jeon,V.Lavrenko and R.Manmatha..Automatic Image Annotation and Retrieval using CrossMedia Relevance Models[A].In Proceedings of ACM SIGIR Confence Research and Development in Information Retrieval[C].2003.
[4]Gustavo Carneiro,Antoni B.Chan,Pedro J.Moreno,and Nuno Vasconcelos.Supervised Learning of Semantic Classes for Image Annotation and Retrieval
[J].IEEE Transactions On Pattern Analysis and Machine Intelligence,2007,29(3).
[5]Jonathon S.Hare,Sina Samangooei,Paul H.Lewis,Mark S.Nixon.Semantic Spaces Revisited Investigating the Performance of Auto-Annotation and Semantic Retrieval using Semantic Spaces[A].Proceedings of the 2008 international conference on Content-based image and video retrieval[C].2008.
(責任編輯:陳 潔)