廣東工業大學自動化學院 邱少霞 陳曉松 林 惺 萬力衡 鐘映春
?
融合Bag-of-Words的室內場景分類研究
廣東工業大學自動化學院 邱少霞 陳曉松 林 惺 萬力衡 鐘映春
【摘要】場景分類是圖像理解研究領域的熱點之一。不同類型的室內場景由于具有比較高的相似性,因而成為場景分類領域的難點之一。本文采用吸引子傳播方法自動獲取快速獲取碼字數目,采用LDA主題模型構建室內場景與語義之間關聯關系,最終實現室內場景的分類。實驗結果表明,本文方法的室內場景分類平均正確率優于文獻中報道的其他方法,說明采用主題模型方法可以更好地表達室內場景的語義含義。
【關鍵詞】室內場景分類;碼字;隱狄利克雷分配模型;吸引子傳播
自2006年在MIT召開的首次場景理解研討會(Scene Understanding Symposium)上以來,場景分類就成為場景語義理解的一個研究熱點[1]。雖然人們在場景的特征提取、自然場景分類等領域取得了諸多的成果[2,3],但是室內場景由于其存在較高的內在相似性,使得室內場景分類成為當前場景分類的難點之一[4,5]。
本文首先采用吸引子傳播方法自動獲取快速獲取碼字數目,然后采用LDA主題模型構建室內場景與語義之間關聯關系,實現室內場景的分類,并將我們的分類結果與文獻報道的主流方法的結果進行對比。
我們提出一種室內場景分類的方法如圖1所示。在我們的方法中,我們不再采用嘗試的方法獲取詞包模型的合理碼字數目,而是采用了吸引子傳播方法自動獲取詞包模型的最佳碼字數目,并采用LDA模型構建視覺單詞與場景之間的語義關系。

圖1 室內場景分類的流程
2.1 特征提取
大部分的非概率模型都采用全局特征描述場景圖像,例如:GIST,PHOG等。而概率主題模型通常都采用魯棒性更強的局部特征描述場景。文獻的實驗表明,在各種局部特征中,SIFT特征具有更優的魯棒性[6,7]。所以,在我們的研究中,先把場景圖像分為相同尺度的子塊,并采用SIFT特征進行描述,得到特征矩陣MF。
2.2 采用吸引子聚類算法產生碼本
AP算法是Frey等人于2007年在Science上提出的一種新的無監督聚類算法[8],該算法的基礎是數據點之間的相似度,不需要事先指定聚類數目,初始時將所有數據點看作潛在聚類中心,通過數據點間的“消息傳遞”來實現數據集的聚類。
AP算法的消息傳遞機制主要包含兩種信息:吸引度R(Responsibility)和歸屬度A(Availability)。吸引度R(i,k)表示點k適合作為點i的聚類中心的程度;歸屬度A(i,k)表示點i選擇點k作為其聚類中心的適合程度。該算法的輸入是N個數據點之間的相似度矩陣S,以矩陣S對角線上的數值S(k,k)作為點k能否成為聚類中心的評判標準,稱之為參考度(Preference)。算法的關鍵步驟是R(i,k)和A(i,k)的迭代更新,如公式(1)和(2)所示。

2.3 主題模型結構
LDA模型是Blei在2003年提出的,是目前使用及其廣泛的主題模型[9]。模型的圖像表示如圖2所示,其中表示主題出現第圖中概率。表示碼字出現在主題T中的概率。碼字總數是N。此外,Wm,n和Zm,n分別表示第nth碼字和它在第mth幅圖像中的主題。參數and是Dirichlet分布參數。

圖2 LDA模型結構圖

表1 室內場景數據集的示例
3.1 場景圖像數據集
實驗測試的硬件環境為:CPU為Intel(R) Core(TM) i7-3.4GHz,內存為32G,操作系統為Windows7 旗艦版64位系統,編程軟件為MATLAB R2013a。圖像數據集是67類室內場景圖像[10]。隨機提取該數據中圖像的示例如表1所示。
3.2 室內場景分類實驗結果

3.3 實驗結果對比

圖3 三種室內場景分類方法實驗結果對比
從圖3可見,(1)本文方法的場景分類平均正確率為55.79%,文獻11中ROI+Gist方法的平均正確率為27%,文獻12中改進的DCT+GIST方法為44%,可見本文方法的場景分類平均正確率明顯高于其他方法;(2)在bowling和book store這兩類都比其他兩種場景分類方法高出大概2~3倍左右;(3)本文方法的場景分類效果在clothing store和classroom這兩類中并不是很理想,說明本文的方法還有值得改進的地方。
針對室內場景類型相似度高,分類正確率低的問題,本文提出采用吸引子傳播方法自動獲取快速獲取碼字數目,采用LDA主題模型構建室內場景與語義之間關聯關系,最終實現室內場景的分類。實驗結果表明,本文方法的場景分類平均正確率高于文獻中采用的方法;但是在某些類型的場景表達方面,仍然需要改進。
參考文獻
[1]Zhou L,Hu D W,Zhou Z T.Scene recognition combining structural and textural features. Sci China Inf Sci,2013,56: 078106
[2]王瑞,杜林峰,孫督,萬旺根.復雜場景下結合SIFT與核稀疏表示的交通目標分類識別[J].電子學報,2014,42(11): 2129-2134.
[3]李曉龍,張兆翔,王蘊紅,劉慶杰.深度學習在航拍場景分類中的應用[J].計算機科學與探索,2014,8(3):305-312
[4]Jun Yu,Chaoqun Hong,Dapeng Tao,et al.Semantic embedding for indoor scene recognition by weighted hypergraph learning,in Signal Processing,Volume 112,July 2015,Pages 129-136.
[5]Lingxi Xie,Jingdong Wang,Baining Guo,Bo Zhang,Qi Tian, “Orientational Pyramid Matching for Recognizing Indoor Scenes”, CVPR,2014,2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)2014,pp.3734-3741
[6]L.Fei-Fei,P.Perona,A Bayesian hierarchical model for learning natural scene categories,in:IEEE Computer Society Conference on Computer Vision and Pattern Recognition, CVPR2005,vol.2,IEEE,2005,pp.524-531.
邱少霞(1993—),女,廣東潮州人,大學本科,研究方向:模式識別與圖像處理。
作者簡介:
基金項目:廣東工業大學大學生創新創業訓練項目(項目編號:xj201411845022)。