賀偉+姚婭川++彭彩平


摘 要:圖像分類是圖像檢索的基礎,成功的圖像檢索是從海量的數字圖像中提取有效信息的必要手段。針對當前圖像分類領域存在的效率低下的問題,提出了一種基于BoW模型的圖像分類方法。在BoW模型中,采用加權的K均值聚類方法完成特征與視覺單詞之間的映射;然后對聚類產生的視覺單詞進行閾值驗證,去除冗余的詞匯,生成最終的視覺詞典。
關鍵詞:BoW模型;圖片分類;特征提取;K均值聚類
引言
對人類而言,眼睛在捕獲外界傳來的視覺信息之后,會將這些信息移交給大腦進行處理,大腦在對眼睛看到的圖片中進行解讀之后,將會在短期記憶里描述圖片里有些什么內容。大腦在記憶圖片里的內容時,實際上也是將視覺信息轉存為它所采用的獨特表示方式。相應的,在計算機視覺領域,人眼的功能由攝相機等成像設備模擬,大腦的分析過程則采用計算機去模擬,計算機通過對攝像機獲取的數據信息進行處理,從而給出圖像的內容的解釋。因此要找到一種合適的表達方式,讓計算機能夠像人腦一樣來表述圖像的內容。只有合適的表達方式,才能讓計算機實現基于內容的進一步的圖像操作。
BoW模型就是一種比較常用的圖像特征描述子。起初BoW模型是針對文檔信息處理和文本檢索而建立的。它忽略了語法和語序,僅以單詞為基本單位來對文本進行描述。推廣到圖像處理中的BoW模型是通過圖像的局部特征向視覺單詞的映射實現的,下面將從BoW模型出發,分析說明一種基于BoW模型的圖像分類方法。
1 BoW模型
BoW( bag of words)模型最先由Csurka等[2]從自然語言處理領域引入到圖像分類領域。BoW模型是一種以單詞為模型的描述向量。將圖像類比為由若干單詞組成的文檔,然后從每幅圖像的視覺單詞頻率直方圖中得到圖像的描述向量,最后得到圖像所映射的類別。使用BoW模型對圖像進行分類可以取得較好的分類效果。
采用BoW模型的關鍵點是提取圖像的視覺單詞描述。通常的做法是采用SIFT算法提取圖像的局部特征,通過SIFT提取特征后,每幅圖像都由一個128維特征向量集合描述,此時對這個向量集合進行K均值聚類,最后將得到K個聚類中心作為視覺單詞,所有視覺單詞的集合就是視覺詞匯表。由于聚類的不精確性,以及缺乏先驗知識時K值設置的隨意性,視覺詞匯表往往具有一定程度上的冗余。圖像的分類是在生成視覺詞典之后完成的。通常是采取與生成詞典時一樣的算法來提取特征,然后做出圖像的視覺單詞頻率直方圖,得到圖像分類的結果。如果在特征提取過程中混入了噪聲,最后的結果可能會出現偏差。基于以上分析,本文所提出的采用BoW模型實現圖像分類的方法,首先是對特征進行加權,采用加權后的K均值聚類,生成初始的視覺詞典,然后根據一定的檢驗判定原則,對視覺單詞進行驗證,刪去冗余詞匯,構成最終的視覺詞典。
2 加權的K均值聚類
在視覺詞匯表構建時,使用最廣泛是無監督聚類算法,例如K均值算法。然而,在實際圖像中特征描述符中的每個特征維度的取值范圍不同,并且對于圖像分類來說,每個維度具有不同的重要性。但傳統的K聚類方法將所有的特征一視同仁不加區分。因此,為了構建更加有效的視覺詞典,本文采用加權的K均值算法,該算法采用明科斯基距離對特征進行加權。
4 實驗結果與總結
為了更好地說明本文所提出的基于BoW模型的圖像分類方法的有效性,隨機從數據庫Caltech 101以及Caltech 256中抽取樣本來進行驗證。對每個樣本組,分別采用本文所提的對視覺詞典的生成做出優化的方法和傳統的沒有任何改進的基于BoW模型的圖像分類方法來進行圖像分類訓練識別實驗。
實驗結果證明,無論視覺詞匯表是大還是小,用加權的K均值聚類的效果都比使用普通的K均值聚類的效果要好。這說明,本文所提出的采用加權的K均值方法來生成視覺詞典是能夠取得更優的效果的。
參考文獻
[1]王瑩,基于BoW模型的圖像分類方法研究[D].哈爾濱工程大學,2012.
[2]Csurka G,Dance C,Fan L,et al.Visual categoriza-tion with bags of keypoints[C].ECCV 04 Workshopon Statistical Learning in Computer Vision.Prague,Czech,2004:59-74.
[3]李科,游雄,杜琳.基于多特征組合與優化BoW模型的影像分類技術研究[J].系統仿真學報,2016,28(6):1386-1393.
[4]李宇,王宏琦,孫顯.利用多尺度語義模型的復雜圖像目標自動提取方法[J].武漢大學學報(信息科學版),2012,37(9):1064-1067.