浙江工業職業技術學院 吳曦德
基于SURF特征的PLSA圖像分類器研究
浙江工業職業技術學院吳曦德
在圖像分類中,存在兩方面的因素影響著圖像分類的性能。第一個是圖像的采集過程中受到的客觀影響。第二是選擇分類器的主觀影響。考慮上述影響分類性能的因素,本文對局部特征、圖像表示模型和無監督分類方法進行了研究。
圖像分類;SURF PLSA;視覺詞典
目前,圖像分類的性能主要受到兩個方面的影響。第一個是圖像采集過程中對圖像的客觀影響。第二是選擇分類器的主觀影響。目前的圖像分類方法是按照是否需要訓練樣本分為監督分類和無監督分類。
針對上述的兩類問題,本文選擇圖像的局部特征來處理光照、尺度和旋轉、遮擋等問題的影響。再選擇PLSA這種分類表現優良的無監督分類算法對圖像進行分類。本文結合視覺詞典的方法,得到數據集的共生矩陣,再從共生矩陣中提取出潛在語義信息。在PLSA中,我們使用期望最大化,EM(Expectation Maximization)算法對參數進行最大似然值估計。然后得到主題關于圖像的概率分布,即某一圖像對應各主題的隸屬程度。該圖像的類別則為隸屬度最高值所對應的主題類型。
特征是對物體的一種表示或者描述。它是從對象中處理或測量出來的數據。在選擇特征時,我們最簡單則是使用圖像各像素的灰度值。但處理這樣特征的計算量大,針對某些噪聲和轉換敏感,不易后期識別。正因為含有不同信息的特征處理不同的問題,所以提取特征時應該具體問題具體分析。
SURF將Hessian行列式(DoH)中的二階高斯微分模板進行了離散化,使得圖像特征的計算速度更快。SURF特征點的搜索過程分為建立尺度空間、檢測特征點和生成特征向量。
在處理圖像分類的問題時,先得到一個能充分描述圖像的描述符或描述向量。通過視覺詞典的建立,可以輕松的得到圖像的矢量表示。視覺詞典以傳統的模型為基礎。由此模型得到的表示向量,體現了在文本中單詞的字頻而忽略文本單詞語序和文法。提取圖像的視覺詞典類似于文檔單詞表的生成。在視覺詞典的模型中,算法同樣不考慮特征之間的空間關系,算法的核心在于視覺單詞的生成和統計。在文本處理中,BOW模型的制勝原因在于提取出高辨識能力的單詞和語言的冗余信息。
(1)特征提取
BOW模型能在計算機視覺領域中得到廣泛應用,很大一部分原因是因為現代特征具有很高的識別性。這些識別性強的特征可以生成出強語義信息的視覺單詞,這些語義包含著圖像的隱含主題信息。例如采用顏色特征對圖像進行顏色直方圖統計。如果某一圖片紅色居多,我們可以得到這張圖片為暖色系的隱含信息。如果要對圖像中的局部對象進行分析,這時使用局部特征更為良好。使用SURF算法作為視覺單詞的基礎,可以得到一組強描述性的視覺詞典。
(2)詞典的生成
視覺單詞生成的過程就是把相近相似的圖像特征歸為一類,最后獲取類別的中心為單詞。如圖1所示,從圖像提取出一條一條的特征向量后,再將具有共性的特征向量聚類到一起。每個聚類的中心點則是所生成的視覺單詞。這里我們使用k均值算法無監督的構造視覺詞典。根據事先設置的K值,把所有圖像特征劃定成K類。最后由k均值算法計算得到的K個聚類中心組成視覺詞典。

圖1 生成視覺單詞過程
(3)將圖像用視覺單詞表示
利用局部特征提取算法和聚類算法將特征融合為一個個的視覺單詞。然后將這些視覺單詞與圖像的所有特征進行近似比較,用詞典中的視覺單詞來代替所有特征。最后統計K個視覺單詞出現的次數,得到一個關于視覺詞典的直方圖。
到此,我們就將一幅圖像表征為一個K維的向量。之后,將所有圖像的表示向量輸入到分類器中實現圖像分類功能。
圖像分類是從圖像信息里提取出的不同特征,將目標劃分到各自的類別區域中。概率潛在語義分析(Probability Latent Semantic Analysis,PLSA)就是一種隱含變量模型學習算法。 PLSA模型是LS A的概率學延伸。PLSA最早應用于自然語言處理領域,主要解決單詞在文本中表達的語義問題。因為單詞具有多義性,還有一個語義具有多詞性。如果不弄清楚單詞在文本中真正表達的含義,就會造成文本或語句匹配錯誤率大。PLSA不僅繼承了LSA的辨別一義多詞的優點,同時還使用統計學中的最大似然估計對算法進行優化計算,這使得文本間的語義關系更為清晰。文本與單詞之間的關系被投射到一個低維的概率空間,再通過Expectation Maximization進行參數估計,化解了語義鴻溝。同時該算法計算穩定,具有很強的自適應性,計算速度快,對文本的共生矩陣進行分析便可得到文本的類別信息。

圖2 精度比較圖

表1 兩種分類器的精度值
為了驗證本文方法的有效性,首先從基于相同的視覺詞典模型,比對不同的無監督分類算法的精度。這里選擇的是K-means與PLSA算法進行對比。再基于相同的分類器,對比不同的局部圖像特征對分類器性能的影響。
這里我們使用相同視覺詞典形成的表示向量作為輸入。其中,視覺詞典使用的是SURF特征,視覺詞典的單詞數為300。向量輸入值分別送入K-means與PLSA分類器中。圖2是對兩種分類方法的精度比較圖。表1統計了分類器對2類,3類,4類圖像集的分類精度情況。
綜合圖2表1,我們可以看到PLSA分類器的總體性能更優。在2類圖像分類中,兩者的分類精度相近,都為0.9左右。但隨著分類圖像數目增多,類別增多,兩種分類器的分類精度都有所下降。原因在于分類圖像數目和類別較少時,分類器要處理的信息量少,圖像的信息易于區分。但隨著分類的圖像數目增加,冗余信息和噪聲增多,圖像之間的變化也增多,干擾了分類器的判斷。但是在這樣的情況下,PLSA的分類器的分類精度都高于K均值分類器。在復雜情況下,PLSA分類器的精度下降得慢,抗干擾性強于K-means算法。
本文以實現自動分類器為目的,從特征提取、圖像表示模型和無監督分類算法等方面展開討論和研究,構造基于SURF特征的PLSA分類器,并在給定的圖像數據集進行實驗,實現了圖像的自動分類。
[1]趙清杰,錢芳,蔡利.計算機視覺[M].北京:機械工業出版社,2005.
[2]D.G.Lowe,Object recognition from local scal-invariant features[J]. Proc of the7th IEEE International Conference on Computer Vision,Kerkyr a,Greece,1999:1150-1157.
[3]M.J.Swain,D.H.Ballard.Color Indexing[J].International Journal of Computer Vision,1991,7(1):11-32.
吳曦德(1981—),男,浙江紹興人,碩士,講師,現供職于浙江工業職業技術學院。