劉會波
上海市同濟大學軟件學院,上海 200438
圖片分類即基于圖片內容對圖片進行分類。過去的很多論文都是基于支持向量機(SVM)構建分類器[1],并取得了一定的成果。但是,要獲得很高的圖片分類正確率以及穩定性仍具有相當大的挑戰。這部分是因為語義相關的圖片可能并不是一個線性超平面的特征空間。本文著重探討這個問題,并提出了一個新穎的基于熵描述符的圖片分類算法。
文中提出的熵用來描述表示幾何特征的流形特征。通過最小化熵值,將圖片數據組織為一個語義連續的環。優化的環實際上為訓練圖像建立了一個數學模型,而這些模型可用來決定測試圖像的分類標簽。該分類策略為:首先搜索該測試圖像在每個環中最優或算法所能達到的最優位置。對于每個環,測試圖像會插入使熵增加最小的位置,再通過比較所有環的熵增量,測試圖片會添加到熵值增加最小的環所代表的分組即分類中。在本文的研究中,采用禁忌搜索方法[2]求解該優化問題。
圖片的語義表示是圖片分類方法成功的關鍵。本文的研究中,我們應用幾何流形熵(GEOMEN)描述特征空間中得圖片的語義相似性。

且各s(X,O,i)為兩分量加權和:空間分量p(X,O,i)和幾何分量g(X,O,i)如下:

上式a是用來修正空間分量對GEOMEN的貢獻大小。GEOMEN表征按照順序O連接的環的平滑程度。另外,它也是在數據近似性的量度。因為圖片排序可以被看做提取一維流行的問題,但實際情況下這是一條曲線,因此我們僅僅考慮在一維曲線上GEOMEN的表示。

引入正則項可以修正噪聲對曲率的影響。
因為如果兩個類別有一個明顯的區別,那么在邊界點處熵值便會極大的增加。這個啟發我們對一個點的錯誤分類將會導致該類最優環熵值的急劇增加。反之,如果一個點正確分組進入一個類,該類的最優環的熵值將只會增加一點點。這正是本文基于熵描述符的圖片分類算法基本框架的基本思想。因此每個類首先都需要通過訓練獲得一個最優環即該類別的模型。這樣對于待預測圖片,通過比較其插入每個最優環的熵增即可獲得該圖片的分類標簽。
這樣,為了找到最優環,我們需要最小化GEOMEN值,亦即:O?=argminS( X, O)。在該研究中,我們估計通過簡單的禁忌搜索算法獲得熵的全局最小值。關于禁忌搜索算法可以參看文獻[2]。
每個類的最優環實際上訓練圖片的提取模型。該模型可用于獲取測試未知圖片的類別標簽。分類的策略為在所有環中找到圖片Q的最優位置。測試圖片的類別即位最優位置所在環的類別。
本實驗采用PHOG[3]作為特征描述符。實驗針對對三個數據集進行了測試:UMIST 人臉數據集,以及自制的背景雜亂的汽車數據集,飛機模型數據集。飛機模型數據集通過使用3DMAX軟件對各種飛機模型進行旋轉,并選取角度渲染投影成二維照片獲得。同時,我們基于SVM的分類器與之相比較。
由表1可知,我們的算法框架具有更好的性能,更高的正確率以及可靠性。
人臉數據集表明我們的算法框架中在人臉分析中具有很好的分類性能。同時,汽車數據集盡管背景雜亂,但仍具有較高正確率,更比SVM高出22.50%,表明該框架對背景的高穩定性。同時,對于飛機模型優異表現,表明該算法框架對于基于圖片的模型檢索的重大應用潛力??傊撍惴o論對于多視角圖片集中,不管背景雜亂與否,總能表現出優秀的分類正確率和健壯性。

表1 實驗結果對照表
[1]X.Li,L.Wang and E.Sung"Multilabel SVM active learning for image classification",Proc.ICIP,p.2207,2004.
[2]C.Zhang,H.Li,Q.Guo,J.Jia,and I.-F.Shen.Fast active tabusearch and its application to image retrieval.In IJCAI’09,pages 1333-1338,2009
[3]A.Bosch,A.Zisserman,and X.Munoz.Representing shape with a spatial pyramid kernel.CIVR,2007.