范馨予

摘 要 對于圖像的自動標注,探索合適的方法能提高系統標注結果在語義范疇的正確性。該文探討了基于稀疏編碼的圖像自動標注。結合近鄰及統計的思想,以corel-5k原有人工標注為基礎,在matlab平臺上對其測試圖集進行自動標注。從結果上看,稀疏編碼方法準確率相比常用方法偏低,但對于圖像特征的學習明顯優于其他方法。因此,稀疏編碼在圖像的自動標注領域有可行之處。
【關鍵詞】稀疏編碼 圖像自動標注 近鄰求解
1 引言
圖像自動標注是通過獲得已經標注好的圖像集,對未標注過的圖像進行標注。近年來,對圖像自動標注的研究增多,使準確率逐漸提高。圖像自動標注使用最廣泛的是基于學習方法的分類模型,例如判別式模型、生成模型等。此外,還有一種基于最近鄰的分類模型。因為最近鄰的標注方法使用的視覺特征不能很好的反映語義信息,所以應用并不普遍。但在視覺特征的提取和近鄰圖像求解方法進行改進,就可以提高近鄰模型的標注性能。基于稀疏編碼的圖像自動標注就是一種基于最近鄰的分類模型。
2 最近鄰方法論證
2.1 圖像特征提取
最常用的圖像特征是顏色特征,除此之外還有紋理特征、形狀特征、空間特征等特征。一般特征的提取有很多方式。顏色特征、sift特征、freak特征、brisk特征等等。因為顏色空間的HSV特征結果便于后續的視覺分析且計算量小,本文只考慮圖像顏色特征的提取。
2.2 最近鄰求解
最近鄰圖像求解是圖像自動標注最重要的部分,其核心是通過對提取的圖像特征運算得到與其最相似的圖像。最近鄰圖像求解算法很多,本文只在最常用的歐式距離和最終使用的稀疏編碼之間展開討論。
2.2.1 歐式距離算法
歐式距離算法很早就在圖像邊緣檢測、人臉識別、數據審計等不同方向有著廣泛的應用。對于相似性度量,歐式距離是一個簡單實用的算法。在尋找相似的圖像中,為了提高準確性,提取的圖像特征不一定只有顏色特征一種。但考慮到不同特征的影響不同,這里引進一種加權的歐式距離算法:
2.2.2 稀疏編碼算法
稀疏編碼源自于神經網絡,是近年來圖像信號處理領域的一個研究熱點。其最大的優勢是壓縮數據量,給在高緯度數據的計算帶來極大便利。例如兩個上萬緯的向量空間,一個作為訓練空間一個作為測試空間。兩個空間做一個簡單的內積可能達上萬次。但如果這兩個向量空間里有n個和m個非零元素,那么只用做min(n,m)次乘法。并且當m,n遠大于零元素的個數時,計算量就會大大減少。但并不是min(n,m)越小越好,對于訓練空間,若n的值遠遠小于空間緯度值,即數據點個數遠小于特征數量,并且這時候還沒有任何約束,便會出現過擬合的情況。過擬合不是沒能擬合好訓練數據,相反,過擬合的代價反而與零非常相近,這樣則會導致訓練結果沒法泛化到測試樣本空間中去。要是因為特征過多發生了過擬合,減少不必要的特征量便能減少過擬合。但很多時候,其特征不僅龐大還沒有冗余,所以一般都用正則化在保留所有特征變量的情況下減少其數量級。正則化可以通過坐標下降法和范數求解等方法實現。這些方法,最常用的l1范數正則化。l1范數是從凸優化角度計算訓練空間的稀疏系數,是l0范數的最優凸近似,又比l2更具有稀疏性。因此,本文采用l1正則最小二乘法求解測試目標與訓練空間對應的稀疏系數。
式中y為測試圖像特征,A是所有訓練圖像特征構成的矩陣,x為稀疏的基向量。λ∑xi是正則化項,λ是正則化參數。正則化項能對高階項進行收縮,通過在很好的擬合數據和保持參數值較小之間找到平衡。λ越大擬合的結果越簡潔,若過大,則擬合的結果將會趨近一條水平線,此時為欠擬合。
綜上所述,歐式距離算法雖然相對簡單,但其圖像所有特征點同等對待,這大大減少了圖像之間的關聯性同時也失去部分圖像信息。而稀疏編碼算法不僅能考慮圖像的關聯性和差異性,同時也是一種魯棒性很強的算法。因此,本文最終使用稀疏編碼方法在圖像的hsv顏色特征上對圖像進行自動標注。
3 實驗思路
Corel-5k數據集圖像集共包含大小相等的5000張圖片。Corel-5k分為50個大類,每一類都是100張圖,且每一類都有相應主題。其中每張圖片已被人工標注了1~5個單詞。
本實驗先提取數據集里所有圖片合適的圖像特征和人工標注的關鍵詞作為訓練圖集數據,然后采用相應的算法求解測試圖集各幅圖對訓練圖集最近鄰的k幅圖片,最后統計這些圖片中出現次數前n個的標注作為訓練圖片的自動標注結果。
程序首先對corel-5k數據集所有圖像進行HSV顏色特征的提取,將訓練圖像組成一個矩陣,測試圖像組成另一個矩陣。一次對測試圖像求解相對訓練圖像的稀疏系數。求解l1范數引用了[8]M. Figueiredo, R. Nowak, and S. Wright的梯度投影法。取出前五個稀疏系數最小的圖像,再統計前五個出現次數最多的人工標注的詞作為自動標注的結果。最后將結果和測試圖像人工標注的結果比較分析,并求解查全率查準率。
4 實驗數據分析
Corel5K 數據集部分測試圖像與部分近鄰圖如下.由圖可以看出,在視覺顏色的分布上,稀疏編碼求得的近鄰圖像十分相似。雖然有個別看上去有些區別,但大體上保持了一致。
測試圖像a的自動標注有Coral、Ocean、Reefs、Fish、Sea,人工標注有Coral、Fan、Ocean、Farms、sea。圖像b的自動標注有Field、Horse、Mare、Grass、Tree,人工標注有Field、Foals、Mare、horses。從結果看來,本文自動標注的結果和人工標注結果大體一致,大部分人工標注的關鍵詞在自動標注的結果中都有出現。此外,自動標注還添加或修改了個別關鍵詞。
最后計算的查準率和查全率為25.115%和24.519%。雖然相比歐氏距離的29.968%和29.487%偏低。這跟取值有關,本系統中=1,這個值的參數不一定對每幅圖像都合適。有些圖像可能迭代次數不夠,有些圖像可能迭代次數過多,從而影響了稀疏編碼之后的標注。
從自動標注結果的整體來看,自動標注的個別詞會有語義鴻溝的出現。因為計算機只能對圖像低層特征進行計算,無法自下而上推知高層語義,所語義鴻溝在結果中必然存在。可以看到,用稀疏編碼計算出的近鄰圖像視覺上顏色的相似度很高。但是某些相似的圖片中的語義和源測試圖像并不一致。如測試圖像a語義中最主要的是珊瑚,但其近鄰的圖像有一幅語義主題是魚。這些標注混入近鄰圖像人工標注的統計中來,使測試圖像的自動標注結果有誤。但語義鴻溝不一定都會產生偏差。從測試圖像b的標注結果中可以看到,其近鄰的圖語義主題有熊和房子。但自動標注結果在人工標注里的田野、馬、母馬單詞基礎上增添的草坪和樹對于測試圖像是一種正確的學習,反而使自動標注結果更加具體豐富。所以,若是在數量更加龐大且分類標注更加細致的訓練圖像集,語義鴻溝會得到一定程度的抑制,自動標注的準確率可能也會得到一定程度的提高。
5 結語
本文用稀疏編碼的方法實現了對Corel5K 數據集的測試集進行自動標注。但基于稀疏編碼的方法的效率仍需要提高。可以通過改進優化l1范數求解問題優化,例如調整的取值;可以在系統求解稀疏系數前對每一幅測試圖像計算其最合適的;在人臉的圖像識別上,有一類新穎高效的建立在l2范數求解基礎上的稀疏描述方法,計算復雜程度相對較低。但人臉識別算法移植到圖像識別,中間也會有問題需要注意。對于標注的改進方法,可以把關聯詞與詞之間的語義聯系,而不是每個標注詞都是互相獨立的。例如草(grass)和樹(tree)語義聯系比較緊密,當一幅圖被標注了草(grass),那么它被標注上的樹(tree)的概率也更高。這種關聯,也是改善圖像標注性能手段之一。因此,尋找滿足應用的快速稀疏編碼和提高圖像標注在語義上的準確率是下一步重點研究的方向。
參考文獻
[1]吳偉,高光來,聶建云.一種融合語義距離的最近鄰圖像標注方法[J].計算機科學2015,42(01):297-302.
[2]劉瑞元.加權歐氏距離及其應用[J].數理統計與管理,2002,21(05):17-19.
[3]劉建偉,崔立鵬,劉澤宇,羅雄麟.正化稀疏模型[J].計算機學報,2015,38(07):1307-1325.
[4]臧淼,徐惠民,張永梅.基于距離約束稀疏/組稀疏編碼的圖像自動標注[J].四川大學學報,2016,48(05):78-83.
[5]溫超,耿國華.基于內容圖像檢索中的“語義鴻溝”問題[J].西北大學學報(自然科學版),2005,35(05):536-540.
[6]徐勇,范自柱,張大鵬.基于稀疏算法的人臉識別[M].北京:國防工業出版社,2014.
[7]鮑泓,徐光美,馮松鶴,須德.圖像自動標注技術研究進展[J].2011,38(07):35-40.
[8]M.Figueiredo,R.Nowak,andS.Wright.“Gradientprojection for sparsereconstruction:Application to compressedsensing and other inverse problems,”IEEE J.Sel.Topics Signal Process.,vol.1,no.4,p.586-597,Dec. 2007.
作者單位
北方工業大學電子信息工程學院 北京市 100144