王 琳,張素蘭,楊海峰
(太原科技大學 計算機科學與技術學院,山西 太原 030024)
隨著智能科技和互聯網的快速發展,圖像資源信息迅猛增長,如何對圖像進行有效自動標注以提高圖像檢索的準確性仍是計算機視覺領域的重要研究內容。然而,由于人工圖像標注的主觀性和不可靠性,使得人們對于同一幅圖像有不同的理解,造成圖像標注的語義內容和標簽不符,影響了圖像檢索的準確性。而且,人工給海量圖像進行標注也很不現實。因此,目前仍有不少研究人員致力于圖像語義自動標注(automatic image annotation,AIA)[1-3]模型和方法的研究工作,主要利用人工智能、模式識別和機器學習等方法,對圖像內容進行語義解釋,從而使計算機可以自動獲取圖像的語義信息,幫助人們更有效地進行圖像檢索。
其中,Cheng[4]等將圖像自動標注方法主要分為生成模型[5]、判別模型[5]、標簽補全[6-7]、深度學習[1,8]和最近鄰模型[9-14]等幾種。由于大規模網絡圖像的出現,以及人們通常直觀地假設相似圖像可能含有共同標簽使得基于最近鄰模型的圖像自動標注方法一直深受研究者的關注。Su等[9]提出了一種基于圖學習的最近鄰圖像自動標注方法,該方法考慮了標簽之間的相關性并將圖像到標簽之間的距離與基于圖學習的分數相結合來獲得標簽的決策值。雖然該方法在一定程度上提高了圖像標注的性能,但其采用全局特征和局部特征進行圖像特征提取,過程比較復雜且提取到的圖像特征的辨識度不高。Verma等[10]在2PKNN[11]的基礎上進行了改進,將圖像-標簽之間的相似性與圖像-圖像之間的相似性結合起來,并提出了一種度量學習框架,該方法利用了先進的特征提取、編碼以及嵌入技術從而提高了標注性能。Jin等[12]為了彌合“語義鴻溝”,提出了一種基于圖像距離度量學習的鄰域集(NSIDML)方法,不限制樣本是否帶標簽,充分利用現有資源,進而提高圖像自動標注性能。但該方法因沒有充分考慮圖像視覺特征與標簽之間的概率關系,一定程度上影響了圖像標注性能。Rad等[13]利用松弛聯合非負矩陣分解(LJNMF)對圖像的高維特征進行降維,然后再計算圖像特征間的距離,最后依據距離權重進行標簽傳播實現圖像自動標注。柯逍等[14]先基于深度特征從視覺和語義兩個方面構建近鄰圖像,然后根據距離計算標簽概率實現圖像標注,該方法在一定程度上提高了圖像標注的性能,但是沒有分析圖像視覺特征與標簽之間的依賴關系。總之,盡管這些基于最近鄰模型的圖像自動標注方法取得了一定的效果,但是低效復雜的特征提取方式以及沒有充分考慮圖像低層視覺特征到高級語義之間的依賴關系使得圖像標注性能仍有待提升。
近年來,卷積神經網絡(convolutional neural networks,CNN)在圖像處理領域得到了很好的應用[15-17],該模型可以直接將原始圖像輸入到網絡中,不需要預先對圖像進行復雜處理,并且可以自動提取圖像特征,隨著訓練過程的深入,能夠提取出更具有辨識度的圖像特征,具有較強的表達能力。隨著卷積神經網絡的深入研究,越來越多的學者將卷積神經網絡應用于圖像自動標注中。如高耀東等[18]利用卷積神經網絡進行自主學習圖像特征,并改進損失函數從而改善輸出結果。除了考慮高效的圖像特征提取方式,如何有效建立圖像與標簽之間的某種關系是圖像自動標注中需要解決的關鍵問題,而貝葉斯在不完全信息下對未知狀態進行概率估計的理論特性,可以在已知圖像的條件下構建圖像特征和標簽之間的概率分布,從而可以找出圖像低層視覺特征與高級語義之間的概率關系,縮小語義鴻溝。如Verma等[19]利用貝葉斯后驗概率找尋給定樣本和標簽的K1個最近鄰,并根據與鄰居的距離計算標簽置信度預測標簽,有效地提高了圖像標注性能。因此,為改善傳統的基于最近鄰模型圖像自動標注方法在圖像底層視覺特征提取和視覺特征與標簽之間映射關系的不足,文中提出了一種改進的基于CNN和加權貝葉斯的最近鄰圖像標注方法,進一步提高了圖像自動標注性能。
最近鄰模型的圖像自動標注方法認為若圖像有相似的底層視覺特征,則有相似的語義標簽。因此,最近鄰模型的圖像自動標注方法的一般步驟為:(1)構建圖像的底層特征;(2)根據圖像的底層視覺特征,利用距離度量方法找尋待標注圖像的近鄰圖像;(3)利用合適的標簽傳播方法,將近鄰圖像中的標簽傳播給待標注圖像。
現有的基于最近鄰模型的圖像自動標注方法的改進基本包括三個方面:(1)構造不同的視覺特征用以提高圖像標注性能,比如提取圖像的SIFT特征、HOG特征、進行特征融合等等;(2)選取不同的距離度量策略,比如歐氏距離、谷歌距離等等;(3)采用優化的標簽傳播算法,使得圖像的標簽可以更好地傳播。基于最近鄰模型的圖像標注方法的代表性模型有JEC[10]、TagProp[10]、GLKNN[9]、2PKNN[11]等等。
卷積神經網絡[20]是一種在深度神經網絡基礎上提出來的多層感知機,相當于一個圖像的特征提取器,被廣泛應用于計算機視覺領域。CNN的主要特點是可以在神經元之間進行局部連接和權值共享,并且在一定程度上可以進行圖像的平移、旋轉、傾斜和尺度不變性等操作,還可以同時完成圖像的特征提取以及特征分類,用來提取圖像特征十分高效。CNN的主要結構為輸入層、卷積層、池化層、全連接層以及輸出層,經過卷積層和池化層操作提取圖像的視覺特征圖,再通過全連接層將卷積結果與圖像全連接,根據權重計算輸出結果,以達到提高表達能力的目的。
1.2.1 卷積層
CNN在卷積層進行特征的局部感知和參數共享,然后通過不同的卷積核和圖像像素值進行對應卷積運算得到圖像的特征映射,從而提取出圖像的視覺特征。這一層也是整個卷積神經網絡的核心層,提取出圖像特征后,以特征圖的形式表示圖像特征。其表達式如式(1):
(1)
其中,ai,j表示第i層的第j個卷積核對應的特征值,對卷積核的每個權重進行編號,ωm,n表示卷積核的第m行第n列權重,ωb表示卷積核的偏置項,×表示卷積運算,f(·)表示激活函數(此處用Relu函數)。為了簡化操作和復雜數據,Relu對卷積操作得到的結果進行非線性激活響應,舍棄不相關數據(值小于0的數據改寫為0)。
1.2.2 池化層
卷積過程中采用多個卷積核進行卷積操作,會使得信息冗余,因此為了減少數據量,降低計算量,減少機器負載,要進行降維也就是池化操作。CNN的池化層對卷積層的特征向量圖進行下采樣操作,依據特征圖的局部相關原理將卷積層處理圖像時產生的冗余信息減少,保留圖像的重要信息。現如今常用的池化操作有平均池化和最大池化等,最大池化是將對應區域內神經元的最大值代替該區域進行輸出,從而在保留圖像特征信息的同時完成數據降維。因此,文中采用大小為2×2的池化核進行最大池化,示意圖如圖1所示。

圖1 池化核為2×2的最大池化示意圖
1.2.3 全連接層與輸出層
與卷積層的局部連接不同,全連接層采取全連接的思想,將卷積層和池化層的局部信息進行整合,運用Softmax分類函數得到每個類別對應的概率值,再傳遞給輸出層,進而最終將特征圖映射為特征向量。
文中給出的改進的基于CNN和加權貝葉斯的最近鄰圖像標注方法的具體思想架構如圖2所示。

圖2 基于CNN和加權貝葉斯的最近鄰圖像標注方法架構
第一步:利用圖像的CNN特征找尋待標注圖像的近鄰圖像,并統計近鄰圖像中所含有的標簽以及標簽個數,構成候選標簽集合。
第二步:篩選含有候選標簽的圖像得到圖像集合,計算其視覺特征矩陣每一維的均值,利用貝葉斯后驗概率公式計算候選標簽與待標注圖像視覺特征之間的概率值,獲得候選標簽標注給待標注圖像的概率。
第三步:選擇標簽標注圖像。考慮到待標注圖像的近鄰圖像所含有的標簽的頻率不同,設置一個α系數表示標簽權重。將α系數與第二步所得的標簽概率相結合,計算新的標簽概率,獲得新的候選標簽,從中選擇概率值高的前5個進行標注。
圖像自動標注是將最有可能代表圖像的關鍵詞標注給圖像,那么,圖像越相似,含有相同標簽的可能性越大。因此,進行圖像自動標注的首要步驟就是尋找待標注圖像的相似圖像,也就是近鄰圖像,其中最重要的一步就是提取圖像的視覺特征。
卷積神經網絡提取圖像特征優勢明顯,疊加卷積層和池化層構建多層網絡結構,并利用Relu函數對卷積結果進行非線性激活,將圖像特征映射為4 096維的特征向量。文中采用圖像網絡大規模視覺識別挑戰(ILSVRC)中提出的卷積神經網絡方法[21],首先初始化卷積神經網絡模型,在1 000類分類數據集ImageNet上進行預訓練,并基于文獻[22]的VGG-16模型提取4 096維的圖像特征向量,包括13個卷積層,5個最大池化層(池化核均為2×2),2個全連接層。具體過程如下:
(1)使用數據增廣。在256×256的原始圖像中隨機選擇224×224的區域構成輸入圖像,采用ImageNet數據集進行預訓練。
(2)進行卷積池化操作。13個卷積層均使用3×3的卷積核,步長設置為1,第二個卷積層后接一次最大池化第四個卷積層后接一次最大池化,第七個卷積層后接一次最大池化,第十個卷積層后接一次最大池化,第十三個卷積層后接一次最大池化。
(3)局部響應歸一化。在卷積層中使用LRN進行局部響應歸一化,應用在激活函數和池化函數之后,增大響應較大的值,抑制較小的值。
(4)進行全連接層計算。卷積操作和池化操作完成后,與傳統的卷積神經網絡接三個全連接層不同,文中接兩個全連接層,將圖像轉化為1×1×4 096的輸出圖像,得到圖像的4 096維特征向量,并在這兩個層內使用dropout進行正則化,避免過擬合。
完成圖像的特征提取之后,需要根據圖像的CNN特征向量找尋待標注圖像的近鄰圖像。使用歐氏距離計算圖像之間的視覺距離,兩幅圖像之間的距離值越小,說明兩幅圖像在視覺上越相似。近鄰圖像個數的取值將在3.2小節進行分析。
(2)
其中,P(li)是標簽的先驗概率,P(J)是圖像的先驗概率。參考文獻[19],將P(li)對所有標簽li設置為P(li)=1/M,其中M為常數;P(J)是測試數據中找尋待測圖像的概率,將其設置為1。
針對條件概率P(J|li),由于平均數可以表示圖像特征矩陣中特征向量值的趨勢,而且與圖像特征矩陣中的每一個特征向量值都有關系,不會脫離圖像特征矩陣,因此利用均值結合高斯密度給定P(J|li)的計算公式:
(3)
其中,xd表示待標注圖像的每一維的特征向量,Yi表示含有共同標簽li的訓練數據的子集(Yi?J),μYi表示通過含有共同標簽li的圖像矩陣計算得出的每一維的均值。
通過上述公式給出圖像的特征與標簽之間的概率關系,得出一幅圖像含有某一個標簽的概率值為多少,從而初步獲得標簽屬于待標注圖像的概率。
考慮到近鄰圖像與待標注圖像的相似度不同,不同近鄰圖像含有的標簽不一樣,那么含有同一個標簽的圖像個數就不一定,即近鄰圖像中標簽的頻率不同。因此,將標簽頻率看作候選標簽的權重,給定系數α計算候選標簽的權重,系數計算公式為:
α=n/G
(4)
其中,n表示最近鄰圖像中標簽的頻數,G表示最近鄰圖像包含的所有標簽總數。
結合候選標簽在近鄰圖像中的頻率,將候選標簽的頻率值作為標簽權重與3.2節得到的概率值相乘得到候選標簽的最終概率值,并進行重排,從中選擇概率值最高的k(k=5)個進行圖像標注。
為了驗證文中所提方法的有效性,在三個基準數據集Corel 5K、ESP Game以及IAPRTC-12上進行了實驗驗證。
Corel 5K數據集、ESP Game數據集以及IAPRTC-12數據集的具體數據情況如表1所示。

表1 數據集統計
實驗采用準確率(precision,P)、召回率(recall,R)以及F1值(F1)三個評估指標度量實驗結果,計算公式如下:
(5)

在文中方法中,參數N是待標注圖像的近鄰圖像個數,在本小節對其進行分析。從圖3~圖5中可以清晰地看出,在Corel 5K和ESP Game兩個數據集上三個評估指標的值均是有一段先降再升到達峰值,然后再下降。當N=30時,Corel 5K數據集上評估指標的值到達峰值,N=20時比N=30時的評估指標值略有降低,N=40時比N=30時的評估指標值下降明顯;當N=40時,ESP Game數據集上評估指標的值到達峰值,N=20時比N=40時的評估指標值略有降低,N=30時比N=40時的評估指標值下降明顯。在IAPRTC-12數據集上,三個評估指標值均在N=10時達到峰值,然后開始下降;當N=20時,評估指標的值比N=10時略有降低。因此,綜合三個數據集考慮,實驗中設置N=20。

圖3 Corel 5K數據集上評估指標的 值隨參數N的變化

圖4 IAPRTC-12數據集上評估指標的 值隨參數N的變化

圖5 ESP Game數據集上評估指標的 值隨參數N的變化
由于文中采用CNN提取圖像特征,因此分別與采用CNN提取特征以及采用其他方法提取特征的現有的比較好的標注方法進行對比:GLKNN[9]、CCA-2PKNN[10]、NSIDML[12]、IDFRW[24]、NL-ADA[25]以及OPSL[26]。
3.3.1 與采用CNN提取特征的方法比較
表2表示一些采用CNN提取特征的基于最近鄰模型的圖像自動標注的先進方法與文中所提方法的實驗結果對比,其中C表示提取特征為CNN特征。CCA-2PKNN通過使用典型相關分析(CCA)將不同特征組合,包括卷積神經網絡特征、編碼計算特征等等,嵌入到公共子空間從而最大化視覺內容和文本之間的相關性。IDFRW通過集成圖形的深層特征和標簽相關性構建圖像特征與圖像語義之間的映射關系,從而提高標注性能。GLKNN將圖學習方法和最近鄰方法相結合,利用圖學習方法傳播圖上對應于測試圖像的K最近鄰標簽,進一步提高標注性能。通過在Corel 5K、IAPRTC-12和ESP Game三個數據集上與傳統的圖像自動標注算法進行比較,比較結果如表2所示。

表2 在三個數據集上的實驗結果評估比較
從表2可以看出,在Corel 5K數據集上,文中方法與實驗結果相對較好的IDFRW相比,P提高了7%,R提高了13%,F1提高了9%。這是因為文中在獲取近鄰圖像之后進行圖像標簽與特征的概率構建,避免了在更多數據下進行關系映射,并且近鄰圖像的標簽與待標注圖像的聯系更緊密。在IAPRTC-12數據集上,文中方法與查準率最高的CCA-2PKNN相比,P降低了4%,R提高了30%,F1提高了20%;與整體實驗結果較好的GLKNN相比,P提高了5%,R提高了8%,F1提高了4%。在ESP Game數據集上,文中方法與查準率最高的TagProp-SD相比,P降低了13%,R提高了21%,F1提高了8%;與整體實驗結果較好的CCA-2PKNN相比,P降低了11%,R提高了18%,F1提高了6%;與GLKNN相比,P提高了8%,R提高了9%,F1提高了7%。這是由于在進行圖像標注時,文中在近鄰圖像的基礎上考慮了圖像的視覺特征與語義之間的映射關系,進一步提高了標注性能,而以上方法均忽略了圖像視覺特征與標簽之間的關系。雖然查準率有所降低,但是查全率與F1值均有大幅提高。
3.3.2 與采用其他方法提取特征的方法比較
圖6~圖8表示一些采用其他方法提取特征的圖像自動標注的先進方法與文中所提方法的結果對比。NL-ADA是Ke等人提出的屬性判別標注框架,基于未知圖像構造平衡數據集,并判別圖像的高頻低頻屬性,然后標注圖像。OPSL是Xue等人提出的通過最優預測子空間學習的方法去除特征空間的冗余信息,更好地進行圖像表示和圖像標注。NSIDML是Jin等人提出的基于圖像距離度量學習和鄰域集的圖像標注方法,目的是彌合圖像之間的語義鴻溝,進而提高圖像標注性能。通過在Corel 5K、IAPRTC-12和ESP Game三個數據集上與傳統的圖像自動標注算法進行比較,比較結果分別如圖6~圖8所示。

圖6 在Corel 5K數據集上的實驗結果評估比較
從圖6可以看出,在Corel 5K數據集上,文中方法與實驗結果較好的NSIDML相比,P提高了1%,R提高了10%,F1提高了4%;從圖7可以看出,在IAPRTC-12數據集上,文中方法與實驗結果較好的NSIDML相比,P降低了11%,R提高了7%,F1降低了3%;從圖8可以看出,在ESP Game數據集上,文中方法與實驗結果較好的NSIDML相比,P降低了11%,R提高了13%,F1提高了2%。文中方法取得了一定的改進效果,是因為文中采取卷積神經網絡方法,經過卷積神經網絡卷積層和池化層的作用,圖像的特征從基礎的顏色、紋理等特征轉換成更適用于圖像識別的特征,能更有效地進行待標注圖像的近鄰圖像搜索,從而提高圖像標注性能。總體來說,文中方法在Corel 5K數據集、IAPRTC-12數據集和ESP Game數據集上的實驗體現出了比較好的效果。

圖7 在IAPRTC-12數據集上的實驗結果評估比較

圖8 在ESP Game數據集上的實驗結果評估比較
從上述分析中可以看出,基于CNN和貝葉斯的圖像自動標注是有效的。從結果中可以看出,在Corel 5K數據集上的實驗,文中方法的評估指標值均優于所比方法,在IAPRTC-12數據集和ESP Game數據集上的實驗,文中方法整體上優于所比方法,查準率有一定的降低,但查全率和F1值均高于所比方法,這是因為待標注圖像的近鄰圖像可以為待標注圖像提供更準確的標簽,在此基礎上再考慮圖像低層特征與標簽之間的映射關系,豐富標簽信息,可以進一步提高圖像標注性能。
文中提出了一種改進的基于CNN和加權貝葉斯后驗概率的最近鄰圖像標注方法,利用CNN模型提取圖像特征以獲得表達能力更強的圖像特征,并根據此特征找尋更準確的待標注圖像的近鄰圖像,從而得到更準確的標簽。再通過貝葉斯構建圖像低層特征和語義之間的關系,選擇合適的標簽為待標注圖像進行標注。分別在三個基準數據集Corel 5K、IAPRTC-12和ESP Game上進行實驗分析,結果表明該方法可以有效提高標注性能。