李雯莉,張素蘭,張繼福,胡立華
(太原科技大學 計算機科學與技術學院,太原 030024)
E-mail:zhsulan@126.com
網絡圖像數據的爆炸性增長以及圖像標記的主觀性和隨意性,造成了大量圖像的標簽缺失和語義噪聲,不能很好地描述圖像內容.而且這些海量的圖像數據通常都包含著豐富的語義內容,但標簽的不完備卻給基于文本的圖像檢索帶來了巨大挑戰,影響了其他相關產業的發展.為豐富圖像標簽內容,提高圖像檢索準確率,許多研究者已對缺失標簽進行自動補全的圖像標簽完備方法展開了深入研究[1-4].
近年來,國內外對圖像標簽的完備標注研究取得了一定的成果.目前的研究工作中,一些學者將給圖像標簽補足問題轉化為標簽矩陣補足問題,其中,Wu L等人[5]提出了一種TMC模型,并且通過矩陣的形式將標簽和圖像之間的關系展示出來,借助搜索與之最為相似的圖像部分加以進行標簽補足;Guillaumin M等人提出基于K-近鄰圖像的標簽傳播算法[6],使用圖像底層視覺特征進行一系列特征融合加權尋找視覺近鄰完成圖像標簽傳播,根據視覺近鄰將相似度更高的相關標簽傳播給待標注圖像.這兩種方法提高了圖像標注量,但缺少對標簽本身相關度的分析,影響標注效果.Wu B等人[3]通過將缺少標簽的多標簽學習(MLML)問題視為從提供的標簽信息傳播到缺失標簽的節點依賴關系圖,通過不同的標簽依賴關系以構建兩種不同類型的混合圖(基于MG-CO的同類共現混合圖和基于MG-SL的稀疏-低秩混合圖),將圖像間相似性作為無向邊連接不同圖像間的標簽節點,利用語義層次結構作為有向邊來連接不同的類,或在所有標簽上嵌入高階相關性,分別基于這兩種圖,將MLML問題轉化為凸優化問題,進行標簽的完備;Zhang Y等[7]提出利用標簽之間的協方差矩陣描述成對標簽之間的相關性,但缺少與圖像本身底層特征的聯系;劉杰等人[8]聯合兩種不同模態(視覺模態和文本模態)的主題分布概率,構造圖像之間的關系模型,通過計算基于不同模態下先驗、后驗聯合概率分布完成標簽標注,雖然考慮文本模態對標注結果的影響,但由于很難精確得到圖像與標簽之間的分布關系,標注效果改善不大,造成了一定的誤差.黎健成等人[9]嘗試構建多標簽排名損失函數輸出圖像標簽結果,但其未處理標簽樣本忽視了圖像-標簽間的局部包含關系,影響了標注結果.雖然圖像完備標注已經取得一定的成果,但也存在以下不足:1)需要選擇組合圖像底層特征,不能主動學習圖像特征,可能會導致圖像部分視覺信息缺失,導致標注不精確;2)缺失了語義標簽本身的相關性的研究,將圖像不同貢獻程度的標簽內容同等權重處理,忽視了標簽語義分布的不均勻性和相關性.
建立缺失標簽圖像低層的視覺特征與標簽之間的關系,并有效地改善語義標簽是提高圖像標簽完備標注精度的一個關鍵.深度卷積神經網絡因具有深層網絡結構并能夠主動學習并抽象出圖像的底層特征,具有更強大的表達能力,在各種視覺識別任務中顯示出巨大潛力[10,11].概念格因能很好地將概念之中包含與層次之間的關系展示出來,成為一種構建高效數據分析與知識提取的工具[12-14].因此,為提高圖像完備標注的精度和召回率,本文采用CNN提取圖像低層視覺特征與標簽的關系,并通過概念相關度計算,利用概念格對待完備圖像進行標簽補足,提出了一種基于CNN和概念格的圖像完備標注方法.
卷積神經網絡(Convolutional Neural Network,CNN)通常由輸入層、卷積層(convolutional layer)、池化層(pooling layer,也稱為取樣層)、全連接層及softmax層[15]構成,具有局部連接、權值共享、池化操作及多層結構[16]等四個特點.由于CNN具有深層的網絡結構,并且可以通過非線性多層變換主動學習圖像特征,具有很強的表現力,因此,本文嘗試利用卷積神經網絡對圖像標簽進行圖像的完備標注.
2.1.1 卷積層與池化層
卷積層是CNN特征提取最重要的環節,每一層采用3個卷積核串聯,步長設置為1,后接一個池化層.通過卷積提取低級特征(例如邊緣),并通過權重分布連接上層實體表面的局部區域,并將局部加權和傳遞給非線性函數Relu函數以獲取卷積層的輸出值.假設第i層為卷積層,為第i層的卷積核;表示為前一層的輸出特征,則輸出圖像值為式(1):
(1)
其中,×表示卷積運算,ai,j表示第i層第j個卷積核輸出的特征值,wb表示第i層特征映射增加的偏置值,f(·)為激活函數,這里取Relu函數,即為式(2):
(2)
池化層緊接著卷積層之后,常用的池化操作有最大池化、均值池化等.由于卷積過程中存在或多或少的冗余信息(即重復卷積的元素),需要每個神經元對局部接受域進行池化操作,起到二次提取特征的作用.本文采用最大池化操作,采用規模大小為2×2的池化核,效果如圖1所示.
2.1.2 全連接層
在CNN結構中,全連接層中的每個單元與其前一層的所有單元加以全連接,以此進一步將卷積層、池化層中具有類別區分性的局部信息加以優化整合.為了提升CNN網絡性能,最后一層全連接層的輸出值被傳遞給最后一個輸出層,通常采用Softmax邏輯回歸.為避免訓練過擬合,常采用正則化方法,不參與CNN的前后向傳播過程,使部分隱藏層節點失效,有效地降低神經元之間相互適應的復雜性,進而提升借助神經網絡學習來獲得的圖像特征的品質.

圖1 規模2×2的最大池化操作示意圖Fig.1 Schematic diagram of the maximum pooling operation of scale 2×2
概念格(concept lattice)是20世紀80年代初由德國Wille教授提出的[17],因每個概念及上下層概念之間隱含地表示了屬性之間的關聯關系,成為一種有效的數據分析方法和知識表示工具.概念格也被稱為形式概念分析(Formal concept Analysis,簡稱FCA),參照文獻[18,20],本文給出相關定義:
定義 1.在概念格理論之中,一般會將形式背景作為一個三元組C=(U,A,R),在這之中,對象集即為U,屬性集即為A,及一個二元關系.若對于一個對象與任意屬性,存在關系R,那么稱為“對象u具有屬性a”,記為uRa.如表1所示,表中用“x”標記出對象與屬性之間的映射關系.

表1 對象U與屬性A的形式背景Table 1 Formal background of object U and attribute A
定義 2.對于任意一個二元組z= (I,T),I?U,T?A,在對象集和屬性集上分別滿足如下運算:
f(I)={a∈A|?u∈I,uRa}
g(T)={u∈U|?a∈T,uRa}
若f(I)=T,g(T)=I,則定義z=(I,T)是基于形式背景C(U,A,R) 這一基礎之上的形式概念,所以形式概念z的外延即為I,而形式概念z的內涵即為T.
定義 3.設z1=(I1,T1)、z2=(I2,T2)表示形式背景C(U,A,R)上的兩個形式概念,若:
z1≤z2?I1?I2?(T1?T2)
則z1是z2的子類節點,z2是z1父類節點.將用這種偏序關系組成的集合稱為C上的概念格,記為
雖然CNN在圖像標注領域取得了很大進展,能夠逐層抽象特征圖的重要信息,但由于方法本身高度依賴于真實邊界框,當將其轉移到沒有任何邊界框信息的多標簽數據集時,可能會限制其泛化能力.如某幅圖像存在缺失標簽“cloud”"和“sky”,經過卷積神經網絡標注之后,只標注“cloud”,缺失了標簽“sky”.但在一般情況下,“cloud”和“sky”并不完全孤立,存在依存關系,被用來標注同一幅圖像的概率極高,如果在語義上不加處理,會影響圖像的標注效果.因此,針對上述問題,本文從圖像語義相關度的角度,根據概念格的結構特征以及語義相似度計算的基本思想,通過對標簽貢獻值進行排序來完成標簽的預測,對深度卷積神經網絡的標注結果進行改善,本文提出了一種基于CNN和概念格語義擴展的圖像完備標注模型,如圖2所示.

圖2 基于CNN和概念格語義擴展的圖像完備標注模型圖Fig.2 Image completion annotation model based on CNN and concept lattice semantic extension
與傳統的神經網絡相比,卷積神經網絡有了顯著的提高,通過構建具有多個隱含層的非線性網絡結構,實現復雜函數逼近,使用特征映射來學習圖像的內容潛在地尋找圖像中的各種目標.本文采用類似于2014年大規模視覺識別挑戰賽提出的卷積神經網絡方法[19]對圖像特征進行提取,為了更好地初始化卷積神經網絡模型,需要對基于ImageNet預先訓練的模型參數進行微調,通過調整競賽中VGG-Net模型,以此來完成模型的訓練,與其不同的是本文為增加數據量,進行了對數據旋轉、尺度縮放處理和均值化過程.本文采用VGG-Net中性能更好的VGG19模型,包含19個隱藏層(12個卷積層,4個池化層和2個全連接層)、1個輸入層和1個輸出層.整個網絡均使用相同大小的卷積核(3×3)和最大池化大小(2×2),輸入圖像大小均為224×244.具體過程如下:
1)采用VGG19模型進行預訓練,使用ImageNet數據集訓練,并調試網絡參數至最佳通用狀態.
2)使用Multi-Scale做數據增強,將圖像縮放到不同尺寸S,滿足輸入要求.令處理后的待標注圖像為I0,則I=[f0,f1,…,fm]T,其中fm為原始像素,m為像素數.
3)初始化圖像標簽數量,為不陷入局部最優,減少過擬合,將其作為深度網絡有效的監督信息,對其Normalized cut聚類分割,結果如圖3所示.
4)輸入CNN網絡,將高維的輸入圖像轉化為低維的抽象的信號特征,將邊緣特征抽象組合成更為簡單的特征輸出.
5)為減少卷積操作后存在的冗余信息及降低特征維數,采用最大池化操作.設第i層為池化層,輸入的圖像值.為fi,分割成的圖像塊區域為Rk(k=1,2,…,k),如式(3)下:
(3)

圖3 Normalized cut圖像分割可視化圖Fig.3 Normalized cut image segmentation visualization
6)進行全連接層計算.對倒數第二個全連接層輸出的4096*1的向量做softmax回歸,得到特征向量,在得到的20個由深度網絡提取到的特征做softmax回歸得到標簽的概率中選擇最大的一個作為圖像塊的標簽,計算如式(4)所示,重復該步驟直至所有圖像塊被標記,得到初始標注集合W0.
(4)
本文把節3.1去掉softmax層的CNN模型,作為一個圖像通用特征提取器,因輸出特征包含了卷積層和池化層使其具有全局和局部的特征表現,具有更強的抽象表現能力,為每個圖像提取全連接層第二層輸出的4096維特征向量并保存再使用PCA進行維數縮減以保持80%的特征差異,最終輸出對應的圖像特征.對得到的圖像歸一化之后為256×256然后轉換為向量,若選擇性搜索后得到的圖像個數為N,則圖像轉換成大小為65535*N的向量矩陣.后對該矩陣SVD分解,得到降序排列的特征值,利用特征值計算權值,得到相似圖像的權重,如式(5)所示:
(5)
其中,λi表示圖像的特征值.其次,將由深度網絡得到的權重值wi大于0.5的圖像塊對應圖像構成近鄰圖像集合I,由圖像特征搜索到的近鄰圖像與對應標簽生成形式背景,利用圖像標簽之間的語義相關度來描述圖像之間的相似程度,據此計算近鄰圖像的語義相關度.
假設待標注圖像I0,得到k張(假設k=5)與其最相似的近鄰圖像I1-I5,獲取圖像I0及其近鄰圖像所有的標簽并入集合T中,則Ik={I0,I1,I2,I3,I4,I5},T={“sky”、“grass”、“river”、“tree”、“ground”、“people”、“bird”、“animal”、“dog”、“car”}.根據定義1構造近鄰圖像與標簽映射關系并進行歸一化處理,即存在映射關系“x”的將其置換為1,反之,記為0,構造出形式背景G,如表2所示.為方便表示,分別用“t1-t10”

表2 形式背景G表Table 2 Formal background G
按序表示標簽集合中的詞,并依形式背景G構造Hasse圖,如圖4所示.

圖4 形式背景G的Hasse圖Fig.4 Hasse image of formal background G
概念格是一種有效的語義層次分析工具,為利用概念格進行圖像標簽語義相關性分析,本文定義了如下一些語義相關度概念.
定義 4.概念-概念相關度Rel(dist(zi,zj)).由圖4可知,兩個概念之間形成的通路越短,則概念間的相似度越大,若Dist(zi,zj)表示一個格結構中兩個概念之間形成通路的最短路徑長度,則基于概念-概念之間的相關度計算公式如(6)定義如下:
Rel(dist(zi,zj))=τ/(τ+Dist(zi,zj))
(6)
其中,Rel(dist(zi,zj))表示概念zi和概念zj間的語義相關度;τ為大于0的實數,這里取τ=1.
定義 5.外延-概念相關度Rel(I,z).隨著深度的增加,由定義2可知,概念節點中外延數逐漸減少,共同擁有的內涵數就會越具體,概念之間的相似度也會隨之減小.因此,本文通過考慮概念節點間的關系和概念節點所處的深度對圖像語義相關度的影響,給出基于外延-概念的相關度計算公式如式(7)定義如下:
Rel(I,z)=(|Ii|∩|Ii|)/max
((|Ii|,|Ii|))×(1+σ)(dep1+dep2)
(7)
其中,Rel(I,z)表示的是基于外延-概念的相關度, |Ii|∩|Ij|表示的是概念zi=(Ii,Ti)和概念zj=(Ij,Tj)間相同的外延個數;dep1和dep2分別代表的是概念節點zi和概念節點zj所處的深度,設概念格頂層概念的層次為1,其節點深度為上鄰節點概念層數加1;σ是為體現概念節點深度對其影響的修正參數,這里取σ=0.1.
定義 6.內涵-概念相關度Rel(T,z).概念格結構中,概念與概念之間距離越遠,則外延所共同擁有的內涵數越少.由此可以得出,隨著概念格Hasse圖概念節點的深度增大,概念外延的語義相關度與外延共同擁有的內涵數成正相關性.因此,本文通過考慮概念節點間的關系和概念節點所處的深度對相關度的影響,提出基于內涵-概念的相關度計算公式如式(8)定義如下:
Rel(T,z)=(|Ti|∩|Ti|)/max
((|Ti|,|Ti|))×(1+σ)(dep1+dep2)
(8)
其中,Rel(T,z)表示的是概念-內涵的相關度,|Ti|∩|Tj|表示的是概念節點zi和概念節點zj所擁有共同內涵數的個數;σ是修正參數,作用同定義5.
根據定義4、定義5及定義6,依據式(6)、式(7)、式(8)計算出每個概念節點之間的相關度Rel(zi,zj),降序排列得到近鄰圖像對其圖像語義的支持度并將其歸一化,利用相似圖像之間的語義相關度,進一步衡量圖像之間相似程度,可以大大減少噪聲圖像標簽的加入.因此,綜合考慮概念-概念、外延-概念、內涵-概念以上三者對圖像語義相關度的影響,本文給出基于概念格的圖像語義相關度公式(8)定義如下:
Rel(zi,zj)=Rel(I,z)×α+Rel(T,z)+
Rel(dist(zi,zj))×γ
(9)
其中,α、β、γ是各部分所占的權重比,且α+β+γ=1.由于內涵和外延在概念對中具有同等大小的權重比,根據概念格的對偶原則,本文取α=β=0.25,則γ=0.5.
據此計算所有概念之間的語義相關度,如在形式背景G中,從節點#2和#3、#3和#4存在上下位關系,節點#2和#15為同層次概念,由式(9)可以得出如下關系:
Rel(z2,z3)=(1/2+3/6)×0.25×(1+0.1)3+4+
1/2×0.5≈0.737
Rel(z2,z15)=(0+1/6)×0.25×(1+0.1)4+4+
1/(1+2)×0.5≈0.257
Rel(z3,z4)=(2/4+1/3)×0.25×(1+0.1)2+3+
1/2×0.5≈0.585
可以得到:
Rel(z2,z15) 由此可知,父節點的語義相似度要比同層次概念節點的高,同時,隨著概念格層次的逐漸加深,父子節點之間的語義相似度也會隨之增大.我們將包含同一對象的不同概念節點相關度疊加得到圖像之間的語義相關度,例如由節點#2、#3、#4可知待標注圖像I0與圖像I1的語義相關度為1.322,與圖像I5的語義相關度為0.257.由此可得,待標注圖像Ii與訓練集Ij視覺相似度.當待標注圖像Ii越高時,圖像Ij與Ii的語義相關度越高時,其標簽貢獻值越大,越有可能被標記. 通過節3.2計算圖像標簽之間的語義相關度,獲取一系列同待標注圖像關聯密切的近鄰圖像標簽作為候選標簽,對初始預測標簽進行語義擴展.由于近鄰圖像與待標注圖像的相似度程度不同,且一般與待標注圖像語義相關度更相近的圖像對標注結果影響更大.由于圖像集I是根據圖像底層特征搜索降序而得,并且同時考慮了底層特征與高層語義的相似性,兼顧近鄰圖像語義對標注結果的影響,從而避免某些標簽過少或過多,改善標注結果,豐富圖像的語義內容.因此,本文融合CNN標注結果并結合近鄰圖像與待標注圖像的語義相關度,從視覺和語義兩個角度,篩選候選標簽集中關聯程度強的候選標簽,從而保留支持度更高的標簽標記圖像. 根據式(5)獲取的圖像塊權重大小wi,從視覺角度,將其作為近鄰圖像Ik對待標注圖像的支持度指標之一;根據概念格獲得近鄰圖像與待標注圖像的語義相關度,計算候選標簽集中每個關鍵詞對待標注圖像的支持度sup(tgj,Ii): (10) 其中,φ(Ik,tj)近鄰圖像Ik與標簽tgj的所屬關系,若近鄰圖像Ik被賦予標簽tgj,則φ(Ik,tj)=1,反之為0.得到每個標簽詞的分數之后,將sup(tgj,Ii)進行歸一化處理,為減少不相關的標簽語義詞,本文將支持度大于0.01的候選標簽詞保留,去除標簽噪聲后,作為待標注圖像最終的的標簽詞. 結合上述通用CNN模型以及概念格語義相關度計算規則,給出本文方法主要步驟,具體如下: 輸入:待完備圖像I0,初始標簽集合W0,已訓練好卷積神經網絡CNN. Step 1.預處理.利用Ncut算法對圖像進行分塊,每塊圖像為不同聚類區域; Step 2.圖像特征提取.對每塊圖像進行選擇性搜索,得到每一塊子圖像感興趣區域,利用CNN得到抽象特征圖; Step 3.初始候選標簽獲取.將特征圖做softmax線性回歸,通過式(4),得到標記圖像的標簽概率,以及輸出初始標簽集合W0; 本文在數據集Corel5k上做了對比試驗.實驗過程中隨機抽取一定數量的圖像進行模型性能測試,分為訓練集、驗證集、測試集.軟件環境為MATLAB 2018b.另外,進行深度學習的相關服務器配置:4塊1080TI11G顯卡,2個CPU 64G內存(Intel i7-6900K 26核、56線程).表3是實驗相關數據集的介紹. 表3 實驗數據集表Table 3 Introduction to experimental data sets 本文采用準確率Precision、召回率Recall以及F-measure作為本文方法的性能評價指標.其中,準確率Precision指的是正確預測為正占全部預測為正的比例;召回率Recall指的是正確預測為正占全部正樣本的比例,F-measure指的是查準率和召回率調和均值的2倍.公式如下: 其中,TP指的是預測標簽中與圖像相關且預測正確的圖像總數;FP指的是預測標簽中與圖像無關卻被標記的圖像總數;FN指的是將預測標簽中將正類預測為負類數的圖像總數. 為了衡量深度卷積神經網絡模型的性能,本文首先從分類器的角度來衡量模型的標注準確率,分別給出了不同深度訓練模型VGG16和VGG19在數據集MS Coco和VOC 2012上的ROC-AUC曲線圖,如圖5(a)和圖5(b)所示. 圖5 不同深度網絡ROC-AUC比較圖Fig.5 Comparison of different depth networks ROC-AUC 由圖5可知,雖然兩個卷積網絡模型均表現出良好的學習能力,但VGG19的曲線更靠近左上方,模型的泛化能力要更強,預測精度可達91%,證明VGG19模型在訓練數據上的損失函數值更小,擁有更好的抽象特征的能力,這可以為下一步提取訓練集通用特征提供可靠的保障.因此,本文選用VGG19網絡結構作為模型初始標注的預訓練模型. 為驗證概念格語義擴展的有效性,針對候選標簽集中最終標記的不同標簽個數,展示一組不同預測個數對Precision以及Recall影響的P-R曲線.本文設置兩組實驗進行對比,一組基于VGG19模型對待標注圖像進行多標簽排序標注,另一組在獲得初始標注之后,利用概念格對CNN標注結果進行語義擴展改善.首先將測試集圖像調整為256×256,然后從每幅圖像中隨機提取224×224(及其水平映射),通過減去每個提取的圖像塊的平均值進行預處理,輸入CNN的第一卷積層,直至最后輸出softmax層產生1000類的概率分布,選取候選標簽集中Top-5作為圖像的最終標簽.訓練網絡時,本文使用動量為0.9且重量衰減為0.0005的隨機梯度下降來訓練網絡.為了克服過度擬合,對全連接層中前兩層都進行丟失率為50%的刪除操作.將所有層的學習率均初始化為0.01,每20步下降到當前速率的十分之一(總共90步),訓練完成后保存網絡模型.實驗結果如圖6所示. 圖6 P-R曲線圖Fig.6 P-R curve 由圖6可以得出,曲線剛開始無明顯變化,隨著圖像召回率Recall的增加,基于VGG-net網絡多標簽排序算法標注精度率先開始下降,而本文方法在保證準確率的基礎上,召回率更高,說明本文方法更優.該實驗表明,采用概念格對圖像進行語義相關度分析對提高圖像標注標簽的召回率具有重要意義.當召回率達到54.74%,準確率開始下降,這是因為在概念格對標簽進行語義擴展時,當候選標簽集預測個數不斷增大,會有一部分噪聲標簽被標記圖像,造成過度標注.由于很多標簽詞存在關聯性,利用圖像-標簽之間的上下位關系,在視覺近鄰的基礎上,可以得出圖像之間的語義關聯程度.在預測標準個數一定的情況下,若僅根據圖像的邊界特征進行分類識別和標注,不足以豐富圖像的標簽語義內容,且準確率和召回率顯然不如本文中的方法,這證明了本文方法對標簽改善的有效性,在某種程度上提高標簽標記的可能性. 本文選用數據集Corel5k作為對比實驗的驗證數據集,它擁有50個類別,每張圖片大小為192×128,每張圖片均有1~5個標簽,選取Corel5k中的500張測試集(263個標簽)進行測試,并與之前的一些經典的圖像標注算法進行對比,對比方法包括:TMC標注模型[5]、特征融合和語義相似(Feature Fusion and Semantic Similarity,FFSS)[21]和標簽傳播算法(Tag Propagation,TagProp)[6]、Muti-Label CNN[9]方法. 表4 實驗結果比較表Table 4 Comparison of experimental results 表4中部分算法數據來源于其對應的文獻.通過表4可以看出,與傳統的標簽傳播算法相比,準確率和召回率有顯著提升,本文方法在準確率和召回率上分別達到40%、51%,與文獻[21]相比,本文方法利用深度學習網絡摒棄復雜的特征融合,利用大數據集輔助特征學習遷移微調網絡,有更強的區分效果,準確率提高了13%.同時通過與Muti-Label CNN算法比較的實驗結果可以看出,雖然準確率相差不大,但進行語義擴展改善后的算法比多標簽排序策略的深度卷積神經網絡的召回率提高了16%,改進效果明顯.這是由于當待標注圖像Ii與訓練集Ij視覺相似度越高時,圖像Ij與Ii擁有的共同標簽數越多,標簽貢獻值越大,支持度更高;由于圖像集Ik是根據圖像底層特征搜索降序而得,并且同時考慮了底層特征與高層語義的相似性,兼顧近鄰語義對標注結果的影響,從而避免某些標簽過少或過多,改善標注結果,豐富圖像的語義內容. 為進一步說明語義改善的有效性,表5給出了部分圖像的標注實例.表5中第二列為圖像的初始標簽,即圖像的不完備標注詞,第三列為初始預測標簽概率直方圖,表中第四列為本文方法改善后的標注標簽結果.其中,標粗的為正確預測且標注的標簽詞,未標粗標注詞為圖像中不涉及但被本文方法標注的標簽詞. 表5 標注實例展示Table 5 Annotation instances 從表5中可以看出,在初始標簽預測階段,本文方法可以利用卷積神經網絡準確識別圖像中某些具體的內容,并且在最終預測標簽列中產生出的Top-5標簽,都能夠很好的反映像內容,對圖像語義進行完備,但若僅利用深度模型按照單目標個體標注圖像,顯然是是不合理的,不能更好的反映圖像內容.實際生活中,每幅圖像含有多個目標,具有多個語義標簽,會由一些標簽產生相關的派生標簽詞匯,而深度學習網絡并不能很好的學習這一語義的底層特征,造成標簽標注不完備.比如,在第二幅圖中,能反映圖像的場景抽象標簽“party”不存在于圖像內容之中,但利用概念格提取標簽相關性,改善圖像標簽標注后,能夠擴展圖像標簽語義內容.總的來說,利用深度網絡獲取初始標簽,可以有效地提高初始標簽的準確率,改善人工標注耗時長的問題,避免復雜的特征融合過程,再結合概念格處理標簽相關性,能有效地改善標注結果.但從第三幅圖像的標注結果來看,不僅存在“horse”,與此同時被標記上“cow”,兩者雖相關性較高,但圖中未出現“cow”這一具象物體,由此,我們可以看出,利用概念格提取標簽相關性,雖能擴展圖像標簽語義內容,但可能會存在標注過度的現象.因此,若能進一步利用概念格細化粒度分析圖像與標簽正負相關性,去除標注結果中的噪聲標簽,將對圖像檢索、圖像標注有很大的改善效果. 本文提出一種基于CNN和概念格語義擴展的圖像完備方法.通過構建CNN通用模型獲得待標注圖像的初始預測標簽并獲取圖像底層特征,在此基礎上構造概念格對圖像語義標簽擴展,有效地豐富圖像標簽語義信息,改善標簽召回率.通過將改善后的模型結果與傳統的CNN標注結果對比,證明概念格能有效擴展圖像標簽語義內容;通過對比傳統標簽傳播算法通用的評價指標,驗證本文方法對提升標簽召回率的有效性.本文下一步的工作是利用概念格細化粒度并結合圖像與標簽正負相關性分析圖像的標簽語義,減小不同模態(圖像視覺-語義標簽)的距離,進一步提高圖像完備標注精度.3.3 標簽預測
3.4 算法描述




4 實驗結果與分析

4.1 性能評價指標

4.2 基于不同深度模型在不同數據集的標注準確率比較

4.3 概念格語義擴展改善的實驗結果與分析

4.4 基于數據集Corel5k的實驗結果與分析

4.5 標注實例

5 結 論