999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多模態注意力機制的跨模態哈希網絡

2022-10-17 11:10:16吳吉祥李偉霄
計算機工程與應用 2022年20期
關鍵詞:語義模態特征

吳吉祥,魯 芹,李偉霄

1.齊魯工業大學(山東省科學院)計算機科學與技術學院,濟南 250000

2.中移動信息技術有限公司 內審部,北京 100000

隨著多媒體時代的誕生,圖像、文本、音頻、視頻等[1-5]多模態數據信息量以爆炸式的速度急劇增長,使得人們對不同模態的檢索需求不斷提高。本文在調研中發現跨模態檢索更是受到人們的廣泛關注。為此,本文選擇圖像和文本這兩個模態來實現它們之間的互相檢索。跨模態檢索就是利用某一種模態數據類型作為查詢來檢索出與其具有相似語義的另一種模態數據類型的內容。尤其是對于圖像和文本之間的互檢索,可以通過此檢索方式來解決人們的日常生活和工作上的需求。比如,工作中想要識別出一張圖片所表達的內容,或者用文字來查找想要搜尋的一張圖片等等。因此,研究跨模態檢索技術是一項很有意義的課題。為了解決這些問題,研究選取了散列方法,因為它具有降低存儲成本和加快檢索速度的優點。哈希方法是將模態數據從高維表示空間投射到低維漢明空間,在這個空間中,語義上相似的跨模態實例具有更相似的緊湊二進制碼。

隨著深度學習在各個領域的發展[6-8],多項研究表明通過深度學習提取的特征表示比傳統的淺層學習方法具有更強的表達能力。在當前先進的方法[9-11]中,選用兩個相似的結構分支分別對圖像數據和文本數據進行深度特征的提取,然后對提取出來的兩種不同模態的特征映射到同一個空間中,從而計算出不同模態之間的相似性。雖然這種方法已經取得了一定的進展,但是在使用深度學習架構進行跨模態檢索的過程中仍然存在一些問題。這種深層次的特征提取出來的只是模態的全局特征信息,不足以表達模態的局部關鍵特征信息,無法挖掘不同模態間的語義關聯,進而會影響檢索的精度和準確性。除此之外,在一些廣泛使用的數據集上進行檢索時,由于數據信息量太大而且計算量也過高,最終導致檢索的速度大大降低。

針對以上跨模態檢索的精度不足和速度較慢等問題,本文結合注意力機制和哈希方法提出了一種新的跨模態檢索方法-基于多模態注意力機制的跨模態哈希網絡(HX_MAN)。主要貢獻如下:

(1)利用深度學習在ImageNet上預訓練好的ResNet-152網絡來提取圖像的特征。除此之外,在此基礎上繼續提取出細粒度的圖像上下文特征,并且利用GRU來進一步提取圖像的空間位置信息特征,最終將這兩個細粒度的特征結合起來作為圖像的全局特征。對于文本特征,通過雙向LSTM來提取特征,利用它的長短期記憶功能來解決梯度爆炸問題,并在一定程度上保留模態內的語義一致性,提高相似性度量的計算。

(2)設計了一個多模態交互門來進行圖像和文本模態之間的細微交互,以此來挖掘不同模態之間的語義關聯特征,平衡它們之間的信息量和語義互補性。并輸入到注意力機制中來捕捉圖像或文本模態的局部關鍵信息特征,然后將帶有注意的特征輸入哈希函數分別得到圖像或文本的二進制哈希碼表示。在檢索時,將待查詢的任一種模態輸入以上訓練過程來得到這個模態的哈希碼,并計算該哈希碼與檢索庫中哈希碼的漢明距離,最后根據距離大小按順序輸出檢索結果。

(3)在NUS-WIDE數據集,MIR-Flickr25K數據集和IAPRTC-12數據集上進行的實驗表明,新提出的HX_MAN模型的mAP值與現有的跨模態檢索方法相比在一定程度上有所提高,由此也驗證了本文所提出的方法在檢索精確度上的優越性。

1 相關工作

1.1 跨模態哈希

跨模態哈希方法[12]將圖像或文本模態特征中一些不易被發現的信息挖掘出來,以此來學習它們的哈希變換,并將這些數據信息投影到一個由哈希碼組成的二值空間,然后在這個二值空間中度量其相似性并實現它們之間的相互檢索。Ding等[13]提出了集合矩陣分解哈希算法(collective matrix factorization Hashing,CMFH)。CMFH假設不同模態的同一個樣本生成相同的哈希碼,并在共享的潛在語義空間中學習不同模態的哈希碼。Zhang等[14]提出語義相關性最大化(semantic correlation maximization,SCM)模型,提出將語義標簽無縫地集成到大規模數據建模的哈希學習過程中。Wang等[15]提出了語義主題多模態哈希(semantic topic multimodal Hashing,STMH),通過魯棒性分解圖像矩陣以獲得文本的多個語義主題和圖像概念,然后將學習到的多峰語義特征通過它們的相關性轉換為一個公共子空間,從而生成哈希碼。為了捕獲更復雜的數據結構,Lin等[16]提出了語義保留哈希(semantics-preserving Hashing,SePH),將訓練數據的語義親和力轉換為概率分布,通過最小化KL散度(Kullback-Leibler divergence)將其與漢明空間中待學習的哈希碼進行近似。利用上述這些哈希方法可以在檢索中達到一些顯著的性能,但是這些方法大多依賴由淺層架構提取的手工特性,不能在一定程度上區分模態間的底層關鍵特征,從而會影響到最終二進制碼的正確表示。

與以上的淺層學習方法相比,深度學習的方法不僅提高了哈希碼的準確率,在檢索的精度和準確性方面也所有提升。Jiang等[17]提出深度跨模態哈希(deep crossmodal Hashing,DCMH),將特征的提取和獲得哈希碼的過程放在同一個架構中來訓練,從而形成了一個端到端的學習架構,直接通過離散優化來生成二進制編碼,大大提高了準確率。Lin等[18]提出語義深度跨模態哈希(semantic deep cross-modal Hashing,SDCH)方法。利用語義標簽分支來改進特征學習部分,并且利用哈希碼學習分支來保持漢明空間中不同模態之間哈希碼的一致性,以此來保留不同模態數據信息的不變性。

1.2 注意力機制

注意力機制是受到人類識別系統的啟發,它的目的是將注意力鎖定在相關的特定部分,而不是無關緊要的地方。它首先被應用于自然語言處理(NLP)[19]領域中,之后將文本注意力機制成功應用于機器翻譯[20]、句子表示[21]和問答系統[22]等任務中,并在處理長期依賴關系方面取得了非常顯著的效果。后來注意力機制也被應用于計算機視覺領域,視覺注意機制被廣泛應用于圖像分類[23-24]、圖像生成[25]、目標檢測[26]、視覺問答[27-28]等場景,以此來將圖像部分的小塊區域逐步地選取出來,從而提取出圖像的關鍵信息,將需要處理的數據量不斷降低。

隨著注意力機制的提出,許多學者開始將注意力機制引入并應用到跨模態圖像檢索中。Cao等[29]提出跨注意力網絡,利用并行注意網絡來獨立學習圖像和配方中組件的注意權重。Peng等[30]提出一種雙監督注意力網絡,使用跨模態注意塊來有效編碼豐富且相關的特征,以此來學習緊湊的哈希碼。

上述方法表明注意力感知能夠檢測多模態數據的關鍵信息區域,有助于識別不同模態數據之間的內容相似性。注意交互模塊利用了注意機制提取不同模態數據的交互特征和底層細節特征。

2 模型的建立

本章主要介紹了本文提出的基于多模態注意力機制的跨模態哈希網絡模型建立的實現細節。HX_MAN模型如圖1所示,主要包括訓練模塊和檢索模塊兩個部分。其中訓練模塊主要包括以下部分:提取圖像特征以及文本特征;利用多模態注意力機制來對圖像模態的特征和文本模態的特征進行細微的交互,提取出圖像和文本模態內部更為精煉的關鍵特征信息;最后學習這兩種模態的哈希表示。而在檢索模塊中,將需要查詢的圖像模態或者文本模態輸入到訓練模塊中,得到圖像或文本的二進制哈希碼。然后將它們輸入到查詢檢索庫中,通過漢明距離公式來計算該哈希碼與檢索庫中哈希碼的值,最后根據漢明距離值得大小順序從小到大依次輸出檢索結果,得到需要的圖像或文本列表。

圖1 HX_MAN的模型結構圖Fig.1 Model structure diagram of HX_MAN

2.1 訓練模塊

在訓練模塊中,本文利用深度學習強大的特征提取能力來提取圖像和文本模態的全局粗粒度特征,又通過多模態注意力機制來對不同的模態進行細微的交互,以此來搜索圖像與文本特征之間在底層上的細粒度關聯,然后關注這些細粒度特征的局部信息,從而能夠在一定程度上解決不同模態之間的語義不相關的問題,并從深層次的網絡中表達出模態的特征信息。

2.1.1 特征的提取和表示

在這一部分的圖像和文本特征提取中,選取了經過預訓練的CNN來提取圖像特征,而對于文本特征的提取,采用了循環神經網絡中的Bi-LSTM來提取文本的特征。

(1)圖像表示。使用在ImageNet[31]上預訓練的ResNet-152[32]用于圖像特征提取。將其維度通過預處理調整為448×448,調整完之后把它們輸入到CNN中。在此步驟中,采用了一個通用的CNN框架用于調節其中的主要參數以獲取更好的粗粒度特征,首先從概率上權衡了粗粒度特征在池化層上的判別性與不變性,并在CNN中選擇合適的卷積范圍和池化參數,然后通過分析池化域內特征的稀疏度選擇平均池化方法以獲取具有更好可分離性的粗粒度池化特征,在提取粗粒度特征過程中,由于直接使用了平均池化的提取方式,其作用可以直接替代全連接層。因為在本文的特征提取模型過程中不使用全連接層,模型的檢準率并沒有降低,而模型的大小卻極大地減少。因此,做了一些改變,將最后的全連接去除掉。為了獲得不同區域的特征向量,將最終的平均池化層之前的ResNet-152特征圖作為圖像的粗粒度特征I∈R7×7×2048。其中M=2 048表示圖像區域的個數,圖像中的第i個區域用7×7維的特征向量Ii(i∈[1,M])表示。在得到圖像的粗粒度特征之后,將2 048個區域的特征按照順序逐步輸入到本文模型中。為了描述的方便性,用一組描述符{I1,I2,…,IM}來表示這些輸入圖像。為了得到更深層次的特征信息,并以此來表達圖像的上文下信息,提取了圖像的全局上下文特征I(g),該特征已被驗證可以有效地建模局部特征表示上的豐富上下文信息。具體來說,通過給定的粗粒度特征向量{I1,I2,…,IM}來表示輸入圖像中所有M個區域的特征,計算出圖像的全局上下文特征:

其中,tanh()是一個激活函數,用來對特征向量做一次非線性映射,將特征投射到一個公共子空間中,P(0)是一個權重矩陣,通過這個矩陣可以將圖像特征向量和文本特征向量嵌入到同一個公共空間中。

有時候,在視覺上看到的效果可能和圖像的潛在表達信息有些誤差,導致人們的判斷錯誤,出現這種問題的原因是忽略了圖像的空間位置信息[33]。如圖2所示,左邊兩幅圖像一眼看上去都有“汽車”和“男人”這兩個相同的角色,但是它們所要表達的信息完全不同。

圖2 視覺-空間位置信息和語義互補的重要性比較圖Fig.2 Comparison of importance of visual-spatial location information and semantic complementarity

如果僅僅使用上面提到的粗粒度特征,就很難把這兩幅圖像區別出來,因為平均池化操作將導致空間位置的丟失。相反,可以很容易地根據平面位置來區分兩幅圖像,由此可以說明空間位置信息對于全局信息是有效的互補。為此本文選擇通過GRU來進一步剖析圖像的空間位置信息,從而能夠更好地在視覺上辨別出兩幅圖像。GRU作為一種特殊類型的循環神經網絡,它的參數少而且計算效率也非常高,能夠對圖像粗粒度特征之間的空間位置信息進行建模。具體來說,對于得到的圖像特征{I1,I2,…,IM},首先根據空間順序將它們組織起來,然后將它們按照區域順序輸入到GRU中用于輸出它們之間的位置特征。這個過程可用公式(2)來定義:

最后,將圖像的兩個重要的特征信息I(g)和I(d)通過相加的方式將它們的特征信息總結在一起,這樣就得到了最終圖像的全局特征向量I(0):

(2)文本表示。對于文本的特征表示方面,使用雙向LSTMs作為特征提取器來生成文本的粗粒度特征。假設文本輸入用{w1,w2,…,wL}表示,將其中每個單詞首先用word2vec模型進行向量化表示,以此來表征每個單詞在表中的索引。將各個單詞向量通過eL=PwL嵌入到向量空間中,其中P是嵌入矩陣。最后將這些向量按空間順序排列好并輸入到雙向LSTMs中。此過程可由公式(4)來表示:

對于文本模態的深層次特征提取方面,在提取文本的粗粒度特征時,每個片段都繼承了上一時刻的順序信息。所以不用像圖像特征的提取方式那樣分別提取兩種重要的特征信息,只使用均值池化來把文本的粗粒度特征生成文本的全局特征T(0),其中T(0)對文本模態的所有句子中的第i個單詞的上下文語義進行編碼:

2.1.2 多模態注意力模塊

在之前的大部分檢索方法[34]中,它們只是將不同模態的全局特征信息訓練出來,然后將這些特征信息通過數學方法投影到一個共同的空間中來度量每個圖像區域和單詞之間的相似度。這種方法雖然能在一定程度上度量出它們的相似度,但是這些全局特征信息不僅消耗計算資源多而且不能將模態的關鍵信息表現出來,更不能在底層挖掘出它們之間的深度關系,從而降低了檢索的精度。

在接下來很長的一段時間內,當多模態領域的研究發展停滯不前時,學者們提出了注意力機制[35]并被廣泛應用到各個領域。受到前者的啟發,對已有的方法進行了創新和改進并且提出了一種新的注意力機制。注意力機制在各個領域都有很多的貢獻,正如看到它的表面意思,“注意”的目的是為了尋找出哪一部分最需要被重視。利用這種方法的局部信息提取能力,可以很容易地將模態內的關鍵信息展現出來,從而能夠更好地剖析不同模態內部之間的特征信息匹配度。

雖然上述方法在一定程度上能夠增加圖像和句子的局部關鍵信息量[36],并且其性能比其他那些不利用此方法的模型更優。但是這種方法只是將圖像或文本模態各自的關鍵區域部分挖掘出來,并沒有完成異構數據間的交互,所以在捕捉不同模態之間的語義關聯方面還存在一定的問題。如圖2所示,右邊兩幅圖像的語言描述在語義上非常接近,但是在視覺觀察上還是很難將這兩幅圖像區分開來。其中的原因是只關注了文本模態的關鍵信息,卻沒有考慮到視覺部分與文本之間的語義互補性。

針對以上問題,在借助注意力機制之前增加了多模態交互門來將圖像和文本模態進行交互,利用不同模態之間存在的語義互補性來增強圖像和文本的表示能力。這個交互門能夠將細粒度的圖像特征與詞匯的抽象表征進行細微的融合,并且能夠通過它們之間的交互使得不同的模態語義互補,從而挖掘出它們之間的底層關聯關系,提高檢索的精度。

在最初的實驗設計階段,本文認為將圖像和文本特征進行交互的最簡單方式就是直接將它們相加。但是,隨著實驗的進行,發現這種直接相加的方式在實踐中可能會導致相對較差的性能。這可能是因為圖像上下文特征和文本上下文特征在訓練階段使用的提取方法不一樣。如果以這種簡單的方式來將它們融合,在此過程中可能會有某種模態的有意義的部分信息被其他的模態所遮蓋。針對這種模態信息被遮蓋的問題,為了將這兩個來自不同模態的特征進行底層的交互,設計了交互門來將圖像特征和文本特征實現語義互補。

具體來說,如圖1所示,將圖像和文本的上下文特征向量I(0)和T(0)輸入到語義互補的交互門中,以進行它們之間的交互。這個過程可由公式(6)表示:

其中,UI和UT是可以降維的矩陣,α是防止圖像和文本上下文特征進行融合過程中信息量丟失的參數。最后通過sigmoid激活函數σ來將交互過程中的每個特征再次減小到[0,1]。o(I)和o(T)分別表示由多模態交互門輸出得到的更為精煉的特征向量。為了方便起見,分別把它們稱為多模態圖像上下文特征和文本上下文特征。

在將圖像和文本特征進行底層的交互并且通過語義互補性來獲得它們之間的語義關聯之后,可以借助注意力機制來捕捉和檢測圖像或文本模態內的局部關鍵信息。注意力機制被提出來是為了能夠在學習之后捕捉到所需要的東西,把那些不重要的信息區域直接無視掉,它一般在學習得到結果之后以概率圖或者概率特征向量輸出。設計多模態注意力[37]的目的是獨立利用具有語義互補性的多模態圖像或文本上下文特征的數據信息來探索多個圖像區域或單詞之間的細粒度關聯關系。此過程是通過計算圖像區域或文本局部特征的凸組合來實現的。

具體來說,對于圖像的多模態注意力模塊,如圖1所示,將得到的圖像特征向量{I1,I2,…,IM}和多模態圖像上下文特征o(I)作為查詢輸入到圖像的多模態注意力函數fatt(·,·)中來計算得到每個圖像區域的注意力權重αI,m。圖像的多模態注意力函數fatt(·,·)采用兩層前饋感知器,并通過softmax函數來保證整個過程中的權重不會失衡。在注意力模塊的權重計算中,引入AdamW優化器(adaptive moment weight decay optimizer),以此來更新注意力模型的網絡參數,使其逼近或達到最優值,從而最小化模型的損失,還能在一定程度上提高模型訓練的速度。具體而言,注意力權重αI,m的計算過程可由公式(7)來定義:

其中,wI、wI,q和wI,h是感知器的參數,bI、bI,q和bI,h是感知器的偏置項,hI,m表示圖像多模態注意力函數中時間步長為m處的隱藏狀態,tanh()是一個激活函數。在得到每個圖像區域的注意力權重之后,就可以通過加權平均來計算帶有注意的圖像特征表示向量I(1):

與圖像的多模態注意力模塊設置的目的一樣,就是為了將文本句子中的詞匯通過注意力機制來表示出抽象的高級表征,從而提取出帶有多模態注意的上下文語義特征。注意力權重αT,l也是由兩層前饋感知器和softmax函數組成的軟注意模塊得到的,文本的多模態上下文特征向量T(1)可由以下公式來定義:

其中,wT、wT,q和wT,h分別是感知器的參數,bT、bT,q和bT,h是感知器的偏置項,hT,l表示多模態文本注意在時間步長l處的隱藏狀態。與圖像的多模態注意力模塊不同的是,文本的多模態注意力已經不需要在加權平均后添加嵌入層,因為文本特征{T1,T2,…,TL}已經存在于公共空間中,并通過端到端方式進行訓練。

2.1.3 哈希層模塊

在哈希模塊中,分別將帶有多模態注意的圖像特征I(1)和文本特征T(1)輸入到哈希層中,通過學習哈希函數得到不同模態特征的二進制表示。在哈希層中,tanh的激活函數使得每個神經元的輸出在-1到1之間,閾值為0的sign函數再將其轉換成二進制編碼。編碼值為1代表神經元的輸出大于或等于0;編碼值為0,代表輸出小于0。圖像和文本的哈希函數分別如公式(10)和公式(11)所示:

其中,w(I)和w(T)分別是圖像或文本模態的網絡參數,b(I)和b(T)是感知器的偏置項,HI和HT分別為圖像和文本的哈希表示。

2.2 檢索模塊

在以上的訓練模塊中,利用深度學習的底層特征挖掘能力和注意力機制捕捉局部關鍵特征信息的優勢將圖像模態或文本模態的特征通過哈希函數得到了它們各自的二進制哈希碼表示。于是在進行跨模態檢索時,將任意一個模態的樣本作為查詢對象,可以檢索到與之相似的另一個不同模態的樣本。具體來說,如圖1所示,對于圖像查詢,用戶將待查詢的圖像輸入到訓練模塊來將圖像特征轉化為訓練好的二進制哈希碼的形式,并將訓練好的哈希碼輸入到待檢索的查詢庫中,計算該哈希碼與檢索庫中哈希碼的漢明距離,依據漢明距離的大小順序從小到大依次輸出前k個檢索結果;相似地,對于文本查詢來說,用戶將文本數據作為查詢對象,通過訓練模塊中端到端的網絡框架來得到文本模態的哈希碼,然后計算與待檢索數據庫中哈希碼之間的漢明距離并排序,最終輸出檢索到的前k個圖片。

2.3 方法比較

考慮到近期的跨模態檢索任務中大家都將注意力機制引入到其中來,為此,本節將新提出的HX_MAN模型與已有的先進模型進行比較并且說明它們的區別。

對于模態內部的注意機制而言,本文的HX_MAN模型與自我注意嵌入(SAE)[38]有些相似,但是SAE只是關注全局圖像特征來計算,而本文模型利用了圖像的空間位置特征,同時對模態的全局語義信息和順序信息進行編碼,從而能夠將模態內部的特征重點提取出來。除此之外,本文的HX_MAN模型與其他引入注意力機制[9]的方法相比,多了一種交互門來將不同模態的特征進行細微的交互,以此來挖掘不同模態之間的語義關聯特征,平衡它們之間的信息量和語義互補性。最重要的是,本文方法在引入注意力機制并且確保檢索的精確度的同時,還引入了哈希方法來保證檢索的速度,從而能夠讓檢索更加高效。

3 實驗結果與分析

在本章中,將在三個廣泛使用的數據集上對提出的HX_MAN方法進行評估,并且將此方法與當前先進的幾種方法利用兩種評估指標進行比較和分析。

3.1 數據集及評估指標

(1)數據集

NUS-WIDE數據集[39]是由一個媒體搜索實驗室創建的大型網絡圖像數據集。數據集包含在Flickr網站上搜集到的260 648張圖像和5 018個不同的類標簽。每幅圖像都有其相對應的文本標注并且構成圖像-文本對。這些對圖像進行描述的文本是用戶在上傳圖像時對其用單詞連貫起來的一組句子。本文基于這個數據集中的20類最常用標簽的194 600個圖像-文本對進行了基準方法的分析,每對數據的文本都表示為一個1 000維的bag-of-words(BOW)向量。如果圖像和文本有其中一個相同概念的標簽,則認為它們之間是相似的,否則認為它們不相似。

MIR-Flickr25K數據集[40]包含從Flickr網站上收集的25 000張多標簽圖像,24個人工標注的類別標簽。本文的實驗數據選取至少有20個文本標記的圖像-文本對,一共得到了20 015對數據,每對數據都用24類標簽中的一個來標記。每對數據的文本都表示為1 386維的BOW向量。如果圖像和文本有相同的標簽,則認為它們之間是相似的,否則認為它們不相似。

IAPR TC-12[41]數據集包含20 000張圖像,每幅圖像都有一個文本標題。圖像-文本對被標記為255個標簽。對于文本形態,采用2 912維詞袋向量表示文本特征。如果圖像和文本有相同的標簽,則認為它們之間是相似的,否則認為它們不相似。

在數據集的拆分方面,將MIR-Flickr25K數據集和IAPR TC-12數據集中隨機選擇的2 500對數據作為查詢集,剩下的數據對作為檢索集。此外,將隨機抽取的10 000對檢索集作為它們的訓練集。對于NUS-WIDE數據集,隨機選取數據集的1%作為查詢集,剩下的作為檢索集。此外,從檢索集中隨機抽取10 500對作為訓練集。

(2)評估指標

為了驗證本文所提出的HX_MAN模型在跨模態檢索任務中的性能,選用了兩種廣泛使用的評估指標:平均準確率均值(mean average precision,mAP)和精確率召回率(precision-recall,PR)曲線。

mAP是一種標準的用來衡量漢明排名準確度的評價指標,mAP值的計算公式如公式(12)所示:

其中,|Q|表示查詢數據集Q的大小,q表示給定的一個查詢,AP表示均值準確度(average precision):

其中,M表示q在查詢數據中真實近鄰的個數,n表示數據的總量,Pq(i)表示前i個被檢索到的實例的精度,δ(i)是一個指示函數,當δ(i)=1時,表示第i個實例與被檢索的實例是相關的,而δ(i)=0時則表示不相關。

而PR曲線是以精確率和召回率這兩個變量做出的曲線,被廣泛用于評估哈希檢索的性能。

3.2 基準方法分析

在實驗的最后,用本文提出的HX_MAN模型與幾種現有的跨模態檢索方法利用mAP和PR曲線兩種指標進行了對比,以此來驗證本文提出的模型的性能。為了能夠達到所預期的結果,不僅與基于哈希算法的模型進行了比較,還與典型關聯分析[42]和基于子空間學習的方法[43]進行了比較。其中基于哈希算法的模型中,不僅包括基于淺層結構的方法(CMFH[13]、SCM[14]、STMH[15]、SePH[16]),而且還有兩種基于深層結構的方法(DCMH[17]和SDCH[18])。

3.2.1 實驗對比方法

(1)mAP值的對比

在NUS-WIDE數據集、MIR-Flickr25K數據集和IAPR TC-12數據集上對比了編碼長度為16位、32位和64位的每個模型方法的mAP值。對比數據如表1所示。其中,“圖像→文本”表示查詢數據為圖像模態,檢索數據為文本模態;而“文本→圖像”則表示查詢數據為文本模態,檢索數據為圖像模態。

表1 HX_MAN模型與其他模型的mAP值對比數據Table 1 Comparison of mAP values between HX_MAN model and other models

根據表中的對比數據可以看出,基于深度學習的算法的性能明顯優于傳統的算法,而在基于哈希算法的模型中,基于深層結構的方法性能也略優于基于淺層結構的方法。

(2)PR曲線的對比

如圖3所示,在三個廣泛使用的數據集上使用編碼長度為16位的哈希碼進行實驗的對比。給定任意的漢明半徑,可以計算出精確率和召回率的值。將漢明半徑在0~16之間進行改變,可以得到PR曲線。PR曲線位置越高,其檢索性能就越好。(3)檢索速度對比

圖3 三個數據集上的PR曲線圖Fig.3 PR graphs over three datasets

除了驗證本模型的準確率之外,還對不同模型的平均檢索速度進行了計算和對比。具體來說,對不同模型的檢索時間進行累加求均值的方式來計算出每個模型的平均檢索時間,以此來驗證模型的檢索速率。在NUS-WIDE數據集上使用編碼長度16位的哈希碼對JFSSL、SDCH和HX_MAN進行實驗的對比,一共檢索了30次,每個模型的平均檢索時間如表2所示。由表2可以看出,本文的模型相較于傳統方法時間明顯降低。而相較于基于哈希方法的模型,本文的模型在檢索速度方面也略有提升,這也驗證了引入AdamW優化器的優勢,其可以在訓練模型參數的時候提升訓練速度,繼而對整個模型的檢索性能產生影響,在一定程度上提升整個模型的速率。

表2 HX_MAN模型與其他模型的檢索時間對比Table 2 Comparison of retrieval time between HX_MAN model and other models

通過以上三種評估指標的數據可以看出,本文提出的模型在提升檢索的性能方面取得了很好的有效性。這是因為本文模型充分考慮了圖像和文本模態數據之間的細微交互,使得兩種模態之間的語義特征信息緊密關聯起來,而其他基于哈希算法的模型在改進特征學習部分僅針對單個模態。比如SDCH和STMH模型只考慮的是文本模態的標簽信息和潛在的語義信息,這樣不能很好地平衡不同模態之間的信息量,從而會影響檢索的性能。同時也在一定程度上說明了圖像和文本模態通過交互門和多模態注意力機制的交互作用能夠更好地將特征信息關聯在一起,而且由深度學習提取的深層次特征也大大提高了跨模態檢索的精確度,由此也說明了本文所提出的模型在跨模態檢索方面取得了一定的進展。

3.2.2 模型配置

在本文實驗中,為了獲取豐富的特征信息,對整個模型的超參數進行設置。

(1)圖像特征

首先需要對輸入數據進行預處理操作,圖片數據的預處理主要對圖片的大小進行裁剪為448×448的尺寸;數據預處理完成以后,將數據輸入到ImageNet上預訓練的ResNet-152網絡模型來提取。將提取到的特征按順序逐步輸入到GRU中。網絡中的所有參數使用均值為0、標準差為0.01的高斯函數隨機初始化。模型采用反向梯度訓練下降算法Adam(adaptive moment estimation)優化器來訓練網絡,其中momentum=0.9,batch值為64,總epoch為100,學習率為0.005,每20次迭代后學習率變為當前值的1/10。

(2)文本特征

文本數據的預處理先將文本分詞,再將文本中一些不常用的詞和停用詞去掉,最后利用word2vec模型對預處理的文本進行向量化。其中詞向量的維度size=100,詞向量上下文最大距離window=5,隨機梯度下降法中迭代的最大次數設置為100。將預訓練的詞向量初始化為詞嵌入矩陣,利用詞嵌入矩陣將輸入的數據中的詞轉換為詞向量,維度[batch_size,sequence_length,embedding_size]。網絡中的所有參數使用均值為0、標準差為0.01的高斯函數隨機初始化。模型采用Adam優化器來訓練網絡,其中momentum=0.9,batch_size值為256,總epoch為100,學習率為0.000 1,每10次迭代后學習率變為當前值的1/10。

(3)優化器

將上述圖像和文本特征輸入到注意力模塊來計算權重,采用AdamW優化器來對注意力權重進行更新,其中該優化器公式為:

其中,參數設置為lr=0.001,β1=0.9,β2=0.999,ε=10-8,λ即為權重衰減因子,本文設置為0.005/0.01。

3.3 消融實驗

本研究將MIR-Flickr25K數據集中隨機抽取的10 000對數據作為訓練集,剩下的作為測試集進行實驗。為了驗證本研究所提出的模型的有效性,對模型自身進行消融分析。

在消融實驗中,保持對應參數不變的情況下,通過刪除或替換本研究模型中的某個模塊進行消融研究。在MIR-Flickr25K數據集上進行了去除GRU模塊只保留圖像的粗粒度特征,去除交互門直接將圖像或文本特征輸入到注意力機制中,將AdamW優化器替換成SGD優化器實驗,其他參數設置保持不變。表3為在MIRFlickr25K數據集上進行的消融研究。

通過表3中各消融實驗的結果可以看出,根據空間位置輸入到GRU中來提取圖像的空間位置信息,能夠有效地互補圖像的全局特征信息,以防丟失圖像的潛在表達信息。而模型中最重要的交互門模塊能夠將兩種模態的信息在底層交互,并通過語義互補來獲得它們之間的語義關聯,從而可以有效地彌補兩種模態在訓練過程中的部分有意義的信息被遮蓋的問題。在將優化器替換成SGD優化器的過程中,可以很明顯地看出AdamW優化器的改善性,而且其收斂速度也較SGD優化器快。綜上可以看出,本文模型中每個模塊的引入都有其獨特的優勢,從而能夠在一定程度上促進整個模型的有效性。

表3 HX_MAN模型的消融實驗Table 3 Ablation experiments of HX_MAN model

3.4 可視化展示

本節將展示本文設計的跨模態檢索系統頁面,并且將檢索結果與DCMH方法和SDCH方法進行比較分析。

如圖4所示,本文的跨模態檢索系統頁面主要分為兩部分:圖像檢索文本、文本檢索圖像。對于圖像檢索文本部分,將需要查詢的圖像上傳到系統中,系統將圖像在本文設計的方法中一步步地進行,從而檢索出與圖像內容具有語義相似性的圖像描述,并且以文本的形式輸出相似度最高的前幾種,最后呈現到客戶眼前。文本檢索圖像部分與其相似,就是將需要查詢的文本內容上傳至系統中,然后輸出前幾張與文本內容最為相似的圖像。

圖4 跨模態檢索系統頁面展示Fig.4 Display of cross-modal retrieval system page

除此之外,從MIR-Flickr25K數據集的測試集中隨機選取了3個文本描述來與DCMH方法和SDCH方法進行比較分析。如圖5所示,將3種模型用各自的方法輸出檢索結果并選取最好的結果來進行比較。在第一個文本描述中,DCMH方法輸出的圖像中的“狗”是“趴著的”。在第二個文本描述中,SDCH方法輸出的圖像中的“狗”的動作不是“站著的”。在第三個描述中同樣是這種問題。從比較中可以看出,本文方法在利用深度學習提取了位置特征信息之后,在文本描述中生成了更準確、清晰的視覺信息的圖像,這也在一定程度上說明了本文方法在確保速度的基礎上提高了檢索的準確度。

圖5 HX_MAN與其他方法的比較Fig.5 Comparison of HX_MAN with other methods

雖然此方法在精度和速度方面較其他方法有所提升,但是并沒有想象中的那么完美,在輸出結果中還存在一點小誤差。如圖6所示,其中左邊的可視化結果為全部正確的5個原描述;右邊所示的可視化結果中第5句檢索錯誤,但是對于這種描述也有一定的合理性,因為圖片的現實背景只要合理怎么形容都可以。

圖6 檢索案例可視化Fig.6 Retrieval case visualization

4 總結

本文提出了一種新的基于注意力機制與哈希方法的跨模態檢索模型,也就是基于多模態注意力機制的跨模態哈希網絡(HX_MAN)。具體來說,利用深度神經網絡強大的特征提取能力來提取圖像模態和文本模態的特征,相較于其他先進的檢索模型,本文模型引入的注意力機制能夠更精確地捕捉不同模態內的局部特征信息,而且將圖像和文本特征進行底層的交互并捕捉到了兩種模態之間的語義關聯,從而在一定程度上提高了檢索的精度。在最后的實驗證明,本文提出的模型與其他現有的方法相比,可以有效解決現有跨模態檢索算法粒度粗、精度低等問題,為跨模態檢索新技術提供了參考。在未來的工作中,會將這種方法應用到其他規模的多模態數據中來探索更多的信息,從而設計出一個更高效的網絡架構來為多模態領域的發展做出自己的貢獻。

猜你喜歡
語義模態特征
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
認知范疇模糊與語義模糊
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 国产精品亚欧美一区二区三区 | 免费在线看黄网址| 狠狠色香婷婷久久亚洲精品| 麻豆精品在线视频| 亚洲无码视频一区二区三区 | 亚洲欧美综合另类图片小说区| 深爱婷婷激情网| 国产精品自在在线午夜| 色精品视频| 色成人综合| 国产免费久久精品44| 黄色网站不卡无码| 欧美日在线观看| 尤物国产在线| 国产精品福利尤物youwu| 最新午夜男女福利片视频| 一级一级特黄女人精品毛片| 久久免费视频6| 亚洲中文制服丝袜欧美精品| 欧美色伊人| 国产九九精品视频| 99re66精品视频在线观看| 99热这里只有精品2| 日本不卡在线视频| 99久久精品国产综合婷婷| 超级碰免费视频91| 欧美国产日韩在线观看| 美女潮喷出白浆在线观看视频| 992tv国产人成在线观看| 午夜免费视频网站| 国产综合精品日本亚洲777| 亚洲乱码在线播放| 亚洲永久免费网站| 亚洲IV视频免费在线光看| 亚洲不卡网| 亚洲成人网在线播放| 成人av手机在线观看| 国产精品第一区| 国产免费好大好硬视频| 欧美日韩国产在线人| 日韩欧美网址| 在线看AV天堂| 国产91视频观看| 国产毛片一区| 国产精品九九视频| 欧美成人A视频| 亚洲日韩AV无码精品| 午夜三级在线| 国产小视频a在线观看| 亚洲不卡影院| 成人精品午夜福利在线播放| 国产欧美视频综合二区| 国产正在播放| 国产精品私拍99pans大尺度 | 欧洲免费精品视频在线| 91精品啪在线观看国产91| 国产精品女同一区三区五区| 久久国产精品国产自线拍| 国产精品专区第1页| 99精品国产高清一区二区| 好紧好深好大乳无码中文字幕| 日本不卡在线视频| 中文字幕66页| 亚洲天天更新| 亚洲区欧美区| 97狠狠操| 国产天天射| 日韩高清一区 | 国产青青操| vvvv98国产成人综合青青| 97青青青国产在线播放| 国产成人乱无码视频| 综1合AV在线播放| 免费激情网站| 人妻丰满熟妇av五码区| 亚洲视频二| 国产精品视频a| 伊伊人成亚洲综合人网7777| 亚洲第一色网站| 色哟哟国产精品一区二区| 国产一区二区三区日韩精品| 亚洲第一色网站|