999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自適應混合注意力深度跨模態哈希

2022-12-18 08:10:38柳興華曹桂濤林秋斌曹文明
計算機應用 2022年12期
關鍵詞:語義模態實驗

柳興華,曹桂濤,林秋斌,曹文明*

(1.深圳大學 電子與信息工程學院,廣東 深圳 518060;2.廣東省多媒體信息服務工程技術研究中心(深圳大學),廣東 深圳 518060;3.華東師范大學 軟件工程學院,上海 200062)

0 引言

隨著信息技術和多媒體技術的快速發展,人們在社交媒體上以不同的方式分享著自己的日常生活,導致多媒體數據(如文本、圖像等)急劇增長。在如此大量的多媒體數據面前,用戶迫切希望使用其中一種模態數據作為索引來檢索得到其他與之相關的其他模態數據。為了實現這一需求,研究人員提出很多跨模態檢索方法,利用模態間的相關性來進行建模,于是,跨模態檢索問題就可以轉化為數據模態間的相似性查詢。由于不同模態數據間存在結構性差異導致它們存在較大的語義鴻溝,因此,跨模態檢索方案的關鍵在于能否有效捕獲模態間潛在的語義關聯并盡可能縮小語義鴻溝。

早期的檢索方法將所有模態數據都映射到一個子空間中,然后在其中衡量其相似度,如近似最近鄰搜索(Approximate Nearest Neighbor,ANN)[1];然而,隨著數據維度和規模的飛速增長,傳統跨模態方法由于高額的存儲和時間消耗已經不能滿足用戶的需求,因此,迫切需要開發新的方法來實現快速高效的檢索。跨模態哈希方法因檢索速度快、存儲開銷低而備受關注。該方法旨在將原始數據復雜的高維特征信息轉換成簡單的低維二進制哈希碼,從而實現數據降維、壓縮存儲和加速檢索。哈希檢索是利用哈希碼的相似度來衡量原始模態的相似度,哈希碼越相似對應的原始模態數據也越相似。

隨著深度學習算法的不斷進步,其強大的學習能力能夠獲得更復雜、更準確的哈希函數,因此,越來越多的研究人員將跨模態哈希方法與深度神經網絡相結合來深入探索模態間潛在的語義關聯信息。迄今為止,提出了很多基于深度學習的跨模態哈希方法,雖然在跨模態檢索方面取得重大進展,但這些方法無法從提取的特征信息中分辨出哪些信息是重要的,哪些是不重要的;另外,還有些方法只是利用標簽信息簡單地將模態間的關系劃分為相似和不相似,而沒有充分利用標簽信息深入挖掘模態間的關聯信息。

為了解決上述問題,本文提出自適應混合注意力深度跨模態哈希檢索(Adaptive Hybrid Attention Hashing for deep cross-modal retrieval,AHAH)模型。本文主要工作包括:

1)設計了一種新的自適應混合注意力模型,將通道注意力和空間注意力有機結合起來。首先自主學習通道和空間注意力對應的權重值,該權重會根據每次迭代進行更新;然后根據權重將它們重組,構成自適應可變權重的混合注意力模型。

2)定義了一種新的相似度計算方法來衡量模態間的相似性。傳統方法認為兩個模態只要有一個共享標簽就判斷它們相似,這樣做容易造成較大的誤差。本文根據兩樣本所含標簽計算出共有標簽所占的比例來細化其相似度。

3)在4個常用的數據集上進行了廣泛的實驗,實驗結果表明本文所提方法的檢索結果均高于對比的最先進的幾種方法;同時,消融實驗和效率分析也證明了本文方法的有效性。

1 相關工作

迄今為止,研究人員提出了很多關于跨模態檢索的方法。根據在檢索任務中提取特征的方法可將跨模態哈希方法分為傳統方法和深度跨模態方法。

傳統跨模態方法是基于手工提取的方式獲取各個模態的淺層特征信息來學習哈希碼。根據在檢索過程中是否使用標簽信息又可將其分為無監督和有監督方法。無監督哈希方法通過學習和總結數據的分布情況和空間結構來探索模態間的相似性。如模態間哈希(Inter-Media Hashing,IMH)[2]將各個模態數據映射到漢明空間中,然后使用位運算來進行快速檢索;但該方法需要兩兩計算樣本間的相似性,時間消耗較大。集體矩陣分解哈希(Collective Matrix Factorization Hashing,CMFH)[3]通過分解實例的不同的潛在因子來得到統一的哈希碼。潛在語義稀疏哈希(Latent Semantic Sparse Hashing,LSSH)[4]利用稀疏編碼和矩陣分解分別獲得各模態的特征結構,并將其映射到同一空間中進行哈希檢索。與無監督哈希方法相比,有監督哈希方法可以充分利用標簽信息得到更豐富的語義關聯信息,在實際的檢索任務中取得更優異的成績。典型的監督哈希方法如語義保持哈希(Semantics-Preserving Hashing,SePH)[5]將訓練得到的二進制碼和關聯矩陣轉化成對應的概率分布并使用K-L散度來提升哈希碼的學習;雖然該方法在檢索效果上取得了不錯的提升,但其模型復雜需要消耗大量的時間和存儲空間。最大語義相關性(Semantic Correlation Maximization,SCM)哈希[6]將標簽信息融入到模態間的相似度計算,并通過線性變換來優化語義相似度計算;但該方法的量化損失較大,對檢索準確率造成重大影響。廣義語義保留哈希(Generalized Semantic Preserving Hashing,GSPH)方法[7]利用標簽信息構造相似矩陣并通過將非凸問題最小化來保持相似性,然后通過核邏輯回歸來指導生成對應哈希碼。監督一致性特定哈希(Supervised Consistent and Specific Hashing,SCSH)[8]通過分解映射矩陣和將語義標簽回歸到哈希碼來提高哈希碼的質量和加快學習速度。上述提及的傳統方法由于特征處理比較簡單,無法深度挖掘模態間的相關性,而且計算繁瑣導致時間消耗較大,最終導致檢索效率和結果無法達到滿意的結果,制約了其發展,無法滿足大規模數據檢索任務的要求。

近年來,由于深度學習的快速發展及其在特征提取方面的優異表現,許多基于深度學習的跨模態哈希方法被提出。與傳統哈希方法相比,深度跨模態哈希方法依賴于深度神經網絡進行更復雜和更準確的特征學習。如深度跨模態哈希(Deep Cross-Modal Hashing,DCMH)[9]將哈希檢索構造成一個端到端的框架,為后續的研究打下了基礎。成對關系深度哈希(Pairwise Relationship Deep Hashing,PRDH)[10]在深度跨模態哈希的基礎上通過引入相關約束來增強哈希碼的區分能力,同時考慮模態間的相似性和哈希碼冗余問題;但該方法步驟較多、時間復雜度高,不適合推廣。語義深度跨模態哈希(Semantic Deep Cross-modal Hashing,SDCH)[11]利用語義標簽分支和哈希哈希分支來提高特征學習的質量,從而提升檢索性能。語義排名結構保持(Semantic Ranking Structure Preserving,SRSP)哈希[12]通過最小化標簽間的依賴關系來獲取更豐富的語義信息,并約束相對排名來促進相關學習。自監督對抗哈希(Self-Supervised Adversarial Hashing,SSAH)方法[13]首次將對抗學習引入跨模態哈希檢索領域中,并取得了很好的檢索效果;但對抗學習對噪聲敏感,導致穩定性較差。多級相關對抗哈希(Multi-Level Correlation Adversarial Hashing,MLCAH)方法[14]構造對抗性標簽一致性注意機制,并將多級相關信息融和生成哈希碼;雖然該方法有效提升了檢索結果,但仍然無法有效克服噪聲對對抗網絡的影響。多標簽語義保留哈希(Multi-Label Semantics Preserving Hashing,MLSPH)方法[15]利用樣本多標簽構造語義相似度矩陣,并通過記憶庫機制來保持相似性約束。文獻[16]中提出通過構建多級語義指導分類器并使之指導哈希函數的學習。文獻[17]中引入知識蒸餾的思想并通過離散循環坐標下降法更新哈希碼。雖然依靠深度神經網絡能有效提升檢索結果,但如何從提取的特征信息中分辨出重要的信息仍然是亟待解決的問題。

注意力機制是人類獨有的信息處理機制。當人們在查看一張圖片時,先會快速掃描圖像來劃分目標區域并確定主要和次要目標;然后根據相應的注意力級別來依次理解圖像。受人類視覺系統的啟發,研究人員提出各種類型的注意力網絡,在特征信息中提取過程中快速分辨出重要信息來提高計算機視覺技術處理信息的效率和準確率。注意力機制是通過深度神經網絡學習得到一組權重系數,然后利用動態加權來增強相關目標區域信息并弱化不相關區域的信息,即去偽存真。根據注意力網絡關注區域不同,可將其大致分為通道注意力、空間注意力和自注意力。通道注意力是通過探索特征圖通道之間的相關性來進行學習,得到各個通道的相對重要程度并生成對應的權重系數,典型的代表有:SENet(Squeezeand-Excitation Network)[18]、SKNet(Selective Kernel Network)[19]。空間注意力的目的在于提高關鍵目標區域的特征表示,通過生成每個位置的權重來實現強化感興趣的目標區域和弱化不感興趣的區域,典型的代表如CBAM(Convolutional Block Attention Module)[20]。自注意力是通過使用內部特征信息進行學習,減少對外部信息的依賴,典型代表 如CCNet(Criss-Cross Network)[21]、DANet(Dual Attention Network)[22]。

本文受注意力機制的啟發,結合通道注意力和空間注意力各自的優點將它們結合起來取長補短實現一個自適應權重的混合注意力模型,以此來提升獲取特征信息的質量進而提升檢索的準確率。

2 自適應混合注意力深度跨模態哈希

2.1 符號與問題定義

本文中,矩陣范數和符號函數分別由‖X‖F和sign(·)表示,sign(·)的定義如下所示:

2.2 本文模型結構

本文提出的自適應混合注意力深度哈希檢索模型的結構包含特征處理和哈希學習兩部分,如圖1 所示。為了能夠從提取的特征信息中分辨出重要的有關信息和不相關的信息來達到數據增強的效果,首先通過自主學習通道和空間注意力分支對應的權重值(該權重會根據每次迭代進行更新);然后根據權重將它們重組,構成自適應可變權重的混合注意力模型;其次,通過統計分析的方式充分利用標簽信息來更精確地表示樣本間的相似度,減少不必要的誤差。通過混合注意力模塊處理后能有效提升所獲特征信息的質量,進而能生成更好的哈希碼;同時利用標簽信息更精確的表示相似度來減少誤差。兩者共同作用有效提升了檢索結果。

圖1 自適應混合注意力深度哈希檢索模型的結構Fig.1 Structure of adaptive hybrid attention hashing for deep cross-modal retrieval model

2.2.1 特征處理部分

所提模型的特征提取網絡分為圖像和文本兩部分。本文使用VGG-19(Visual Geometry Group,VGG)網絡作為圖像特征提取網絡的基礎模型,通過對其進行修改來實現特征提取和哈希學習。考慮到深度神經網絡在訓練過程中會產生大量冗余信息和消耗大量訓練時間,本文模型中使用其預訓練網絡來替代。首先,刪除VGG-19 網絡的最后一層并凍結前16 層的訓練權重;其次,在第16 和17 層之間添加混合注意力網絡來捕捉重要特征信息;最后,使用VGG-19 網絡的兩個預訓練的全連接層作為哈希碼的學習網絡和利用一個全連接層生成指定長度的哈希碼。

對于文本特征提取部分,本文模型采用特定的全連接網絡構成:前兩層分別設置2 048 和4 096 個節點,激活函數使用ReLU(Rectified Linear Unit)函數;最后一層設置l個節點,使用tanh 函數作為其激活函數并生成設定長度的哈希碼。

通道注意力通過探索特征圖中不同通道之間的相關性來獲取每個通道的相對重要性;空間注意力旨在探索不同區域的相對重要性。為了同時獲得通道注意力和空間注意力的優勢,本文提出了自適應混合注意力模型,網絡結構如圖2 所示。對于給定的輸入特征Fmap∈RC*H*W,在通道注意力分支,首先對輸入特征進行全局平均池化,然后連接兩個全連層處理,最后通過批量歸一化(Batch Normalization,BN)層得到通道注意力掩碼Mc=BN(W1(W0*AvgPool(Fmap) +b0) +b1) ∈RC*H*W;對于空間注意力分支,通過4 層卷積進行處理后經批量歸一化輸出得到空間注意力掩碼:

圖2 混合注意力模型的網絡結構Fig.2 Network structure of hybrid attention model

其中Conv1×1表示1 × 1 卷積。最后,通過學習的權重將二者有機結合得到混合注意力模型的掩碼,公式如下所示:

其中:σ(·)表示可變的閾值;α、β表示學習得到的可變權重,每次迭代均進行更新直到找到最優值。于是可以得到經混合注意力模型處理后的特征圖,如式(6)所示:

2.2.2 哈希學習部分

為了精確探索模態間的相關性,必須最小化模態間語義相似項之間的距離和最大化不相似項之間的距離;因此,本文實驗中使用了余弦三元組損失函數。對于圖像檢索文本,首先,構造三元組,其中表示圖像樣本,表示與圖像相關的正樣本,表示與圖像相關的負樣本。于是可以得出圖像檢索文本的三元組損失函數為:

其中:α為邊界參數。

類似地,可以得到文本檢索圖像的三元組損失函數,如下所示:

因此,可以得到圖像檢索文本模態的目標函數,定義如下:

結合以上兩個網絡分支的目標函數可得總目標函數為:

2.2.3 迭代過程

在本文實驗中采用的是交替迭代的策略來優化目標函數。每次迭代時,只優化其中一個網絡,固定另一網絡保持不變。算法1 總結了本文方法的迭代過程。

算法1 自適應混合注意力深度哈希檢索算法。

3 實驗與結果分析

3.1 數據集

1)MIRFLICKR-25K。該數據集包含25 000 對圖像文本對,每個實例由24 類語義標簽中的一個或多個進行標注。文本由1 386 維詞袋向量表示。

2)NUS-WIDE。該數據集包含269 468 對圖像文本對,每個實例由81 類語義標簽進行標注。文本模態由1 000 維詞袋向量表示。

3)MSCOCO。該數據集包含120 000 對圖像文本對,每個實例由81 類標簽中的一個或幾個進行標注。文本模態由2 000 維詞袋向量表示。

4)IAPR TC-12。該數據集包含20 000 對圖像文本對,每個實例有225 類標簽中的一個或多個進行標注。文本模態經處理后由2 912 維的詞袋向量表示。

為了對比的公平性,本文根據MLCAH 和MLSPH 的實驗配置來確定訓練集、檢索集和索引集。實驗配置見表1。

表1 實驗數據集詳細配置Tab.1 Detailed configuration of experimental datasets

3.2 實驗環境與參數

本文實驗在一臺配備有8 個GPU 的NVIDIA GTX 2080 Ti GPU 的服務器上完成。在實驗中,設置迭代次數為50,訓練批次大小為64,并將初始的學習率設定為10×10-5,在達到設定的迭代次數后學習率開始按算法遞減。混合注意力模型的權重α、β均初始化為1,后續根據每次訓練情況進行自主迭代更新,直到找到最佳權重。為了排除偶然性,最終的實驗結果取5 次實驗結果的平均值。

3.3 評價標準

漢明排序和哈希查找是廣泛使用的哈希檢索評價標準。本文采用漢明排序協議來評估所提方法,并使用平均精確度均值(mean Average Precision,mAP)來評價漢明排序;此外,本文還使用了準確率-召回率(Precision-Recall,PR)曲線來進一步衡量所提方法的性能,PR 曲線與兩個坐標軸共同圍成的面積越大,則表示對應方法的性能越好。

3.4 實驗結果與分析

表2 給出了在4 個公共數據集(MIRFLICKR-25K、NUSWIDE、MSCOCO 和IAPR TC-12)上哈希 碼長度 為16 bit、32 bit 和64 bit 時與其他跨模態檢索算法的mAP 對比結果。其中包 括SePH[5]、SCM[6]、GSPH[7]、DCMH[9]、SSAH[13]、MLCAH[14]、MLSPH[15]。本文中的實驗數據除MLSPH 方法外均從原文中引用。由于MLSPH 方法公開代碼不全且數據處理方式不同,因此在MSCOCO 和IAPR TC-12 數據集上按照本文的配置對其進行復現。從實驗結果可以看出,本文所提方法的實驗結果均好于其他對比的方法,即可證明本文所提方法的有效性。另外,基于深度學習的方法的檢索結果明顯好于基于淺層網絡的方法,表明深度神經網絡的優越性。

表2 在4個公共數據集上各方法的mAP對比Tab.2 mAP comparison of each algorithm on four public datasets

在MIRFLICKR-25K、NUS-WIDE、MSCOCO和IAPR TC-12數據集上,本文所提方法與除本文方法外排名最好的方法相比,在圖像檢索文本任務中,哈希碼長度為16 bit、32 bit、64 bit時分別提升了(1.6%、0.98%、0.23%)、(2.6%、3.3%、2.8)、(5.3%、9.7%、12.3%)和(1.2%、3.9%、6.9%);在文本檢索圖像的任務中分別平均提升了(2.9%、1.7%、1.9%)、(0.88%、1.1%、1.3%)、(8.4%、11.1%、9.6%)和(3.1%、7.1%、9.5%)。實驗結果表明本文所提自適應混合注意力模型和相似度測量方法的有效性。通過自適應混合注意力模型能有效分辨出重要的特征信息來提升獲取特征的質量,進而生成更具辨別性的哈希碼,從而實現檢索性能的提升。此外通過對標簽信息的探索,更精確地表示樣本間的相似性,減小了不必要的誤差,對提升檢索性能有著重要的貢獻。通過上述步驟,可以充分挖掘模態間的相關性,有效彌合模態間的語義差距,進而提高了檢索的準確率。

圖3 中給出了所提方法在3 個數據集上的PR 曲線。以哈希碼長度為16 bit 為例,PR 曲線與兩坐標軸所圍面積越大表明其性能越好。由圖3 可以得出以下結論:

圖3 3個公共數據集上哈希碼長度為16 bit時的PR曲線Fig.3 PR curves with hash code length of 16 bit on three public datasets

1)本文方 法在數據集NUS-WIDE(NUS)和MSCOCO(COCO)上的表現要比數據集MIRFLICKR-25K(MIR)上好,表明本文方法更適用于大規模的數據集。

2)從PR 曲線圖上來看,本文方法對應的曲線高于其他對比方法,表明本文方法的總體性能要優于其他對比方法,這得益于本文方法能有效提高所獲特征的質量和利用標簽信息構建更準確的相似矩陣來減小不必要的誤差,從而提升檢索性能。

為了進一步確認本文方法的有效性,設計了訓練效率分析實驗。探索了本文方法和MLSPH 在MIIRFLICKR-25K 數據集上、哈希碼長度為16 bit 時的平均準確率均值(mAP)和訓練損失與迭代次數的變化。如圖4 和圖5 所示。

圖4 mAP和訓練次數的關系Fig.4 Relationship between mAP and the number of training

圖5 訓練損失與訓練次數的關系Fig.5 Relationship between training loss and the number of training

相較于MLSPH,本文方法(AHAH)的mAP 能在較少的訓練次數上升到最高水平并保持穩定;此外,從損失變化曲線圖上可以看出本文方法的損失能很快下降收斂并保持在穩定值附近,振幅穩定。綜上可證明本文方法的訓練效率優于其他對比方法。

3.5 消融實驗

3.5.1 混合注意力模型消融實驗

為了證明所提自適應混合注意力模型的有效性,本文基于MIRFLICKR-25K 數據集設計了對比實驗,實驗中分別為只使用通道注意力、只使用空間注意力和使用混合注意力模型。實驗結果如表3 所示。

表3 注意力網絡mAP實驗結果對比Tab.3 Comparison of mAP experimental results of attention networks

由以上對比實驗可以看出使用應混合注意力方法的實驗結果明顯好于單獨使用的情況,表明使用混合注意力網絡能有效提升檢索結果。

3.5.2 AHAH方法消融實驗

為了驗證所提方法的有效性,本文還設計了兩組消融實驗進行檢驗。消融實驗包括:1)AHAH-1,在原有實驗基礎上移除混合注意力網絡,其他配置保持不變進行實驗;2)AHAH-2,在原有實驗基礎上移除本文所提相似度度量方法使用普通的進行替代。消融實驗結果如表4 所示,可以看出本文所提的自適應混合注意力模型和相似度度量方法可以很好地提升檢索精度。

表4 AHAH消融實驗mAP結果Tab.4 mAP results of ablation experiments of AHAH

4 結語

針對現有哈希方法在特征學習過程中無法區分各區域特征信息的重要程度和不能充分利用標簽信息來深度挖掘模態間相關性的問題,本文提出了自適應混合注意力深度哈希檢索模型。具體地,首先,本文提出自適應混合注意力網絡來增強特征圖中相關目標區域并弱化不相關區域的信息,提升了獲取特征信息的質量進而提升檢索精度。其次,本文通過利用標簽信息探索模態間的相關性來進一步提升檢索性能。在4 個常用數據集上進行了對比實驗和消融實驗,與幾種先進的跨模態檢索算法相比,實驗結果表明了本文方法的有效性。目前的工作只是基于圖像和文本模態之間的檢索,在接下來的研究中將探索視頻-文本、圖像-視頻等多種模態之間的相互檢索。

猜你喜歡
語義模態實驗
記一次有趣的實驗
語言與語義
做個怪怪長實驗
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
認知范疇模糊與語義模糊
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 在线观看的黄网| 日本人又色又爽的视频| 71pao成人国产永久免费视频 | 成人综合在线观看| 毛片网站在线播放| 91在线一9|永久视频在线| 在线看片中文字幕| 国产综合另类小说色区色噜噜| 国产成人高清亚洲一区久久| 亚洲乱码精品久久久久..| 亚洲视频色图| 熟妇丰满人妻| 成人免费一区二区三区| 色偷偷av男人的天堂不卡| 在线国产91| 久久精品女人天堂aaa| 亚洲精品无码在线播放网站| 麻豆国产在线观看一区二区| 米奇精品一区二区三区| 无码日韩视频| 欧美亚洲欧美| 国产成在线观看免费视频| 国产精品无码AV片在线观看播放| 91免费片| 婷婷五月在线视频| 波多野结衣一区二区三区88| 黄色网站在线观看无码| 国产精品毛片一区| 亚洲无码一区在线观看| 欧美日韩北条麻妃一区二区| 亚洲系列中文字幕一区二区| 亚洲国产日韩在线成人蜜芽| 亚洲天堂视频在线观看免费| 久久精品无码一区二区国产区| 毛片网站在线看| 91视频区| 四虎永久免费地址| 国产成人高清亚洲一区久久| 国产91视频免费观看| 亚洲精品第1页| 九九九国产| 亚洲第一成年免费网站| 国产毛片基地| 激情爆乳一区二区| 男人天堂伊人网| 国产丝袜第一页| 无码国产偷倩在线播放老年人| 欧美精品亚洲二区| 天天综合网亚洲网站| a免费毛片在线播放| 国产成人高精品免费视频| 亚洲欧美日韩中文字幕在线| 国产精品男人的天堂| 亚洲无码91视频| Jizz国产色系免费| 喷潮白浆直流在线播放| 国产成人禁片在线观看| 日韩欧美亚洲国产成人综合| 丰满人妻中出白浆| 尤物成AV人片在线观看| 日本一区二区不卡视频| 在线欧美日韩国产| 一本无码在线观看| 亚洲日韩第九十九页| 无码免费试看| 波多野结衣在线一区二区| 久久精品丝袜高跟鞋| 亚洲动漫h| 亚洲天堂视频在线播放| 麻豆精品久久久久久久99蜜桃| 在线精品欧美日韩| 九色91在线视频| 日韩国产 在线| 日本欧美成人免费| 国产www网站| 欧美一区日韩一区中文字幕页| 欧美成人看片一区二区三区| 日韩人妻精品一区| 华人在线亚洲欧美精品| 中文成人在线视频| 麻豆精品国产自产在线| 欧美另类视频一区二区三区|