999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一致性協議匹配的跨模態圖像文本檢索方法

2021-11-27 00:48:50宮大漢陳輝陳仕江包勇軍丁貴廣
智能系統學報 2021年6期
關鍵詞:一致性模態單詞

宮大漢,陳輝,陳仕江,包勇軍,丁貴廣

(1.清華大學 軟件學院,北京 100084;2.清華大學 北京信息科學與技術國家研究中心,北京 100084;3.清華大學 自動化系,北京 100084;4.涿溪腦與智能研究所,浙江 杭州 311121;5.京東集團,北京 100176)

隨著社交媒體的空前發展,互聯網上積累了大量的用戶數據,比如圖像、文本、語音等。利用這些跨模態數據挖掘用戶需求,提升產品服務,成為了工業界的迫切需求之一。跨模態圖像文本檢索是實現跨模態數據挖掘的關鍵技術之一。它旨在探索圖像和文本之間的對應關系,實現圖像和文本的跨模態信息理解,以及文本檢索圖像或圖像檢索文本的智能服務。圖像和文本的跨模態檢索在實際社交媒體領域有廣泛的技術應用價值,比如在人機交互、商業化廣告文案推薦以及內容推薦等領域,因此吸引了眾多研究人員的注意力。

在實際場景中,跨模態圖像文本檢索面臨兩大挑戰:1)不同模態數據的異質性阻礙了模型學習到優異的跨模態表示;2)視覺和語言之間關聯豐富而復雜,準確挖掘兩者的對應關系十分困難。為了解決以上挑戰,前人工作提出了特征嵌入表示技術來聯合學習圖像和文本的特征。Wang等[1]使用雙視圖網絡分別將圖像和文本映射到共享嵌入空間中,然后采用一個保結構的雙向目標函數來優化網絡。Faghri 等[2]提出使用難負例來增強嵌入空間的學習,實現了性能的顯著性提升。然而特征嵌入表示方法將圖像和文本信息映射到統一的向量空間中,忽視了圖像和文本信息的復雜性,以及兩者之間信息關聯的多樣性和復雜性。近年來,研究人員提出了許多方法來挖掘圖像和文本之間的細粒度的跨模態關聯信息。Karpathy 等[3]將圖像中的每個區域與文本中的每個單詞對齊,提出了一種基于片段的匹配方法。Nam 等[4]使用注意力機制[5]和記憶機制來動態探索圖像和文本之間的微妙交互。Lee 等[6]提出了一種堆疊交叉注意力模型,稱為SCAN,取得了先進的圖像文本檢索性能。

1 本文工作

SCAN 的成功很好地展示了細粒度跨模態關聯關系挖掘的優勢。然而,這種方式依靠注意力來實現片段(即區域和單詞)之間的匹配,只關注兩者的一階關系,并不能反映兩種不同匹配方式之間的一致性。具體來說,SCAN 分別用注意力構建了區域?單詞和單詞?區域的兩種對齊方式,其中區域?單詞是計算所有單詞跟給定區域的相似性得分,并經過規范化操作得到相似性分布,同樣地,單詞?區域是計算所有區域跟給定單詞的規范化后的相似性得分。由于規范化操作,單詞和區域的相似性度量在兩種對齊方式中會得到不一樣的得分,使得出現不同的情況。比如在圖1中,在區域?單詞匹配方式中,和區域r2最相關的詞是dress,而和beautiful 的相關性較弱,而在單詞?區域匹配方式中,區域r2卻是和beautiful 最相關的區域。這種矛盾說明了兩種方式不一致的問題。

圖1 對齊不一致問題Fig.1 Inconsistent alignment problem

本文旨在充分挖掘不同對齊方式的一致性信息,來增強跨模態圖像和文本的匹配準確性。本文提出了一種一致性協議匹配的方法(matching with agreement,MAG),如圖2 所示,在使用注意力機制得到對齊上下文特征后,構建了區域?單詞關聯信息表示和單詞?區域關聯信息表示,并在此基礎上,提出關聯信息一致性協議的匹配策略,提升圖像和文本的跨模態檢索性能。

圖2 一致性協議匹配Fig.2 Matching with agreement

所提出的一致性協議匹配(MAG)方法包含4 個層,即表示層、對齊層、協議層和匹配層。其中,在表示層,本文使用卷積神經網絡(convolutional neural network,CNN)和循環神經網絡(recurrent neural network,RNN)分別提取了圖像區域和單詞的特征;在對齊層,使用注意力機制得到區域?單詞對齊和單詞?區域對齊;接著在協議層中,兩種不同的對齊可以通過融合注意力機制里的上下文特征得到關聯信息表示,并采用競爭性投票的方案得到對齊一致性得分;最后在匹配層通過聚合不同的匹配線索,獲得圖像文本對之間的相似性。

本文在兩個大型的跨模態圖像文本檢索的基準數據集(Flickr30K 和MS COCO)上進行了大量的實驗,實驗結果表明,相比于一系列先進的跨模態圖像文本檢索基線模型,本文提出的一致性協議匹配方法在兩個數據集上都具有顯著的性能優勢,進一步的模型分析和實例分析很好地驗證了所提出方法的有效性和優越性。

2 相關工作

跨模態圖像文本檢索的相關工作通常使用深度神經網絡來避免使用手工制作的特征。它們可以大致分為兩類:基于嵌入的方法和基于細粒度對齊的方法。

基于嵌入的方法通常學習一個共享的嵌入空間,并通過計算嵌入空間中圖像和文本特征之間的距離來估計圖像和文本之間的相似性。Frome等[7]嘗試通過CNN[8]和Skip-Gram 模型[9]來學習跨模態表示。類似地,Kiros 等[10]采用 CNN 來提取視覺特征,并采用門循環單元 (gated recurrent unit,GRU)[11]來提取文本特征。Faghri 等[2]提出了一種難負例挖掘的三元組損失函數,取得了顯著的性能提升,并成為跨模態圖像文本檢索領域廣泛使用的目標函數。

基于細粒度對齊的方法旨在探索圖像和文本之間潛在的細粒度對應關系。Karpathy 等[3]將圖像和文本的片段對齊到公共空間中,并通過聚合局部對齊來計算圖像和文本的全局相似度。Niu 等[12]提出了一種分層模型,其中圖像和文本通過分層策略實現實例到特征的全局和局部聯合映射。Lee 等[6]提出了一個堆疊交叉注意力模型,旨在發現圖像區域和文本詞之間的完整潛在對齊,并在多個基準數據集上實現先進的性能。

3 一致性協議匹配

本節討論所提出的一致性協議匹配方法,如圖3 所示。

圖3 一致性協議匹配方法框架Fig.3 Framework of the proposed MAG method

3.1 表示層

在表示層,本文的目標是在潛在共享特征空間中對圖像和文本的信息進行特征表達,以估計它們之間的相似性。給定一個包含N個圖像文本對的數據集,其中,I代表圖像,S代表文本。本文使用兩個不同的編碼器分別提取圖像的視覺信息和文本的文本信息。

具體來說,給定圖像I,本文使用一個預訓練的對象檢測模型Faster R-CNN[13]來充當圖像編碼器。Faster R-CNN 會推斷出圖像中的顯著性對象信息,并以包圍框的方式定位到對象的區域,記為ri,并將經過區域池化操作得到對象的特征記為fi。接著,本文使用一個線性變換層將區域特征映射到一個d隱層特征空間中:

式中:vi是區域ri在隱層特征空間中的特征表示;Wv和bv是線性變換的可學習參數。為了方便描述,假定圖像I,Faster R-CNN 檢測到m個對象區域,則最終可以得到m個特征來表示圖像I,本文用V={vi|i=1,2,···,m;vi∈Rd} 來表示圖像特征。

給定有n個詞的文本S={w1,w2,···,wn},本文使用一個雙向門控循環單元(bidirectional GRU,Bi-GRU)充當文本編碼器。首先,本文首先將每個離散的單詞wj使用獨熱碼進行表示,接著使用一個可學習的嵌入矩陣將獨熱碼轉化為一個詞向量ej。然后使用一個Bi-GRU 分別從左到右(前向)和從右到左(后向)兩個方向對詞向量進行處理:

3.2 對齊層

對齊層旨在探索視覺信息和文本信息之間的細粒度關聯關系。和前人工作[14]一樣,我們采用雙向注意力機制將圖像中的區域和文本中的單詞巧妙地對齊。具體來說,給定圖像特征V和文本特征T,首先計算圖像中每個區域特征vi和每個單詞特征tj之間的相關性:具體來說,給定圖像特征V和文本特征T,首先計算圖像中每個區域特征vi和每個單詞特征tj之間的相關性:

這里,本文用余弦距離來度量兩個向量間的相似性,向量上標表示向量轉置。A∈Rm×n為相似性矩陣。本文使用注意力機制計算每個區域的文本上下文特征和每個單詞的圖像上下文特征。對于區域ri,在相似性矩陣A中的第i行表示該區域和文本S的每個單詞的相似性,為此,對應的文本上下文特征可以對文本特征T和相似性Ai進行加權和得到:

同理,可以為每個單詞計算它對應的圖像上下文特征:

和Chen 等[14]工作一樣,給定一個圖像文本對(I,S),可以通過聚合每個區域特征和其對應的文本上下文特征的相似性以及聚合每個文本特征和其對應的圖像上下文特征的相似性得到圖像和文本的相似性:

3.3 協議層

從式(4)和式(6)可以看出,對齊層利用相似性矩陣A的不同維度來計算注意力權重,使得同一個區域和單詞計算得到的區域-單詞對齊和單詞-區域對齊可能被賦予不同的重要性,導致對齊不一致(如圖1 所示)。本文旨在利用這種不一致的特點來強化對圖像和文本的相似性的建模。為此,本文提出了一種基于協議的匹配策略,以利用這種對齊不一致的特點。本文首先將對齊層的對齊操作進行特征實例化,并使用競爭性投票的策略將不同對齊在特征空間中進行一致性度量,度量結果作為協議層的輸出,表征圖像和文本之間的一致性分數。

具體來說,首先定義對齊操作的特征表示為每個區域或者單詞和其對應上下文特征的加和:

式中:xi表示區域?單詞對齊的特征表示;yj表示單詞?區域對齊的特征表示。遍歷i和j,可以得到一組區域?單詞對齊特征實例X={xi|i=1,2,···,m,xi∈Rd}和單詞?區域對齊特征Y={yj|j=1,2,···,n,yj∈Rd} 。

其次,使用余弦距離來衡量兩種對齊特征的相似性:

式中:Zij衡量以區域ri為核心的區域?單詞對齊特征和以單詞wj為核心的單詞?區域對齊特征之間的相似性。如果區域ri和單詞wj在對方的對齊方式中同等重要,即對齊一致,那么Zij會很大,反之,則是對齊不一致的問題,則Zij會較小。因此,Zi j刻畫了兩種對齊方式是否一致,我們稱式(10)為協議操作。

為了鼓勵一致性的局部對齊(即區域?單詞對齊和單詞?區域對齊)能夠在后續計算圖像和文本的相似性過程中被賦予更高的重要性,本文對Zij的每一行和每一列分別選取最大值,得到兩種協議得分:

按行取最值可以讓每個單詞?區域對齊互相競爭,勝者跟區域?單詞對齊最一致。同理,按列取最值可以競爭出跟單詞?區域對齊最一致的區域-單詞對齊。

最后,本文將所有的協議得分進行平均,得到圖像和文本的協議分數:

對比對齊分數(見式(8)),協議分數Fagr(I,S)可以看成區域和單詞的二階對齊分數,因此作為對齊分數的補充,可以更好地衡量圖像和文本之間的相似性。

3.4 匹配層

匹配層的目的是累積所有匹配線索以估計圖像和文本之間的相似性。本文將對齊層的對齊分數和協議層的協議分數結合起來計算給定圖像-文本對 (I,S) 的相似度:

訓練時,本文采用Faghri 等[2]提出的基于難負例的三元組排序損失函數來訓練模型:

式中:(I,S) 表示一對正例樣本;I′和S′分別是文本S和圖像I的負例樣本;[x]+=max(0,x);Δ 表示排序間隔,即希望查詢樣本和正例樣本之間的相似性比查詢樣本和最難負例樣本之間的相似性大一個 Δ。

此外,考慮到在協議層中本文希望能夠挖掘更多的一致性對齊來增強對圖像和文本相似性的度量,為此本文采用Chen 等[14]的方法引入語義一致性損失函數:

在訓練過程中,從數據集中采樣一批次圖像文本對進行訓練,即 {(Ik,Sk)}Nb~D,最終的損失函數是排序損失和一致性損失的加權和:

式中 λaln是一個可調節平衡超參數。

4 有效性驗證

4.1 實驗配置

1) 數據集。本文采用了兩個跨模態圖像文本標準基線數據集來驗證所提出的一致性協議匹配方法。①Flickr30K[15]。這個數據集由31000 張圖片組成,每張圖片都至少標注了5 個英文文本。本文采用29000 張圖片作為訓練集,1000 張圖片作為驗證集,剩下的1000 張圖片作為測試集,這也是標準的數據劃分。②MSCOCO[16]。COCO數據集大概有123000 張圖片,每張圖片標注了至少5 個英文句子。和前人工作[1]一樣,本文將123 287張圖片劃分為113 287、5 000 和5000,分別構成了訓練集、驗證集和測試集。為了能夠公平地評價模型的結果以及跟別人的工作進行對比,本文同時展示在5000 張測試圖片上的整體性能(用MS COCO(5K)表示)以及5 次實驗(每次1000 張圖片(用MS COCO(1K)表示)的平均值。

2) 評價指標。本文進行了圖像檢索文本和文本檢索圖像兩類不同的檢索任務,采用前K召回率(R@K)來評測兩種跨模態檢索性能,并且和前人的工作進行對比。具體來說,本文展示R@1、R@5 和R@10 的結果,并且,跟Chen 等[14]的工作一樣,本文將所有的指標加起來來綜合評價模型的性能,該指標用R@sum 表示。

3) 實現細節。本文使用Pytorch1.0[17]來實現所提出的方法。在構建模型時,本文將圖像區域特征的維度設置為1024。Bi-GRU 的隱藏向量的維度也是1024,使得圖像區域特征和單詞特征的維度一致。訓練過程中,三元組損失函數中的排序間隔設置為0.2,即式(14) 中的 Δ 默認為0.2,式(4)中的溫度因子 λ 默認設置為9。在更新網絡參數時,本文采用Adam[18]優化器來優化,并且每批次數據容量為128 張圖像文本對。

4.2 模型對比分析

為了驗證所提出的一致性協議匹配方法的先進性,本文引入了目前相關的先進的跨模態圖像文本檢索方法,并在Flickr30K 和MS COCO 兩個數據集上都進行了模型對比。本文對比的基線模型有DVSA[3]、VSE++[2]、DPC[19]、SCO[20]、SCAN[6]、PFAN[21]、PVSE[22]和SC[14]。其中,SCAN、PFAN、PVSE 和SC 跟本文一樣,都是致力于挖掘圖像和文本之間的細粒度跨模態關聯來提升跨模態檢索性能。表1、2、3 分別給出了本文的方法和基線模型在Flickr30K 和MS COCO 上的對比結果,其中,表格中第1 列中帶*標記的方法表示該結果是采用模型集成的結果,“—”表示該結果未在原始論文中給出。

表1 Flickr30K 上對比結果Table 1 Comparison with state-of-the-art methods on Flickr30K

表2 MS COCO(1K)上對比結果Table 2 Comparison with state-of-the-art methods on MS COCO(1K)

表3 MS COCO(5K)上對比結果Table 3 Comparison with state-of-the-art methods on MS COCO(5K)

從表1、2、3 中可以看到,本文提出的一致性協議匹配方法在兩個數據集上都取得了比基線模型更優異的跨模態圖像文本檢索性能。具體來說,1)在Flickr30K 上,本文的MAG*取得了比最好的基線模型SC*更好的性能,特別是在圖像檢索文本任務的R@1 上提高了4.7%,在文本檢索圖像的R@1 上取得了0.3%的性能提升,整體上提升了8.7%(R@sum);2)在MS COCO(1K)中,本文的MAG*獲得了更先進的性能,與 SC* 相比,本文的MAG*在圖像檢索文本任務的R@1 上可以獲得76.1%的召回率,提高了2.3%,在文本檢索圖像任務的R@1 上,MAG*取得了60.6%的性能,提升了0.7%;3)在MS COCO(5K)中,本文的MAG*在大多數評價指標上也獲得了優于最佳基線SCAN*的卓越性能。相比于SCAN*,MAG*在圖像檢索文本任務上最多可以獲得3.7%(R@1)的性能提升,整體提升3%。這些結果證明了所提出的一致性匹配方法的有效性。

4.3 模塊分析

本節對所提出的一致性協議匹配方法中的重要因素進行分析。首先分析匹配層中語義一致性損失的作用。語義一致性損失可以驅動兩個獨立注意力模塊的對齊保持一致,有助于后續基于協議的匹配過程。因此,本文通過調節式(16)中的λaln超參數來觀察模型性能的變化,結果展示在表4 中。從表4 可以看出,當沒有對模型施加語義一致性約束時(λaln=0),模型的性能較低,當λaln>0,模型都有一定的性能的提升,當 λaln=1 時,模型取得了最好的性能。

表4 語義一致性損失函數的影響Table 4 Effect of the semantic consistency objective

本文接著對圖像和文本的相似性度量進行分析。為了觀察所提出的協議層的影響,本文通過逐步擦除Fagr(I,S) 的組成來分析各個項對模型的影響。分析結果見表5,第1 行是本文提出的MAG 的默認使用方式,即Faln+Fagr,第2 行是去掉了Fagr中的右邊一項,只保留那一項(見式(12)),第3 行是去掉了Fagr中的左邊一項,只保留那一項,最后一行是把Fagr全部去掉得到的模型,即去掉整個協議層。可以看出,跟去掉協議層的模型(最后一行) 相比,不管是僅保留、僅保留還是兩者都保留,只要有協議層存在,模型都能取得顯著的性能提升,特別是,都保留的話,模型取得了最好的性能。這些結果顯示了所提出的一致性協議匹配的有效性。

表5 協議層的影響Table 5 Effect of the agreement layer

4.4 實例分析

本文對模型進行進一步的實例分析。在圖4中,本文展示了兩個實例,在每個可視化示例中,分別在左側和右側的圖像展示了給定文本中的兩個單詞(分別用藍色和綠色標記)及其在圖像區域上的注意力結果,這種注意力結果可以被看作是單詞-區域對齊。對于中間的圖像,本文展示了一個顯著性區域跟文本中單詞的注意力結果,這可以看作是區域-單詞對齊。這里用紅色的雙

圖4 一致性協議匹配實例分析Fig.4 Examples of the proposed MAG method

向箭頭表示兩種對齊之間的一致性得分。

可以看到,在兩個單詞-區域對齊(左和右)中,對應的詞都與紅色框中的區域高度相關。而在區域-單詞對齊(中間)中,左側的單詞與區域的相關性更高,導致左側的對齊一致性得分高于右側。例如,在圖4(a)中,左邊和右邊的圖像中的注意力結果表明“Baseball”和“incoming”都與紅框中的區域有很強的相關性。然而,中間的圖像顯示紅色區域與單詞“Baseball”的相關性高于單詞“incoming”,使得左側單詞-區域對齊和中間區域-單詞對齊之間的一致性得分更高。未來,本文將繼續在跨模態行人再識別[23-24],跨模態哈希檢索[25]等其他跨模態任務挖掘這種關聯一致性問題,并將本文的方法進行應用擴展,促進跨模態學習的發展。

5 結束語

本文針對跨模態圖像文本任務提出了一種一致性協議匹配方法。與之前的工作一樣,首先使用注意力機制充分探索了圖像中區域和文本中單詞之間的單詞-區域和區域-單詞的對齊方式,接著提出跨模態協議來估計對齊的一致性。本文將協議的推導過程實例化為模型的協議層,并采用了一種新穎的競爭性投票方案,為細粒度跨模態關聯關系提供強有力的協議準則,促進模型對圖像文本之間的相似性的準確建模。本文在兩個基準數據集(Flickr30K 和MS COCO)上進行了廣泛的實驗。實驗結果表明,本文提出的方法取得了先進的跨模態圖像文本檢索性能,很好地驗證了方法的有效性。

猜你喜歡
一致性模態單詞
關注減污降碳協同的一致性和整體性
公民與法治(2022年5期)2022-07-29 00:47:28
注重教、學、評一致性 提高一輪復習效率
IOl-master 700和Pentacam測量Kappa角一致性分析
單詞連一連
看圖填單詞
國內多模態教學研究回顧與展望
基于事件觸發的多智能體輸入飽和一致性控制
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
最難的單詞
主站蜘蛛池模板: 欧美亚洲欧美| 欧美午夜一区| 成人一级黄色毛片| 亚洲第一黄片大全| 五月婷婷激情四射| 伊人久久久久久久| 婷婷五月在线视频| 九九九精品成人免费视频7| 国内精品一区二区在线观看| 国产成人久久777777| 久综合日韩| 永久在线播放| 无码av免费不卡在线观看| 黄色一级视频欧美| 日本伊人色综合网| 91外围女在线观看| 久久成人免费| 国产午夜福利片在线观看| 国产精品无码在线看| 国产免费人成视频网| 永久免费av网站可以直接看的| 伊人福利视频| 国产传媒一区二区三区四区五区| 超级碰免费视频91| 毛片一级在线| 国内精品视频区在线2021| 欧美成a人片在线观看| 蜜桃臀无码内射一区二区三区| 成人一级黄色毛片| 五月婷婷导航| 免费人成黄页在线观看国产| 熟妇丰满人妻av无码区| 亚洲区视频在线观看| 2021国产乱人伦在线播放| 国产精品亚欧美一区二区三区 | 日本久久网站| 国产97公开成人免费视频| 免费看美女自慰的网站| 亚洲视屏在线观看| 亚洲成人播放| 好吊妞欧美视频免费| 天天综合天天综合| 欧美有码在线| 99re这里只有国产中文精品国产精品 | 日本爱爱精品一区二区| 中国一级特黄视频| 91偷拍一区| 免费jizz在线播放| 三级欧美在线| 91精品国产综合久久不国产大片| a级毛片免费在线观看| 色综合狠狠操| 亚洲精选无码久久久| 国产Av无码精品色午夜| 久久精品视频亚洲| 国产精品手机视频一区二区| 国产欧美日韩另类精彩视频| 亚洲三级网站| 成年网址网站在线观看| 最新国产精品第1页| 亚洲欧美一区二区三区蜜芽| 久久精品日日躁夜夜躁欧美| 国产乱子伦视频在线播放| 国产97公开成人免费视频| 无码有码中文字幕| 国产美女精品在线| 亚洲精品大秀视频| 国产日韩精品欧美一区灰| 国产区福利小视频在线观看尤物| 亚洲精品福利视频| 日本欧美在线观看| 一级在线毛片| 国产精品视频a| 精品国产Av电影无码久久久| 91精品视频网站| 99re热精品视频中文字幕不卡| 日本高清有码人妻| 亚洲一区二区无码视频| 国产麻豆aⅴ精品无码| 精品一区二区无码av| 国产白浆一区二区三区视频在线| 久久夜色精品国产嚕嚕亚洲av|