中圖分類號:TP391 文獻標志碼:A DOI:10.19907/j.0490-6756.240368
The research on prompt-based natural language visual search
ZENGGuang1,PENGDe-Zhong2,SONG Xiao-Min3,ZHENGHui-Ming3, LIUZheng,PURui-Tao2,XIAO Qin-Yin4 (1.Chengdu Aircraft Design amp; Research Institute,Chengdu 61oo91,China; 2.College of Computer Science, Sichuan University,Chengdu 61O065,China; 3.Sichuan National Innovation New Vision UHD Video Technology Company Limited,Chengdu 61Oo95,China; 4.Sichuan Institute of Computer Sciences,Chengdu 6lOO41,China)
Abstract:Asa technology for facilitating natural language visual search,Visual Semantic Embedding (VSE)aims to learn the shared representation of cross-modal samples in a common subspace,and measure the similarity between samples based on their distance in this common subspace to support cross-modal retrieval.Existing methods usually focus on improving representations in common subspaces and accurately measuring similarity to improve cross-modal retrieval performance.However,due to the unequal information density of textand image modalities,i.e.,images usually have richer semantic information than text,it is difficult to further improve performance by directly using original samples for training.To addressthis problem, this paper proposes a prompt-based VSE method,called PrpVSE ,which integrates top-down conceptual semantics from images to enrich textual semantic information and improve the accuracy of cross-modal similar ity measurements to mine rich visual semantic associations.Specifically, PrpVSE uses a Faster-RCNN based on a top-down attention network to extract salient regions and assign concept categories to images, which enables deeper exploration of potential visual information in the image.During training,PrpVSE integrates these categories conceptual prompt information into the text to enrich its semantic information,which canhelp themodel learn visual semantic associations more efectively.Toverify the effctiveness of the method,the authors conduct extensive experiments on two public datasets,i.e.,Flickr3OK and MSCOCO. The results show that the prompt mechanism proposed in the method can effectively improve performance,surpassing eight state-of-the-art baseline methods in recent years.For example,on the Flickr30K test set,the retrieval metrics Recall@1,5,and 1O reached 78. 2% , 95.4% ,and 97.3% respectively.
Keywords: Cross-modal learning; Cross-modal retrieval; Visual semantic embedding
1引言
隨著互聯網的快速發展和信息量的爆炸性增長,圖文數據12成為人們獲取信息和表達觀點的重要方式之一.然而,在海量的圖像和文本信息中準確而高效地檢索所需內容一直是一個具有挑戰性的問題.深度學習技術的崛起為圖文檢索帶來了革命性的變革,通過學習數據中的復雜模式和語義信息,使得系統能夠更智能地理解和推斷圖像與文本之間的關聯關系.一種經典的解決方法是視覺語義嵌人(VSE)技術[3-5],其通過將圖像和文本映射到一個維度統一的公共子空間中,通過拉近公共子空間中正跨模態樣本對的距離推遠負樣本對間的距離來實現跨模態樣本的表征,表征間的距離或者相似度被用于圖文檢索.然而,由于多模態數據存在的異質性,利用視覺語義嵌人技術來學習跨模態視覺語義關聯是具有挑戰性的.
現有的提升視覺語義嵌入技術性能的方法通常分為兩類:一類為基于表示的方法;另一類則是基于損失函數的方法.前者通常利用特定技術來增強特征的表征能力,例如基于圖網絡的VSRN[4],基于實例語義關系增強的HREM[5],以及基于特征聚合技術的方法VSE[6等.其中VSRN通過利用區域關系推理和全局語義推理來增強視覺表示,以實現更好的相似性測量.VSE則通過一個可學習廣義的池化函數來自適應地聚合局部特征,從而獲得更為合理的全局表示.與此不同,基于損失函數的方法通常聚焦于現有損失函數的不足,即三元排名損失,TRL(TripletRankingLoss)容易出現優化不足的現象.例如VSE-
2AD[7] 提出的自適應目標損失通過對齊和均勻度以自適應地控制負樣本個數達到提升優化效率.雖然視覺語義嵌入技術作為用于圖文檢索常用方案,但由于缺乏圖像和文本間細粒度建模,性能很容易受限制.為此,一些研究者[6-9嘗試將圖像的局部顯著性區域與文本的單詞建立細粒度關聯,從而推理相似性.例如基于注意力的方法SCAN[8]、IMRAM[9]、以及 SAF[10] 等和基于圖神經網絡的SGR[10]、GSMN[1]等.SCAN通過利用堆疊注意力機制來構建文本和圖像的局部跨模態關聯.SAF借助注意力機制過濾不重要的局部關聯進而關注更重要的語義信息來提高跨模態檢索性能.然而,細粒度的方法通常要求對盡可能涉及的跨模態對進行相似度推理,其成本遠大于基于視覺語義嵌人技術的方法,因此其不適用于真實大規模場景下的快速圖文檢索.
如上所述,在當前的研究中,視覺語義嵌入方法在圖文檢索任務上取得了顯著的性能提升,主要集中在改進表示或者優化目標方面.然而,這些方法往往基于一個隱式假設,即文本和圖像模態之間的信息密度是相對平衡的,也就是它們包含的語義信息量應該相差不大.然而,在實際應用中,圖像作為一種感知模態能夠傳達更加豐富的信息,這為表示學習引入了更大的不確定性.相比之下,文本通常是對某一事件或目標的單一描述,其信息量往往相對有限.這引發了一個關鍵問題:如何通過補充文本信息量的方式來提升信息密度,從而實現更為合理的跨模態學習,提高圖文檢索的性能.
為了回答和驗證上述問題,本文通過結合現有主流視覺語義嵌入方法和提示學習概念,利用構建提示來增強文本信息量.提示學習最初用于大語言模型,其旨在設計和編寫提示文本以引導深度模型生成符合特定要求的語言輸出.提示學習是一種精心設計的策略,通過選擇合適的詞匯、語法結構、上下文信息和主題內容以及運用多種技巧和策略來有效引導和影響大語言模型的生成過程和輸出結果.在自然語言處理、文本自動生成、智能對話系統以及信息檢索等多個領域,提示學習都展現出了不可或缺的重要價值,為推動這些領域的技術進步和應用創新提供了強大的支持.為此,一個自然的想法就是通過設計模型或者策略來提取圖像中潛在的概念信息,并結合概念提示將其與原始訓練文本結合,用以豐富信息量,進而在訓練過程中促進跨模態學習.因此,本文提出了一種基于提示改進的視覺語義嵌入方法,即PrpVSE.為了提取圖像中潛在的概念信息,PrpVSE首先通過利用基于自上而下注意力網絡的Faster-RCNN檢測器[12-14]來提取顯著性區域并將其分配的類別標簽作為圖像潛在的概念信息:然后,PrpVSE利用一個動態選取的策略來選取所提取的概念信息并利用提示結合原始文本形成一條增強的文本信息.這樣做的好處在于不需要對于原始視覺語義方法進行過多的調整.為了將其與標準視覺語義嵌人方法的訓練過程有機結合,PrpVSE將基于提示增強的文本同樣輸人文本編碼器并與相應圖像進行跨模態學習,進而保證訓練過程中文本的信息密度,進而提升圖文檢索的性能.本文的貢獻和創新如下:
(1)我們提出一種端到端的新方法,即PrpVSE,其通過利用Faster-RCNN檢測器提取的概念信息來提升文本的語義信息密度,從而保證更為穩健的跨模態學習.
(2)不同于現有提示學習主要運用于大型預訓練模型,本文通過借助生成概念信息提示來提升輕量級視覺語義嵌入方法的性能,大大增強了其應用性.
(3)我們在兩個通用的公開圖文數據集上進行了大量的實驗.通過對比8個先進的基線模型驗證了 PrpVSE 的有效性和優勢.
本文后續章節具體安排如下:第2節主要闡述了本文的方法和模型;第3節報告了主要的對比試驗以及消融分析來驗證所提方法;第4節對本文工作進行總結,探討本文方法的局限性以及未來可能的研究方向.
2 本文方法
本節主要介紹本文所提出的方法 PrpVSE ,第2.1節介紹PrpVSE所用的網絡結構(圖1);第2.2節介紹如何利用Faster-RCNN[10]來提取概念類別并用于構建提示;第2.3節詳細闡述 PrpVSE 的訓練過程.

2.1 視覺語義嵌入模型
為了便于描述,我們首先定義一些符號.符號含義如表1所示.
具體來說,在視覺語義嵌入模型中,模型的編碼器首先將輸入文本和圖像映射到維度為 d 的統一的公共子空間 Rd .我們分別將模態編碼器定義為 f(?,ΘI) 和 g(?,ΘT) ,其中 θI 為圖像編碼器的網絡參數, OT 為文本編碼器的網絡參數.為了方便,第 i 對圖文對 (Ii,Ti) ,本文公共子空間中的特征表示為 f(Ii)∈Rd 和 g(Ti)∈Rd .在本文中, PrpVSE 沿用 VSE∞ 中使用的編碼器.對于圖像編碼器f(?,ΘI) ,采用MLP和殘差連接來轉換圖像 Ii 的局部特征并利用廣義池化算子(GeneralizedPoolingOperator,GPO)來進行特征自適應聚合特征.對于文本編碼器 g(?,ΘT) ,采用Bi-GRU網絡作為主干模型將文本單詞編碼成特征.同樣地,文本模態也采用GPO來進行特征聚合.但與此不同的是,為了更好地表征句子語義, PrpVSE 采用預訓練Glove向量[3.15]來初始化文本編碼器的嵌人層.本文采用余弦相似度來衡量圖文間的相似度.對于任意圖文對 (Ii,Tj) ,相似度被表示為式(1)所示.


2.2概念語義提示構建
如前所述,圖像模態和文本模態的信息密度是不平衡的,通常來說,圖像包含的語義信息更多.為了豐富文本的語義信息.我們采用概念檢測器來提取圖像的顯著性區域并利用所分配類別形成提示.具體來說,給定任意圖像1,我們使用預訓練的基于自上而下注意力網絡的Faster-RCNN檢測器來提取顯著性區域,其中每個區域都分配一個語義單詞和置信度,表示為式(2)所示.
R=FastterRCNN(I)={(wm,cm)}m=1M (2)其中, M 是檢測的區域個數,本文中我們統一設置為 36;wm 為檢測的語義類別,例如'bridge', 'trees′ 'vest′ ,'shoe','jeans'; cm 為相應的置信度分數,其值越高代表其分配的概念語義類別越可信,給定一個原始文本 T=(t1,t2,…,tL),L 為文本序列長度,tj 為文本的第 j 個單詞,我們擬采用式(3)如下形式提示.
P
(3)其中,Prompt表示一些提示模板.在本文中,Prompt被定義為“The photo includes objectsof\".Faster-RCNN檢測示例如圖2所示.在實際訓練過程中,式(3)被視為一個提示增強的文本,我們將其表示為 T .然而,上述做法會帶來一個不可忽視的問題,即概念語義類別很容易出錯導致提示信息不準確,從而引入噪聲問題,為此,我們引入一個動態選擇機制用以解決此類問題.具體來說,我們建議采用一個閾值來過濾不可靠的概念語義.同時,我們期望隨著訓練的進行,概念語義越來越準確.為此,當且僅當所分配的概念語義類別的置信度 w 滿足如下條件才參與式(3)的構建,即wgt;min(ζ+0.02×EPoch,1) 其中 5 為初始值,根據經驗將 ζ 設置為0.5,即表示實驗開始時置信度大于0.5的語義類別才保留,EPoch表示當前訓練迭代輪數.

2.3 訓練損失
PrpVSE的訓練目標包括兩部分.一部分為原始文本與原始圖像的跨模態損失,其形式采用廣泛使用的三元排名損失TRL.具體來說,對于輸入的圖文對 (I,T) ,損失函數定義為式(4形式.


其中, δ 為邊際參數;
為訓練批次中圖像 I 的最難負樣本;
為訓練批次中文本 T 的最難負樣本.另一部分為使用提示增強的文本與原始圖像計算的損失,其定義為式(5)形式.


其中 TI 為按照式(3)構建的提示增強文本.最終,PrpVSE的總訓練損失 L 為式(6)形式.
L(I,T)=Lori(I,T)+Laug(I,T)
3實驗
本節主要介紹本文所進行的實驗用以驗證所提出方法的優勢和有效性.具體來說,3.1節介紹了所用數據集和實現細節.3.2節中報告了對比實驗結果.3.3節實施了詳盡的消融實驗以驗證所有模塊都對性能有所增益,表明了PrpVSE設計的合理性.
3.1數據集和實現細節
為了驗證 PrpVSE ,本文在兩個廣泛使用的圖文數據集上進行了廣泛實驗,即Flickr3OK和MS-COCO[17].Flickr30K是一個從互聯網網站收集并精心處理的圖像文本數據集.它包含31000張圖像,并且每張圖像包括5個相對應的文本.本文實驗遵循SCAN中的設置,即分別將1000張圖像用于驗證和測試,其余圖像用于訓練.MS-COCO是微軟公司維護的大型數據集,由123287張圖像組成.同樣地,它與Flickr3OK類似,即一張圖像對應于5個具體的文本描述.我們同樣遵循SCAN8中的設置和劃分.113287張圖像用于訓練,5000張用于驗證,5000張用于測試.為了公平,所有圖像均利用FasterRCNN提取36個顯著性區域并且每個區域被編碼為2048維的向量.如VSE ∞[6] 中的設置一樣,公共子空間維度為1024,我們使用AdamW來優化我們的網絡模型并且初始學習率為0.0005.總訓練輪數為25,隨著訓練的進行,經過15輪后,學習率縮小10倍.閾值被設置為0.5.我們的評價指標召回率@1,5,10(簡寫為 R(ω1,R(ω5,R(ω10) 以及它們的求和值用于評價檢索的性能.


3.2對比試驗結果
為了驗證本文方法的有效性,我們將PrpVSE與近年來8個先進方法進行比較,分別為:SCAN[8]、CAMP[18]、CVSE[15]、 SAF[10] 、SGR[10]、
VSE ∞[6] 、MV-VSE[19]以及GLFN[20].表2和表3給出了Flickr30K100O測試結果、MS-COCO5-fold1000測試結果和MS-COCO5K測試結果.從結果來看,本文方法在各個測試集上表現出了明顯的優勢.具體來說,在Flickr3OK1OO0測試中,在總體性能上本文方法超過最好的基線方法MV-VSE0.7個點.在MS-COCO5-fold1000測試上,本文方法具有最好的總體性能523.3并超過最好基線1.4個點.同時,在MS-COCO5K測試上,本文方法超過了所有的基線模型,在文本檢索方面, R@1 取得了57.8點的最好性能,在圖像檢索方面, R@1 取得了41.2點的性能,總體性能(Sum)超過最好基線方法4.6個點,這足以證明所提方法的優勢.

3.3 消融實驗分析
為了驗證 PrpVSE 中應用的每個模塊的有效性,表4報告了Flickr3OK數據集上消融實驗的詳細結果.從結果來看,完整版獲得了最好的性能,這表明所有的模塊都對性能有所貢獻.具體來說,我們可以看到Glove的向量初始化的嵌入層能夠有效改善性能.這表明嵌入層的初始化對于跨模態表征很重要.這也是視覺語義嵌人技術所期望的目標,即通過改善表征來提升性能.同時,我們還可以看到,通過利用提升增強的文本進行輔助訓練,性能得到了進一步提高.這表明本文所提出的提示機制是有效的,證明了PrpVSE的設計的合理性.
4結論
本文提出了一種用于圖文檢索(實現自然語言視覺搜索)的端到端的視覺語義嵌人新方法,PrpVSE.該方法借助提示增強文本的信息密度,從而改善跨模態學習.不同于現有提示學習主要運用于大型預訓練模型,該方法利用檢測器來提取顯著性區域的概念語義來提示輕量級視覺語義嵌入方法,這大大增強了其應用性.我們在兩個公開的數據集上進行了大量實驗來驗證本文方法的有效性.但不可否認的是,本文方法仍存在一定的局限性.首先,我們并未對更為豐富的提示形式進行實驗來驗證其影響.同時,概念檢測器主要提取了顯著性圖像區域的對象類別,但并未對具體對象屬性,例如顏色、材質等進行提取,這限制了概念語義的深度,我們未來將對更多提示形式進行測試,并利用更先進的檢測器來提取圖像深度的概念語義,以改善跨模態學習,提升圖文檢索性能.
參考文獻:
[1] YoungP,Lai A,HodoshM,etal.Fromimage descriptions to visual denotations:New similarity metricsfor semantic inference over event descriptions[J]. Transactions of the Association for ComputationalLinguistics,2014,2:67.
[2] LinTY,MaireM,BelongieS,etal.Microsoft coco:Common objects in context[C]//Proceedings ofthe 13th European Conference on Computer Vision-ECCV.Zurich:Springer International Publishing,2014:740.
[3] FaghriF,FleetDJ,KirosJR,etal.VSE++: Improving visual-semantic embeddings with hard negatives[EB/OL]. [2024-09-25].https://arxiv. org/abs/1707.05612.
[4] LiK,ZhangY,LiK,etal.Visual semanticreasoningforimage-textmatching[EB/OL].[2024-09-25]. https://ieeexplore.ieee.org/document/9010696.
[5] FuZ,Mao Z,SongY,etal.Learning semantic relationshipamong instances for image-text matching[EB/OL].[2024-09-25].https://ieeexplore. ieee.org/document/10203561.
[6] ChenJ,HuH,WuH,etal.Learningthebest poolingstrategy for visual semantic embedding[EB/ OL].[2024-09-25]. https://ieeexplore.ieee.org/ document/9577755.
[7] ZhangZ,Shu C,Xiao Y,et al.Improvingvisualsemantic embedding with adaptive pooling and optimizationobjective[EB/OL].[2024-09-25].https:// aclanthology.org/2023.eacl-main.87.
[8] LeeKH,ChenX,Hua G,et al.Stacked cross attention for image-text matching[EB/OL]. [2024-09- 25].https://doi. org/10.1007/978-3-030-01225- 0_13.
[9] ChenH,DingG,LiuX,etal.Imram:Iterative matching with recurrent attention memory for crossmodal image-text retrieval[EB/OL]. [2024-09-25]. https://ieeexplore.ieee.org/document/9156353.
[10]Diao H, ZhangY,MaL,et al. Similarity reasoning and filtration for image-text matching [EB/OL]. [2024-09-25]. https://doi. org/10.1609/aaai. v35i2. 16209.
[11]Liu C,Mao Z,Zhang T,et al.Graph structured network for image-text matching[C]//Proceedings of the 2020 IEEE/CVF Conference on Computer Visionland Pattern Recognition (CVPR). Seattle: IEEE/CVF,2020:01093.
[12]Ren S,HeK,GirshickR,etal.Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis andMachine Intelligence,2017,39:1137.
[13]Wang J,Wang M Q,Zhang X Y,et al. Chinese named entity recognition based onmulti-head attention character Word integration[J]. Journal of Jiangsu University(Natural Science Edition),2O24,45:77. [王進,王猛旗,張昕躍,等.基于多頭注意力機制 字詞聯合的中文命名實體識別[J].江蘇大學學報 (自然科學版),2024,45:77.]
[14]Wang H Y,Hou K. Safety detection system of rail transportation equipment for transmission lines based on image recognition[J]. Journal of Jiangsu University(Natural ScienceEdition),2024,45:323.王海 燕,侯康.基于圖像識別的輸電線路軌道運輸裝備 安全檢測系統[J].江蘇大學學報(自然科學版), 2024,45:323.
[15]Wang H,Zhang Y,Ji Z,et al.Consensus-aware visual-semantic embedding for image-text matching[C]//Proceedings of the 16th European Conference on Computer Vision-ECCV. Glasgow : Springer International Publishing,2O2O:18.
[16]YoungP,LaiA,Hodosh M,et al.From imagede scriptions to visual denotations:New similarity metricsfor semantic inference over event descriptions [J]. Transactions of the Association for ComputationalLinguistics,2Ol4,2:67.
[17]Lin TY,Maire M,Belongie S,et al.Microsoft coco:Common objects in context[C]//Proceedings of the 13th European Conference on Computer Vision-ECCV. Zurich,Switzerland:Springer International Publishing,2O14:740.
[18]Wang Z,Liu X,LiH,et al.Camp:Cross-modal adaptivemessgepassingfortext-imageretrieval [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Seattle: IEEE/CVF,2019:5764.
[19]Li Z,Guo C,Feng Z,et al. Multi-view visual semantic embedding[J]. International Joint Conference onArtificialIntelligence,2O22,2:7.
[20]Zhao G,Zhang C,Shang H,et al. Generative label fusednetworkforimage-textmatching[J]. Knowledge-Based Systems,2023,263:110280.
(責任編輯:伍少梅)