

摘 要:圖像-文本雙向檢索在視覺和語言交叉領域中受到了許多學者的關注。然而,現有的圖像-文本雙向檢索算法常常忽略對局部特征相似度進行控制,導致局部特征相似度無法有效的綜合。針對該問題,設計了權重控制注意力網絡計算的圖像-文本雙向檢索算法,并通過算法訓練得到一系列局部特征相似度、學習出局部特征相似度的權重分布,對局部特征相似度進行有效的控制,達到提高圖像-文本雙向檢索的性能。
關鍵詞:雙向檢索 局部特征相似度 權重控制注意力 權重分布
中國分類號:TP391.41" " " " 文獻標識碼:A
Research on Image-Text Bidirectional Retrieval Algorithm Based on Weight Controlled Attention Network Computing
ZHANG Zhiliang
Hunan Financial and Industrial Vocational-Technical College, Hengyang, Hu’nan Province, 421002 China
Abstract: Image-text bidirectional retrieval has received much attention from many scholars in the interdisciplinary fields of vision and language. However, existing image-text bidirectional retrieval algorithms often ignore the control of local feature similarity, leading to the ineffective integration of local feature similarity. To address this issue, a weight-controlled attention network calculation based image-text bidirectional retrieval algorithm was designed. Through algorithm training, a series of local feature similarity is obtained, and the weight distribution of local feature similarity is learned, to effectively control local feature similarity and improve the performance of image-text bidirectional retrieval.
Key Words: Bidirectional search; Local feature similarity; Weight controlled attention; Weight distribution
近年來,視覺和語言交叉領域中圖像-文本雙向檢索取得了較大的進步。目前,大多數算法都是在局部特征之間初步對齊的基礎上,粗略地提取整個圖片信息和短語單詞特征,利用整個圖片信息指導短語單詞特征,使學習的短語單詞特征包含對應模態的圖片信息,同時提取整個文本信息和局部圖片特征,利用整個文本信息指導局部圖片特征,使學習的局部圖片特征包含對應模態的文本信息[1]。或對局部特征相似度進行簡單的綜合[2]。因此,現有的主流方法主要是利用全局指導信息對局部特征進行指導,學習質量更高的區域表達信息,以此來提高圖像-文本雙向檢索的準確率。
1" 注意力機制相關工作
注意力機制是為了關注輸入數據中重要的局部信息,它能夠被應用于視覺和語言的各類任務。例如:視覺問答[3]、行人重識別[4-5]、文本摘要生成[6]。近年來,大多數的工作都是圍繞圖像和文本通過注意力的形式來合理地評估圖像和文本的相關性,使圖像和文本能夠更好的對齊。
因此,Wu Y L等人[7]通過自注意力機制來捕捉圖像和文本的局部關系,以及聚合圖像和文本嵌入的局部信息。Wang Y X等人[8]提出一種新的位置聚焦注意力網絡,通過給視覺特征加入位置信息以提高視覺特征的質量,進而挖掘視覺和文本視角之間的關系。Chen H等人[9]通過一個記憶蒸餾單元來優化圖像和文本特征。Park G等人[10]提出一種多頭注意力網絡,通過關注數據中的重要部分來捕捉視覺和文本各個部分的信息。Qi X F等人[11]提出一種自注意力引導表示學習模型,將自注意力機制引入交叉注意力模塊增強圖像與文本匹配,引入自注意力機制來區分句子中不同單詞的重要性和圖像中不同區域的重要性,同時利用TF-IDF對文本中的重要單詞進行高度凸顯。Diao H W等人[12]通過基于向量相似度的方法充分細化區域和單詞之間的聯系并利用相似度圖推理網絡能夠捕捉局部和全局之間的關聯,同時采用相似度注意力過濾模塊壓縮不相關語義的重要性。然而,這些方法要么利用全局指導信息對局部特征進行指導,或沒有針對局部特征相似度進行有效的壓縮。因此,針對以上工作出現的問題,本文設計了權重控制注意力網絡計算的圖像-文本雙向檢索算法。
2 權重控制注意力網絡
2.1 權重控制注意力網絡
由于在局部特征之間初步對齊后,只是簡單的對局部特征相似度進行池化。針對該問題,文章算法模型設計了權重控制注意力網絡。文章首先將輸入到全連接層學習,然后進行批量歸一化,最后通過激活函數學習出每個局部特征相似度的權重信息[13]。
式(1)中:為Sigmoid函數;BN為批量歸一化;為可學習的參數矩陣。為了對局部特征相似度進行有效的權重控制和綜合局部特征相似度[14],獲得最終權重控制注意力模塊的相似度,本文算法模型對局部特征相似度進行加權求和,如公式(2)所示。
式(2)中,表示局部特征相似度。
2.2損失函數
本文讓Max of Hinges loss訓練權重控制注意力網絡以及權重優化機制,使對應的圖-句樣本對相似度
遠遠超過不對應的圖-句樣本對相似度[15]。
式(3)中,是余量,[x]+表示max(x,0),表示對應的圖片-句子對,、表示不對應的圖片-句子樣本對。其中,最大圖片負樣本、最大句子負樣本由公式(4)、式(5)獲得。
3 實驗與分析
為了分析權重控制注意力網絡對整個算法的影響,以及權重優化機制在提升算法性能方面發揮的作用。
本文算法模型分別在Flickr30K和MS-COCO數據庫上做了相關實驗。no-權重控制注意力網絡表示文章算法模型沒有使用權重控制注意力網絡的baseline模型[16];no-權重優化機制表示文章算法模型沒有使用權重優化機制的模型。同時,選取常用的圖像-文本雙向檢索評價指標R@1、R@5、R@10和R@sum作為衡量算法性能的依據,其中:R@1表示排名前1為正確結果的圖片、句子個數占總圖片或總句子個數的比率;R@5表示排名前5為正確結果的圖片、句子個數占總圖片或總句子個數的比率;R@10表示排名前10為正確結果的圖片、句子個數占總圖片或總句子個數的比率;R@sum表示圖像-文本雙向檢索的綜合性能。
本文中的權重控制注意力網絡模塊分別在Flickr30K和MS-COCO數據庫的性能數據如表1、表2所示。從表1、表2中可以看出,no-權重控制注意力網絡是baseline模型,當在baseline模型的基礎上增加權重控制注意力網絡時,本文算法模型中圖像搜索文本的召回率R@1、R@5、R@10,文本搜索圖像的召回率R@1、R@5、R@10以及圖像-文本雙向檢索的總體性能R@sum均得到了大幅度提升。說明權重控制注意力網絡模塊對本文算法模型起到了極為關鍵的作用,也證明了本文模型設置權重控制注意力網絡的合理性。因此,權重控制注意力網絡是本文算法模型不可缺少的一個環節。
本文中的權重優化機制分別在Flickr30K和MS-COCO數據庫的性能數據如表1、表2所示。從表1、表2中可以看出,本文算法模型相較于no-權重優化機制,在圖像搜索文本的召回率R@1、R@5、R@10,文本搜索圖像的召回率R@1、R@5、R@10以及圖像-文本雙向檢索的總體性能R@sum上均出現了提升。說明刪除權重優化機制會導致本文算法模型的性能下降,也證明了本文算法模型設置權重優化機制的合理性。綜上所述,權重優化機制對本文算法模型性能的提升起到了極為關鍵的作用。
4 結語
本文關于圖像-文本雙向檢索問題進行探究,設計了權重控制注意力網絡計算的圖像-文本雙向檢索算法。該算法利用設計的權重控制注意力網絡獲得了一系列局部特征相似度,學習出局部特征相似度的權重分布,對局部特征相似度進行有效的權重控制,有效緩解了沒有對局部特征相似度進行有效綜合的問題。最后,局部特征相似度信息被權重控制注意力網絡對進行了有效的挖掘。實驗結果表明,本文算法的性能跟baseline算法對比有明顯的提升,證明了本文算法的有效性和優越性。
參考文獻
[1] Wehrmann J, Kolling C, Barros R C. Adaptive cross-modal embeddings for image-text alignment[C]//32nd Innovative Applications of Artificial Intelligence Conference, 2020, 34(7):12313-12320.
[2] Lee K H, Chen X, Hua G, et al. Stacked cross attention for image-text matching[J]//15th European Conference on Computer Vision. Munich, GERMANY. 2018, 11208: 212-228.
[3] Liu Y, Zhang X M, Zhang Q Y, et al. Dual self-attention with co-attention networks for visual question answering[J]. Pattern Recognition, 2021, 117:107956.
[4] 尹梓睿,張索非,張磊,等.適于行人重識別的二分支EfficientNet網絡設計[J].信號處理,2020,36(9): 1481-1488.
[5] 趙師亮,吳曉富,張索非.基于PCB特征加權的行人重識別算法[J].信號處理,2020,36(8):1300-1307.
[6] Wang Q L, Ren J T.Summary-aware attention for social media short text abstractive summarization[J]. Neurocomputing, 2020, 425:290-299.
[7] Wu Y, Wang S, Song G, et al.Learning fragment self-attention embeddings for image-text matching[C]//Proceedings of the 27th ACM international conference on multimedia. 2019: 2088-2096.
[8] WaNG Y X, YANG H, BAI X X, et al. PFAN++: Bi-directional image-text retrieval with position focused attention network[J]. IEEE Transactions on Multimedia, 2020,23:3362-3376.
[9] Chen H, Ding G, Liu X, et al. Imram: Iterative matching with recurrent attention memory for cross-modal image-text retrieval[C]//Proceedings of the Ieee/Cvf Conference on Computer Vision and Pattern Recognition.2020:12655-12663.
[10] Park G, Han C, Yoon W, et al. MHSAN: Multi-head self-attention network for visual semantic embedding[C]//2020 Winter Conference on Applications of Computer Vision. IEEE, 2020:1518-1526.
[11] QI X F, ZHANG Y, QI J Q, et al. Self-attention guided representation learning for image-text matching[J].
Neurocomputing, 2021,450:143-155.
[12] DiaO H W, ZHANG Y, MA L, et al. Similarity reasoning and filtration for image-text matching[C]//33rd Conference on Innovative Applications of Artificial Intelligence, 2021,35(2):1218-1226.
[13] 王紅斌,張志亮,李華鋒.基于堆疊交叉注意力的圖像文本跨模態匹配方法[J].信號處理,2022,38(2):285-299.
[14] 陳佳,張鴻.基于特征增強和語義相關性匹配的圖像文本檢索方法[J].計算機應用,2024,44(1):16-23.
[15] 宮大漢,陳輝,陳仕江,等.一致性協議匹配的跨模態圖像文本檢索方法[J].智能系統學報,2021,16(6):1143-1150.
[16] 劉長紅,曾勝,張斌,等.基于語義關系圖的跨模態張量融合網絡的圖像文本檢索[J].計算機應用,2022,42(10):3018-3024.