999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于跨模態多維關系增強的多模態模型研究

2023-12-31 00:00:00成曦楊關劉小明劉陽
計算機應用研究 2023年8期

摘 要:針對當前多模態模型不能充分挖掘圖像中非顯著區域的空間關系和上下文間的語義關系,導致多模態關系推理效果不佳的問題,提出了一個基于跨模態多維關系增強的多模態模型(multi-dimensional relationship enhancement model,MRE),用于提取潛層結構下圖像各要素之間的空間關系信息,并推理出視覺—語言間的語義相關性。設計了特征多樣性模塊用于挖掘圖像中與顯著區域相關的次顯著區域特征,從而增強圖像空間關系特征表示。同時設計了上下文引導注意模塊來引導模型學習語言上下文在圖像中的關系,實現跨模態關系對齊。在MSCOCO數據集上的實驗表明所提模型獲得了更好的性能,其中BLEU-4和CIDEr分數分別提升了0.5%和1.3%。將這種方法應用到視覺問答任務中,在VQA 2.0數據集上性能得到了0.62%的提升,證明了該方法在多模態任務方面的廣泛適用性。

關鍵詞:圖像描述;視覺問答;特征多樣性;空間關系;上下文語義關系;特征融合;多模態編碼

中圖分類號:TP183 文獻標志碼:A 文章編號:1001-3695(2023)08-019-2367-08

doi: 10.19734/j.issn.1001-3695.2022.11.0517

Research on multi-modal model based on cross-modal multi-dimensional relationship enhancement

Cheng Xi Yang Guan Liu Xiaoming Liu Yang

(1. a. School of Computer Science, b. Henan Key Laboratory on Public Opinion Intelligent Analysis, Zhongyuan University of Technology, Zhengzhou 450007, China; 2. School of Telecommunications Engineering, Xidian University, Xi’an 710071, China)

Abstract:Aiming at the problem that the current multi-modal models can’t fully excavate the spatial relationship of non-significant regions and the semantic relationship between contexts, resulting in poor inference of multimodal relationship, this paper proposed a multi-modal model based on cross-modal multi-dimensional relationship enhancement, which was used to extract the spatial relation information between the image elements under the latent layer structure, and reasoning the semantic correlation between visual and language. Firstly, the model designed a feature diversity module to mine the sub-significant region features associated with significant regions in the image, thus enhancing the image spatial relationship feature representation. Secondly, it learned the context relationship of language in the image by the context guided attention module to achieve cross modal relationship alignment. Experiments on the MSCOCO dataset show that the proposed model achieves better performance, with BLEU-4 and CIDEr scores are improved by 0.5% and 1.3%, respectively. This approach is also applied to the visual question answering task, and the performance is improved by 0.62% on the VQA 2.0 dataset, which proves the wide applicability of the approach in multimodal tasks.

Key words:image description; visual question answering; feature diversification; spatial relationship; contextual semantic relationship; feature fusion; multimodal encoding

0 引言

視覺和語言是描述和理解人類現實世界的主要方式。隨著人工智能的發展,越來越廣泛的研究工作致力于計算機視覺和自然語言處理的跨模態組合(例如圖像描述[1]、視覺問答[2]、視覺關系檢測[3]和其他跨模態任務[4])。在這些多模態任務中,大多需要執行一些細粒度的視覺處理,甚至由多個推理步驟來生成高質量的輸出結果。由于視覺和語言之間的語義鴻溝,使它們處于不同的抽象水平,導致不同模態間信息融合變得困難。為了獲取更細粒度的模態信息并縮小模態之間的差距,越來越多的學者致力于研究多模態信息的表示以及多模態關系推理。

多模態視覺—語言模型不僅要理解圖像和語言的上下文,還要理解輸入圖像中的視覺區域與自然語言之間的潛在關系。大多數現有模型采用注意力方法[5,6]來模擬不同模態之間的密集相互作用,并推斷出視覺和語言的跨領域潛在對齊關系,然而這些淺層結構模型只能實現多模態實例的粗略交互。Yu等人[7]提出一種深度模塊化共同注意網絡,該網絡由深度級聯的模塊化共同關注層組成,以實現語言到視覺的關系建模。由于注意力機制所學習的注意力矩陣是密集的且無法確定注意力向量間的相關程度,Huang等人[8]提出了AoA網絡來過濾掉不相關或者誤導性的注意力結果,僅將有用的注意力結果保留在解碼器中。Pan等人[9]發現現有模型都只利用了一階特征交互,因此引入了X-LAN注意力模塊,利用雙線性池化來捕獲模態間的高階甚至無限階交互。這些方法著重于文本特征與細粒度圖像特征之間的對齊,忽略了圖像的潛層結構,導致關系推理效果不理想。考慮到圖像中蘊涵豐富的結構化語義信息,而圖可以將當前對象、對象的屬性、對象間關系整合到一起,可以學習圖像中對象間的關系和屬性,實現視覺信息和語義信息對齊,因此一些研究利用圖注意網絡來實現跨模態關系推理。文獻[10]提出一種關系感知圖注意力網絡(ReGAT),它將每個圖像編碼為一個圖,并通過圖注意力機制對多類型對象間關系進行建模,以實現視覺—語言自適應關系表示。

盡管先前的工作探索了如何利用對象關系和高階多模態特征來提高多模態模型性能,但是它們仍然存在幾個缺點:

a)現有多模態模型大多采用注意力機制提取相關圖像,易忽略原始對象的外觀特征,這是因為基于注意力機制的模型往往傾向于關注顯著區域而忽略了蘊涵豐富語義信息的不顯著但可區分區域,這些外觀特征包含大量的視覺屬性,可以提供對象之間的語義和空間關系。以圖像描述任務為例,如圖1(a)第一幅圖中傳統注意力模型只識別了顯著區域(站在水中的大象),而忽略了背景區域“一群大象”,影響描述語句的空間關系完整性。

b)語言的上下文中蘊涵豐富的關系信息,無論是在視覺問答還是在圖像描述中,以前的方法在進行相似性對齊時僅考慮單向對齊[6],未明確探索語言上下文在視覺上的關系。例如圖1(a)第二幅圖中會忽略上文的“人”和下文的“雨傘”在圖片中的關系,導致生成的描述語句出現上下文關系錯誤。

針對以上問題,本文提出一種跨模態多維關系增強(multi-dimensional relationship enhancement,MRE)的多模態模型,從對象間空間關系和上下文語義關系兩個方面來增強模型對跨模態關系的推理能力。模型的設計思想如圖1(b)所示,利用一個特征多樣性模塊(feature diversification module,FDM)來解決注意力關注目標區域不完整的問題。它可以學習區域之間的互補性,找到有關聯的多個區域;為了對圖像與語言表示之間的多模態關系建模,構建了一個上下文引導注意(context guided attention,CGA)模塊,首先利用語言作為全局上下文,CGA基于全局上下文和隱藏狀態,在每個時間步都利用上下文來引導注意圖像,學習更準確的語義關系。為了證明所提方法的泛化能力,在圖像描述任務和視覺問答任務中進行多次實驗,結果表明利用多維關系能夠提高模型的關系推理能力。

1 相關工作

1.1 跨模態學習

跨模態表示學習旨在學習不同模態之間的交互并產生語義豐富的多模態表示,現有的跨模態學習方法可以分為聯合嵌入學習和協調嵌入學習兩類。聯合嵌入學習是將來自兩種模態的數據嵌入到一個公共特征空間,并計算不同模態的相似性。早期的方法通過簡單的連接從卷積神經網絡(CNN)獲得的視覺特征和從遞歸神經網絡(RNN)獲得的自然語言特征來解決多模態問題[11],但這種簡單的融合方法缺乏可解釋性,并不能提供良好的性能。另外一些方法首先將所有模態轉換為不同的表現形式,然后將多個表示形式嵌入到一個聯合特征空間中。例如,文獻[7]堆疊了多個編碼器,用于單獨學習每個模態的表示,并用共同注意機制以實現語言到視覺的關系建模;文獻[12] 將對象、屬性、關系整合為場景圖,以實現圖像和句子之間的對齊;文獻[13]將圖像及其描述分解為不同的層次來學習視覺表示與文本語義的聯合相似性。但是這些方法僅考慮每個模態的公共特征嵌入,忽略了兩個模態之間的相互作用,因此它們缺乏表示復雜的異構模態數據能力。協同嵌入學習不是將模態數據投入到聯合空間,而是分別學習每個模態的表示,并通過約束方法進行協調。文獻[14]提出一個分層圖形推理模型,將視頻和文本解耦成全局事件、局部動作、實體表示這些高級語義層次,然后通過注意力圖來推理和對齊不同層次的視頻和文本。

1.2 多模態關系

為了推斷兩個或多個對象間的復雜關系,已經有許多關系方法被提出,例如關系網絡。早期的關系網絡[15]利用一個神經網絡塊來計算任意兩個對象間的關系;Zhang等人[16]利用圖卷積網絡對局部圖像進行深度關系推理;Gao等人[17]將模態內和模態間信息流動態融合,通過在多模態之間和跨模態之間交替傳遞信息來推理它們之間的關系。考慮到原始特征也包含豐富的關系信息,李雅紅等人[18]將對象外觀特征和邊界框特征合并為關系特征來學習對象間的空間關系;Cornia等人[19]引入了一個網狀Transformer學習圖像區域之間關系的多級表示;Liu等人[20]引入全局和局部信息探索和提取(GLIED)方法來提取跨模態信息,捕獲圖像區域的空間關系。這些關系推理方法通常分為兩個階段:a)結構化的表示提取,旨在與原始數據中的實體相對應;b)如何利用這些表示來推理其內在關系。

雖然目前的方法在獲取圖像內部對象的空間關系和語義關系方面取得了巨大進展,但是仍然存在獲取多模態特征不充分、忽略視覺—語言之間的語義關系對齊、特征間缺乏深入交互等問題,而本文的工作集中在如何獲取更完整、更有用的模態數據表示,并對多模態間的關系建模。基于以上分析,本文提出基于跨模態多維關系增強的多模態表示模型,利用特征多樣性的方法從潛層空間提取相關的視覺區域特征,同時利用上下文引導注意方法來動態感知各視覺特征和語言特征間的關系,以此達到推理視覺對象間的空間關系和上下文語義關系的目的。本文將這種方法應用到了視覺問答和圖像描述任務中,證明了該方法的廣泛適用性。

2 MRE模型

研究發現目前大多數多模態表示模型都傾向于使用注意力機制來捕獲視覺特征中的顯著特征信息,本文認為視覺特征中的非顯著區域也能提供豐富的對象關系信息。為了獲取較完整的視覺特征以及推理各視覺特征間的關系,本文提出一個跨模態多維關系增強(MRE)模型,從潛層空間關系和上下文語義關系兩個角度來提高多模態模型的跨模態關系推理能力。首先,在潛層空間利用特征多樣性模塊提取與顯著區域相關的非顯著區域特征,并將其與基于注意力機制方法提取的視覺特征融合,得到一個包含更多有用信息的細化特征;在視覺—語言融合階段為了準確推理視覺—語言的對齊關系,設計了一個上下文引導注意模塊來動態推理語言的上下文對象在圖像中的對應關系。

2.1 基于注意力機制的特征多樣性模塊

2.2 上下文引導注意模塊

在圖像描述任務中,基本注意力單元輸出初步關注的特征向量,可以指導語言模型生成更多的名詞并有效建立它們的關系,但是僅依賴于先前的單詞來生成當前預測單詞不能有效地利用未來信息來學習完整的語義關系。文獻[21]利用語義注意來感知全局上下文關系,但是只考慮了單一模態(語言)間的關系。而本文的上下文引導注意模塊,在進行過去信息與未來信息間關系推理時,不僅僅只回顧過去信息,還同時學習圖像特征與語言特征的交叉模態相似性,使生成的語句關系更貼合圖像內容,如圖4所示。

2.3 多維關系增強的圖像描述模型

圖像描述是多模態學習的一個重要應用場景,它要求根據圖像生成相應的描述內容,圖5為基于跨模態多維關系增強的圖像描述模型,該模型以X-LAN模型[9]為基礎,并將本文所提出的特征多樣性模塊FDM集成到圖像編碼層,將上下文引導注意模塊CGA集成到語言解碼層,以此提高模型的生成能力。

2.3.1 圖像特征編碼層

圖像編碼器是將輸入的圖像區域特征集V轉換為一系列中間狀態的模塊,原始圖像通過一系列狀態轉換使上下文信息得到增強。本文選擇X-linear注意模塊[9]作為編碼器端的圖像特征提取器,因為X-linear本身是注意力方法的改進,它同時利用空間和通道雙線性分布來捕獲輸入的單模態或多模態特征之間的二階交互,所以具有更強的特征表示能力。充分利用X-linear注意力和特征多樣性模塊來構建圖像編碼器,通過捕獲更全面的圖像特征增強圖像中對象間的空間關系。

2.3.2 語言解碼層

2.3.3 訓練和目標

2.4 多維關系增強的視覺問答模型

視覺問答同樣是多模態學習的一個重要應用場景,視覺問答要求模型根據圖片和問題得出相關答案。這里通過視覺問答和回答示例來對所提模型的廣泛適用性進行分析。具體來說,給定圖像特征和相應的問題語義嵌入,首先特征多樣性模塊生成與問題相關的視覺特征,然后利用上下文引導注意模塊學習問題中對象之間的關系。整個模型結構如圖6所示。在此過程中,模型會得到多個候選答案,最后通過分類器輸出得分最高的答案。

3 實驗及分析

3.1 數據集

3.2 在圖像描述任務上的實驗

3.2.1 詳細參數設置和評估方法

3.2.2 實驗結果

3.2.3 消融實驗

為了全面分析特征多樣性模塊、上下文引導注意模塊在圖像編碼階段和句子解碼階段中對描述生成的影響,將不同模塊組合進行了消融實驗,結果如表3所示。第一個消融實驗表示僅在圖像編碼器端加上特征多樣性模塊FDM,由實驗可知,相對于基線模型獲得了更好的性能,特別是在衡量準確率的BLEU-1指標上獲得0.4%的提升,說明模型獲取了更完整的圖像區域,使描述更完整。第二個消融實驗表示只在解碼器端添加上下文引導注意模塊CGA,由實驗結果可知,在衡量整體語義質量的CIDEr指標上得到0.6%的提升,反映了本文中的上下文引導注意機制可以提高圖像描述的質量。而整體MRE模型則在CIDEr指標上獲得1.3%的提升,證明了FDM和CGA可以聯合提升模型的性能。

3.2.4 可視化分析

為了可視化地分析特征多樣性模塊性能,在圖7中將僅添加注意力機制和增加了FDM的注意力機制生成的對象區域可視化,各對象可視化結果如紅色框所示(參見電子版)。由圖可知FDM可以關注到更多相關的區域“scissors”,使生成的描述空間關系更完整,而普通注意力機制生成的區域則只注意到明顯區域,忽略非顯著區域,導致關注區域不完整。

為了可視化分析上下文引導注意塊的性能,在圖8中,將僅利用注意力和CGA模塊分別可視化,結果如紅色框所示(見電子版)。由圖可知,CGA模塊能正確注意到“people”和“airplane”,且準確描述了它們之間的關系“standing around”,而普通注意力的區域則注意到其他不相關區域,導致區域間關系不準確。由此證明CGA模塊可以準確識別區域間關系,使生成的描述更準確。

3.2.5 樣例展示與分析

3.3 在視覺問答任務上的實驗

為了驗證跨模態多維關系增強模型的可擴展性,本文還在VQA 2.0數據集上驗證了視覺問答任務。為了公平比較,使用相同的自下而上的注意視覺特征,而且本文重新實現了文獻[7]中的MCAN-small模型。由于篇幅限制,這里省略了具體的參數設置,詳細的參數設置參考文獻[7]。唯一不同的是為了減少深度級聯模塊對特征多樣性方法的影響,本文將MCA層數設為2。

3.3.1 實驗結果

為了驗證本文方法在視覺問答任務上的效果,分別將FDM和CGA方法應用到基線模型MCAN上,結果顯示FDM和CGA都使模型獲得了進一步的提升。實驗結果表明在Test-dev數據集上,MCAN+CGA方法在回答數量(number)方面有著絕對的優勢,相較于模型MCAN提升了0.91%,MCAN+FDM方法在回答其他(other)類型問題方面相較于MCAN提升了0.21%,MCAN+FDM+CGA方法總的(overall)準確率提升了0.48%,整體結果如表5所示。

在Test-standard數據集上,MCAN+CGA方法回答數量方面提升了0.65%,總的準確率提升了0.46%,MCAN+FDM方法在回答其他類型問題方面0.37%,MCAN+FDM+CGA方法總的準確率提升了0.62%,整體結果如表6所示。

3.3.2 結果展示

3.4 不足性分析

雖然MRE模型在視覺問答和圖像描述應用場景上取得提升,但是在部分指標上性能提升不大,經過分析有兩個原因:

a)訓練的數據集不平衡,存在偏見問題,例如性別偏見、屬性偏見等導致模型識別錯誤,錯誤示例如圖11所示。在識別人物性別上,由于數據集中有大量描述都是關于“boy”,導致模型在生成語言時直接根據語言先驗生成描述或答案,這在一定程度上影響了多維關系增強模型的性能。

b)本文的多維關系增強的圖像描述模型的詞向量采用的是“one-hot”編碼,無法描述詞與詞在上下文語境下的關系,最終使模型對圖像語義的描述產生偏差。針對上述兩個問題,下一步的工作從因果推理角度來解決視覺特征和某些表達間的關系,同時改進詞嵌入方式。

4 結束語

針對現有基于注意力方法的多模態任務模型在學習區域特征時傾向于關注顯著區域而忽略一些蘊涵豐富信息的非顯著區域,導致獲取特征不完整,且描述目標時孤立對待不同區域特征,不能準確描述上下文對象間關系的問題。本文提出一種跨模態多維關系增強模型,從對象空間關系和語義關系兩個方面來增強多模態模型的推理能力,利用特征多樣性模塊提取與注意區域相關的區域來增強當前注意區域,獲得更完整的特征表示,通過上下文引導注意模塊來學習跨模態關系,促進視覺與語言的關系對齊。實驗表明,本文方法對圖像中的目標檢測更完整,對上下文對象間關系感知也更為準確。同時在視覺問答任務上也驗證了本文的有效性,證明該方法可以應用于廣泛的多模態任務中。在未來的工作中將從因果推理角度來解決視覺特征和某些表達(例如“長發”和“女人”的視覺特征關系)之間的虛假相關問題,幫助模型更好地理解圖像,緩解語言與圖像不一致的問題。

參考文獻:

[1]Xu K,Ba J,Kiros R,et al. Show,attend and tell: neural image caption generation with visual attention [C]// Proc of the 32nd International Conference on Machine Learning. 2015: 2048-2057.

[2]Lu Jiasen,Yang Jianwei,Batra D,et al. Hierarchical co-attention for visual question answering [C]// Proc of the 30th Conference on Neural Information Processing Systems. Red Hook,NY: Curran Asso-ciates Inc.,2016: 289-297.

[3]Han Chaojun,Shen Fumin,Liu Li,et al. Visual spatial attention network for relationship detection [C]// Proc of the 26th ACM International Conference on Multimedia. New York: ACM Press,2018: 510-518.

[4]Shen Hengtao,Liu Luchen,Yang Yang,et al. Exploiting subspace relation in semantic labels for cross-modal hashing [J]. IEEE Trans on Knowledge and Data Engineering,2021,33(10):3351-3365.

[5]吝博強,田文洪. 基于層次注意力機制的高效視覺問答模型 [J]. 計算機應用研究,2021,38(2): 636-640. (Lin Boqiang,Tian Wenhong. Efficient image question answering model based on layered attention mechanism [J]. Application Research of Computers,2021,38(2): 636-640. )

[6]Anderson P,He Xiaodong,Buehler C,et al. Bottom-up and top-down attention for image captioning and visual question answering [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway,NJ: IEEE Press,2018: 6077-6086.

[7]Yu Zhou,Yu Jun,Cui Yuhao,et al. Deep modular co-attention networks for visual question answering [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 6281-6290.

[8]Huang Lun,Wang Wenmin,Chen Jie,et al. Attention on Attention for Image Captioning [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 4633-4642.

[9]Pan Yingwei,Yao Ting,Li Yehao,et al. X-linear attention networks for image captioning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 10968-10977.

[10]Li Linjie,Gan Zhe,Cheng Yu,et al. Relation-aware graph attention network for visual question answering [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 10313-10322.

[11]Antol S,Agrawal A,Lu Jiasen,et al. VQA: visual question answering [C]// Proc of International Conference on Computer Vision. Washington DC: IEEE Computer Society,2015: 2425-2433.

[12]Gu Jiuxing,Joty S R,Cai Jianfei,et al. Unpaired image captioning via scene graph alignments [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 10322-10331.

[13]Wu Hao,Mao Jiayuan,Zhang Yufeng,et al. Unified visual-semantic embeddings: bridging vision and language with structured meaning representations [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 6609-6618.

[14]Chen Shizhe,Zhao Yida,Qin Jin,et al. Fine-grained video-text retrieval with hierarchical graph reasoning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 10638-10647.

[15]Santoro A,Raposo D,Barrett D,et al. A simple neural network mo-dule for relational reasoning [C]// Proc of the 31st Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017: 4967-4976.

[16]Zhang Shixue,Zhu Xiaobin,Hou Jiebo,et al. Deep relational reaso-ning graph network for arbitrary shape text detection [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 9699-9708.

[17]Gao Peng,Jiang Zhengkai,You Haoxuan,et al. Dynamic fusion with intra-and inter-modality attention flow for visual question answering [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 6639-6648.

[18]李雅紅,周海英,徐少偉. 基于對象關系網狀轉換器的圖像描述模型 [J]. 計算機工程,2021,47(5): 197-204. (Li Yahong,Zhou Haiying,Xu Shaowei. Image description model based on object relation mesh transformer [J]. Computer Engineering,2021,47(5): 197-204. )

[19]Cornia M,Stefanini M,Baraldi L,et al. Meshed-memory transformer for image captioning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 10575-10584.

[20]Liu Fenglin,Ren Xuancheng,Liu Yuanxin,et al. Exploring and distilling cross-modal information for image captioning [C]// Proc of the 28th International Joint Conference on Artificial Intelligence.[S.l.]: IJCAI Press,2019: 5095-5101.

[21]Song Zeliang,Zhou Xiaofei,Mao Zhendong,et al. Image captioning with context-aware auxiliary guidance [C]// Proc of the 35th AAAI Conference on Artificial Intelligence. Pola Alto,CA: AAAI Press,2021: 2584-2592.

[22]Rennie S J,Marcheret E,Mroueh Y,et al. Self-critical sequence training for image captioning [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2017: 1179-1195.

[23]Lin T Y,Maire M,Belongie S J,et al. Microsoft COCO: common objects in context [C]// Proc of European Conference on Computer Vision. Cham: Springer,2014: 740-755.

[24]Karpathy A,Li Feifei. Deep visual-semantic alignments for generating image descriptions [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(4): 664-676.

[25]Goyal Y,Khot T,Summers-Stay D,et al. Making the V in VQA matter: elevating the role of image understanding in visual question answering [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2017: 6904-6913.

[26]Deng Jia,Wei Dong,Socher R,et al. ImageNet: a large-scale hierarchical image database [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2009: 248-255.

[27]Krishna R,Zhu Yuke,Groth O,et al. Visual Genome: connecting language and vision using crowdsourced dense image annotations [J]. International Journal of Computer Vision,2017,123(1): 32-73.

[28]Freitag M,Al-Onaizan Y. Beam search strategies for neural machine translation [C]// Proc of the 1st Workshop on Neural Machine Translation. Stroudsburg,PA: Association for Computational Linguistics,2017: 56-60.

[29]Papineni K,Roukos S,Ward T,et al. BLUE: a method for automatic evaluation of machine translation [C]// Proc of the 40th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2002: 311-318.

[30]Banerjee S,Lavie A. METEOR: an automatic metric for MT evaluation with improved correlation with human judgments [C]// Proc of ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. Stroudsburg,PA: Association for Computational Linguistics,2005: 65-72.

[31]Lin C Y. ROUGE: a package for automatic evaluation of summaries [C]// Proc of ACL Workshop on Text Summarization Branches Out. Stroudsburg,PA: Association for Computational Linguistics,2004: 74-81.

[32]Anderson P,Fernando B,Johnson M,et al. SPICE: semantic propositional image caption evaluation [C]// Proc of the 14th European Conference on Computer Vision. Cham: Springer,2016: 382-398.

[33]Vedantam R,Zitnick C L,Parikh D. CIDEr: consensus-based image description evaluation [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2015: 4566-4575.

[34]Ji Junzhong,Du Zhuoran,Zhang Xiaodan. Divergent-convergent attention for image captioning [J]. Pattern Recognition,2021,115(2): 107928.

[35]Wei Jiahui,Li Zhixin,Zhu Jianwei,et al. Flexible image captioning via internal understanding and external reasoning [C]// Proc of International Conference on Data Mining. [S.l.]: SIAM Press,2022: 307-315.

[36]Zheng Chongfei,Xu Yan,Wang Shuhui,et al. DeeCap: dynamic early exiting for efficient image captioning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2022: 12216-12226.

[37]Feng Junlong,Zhao Jianping. Context-fused guidance for image captioning using sequence-level training [J/OL]. Computational Intelligence and Neuroscience. (2022). https://doi.org/10.1155/2022/9743123.

主站蜘蛛池模板: 亚洲色图另类| 露脸国产精品自产在线播| 一级毛片免费不卡在线| 深夜福利视频一区二区| 人妻丰满熟妇αv无码| a天堂视频| 日韩在线成年视频人网站观看| 婷婷五月在线| 亚洲第一在线播放| 国产成人久久综合一区| 99精品热视频这里只有精品7| 萌白酱国产一区二区| 日韩黄色在线| 国产色图在线观看| 成年片色大黄全免费网站久久| 亚洲天堂免费在线视频| 中文字幕人妻av一区二区| 亚洲综合久久成人AV| 中国国产A一级毛片| 欧美在线一二区| 国产 在线视频无码| 少妇精品在线| 日本伊人色综合网| 丁香五月亚洲综合在线| 欧美综合在线观看| 真实国产乱子伦视频| 狠狠色综合久久狠狠色综合| 国产波多野结衣中文在线播放| 亚洲国产清纯| 精品夜恋影院亚洲欧洲| 免费国产好深啊好涨好硬视频| 97一区二区在线播放| 亚洲乱强伦| 色综合久久88| 精品成人一区二区三区电影| 99一级毛片| 中文字幕丝袜一区二区| 久久国产精品影院| 国内精品九九久久久精品| 久久国产精品夜色| 亚洲综合欧美在线一区在线播放| 免费高清自慰一区二区三区| 天天综合色天天综合网| 欧美激情一区二区三区成人| 日韩精品久久久久久久电影蜜臀| 国产高潮视频在线观看| 国产不卡网| 九九九九热精品视频| a毛片在线| 国产一级裸网站| 国产精品成人免费视频99| 久久香蕉国产线看观看精品蕉| 精品欧美一区二区三区久久久| 婷婷亚洲最大| 国产免费久久精品99re不卡| 亚洲熟妇AV日韩熟妇在线| 992tv国产人成在线观看| 国产网友愉拍精品| 青草国产在线视频| 免费A级毛片无码免费视频| 91亚洲国产视频| 99久久精品久久久久久婷婷| 国产精品露脸视频| 亚洲日本在线免费观看| 免费日韩在线视频| 特级欧美视频aaaaaa| 欧美成人亚洲综合精品欧美激情| 国产精品任我爽爆在线播放6080| 欧美一区精品| 激情影院内射美女| 亚洲精品国产成人7777| 精品久久高清| 欧美日韩精品一区二区在线线| 亚洲 成人国产| 日韩欧美色综合| 伊人久久影视| 18禁影院亚洲专区| 日韩国产亚洲一区二区在线观看| 高清乱码精品福利在线视频| 啊嗯不日本网站| 伊人查蕉在线观看国产精品| 少妇极品熟妇人妻专区视频|