摘 要:基于視覺特征與文本特征融合的圖像問答已經(jīng)成為自動問答的熱點(diǎn)研究方向之一。現(xiàn)有的大部分模型都是通過注意力機(jī)制來挖掘圖像和問題語句之間的關(guān)聯(lián)關(guān)系,忽略了圖像區(qū)域和問題詞在同一模態(tài)之中以及不同視角的關(guān)聯(lián)關(guān)系。針對該問題,提出一種基于多路語義圖網(wǎng)絡(luò)的圖像自動問答模型(MSGN),從多個角度挖掘圖像和問題之間的語義關(guān)聯(lián)。MSGN利用圖神經(jīng)網(wǎng)絡(luò)模型挖掘圖像區(qū)域和問題詞細(xì)粒度的模態(tài)內(nèi)模態(tài)間的關(guān)聯(lián)關(guān)系,進(jìn)而提高答案預(yù)測的準(zhǔn)確性。模型在公開的圖像問答數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,從多個角度挖掘圖像和問題之間的語義關(guān)聯(lián)可提高圖像問題答案預(yù)測的性能。
關(guān)鍵詞:圖像問答;多頭注意力;自動問答;特征融合;跨模態(tài)分析
中圖分類號:TP391.1 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2023)02-011-0383-05
doi: 10.19734/j.issn.1001-3695.2022.06.0335
Image question answering based on multi-view semantic graph network
Qiao Youtian1, Zhang Haijun2, Lu Ming3
(1.School of Electronic Engineering, Yangzhou Polytechnic College, Yangzhou Jiangsu 225200, China; 2.School of Information, Beijing Wuzi University, Beijing 101149, China; 3.School of Cyber Science amp; Technology, Beihang University, Beijing 100191, China)
Abstract:Recently, image question answering based on the fusion of visual features and text features has become one of the hot research issues of automatic question answering. Most of the existing models are based on the attention mechanism to explore the relationship between the image and the question sentence, which ignores the correlation between the image area and the question words in the same mode and different views. To solve these problems, this paper proposed an image question answering model (MSGN) based on multi-view semantic graph network, which could mine the semantic correlation between images and questions from multiple views. Meanwhile, it used the graph neural network model to mine the fine-grained intra and inter-modal correlation between image regions and question words. It carried out extensive experiments on public data sets. The experimental results show that the image automatic question answering model based on multi-view semantic graph network can improve the performance of image question answering.
Key words:image question answering; multi-head attention model; automatic question answering; feature fusion; cross-modal analysis
0 引言
隨著智能終端的廣泛普及以及社交網(wǎng)絡(luò)的崛起,每天都有數(shù)以億計(jì)的圖片、文字、視頻等信息在網(wǎng)絡(luò)上產(chǎn)生。這些多模態(tài)的數(shù)據(jù)促使越來越多的研究人員開始重視如何從中挖掘出有價值的信息。于是,融合了計(jì)算機(jī)視覺、自然語言處理等技術(shù)的多模態(tài)學(xué)習(xí)模型得到了極大的關(guān)注。多模態(tài)學(xué)習(xí)的一個重要任務(wù)是視覺問答(visual question and answering,VQA),視覺問答是以圖像(或視頻)和與圖像(或視頻)有關(guān)的文本問題的多模態(tài)信息作為計(jì)算機(jī)的輸入,計(jì)算機(jī)根據(jù)圖片得到問題的正確答案[1]。視覺問答要求模型對視覺圖片/視頻、自然語言問題具有深入理解的同時,還要對兩種模態(tài)的特征進(jìn)行關(guān)聯(lián)分析,以挖掘視覺信息中隱藏的答案相關(guān)特征,用于答案推導(dǎo)。視覺問答在早期教育、人機(jī)交互等方面具有廣泛的應(yīng)用前景。
圖像問答的研究方法主要依賴于深度學(xué)習(xí)[1]。早期的圖像問答[2]利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)[3]和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[4]分別編碼圖片和問題特征。然后,以簡單的拼接或加和方式融合兩種模態(tài)的特征進(jìn)行答案推導(dǎo)。隨著注意力機(jī)制在自然語言和計(jì)算機(jī)視覺上取得的重大進(jìn)展,利用視覺注意力機(jī)制研究文本和圖像視覺之間的內(nèi)部關(guān)聯(lián)關(guān)系成為了一種新的趨勢[5,6]。它們通過挖掘圖像和問題對應(yīng)的重要特征來縮減不同模態(tài)之間的語義間隙。與此同時,一些基于外部知識庫[7,8]和基于多模態(tài)特征融合[9]的視覺問答方法也產(chǎn)生了較好的實(shí)驗(yàn)效果。然而,由于圖像內(nèi)容信息的多樣性和問題語句的自由性,這些方法很難有效彌合異質(zhì)空間中不同模態(tài)之間的語義鴻溝。現(xiàn)有方法在捕捉圖像和問題語句之間的細(xì)粒度關(guān)系,挖掘答案相關(guān)的特征方面仍然具有較大的提升空間,需要進(jìn)行更深入的研究工作。
事實(shí)上,圖像的空間分布與問題句的語義之間獨(dú)特的關(guān)聯(lián)關(guān)系為圖像問答提供了重要的信息。一方面,圖像的視覺對象區(qū)塊之間也具有一定的語義聯(lián)系,問題語句的各個詞語之間也具有一定的語義相關(guān)性;同時,對象區(qū)塊和詞語之間也存在著豐富的關(guān)聯(lián)關(guān)系。充分挖掘這些模態(tài)內(nèi)和模態(tài)間的關(guān)聯(lián)關(guān)系能夠增強(qiáng)對問題語句的理解,并且能夠發(fā)現(xiàn)問題語句和圖像之間的內(nèi)在語義關(guān)系,從而更加準(zhǔn)確地推導(dǎo)出問題的答案。另一方面,近年來圖神經(jīng)網(wǎng)絡(luò)用于挖掘數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系取得了非常好的效果[10,11]。因此,本文利用圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像塊之間以及問題語句詞語之間的關(guān)聯(lián)關(guān)系,進(jìn)而提高圖像問題答案的預(yù)測性能。
基于上述分析,本文為圖像問答提出了一種新穎的跨模態(tài)注意力多路語義圖網(wǎng)絡(luò)(multi-view semantic graph network,MSGN)。首先,設(shè)計(jì)一個多頭注意力模塊,從多個角度挖掘圖像內(nèi)容和單詞序列之間的交互關(guān)系,從而產(chǎn)生更清晰的注意力分布。其次,基于交叉關(guān)注的多模態(tài)特征構(gòu)建多路語義交互關(guān)系圖。圖的每個節(jié)點(diǎn)對應(yīng)于圖像的一個區(qū)域和問題單詞,而節(jié)點(diǎn)之間的邊代表兩個節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系。通過圖卷積神經(jīng)網(wǎng)絡(luò)對構(gòu)造的多路異構(gòu)圖執(zhí)行模態(tài)間和模態(tài)內(nèi)相關(guān)性的同步推理。最后,由于圖結(jié)構(gòu)推理模型更多地關(guān)注于局部因素之間的相互作用,所以本文進(jìn)一步提出了全局和局部信息融合模塊,用于融合從異構(gòu)圖學(xué)習(xí)的局部推理向量和從另一分支學(xué)習(xí)的全局向量,利用融合后的多模態(tài)特征向量進(jìn)行答案推導(dǎo)。在公共數(shù)據(jù)上的實(shí)驗(yàn)表明,MSGN通過挖掘不同角度下圖像和問題語句之間的語義關(guān)聯(lián)關(guān)系,能夠有效提高圖像問題答案預(yù)測的準(zhǔn)確率。
1 相關(guān)工作
根據(jù)當(dāng)前研究工作側(cè)重點(diǎn)的不同,可以將現(xiàn)有的圖像問答方法分為三種類型,即基于視覺注意力機(jī)制的方法、基于外部知識庫的方法和基于多模態(tài)特征融合的方法。
Yang 等人[12]第一個在圖像問答領(lǐng)域引入視覺注意力機(jī)制的工作。Dual-MFA [13]模型利用基于自由區(qū)域和目標(biāo)檢測兩種形式的注意力機(jī)制建模問題和圖片之間的相關(guān)性,并將來自不同視角的注意機(jī)制學(xué)習(xí)到的多模態(tài)特征進(jìn)一步融合用于進(jìn)行答案推導(dǎo)。CVA[14]提出了一種立體式視覺注意力機(jī)制,它利用問題對圖片區(qū)域的特定通道和空間注意來預(yù)測答案。ODA [15]提出了一種對象差異注意力機(jī)制,它對圖片中與問題相關(guān)聯(lián)的多個對象進(jìn)行對象差異計(jì)算來獲取注意力分布。盡管視覺注意力機(jī)制能在一定程度上建立跨模態(tài)的交互,但仍然很難準(zhǔn)確捕捉兩種模態(tài)之間的細(xì)粒度關(guān)系。
利用一些外部知識庫,模型往往能正確回答以往直接從圖像中探索問題答案的方法所不能正確回答的問題,這就催生并加速了基于外部知識庫的圖像問答技術(shù)的發(fā)展[16]。Zhu等人[7]提出了一種任務(wù)驅(qū)動的神經(jīng)網(wǎng)絡(luò)信息獲取模型,該模型采用查詢的方法主動從外部數(shù)據(jù)庫中獲取相關(guān)信息。Wang等人[17]介紹了一種能夠基于圖片內(nèi)容交互式地回答圖片各方面的問題的方法。該方法以一個大型的外部知識庫為基礎(chǔ),開發(fā)出一種圖片的結(jié)構(gòu)化表示以及關(guān)于該圖像內(nèi)容的其他相關(guān)信息表示。但這些方法嚴(yán)重依賴于外部知識庫,而且查詢增加了大量的時間開銷。
相比于簡單的多模態(tài)特征拼接或加和方式,雙線性特征融合模型[18]為圖像問答任務(wù)中的問題—圖像聯(lián)合嵌入學(xué)習(xí)提供了一個有效的框架,它有助于學(xué)習(xí)問題語義和圖片中的視覺概念之間的高級關(guān)聯(lián)。Fukui等人[9]提出利用多模態(tài)緊湊雙線性池(MCB)來高效地表達(dá)組合多模態(tài)特征。Ben-younes 等人[19]提出了一個更加泛化的多模態(tài)特征融合方法 MUTAN。這是一種基于多模態(tài)張力的Tucker 分解,它有效地參數(shù)化圖片和問題表示之間的雙線性交互。隨著圖方法的發(fā)展,Li等人[20]提出了基于圖注意力的圖像自動問答方法ReGAT。然而,這些方法沒有同時結(jié)合模態(tài)內(nèi)的語義交互關(guān)系以及模態(tài)間的對象關(guān)聯(lián)關(guān)系,影響了圖像與問題嵌入學(xué)習(xí)的性能。
2 基于多路語義圖網(wǎng)絡(luò)的圖像問答
本文提出的 MSGN模型的總體框架如圖1所示。圖像和問題語句首先通過特征表示模塊進(jìn)行處理,然后送入兩個分支。在一個分支中,一個多頭注意力模塊被設(shè)計(jì)用于挖掘圖像和問題之間的跨模態(tài)關(guān)系。經(jīng)過注意力機(jī)制交叉編碼后的多模態(tài)特征被用來構(gòu)建多路語義圖,并對模態(tài)間和模態(tài)內(nèi)的相關(guān)性進(jìn)行跨模態(tài)推理,生成一個局部向量。在另一個分支中,利用多模態(tài)集成模塊整合圖像和問題特征以學(xué)習(xí)一個全局向量。最后,利用雙線性模塊將局部和全局向量融合在一起進(jìn)行答案推導(dǎo)。
2.1 特征提取
Euclid ExtraaBpd分別表示兩個LSTM最后一個隱藏單元的嵌入輸出。
2.2 跨模態(tài)多頭注意力
除了理解圖像內(nèi)容和問題語義外,圖像問答還需要挖掘不同模態(tài)之間的關(guān)系,以實(shí)現(xiàn)跨模態(tài)的語義關(guān)聯(lián)。注意力機(jī)制能夠有效挖掘一個模態(tài)對另一個模態(tài)的重要性。與現(xiàn)有的方法不同,本文提出了一種多頭注意力機(jī)制,利用多視角的注意力方式使模型能夠捕捉不同模態(tài)之間更精細(xì)的關(guān)系。
3 實(shí)驗(yàn)與分析
3.1 數(shù)據(jù)集
為了評估模型MSGN的性能,在公開數(shù)據(jù)集COCO-QA[13]上對MSGN與其他模型進(jìn)行比較。COCO-QA是從用于圖片描述任務(wù)的 MS-COCO 數(shù)據(jù)集上自動生成的一個廣泛使用的圖像問答數(shù)據(jù)集。此數(shù)據(jù)集中包含有object(70%)、number(7%)、color(17%)和location(6%)在內(nèi)的四種問題類別。可將該數(shù)據(jù)集分為訓(xùn)練集(66.9%)和測試集(33.1%)兩個部分。COCO-QA 總共包含92 396個問題、69 172張圖片和435個答案。另外,數(shù)據(jù)集中所有的答案都是單個單詞。實(shí)驗(yàn)中比較的方法包括Dual-MFA[13]、CVA[14]、ODA[15]和 ReGAT[20]。評價指標(biāo)采用當(dāng)前流行度量標(biāo)準(zhǔn):accuracy=min(#10 個答案中與模型預(yù)測的答案相同的數(shù)量/3,1)[2]。同時還采用 WU-Palmer 相似性(WUPS)[12]作為模型性能的另一種度量標(biāo)準(zhǔn)。WUPS 根據(jù)分類樹中兩個詞的共同子序列來計(jì)算兩個詞之間的相似性得分。WUPS 需要給定一個閾值,同其他方法一樣,本文也選用 0.0 和 0.9作為閾值以分別形成 WUPS@0.0和WUPS@0.9進(jìn)行模型評估。
3.2 實(shí)驗(yàn)設(shè)置
為了對問題句進(jìn)行編碼,使用 GloVe [21]詞嵌入編碼產(chǎn)生問題句中200 維的單詞向量。采用帶有 RGB 通道且像素為 224×224 的圖像作為視覺輸入,并利用深度CNN來提取視覺特征,用ImageNet 2012圖片分類挑戰(zhàn)數(shù)據(jù)集上預(yù)訓(xùn)練的VGG19[22]網(wǎng)絡(luò)作為深度 CNN模型。VGG19 中的conv5_4層的輸出作為圖片的區(qū)域特征表示。圖片區(qū)域特征維度為512×14×14,即每張圖片有 14×14 個區(qū)域。多頭注意力模塊中的H設(shè)為4,多路語義圖中的 GCN 設(shè)置為2層。對于模型中的其他參數(shù)設(shè)置,本文使用每個數(shù)據(jù)集中的驗(yàn)證集來選擇參數(shù)的最佳值。由于某些參數(shù)的最佳值在不同的數(shù)據(jù)集上略有不同,所以本文折中選擇適當(dāng)?shù)闹狄允鼓P驮诓煌臄?shù)據(jù)集上表現(xiàn)得盡可能好,這也提高了模型的泛化能力。
3.3 對比實(shí)驗(yàn)結(jié)果分析
表1給出MSGN與其他方法在COCO-QA數(shù)據(jù)集上的性能比較結(jié)果,表2給出了不同模型給出的問題答案結(jié)果實(shí)例。可以看出,與所有基線方法相比,MSGN在答案預(yù)測準(zhǔn)確率這一指標(biāo)上取得了最佳的實(shí)驗(yàn)結(jié)果。具體來說,本文模型的準(zhǔn)確率比基于雙視角注意力的 Dual-MFA 和立體式注意力的 CVA 模型分別高出3.49%和 2.47%。同時,MSGN將當(dāng)前具有較好性能的對象差異注意力模型 ODA 的準(zhǔn)確率從69.33%提高到69.98%。在不同類別的問題預(yù)測中,MSGN在包括object、color和location、number在內(nèi)的四種類別上取得了最好的準(zhǔn)確率。另外,還可以從表1的最后兩列看出,本文提出的MSGN模型在WUPS@0.0和WUPS@0.9兩個指標(biāo)上相比于現(xiàn)有方法也有顯著提高。
MSGN模型在圖像問答任務(wù)上取得較好實(shí)驗(yàn)結(jié)果的原因可總結(jié)為:當(dāng)前的圖像問答方法主要通過各種注意力機(jī)制探索圖片和問題之間的相關(guān)性,用于學(xué)習(xí)多模態(tài)聯(lián)合特征進(jìn)行答案推導(dǎo)。然而,這些注意力模型并沒有考慮到不同的問題單詞和圖片區(qū)域在問答過程中扮演著不同角色,起著不同的作用,使得學(xué)習(xí)到的多模態(tài)聯(lián)合嵌入的性能受影響。相比之下,本文方法能充分挖掘圖像區(qū)域、問題詞語之間的跨模態(tài)和模態(tài)內(nèi)的交互關(guān)系,它可以學(xué)習(xí)更準(zhǔn)確的注意力分布并因此獲得更有效的多模態(tài)聯(lián)合嵌入用于圖像問答。
3.4 消融分析
本文進(jìn)一步使用MSGN的以下變體進(jìn)行模型分析,以驗(yàn)證模型中各組件的貢獻(xiàn):
a)MSGN_s:刪除MSGN中的多頭注意力模塊,只留下一個頭的注意力。
b)MSGN_g:刪除MSGN中的語義圖網(wǎng)絡(luò),直接從多頭注意力模塊輸出的聯(lián)合嵌入表示向量與全局向量進(jìn)行答案預(yù)測。
模型各部分的實(shí)驗(yàn)結(jié)果如表3所示。從實(shí)驗(yàn)結(jié)果可以看出,本文利用多頭注意力及語義圖網(wǎng)絡(luò)學(xué)習(xí)到的局部推理信息對模型性能有明顯貢獻(xiàn)。另一方面,MSGN_s和MSGN_g的性能明顯弱于MSGN,說明沒有多頭注意力模塊或沒有多路語義圖,模型性能有明顯下降。此實(shí)驗(yàn)結(jié)果進(jìn)一步說明,通過不同角度的注意力學(xué)習(xí)和語義交互關(guān)系的學(xué)習(xí),模型能夠更加有效地推導(dǎo)出問題的答案。
3.5 參數(shù)敏感性分析
為了評估MSGN的參數(shù)化對模型性能的影響,本文分析了在COCO-QA數(shù)據(jù)集上多頭多跳注意力網(wǎng)絡(luò)和異構(gòu)圖網(wǎng)絡(luò)中不同數(shù)值的頭數(shù)H和GCN層數(shù)F對模型性能帶來的變化。
表4為不同參數(shù)值所對應(yīng)的模型性能結(jié)果,從表中數(shù)據(jù)可以看出,與多頭的注意力模型相比,1個頭的 MSGN表現(xiàn)較差,這說明從多個角度探索不同模態(tài)之間的關(guān)系更為有效。但是并不是頭數(shù)越多越好,在頭數(shù)為4的時候,模型的性能達(dá)到最優(yōu)。同樣,從表中數(shù)據(jù)的下部分可觀察到,在圖形結(jié)構(gòu)中,帶有兩層 GCN 的 MSGN表現(xiàn)最好,而帶有更多層 GCN 的 CASSG 會對性能產(chǎn)生負(fù)面影響。這部分?jǐn)?shù)據(jù)說明,圖像塊的鄰域?qū)ζ湔Z義信息的表達(dá)有重要作用,而較遠(yuǎn)的圖像區(qū)域與其相關(guān)性會降低,加入較遠(yuǎn)距離的圖像信息反而會降低模型的性能。
3.6 注意力模型性能分析
為了評估本文模型中多頭注意力的有效性以及圖神經(jīng)網(wǎng)絡(luò)對注意力的影響,本文對多頭注意力模型和傳統(tǒng)方法ODA[15]中注意力模型對應(yīng)的注意力分布進(jìn)行可視化。同文獻(xiàn)[26]的方法一樣,本文采用高斯濾波和上采樣方法可視化注意力的權(quán)重分布。
表5中展示了四個問答樣例對應(yīng)的兩種注意力分布。從表中的數(shù)據(jù)可以看出,兩種注意力模型都能關(guān)注到用于答案預(yù)測的重要圖像區(qū)域。然而,本文的多頭注意力能更有效地關(guān)注于答案相關(guān)的圖片區(qū)域,從而推導(dǎo)出的答案具有更高的置信度,例如表中第3行和第4行的實(shí)例。此外,在表中第1行所示的例子中,ODA 對答案無關(guān)的區(qū)域給予了一些關(guān)注,而本文模型則只對答案play badminton有關(guān)的區(qū)域給予了關(guān)注。在第2行的例子中,ODA不能識別圖像中較小的deer,因此得到了一個錯誤的答案。而本文模型能準(zhǔn)確地關(guān)注于deer頭部的區(qū)域,從而推斷出了正確的答案。以上結(jié)果表明,MSGN結(jié)合多頭注意力與結(jié)構(gòu)信息能提高圖像答案的預(yù)測準(zhǔn)確性。
4 結(jié)束語
本文利用多頭注意力和圖網(wǎng)絡(luò)對問題和圖像之間存在的異質(zhì)關(guān)系進(jìn)行跨模態(tài)推理,提出了一個多路語義圖網(wǎng)絡(luò)模型(MSGN)。首先設(shè)計(jì)了一個多頭注意力模塊,以挖掘圖像內(nèi)容和單詞序列間的跨模態(tài)交互。然后,構(gòu)造了多路語義圖網(wǎng)絡(luò),并通過圖卷積網(wǎng)絡(luò)對模態(tài)間和模態(tài)內(nèi)的相關(guān)性進(jìn)行同步推理。最后,將從多路圖網(wǎng)絡(luò)學(xué)習(xí)到的局部推理向量與從全局向量融合在一起進(jìn)行答案推導(dǎo)。在兩個公開的圖像問答數(shù)據(jù)集上將MSGN 與基線方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明,MSGN 通過結(jié)合不同角度下圖像和問題之間的語義關(guān)聯(lián)關(guān)系可以提高圖像自動問答的性能。未來本文將進(jìn)一步研究將圖像與問題語句之間不同層次和不同角度之間的關(guān)系相結(jié)合,并使用規(guī)模更大的數(shù)據(jù)集進(jìn)行驗(yàn)證。
參考文獻(xiàn):
[1]包希港,周春來,肖克晶,等. 視覺問答研究綜述 [J]. 軟件學(xué)報,2021,32(8): 2522-2544. (Bao Xigang,Zhou Chunlai,Xiao Kejing,et al. Survey on visual question answering [J]. Journal of Software,2021,32(8): 2522-2544.)
[2]Antol S,Agrawal A,Lu Jiasen,et al. VQA: visual question answering [C]// Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015: 2425-2433.
[3]Krizhevsky A,Sutskever I,Hinton G E. ImageNet classification with deep convolutional neural networks [C]// Advances in Neural Information Processing Systems. 2012: 1097-1105.
[4]Hochreiter S. The vanishing gradient problem during learning recurrent neural nets and problem solutions [J]. International Journal of Uncertainty,F(xiàn)uzziness and Knowledge Based Systems,1998,6(2): 107-116.
[5]鄒品榮,肖鋒,張文娟,等. 面向視覺問答的多模塊協(xié)同注意模型 [J]. 計(jì)算機(jī)工程,2021,48(2): 250-260. (Zou Pinrong,Xiao Feng,Zhang Wenjuan,et al. Multi-module co-attention model for vi-sual question answering [J]. Computer Engineering,2021,48(2): 250-260.)
[6]Yu Dongfei,F(xiàn)u Jianlong,Mei Tao,et al. Multi-level attention networks for visual question answering [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2017: 21-29.
[7]Zhu Yuke,Lim J J,Li Feifei. Knowledge acquisition for visual question answering via iterative querying [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2017: 6146-6155.
[8]Wu Qi,Shen Chunhua,Wang Peng,et al. Image captioning and visual question answering based on attributes and external knowledge [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2017,40(6): 1367-1381.
[9]Fukui A,Park D H,Yang D,et al. Multimodal compact bilinear pooling for visual question answering and visual grounding [C]// Proc of Conference on Empirical Methods in Natural Language Processing. 2016: 457-468.
[10]Huang Deng,Chen Peihao,Zeng Runhao,et al. Location-aware graph convolutional networks for video question answering [C]// Proc of AAAI Conference on Artificial Intelligence. 2020: 11021-11028.
[11]Jiang Pin,Han Yahong. Reasoning with heterogeneous graph alignment for video question answering [C]// Proc of AAAI Conference on Artificial Intelligence. 2020: 11109-11116.
[12]Yang Zichao,He Xiaodong,Gao Jianfeng,et al. Stacked attention networks for image question answering [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2016: 21-29.
[13]Lu Pan,Li Hongsheng,Zhang Wei,et al. Co-attending free-form regions and detections with multi-modal multiplicative feature embedding for visual question answering [C]// Proc of the 32nd AAAI Conference on Artificial Intelligence. 2018: 7218-7225.
[14]Song Jingkuan,Zeng Pengpeng,Gao Lianli,et al. From pixels to objects: cubic visual attention for visual question answering [C]// Proc of the 27th International Joint Conference on Artificial Intelligence. 2018: 906-912.
[15]Wu Chenfei,Liu Jinlai,Wang Xiaojie,et al. Object-difference attention: a simple relational attention for visual question answering [C]// Proc of ACM Multimedia. New York:ACM Press,2018: 519-527.
[16]Wu Qi,Wang Peng,Shen Chunhua,et al. Ask me anything: free-form visual question answering based on knowledge from external sources [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2016: 4622-4630.
[17]Wang Peng,Wu Qi,Shen Chunhua,et al. Explicit knowledge-based reasoning for visual question answering [C]// Proc of the 26th International Joint Conference on Artificial Intelligence.2017:1290-1296.
[18]Nguyen D,Okatani T. Improved fusion of visual and language representations by dense symmetric co-attention for visual question answe-ring [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2018: 6087-6096.
[19]Ben-younes H,Cadène R,Cord M,et al. MUTAN: multimodal Tucker fusion for visual question answering [C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2017: 2631-2639.
[20]Li Linjie,Gan Zhe,Cheng Yu,et al. Relation-aware graph attention network for visual question answering [C]// Proc of IEEE/CVF International Conference on Computer Vision. 2019: 10312-10321.
[21]Pennington J,Socher R,Manning C. GloVe: global vectors for word representation [C]// Proc of Conference on Empirical Methods in Natural Language. 2014: 1532-1543.
[22]Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition [C]// Proc of the 3rd International Conference on Learning Representations. 2014: 1556-1569.
[23]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need [C]// Advances in Neural Information Processing Systems. 2017: 5998-6008.
[24]Sukhbaatar S,Szlam A,Weston J,et al. End-to-end memory networks [C]// Proc of Annual Conference on Neural Information Processing Systems. 2015: 2440-2448.
[25]Yu Zhou,Yu Jun,F(xiàn)an Jianping,et al. Multi-modal factorized bilinear pooling with co-attention learning for visual question answering [C]// Proc of IEEE International Conference on Computer Vision. Pisca-taway,NJ:IEEE Press,2017: 1821-1830.
[26]Xu K,Ba J,Kiros R,et al. Show,attend and tell: neural image caption generation with visual attention [C]// Proc of the 32nd International Conference on Machine Learning. 2015: 2048-2057.
收稿日期:2022-06-23;修回日期:2022-08-25 基金項(xiàng)目:北京市自然科學(xué)基金資助項(xiàng)目(4182037);北京社會科學(xué)基金資助項(xiàng)目(21XCB005);北京市教委科技計(jì)劃資助項(xiàng)目(KM201810037001)
作者簡介:喬有田(1973-),男,江蘇揚(yáng)州人,講師,碩士,主要研究方向?yàn)槿斯ぶ悄堋⑽⑻幚砥鞯膽?yīng)用;張海軍(1975-),男(通信作者),河南洛陽人,教授,博士,主要研究方向?yàn)樽匀徽Z言處理、數(shù)據(jù)挖掘(zhanghaijun@bwu.edu.cn);路明(1979-),男,河北邯鄲人,博士研究生,主要研究方向?yàn)槎嗄B(tài)數(shù)據(jù)挖掘與學(xué)習(xí).