基于對稱注意力機制的視覺問答系統①

2021-05-21 07:22:22吳春雷王雷全

計算機系統應用 2021年5期

路靜,吳春雷,王雷全

(中國石油大學(華東)計算機科學與技術學院,青島 266580)

1 引言

近年來,基于視覺和語言的跨模態任務,如視頻場景識別[1]、圖文匹配[2]、視覺問答[3]等,在學術界和工業界引起了越來越多研究者的興趣.其中,視覺問答(Visual Question and Answering,VQA)可以用來測試智能機器對多模態信息的理解和推理能力,故被認為是一種評估當前機器學習模型實現程度的“視覺圖靈測試”.因此,VQA 越來越受到重視,它的具體任務是給定一張圖片和一個問題,通過兩者的合理融合生成相應的答案.VQA 研究的重點在于如何更加全面的理解視覺內容和自然語言,如何更精準地提取和表示模態特征,以及如何更有效地融合跨模態信息.為了挖掘圖像突出區域與問題文本中重要詞之間的對應信息,在VQA 任務中引入了注意機制.目前主流的算法是將問題信息與圖片信息經過注意力機制生成含有雙邊信息的特征,再將其放到答案預測器中生成結果.但是這種算法只考慮了問題和圖像的雙邊信息,卻忽略了圖像信息和問題信息自身的關聯性.因此,本文提出一種新的模型,該模型通過利用圖片和問題的自關聯性和共同注意力信息,進一步提升答案和圖片的契合度.本文提出的模型在回答問題的準確率上與基線模型相比取得了一定的提升,這進一步說明了該模型的有效性.

本文中,創新點可以總結歸納為如下3 點:

(1)本文在單模態特征中增強了特征區域間的關聯性,使圖像中區域框之間及問題中單詞之間的關系更緊密.

(2)本文提出對稱注意力機制的圖像問答模型,該模型可以將圖像與問題文本之間的雙邊信息以及圖像區域與問題詞的自相關統一在一起,實現了較全面的語義理解與融合.

(3)在VQA2.0 上通過大量的實驗對新模型進行了驗證.新模型準確率比DCA[4]的模型提高了1.22%,表明了該方法的有效性.

2 相關工作

2.1 視覺問答

像圖文匹配一樣,視覺問答在人工智能領域作為一種綜合計算機視覺和自然語言理解的任務被大家重視.與其他視覺任務(行為識別[5],目標檢測[6],圖像描述[7])不同,除了視覺語言基礎信息外,許多視覺問答示例還需要問題或圖像中未包含的其他信息,例如關于世界的背景常識.問題的答案可以分為以下幾種:是/否、多選擇、計數和開放式的單詞/短語(關于什么、在哪里、誰、…).VQA 在大多數研究中被劃分成一個分類問題,圖像和問題作為輸入,答案作為輸出類別.目前,視覺問答的解決方案都是使用卷積神經網絡(Convolutional Neural Networks,CNN)對圖像進行建模,使用循環神經網絡(Recurrent Neural Networks,RNN)或長短期記憶網絡(Long Short Term Memory networks,LSTM)對于問題特征進行建模.

2.2 注意力機制

注意力機制建立在人腦視覺注意機制的基礎上,在用于視覺問答之前,已經被用于機器翻譯[8],圖像描述[9]等任務.在視覺問答系統中,注意力機制與神經網絡[10]結合被用來選擇與問題信息最相關的圖像區域.Yang 等[11]構建了一個疊加注意網絡,以連續的方式生成圖像上的多個注意圖,目的是進行多個推理步驟.在EGCS[12]中,作者使用multi-hop 圖像關注機制,目的是捕獲問題中的細粒度信息.Shih[13]應用現有的區域提議算法來生成對象區域,并選擇最相關的區域來預測答案.Xiong 等[14]提出了一種基于注意力的門控循環單位(Gated Recurrent Unit,GRU),以促進答案的預測.除了視覺注意力,目前Nguyen 等[4]已經提出了一種具有問題注意力的共同注意力機制.同樣,本文將共同注意力機制應用于圖像區域和問題關鍵詞,但是與文獻[4]不同的是,本文提出的模型考慮了問題信息和圖像信息的自身關聯性,獨立對待句子中的每個單詞和圖像中每個區域框.

3 視覺問答方法模塊介紹

3.1 基于LSTM和RCNN的特征構造

由于問題詞具有順序性,故使用雙向LSTM 對其編碼.具體來說,一個包含N個單詞的問題首先被轉換成一個GloVe向量序列然后將其輸入到具有殘差連接的單層雙向LSTM (Bi-LSTM)中,過程可由如下公式表示:

創建一個矩陣T=[t1,···,tN]∈Rd×N,其中同時,為了獲取輸入圖像的表示,將Bi-LSTM 中最后隱藏狀態保存.這里的Bi-LSTM 網絡參數采用隨機初始化.

同理,遵循類似的過程對答案進行編碼.將包含M個單詞的答案轉換為然后輸入到Bi-LSTM,產生的隱藏層狀態和.本文將答案表示為

對于圖像,將其大小調整為448×448,再輸入到預訓練好的ResNet-152 網絡中提取圖像特征.同時,將ResNet-152的res5c 層的輸出作為對應于14×14 空間分布區域的圖像特征,用I=[i1,···,ik]∈Rd×K表示,其中K=14×14是區域總數,ik表示第k個特征向量,ResNet-152的維度是2048.

3.2 對稱注意力模型

圖1是本文所提出的對稱注意力模型.在3.1 節中已經得到圖像特征I和問題特征T:現將他們輸入到對稱注意力模型中,經過模型的訓練最終生成相應的模態特征.

圖1 對稱注意力模型架構

模型的右部分是經典的共同注意力架構[4],首先對于給定的圖像特征I和問題特征T,通過叉乘運算得到注意力矩陣A,再將A通過雙層Softmax 生成關于問題的注意力矩陣AT和關于圖像的注意力矩陣AI,最后再分別與圖像特征和問題特征相乘得到含有雙邊信息的圖像特征IR和問題特征TR.這個過程可用下面的5 個公式表示:

其中,式(3)的WR∈RN×K表示權重矩陣,注意力矩陣的維度均為d×d.

模型的左部分增強了單模態特征中特征區域間的關聯性.將問題特征輸入到一個全連接層,得到單詞對相關聯的問題特征TF,將圖像特征輸入到全連接網絡以及dropout 得到圖像區域框相關聯的圖像特征IF.這個過程可用下面兩個公式表示:

其中,FCNet()是全連接網絡,用dropout 可以讓網絡去學習魯棒性更強的特征,這些特征在其它的神經元的隨機子集中也存在.經過以上訓練增強了圖像信息和問題信息自身的關聯性.

再將圖像特征IF,問題特征TF通過叉乘和Softmax運算得到權重分布矩陣logits,該矩陣的維度與注意力矩陣A一致,包含了兩種特征的融合信息.最后,權重分布矩陣分別與圖像特征和問題特征相乘得到含有雙邊信息的圖像特征IL和問題特征TL.這個過程可用下面的3 個公式表示:

其中,式(10)中的WL∈RN×K表示權重矩陣.最后,對于圖像特征,將左部分生成的圖像特征IL和右部分生成的圖像特征IR融合;對于問題特征,進行同樣的處理.用公式表示如下:

其中,⊕表示,兩個特征的聯合操作.圖像特征IA和問題特征TA是對稱注意力模型的輸出,其維度與輸入特征的維度一致.

3.3 新模型整體架構

圖2是本文提出的新模型整體架構,這里所用答案預測層是目前比較常用的多層感知器(MultiLayer Perceptron,MLP)神經網絡分類器,它有2 個隱藏層和1000 個隱藏單元(dropout為0.5),每一層都有tanh非線性函數.首先,對輸入的圖像和問題分別提取特征,圖像特征和問題特征作為對稱注意力模型的輸入,然后生成包含雙邊信息的特征,再作為答案預測分類器的輸入,最終選出得分高的答案.這個過程可以通過以下公式表示:

其中,att()表示對稱注意力模型算法,answer()是答案預測分類器.

圖2 模型整體架構

3.4 總結

和現有的方法相比,本文摒棄了只采用一個注意力特征矩陣來融合特征的方法或者將兩模態特征簡單連接的方法.本模型通過已有的Faster RCNN和Bi-LSTM的方法構建了圖像和問題的特征提取網絡,采用注意架構將兩模態信息巧妙融合在一起,既實現了對雙邊信息的理解,又增強了圖像區域特征的關聯性和問題單詞對之間的關聯.

4 實驗

4.1 數據集和實驗細節

本文使用最流行的數據集VQA 2.0[15]來進行實驗.VQA[16](也稱為VQA 1.0)包含來自MS COCO 數據集[17]的204 721 張圖像上的人工注釋的問答對.預先將數據集分為train、val和test(或test-standard)3 個部分,它們分別由248 349 個問題、121 512 個問題和244 302 個問題組成.所有的問題都被分為3 種類型:是/否、計數和其他,每個問題都有10 個自由回答的答案.VQA 2.0是VQA 1.0的更新數據集,與VQA 1.0 相比,它包含的樣本更多(train 數據集有443 757 個,val 數據集有214 354 個,test 數據集有447 793 個),在語言方面更加均衡.本文使用具有挑戰性的開放式任務的VQA2.0 數據集評估提出的模型.

與其他工作一樣,本文選擇出現8 次以上的正確答案作為候選答案集.根據之前的研究,本文在train+val分支上訓練模型,并在test-standard和test-dev 進行測試.

4.2 實驗細節

本文所有實驗均基于PyTorch 框架,并在裝有一個Nvidia Tesla P100 GPU的計算機上進行實驗.使用的優化器的參數是α=0.001,β1=0.9,β2=0.99.在訓練過程中,使VQA2.0的學習率(α)以0.5的速率每7 個迭代下降一次.所有的模型都在VQA 2.0 上分別訓練了24 個迭代.為了防止過擬合,將每個全連接層的dropout 設為0.3、LSTM dropout 設為0.1.批次大小為400,隱藏層大小為1024.

4.3 實驗分析

本文采用準確率來評測模型的質量和訓練情況.在圖3中,繪制了準確率隨迭代次數變化而變化的折線圖,可以看出本文提出的方法模型的準確率折線快速收斂,不斷提高.再與圖4的直方圖結合觀察,可以看出隨著迭代次數的增加,模型的準確率也在不斷提升,迭代次數為24 時效果最佳,最高可以達到66.34%.通過圖3,不難看出在超過24 個迭代的時候,由于模型出現了過擬合現象,模型的準確率會有小幅度的下降.在表1中,列舉了其他模型(VQA team[15],MCB[18],MF-SIG-T3[19],Adelaide[20],DCA[4])和本文提出的模型在VQA2.0 測試數據集上的準確率,通過對比發現,本文建立的模型具有較好的結果.

圖3 Overall 準確率損失變化

圖4 準確率柱狀圖

由表1可以看出,本文提出的模型準確率優于基線模型.新模型的Overall 問答準確率比baseline 在Test-dev 數據集上提升了1.22%,Other 問答準確率提升了0.72%,Number 問答準確率提升了0.9%,Yes/No問答準確率提升了0.38%.這些數據證明:本文提出的模型可以在較少的訓練迭代次數下收斂,基于對稱注意力機制的模型有效的提升了視覺問答的質量.相比于傳統的特征融合等方法,對稱注意力模型可以通過融合不同模態的信息,增強問題信息和圖像信息的自身關聯性來大幅度提升答案分類的準確率.

表1 與其他方法的實驗結果比較(%)

5 結論與展望

本文提出了一種對稱注意力機制的圖像問答模型,并在VQA2.0 數據集上取得優異的成績.該算法的亮點在于使用全連接網絡來挖掘圖像區域之間的相關性,聯合基于共同注意力機制生成的雙邊信息特征,達到更加精準的分類效果.和DCA 相比,本文考慮了圖像和問題的全面語義理解和融合,較好地利用了自相關信息.在未來的工作中,將進一步探索視覺(短視頻)問答系統和知識圖譜對于答案分類的影響.