基于語境輔助轉換器的圖像標題生成算法

2023-09-27 23:33:52李海昌胡曉惠

自動化學報 2023年9期

連政王瑞李海昌姚輝胡曉惠

圖像標題生成(Image captioning)是一項跨越計算機視覺與自然語言處理領域的多模態生成式任務[1-5],其主要目標是自動為圖像生成準確的描述性語句.這要求計算機不僅要充分理解圖像中的對象以及它們之間的關系,還要通過流暢的自然語言表達出圖像的內容.圖像標題生成技術具有廣泛的應用價值.在學術研究當中,它可以推動圖文檢索、視覺問答等多模態領域技術的發展.在實際生活當中,這項技術在幼兒的早期教育和視障人群輔助設備的設計方面發揮著重要作用.

受神經機器翻譯領域研究的啟發,早期的基于深度神經網絡的圖像標題生成算法[6]采用了經典的編碼器-解碼器 (Encoder-decoder)框架,它將卷積神經網絡(Convolutional neural network,CNN)作為編碼器,提取圖像的全局特征,再使用循環神經網絡(Recurrent neural network,RNN)作為解碼器對圖像特征進行解碼,生成圖像標題.盡管經典的編碼器-解碼器框架在圖像標題生成領域取得了巨大的成功,但是兩個固有的缺陷嚴重限制了該框架的序列解碼能力: 1)圖像的全局信息在初始時刻被一次性地輸入到解碼器當中,而解碼器缺少特征篩選的關鍵模塊,難以捕捉預測單詞時所需的相關視覺特征;2)在整個序列預測的過程中,作為解碼器的循環神經網絡會不斷丟失一些重要的視覺信息,從而導致語言模型在預測后期逐漸缺少了視覺信息的指導,產生明顯的誤差累積,降低圖像標題的生成質量.

為了解決上述問題,注意力機制(Attention mechanism)被引入到圖像標題生成算法當中.注意力機制拓展了經典的編碼器-解碼器框架,它允許解碼器在圖像標題生成的不同時刻關注到與當前語義查詢最為相關的圖像信息.具體來講,基于注意力機制的圖像標題生成算法不再只是使用圖像的全局特征,而是首先通過CNN 提取圖像的局部區域特征,再使用基于長短期記憶(Long short-term memory,LSTM)網絡的解碼器對圖像特征進行解碼.在每一個解碼時刻,注意力模塊會將LSTM 提供的隱藏狀態作為語義查詢,為圖像的各個區域分配不同的注意力權重,再通過對各部分圖像特征進行加權求和,得到當前時刻的注意力語境特征,進而指導語言模型生成圖像標題.近年來,轉換器(Transformer)[7]在自然語言處理領域得到了廣泛的應用,它通過多頭注意力 (Multi-head attention)機制在多個語義空間中建模查詢與鍵值對之間的關系.在圖像標題生成領域,Transformer 首先依靠自注意力(Self-attention)機制實現圖像局部信息的融合,然后通過解碼器中的交叉注意力模塊向語言模型中引入融合后的視覺特征,實現不同模態的特征交互.

在當前主流的圖像標題生成算法中,交叉注意力機制在建模語義查詢與圖像區域之間的關系方面,發揮著關鍵性的作用.然而,大多數現有的基于注意力機制的算法都忽視了視覺連貫性的潛在影響.事實上,我們人類往往會不由自主地回顧先前關注過的信息,以便在當前時刻做出更加合理的注意力決策.遺憾的是,傳統的交叉注意力機制無法實現這個意圖.為了彌補這項缺陷,本文提出了一種新穎的語境輔助的交叉注意力(Context-assisted cross attention,CACA)機制.具體來講,在每一個解碼時刻,CACA 模塊會首先根據當前輸入的語義查詢,利用交叉注意力模塊從圖像特征中提取出與當前查詢最為相關的臨時語境特征,并將其保存在歷史語境記憶(Historical context memory,HCM)中,然后將HCM 中全部的歷史語境特征與圖像的局部特征相拼接,作為鍵值對,再次輸入交叉注意力模塊,獲取當前時刻最終的注意力語境特征.同時,為了限制每個CACA 模塊分配給歷史語境的權重總和,本文提出了一種名為“自適應權重約束(Adaptive weight constraint,AWC)”的正則化方法,從優化注意力權重分布的角度提升模型的泛化性能.本文將CACA 模塊與AWC 方法同時集成在轉換器(Transformer)模型上,構建了語境輔助的轉換器(Context-assisted transformer,CAT)模型.盡管Transformer 模型可以通過自注意力層在一定程度上建模歷史語義信息,然而,從信息論的角度來講,根據數據處理不等式[8]可知,輸入模型的特征向量在神經網絡逐層的特征處理與消息傳遞過程中,勢必會丟失一部分關鍵信息,這將導致交叉注意力模塊在某一時刻建模的語義信息無法完整地傳遞到后續解碼過程中并得到充分利用.為此,CAT 模型采用語境輔助的交叉注意力機制,通過歷史語境記憶保存了歷史時刻中完整的交叉注意力語義特征,充分利用序列預測過程中視覺信息的連貫性,為解碼過程提供更加豐富可靠的語境信息.本文在流行的MS COCO (Microsoft common objects in context)數據集[9]上,以多個基于Transformer 的圖像標題生成算法作為基線模型,通過向解碼器中引入CACA 模塊與AWC 方法,對所提算法進行了評價.實驗結果表明,與眾多先進的基線模型相比,本文提出的方法在它們的基礎上均實現了穩定的提升.

本文的后續內容安排如下: 第1 節主要介紹圖像標題生成領域的相關工作;第2 節詳細介紹本文提出的方法;第3 節通過大量的對比實驗從眾多角度對本文方法進行分析;第4 節總結本文的研究成果,并提出下一步的工作設想.

1 圖像標題生成算法綜述

迄今絕大多數的圖像標題生成模型都采用了經典的編碼器-解碼器框架.該框架最早被提出并應用于神經機器翻譯領域,取得了顯著的成就.編碼器-解碼器框架的成功應用極大地促進了序列到序列(Sequence-to-sequence)任務的發展.在早期的圖像標題生成模型[6]中,該框架首先利用CNN提取圖像的視覺表征,再使用RNN 解碼圖像特征生成圖像標題.在編碼器-解碼器框架下,圖像標題生成領域涌現出一大批出色的解決方案[10-12],這些方法主要從編碼器和解碼器的組成結構上對圖像標題生成模型進行了探索和改進,然而,由于在解碼器中缺少特征選擇的關鍵模塊,經典的編碼器-解碼器框架在序列預測能力上受到了很大的限制.

注意力機制是編碼器-解碼器框架的重要拓展,它允許解碼器在序列生成的每個時刻選擇性地關注與當前查詢最為相關的特征.受到人類直覺與神經機器翻譯領域研究的啟發,Xu 等[13]首次嘗試將視覺注意力機制引入圖像標題生成模型中,以便在生成描述時動態關注圖像的顯著區域.隨后,You 等[14]通過一種語義注意力模型,選擇性地關注編碼器提出的語義概念,并將它們與循環神經網絡的隱藏狀態相結合.該模型中的選擇與融合形成了一個反饋,連接了自頂而下和自底而上兩種不同的計算方式.Lu 等[15]提出了一種帶有視覺哨兵的自適應注意力模型,該模型可以決定是否關注視覺特征.Anderson 等[16]介紹了一種組合的自底向上和自頂向下的注意力機制,其中,自底向上的注意力利用Faster R-CNN 提取對象級別的圖像特征,而自頂向下的注意力負責預測視覺特征上的權重分布.Chen 等[17]在文獻中提出了一種增強的注意力機制,它將基于刺激的注意力與自頂而下的注意力相結合,為圖像的顯著區域提供可靠的先驗知識.Huang 等[18]設計了一種“注意力上的注意力”模塊,來確定注意力結果和查詢之間的相關性.Pan 等[19]提出了一種X-線性注意力模塊,來模擬多模態輸入的二階相互作用.最近,Yang 等[20]提出了一種因果注意力機制,來處理視覺-語言任務.因果注意力從前門調整策略出發,提出了樣本內注意力機制和交叉樣本注意力機制.其中,樣本內注意力機制采用了經典的注意力網絡,來捕獲語義查詢與當前樣本中圖像特征的關系,而交叉樣本注意力機制負責在整個數據集的圖像樣本聚類后,捕獲語義查詢與各個質心特征之間的關系.王鑫等[21]設計了一種顯著性特征提取機制,為語言模型提供最有價值的視覺特征,指導單詞的預測.

近年來,Transformer[7]在圖像標題生成領域得到了廣泛的應用.Transformer 由堆疊的編碼器層和解碼器層組成,每一個編碼器層包括一個自注意力模塊和一個前饋模塊,每一個解碼器層包括一個掩碼自注意力模塊、一個交叉注意力模塊和一個前饋模塊.Herdade 等[22]在標準Transformer 模型的基礎上,對識別出的對象設計了一種幾何注意力機制,使得模型能夠在編碼圖像的過程中考慮到對象在空間上的相對信息.Li 等[23]沿用了Transformer架構,在編碼階段使用了兩個獨立的Transformer編碼器分別編碼視覺信息和語義信息,在解碼器部分設計了一種糾纏注意力機制,來彌補傳統注意力在兩類模態特征之間缺乏的互補性.此外,Yu 等[24]對Transformer 進行了拓展,提出了一種多模態Transformer 模型,該模型利用一種統一的注意力塊同時捕獲模態內與模態間的特征交互.之后,Cornia 等[25]提出了一種完全基于注意力機制的圖像標題生成模型,該模型首先通過記憶增強的編碼器學習圖像區域之間關系的多級表示,整合從圖像數據中學到的先驗知識,保存在記憶向量當中,然后在解碼階段采用網狀解碼器同時利用底層和高層的視覺特征生成高質量的圖像標題.Zhang 等[26]提出了網格增強模塊與適應性注意力模塊,并將二者嵌入到Transformer 中構成RSTNet.其中,網格增強模塊通過融合圖像網格間的相對幾何特征增強模型的視覺表征能力,適應性注意力模塊在解碼器做出單詞預測的決策之前自適應地度量視覺和語言線索的貢獻.Luo 等[27]提出了一種雙層協同Transformer 網絡,充分利用了圖像區域特征與網格特征之間的互補性.最近,Zeng 等[28]提出了空間與尺度感知的Transformer,它首先采用一個空間感知偽監督模塊,利用特征聚類幫助模型保存網格特征的空間信息,然后通過一個簡單的加權殘差連接,同時探索具有豐富語義的低級和高級編碼特征.Wu等[29]在Transformer 解碼框架的基礎上提出了一種雙信息流網絡,它將全景分割特征作為網格特征之外的另一個視覺信息源,來增強視覺信息對標題序列預測的貢獻.

盡管交叉注意力機制在建模語義查詢與圖像區域之間的關系方面發揮了重要的作用,極大地提升了編碼器-解碼器框架在圖像標題生成任務上的性能,但是,其視覺連貫性對注意力語境生成的潛在影響尚未得到深入研究.當前大多數基于注意力的圖像標題生成算法都忽略了歷史語境對產生當前注意力分布的影響.截至目前,只有少數研究在注意力機制的視覺連貫性方面進行了探索.Qin 等[10]提出了回顧算法,將上一時刻的注意力語境引入當前時刻的語義查詢,以適應人類的視覺連貫性.Lian等[30]使用注意力LSTM 擴展了傳統的時序注意力機制,以捕獲之前時間步中產生的注意力權重分布特征.盡管上述兩種解決方案充分考慮了注意力語境的歷史信息,有效地提升了圖像標題生成模型的性能,然而,它們僅考慮了基于LSTM 的解碼框架,尚未在流行的Transformer 模型上實現進一步的探索.本文在交叉注意力模塊的設計上聚焦于Transformer 解碼框架,充分考慮了Transformer 在訓練階段的并行解碼優勢,在不向注意力網絡中添加額外的可訓練參數的條件下,引入視覺連貫性,顯著提升了基線模型的性能.值得一提的是,本文提出的CACA 模塊不僅可以擴展Transformer 模型,還同樣適用于基于LSTM 的解碼框架.

2 基于語境輔助轉換器的圖像標題生成模型

為了更加清晰地闡述模型的細節,本節首先回顧了經典的多頭注意力機制,其次基于Transformer解碼器結構介紹了語境輔助的交叉注意力機制,以及其輕量級的網絡結構設計,然后介紹了基于語境輔助轉換器的圖像標題生成模型的整體框架,最后提出了結合自適應權重約束的模型優化方法.

2.1 多頭注意力機制

多頭注意力機制fmhatt(Q,K,V)集成了多個并行的縮放點積注意力(Scaled dot-product attention)層,以捕獲不同特征子空間中與當前查詢相關的語義信息.具體而言,它首先利用h組不同的線性轉換層對輸入的查詢Q,鍵K和值V進行投影,再利用縮放點積注意力網絡fdpatt(Q,K,V)對每一組投影后的特征進行建模,提取第i個子空間中的相關語義特征headi,最后,將這h組從特征子空間中提取到的語境向量拼接在一起,通過另一個可學習的線性轉換層進行投影,得到最終的多頭注意力語境特征.在此,本文假設Q,K,V的特征維度分別為dq,dk,dv.如圖1 所示,多頭注意力機制可由如下公式表達:

圖1 多頭注意力機制的結構Fig.1 The structure of multi-head attention mechanism

2.2 語境輔助的交叉注意力機制

在圖像標題生成領域,交叉注意力模塊的查詢向量依賴于輸入的文本特征,而鍵值對往往采用固定不變的圖像區域特征.因此,傳統的交叉注意力機制無法捕獲先前時刻被關注過的語境特征,缺乏視覺信息的連貫性.針對這一問題,本文面向Transformer 解碼框架提出了一種語境輔助的交叉注意力CACA 機制.如圖2(a)所示,CACA 拓展了傳統的交叉注意力機制,通過歷史語境記憶HCM 為每一個解碼時刻提供豐富的歷史語境特征.具體而言,在第t時刻,CACA以當前的語義查詢與鍵值對K,作為輸入,利用交叉注意力模塊與殘差連接得到當前時刻的臨時語境向量.需要說明的是,Transformer解碼器中的交叉注意力模塊采用的是多頭注意力機制.

圖2 語境輔助的交叉注意力機制與其輕量級的模型結構Fig.2 Context-assisted cross attention mechanism and its light model structure

值得一提的是,CACA 中兩次使用的層歸一化和多頭交叉注意力機制分別共享相同的模型參數.綜上所述,相較于Transformer 解碼器中傳統的交叉注意力模塊,CACA 在不添加任何參數的條件下,引入了視覺信息的連貫性,建模了每一時刻語義查詢qt與鍵值對K,V之間的關系,得到了該時刻的最終語境特征ct:

其中,fcaca表示語境輔助的交叉注意力機制.

2.3 輕量級語境輔助的交叉注意力機制

語境輔助的交叉注意力機制通過歷史語境記憶模塊為每一個解碼時刻提供了完整的歷史語境特征,向注意力模塊中引入了視覺信息的連貫性.然而,兩次使用交叉注意力機制大幅提高了模型推理的時間成本,降低了模型的解碼效率.因此,本文提出了一種輕量級的語境輔助的交叉注意力(Light context-assisted cross attention,LightCACA)模型,在保證視覺連貫性的前提下,以犧牲部分歷史語境信息為代價,換取與傳統的交叉注意力機制接近的解碼效率.

如圖2(b)所示,LightCACA 首先將當前時刻的查詢向量qt加入到歷史語境記憶當中,構建當前完整的歷史語境特征:

隨后,鍵值對K,V和完整歷史語境特征在空間維度上拼接,供交叉注意力模塊提取當前時刻的語境特征:

輕量級語境輔助的交叉注意力機制與其標準模型的主要區別在于歷史語境信息的不同.在Transformer 解碼器的層級結構下,CACA 的歷史語境信息由當前層的交叉注意力模塊產生,HCM 存儲的是當前層在每一時刻產生的臨時語境特征,而Light-CACA 的歷史語境信息直接來源于當前層掩碼自注意力模塊的輸出,間接來源于上一層LightCACA產生的語境特征.值得注意的是,最底層Light-CACA 模塊中HCM 存儲的歷史語境信息來自解碼器輸入的文本序列特征.

2.4 語境輔助的轉換器

圖3 展示了基于語境輔助轉換器(Context-assisted transformer,CAT)的圖像標題生成算法框架.該框架主要包括三個部分: 提取圖像對象級特征的Faster R-CNN,優化圖像特征的Transformer 編碼器,以及基于語境輔助的交叉注意力機制的Transformer 解碼器.

圖3 基于語境輔助轉換器的圖像標題生成模型Fig.3 Context-assisted transformer for image captioning

給定一幅圖像I,CAT 首先使用預訓練好的Faster R-CNN 從圖像中提取出一組對象級別的視覺特征V={v1,v2,···,vm},其中,vi∈Rdv,m為從圖像中提取到對象的數量.需要說明的是,在整個模型訓練的過程中,Faster R-CNN 的參數固定.

其中,fenc表示Faster R-CNN 特征提取模塊.

隨后,視覺特征V將被輸入Transformer 編碼器進行優化,建立不同對象特征之間的語義關系.值得一提的是,本文認為不同對象之間不存在明顯的位置順序,所以并未給視覺特征添加位置編碼信息.除此之外,本文方法與傳統Transformer 編碼器的算法流程一致.第n層Transformer 編碼器的操作可總結如下:

其中,第一層Transformer 編碼器的輸入向量V1=V.在此,假設Transformer 編碼器共N層,則其優化后的視覺特征可由如下操作得到:

本文假設CAT 解碼器的層數與編碼器層數相同,在第t時刻,解碼器生成單詞wt的過程可由如下公式表示:

輕量級語境輔助的轉換器(Light context-assisted transformer,LightCAT)在模型設計的思路上與CAT 完全相同,區別僅在于使用LightCACA替換了CAT 中的CACA 模塊.

2.5 模型優化

其中,βn,h是一個可學習的參數,?用于防止訓練過程中的梯度爆炸.本文設置?為1×10-8.

其中,γ是兩項損失的平衡因子,H是多頭注意力模塊的頭部數量,本文依據經驗將其設置為0.5,N為(Light)CAT 解碼器的層數.

隨后,本文在強化學習階段采用自我批判序列訓練(Self-critical sequence training,SCST)算法[31]直接優化了不可微分的評價指標:

其中,w1:l是生成的圖像標題,本文中的獎勵r(·)采用了流行的CIDEr-D[32]分數.

3 實驗與分析

3.1 數據集與評價標準

本文在MS COCO (Microsoft common objects in context)數據集[9]上評估了(Light)CAT 的性能.該數據集共包含123287 幅圖像,每幅圖像由不同的AMT (Amazon mechanical turk)工作人員用至少5 條標題進行標注.為了與其他先進的基線方法進行公平的比較,本文采用了“Karpathy”分割[33]進行離線評估,其中,113287 幅圖像用于訓練,5000 幅用于驗證,另外5000 幅用于測試.本文使用的評價方法包括BLEU[34],METEOR[35],ROUGE-L[36],CIDEr-D[32],以及SPICE[37].

3.2 實現細節

本文采用在視覺基因組(Visual genome)數據集[38]上預訓練好的Faster R-CNN 作為圖像特征提取器,該編碼器為每一幅圖像檢測出10～100 個不同區域,每個區域特征向量的維數為2048,隨后將它們投影到512 維后輸入到Transformer 編碼器當中進行特征優化.對于Transformer 編碼器與(Light)CAT 解碼器而言,本文參照了之前的研究工作[25],將二者的層數設定為3,多頭注意力機制的頭數為8,每個模塊輸出的向量維度為512,每一個注意力網絡和前向網絡都采用了Dropout 方法,丟失率為0.1.在訓練過程中,本文首先采用聯合優化交叉熵損失和自適應權重約束損失的方式訓練模型,其中包括了10000 次熱身(Warm-up)訓練.之后,在優化CIDEr-D 分數時,本文采用了固定的學習率5×10-6,當CIDEr-D 分數在連續五輪訓練中均未出現提升時,終止訓練過程.在兩個訓練階段,本文都將批量大小設置為50,集束搜索的大小設置為5.

3.3 語境輔助交叉注意力機制的性能分析

為了驗證語境輔助的交叉注意力機制在Transformer 解碼框架中的有效性和通用性,本文采用Transformer,M2Transformer[25],DLCT[27],S2Transformer[28],DIFNet[29]作為基線模型,在MS COCO 數據集上設計了5 組對比實驗.每一組實驗均使用CACA 模塊與LightCACA 模塊替換了基線模型中的傳統的交叉注意力機制,除(Light)CACA模塊外,改進模型與原模型在結構上完全一致.同時,改進模型在訓練過程中加入了自適應權重約束,來尋求一個更具泛化性的交叉注意力權重分布.如表1 所示,采用(Light)CACA 模塊改進后的模型在絕大多數評價指標中都超越了基線模型的性能.值得一提的是,在與當前最先進的S2Transformer和DIFNet 模型的比較中,采用標準CACA 模塊的改進模型實現了對基線方法的全面超越,在BLEU與CIDEr-D 分數上均取得了明顯的提升.同時,標準CACA 模塊給模型帶來的性能提升比Light-CACA 模塊更加明顯.舉例而言,以Transformer為基線模型,LightCAT 模型在BLEU-4 和CIDEr-D 分數上較Transformer 分別提升了1.1%和1.0%,而CAT 模型帶來的提升為2.4%和2.5%.該結果從定量分析的角度有力地證明了當前層交叉注意力語境特征對解碼過程的實用價值.

表1 基于Transformer 的圖像標題生成模型結合(輕量級)語境輔助的交叉注意力機制在MS COCO 數據集上的性能表現 (%)Table 1 Performance of Transformer-based image captioning models combined with(Light)CACA on MS COCO dataset (%)

正如上文所提到的,本文設計的CACA 模塊與自適應權重約束同樣適用于基于LSTM 的解碼框架.在此,本文以Att2in[31],BUTD[16],LB[10]作為基線模型,在MS COCO 數據集上設計了3 組對比實驗.由于這些基線模型的解碼器中只存在一個交叉注意力模塊,所以自適應權重約束中的參數N=1.表2 是上述三種基于LSTM 的圖像標題生成模型結合CACA 模塊后在MS COCO 數據集上的性能表現.實驗結果表明,本文提出的CACA 模塊不僅適用于Transformer 解碼框架,還可以大幅提升LSTM 解碼模型的性能.

表2 基于LSTM 的圖像標題生成模型結合語境輔助的交叉注意力機制在MS COCO 數據集上的性能表現 (%)Table 2 Performance of LSTM-based image captioning models combined with CACA on MS COCO dataset (%)

為了分析語境輔助的交叉注意力機制對模型推理效率的影響,本文從MS COCO 測試集中隨機選出了1000 幅圖像,分別使用Transformer,CAT和LightCAT 模型生成圖像標題.具體而言,每一輪解碼過程的輸入為50 幅圖像,集束搜索算法的束大小為5.本組實驗在單塊NVIDIA TITAN XP GPU 環境下進行,CUDA 版本為10.1.表3 記錄了3 種模型對每一輪輸入圖像的平均解碼時間.盡管語境輔助的交叉注意力機制大幅提高了圖像標題的質量,但由于兩次使用交叉注意力模塊,不可避免地導致了解碼效率的下降,在貪心和集束搜索算法下,使模型的解碼時間分別上升29.8%和35.5%.對于輕量級的語境輔助的交叉注意力機制而言,其模型結構與傳統的交叉注意力模塊相似,僅通過擴充數據信息的方式引入視覺連貫性,所以,Light-CACA 可以在保證解碼效率的同時提升模型的性能.雖然CACA 模塊的結構較為復雜,需要更長的解碼時間,但總體來講,它為模型帶來的性能提升更加明顯,且解碼效率仍在可接受的范圍之內,所以,本文中的大部分實驗均以CACA 模塊為代表,體現本文算法的優勢.

表3 語境輔助的交叉注意力機制對Transformer 推理效率的影響(ms)Table 3 The effect of context-assisted cross attention mechanism on Transformer＇s reasoning efficiency (ms)

3.4 語境輔助轉換器與先進基線方法的比較

本文將基于不同基線模型的語境輔助轉換器與當前先進的基線方法在MS COCO 數據集上進行了比較.這些基線方法包括: 1)Att2in 與Att2all[31],使用視覺注意力機制,并采用不可微分的評價指標對模型進行優化;2)BUTD[16],使用Faster RCNN 提取圖像特征,再采用自頂向下的解碼器對視覺特征進行解碼;3)AoANet[18],使用注意力門從被關注的語境特征中篩選與語義查詢切實相關的知識;4)M2Transformer[25],通過網狀連接的編解碼框架充分利用低層與高層的視覺特征;5)X-LAN與X-Transformer[19],使用空間與管道雙線性注意力機制來建模不同模態間的二階相互作用;6)DLCT[27],通過圖像區域特征與網格特征的協作互補,增強視覺信息的表達能力;7)RSTNet[26],建立了一個基于BERT 的語言模型來捕獲文本上下文信息,并通過自適應注意力模塊來衡量視覺與文本線索的貢獻;8)CATT[20],使用前門調整策略來消除視覺-語言模型中難以捕捉的混淆效應;9)S2Transformer[28],采用空間和尺度感知的Transformer 將圖像網格特征高效地融入圖像標題生成模型;10)DIFNet[29],將圖像的全景分割特征作為網格特征之外的另一個視覺信息源,以增強視覺信息對圖像標題生成的貢獻;11)CIIC[39],通過后門調整策略緩解由無法觀測的混淆因素引起的虛假相關性.與當前先進方法的對比結果如表4 所示.本文的DIFNet+CACA 模型在全部評價指標上都取得了當前最優的效果,其中,在BLEU-4 和CIDEr-D 上分別達到了40.5 與136.8.

表4 本文模型與先進方法在MS COCO 數據集上的性能對比(%)Table 4 Performance comparison between our models and the state-of-the-art (%)

3.5 語境輔助交叉注意力機制的消融實驗

為了更加清晰地說明語境輔助的交叉注意力機制的設計思路,分析它為基線模型帶來的性能提升,本文以經典的Transformer 解碼框架為基礎,使用三種不同的語境輔助策略增強解碼器中傳統的交叉注意力(Traditional cross attention,TCA)模塊,在MS COCO 數據集上進行了對比實驗.具體而言,不同語境輔助策略的主要區別在于歷史語境特征的引入形式不同.如圖4 所示,左側的CACA 模塊在引入歷史語境特征時,并未與視覺特征相結合,而是僅將歷史語境記憶中的特征向量作為鍵值對(Only historical contexts,OHC),通過二次使用交叉注意力模塊,提取當前時刻的語境特征;中間的CACA 模塊將之前時刻的歷史語境特征與視覺特征相拼接,構建交叉注意力模塊的鍵值對輸入,此處的歷史語境特征不包括當前時刻首次使用交叉注意力模塊時產生的臨時語境特征(Incomplete historical contexts,IHC);右側的CACA 模塊則是本文在第2.2 節中提到的方法,它為交叉注意力模塊同時提供了完整的歷史語境特征(Complete historical contexts,CHC)與視覺信息.為公平起見,本組對比實驗中均未加入自適應權重約束.

圖4 傳統交叉注意力機制的三種語境輔助策略Fig.4 Three context-assisted strategies of traditional cross attention

表5 列出了在Transformer 解碼框架下,傳統交叉注意力機制在結合三種不同語境輔助策略時的性能表現.從實驗結果中可以看出,TCA+OHC與傳統方法相比,在多數評價指標中分數均有所下降,導致此結果的原因是,交叉注意力模塊在生成最終語境特征時缺少了原始視覺特征的參與和指導,同時,每一時刻歷史語境記憶能夠為注意力模塊提供的特征向量十分有限,嚴重限制了注意力模塊的選擇能力.TCA+IHC 相較于傳統方法,在大多數評價指標上均有所提升,說明歷史語境特征的加入豐富了交叉注意力模塊的選擇空間,為當前語境特征的生成提供了更加豐富且有效的信息,也從側面反映出視覺連貫性在序列預測任務當中的重要性.TCA+CHC 是本文提出的CACA 模型,與傳統交叉注意力機制相比,該方法在所有的評價指標上均取得了明顯的提升.同時,從TCA+CHC 與TCA+IHC 的性能對比中可以得出結論,臨時語境特征的加入有助于每一個CACA 模塊產生更高質量的最終語境特征,進而指導語言模型生成更加合理的圖像標題.

表5 傳統交叉注意力機制結合不同語境輔助策略在MS COCO 數據集上的表現(%)Table 5 Performance of the traditional cross attention mechanism combined with different context-assisted strategies on MS COCO dataset (%)

本文在CACA 模塊上的設計理念是,在不添加任何額外的可訓練模型參數的條件下,通過CACA模塊引入視覺信息的連貫性,提升基線模型的性能.具體來講,在CACA 中兩次使用的交叉注意力模塊共享(Shared)相同的參數.為了分析在不共享(Not shared)模型參數的條件下CACA 模塊的性能表現,本文在MS COCO 數據集上以不同解碼器層數的CAT 模型為基礎進行了對比實驗.在本組實驗中,不同CAT 模型的編碼器層數固定為3 層,且在訓練過程中同樣未加入自適應權重約束.

表6 展示了三組不同解碼器層數的CAT 模型在共享與不共享交叉注意力模塊參數時的性能表現.當解碼器層數為2 層時,從實驗結果中可以看出,無論是否共享交叉注意力模塊的參數,使用CACA模塊的CAT 模型的性能在所有評價指標上都超越了使用TCA 模塊的模型的性能.進一步對CACA模塊進行分析,與共享參數的CACA 模型相比,不共享參數的模型擁有更多的可訓練參數,且模型性能明顯優于共享參數的模型.3 層解碼器的模型實驗反映出了相似的實驗結論,不同的是,相較于共享參數的CACA 模型,不共享參數的模型性能提升較小.同時,在4 層解碼器的模型實驗中,TCA模型的性能較3 層解碼器的TCA 模型有所降低,且CACA 模塊對基線模型的性能產生了負面影響.綜合表6 中的實驗結果及上述分析,本文得出了以下兩點結論: 1)當基于TCA 的模型尚未出現過擬合現象時,共享參數的CACA 模塊能夠有效提升基線模型的性能,而不共享參數的CACA 模塊在提升模型性能的同時,由于加入了更多的參數,模型可能出現過擬合問題;2)當基于TCA 的模型已經出現過擬合現象時,CACA 模塊將擴大過擬合產生的負面影響,尤其是不共享參數的CACA 模塊,將大幅降低圖像標題的質量.

表6 不同解碼器層數的CAT 模型在共享與不共享交叉注意力模塊參數時的性能表現(%)Table 6 Performance of CAT models with different decoder layers when sharing or not sharing parameters of the cross attention module (%)

3.6 自適應權重約束的消融實驗

本文在MS COCO 數據集上設計了一組消融實驗來解釋自適應權重約束給CAT 模型帶來的性能提升.通過觀察AWC 損失與CE 損失的數量級,本文依據經驗將損失權衡系數γ設置為0.5.在本組實驗中,CAT 解碼器的層數為3 層.從表7 列出的實驗結果中可以看出,當CAT 模型采用固定值作為CACA 模塊的權重約束時,其性能表現隨β值的增大,先緩慢提升,在β=0.5 附近達到最優,隨后迅速下降.結合表5 中的信息,本文發現,當固定權重約束β=0.1 時,即在少量引入歷史語境特征的條件下,CAT 模型的性能就可在僅使用TCA 的基礎上實現大幅提升,模型的CIDEr-D 分數由126.5提升至127.8.同時,當固定權重約束β=0.9 時,即幾乎將全部的權重都分配給歷史語境特征時,CAT模型的性能將偏向表5 中TCA+OHC 的實驗結果,過度關注歷史語境信息而忽略原始的視覺信息,導致圖像標題的質量嚴重下降.當固定權重約束β=0.5時,模型在視覺特征與歷史語境特征上的權重分配相對平衡,一定程度上提升了CAT 模型的性能.與固定權重約束相比,自適應權重約束更加靈活,它能夠依據數據和模型的需要,學習到一組更具泛化性的參數.從實驗結果上看,自適應權重約束為CAT 模型帶來的提升要明顯優于固定權重約束,同時,與無權重約束的模型相比,采用AWC的CAT 模型在所有評價指標中均超越了基線模型.

表7 采用自適應權重約束的CAT 模型在MS COCO 數據集上的表現(%)Table 7 Performance of the CAT model with adaptive weight constraint on MS COCO dataset (%)

3.7 注意力圖的可視化分析

為了深入闡釋歷史語境記憶的重要作用以及自適應權重約束的有效性,本文基于一組完整的圖像標題生成示例,對視覺特征和歷史語境記憶上的注意力分布進行了可視化分析.考慮到頂層解碼器的輸出特征與圖像標題的生成結果直接相關,本文以Transformer 模型頂層解碼器中的CACA 模塊為例展開討論.

如圖5 所示,中間部分展示了原始圖像,以及采用AWC 優化的CACA 模塊在每個解碼時刻分配給圖像特征的注意力權重分布圖.圖5 頂部的折線圖展示了CACA 模塊在對應時刻為歷史語境記憶分配的注意力權重總和.其中,橙黃色實線與金黃色虛線分別代表了“采用”與“未采用”AWC 優化的CACA 模塊給歷史語境記憶的權重分配結果.在此,本文首先通過橙黃色的實驗數據深入分析歷史語境記憶存在的重要意義.在第一個解碼時刻,采用AWC 優化的CACA 模塊將大部分注意力給予了圖像特征,僅為歷史語境記憶分配了0.0732 的注意力權重.直觀分析,在序列生成的初始時刻,解碼器亟待充分理解圖像中的顯著特征,同時,歷史語境記憶能夠為解碼過程提供的語義信息十分有限,因此,CACA 模塊主要依靠圖像特征完成第一個時間步的單詞預測.在后續的時刻中,隨著歷史語境記憶中的特征向量逐漸豐富,CACA 模塊為其分配的注意力權重也迅速增加,并最終穩定在0.2左右.在圖像標題的生成過程中,解碼器不斷尋求歷史語境記憶的指導,說明歷史語境記憶蘊含了大量有價值的信息,進一步證實了該模塊存在的必要性.

圖5 由語境輔助的交叉注意力模塊分配給圖像特征與歷史語境記憶的注意力分布可視化Fig.5 Visualization of attention distribution assigned to both image features and historical context memory by our CACA module

與此同時,通過比較兩條折線中數據點的大小,本文發現,未采用AWC 優化的CACA 模型對歷史語境記憶的利用率遠不及采用AWC 優化的CACA模型.結合前文的結論,若不采用AWC 對模型進行優化,CACA 模塊則難以充分利用歷史語境記憶中的有效信息為解碼過程提供豐富的語義特征.綜上所述,自適應權重能夠提升CACA 模塊對歷史語境記憶的利用率,為解碼器提供更多有價值的信息,從而提高圖像標題的生成質量.

在圖5 的底部,本文對注意力權重在歷史語境記憶中的具體分配情況進行了可視化分析.為了清晰起見,本文挑選了三個具有代表性的時間步進行討論.具體而言,當歷史語境記憶中的一條特征向量獲得大于0.05 的注意力權重時,則通過一條連線指向當前時刻生成的單詞.此處展示的圖像標題為采用AWC 優化的模型生成的結果.值得一提的是,連線的顏色越深,表示特征被分配的權重越大.如圖5 所示,當模型預測單詞“man (男人)”和“holding (拿著)”時,CACA 對當前時刻新加入歷史語境記憶的特征向量格外關注,表明視覺特征在此刻發揮著重要作用;而當模型預測單詞“on (在···之上)”時,由于圖像中缺少明顯的視覺線索表達這一概念,因此,CACA 重點關注了歷史語境記憶中可以輔助推斷當前詞的語義特征.上述事實說明,歷史語境記憶可以發揮視覺哨兵[16]的作用,為CACA 模塊提供一個回退選項,在必要時舍棄部分低價值的視覺特征,利用之前時刻的歷史語境特征,協助解碼器完成單詞的預測.

3.8 圖像標題生成示例

為了進一步證明本文方法在傳統的交叉注意力機制上的改進,本文在圖6 中展示了八組圖像標題生成的案例.其中,每組案例包括了一幅圖像,Transformer 基線模型生成的標題,CAT 模型生成的標題,以及圖像對應的真實(Ground truth,GT)標題.舉例來講,在第一個案例中,Transformer 與CAT 模型都關注到了圖像中的主要目標“dog”與“frisbee”,這得益于它們擁有相同的編碼器結構Faster R-CNN 與Transformer 編碼器,Faster RCNN 能夠提取到圖像中的顯著目標,Transformer編碼器則可以隱性地建模不同目標之間的關系.然而,由于缺少動作信息捕捉的相關模塊,這便要求解碼器承擔相應的職責.從模型結構來看,Transformer 解碼器通過傳統的交叉注意力機制與圖像特征進行交互,認為圖像中狗是叼著飛盤在沙灘上“奔跑(running)”,然而實際上,圖像中的狗是通過“跳躍(jumping)”來接住空中的飛盤.本文提出的CAT 模型利用語境輔助的交叉注意力機制,在解碼過程中,不僅能夠關注到與當前語義查詢最為相關的圖像信息,還能夠從歷史語境特征中受到啟發.在這一案例中,CAT 模型通過CACA 模塊,進一步捕獲到歷史時刻與狗相關的語境特征,從而生成了更加符合圖像事實的描述“狗跳起接住(jumping to catch)飛盤”.另外,本文在圖6 中展示了一個失敗的案例.如案例八所示,圖中有一塊砧板,上面放著一塊被刀切開的奶酪.從兩個模型生成的標題來看,它們都錯誤地將奶酪(cheese)描述成“橘子(orange)”.導致這一結果的原因主要有兩點: 1)形如圖中的奶酪在整個數據集中出現的次數較少,深度模型難以捕捉其內在的判別特征;2)奶酪的顏色與生活中常見的橘子相似,外加明亮的白光環境,使得編碼器提取到的特征難以將二者進行區分.本文提出的CACA 模塊主要作用于模型的解碼器部分,對編碼器的特征提取能力影響較小,難以解決上述問題.針對此類現象,可以通過平衡數據分布、增強編碼器、采用小樣本學習[37]等方式提升模型性能.

圖6 Transformer 與CAT 生成的圖像標題展示Fig.6 Image captions generated by the Transformer and the CAT

3.9 人工評價

在人工評價環節,本文從MS COCO 的測試集中隨機選擇了500 幅圖像,使用Transformer 模型與CAT 模型為其生成圖像標題.為了提高評價的可信度,本文將每組標題隨機打亂,并提供給5 名評測人員,由他們對標題的“相關性”和“一致性”分別進行比較和評價.其中,相關性的評價標準是圖像與標題之間的相關程度,而一致性代表了標題的流暢程度與語義一致性.對于每一幅圖像,評測人員必須在上述兩種評價指標上選出質量更高的一條標題,當2 名以上評測人員對某一條標題的相關性或一致性表示更加認可時,本文則認定該條標題在對應指標上表現更好.從表8 中可以看出,在圖像與標題的相關性方面,Transformer 與CAT 具備相近的生成能力.然而,本文提出的CAT 模型生成的標題具有更強的一致性,評價結果明顯優于Transformer 模型,這得益于CACA 模塊可以回顧歷史語境特征的能力,使語言模型在標題生成的過程中,不斷參考過去關注過的信息,體現了視覺連貫性的優勢.

表8 Transformer 與CAT 模型的人工評價(%)Table 8 Human evaluation of Transformer and CAT (%)

4 結束語

本文面向圖像標題生成任務,針對傳統的交叉注意力機制缺乏視覺連貫性的問題,提出了一種語境輔助的交叉注意力(CACA)機制,通過歷史語境記憶為注意力模塊提供先前關注過的語義信息,為語言模型提供更加豐富的語境特征,從而提升圖像標題的生成質量.為了限制每一個CACA 模塊分配給歷史語境特征的權重總和,本文設計了一種自適應權重約束(AWC),來提升模型的泛化能力.本文將CACA 模塊與AWC 方法集成到Transformer解碼框架中,構建了一種語境輔助的轉換器(CAT)模型.基于MS COCO 數據集的實驗結果表明,與現有的多個基線模型相比,本文提出的方法均取得了穩定的提升.本文未來的研究工作將圍繞歷史語境特征在Transformer 中的跨層交互展開探索.