基于交叉注意力機制的視頻引導機器翻譯方法

2022-07-14 09:01:28王麒鼎

電視技術 2022年6期

王麒鼎，姜舟*

（1.昆明理工大學信息工程與自動化學院，云南昆明 650500；2.昆明理工大學云南省人工智能重點實驗室，云南昆明 650500）

0 引言

隨著短視頻產業的發展，來自不同國家的視頻開始在網上傳播。在文化、教育、金融、公益、國際環境等各個領域，視頻引導機器翻譯都有著很大的實用價值和市場前景。其不僅可以節省時間、提升體驗，還可以幫助人們快速地找到自己感興趣的內容，為人們提供極大的便利，對于處理好國際關系，對經濟發展、政治穩定、文化交流及商務合作等方面有著重要的意義。在實際生活中，視頻引導機器翻譯可以幫助翻譯帶有社交媒體視頻內容的帖子和新聞，支撐更多的自媒體App，為視障人士提供便利。

視頻引導機器翻譯是在給定一組視頻和相關文檔的情況下，根據視頻和語義的對應增強文檔的翻譯，通過視頻線索解決機器翻譯的問題。與圖像引導機器翻譯任務相比，視頻引導機器翻譯更具挑戰性，因為視頻是由連續的幀組成的，其中視頻模態包含的信息更豐富。視頻信息的質量直接影響機器翻譯的質量，而且在利用視頻信息的過程中，人們需要選取有價值的信息來輔助機器翻譯。但是在目前的視頻引導機器翻譯領域，機器翻譯的結果還沒有達到人們的要求。因此，本文對視頻信息的篩選以及視頻信息的特征提取開展相關研究，從不同的角度為視頻引導機器翻譯任務提供可行的研究方案和技術路線。

視頻與句子匹配，是視頻引導機器翻譯的基本任務之一[1-3]。通過視頻幀與句子的相關性分數選擇出更貼切的視頻幀是重要的步驟。這項任務在視頻字幕[4-5]、視頻生成[6-7]以及視覺問答[4，8-9]領域受到關注并被廣泛應用[10-14]。雖然近年來取得了重大進展，但是在視頻引導機器翻譯領域仍然是一個具有挑戰性的問題，因為它需要理解語言語義、視覺內容、交叉模態關系以及對齊的方法。

由于視覺與語言之間存在巨大的視覺語義差異[2，15]，圖像與句子的匹配問題仍有待解決。針對該問題，研究者們提出了各種方法，大體可分為一對一匹配[13，16-17]和多對多匹配[18-19]兩類。一對一匹配方法通常提取圖像和句子的全局表示，然后利用視覺語義嵌入[15]將它們關聯起來。以往的方法都是將圖像和句子獨立地嵌入到同一個嵌入空間中，然后通過特征在空間中的距離來度量它們的相似度。在深度學習的成功推動下，主流的方法已轉向針對特定形態的深度特征學習，如學習視覺特征的卷積神經網絡（Convolutional Neural Networks，CNN）和學習句子特征的循環神經網絡（Rerrent Neural Network，RNN）。通過對理解視覺內容任務的研究，目前已經開發了幾種深層骨干模型，包括ResNet、VGG 及GoogleNet[20]，并證明了其在大型視覺數據集上的有效性[21-22]。使用多對多匹配方法時，考慮到視頻幀與句子單詞之間的關系[25-27]，現有的方法大多比較多對視頻幀和句子單詞，并對它們的局部相似度進行聚合[28-30]，綜合視頻幀和句子詞之間的關系，可以為圖像匹配和句子匹配提供細粒度的跨模態線索。本文提出了一種用于視頻幀和句子匹配的多模態交叉注意網絡，通過統一的深度模型對視頻幀和句子詞的模態間關系和模態內關系進行建模。為了驗證交叉模態匹配的魯棒性，本文設計了兩個有效的注意模塊，即交叉注意模塊和時間注意力模塊，它們在模態內和模態間的關系建模中發揮著重要作用。

1 相關工作

針對視頻引導機器翻譯中的圖像匹配和句子匹配的方法，在HUANG[10]的研究之后，相關方法大致分為一對一匹配和多對多匹配兩類。

1.1 一對一匹配

早期的大量研究提取圖像和句子的全局表示，然后將它們與基于鉸鏈的三聯體排序損失相關聯，其中匹配的圖像-句子對距離較小。在近期研究中，FAGHRI 等人[2]嘗試在三重損失函數中使用硬負挖掘，并得到顯著的改善。在GU[25]和PENG[26]等人的研究中，生成目標與交叉視圖特征嵌入學習相結合，學習可視和文本數據的更有區別的表示。同時，YAN 等人[17]利用深度典型相關分析對圖像和句子的特征進行關聯，真實匹配的圖像-句子對具有較高的相關性。KLEIN 等人[24]也有類似的目標，利用Fisher 向量來獲得判別句表示。此外，LEV 等人[19]利用RNN 對FV 進行編碼，從而獲得更好的性能。在計算機視覺中，視覺注意的目標是聚焦于特定的圖像或子區域[4，17-18]。同樣，自然語言處理的注意方法自適應地選擇和聚合信息片段來推斷結果[12，21，29]。近年來，人們提出了基于注意力的圖像-文本匹配模型。HUANG 等人[10]開發了一種語境調制的注意方案，選擇性地注意出現在圖像和句子中的一對實例。同樣，NAM 等人[1]提出了雙注意網絡（Dual Attentional Network），通過多個步驟捕捉視覺與語言之間的細粒度相互作用。然而，盡管語義匹配的數量會因圖像和句子描述的不同而變化，這些模型還是采用了帶有預定義步驟數的多步推理來一次觀察一個語義匹配，然而，他們忽略了一個事實，即全局相似性是由潛在的視覺-語言對應在視頻幀和句子單詞層面的復雜聚合而產生的。

1.2 多對多匹配

在視覺和語言領域，越來越多的人開始考慮視頻幀與句子單詞之間的細粒度對齊。在ANDREJ和LI 等人[27]的研究中，第一個工作是對視頻幀和句子詞之間進行有結構目標的局部相似度學習。HUANG 等人[10]的實驗提出了一種用于實例感知圖像與句子匹配的選擇性多模態長短時記憶網絡。同樣，NAM 等人[1]的研究提出了一個雙重注意網絡，通過多個步驟捕捉視覺與語言之間的細粒度相互作用。自底向上注意是ANDERSON 等人[4]在圖像字幕和視覺問答研究中提出的一個術語，指的是與人類視覺系統自發地自底向上注意相似的純視覺前饋注意機制[14，21-23]。ANDREJ 和LI 等人[27]提出利用R-CNN 在物體水平上對圖像區域進行檢測和編碼，然后將所有可能的區域-詞對的相似度分數相加推斷出圖像-文本的相似度。NIU 等人[31]提出了一種模型，將句子中的名詞短語和圖像中的物體映射到一個共享的嵌入空間中，該空間位于完整的句子和完整的圖像嵌入之上。HUANG 等人[10]將用于模型學習的圖像-文本匹配和句子生成與改進的圖像表示相結合。與本文的模型相比，這些研究沒有使用傳統的注意機制來學習在給定的語義背景下聚焦圖像區域。然而，通過采用多步驟的方法來實現整個圖像與句子之間的特征對齊，其可解釋性較差。所以研究者利用堆疊交叉注意機制提出了SCAN，以發現所有顯著對象與單詞之間的對齊。但它沒有考慮到視頻幀與句子詞之間的關系。隨后，SAEM[13]利用自我注意機制來探究每個模態內的關系，而忽略了不同模態間的關系。然而，很少有人提出方法來調查跨模式和在一個統一的圖像和句子匹配框架內的模內關系。總地來說，解決視頻引導機器翻譯任務中視頻帶來的噪聲干擾，可以根據文本和視頻幀匹配的方式，通過交叉注意力選取視頻特征。

2 基于交叉注意力機制的視頻引導機器翻譯方法

本節主要描述基于交叉注意力的視頻引導機器翻譯網絡（Cross-Temporal Attention，CTA）。基于交叉注意力機制的視頻引導機器翻譯方法模型如圖1 所示。本文的目標是將單詞和視頻幀映射到一個共同的嵌入空間，從而推斷出整個視頻與完整句子之間的相似性。從自底向上的注意開始，檢測視頻幀并將其編碼為特征。此外，將句子中的單詞與句子上下文映射到特征上。然后，通過對齊視頻幀和單詞特征，應用交叉注意來推斷視頻句子的相似性，提取重要視頻幀，降低視頻模態的噪聲。

圖1 基于交叉注意力的視頻引導機器翻譯模型圖

2.1 交叉注意力機制

交叉注意力機制需要兩個輸入：其一是一組視頻特征V={v1,v2,…,vk}，Vi∈RD，使每個視頻特征對視頻幀進行編碼；其二是一組單詞特征E={e1,e2,…,en}，ei∈RD，其中每個單詞特征都對句子中的一個單詞進行編碼。交叉注意力機制的輸出是一個相似度分數，用來衡量視頻幀-句子的相似度。本文在推斷相似性時，交叉注意力機制對視頻幀和將視頻幀和單詞作為上下文采用不同的注意力機制。視頻幀-文本交叉注意力機制方法如圖2 所示。

圖2 視頻-文本交叉注意力機制方法圖

視頻幀-文本交叉注意力機制包括兩個注意力階段。階段1：根據每個視頻幀來處理句子中的單詞。階段2：根據每個視頻幀與相應的句子向量進行比較，以確定視頻幀相對于句子的重要性。通過給定視頻I，包含k個視頻幀，句子T包含n個單詞，計算所有可能對的余弦相似度，即：

式中：i∈[1,k]表示視頻幀，j∈[1,n]表示單詞。

在階段1 中，首先關注句子中關于每一幀視頻特征vi的單詞，為第i幀視頻生成一個被關注的句子向量。在階段2 中，比較和vi，確定每個視頻幀的重要性，然后計算相似度得分。在計算過程中sij表示第i個視頻幀與第j個單詞之間的相似度。

對視頻信息加入一個時間注意力機制，將視頻中的每一幀賦予不同的權重，通過計算不同幀的影響力，選出一簇時間上關聯的關鍵幀作為最終的視頻特征，最后通過長短時記憶網絡（Long Short-Term Memory，LSTM）解碼出目標語言。通過視頻具有的時間特征，結合視頻中的動作特征、時序特征，將源語言和目標語言進行一個空間上對齊的效果，從而提升模型翻譯質量。根據KARPATHY 經驗[27]得知，將相似度閾值設為零對實驗的效果最佳，然后將相似矩陣歸一化為：

式中：[x]+=max(x,0)。為了關注相對于每個視頻幀區域的單詞，本文定義了一個加權的單詞表示組合（即關注的句子向量）：

式中：λ1是softmax 函數的逆向表達，注意力的權重是點擊注意力的一種變形式。

在確定給句子上下文的每個視頻幀的重要性方面，本文將第i個視頻幀與句子之間的相關性定義為所關注的句子向量與每個視頻特征vi之間的余弦相似度，即：

受語音識別中最小分類誤差公式的啟發，視頻幀I與句子T的相似度通過Log Sum Exp pooling（LSE）來計算，即：

同樣，本文先關注每個單詞對應的視頻幀，然后將每個單詞與相應的被關注的視頻幀向量進行比較，從而確定每個單詞的重要性。總地來說，將第i個視頻幀和第j個單詞之間求取預先相似度sij，在第i幀和第j個單詞之間：

在關注視頻幀相對于每個單詞的重要性上，本文定義了視頻幀特征的加權組合（對第j個單詞的視頻幀向量）：

利用參與視頻幀向量與單詞特征ej之間的余弦相似度，將第j個單詞與圖像之間的相關性度量為：

視頻幀I與句子T最終相似度得分由最大池化層（LSE）進行計算，即：

通過平均池化層計算公式為：

在之前的工作中，將圖片與詞的相似度定義為vj與ej之間的點積，即：

并且通過聚合所有可能而不使用注意力機制的圖像-文本相識度計算：

2.2 目標校準

Triplet loss 是視頻幀與文本匹配中常見的排序處理方式。過去的方法采用基于hinge-based 的Triplet loss，即：

式中：[x]+=max(x,0)，S是相似度分數函數。第一個求和是所有非準確詞匯給定的圖像I，第二個求和考慮所有非準確圖像匹配的句子T。如果在這里嵌入空間中，I和T比任何負采樣對都要接近，為了提高效率，通常只考慮小批量隨機梯度下降中的負采樣，而不是對所有負采樣求和，即：

2.3 時間注意力機制

本文采用Soft attention 機制，解碼器針對每個時間特征向量F={f1,f2,…,fn}。過去利用這種方法來挖掘圖像的底層空間結構，這里對其進行調整，來處理視頻的時間結構。不采用簡單的平均策略，而是對時間特征向量進行動態加權求和，使得：

上述即是將注意力機制計算為歸一化相關分數并歸一化得到注意力權重的整個過程。該注意機制允許解碼器通過增加相應時間特征的注意權值來選擇性地聚焦于幀的一個子集。然而，本文并沒有明確地強行使這種選擇性注意發生。相反，這種注意力機制的包含使解碼器能夠利用時間結構。

2.4 LSTM 解碼器

本文選擇LSTM 作為解碼器。與RNN 相比，除了使用通常的隱狀態hd外，本文還設定一個內部內存狀態cd：

式中：⊙是基于元素的乘法。輸出門od的計算式為：

式中：σ是sigmoid 函數，φd是對編碼器特征的時變函數；Wo，Uo，Ao和bo依次為輸入權重矩陣，前一個隱狀態，編碼器的上下文和偏差。E為嵌入矩陣，用E[yd-1]表示yd-1詞向量。

式中遺忘門和輸入門為：

當計算出新的隱狀態hd，就可以使用單個隱藏層神經網絡得到可能單詞集合上的概率分布：

式中：Up，Wp，bp，d為網絡參數，softmax 函數分布在p(yd|y＜d,F)之間。

之后從LSTM 解碼器生成一個句子。例如，可以從返回的p(yd|…)遞歸地求φ和樣本值，直到采樣的yd為序列結束符號。也可以通過使用簡單的波束搜索來近似地找到概率最高的句子。

3 實驗

3.1 數據集

本實驗數據集使用公共數據集Vatex 和筆者收集的漢-越視頻翻譯數據集進行實驗。Vatex 公共數據集包含41 269 個短視頻，每條視頻都配有由20 位人工注釋者標注的5 個中文-英文的平行句對，涵蓋了600 項人類活動和多種視頻內容，其中每段視頻長約10 s，Vatex 數據集有在線測試的方式，將在本地訓練的包上傳到Vatex 官網在線測試，得到最終雙語互譯質量評估（Bilingual Evaluation Understudy，BLEU）值。同時，基于視頻引導機器翻譯任務，本文從漢越新聞網和Youtube、Tiktok、微博等平臺共收集了10 500 個視頻片段，視頻片段約為10 s 同時配有5 個視頻描述的漢越平行句對，其中測試集有2 000 條。

3.2 實驗設置

本文選用Python 語言以及Pytorch 作為框架實現模型，模型損失采用交叉熵損失函數并選用Adam 優化器。使用單層LSTM，其中隱藏層大小設置為1 024，詞嵌入大小設置為512，學習率設置為10-4。Dropout 設置為0.1。

3.3 實驗結果與分析

為了驗證模型的有效性，本文考慮以下三個基線進行比較。

（1）Base NMT 模型，在只考慮文本信息的情況下，通過LSTM 模型，輸入源語言，輸出目標語言。

（2）Cross-attention+解碼器模型，帶有交叉注意力機制，無時間注意機制的模型結構，分別使用門控循環單元（Gated Recurrent Unit，GRU）模型和LSTM 模型進行解碼。

（3）Averager 模型，Average 為每10 幀提取一幀的平均策略。

VMT 模型則是Vatex 視頻引導機器翻譯提供的基線翻譯結果，使用了時間注意力機制。本文模型（Cross-attention+Tempeoal attention）則使用交叉注意力方法的模型結構并帶有時間注意力機制。采用Vatex 公共數據集的驗證集進行對比實驗，實驗結果（BLEU 值）如表1 所示。

表1 交叉注意力網絡模型對比實驗BLEU 值

從表1 可以看出，在英文到中文的實驗中，Cross-attention+Tempeoal attention 模型獲得了最高的BLEU 值，與Base NMT 實驗相比獲得了顯著的提高。比較幾個基線模型在英文到中文實驗的效果，Cross-attention+LSTM 模型和Cross-attention+GRU模型相比于Base NMT 模型分別提高了0.85 和1.3 個BLEU 值，說明對視頻幀使用交叉注意力機制，能夠選擇出信息更重要的視頻幀。Crossattention+LSTM 模型與Cross-attention+GRU 模型相比有0.45 個BLEU 值提高，證明了使用LSTM 在視頻引導機器翻譯任務中的效果要更好。

VMT 是Vatex 視頻引導機器翻譯提供的基線翻譯結果，它的模型使用了時間注意力機制。與Averager 模型相比，時間注意力機制在Vatex 公共數據集上相比于平均提取視頻幀方式的BLEU 值提高了2.76 個，說明在視頻引導機器翻譯的任務中對視頻進行時間注意力機制是有必要的，經過時間注意力機制能夠使模型翻譯得更好。通過比較本文提出的交叉注意力機制與時間注意力機制結合的方法與VMT 的方法，實驗結果的BLEU 值提高了0.55，證明了使用交叉注意力機制能夠篩選出與源句子更貼切的視頻幀作為輔助進行機器翻譯。在中文到英文的對照實驗中，本文方法同樣未損失BLUE 值甚至有一定的提升。

表2 是本文翻譯模型在Vatex 公共測試集上獲得的分數，為30.35 個BLUE 值。Vatex 公共測試集無法下載，只能通過網絡上傳模型得到實驗結果。在英文到中文的實驗上，相比于VMT 模型，本文模型同樣獲得了1.23 的BLUE 值提升。進一步說明了本文模型的可靠性。

表2 Vatex 公共測試集實驗BLEU 值

表3 是基于筆者收集的漢-越低資源數據集進行的實驗結果。實驗在52 500 個漢越平行句對的訓練下得出實驗結果，其中視頻有10 500 個。實驗結果表明，在數據集為低資源的漢越視頻引導機器翻譯的情況下，BLEU 值依然有所提高；在低資源數據集中，依然對最后的翻譯結果有所改善，證明本文模型在公共數據集和低資源數據集上對機器翻譯的結果都有所改善。

表3 漢越語料對比實驗BLEU 值

4 結語

本文從視頻幀與文本匹配的角度對視頻引導機器翻譯進行了深入的研究。視頻引導機器翻譯是以視頻模態作為額外模態，幫助文本從源語言翻譯成目標語言的任務。在多模態機器翻譯中，不同模態的重要程度是不同的，本文從視頻引導機器翻譯任務中文本模態的重要程度高于視頻模態的角度出發，通過交叉注意力機制，用文本選擇出更重要的視頻幀，降低相對不重要的視頻幀對任務的干擾，從而可以幫助視頻引導機器翻譯任務達到去除噪聲的效果。實驗結果表明，交叉注意力機制在視頻引導機器翻譯中是有效的。

在未來的工作中，將探索文本特征和視覺特征更好的交互，通過詞與視覺實體的文本相似度，對視覺特征的權重進行調整。在文本表述模糊的時候，抑制文本模態信號，使模型更關注視覺模態，從而達到兩種模態互補的效果，進一步增強視頻引導機器翻譯性能。