霍茜曈
(昆明理工大學 信息工程與自動化學院,云南 昆明 650500)
從互聯網海量文本中爬取和整理平行句對,是提升機器翻譯性能的重要工作之一。網絡信息中存在大量偽平行的句對,因此需要從海量偽平行句對中抽取雙語平行句對。目前,主流平行句對抽取方法大都基于句子級語義相似性來進行,因此容易出現語義相近但完全不平行的句對。這樣的低質量句對嚴重影響了后續機器翻譯的性能。因此,研究平行句對抽取方法,對于提升平行句對的質量、提高機器翻譯性能具有重要的意義和價值。
雙語嚴格平行的句對需要同時保證句對內詞級粒度的對齊和句子語義的對齊。平行句對的質量和數量是提升機器翻譯性能的重要因素之一。目前,互聯網存在海量的可比平行句對資源,其主要存在詞級不對齊或句子語義不一致等噪聲。如何從大量帶噪聲的可比平行句對中抽取質量相對較高的偽平行句對,是平行句對抽取工作主要解決的問題之一。
主流平行句對抽取方法主要采用預訓練模型加微調的方式。基于預訓練的偽平行句對抽取最早由CHAUDHARY 等[1]提出,論文基于LASER[2]在WMT19 數據集進行平行句對任務,得到較好效果。隨著預訓練模型的發展,多語言預先訓練模型被認為能表達更豐富的語義信息,因此被廣泛應用到平行句對抽取任務中,如RoBERTa[3]的多語言版本、XLM-R[4]以及序列到序列去噪自動編碼器MBART[5]等。該類方法主要依賴訓練策略或規則,基于雙語句子語義表征實現平行句對的判別。
在表1 的英-越雙語偽平行句對實例中,英語-越南語偽平行句(第1 列和第2 列)對語義信息基本一致,但是詞級粒度存在較大的不一致,因此基于預訓練模型的語義對齊判別方法會將其判別為平行句對,但是例子中詞級粒度明顯存在較大的差異。如何在保證句子級語義一致的情況下考慮詞級對齊問題,是偽平行句對需要解決的重要問題之一。

表1 英-越雙語偽平行句對實例
圖像信息作為一種語言無關的信息,容易獲取,且基于計算機視覺領域目標識別、目標檢測等方法可以有效地對圖像信息進行挖掘,建立圖文信息關聯(如multi30k[6]、COCO[7]等圖像數據集構建了大量圖像文字對齊信息),用于跨語言語義對齊,實現文本關聯信息的檢索和融合。近年來,在自然語言理解領域,融合圖像的多模態機器翻譯[8-12]、多模態跨語言摘要[13-16]等任務已經成為熱門研究方向。通過融合圖像信息,大大提升了純文本跨語言理解任務的性能。相關前期工作已經證明,融合圖像模態的信息有助于提升跨語言對齊和跨語言理解的能力。
受圖文多模態融合方法的啟發,針對偽平行句對抽取問題,本文以語言無關的圖像信息作為跨語言語義對齊的錨點,融合圖像特征,實現跨語言句對的語義對齊。通過對源語言、目標語言分別融合其關聯的圖像信息,提升跨語言表征和對齊的性能,借助語言無關的圖像信息,增強偽平行句對在句子級和詞級語義對齊的能力,最終提升偽平行句對抽取的性能。本文的研究主要有以下創新點:
(1)提出了一種以語言無關圖像模態增強的偽平行句對抽取方法,通過融合圖像模態,提升雙語句子級和詞級語義表征的能力,實現了高質量偽平行句對的抽取;
(2)提出了一種無監督的、以文本檢索圖像的方法,基于詞級相似度匹配方法,分別實現了雙語文本相關聯圖像信息的檢索,為后續的圖文融合提供數據基礎;
(3)提出了一種基于圖文多模態門控的圖像融合方法,借助多模態門控,實現噪聲圖像中有效圖像特征的融合,提升了文本的語義表征能力;
(4)基于英語-越南語、英語-德語偽平行句對抽取任務進行實驗,實驗結果證明了所提方法的有效性,偽平行句對抽取性能得到提升。
目前已經有主流平行句對框架使用預訓練模型提取文本特征并結合訓練策略進行微調,之后將該任務轉化為二分類任務的方法[17-18]。但是該方法關注于句子級表征而忽略了詞級對齊信息。這個問題在其他文本任務中也有出現,如翻譯任務[19-20]、摘要生成任務[13]等。已有方法可證明融入圖像信息能跨越語種鴻溝,拉近不同語種信息細粒度對齊效果,有效提升模型性能。
目前,主流平行句對抽取方法主要基于使用預訓練模型獲取句子級表示然后轉化為二分類方式的方法,基本可以分為三類,依次為依賴傳統方法、增強訓練策略以及使用多語言預訓練模型。傳統的方法主要基于句法特征、轉換或關系提取[21-22],認為需要將提取出的信息融入句子表征來提升模型效果。第二類基于訓練策略的方式,ACCARCCICCEK 等人[23]證明,在分類任務中正負例的比例會影響最后模型效果,且負例多于正例更有利于模型性能的提升,由此引出了如何構造高質量負例的問題。文獻[24-26]使用模糊匹配等算法構建了高質量負例,成功提升了最終模型性能,其實驗結果表明在合理構建訓練數據后,模型仍然有一定的提升空間。在自然語言處理任務中,BERT[27]提出以后,刷新了多項任務記錄,在平行句對抽取中也是如此。使用多語言預訓練模型,可以將不同語言的信息編碼到同一語義空間。有研究者認為這一過程可以將更多語言信息融入到模型,利用多語言模型實現的不同語言在同一語義空間的“對齊”可以提升模型性能[18,28],實驗證明,使用多語言預訓練模型可以提升最后的評價分數。預訓練語言模型僅僅可以實現句子級的語義對齊,對詞粒度的直接對齊考慮不足。因此,基于多語言預訓練模型的方法仍然有提升空間。
多模態信息融合是多種模態任務的一大難點。近年來,圖文檢索、圖像描述生成、多模態神經機器翻譯任務的相關研究表明,采用視覺模態,可以潛在地使機器對真實世界有更全面的感知[29],并且,基于圖像目標特征實現圖文語義對齊的方法可有效提升模型性能。這些任務的難點都圍繞如何拉近文字、圖像模態空間距離并且融合展開。現有的研究成果按照使用的方法可分為三種類型。
第一種融合方法關注不同模態表征對齊。LEE K H 等人[30]在2018 年使用文字模態和圖像模態相互進行Attention 得到的特征實現圖文檢索任務、圖像問答任務模型實驗,實驗結果達到了當時最高。IACER C 等人[20]將圖像全局信息融入編碼端,將源語言和圖像的表征對齊后生成多模態編碼端表征輸入解碼端,有效提升了翻譯模型性能。隨著翻譯任務transformer[31]框架的提出,YAO S W 等人[19]提出一種基于多模態自注意力機制,該方法將圖像的細粒度目標檢測結果表征和編碼端文本模態融合進行自注意力機制計算,得到圖像文字多模態表征作為解碼端的輸入,有效提升了翻譯模型性能。
第二種融合方法關注多模態多粒度圖(graph)的使用。這種方法相信依靠抽取圖特征可以有效獲得文本信息或圖像信息中的語義信息,并且可以通過拉近不同模態生成的圖特征空間距離間接拉近圖文模態特征空間距離從而實現跨越模態間間隙,實現高效融合的目的。這種方法首先在圖文檢索任務中提出[32],達到了當時圖文檢索任務的最高分數。YIN Y J 等人[1]在2020 年將基于圖的融合模態方式融入神經機器翻譯任務并作出創新,有效提升了模型性能并達到多模態神經機器翻譯的最好效果。
第三種方式致力于將圖像模態表征和文字模態表征投射到同一空間,實現語義空間對齊,最終構建多模態語義共享空間,如IACER C[20]等人提出的構造跨模態隱空間的方式拉近不同模態向量距離幫助有效融合的方法,也在若干任務上取得效果。但是多模態對齊融合技術在偽平行句對任務的研究較少,因此本文進行了融入圖像模態增強抽取過程的研究。
在本文平行句對抽取的任務中,融入圖像特征的重點在于如何有效地提取非噪聲數據以輔助文本信息的判斷,因此受文獻[20]的啟發,本文使用多模態門控的方式進行圖文模態信息融合,實驗證明該方法可有效提升性能。
本文針對平行句對抽取任務中的詞級匹配問題,基于圖文檢索匹配和圖文多模態融合的思想,提出通過融入文本相關的圖像特征提升文本表征能力的方法,融合句對表征,實現偽平行句對的判別。所提方法的總體思路如圖1 所示。首先介紹不同語種語言文本相關圖像檢索方法,其次介紹圖文多模態融合方法,最后介紹預測模塊算法。

圖1 模型圖
已有圖像數據集的文字描述主要描述圖像中的物體、物體特征及動作。結合該特點,本文使用標注句子中的名詞和動詞作為該圖像匹配關鍵詞,并根據無順序關鍵詞匹配個數作為衡量匹配程度的“打分”,篩選出圖像庫中與檢索文本語義最接近的圖像。




圖文模態信息融合一直是多模態任務的一個難點。如果輔助模態融入信息噪聲過多,會導致整體性能下降。因此,本文提出多模態門控對圖文模態信息融合進行控制,如圖2 所示。

圖2 圖文多模態門控



本章節使用章節2.2 所示的無監督檢索方式構建英語-越南語、英語-德語圖像文字平行數據庫。各訓練數據集43 500 對,驗證集7 250 對,測試集7 250 對。采用以下方法進行負例構建:
(1)對正例進行隨機洗牌;
(2)使用fuzzy 打分將模糊相近的非平行句子作為負例;
(3)隨機替換句子中20%單詞和原平行句子作為負例。
已有工作[24]證明使用較大的負比率會導致更好的性能。但太大的正負比會造成數據失衡從而影響模型性能,因此本文訓練集使用正負比1 ∶2 進行訓練。
本文使用了Multi30K[6]數據集來生成圖像檢索標簽。該數據集樣例如圖3 所示,使用的詞性標注工具為stanza[33]。

圖3 Multi30K 數據集
訓練過程中,分別使用XLM-100 和mBART 預訓練模型提取文本特征。使用XLM-100 提取文本特征時,凍結除最后兩層線性變化層外的所有參數。使用mBART 提取文本特征時,凍結encoder 所有參數,訓練decoder 層參數的微調策略。其他模型基本訓練參數如表2 所示。本文所有代碼在fairseq的基礎上實現。

表2 實驗參數
為了探究圖文多模態門控過濾效果下,融入本章節檢索算法得到的語義相關圖像特征對抽取平行句對模型的增強效果,本文進行了編碼實驗。
分別使用XLM-100 預訓練模型和mBART 預訓練模型提取不同語種文本特征后進行拼接再進行二分類的方法作為基線。分別在越南語-英語、德語-英語語種對進行實驗。評價標準為精確度,結果如表3 所示。

表3 圖文多模態門控增強的偽平行句對抽取實驗結果
其中,基線模型在兩對語言的實驗都可以達到較好效果,在添加圖像增強后依舊可以提升模型性能。在基于XLM-100 的模型中,越南語-英語任務的精確度從96%提升至96.8%,德語-英語任務中精確度從97.5%提升至98.2%,說明通過細粒度檢索得到的圖像語義表征信息作為跨越語言壁壘的樞軸信息,有效地對細粒度語義信息進行了篩選和評估,使得得到的多模態語義表征向量同時具有原有句子文本表征向量信息以及句子細粒度對齊信息,其語義特征空間以圖像模態特征作為樞軸聯系了不同語種語義空間向量,增強了平行句對平行判斷信息,增強了模型性能。
為了探究圖像表征融入模型后,通過圖文多模態門控增強后得到的融合了本章所提算法檢索到的圖像信息的多模態語義表征向量和單一文本模態的向量表征更有豐富的語義信息,和通過圖像多模態門控增強后融合原有與句子語義相關的“正確”圖像信息得到的多模態信息表征相比是否擁有更多語義表征,本章節進行了圖像消融實驗。如表4 所示,分別將章節2.3 實驗中提出的檢索算法獲得的句子相關語義表征向量換成“正確”匹配圖像進行實驗,并與原有單一模態文字基線模型進行對比分析。

表4 圖像消融實驗結果
為了探究多模態門控的噪聲控制能力,本文進行了門控消融實驗。由表4 可見,本章節進行刪除圖文多模態門控時,加入“正確”圖像信息表征的模型性能。
如表5 所示,分別在兩個語種和不同的預訓練模型基線進行實驗對比,分別探究在“正確”圖像表征融入模型進行實驗的前提下,進行加入或刪除圖文多模態門控的消融實驗。

表5 圖文門控消融實驗結果
由實驗結果可以得到,在融入“正確”圖像的前提下,刪除圖文多模態門控的噪聲過濾,會降低模型性能。由此證明,在圖文多模態門控進行控制前提下融入圖像信息,可以有效過濾一定的噪聲,提升模型性能。
表6 給出了基類模型與本文模型匹配結果對比情況。第3 行越南語句子的意思是“一個人走得很快。”,英語句子的意思是“一個人正在快速地騎自行車。”,明顯為非平行句對,但基線模型得到的模型預測結果為兩個句子平行。本文模型進行細粒度圖像檢索匹配時,得到了兩個句子并非平行句對的正確預測結果。由此可得,通過圖文多模態門控增強融入細粒度檢索圖像表征,可以使模型獲得語義更豐富的多模態語義表征向量,使原有具有單一句子語義表征的文本向量具有細粒度信息的語義表征向量,有效解決了原有基線模型中因句子結構相似而被判斷為平行的“錯誤”判斷結果,提升了模型判斷平行句對的能力。

表6 實例分析
本文提出細粒度圖文檢索匹配算法得到文字語義相關圖像,使用圖文多模態門控進行多模態融合,有效提升了平行句對抽取模型性能,同時探究了不同圖像模態信息對文本模態信息輔助效果以及圖文多模態門控效果,為后續研究提供了基礎。