




摘"要:針對目前跨語言機器翻譯存在性能較低的問題,提出了一種基于深度學習和上下文感知算法的跨語言翻譯模型。還提出了一個具有12層的跨語言Transformer編碼器-解碼器結構,充分學習不同語言表達特征。再提出了一種數據對齊方法,可有效擴充數據樣本數量,增加數據多樣性和數據量,減少數據和模型之間復雜度的相對差異,緩解過擬合問題。實驗階段,通過有監督、無監督、零樣本數據集測試,證明所提模型具備較優性能。實驗充分驗證了所提模型可有效表達未知語種。與mTransformer和mRASP等主流模型相比,所提模型BLEU分數較優。實驗結果證明了所提出跨語言翻譯模型的有效性及實用性,該模型可為跨語言機器翻譯領域的發展提供一定借鑒作用。
關鍵詞:機器翻譯;跨語言模型;深度學習;數據對齊;Transformer
中圖分類號:TP393""""""文獻標識碼:A
Cross"Language"Translation"Method"Based"on"Deep"
Learning"and"Context"Aware"Algorithms
WANG"Dan
(Department"of"Public"Foreign"Language"Teaching"and"Research,"Harbin"Medical
University,"Daqing,"Heilongjiang"163000,"China)
Abstract:A"cross"language"translation"model"based"on"deep"learning"and"context"aware"algorithms"is"proposed"to"address"the"issue"of"low"performance"in"current"cross"language"machine"translation."A"cross"language"Transformer"encoder"decoder"structure"with"12"layers"was"proposed"to"fully"learn"different"language"expression"features."A"data"alignment"method"has"been"proposed,"which"can"effectively"expand"the"number"of"data"samples,"increase"data"diversity"and"volume,"reduce"the"relative"differences"in"complexity"between"data"and"models,"and"alleviate"overfitting"problems."During"the"experimental"phase,"the"proposed"model"demonstrated"superior"performance"through"supervised,"unsupervised,"and"zero"sample"datasets"testing."The"experiment"fully"verified"that"the"proposed"model"can"effectively"express"unknown"languages."Compared"with"mainstream"models"such"as"mTransformer"and"mRASP,"the"proposed"model"has"better"BLEU"scores."The"experimental"results"demonstrate"the"effectiveness"and"practicality"of"the"proposed"cross"language"translation"model,"which"can"provide"some"reference"for"the"development"of"cross"language"machine"translation.
Key"words:machine"translation;"cross"language"model;"deep"learning;"data"alignment;"Transformer
Transformer[1,2]作為深度學習領域[3]一個重要分支,憑借其豐富的雙語并行語料庫在機器翻譯方面取得了巨大成就。隨著翻譯要求的不斷提升,機器翻譯[4]已經從單一語言向跨語言發展。跨語言機器翻譯的工作旨在創建一個統一的模型來翻譯多種語言。跨語言翻譯模型之所以有吸引力,有兩個原因:其一為模型效率高,能夠更容易地進行部署;其二,不同語言之間的參數共享鼓勵了知識轉移,這有利于資源高效利用,并有可能實現零樣本翻譯,即對從未訓練過的語言進行直接翻譯。
目前,許多學者針對機器翻譯技術進行研究,取得了豐碩的研究成果。文獻[5]提出了一種融合機器翻譯方法與復述生成方法的兩階段中文手語文本生成方法。該方法首先在多語言雙向和自回歸轉換器模型中加入注意力機制,從而提升模型對手語文本敏感度。文獻[6]提出基于深度可分離卷積的英語神經機器翻譯方法。該方法以英語為研究中心,將英語切分為單詞、音階、字符、詞等不同粒度,并基于深度可分離卷積和注意力機制提升機器翻譯質量。文獻[7]提出了一種基于預訓練的無監督神經機器翻譯模型。該模型基于二次預訓練語言模型和自注意力機制層優化機器翻譯模型,從而提升跨語言模型翻譯性能,有效解決高質量平行語料庫難以獲取的問題。盡管有眾多好處,但跨語言機器翻譯問題仍然面臨挑戰。跨語言機器翻譯模型權重必須在多種語言之間分配,模型所容納的語言數量不斷增加,必然導致模型性能的急速下滑。此外,跨語言機器翻譯的最佳配置應該對任何語言對都有效,然而目前大多數工作都集中在改進以英語為中心的翻譯方向,許多學者通過數據挖掘或反翻譯引入更多的非英語語料庫訓練跨語言機器翻譯模型。
為提高跨語言機器翻譯性能,本文提出了一種基于深度學習和上下文感知算法的跨語言翻譯模型。該模型以Transformer為基礎,通過對齊擴充、對比學習策略充分挖掘不同語言之間聯系,可減少不同語言的表達差距,提升跨語言翻譯質量。
1"跨語言翻譯模型
1.1"模型框架
所提基于深度學習和上下文感知的跨語言翻譯模型總體框架如圖1所示。模型采用一對并行句子作為輸入,并使用跨語言Transformer的編碼器-解碼器計算正態交叉熵損失。所提模型將并行語料庫和單語言語料庫對比學習,以縮小不同語言之間的表達性差距,從而提升翻譯的質量。此外,本研究還引入了一種有效的對齊擴充技術,通過計算對齊對(正樣本)和隨機選擇的非對齊對(負樣本)的表示的對比損失最小化訓練差異,提升訓練質量。所提模型可以充分利用來自所有監督方向的知識,通過跨語言對比學習以最小化相似句子的表示距離,確保模型在共享空間中充分學習跨語言表示相似的句子。
圖1"模型總體框架
1.2"跨語言Transformer
跨語言翻譯模型旨在學習多對多映射函數f以從一種語言翻譯到另一種語言。為了區分不同的語言,本研究在每個句子前面添加一個額外的語言識別標記,用于區分源端和目標端。Transformer因其在預測文本中可有效感知上下文信息并較好地捕捉語義關聯效果,現已廣泛應用于自然語言處理(Natural"Language"Processing,NLP)領域。為此,本研究提出的基于深度學習和上下文感知的跨語言翻譯模型以Transformer為基礎結構。
跨語言Transformer能夠隱式學習不同語言的共享表示,并基于上下文感知不同句子之間的復雜關系。本研究提出的跨語言Transformer帶有12層編碼器和12層解編碼器,以增加模型容量,從而更好地學習不同語言之間的語義關系。模型輸入設置為1024。為了簡化深度模型的訓練過程,對編碼器和解碼器應用歸一化進行詞嵌入和預范數殘差連接。
令跨語言語料庫集合為L={L1,L2,…,LM},其中M為跨語言的個數。令Dij表示由語料庫Li和Lj(i,j∈M)構成的并行語料庫數據集,D表示所有并行語料庫數據集。跨語言Transformer訓練損失為交叉熵損失函數,具體定義為:
Lce=∑xi,xj∈D-log"Pθxi∣xj(1)
式中:Lce為跨語言Transformer訓練損失;xi為語料庫Li中的一個句子;xj為語料庫Lj中的一個句子;θ為跨語言Transformer模型的參數;Pθ為預測概率。
1.3"跨語言對比學習
所提模型中引入了跨語言對比學習損失,可將不同的語言映射到共享的語義空間,從而提升不同語言之間相關性學習。對比學習的核心思想是最小化相似句子的表征差距,最大化無關句子的表征差異。
給定一個雙語翻譯對(xi,xj)∈D,且(xi,xj)為一個正樣本。接下來從語料庫Lj中隨機選擇一個句子yj形成一個負樣本(xi,yj)。需注意,可能存在Lj=Li。跨語言對比學習的目的是盡量減少以下損失函數:
Lctr=-∑xi,xj∈Dlogesin+(R(xi),R(xj))/τ∑yjesim-(R(xj),R(yj))/τ(2)
式中:Lctr為跨語言對比學習損失;sin(·)為計算不同句子的相似性函數;+和-分別表示正和負符號;R(·)為任意句子的平均匯集編碼輸出函數;τ為控制參數,用來區分正樣本和負樣本的難度。本研究中,設置τ為0.1。同時,兩個句子的相似性函數sim(·)是用平均合并編碼輸出的余弦相似性來計算。為了簡化實現,從同一訓練批次中對負樣本進行采樣。接著,通過最大化softmax項sim+(R(xi),R(xj)),并對比損失迫使相似的兩個句子的語義投影彼此靠近。同時,softmax函數還最小化了不匹配對sim-(R(xi),R(xj)),即使兩個不相似句子的語義投影分離得更遠。
所提基于深度學習和上下文感知的跨語言翻譯模型訓練過程中,可以通過聯合最小化對比訓練損失和Transformer訓練損失來優化模型:
L=Lce+λsLctr(3)
式中:λ為平衡兩種訓練損失的平衡系數;s為平均序列長度。由于Lctr在句子級別上計算,而Lce是在語料庫級別計算,因此Lctr應該乘平均序列長度s。
1.4"對齊擴充技術
為提升樣本多樣性,增強模型魯棒性,本研究使用對齊擴充技術增強樣本,具體策略包括為引入有噪聲的雙語數據和有噪聲的單語數據。對齊擴充技術結構圖如圖2所示。
圖2"對齊擴充技術結構圖
對于任意雙語或單語句子對(xi,xj),本研究提出的對齊擴充技術通過替換同義詞字典中對齊的詞創建擾動句子Cxi。同時,對于同義詞詞典中包含的每個詞,本研究以90%的概率將其隨機替換為其同義詞。
對于雙語句子對(xi,xj),可基于對齊擴充技術創建一個偽并行訓練樣本(Cxi,xj)。對于單語數據,通過對齊擴充技術提取一個句子xi,并生成其擾動Cxi,以形成并行樣本(Cxi,xi)。接著,在訓練中通過(Cxi,xj)和(Cxi,xi)計算Transformer訓練損失和對比學習損失。
2"實驗與分析
為驗證所提基于深度學習和上下文感知的跨語言翻譯模型有效性,本節以案例樣本庫對模型性能進行交叉驗證及分析。
2.1"數據集與實驗設置
本研究所用數據集包括PC32、Newscroll10Z、OPUS100零樣本集三個基礎語料庫以及一個跨語言詞匯語料庫。
PC32為由32對以英語為中心的語言對組成的大型公共語料庫,其中句子對總數約為9760萬。在基礎PC32數據集上應用對齊擴充技術,即將任意雙語詞典中的同義詞隨機替換其他源句中的單詞。對于字典中的單詞,實驗時以90%的概率將其替換為同義詞之一,否則保持不變。
Newscroll10為一個多語言大型公共語料庫。為簡化實驗過程,本研究選取Newscroll10中24種語言形成一個單語言文本數據集Newscroll10Z。該子集只保留與PC32中類似的語言,加上PC32中沒有的另外3種語言。為了平衡不同語言之間的數量,實驗時在數據集上應用溫度采樣:
i=ni∑jnj1T(4)
式中:T為溫度系數,實驗時設置為5;ni為第i種語言中的句子數量。
接著,基于對齊擴充技術擴展單語言文本數據集,方法為用多語言詞典中的同義詞隨機替換源句子中的單詞。同時,替換概率也設置為90%。經擴充后,Newscroll10Z中的句子總數約為10.1億。
OPUS100零樣本測試集由6種語言(俄語Ru、德語De、法語Fr、荷蘭語Nl、阿拉伯語Ar、中文Zh)組成,共有15對語言和30個翻譯方向。
跨語言詞匯語料庫包括59種語言。該詞匯表包含64808個標記。在添加59個語言標記后,詞匯表的總大小為64867。
實驗時使用的Transformer模型包括12個編碼器層和12個解碼器層,詞嵌入大小和FFN維度設置為1024。Dropout設置為0.1,學習率設置為0.0001,學習率衰減函數設置為多項式衰減調度,預熱步驟設置為10000。優化時使用Adam優化器,其中維持數值穩定性的參數設置為1×10-8,動量參數設置為0.9和0.999。為了穩定訓練,將梯度范數的閾值設置為5.0,并用較大的范數剪裁所有梯度。
實驗環境設置如下:硬件使用8×4"NVIDIA"A100訓練模型,軟件采用pycharm2021作為算法編譯環境,使用python3.8和pytorch1.13.0編寫Transformer及其改進模型。
2.2"對比與分析
本節首先進行了有監督消融實驗,對比指標選取BLEU分數。實驗時基于三種基礎語料庫對模型進行預訓練,之后選取跨語言詞匯語料庫中英語-法語(EnFr)、英語-土耳其語(EnTr)、英語-西班牙語(EnEs)、英語-羅馬尼亞語(EnRo)、英語-中文(EnZh)作為案例進行分析。對比模型包括含有6層編碼器層和解碼器層的Transformer6、12層編碼器層和解碼器層的Transformer12、mTransformer、跨域預訓練語言模型(Crosslingual"Language"Model"Pretraining,XLM)、掩碼序列到序列預訓練(Masked"Sequence"to"Sequence"Pretraining,MASS)、mRASP以及所提模型。不同模型有監督消融實驗BLEU分數對比結果如表1所示。其中符號“→”表示從前一語種翻譯至后一語種,如En→Fr指從En翻譯至Fr;符號“-”表示翻譯未成功導致BLEU分數無效。
可以看出,在眾多對比模型中,所提基于深度學習和上下文感知算法的跨語言翻譯方法具備競爭力,平均BLEU分數為33.02%。與mTransformer和mRASP模型相比,所提模型BLEU分數分別提高1.98%和0.73%。除英語-法語外,所提模型基本具有較高的BLEU分數。此外,通過有監督實驗對比可以看出,Transformer層數對BLEU分數具有較大影響。如Transformer6提升為Transformer12時,模型BLEU分數提升較大。
接著,本研究還進行了無監督消融實驗對比。與有監督對比實驗類似,對比指標選取BLEU分數。不同之處主要設置如下:其一為無監督消融實驗只進行預訓練,無微調過程,即預訓練后直接基于跨語言詞匯語料庫進行測試;其二為僅對比mTransformer、mRASP以及所提模型;其三為測試的翻譯對包括英語-荷蘭語(EnNl)、英語葡萄牙語(EnPt)、英語波蘭語(EnPl)、荷蘭語-葡萄牙語(NlPt)。不同模型無監督消融實驗BLEU分數對比結果如表2所示。可以看出,所提方法在無監督翻譯消融實驗時取得了最優的結果。mTransformer和mRASP模型無法翻譯從未直接訓練過的英語-波蘭語(EnPl)語言對。相比之下,所提模型在無監督情況下平均BLEU分數為15.75%。
接下來進行了非零樣本消融實驗對比。測試時在OPUS100零樣本測試集上評估所提模型性能,目標語種包括:阿拉伯語(Ar)、中文(Zh)、荷蘭語(Nl)、法語(Fr)、德語(De)、俄語(Ru)。非零樣本BLEU分數對比結果如表3所示。表3中X表示任意語種翻譯至目標語種,如X→Ar指任意語種翻譯至阿拉伯語;“*”表示荷蘭語(Nl)不在訓練集中。可以看出,所提模型性能優于mTransformer,平均BLEU分數為15.49%。實驗結果驗證了所提模型可更好地表達未知句子。
3"結"論
提出了一種基于深度學習和上下文感知算法的跨語言翻譯模型。模型以跨語言Transformer為基礎網絡,包含12層編碼器-解碼器結構。同時,該模型將并行語料庫和單語言語料庫對比學習,以縮小不同語言之間的表達性差距,從而提升翻譯的質量。最后,通過試驗驗證了所提出的方法能夠高質量處理跨語言翻譯問題,并為跨語言翻譯的發展提供了一定的技術基礎。
參考文獻
[1]"尚春磊,李穎俊,張璐.基于數據挖掘的自動化翻譯系統優化設計研究與應用[J].自動化與儀器儀表,2023(8):273-276.
[2]"宮昀.基于Transformer模型的神經機器翻譯改進方法研究[J].自動化與儀器儀表,2023(8):257-261+267.
[3]"齊碩.基于深度學習的音樂情緒分類研究[J].云南師范大學學報(自然科學版),2023,43(2):29-33.
[4]"何娟.基于深度學習網絡的手寫英文自動化識別模型在機器英漢互譯中的應用研究[J].自動化與儀器儀表,2023(7):191-195.
[5]"李世煒,侯霞,汪良果.融合機器翻譯與復述生成的手語文本生成方法[J].北京信息科技大學學報(自然科學版),2023,38(2):75-81.
[6]"晏芳,羅剛峰,司海峰.面向平行語料庫和多層次語言特征的英語翻譯系統研究[J].自動化與儀器儀表,2023(3):213-217.
[7]"薛擎天,李軍輝,貢正仙,等.基于預訓練的無監督神經機器翻譯模型研究[J].計算機工程與科學,2022,44(4):730-736.