面向“一帶一路”的低資源語言機器翻譯研究

2024-04-23 10:04:02侯鈺濤阿布都克力木阿布力孜史亞慶馬依拉木木斯得克哈里旦木阿布都克里木

計算機工程 2024年4期

侯鈺濤,阿布都克力木·阿布力孜,史亞慶,馬依拉木·木斯得克,哈里旦木·阿布都克里木

(新疆財經大學信息管理學院,新疆烏魯木齊 830012)

0 引言

截至2023年6月,中國已經同152個國家和32個國際組織簽署200余份共建“一帶一路”合作文件。“一帶一路”需要語言鋪路[1]。然而,語言多樣性和稀缺性所產生的語言障礙問題被看作是妨礙各國之間深層次交流的主要挑戰之一。自然語言處理(NLP)技術是推進文化交流的重要手段,借助NLP技術研究語言障礙問題為我國“一帶一路”倡議的深度實施和廣泛推廣提供了重要的技術支持。

機器翻譯(MT)是NLP領域重要的研究內容,也被看作是突破語言障礙的“金鑰匙”。VASWANI等[2]提出基于自注意力機制的Transformer模型,從而引領神經機器翻譯(NMT)步入高速發展階段。NMT模型的訓練通常需要大量的雙語平行語料,然而,對于大多數語言,獲取高質量的雙語數據是極其困難的。據調研,世界上97%以上的語言都是無資源或者是資源稀缺的語言[3],這無疑為NMT模型的訓練和優化帶來巨大的挑戰。目前,機器翻譯任務正經歷著巨大變革,多語言預訓練模型技術發展迅速,并在機器翻譯任務中取得了重大突破。2022年底,以ChatGPT模型為代表的大語言模型(LLM)在NLP領域中取得了顯著進步,同時也為低資源語言機器翻譯研究提供了新的可能性,極大地緩解了數據稀缺所帶來的挑戰。

“一帶一路”倡議沿線國家眾多,涵蓋了多種語言。受資源的限制,本文采用CCMT2023提供的4種“一帶一路”低資源語言(越南語、老撾語、蒙語以及捷克語)作為研究對象,以深入探究其與漢語之間的翻譯能力。本文在低資源語言上應用一種多語言預訓練模型NLLB,該模型是在200多種語言的數據集上訓練而成。在低資源語言數據集上對預訓練模型進行微調的方法已被證明比從頭開始訓練效果更好[4]。在此基礎上,本文提出一種基于NLLB模型改進的低資源語言機器翻譯訓練方法,該方法主要在數據增強的基礎上,對損失函數進行優化,從而有效提高低資源語言的機器翻譯效果。此外,本文使用LLM模型初步探索其在低資源語言機器翻譯上的性能,主要使用ChatGPT以及ChatGLM[5]模型分別評估老撾語-漢語以及越南語-漢語的翻譯能力。

1 相關工作

1.1 低資源語言機器翻譯研究

隨著NMT技術的發展,以Transformer為代表的神經網絡模型逐漸被應用到低資源語言的機器翻譯任務中[6-9]。2018年,以BERT和GPT為代表的預訓練模型引領機器翻譯領域逐漸進入預訓練模型時代,出現許多將預訓練模型應用到機器翻譯任務中的工作,其研究主要分為2個方面:1)將預訓練模型與NMT模型結合討論[10-12];2)專門構建端到端的機器翻譯模型[13-15]。由于語料資源的稀缺,NMT模型的訓練受到限制,因此無法獲得足夠的訓練數據以實現更優的翻譯性能。為了應對這一挑戰,大多數研究者采用各種數據增強技術以解決低資源語言數據不足的問題,從而提高翻譯質量和性能[16]。其中,被研究者廣泛使用的方法是反向翻譯(BT)技術,然而,僅使用反向翻譯技術生成的偽平行語料庫質量往往不佳。因此,反向翻譯通常與其他技術(模型集成、模型融合、知識蒸餾及低頻詞替換等方法)結合使用[17-22]。此外,部分學者開始嘗試利用多語言預訓練模型來緩解低資源語言語料稀缺的問題[23-25],借助多語言預訓練模型中所包含豐富的語言學知識,從而遷移到低資源語言翻譯過程中。因此,在處理語料資源稀缺的低資源語言時,多語言預訓練模型仍然能夠顯示出優秀的翻譯性能。

“一帶一路”倡議中大多數國家的語言都屬于低資源語言,研究相對較少,令人欣喜的是2022年Meta AI團隊[26]提出了支持202種語言之間任意互譯的大規模多語言機器翻譯模型NLLB。202種語言中包含部分“一帶一路”上的低資源語言,為低資源語言機器翻譯研究帶來了巨大突破,然而該模型在本文所研究的語言對上的翻譯效果還有待進一步提高。此外,他們創建了1個多語言數據集FLORES-200,該數據集允許衡量任意方向的翻譯性能,為構建通用機器翻譯模型奠定了堅實的基礎。

1.2 基于大語言模型的機器翻譯研究

隨著模型參數量的不斷增大,LLM逐漸顯露出小型模型中不具有的能力,被稱為涌現能力[27]。同時LLM在機器翻譯領域表現出驚人的能力,其原因可能是大規模訓練數據中存在的偶然雙語性使得LLM具備翻譯能力[28]。LLM在機器翻譯任務中的分析工作主要從Prompt的選擇[29]、任務信息、領域信息、參數設置[30-31]等方面進行考慮。通過上下文學習(ICL)[32-33]、融入詞性(POS)[31]以及結合翻譯記憶[34]等方法進一步研究LLM在多語言、多領域、少樣本中的翻譯能力。PENG等[30]提出2種提示策略:任務特定提示(TSP)和領域特定提示(DSP),并簡單分析了ChatGPT使用ICL和思維鏈(CoT)方法在機器翻譯任務上的有效性。CoT方法已被證明在激發LLM方面的推理能力是有效的[35],而且可以提高ChatGPT在自然語言理解任務中的性能[36]。然而,研究人員發現,將CoT方法應用到機器翻譯中會出現逐字翻譯的現象,導致翻譯能力退化。目前,使用CoT方法在機器翻譯中的研究尚未得到充分的探索。TAN等[37]在mGPT模型基礎上研究不同的Prompt策略對翻譯的影響,并提出MSP(Multi-Stage Prompting)方法來緩解預訓練和翻譯之間的差距。此外,JIAO等[38]針對遠距離語言提出一種基于樞軸語言的提示方法。現有研究大多針對高資源或者較為常用的幾種低資源語言,未來將進一步探究LLM在“一帶一路”低資源語言的翻譯能力。

2 本文方法

為提高低資源語言機器翻譯的效果,本文通過2種方法來探索低資源語言機器翻譯的能力。第1種是基于NLLB模型改進的方法,底層模型選用NLLB-200-distilled-600M模型,翻譯過程主要分為2個階段,首先在CCMT 2023提供的數據基礎上使用反向翻譯技術進行數據增強,然后使用NLLB模型對合成數據進一步微調,考慮到合成數據集中存在一定的噪聲數據,本文使用HUANG等[39]提出的不完全信任(In-trust)損失函數進行優化,該損失函數可以防止模型在訓練過程中過度擬合噪聲數據。實驗結果表明,該方法可以有效提高低資源語言的翻譯效果。第2種是使用LLM模型初步評估低資源語言的翻譯結果,該方法分為2種類型:1)ChatGPT模型使用ICL和CoT方法對越南語-漢語以及老撾語-漢語的翻譯任務進行直接評估;2)使用基于LoRA的ChatGLM模型對越南語-漢語的翻譯任務進行高效微調。

2.1 基于NLLB改進的低資源語言機器翻譯

2.1.1 數據增強

數據增強是對原有訓練語料庫進行擴充或修改的一種方法。機器翻譯領域中經典的數據增強方法是反向翻譯技術,如圖1所示。該方法是由SENNRICH等[40]提出的,一種利用單語數據對原有訓練語料庫進行擴充或修改的方法。反向翻譯的核心思想主要有:1)在真實平行語料庫上訓練1個反向翻譯模型(目標語言-源語言);2)利用第1步訓練好的反向翻譯模型在單語語料(目標語言)上訓練生成偽源語言,得到偽平行語料庫(偽源語言-額外源目標語言);3)將生成的偽平行語料庫和真實的平行語料庫混合,訓練最終正向翻譯模型(源語言-目標語言)。

圖1 反向翻譯Fig.1 Back translation

2.1.2 NLLB模型

NLLB模型[26]主體架構是在Pre-LN結構的Transformer模型基礎上融入稀疏門控混合專家(MoE)模塊。圖2所示為Transformer Encoder融入MoE結構示意圖,解碼器修改也類似。MoE是一種條件計算模型,通過門控機制激活部分神經網絡參數,而不是所有參數,以此來提高模型計算效率,同時也是一種擴大模型規模的方法。NLLB模型將原始Transformer模型編碼器和解碼器中的單個前饋神經網絡(FFN)模塊替換為e個FFN模塊(FFN1,FFN2,… ,FFNe),FFN模塊表示專家模塊,通過MoE門控機制計算輸入文本進入不同專家模塊的概率,決定前K個專家模塊進行工作。具體計算如式(1)～式(5)所示:

圖2 融入MoE層的Transformer Encoder 示意圖Fig.2 Schematic diagram of the Transformer Encoder integrated into the MoE layer

ReLU(x)=max(0,x)

(1)

(2)

Gt=Softmax(xt·Wg)

(3)

gt=Top_K_Gating(Gt)

(4)

(5)

然而,這種方法在低資源語言機器翻譯領域中的效果不佳,因此研究人員提出2種方法來解決該問題:1)EOM(Experts Output Masking)方法,該方法是對部分專家模塊的輸出進行隨機掩碼,之后對多個專家模塊的輸出進行加權求和,通過這種掩碼方法可以防止模型過多依賴某個專家模塊,提高模型的魯棒性;2)CMR(Conditional MoE Routing)方法,具體結構對比見圖2,該方法設置了1個二進制門控機制讓模型自行決定哪些Token進行MoE訓練。具體計算如式(6)和式(7)所示:

G(xt)=Sigmoid(xt,WCMR)

(6)

CCMR(xt)=

(1-G(xt))·FFFNshared(xt)·MMoE(xt)

(7)

其中:WCMR是CMR門控機制的權重矩陣,CMR分為共享密集的FFN子層(FFNshared)和具有不同專家模塊(FFNi)MoE子層(MMoE(xt))2個分支。

2.1.3 In-trust損失函數

由于低資源語言存在語料資源稀缺的問題,因此大部分研究均會進行數據增強實驗。數據增強生成的偽數據質量參差不齊,存在一定的噪聲數據。受LI等[23]的啟發,本文使用In-trust損失函數代替以往的交叉熵損失函數,幫助模型在存在噪聲的情況下進行訓練,防止模型過度擬合噪聲數據。In-trust損失函數如式(8)和式(9)所示:

LDCE=-tloga(δt+(1-δ)l)

(8)

LIn-trust=αLCE+βLDCE

(9)

其中:δ是超參數,決定是否信任模型輸出;t表示翻譯模型的輸出;l表示真實的翻譯標簽;當δ較大時,模型將更多地相信預測值,相反,模型將更信任真實標簽;LCE表示交叉熵損失函數;LDCE是一種加速度調節項;α和β是超參數;LIn-trust可以有效緩解噪聲數據的過擬合現象。

2.2 基于LLM的低資源語言機器翻譯

2.2.1 基于ChatGPT的模型

基于ChatGPT模型進行低資源語言機器翻譯任務時主要使用ICL和CoT 2種方法。ICL是指無須對模型進行參數調整,而是直接通過Prompt對下文進行預測的過程,根據Prompt中示例的數量,ICL可以分為Zero-shot和Few-shot 2種類型。CoT是使用自然語言的表達形式,利用有邏輯的提示模型一步一步完成任務的推理,相較于ICL,該方法不是直接給出翻譯結果,而是預測翻譯的“思維過程”。CoT同樣分為Zero-shot和Few-shot進行實驗。簡單的CoT提示策略是在普通Prompt后加入“Let’s think step by step.”來實現翻譯過程的一步步推理。

2.2.2 基于LoRA微調的ChatGLM模型

鑒于ChatGPT模型無須微調即可進行評估,本文進一步探索微調LLM的機器翻譯方法。然而,隨著LLM參數量越來越大,在消費級GPU(例如RTX 3090或4090)對模型進行全部參數的微調變得難以負擔。近年來,研究者提出多種參數高效微調方法來解決上述問題。參數高效微調是指微調少量或額外的模型參數,固定大部分預訓練模型參數,從而大幅降低計算和存儲成本,基于LoRA[41]微調的方法是對模型中的一部分參數進行低秩適應,在凍結原模型參數的情況下,僅訓練新添加的網絡層,有效提高模型的微調效率,節省顯存占用,同時,也能實現與全參數量微調相當的性能。

3 實驗設置

3.1 數據集

本文采用CCMT 2023“一帶一路”低資源語言機器翻譯任務中提供的4種語言和漢語之間的平行語料作為訓練數據,采用FLORES-200 提供的驗證和測試數據作為本實驗的驗證集和測試集。具體數據規模見表1,基于NLLB改進的模型和ChatGLM模型的實驗采用全部的實驗數據完成,基于ChatGPT的實驗隨機選擇FLORES-200測試數據集的100條數據。本實驗僅是前期的簡單探索,未來將進一步深入研究基于LLM的低資源語言機器翻譯任務。

表1 數據集信息Table 1 Datasets information 單位:個

3.2 基線模型

為評估基于NLLB模型改進方法的有效性,本實驗選取了2個基線模型進行對比:MBART和MT5。這2種模型與NLLB模型類似,同樣是序列到序列的多語言預訓練模型。

MBART 模型[13]是1個基于BART預訓練的跨語言序列到序列的降噪自編碼模型,其訓練數據源自大規模多語言單語語料庫。在此模型中,輸入文本通過掩碼和句子置換的方式進行噪聲化處理,然后利用預訓練的自回歸模型在多語言環境的噪聲干擾下,實現完整文本的重構。

MT5 模型[14]是T5模型的1個多語言版本,該模型在覆蓋101種語言的新數據集上進行預訓練,主要采取了T5模型的訓練方法。預訓練過程主要基于“跨度破壞”的掩碼語言模型目標,其中連續輸入的標記被替換為掩碼標記,然后訓練模型以重建這些被掩碼的標記。

3.3 評估指標

本實驗采用自動評估方法,使用Sacrebleu工具包開源的BLEU[42]、chrF++[43]進行評估,所有評估都區分大小寫,并使用基于字符的評估方法。

3.4 實驗設置

基于NLLB模型改進方法的實驗環境為Ubuntu20.04 的Linux操作系統,GPU為RTX 3090,顯存為24 GB,內存為43 GB,實驗架構基礎為PyTorch,編程語言為Python3.8,模型選擇Meta AI Research在Huggingface上開源NLLB-200-Distilled-600 M模型實現。實驗參數設置如下:Transformer層數為12層,Batch_size設置為8,句子最大長度設置為128,優化函數使用AdamW優化算法,學習率設置為1×10-5,In-trust損失函數超參數設置為Alpha=1,Beta=0.8,Delta=0.5。

基于ChatGPT的機器翻譯任務主要通過調用GPT-3.5-Turbo模型的API完成,溫度參數設置為0,以確保生成結果的準確性。在ICL和CoT實驗中,Zero-shot實驗主要評估不同模板對老撾語-漢語翻譯任務的影響,并選擇其中最好的模板進行Few-shot實驗。受ChatGPT模型最大Token數的限制,ICL的Few-shot實驗最大進行15-shot,CoT的Few-shot實驗最大10-shot。

基于ChatGLM模型微調實驗GPU為A40,顯存為48 GB,內存為56 GB,模型選擇清華大學在Huggingface上開源的ChatGLM-6B模型實現。實驗參數設置如下:Batch_size設置為8,Max_len設置為768,LoRA_r設置為8。

4 實驗結果及分析

4.1 基于NLLB改進的低資源語言機器翻譯

4.1.1 對比實驗

本實驗對比分析了MT5、MBART、NLLB模型以及本文使用的改進方法在“一帶一路”低資源語言到漢語數據集上的翻譯能力。表2所示為BLEU和chrF++的評估結果,加粗表示最優數據。此外,考慮到NLLB原始論文中54B版本的模型報告了他們的翻譯結果,且本文使用的測試數據集和評估指標chrF++與原論文一致,具有一定的可比性。因此,表2中除基線模型實驗對比以外,也說明了NLLB-54B參數量的模型在這4種語言對上的翻譯結果。

表2 4種低資源語言到漢語的翻譯結果Table 2 Translation results from four low-resource languages to Chinese

從表2可以看出,本文模型在4種低資源語言到漢語的翻譯任務中均取得了最佳結果,而且使用NLLB模型直接微調的翻譯效果優于MBART-large和MT5-base模型,其原因為NLLB模型是在包含大量低資源語言的數據集上訓練而成,具有較強的語言遷移能力。從平均值來看,相較于直接微調的NLLB-600M模型,本文模型提升了1.33個BLEU值和0.82個chrF++值。此外,在蒙語、捷克語到漢語的翻譯任務上,本文方法僅以600×106參數量的模型超越了NLLB-54B參數量模型的翻譯結果,而且本文模型的翻譯效果與NLLB-54B參數量的模型效果相當。因此,本文模型在低資源語言機器翻譯上具有一定的有效性。

4.1.2 消融實驗

為驗證本文模型的有效性,本實驗在“一帶一路”4種低資源語言到漢語的翻譯任務上設置了2組消融實驗:只進行損失函數的改進和只融入數據增強的實驗。數據增強部分首先訓練反向翻譯模型,選擇20 萬條的漢語數據(此處選擇的是CCMT2023提供的漢語數據作為額外的目標端單語數據)生成對應的偽數據(偽源語言),之后在合成的數據集(偽源語言-額外目標語言)上進行訓練。表3給出了消融實驗的結果,其中-In-trust loss表示去掉改進的損失函數,只進行數據增強的方法,-DA表示去掉數據增強部分,只進行In-trust損失函數的方法。從表3可以看出,去掉這2種任何一種方法,均會導致翻譯效果變差,而且在沒有額外數據增強的情況下,模型在訓練期間可能仍然會接觸到一些噪聲數據,In-trust損失函數仍有助于模型處理這些噪聲數據,從而提高性能。因此,本文模型將數據增強技術與損失函數改進相結合有效提高了低資源語言翻譯能力。

表3 消融實驗結果Table 3 Ablation experiment results

4.1.3 實例分析

針對源語言“2013 онд Шарк Танк нэвтр??лэгт ороход шоуны ш??гчид т??ний стартапыг санх??ж??лэхээс татгалзсаны дараа борлуулалт нь нэмэгдсэн гэж Симинофф хэллээ.”,目標語言“西米諾夫說,2013年他在《創智贏家》節目中露面后,公司的銷售額大增,當時節目組拒絕向這家初創公司投資。”。基線模型與本文模型在蒙語-漢語方向的翻譯對比示例如表4所示,此外,表4中NLLB-54B給出了原論文提供的翻譯結果。

表4 不同模型的譯文示例Table 4 Translation examples among different models

從表4可以看出,本文模型學習到的源語言信息更多,雖然與目標語言的排序有所變化,但并沒有改變原意。針對目標語言中出現的人名“西米諾夫”,MT5模型的譯文完全沒有翻譯該詞;MBART模型的譯文翻譯成“辛諾夫”;NLLB-54B模型的譯文并沒有翻譯成漢語,而是用英文人名表示,出現此問題的原因是NLLB-54B模型中包含大量的英文語料,模型翻譯時可能不會翻譯成漢語,但學習到了如何翻譯成英文的情況。而本文模型翻譯為“司米諾夫”,雖然與目標語言“西米諾夫”不完全一致,但是更接近目標語言,而且通過在蒙語-漢語的雙語平行語料庫中查找,源語言的訓練語料中并沒有“Симинофф”西米諾夫這一人名,本文模型通過訓練后可得到較為正確的翻譯,可能有關該詞的知識是由NLLB-54B模型引入的。然而,所有模型均沒有翻譯出《創智贏家》這一節目名稱,原因是該節目名稱在訓練語料中也沒有出現過,并且模型難以學習到這種復雜信息。以上實例表明,本文模型雖然存在一定的局限性,但相較于基線模型能生成更好的譯文。

4.2 基于ChatGPT的低資源語言機器翻譯

4.2.1 ICL Zero-shot實驗結果分析

為更好地激發ChatGPT模型在低資源語言上的翻譯潛力,本實驗首先判斷3種不同的Prompt模板在老撾語-漢語Zero-shot的翻譯性能,如表5所示。

表5 不同Prompt模板的翻譯結果Table 5 Translation results among different Prompt templates

從表5可以看出,模板T3獲得最好的翻譯結果,在沒有其他任何翻譯示例的情況下,ChatGPT在老撾語-漢語上已具備一定的翻譯能力,但比本文模型低16.08個BLEU值和8.95個chrF++值。雖然ChatGPT沒有超越本文方法的翻譯結果,但是在沒有任一訓練數據提示的情況下已經取得了不錯的翻譯效果。

此外,本實驗使用T3模板評估ChatGPT模型在越南語-漢語上的翻譯結果,BLEU值為33.56,chrF++為21.73,與本文方法相比提高了9.28個BLEU值和3.12個chrF++值。由此可見ChatGPT模型在機器翻譯任務上具有強大能力,在高資源以及部分低資源語言上翻譯效果已超越傳統的NMT模型,然而在類似老撾語等極低資源且形態復雜的語言上,翻譯性能有待進一步提高。

4.2.2 ICL Few-shot實驗結果分析

本節選擇3種模板中的最好模板T3進行后續的Few-shot實驗,實驗結果見圖3。

圖3 ICL Few-shot實驗結果Fig.3 Experimental results of ICL Few-shot

從圖3可以看出,隨著示例數的增加,翻譯效果整體呈現先升高后下降的趨勢,在10-shot達到最佳效果。雖然BLEU值有所降低,但是chrF++值一直保持上升趨勢,在Few-shot翻譯過程中,有時候會在輸出翻譯結果的同時輸出示例句子,因此需要手動刪除多余的示例,確保輸出結果的準確性。此外,隨著示例數的增多,模型可能更容易過度擬合,導致在Few-shot情況下出現性能下降。然而,在10-shot時,模型能夠更好地利用示例信息,獲得更準確的翻譯結果。因此,找到適當的示例數量對于實現高質量的Few-shot翻譯至關重要。

4.2.3 CoT Zero-shot實驗結果分析

本實驗將進一步使用CoT方法深入探索ChatGPT模型的翻譯能力。本節選取了3種典型的CoT Prompt模板來評估ChatGPT的翻譯能力,實驗結果見表6。

表6 不同CoT Prompt模板的翻譯結果Table 6 Translation results among different CoT Prompt templates

然而,從表6可以看出,CoT2取得最好結果,相較于ICL Zero-shot中的T3模板提升了1.19個BLEU值,然而在使用CoT方法翻譯的過程中,翻譯結果較為雜亂,存在部分翻譯結果不完整、直接輸出老撾語而不翻譯漢語或者翻譯成英語等多種問題,導致翻譯結果并不理想。因此在CoT Few-shot實驗過程中,通過提供模板的示例來規范CoT的輸出結果。

4.2.4 CoT Few-shot實驗結果分析

本節主要評估CoT2方法在Few-shot情況下對老撾語-漢語機器翻譯任務的影響。受CoT Zero-shot翻譯結果的啟發以及ChatGPT在英語上的響應能力更加準確,Few-shot示例主要分為3個部分完成:1)確定所翻譯文本屬于何種語言;2)將源語言翻譯成英語;3)將英語翻譯成漢語。此外,受ChatGPT模型最大Token數的限制,本節最多進行10-shot的實驗,實驗結果見圖4。

圖4 CoT Few-shot實驗結果Fig.4 Experimental results of CoT Few-shot

從圖4可以看出,使用CoT方法進一步提高了ChatGPT模型在老撾語-漢語的翻譯能力,而且通過模板示例的提示,模型輸出的翻譯結果明顯變得更為整潔,而且最高可提升1.24個BLEU值以及0.28個chrF++值。由于ChatGPT受最大Token的限制,因此只進行了10-shot的翻譯實驗,翻譯性能整體呈上升趨勢,說明ChatGPT模型在老撾語-漢語的翻譯能力有待進一步提高。

4.2.5 基于LoRA微調的ChatGLM模型

上述基于ChatGPT模型并沒有進行微調實驗,而是直接在Prompt指令下進行翻譯任務的評估,為了進一步了解微調LLM模型在低資源語言機器翻譯上的能力,本實驗選取ChatGLM模型進行實驗。由于越南語-漢語在ChatGPT模型上表現優異,因此本節主要使用ChatGLM模型評估其在越南語-漢語的翻譯能力。ChatGLM是1個開源的支持中英雙語的對話語言模型,在大量中文語料上訓練而成,具備一定的漢語理解能力。鑒于直接微調ChatGLM模型所耗費的資源巨大,本實驗選取LoRA高效微調方法進行實驗,實驗結果見圖5。

圖5 基于ChatGLM的越南語-漢語翻譯結果Fig.5 Vietnamese-Chinese translation results based on ChatGLM

從圖5可以看出,隨著運行步數的不斷提高,翻譯效果也在同步提升。雖然性能仍有進一步提高的可能,但是提升過于緩慢且運行時間長,因此本實驗只進行了599 982步的運行。此時使用ChatGLM翻譯效果比本文方法低了8.53個BLEU值以及7.27個chrF++值,可能的原因是ChatGLM雖然擁有一定的漢語理解能力,但是并沒有見過越南語或者類似語言,所以翻譯效果不佳。

此外,基于ChatGLM所耗費的時間和計算成本均高于基于NLLB模型的改進方法。本實驗總計運行599 982步,在單卡A40上運行時長133 h左右。因此,即便使用高效微調LLM的方法也需要耗費一定的資源和時間成本,仍需要探索更有效的適用于低資源語言機器翻譯的LLM微調方法。

5 結束語

低資源語言因語料稀缺導致翻譯性能不佳,本文使用多語言預訓練模型以及LLM方法來分析其在低資源語言機器翻譯任務上的能力。該方法在數據增強的基礎上,對損失函數進行優化,旨在提升低資源語言的機器翻譯效果。實驗結果表明,本文方法在低資源語言上具有較優的翻譯性能。受資源的限制,本文研究尚存在一定局限性,在選擇越南語、老撾語、蒙語(西里爾)以及捷克語等4種語言時,并未全面考慮其他低資源語言的通用性。后續將進一步更有效地將LLM引入到低資源語言機器翻譯任務中,為解決低資源語言翻譯難題提供更具普適性的解決方案。