999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于跨語言統一詞表示的漢越神經機器翻譯方法

2025-07-01 00:00:00杜適航余正濤文永華高盛祥王曉聰
關鍵詞:詞匯語言模型

中圖分類號:TP391.2;H085.3文獻標識碼:A文章編號:2096-3998(2025)03-0061-09

越南作為“一帶一路”倡議中的重要國家之一,同我國在工業、經濟和文化領域的交流愈發頻繁,因此利用機器翻譯技術解決兩國間旺盛的溝通交流需求,以促進兩國各領域間的合作至關重要。基于神經網絡的機器翻譯方法(neural machine translation,NMT)被證明[1-2」是一種有效的方法,已經成為當前機器翻譯領域的主流方法。但NMT屬于一種數據驅動的方法,其翻譯結果的優劣取決于大規模數據集的多少,這導致其在低資源語言對上的性能較高資源語言對的性能相差較多。然而,漢越機器翻譯是一項典型的低資源任務,平行語料庫有限,語言表示差異大,從而導致漢越神經機器翻譯的質量不佳。

針對 NMT應用在低資源語言應用中性能較差的問題,Zoph等[3]提出了使用遷移學習(transferlearning,TL)的方法。該方法基于父子框架,利用高資源語言對,將高資源的NMT模型(即父母)的知識轉移到低資源的NMT模型(即孩子),從而提升低資源場景下的NMT性能,這項工作也開啟TL在機器翻譯領域的大規模應用的階段。因此,利用遷移學習方法提升漢越神經機器翻譯的質量是一種有效的方法。

越南語屬于南亞語系,與漢語相同,都是孤立語言,但其由拉丁字母、表音文字以及標點符號等組成[4]。越南語具有以下主要特點:(1)由一個或多個詞素構成;(2)修飾語位于被修飾詞之后;(3)由于受多元文化的影響,中國文化是影響其文化之一,越南語在書寫和表達方式上展現出復雜性與多樣性。

基于父子框架的遷移學習期望學習更多與語義無關的知識,并被子模型正確的理解和利用,從而提升子模型的性能。然而當從英語到越南語語言對這樣同屬拉丁語書寫體系的高資源語言對遷移到漢語到越南語這樣書寫體系不同的低資源語言對時,子模型語種間的差異會導致詞表不匹配的問題,進而影響父模型的知識被子模型充分學習和利用。因此,針對該問題,如何在基于遷移學習策略訓練的子模型中減少詞表不匹配問題帶來的影響,進而更有效地利用父模型的知識,依然是遷移學習中一個具有挑戰性的問題。

統一詞表示可被用于解決由于書寫體系不同而導致的詞匯不匹配問題,這種方法通過使用一種統一的符號來表示兩種語言中的相應字或詞。而跨語言詞表示即是在兩個語種之間引入第三種語言的語言符號,該符號被視為語義對等唯一符號,用以取代兩種語言的語言符號。但引入第三種語言的符號會產生參數間相互干擾的問題,導致模型無法學習到真正目標語言的正確表征。

遠距離語言是指擁有不同書寫符號體系,且語言中詞的語法和語義差別較大的兩種語言,它們詞與詞之間的語義表示往往相差較大。當子模型語言對屬于書寫體系不同的遠距離語言,而父模型語言對為書寫體系相同的語言對時,遠距離語言帶來的詞表不匹配問題的加重,會使得遷移學習中父模型的知識不能完全被子模型利用,進而使得遷移學習的有效性下降。進一步講,針對漢越神經機器翻譯任務,父模型的語言對通常為英語-越南語,兩種語言均基于羅馬字母的書寫體系,羅馬字母是最小組成單位。而子模型的語言對為漢語-越南語,其中漢語是基于漢字的書寫體系,漢字是最小組成單位。

漢越神經機器翻譯是一項典型的低資源神經機器翻譯任務,其訓練語料稀缺,但是英越語言對的平行語料卻大量存在,因此適用于使用遷移學習方法。雖然在遷移學習過程中,子模型的漢越語言對存在的差異導致詞表不匹配問題會影響遷移學習的性能,但在父模型遷移的知識中已經包含了英語的語言分布知識。因此,利用英語作為中間語言,以幫助子模型更有效地利用父模型傳遞的知識,并提高子模型的性能,是一種可行的策略。

基于上述,本文提出一種基于跨語言統一詞表示的機器翻譯方法。本文的方法建立在擁有高質量雙語詞典的基礎上,如供外語專業工作者使用的雙語詞典(下稱\"專業雙語詞典”)。首先,利用越南語-漢語(下稱\"越漢”)專業雙語詞典構建一個跨語言統一詞表示詞表,以將越南語、漢語和父模型的源語言——英語都統一在內,該詞表包含一定數量的漢語和越南語以及英語和越南語的詞義對應關系。其次,根據跨語言統一詞表示詞表替換越南語中對應的詞,以構建統一詞表示化數據,并將漢語數據與統一詞表示化數據構成雙語平行句對,以此作為子模型的訓練數據,輸入模型進行訓練。最后,為減少引入第三種語言符號而產生的參數間相互干擾問題,在子模型訓練過程中加入了目標語言特征約束,以確保模型可以學習到正確的越南語語言特征。

1 相關工作

2016年,Zoph等[3]首次在NMT領域提出使用遷移學習方法提升機器翻譯在低資源語言對上的性能,即先在高資源語言上訓練父模型,然后使用父模型的參數來初始化低資源語言的子模型,最后繼續在低資源語言上訓練子模型。這種方法被視為遷移學習在機器翻譯中的首次應用,后來的研究[5]證明了這種方法在知識從高資源語言傳遞到低資源語言中的有效性,顯示出其在NMT中的強大性能。黃繼豪等[]提出了一種改進的漢越神經機器翻譯遷移學習方法,通過使用訓練好的漢語端編碼器和越南語端解碼器,對漢越翻譯模型的編碼器和解碼器參數分別進行初始化,從而優化遷移學習在漢越神經機器翻譯中的應用。

雖然遷移學習在NMT中展示了巨大的潛力,但Aji等[1]指出,若想有效地轉移嵌入層的知識,父模型和子模型需要使用相同或部分重疊的詞匯表。為此,Lakew 等[12]提出了一種方法,即對齊相同的子詞匯或隨機分配未見的子詞匯來合并詞匯表。然而以上方法,在相同文字系統的語言之間遷移時表現良好,但在不同文字系統,或擁有不同文明的遠距離語言之間,效果卻不盡如人意。這為遷移學習在低資源領域的應用帶來了額外的挑戰。Amrhein等[13]提出,盡管羅馬化工具可能會導致信息損失,但它能夠顯著改善遠距離語言間的遷移效果。

遷移學習方法的提出,體現了在機器翻譯領域對于提高低資源語言對的翻譯質量的不斷追求。但當子模型語言對屬于書寫體系不同的遠距離語言,而父模型語言對為書寫體系相同的語言對時,遠距離語言帶來的詞表不匹配問題的加重,會使得遷移學習的有效性下降。因此,如何提高子模型的詞表匹配程度,以提高遷移學習的性能,依然是一個具有挑戰性的問題。

2基于跨語言統一詞表示的漢越神經機器翻譯模型

2.1 建立漢越神經機器翻譯模型

在遷移學習框架中,當子模型的語言對為遠距離語言對時,詞表不匹配的現象尤為顯著,導致詞表重疊度低。這種情況限制了子模型有效利用父模型知識進行遷移的能力。以往的工作在解決詞表不匹配問題時,主要考慮從現有語料中抽取詞表,并在此基礎上提出解決方法。然而在專業雙語詞典中,往往蘊含著數量眾多的雙語對齊關系,這對于緩解遠距離語言間詞表不匹配問題非常有效。本文使用Transformer模型[14],并在遷移學習父子框架下進行改進。首先,本文在英語-越南語(下稱\"英越”)對上訓練父模型,然后使用父模型參數初始化漢語-越南語(下稱“漢越”)語言對的子模型。

當子模型語言對屬于遠距離語言,而父模型語言對來自書寫體系相同的語言時,子模型的詞表匹配度較低,可能會導致遷移學習性能下降。然而,使用父模型參數初始化子模型時,父模型中已經包含了英語的語言分布知識。因此,本文選擇將父模型的源語言——英語,作為構建跨語言統一詞表示時的額外語言。

本文在子模型的訓練階段提出一種改進的模型——基于跨語言統一詞表示的漢越神經機器翻譯模型。具體來講,本文首先基于越漢專業雙語詞典,構建跨語言統一詞表示詞表。其次,本文將詞表融入到越南語中,對越南語數據在編碼前進行預處理,構成類似語碼轉換(code switching,CSW)形式的句子。從機器翻譯的角度來看,CSW形式的句子從某種程度上被認為是一種全新的語言,該語言介于源語言與目標語言之間。在訓練過程中,將該語言作為子模型的目標語言,與雙語對齊的漢語一起作為 Trans-former模型的輸人,并以該表現形式的語言作為模型的輸出。最后,將模型輸出的CSW形式的結果進行額外的去統一化的操作,將模型輸出的翻譯結果轉化為越南語形式的翻譯結果。

本文提出的翻譯方法模型如圖1所示。主要包括三個部分:構建跨語言統一詞表示詞表、構建統一詞表示化數據、基于父子表征一致性的約束方法。其中,圖1左側的虛線框模塊負責利用跨語言統一詞表示詞表生成統一詞表示化數據,并獲取用于訓練子模型的偽平行數據;其余部分則為基于父子表征一致性的約束方法模塊。此外,本文還引人了一個還原統一詞表示化數據模塊,該模塊用于對譯后結果進行處理,因此未在圖1中呈現。

圖1基于跨語言統一詞表示的漢越神經機器翻譯方法模型圖

2.2構建跨語言統一詞表示詞表

專業雙語詞典多以紙質出版,電子詞典資源在以往是非常難以獲取的,因此在以往的工作中[15],一部分工作者利用統計機器翻譯方法,從語料中抽取詞表,并在此基礎上提出自己的解決詞匯不匹配問題的方法。但在全球各國交往愈加頻繁的情況下,近年來,電子專業雙語詞典的數量越來越多,覆蓋的語種越來越廣,這使得基于專業雙語詞典進行遷移學習成為可能。

相較于從語料中抽取詞表的方法,專業雙語詞典的使用可以提供更加準確的詞匯間對應關系。從語料中抽取詞雖然能夠快速生成詞表,但其質量往往受限于語料的使用領域和規模,導致翻譯的準確性和一致性難以保證。相反,專業雙語詞典由語言專家精心編制,經過嚴格審核,具備高準確性和可靠性,能夠提供更精準、穩固的詞匯對應關系。

越漢專業雙語詞典以及大部分的專業雙語詞典均是按照詞條展示某個詞對應的翻譯,包含兩種常見的語言現象,即一對一詞匯和一對多詞匯。本文在構建跨語言統一詞表示詞表的過程中,對越漢專業雙語詞典進行遍歷,當得到一對一詞匯對時,將其直接保存在跨語言統一詞表示詞表;當得到一對多詞匯對時,將該詞匯對中的越南語翻譯為英文構建越英詞匯對,并保存在語言統一詞表示詞表中。具體的構建流程如圖2所示。

圖2跨語言統一詞表示詞表構建流程圖

本文針對兩種語言現象,按照不同的方式進行處理。本節將分別闡釋兩種語言現象各自采用的處理方式的動機。

(1)一對一詞匯。一對一詞匯是在專業雙語字典中存在的對齊較好的詞級對應關系,需要保留這樣的已有對應關系。因此,本文在構建跨語言統一詞表示時,直接使用一對一詞匯的對應關系作為跨語言統一詞表示詞表的一部分。

(2)一對多詞匯。詞匯間的一對多關系是十分常見現象,同時,這種歧義的現象也是詞表不匹配的一種具體表現。本文使用目前已有的高性能模型將一對多詞匯的源語言翻譯為英語,即將越南語翻譯為英語。并使用越南語到英語的詞匯對應關系作為跨語言統一詞表示詞表的一部分。

在遷移學習的父子框架中,父模型的源語言是區別與子模型源語言的語種,而使用父模型參數初始化子模型時,父模型中已經包含的英語語言分布的知識已經被傳遞到子模型中。此外,目前性能較好的機器翻譯模型多在 X?Eng 或 語言對上。因此,本文在處理一對多詞匯時,選擇英語作為越南語語種的對應語種,并使用已有的高性能模型,將其翻譯為英語,構成越南語到英語的一對一形式的雙語對應關系。

綜上所述,將處理后的兩種類型的詞匯的雙語對齊關系合并,組成最終同時含有漢語、英語和越南語三種語言的跨語言統一詞表示詞表。該詞表展示了越南語到統一詞表示符號體系的映射關系。運用本文提出的方法,根據越漢專業雙語詞典所構建的一個漢越跨語言統一詞表示示例見表1,最終構建的漢越跨語言統一詞表示詞表由“越南語詞匯”列及“跨語言統一詞表示”列共同構成。

2.3構建統一詞表示化數據

為了將跨語言統一詞表示詞表融人到NMT模型中,并讓模型能學習到詞表中的對應關系。受到在社交媒體中廣泛出現的CSW格式數據的啟發,本文采用替換的方式,根據詞表中的對應關系對子模型目標語言句子重構為類似CSW格式的數據,在保證與源語言對齊的情況下,將統一詞表示詞表融人到子模型的訓練數據中,使得NMT模型可以學習到詞表中的對應關系。

表1跨語言統一詞表示示例

雖然原句在按照統一詞表示化詞表映射關系進行替換后,替換后的句子理論上應該僅由漢語和英語構成。但由于語言中存在的歧義現象以及詞表的有限性,經過替換得到的統一詞表示化句子實際上依然會含有越南語符號未被完全替換。因此,本文得到的最終統一詞表示化句子在語言符號的組成形式上,同時包含越南語、漢語和英語三種語言符號。本文構建的統一詞表示化句子的示例見表2。

表2統一詞表示化數據示例

廣泛存在于社交媒體中CSW形式數據通常呈現口語化特點,因此其在用詞上存在一定的不確定性。反映在句子中,則會表現出同一詞匯可能在不同的句子,有時使用其他語種符號代替,有時則直接使用原詞匯。即CSW形式數據允許同一詞匯在不同語言間切換。與常規的CSW形式數據不同,本文構建的統一詞表示化數據在形式上雖然接近于CSW形式數據,但在構建過程中,本文是將原句子中所有相同的單詞統一替換為統一詞表示詞表中對應的符號,并將替換后的句子視為與原句完全等價的句子。例如,英語單詞“apple”。在CSW形式數據中,該詞可能在多個句子組成的語料庫中同時出現詞匯“apple”和“蘋果”。然而,采用本文提出的統一詞表示方法時,所有的詞匯“apple\"將被統一替換為詞匯“蘋果”。因此,在多個句子組成的語料庫中將僅出現詞匯“蘋果”,而不再出現詞匯“apple”。換句話說,在該語料庫的詞表中,已不再包含“apple”這一詞匯。這也是本文統一詞表示方法的進一步體現。

2.4基于父子表征一致性的約束方法

由于子模型的目標語言被替換為包含三種語言的統一詞表示化數據,僅依靠傳統遷移學習框架中使用父模型網絡參數初始化子模型的做法,可能會導致子模型在面對多種語言分布時難以判斷學習的方向。在這種情況下,參數間可能產生相互干擾,導致負遷移現象的產生,進而影響子模型的性能表現。Liu Shudong等[1]在傳統遷移學習父子框架的基礎上,提出對父子模型的表征施加強約束,以達到利用父模型在子模型訓練階段指導子模型的目的。受他們工作的啟發,本文在他們工作的基礎上進行了改進,以解決參數干擾的問題。本節將分兩部分,分別介紹本文提出的模型。

(1)構建偽父數據。對于此部分,本文沿用Liu Shudong等[16]提出的方法。對于子模型數據的每個句子對 (xc,yc)∈(Xc,Yc) ,使用經過充分訓練的父模型將子模型的越南語句子 yc 回譯為對應的英語句子 ,并獲得偽父數據

(2)基于父子表征一致性的約束方法。相對于Liu Shudong等[16]提出的方法,本文在此部分進行了改進。本文利用子模型目標語言進行統一詞表示替換前的原始句子及其對應的偽父數據約束子模型,以使子模型在訓練過程中能夠學習到正確的越南語語言表征。具體來說,對于偽父數據的每個句子對 ,父模型為每個統一詞表示替換前的原始句子的標記 ytc 生成特征標簽

而子模型也為對應的統一詞表示化數據的標記生成特征標簽 fθc 。之后,本文使用均方誤差(mean-square,MSE)損失計算父模型和子模型輸出的兩個特征標簽的歐氏距離的平方:

其中, θρ 和 θc 分別代表父模型和子模型的參數。

最終子模型的損失是交叉熵(cross entropy,CE)損失和均方誤差損失的線性組合,并帶有超參數 α

L=LCE+αLMSE°

2.5 還原統一詞表示化數據

對于使用統一詞表示化數據構成的子模型訓練集,模型的輸出結果也是統一詞表示化格式的句子,這與我們最初的翻譯任務目標不符。因此,需要將模型的翻譯結果還原為純目標語言的形式,以獲取準確的最終翻譯結果。然而,由于在構建統一詞表示詞表時存在信息丟失,如果僅通過統一詞表示詞表進行逆向操作,可能會導致翻譯結果單一或不準確。

為了解決這個問題,本文在訓練結束后,使用一個額外的反統一化的步驟。這一步通過使用 Trans-former base模型,將前面構建的統一詞表示化數據及其原始數據作為模的輸入,通過訓練NMT模型,使模型學習到將統一詞表示化數據還原為目標語言數據的映射關系。通過引人一個額外的NMT模型,將本文提出的翻譯模型的輸出還原為目標語言形式的句子,即越南語形式句子。

3 實驗與結果分析

3.1 數據集

本文使用深藍電子詞典的越南語-漢語詞典,經過篩選電子數據中的有效數據,共提取有效詞條88960條,其中一對一詞條58403條,一對多詞條30557條。

本文使用 CCMatrix[17]數據集(htps://opus.nlpl.eu/legacy/CCMatrix.php),該數據集包含90 種語言的雙語語料,利用網絡爬蟲技術從互聯網中抓取大量數據,并使用文本挖掘技術從數據中抽取高質量平行句對構成數據集。本文使用了該數據集中約5000萬句對的英越數據集,以及約800萬句對漢越數據集。經過清洗、過濾和篩選,最終保留了400萬句對的高質量英越語料,其中包含0.3萬句的測試語料和0.3萬句的驗證語料;漢越語料的選擇也以同樣的標準提取了20萬句對高質量語料,其中0.3萬句為測試語料,0.3萬句為驗證語料。

3.2 實驗配置

本文采用Fairseq工具包來實現模型,版本為0.12.0。本文選取具有6層編碼器和解碼器的 Trans-former模型為機器翻譯實驗的基礎架構。具體參數設置:詞嵌人向量維度和隱藏層維度均為512,學習率設置為 9×10-5 , α 設為0.01;使用Adam作為優化器,優化器設為 β1=0.9,β2=0.98 ,為防止模型過擬合,標簽平滑值為0.1;解碼過程使用約束搜索算法,搜索寬度設置為5;使用BLEU作為評價指標。父模型的Dropout 值為0.1,訓練了150個epoch;所有子模型的 Dropout值為0.3,均訓練了150個epoch。其他參數設置沿用Liu Shudong 等[16]的設置,整個訓練過程在一張英偉達RTX 3090 上進行。

此外,在訓練過程中,文本采用Aji 等[1]提出的嵌人初始化方式—“標記匹配(token matching,TM)”對子模型的嵌入層進行初始化。

3.3 實驗結果與結果分析

為了驗證提出的融人跨語言統一詞表示模型的有效性,本文進行了以下實驗。首先,在不使用遷移學習策略的情況下,使用子模型語言對雙語數據在基礎的Transformer模型上訓練NMT模型。其次,使用父模型和子模型語言對雙語數據在KNN-TL模型以及TM-TL模型上訓練基于遷移學習策略的NMT模型,并將基礎 Transformer模型、KNN-TL模型和TM-TL模型共同作為基線模型進行對比。同時,本文還與黃繼豪等[10]的TLNMT-TL模型的結果進行對比。最后,基于本文提出的模型,使用父模型和子模型語言對雙語數據訓練遷移學習模型,并在訓練過程中,分別使用采取不同分詞策略的子模型訓練數據。具體實驗結果見表3。

表3實驗結果
注:目標語言分詞策略指子模型目標語言段的分詞策略,ori代表統一詞表示化前的原始數據

根據表3的實驗結果,KNN-TL模型相比基礎Transformer模型在漢越翻譯方向上獲得了7.5的BLEU值提升,這再次證明了遷移學習父子框架的有效性。在遷移學習父子框架下,本文提出的模型在使用恰當的分詞方法下,有兩種方法都獲得比同樣基于遷移學習父子框架訓練的KNN-TL模型顯著的改進效果,證明了融入跨語言統一詞表示模型的有效性。本文提出的模型在“統一詞表示化數據使用mbert分詞,越南語數據使用bpe分詞”的情況和“統一詞表示化數據和越南語數據都使用mbert分詞”的情況下,相較于基線模型分別獲得了1.35和2.53的BLEU值提升。

但本文提出的方法在“統一詞表示化數據和越南語數據都使用bpe分詞”的情況下,分數相較于基線KNN-TL模型的性能下降明顯,甚至比不使用遷移學習父子框架的基礎 Transformer 模型在漢越翻譯方向上的性能低10.18個BLEU值。這是由于本文中選擇的子模型語言對中含有漢語,而bpe分詞策略并不能很好地對漢語進行分詞操作,其根據統一詞表示化數據訓練出的詞表中也不包含漢語,從而導致了更嚴重的信息損失,阻礙了遷移的過程。究其本質,統一詞表示化數據在本質上并不是一種與現有語言毫無關系的語言,它依然受到構成其句子的語種符號的限制。雖然本文提出的基于跨語言統一詞表示的NMT模型經過實驗驗證是有效的,若在使用不根據實際語種信息選擇恰當的分詞策略,則會導致模型基本失效。

此外,在表3的實驗結果中,本文提出的模型在“統一詞表示化數據和越南語數據都使用mbert 分詞\"的情況下的BLEU值比在“統一詞表示化數據使用mbert分詞,而統一詞表示化的原始數據,即約束數據使用bpe分詞”的情況下的BLEU值高1.18。針對這一現象,本文認為造成這一現象的原因在于bpe分詞策略和mbert分詞策略的編碼結果不同,這相當于人為造成的兩種書寫體系不同的語言。若使用bpe分詞后的目標語言原句子約束使用mbert分詞后的統一詞表示化的句子,這種書寫體系的不同會增加模型學習的負擔,使得模型需要學習更多的知識以獲得這兩種表征之間的關系。相比之下,使用mbert分詞后的目標語言原句子約束使用mbert分詞后的統一詞表示化的句子,兩句子的表征形式更加接近,模型更易學習到越南語句子的特征信息。

本文在確定超參數 ∝ 時,在 0.1,0.05,0.01,0.001 幾個值上進行了實驗,通過觀察訓練過程中模型損失值的變化及模型性能等數據,最后將 α 數值設置為0.01。

本文在將統一詞表示詞表整合到越南語數據中,構建統一詞表示化數據時,采用了替換操作。接下來,本文將探索在一對一詞表和一對多詞表上使用不同的替換策略對模型性能的影響。其中一對一詞表為保留的越南語-漢語的詞對應關系,一對多詞表為越南語-英語的次對應關系。通過控制替換操作的次數和替換操作使用的詞表數量,本文對不同替換策略進行了測試。實驗結果見表4。

表4不同替換方式構建統一詞表示化數據對比實驗

表4結果顯示,當替換策略為“不區分一對多或是一對一詞表”時,本文提出的模型達到了最好的模型效果。而當替換策略為表中其他三種策略時,模型性能都未超過“不區分一對多或是一對詞表”時的模型性能。此外,當替換策略為“僅在一對一詞表”時,模型的得分與最高得分接近,且相比“同時在兩個詞表”和\"僅在一對多詞表”策略上的分數均提高超過1個BLEU值。這表明,在構建統一詞表示化數據時,數據的多樣性能為模型提供更多的信息,且在測試時的魯棒性更強

本文的實驗模型作為漢越NMT模型,當模型僅接受英越詞表的知識時,由于缺少漢越的相關知識,模型的得分相對不高。其次,在“同時在兩個詞表”策略下,即強制模型的所有訓練數據都必須是同時包括漢語、英語和越南語的數據,則模型因缺少對于僅由漢越詞匯構成的句子的相關知識,性能也不理想。最后,當模型僅接受由漢越詞匯構成的句子時,雖然這種句子形式符合模型的翻譯方向,得分高于前述兩種形式的數據,但強制將兩種遠距離語言融入同一個句子中,導致信息損失增加,進而導致模型的魯棒性較差,在性能上較“不區分詞表”策略稍差。

本文在實驗中采用Aji等[1]提出的嵌入初始化方式TM-TL方法,即使用父模型的嵌入層初始化子模型的嵌人層進行遷移學習相比,本文所提出的模型在目標端引人額外的數據對模型的學習訓練過程進行約束。為了探究額外的約束數據的種類對于模型效果的影響,本文通過使用不同種類的約束句子對模型的最后效果進行了測試,其中TM-TL是本文模型去除改進部分后的部分,即一個基礎的遷移學習訓練框架。實驗結果見表5。

根據表5的實驗結果顯示,與不使用額外約束數據的TM-TL方法相比,本文引入額外數據后的模型效果BLEU值分別提升了3.7和4.21。在引入統一詞表示化數據作為約束數據時,由于沒有真正的目標語言形式的句子對模型進行約束,導致模型的性能較引入統一詞表示化數據的原始數據的模型性能,BLEU值略微下降0.51。綜合實驗結果可得出結論,本文所提出的模型在目標端引入額外的數據對模型的學習訓練過程進行約束的學習策略是合理且有效的。

表5約束數據種類對模型效果的影響
注:ori代表統一詞表示化前的原始數據

4結論

針對遷移學習難以有效應用到語言差異性大、資源不充分的語言對間的翻譯問題。本文提出了一種基于跨語言統一詞表示漢越神經機器翻譯方法。

首先,通過使用漢越專業雙語詞典構建統一詞表示詞表,并形成統一詞表示化數據。其次,使用統一詞表示化數據與漢語句子數據共同構成雙語平行數據。最后,利用原始越南語句子的特征對訓練過程進行約束。實驗結果表明,本文提出的模型,顯著提升了漢越神經機器翻譯的質量,相比于基線模型提升了2.53個BLEU值。未來工作中,我們還將探索應對雙向專業雙語詞典中存在的多對多語言現象的統一詞表示方法,并將其應用到低資源NMT模型中,以進一步提升翻譯性能。

[參考文獻]

[1] ZHUANG Xuhui,GAO Shengxiang,YU Zhengtao,etal.Low resource neural machine translation model optimizationbased onsemanticconfidence weightedalignment[J].IntemationalJournalof Machine LeamingandCybernetics,2O24,154325- 4340.

[2] HADDOW B,BAWDEN R,BARONE A VM,et al.Survey of low-resource machine translation[J]. Computational Linguistics,2022,48(3) :673-732.

[3] ZOPHB,KNIGHTK.Multi-sourceneural translation[C]//Proceedings ofthe15thAnnual ConferenceoftheNorthAmerican Chapter of the Association for Computational Linguistics,2O16:30-34.

[4] 郭劍毅,趙晨,劉艷超,等.融合語言特性的越南語兼類詞消歧[J].數據采集與處理,2019,34(4):577-584.

[5] LI Zhaocong,LIU Xuebo,WONGDF,etal.ConsistTL;Modeling ConsistencyinTransfer Learning forLow-Resource Neural Machine Translation[C]//Proceedings of the 2O22 Conferenceon Empirical Methods in Natural Language Processing, 2022:8383-8394.

[6]GAO Yuan,HOU Feng,WANG Ruili.A Novel Two-stepFine-tuning Framework for Transfer Learning in Low-Resource Neural Machine Translation[C]//NAACL:Findingsof theAssociation for Computational Linguistics,2O24:3214-3224.

[7]CHANG Yupeng,WANG Xu,WANG Jindong,etal.A surveyon evaluation of large language models[J].ACM Transactionson Intelligent Systemsand Technology,2024,15(3) :1-39.

[8]谷雪鵬,張樂樂,郭軍軍,等.融合新冠領域知識的漢越神經機器翻譯方法[J].陜西理工大學學報(自然科學版), 2023,39(4) :26-34.

[9]HUJONA V,SINGHTD,AMITABK.Transfer learning based neural machine translation ofenglish-khasi onlow-resource settings[J].Procedia Computer Science,2023,218:1-8.

[10] 黃繼豪,余正濤,于志強,等.基于遷移學習的漢越神經機器翻譯[J].廈門大學學報(自然科學版),2021,60(1): 104-108.

[11] AJI AF,BOGOYCHEY N,HEAFIELD K,etal.In neural machine translation,what does transfer learning transfer? [C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics,2020.

[12]LAKEW SM,EROFEEVAA,NEGRI M,et al.Transfer Learning in Multilingual Neural Machine Translation with Dynamic Vocabulary[C]//Proceedingsof the15th International Conference on Spoken Language Translation,2O18:54-61.

[13]AMRHEIN C,SENNRICHR.On Romanization for Model Transfer Betwen Scripts in Neural Machine Translation[C]// Proceedingsof the2O20 ConferenceonEmpirical Methods inNaturalLanguageProcessing:Findings,2O20:2461-2469.

[14] VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems,2017:6O00-6010.

[15]RANATHUNGA S,LEE ES A,PRIFTI S M,et al.Neural machine translation for low-resource languages:A survey[J]. ACM Computing Surveys,2023,55(11) :1-37.

[16] LIU Shudong,LIU Xuebo,WONG DF,etal.kNN-TL:k-nearest-neighbortransferlearning for low-resourceneuralmachine translation[C]//Proceedingsof the61stAnnual Metingof theAsociationforComputational Linguistics,2023: 1878-1891.

[17]SCHWENK H,WENZEK G,EDUNOV S,et al. CCMatrix:Mining Bilions of High-Quality Paralel Sentences on the Web [C]//Proceedingsof the59thAnnualMetingof theAssciationforComputationalLinguisticsandthe11thInternational Joint Conference on Natural Language Processing,2021 :6490-6500.

[責任編輯:謝平]

Abstract:For translation between languages like Chinese and Vietnamese,which have significant linguistic diferencesand distinct writing systems,conventional transfer learning is hard to deliver the expected outcomes. The study proposes a neural machine translation method based on cros-lingual unified word representation.First,the method constructs acros-lingual unified word representation vocabulary using a specialized Vietnamese-Chinese bilingual dictionary.Then,thisvocabulary is used to replace words in Vietnamese sentences,generating data withunified word representations,thereby obtaining training data that integrates cross-lingual unified word representations.Finally,during the training of the submodel, Vietnamese sentence feature constraints are incorporated to ensure that the model accurately learns the linguistic features of Vietnamese.Experimental results indicate that this method can significantly enhance the qualityof Chinese-Vietnamese neural machine translation,with a gain of up to 2.53 BLEU points compared to the baseline model. The study proposes a transfer learning method based on cross-lingual unified word representation as an improved transfer strategy,which demonstrates significant efectiveness in improving the performance of ChineseVietnamese neural machine translation.

Key words:Chinese-Vietnamese neural machine translation; transfer learning;distant languages; cross-lingual unified word representation;vocabulary mismatch

猜你喜歡
詞匯語言模型
一半模型
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
本刊可直接用縮寫的常用詞匯
讓語言描寫搖曳多姿
累積動態分析下的同聲傳譯語言壓縮
3D打印中的模型分割與打包
主站蜘蛛池模板: 成人毛片免费在线观看| 蜜臀AVWWW国产天堂| 51国产偷自视频区视频手机观看| 国产九九精品视频| 亚洲无码精品在线播放| 999在线免费视频| 性激烈欧美三级在线播放| 中文字幕色在线| 久久国产免费观看| 99视频在线观看免费| 久久午夜夜伦鲁鲁片无码免费| 在线a视频免费观看| 久久精品一卡日本电影| 亚洲免费黄色网| 欧美一区二区人人喊爽| 久久黄色视频影| 欧美一级黄片一区2区| 国产成人精品优优av| 国内熟女少妇一线天| 亚洲狼网站狼狼鲁亚洲下载| 国产精品 欧美激情 在线播放| 一级黄色网站在线免费看| 天天干天天色综合网| 免费看一级毛片波多结衣| 亚洲大尺码专区影院| 99久久精品国产自免费| 精品无码视频在线观看| 国产91特黄特色A级毛片| 国产精品免费电影| 国产欧美专区在线观看| 免费在线成人网| 国产精品福利尤物youwu| 欧美一级黄色影院| 青草娱乐极品免费视频| 9966国产精品视频| 毛片在线区| 国产91透明丝袜美腿在线| 久久综合一个色综合网| 日韩A级毛片一区二区三区| 免费A级毛片无码无遮挡| 日韩在线网址| 久久亚洲高清国产| 污污网站在线观看| 国产黄色免费看| 99国产精品国产高清一区二区| 免费一极毛片| 一区二区三区国产| 亚洲日韩精品无码专区97| 欧美综合中文字幕久久| 婷婷99视频精品全部在线观看| 国产真实乱了在线播放| 国产一区二区三区在线观看视频| 亚洲精品在线91| 日本尹人综合香蕉在线观看 | 国产欧美亚洲精品第3页在线| 777国产精品永久免费观看| 国产精品无码一区二区桃花视频| 国内嫩模私拍精品视频| 青草精品视频| 超清无码一区二区三区| 欧美在线精品一区二区三区| 日韩欧美视频第一区在线观看| 国产在线观看一区二区三区| 日本久久久久久免费网络| 99ri精品视频在线观看播放| 日本在线欧美在线| 亚洲成网777777国产精品| 欧美日本在线一区二区三区| 亚洲AV无码久久天堂| 亚洲精品无码抽插日韩| 久久青草精品一区二区三区 | 91热爆在线| 69视频国产| 国产精品粉嫩| 成人免费一级片| 国产微拍一区| 免费人成网站在线观看欧美| 伊人久久大香线蕉影院| 国产人人射| 欧美成人区| 就去吻亚洲精品国产欧美| 中字无码av在线电影|