999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于回譯和比例抽取孿生網絡篩選的漢越平行語料擴充方法*

2022-10-28 01:22:08王可超郭軍軍張亞飛高盛祥余正濤
計算機工程與科學 2022年10期
關鍵詞:方法模型

王可超,郭軍軍,2,張亞飛,2,高盛祥,2,余正濤,2

(1.昆明理工大學信息工程與自動化學院,云南 昆明 650500;2.昆明理工大學云南省人工智能重點實驗室,云南 昆明 650500)

1 引言

神經機器翻譯NMT(Neural Machine Translation)[1,2]是自然語言處理領域的研究熱點。相較于已經取得極大進步的資源豐富型神經機器翻譯,低資源神經機器翻譯由于缺少高質量的雙語語料,效果并不理想。因此,如何高效地擴充語料規模,成為低資源神經機器翻譯研究中亟需解決的問題。針對此問題,研究人員提出了多種數據增強方法,通過有限的語料資源擴充雙語語料規模。早期的工作主要利用人工的方式進行語料擴充,但效率較低。近年來,隨著深度學習技術的發展,利用深度學習方法來擴充雙語語料成為有效途徑。基于深度學習的數據增強方法主要分為生成式和抽取式。生成式數據增強方法包括:回譯(back-translation),將目標端的單語語料通過反向翻譯模型擴充為偽平行雙語語料;詞或單元的替換,通過各種手段替換句子中部分單元(詞或短語)來擴充語料;加入樞軸語言,充分利用源-樞軸-目標語言間豐富的對齊語料來提升源-目標語言對的機器翻譯性能。抽取式數據增強方法主要通過計算跨語言語義相似度,從可比語料(篇章對齊)中抽出偽平行語料。通過這幾種方法,可以大規模擴充雙語語料庫的規模。

漢語-越南語作為典型的低資源語言對,其平行語料獲取難度很大。傳統的回譯方法中,首先基于小規模平行語料訓練基礎翻譯模型,在此基礎上將越南語翻譯為對應的漢語句子、組合成新語料再次投入訓練。但是,由于用于訓練基礎翻譯模型的平行語料規模和質量欠佳,造成基礎翻譯模型訓練并不充分,若只是直接在該模型上通過回譯方法進行語料擴充,得到的偽平行語料會含有過多的噪聲,如表1所示。

Table 1 Comparison between back-translation generated translation and standard translation

表1中通過回譯得到的漢語譯文偏離了原句的意思,且有明顯的語義邏輯錯誤,若要構建用于訓練機器翻譯模型的雙語語料庫,必須要過濾掉這種句對。本文將回譯和偽平行句對抽取的方法相結合,通過計算跨語言句對間的語義相似度,對生成的語料進行篩選,以獲得高質量雙語語料。具體來說,本文首先利用回譯的方法,將大規模的單語語料擴充為偽平行語料;然后結合回譯數據的特點,對傳統基于雙向長短時記憶Bi-LSTM(Bidirectional Long Short-Term Memory)孿生網絡的句對抽取模型進行了改進,改進后的模型將平行語料和偽平行語料混合后對模型進行訓練,使模型能更好地分辨平行句與偽平行句,從而抽取出質量更高的偽平行句,以構建用于漢越神經機器翻譯的語料庫。

2 相關工作

神經機器翻譯是目前機器翻譯領域內最熱門的研究方法,在資源充足的語言對翻譯上,神經機器翻譯的性能已經明顯超過了統計機器翻譯[3],但在低資源神經機器翻譯上,神經機器翻譯的效果還有待提升[4]。用來訓練低資源神經機器翻譯模型的平行語料相對較少,導致翻譯效果欠佳,因此如何獲取高質量的雙語語料,成為提高低資源神經機器翻譯的一種關鍵性技術。近年來,國內外相關研究人員針對低資源語種的偽平行語料擴充方法進行了廣泛研究,并取得了一系列成果。

目前應用最廣泛的語料擴充方法是回譯。它利用反向的翻譯模型,將目標端語言的數據翻譯成源端語言的數據,通過這一方法來構造偽平行雙語數據來訓練正向翻譯模型。回譯最早是由Sennrich[5]等提出的,文中提出了2種方式來比較回譯的性能。第1種方法在只有目標語言句子y的前提下,將源語言對應的句子設置為空,將句對(dummy,y)將其加入到平行語料中進行訓練,可以看成是翻譯模型和語言模型多任務訓練;第2種方式為回譯,用訓練好的目標語言到源語言的翻譯模型翻譯目標語言句子y,得到偽平行句對(x′,y),將其加入到平行句對中一起訓練。因為y是高質量的單語語句,而x′中可能包含一些〈UNK〉字符或者錯誤的句法等,其質量較差。這樣訓練可以想象成去噪聲形式的訓練。在有噪聲的情況下,訓練x(源語言)→y(目標語言)方向的翻譯模型盡量還能翻譯好,以此提升泛化性能。回譯已經有了越來越多的擴展方法。He等[6]提出了對偶學習的方法,將回譯擴展為在2個翻譯方向上訓練NMT系統,利用源語言與目標語言的單語數據來同時提升2個方向的翻譯模型;Hoang等[7]提出了迭代回譯的思想,通過使用回譯的數據構建更好的翻譯模型,再使用這個更好的翻譯模型對數據進行回譯,重復此過程以達到迭代的效果。數據增強的方法還有詞或單元的替換。比如2017年Fadaee等[8]提出了一種增強語料的方法,首先在規模較大的單語語料上訓練出語言模型,然后用語言模型找到句子中可以被低頻詞替換的高頻詞的位置并完成替換。通過這種單詞替換,增加了訓練語料中低頻詞出現的次數,從而增強神經機器翻譯對低頻詞的理解能力。而蔡子龍等[9]將句子中最相似的單元進行位置上的對調,以此形成新的語料,改變的是語料中句子的結構信息而非語料中的詞頻信息。此外,Wei等[10]提出了隨機替換、隨機插入、隨機交換和隨機刪除的方法,為低資源神經機器翻譯的數據增強技術開拓了新的思路,也提升了低資源NMT的性能。還有一種增強方法是加入樞軸語言。此類方法通過引入大語種豐富的對齊語料作為樞軸語言來充分提升小語種神經機器翻譯的性能。Ren等[11]提出,在大語種之間的翻譯過程中將小語種作為中間隱變量引入,將該翻譯過程拆分為兩個經由小語種的翻譯過程,如X、Y為兩個大語種,它們之間有大量雙語數據,Z作為小語種,它和X、Y之間均只有少量雙語數據,為了提升X→Z和Y→Z的翻譯性能,可以用此方法來進行優化。

在抽取式語料擴充方法的研究中,Cristina等[12]研究了從NMT系統編碼器獲得的句子表示中檢測新的平行句對,通過比較余弦相似度來進行平行句和非平行句的區分。Grover等[13]提出了一種利用連續向量表示的方法,在使用Luong等[14]提出的雙語詞嵌入模型學習單詞表示后,再使用相似矩陣上的卷積神經網絡對一對句子是否對齊進行分類。而Grégoire等[15]使用單一端到端模型估計可比語料中2個句子平行的條件概率分布,取得了更好的效果。

對漢越語言對來說,回譯能夠快速而有效地擴充漢越平行語料規模,然而,單獨使用回譯方法生成的偽平行語料質量較差,在實際應用中難以用于下游任務,若直接用于訓練翻譯模型,可能會降低翻譯系統的性能[16]。針對此問題,本文結合回譯和平行句對抽取方法對數據進行擴充和清洗。之前工作中,由于大多數句對抽取方法是針對可比語料特點進行訓練的,所以本文在此基礎上結合回譯數據的特點對句對抽取方法進行了改進,使其可以對偽平行語料進行更有效的篩選。本文方法將偽平行語料與平行語料進行混合,用于訓練句對抽取模型,以提升模型抽取出的平行句對的比例,使其能夠分辨出平行句對與偽平行句對,進而從回譯生成的偽平行語料中篩選出高質量的偽平行句對。

3 基于回譯和比例抽取孿生網絡篩選的偽平行句對抽取方法

3.1 整體框架

本文方法首先利用回譯的基本思想,將大規模的越南語單語數據利用基礎翻譯模型翻譯得到漢越偽平行雙語數據。但是,由于漢越平行語料規模有限,訓練得到的基礎翻譯模型(翻譯方向:越→漢)性能一般,進而導致擴充的偽平行語料中部分句對質量不佳,無法更有效地推進后續工作。本文通過混合小規模平行語料和回譯生成的大規模偽平行語料,訓練一個基于比例抽取的Bi-LSTM孿生網絡,使得該網絡可以識別出混合語料中的平行句對。該句對抽取模型通過孿生網絡將漢越句對映射到同一語義空間下,計算句對之間的語義相似度,并按相似度得分從高到低排列句對,取出相似度高于設定閾值的句對。在訓練過程中,將平行句對和偽平行句對混合,并加標簽區分,通過最大化抽取出的平行句對與抽取前平行句對的比值來訓練模型,使得模型經過訓練后,可以精確地識別原始平行句對。具體而言,抽取的句對結果中,平行句對優先排序,緊接其后的為最接近平行句對的偽平行句對,最后為質量較差的偽平行句對。因此模型在具有識別原始平行句對能力的同時,也能從混合語料中抽取出高質量的偽平行句對,以達到對偽平行數據進行篩選的目的。整體的框架如圖1所示。其中,D′1指抽取出的原始平行句對,count(D′1)表示抽取出的原始行句對的數量;count(D1)表示總的原始平行句對的數量。

3.2 基于回譯的偽平行句對生成

3.3 基于比例抽取的Bi-LSTM孿生網絡平行句對抽取方法

基于回譯的方法將大規模的目標端單語數據擴充為偽平行數據后,還需要進行數據篩選的工作。本文使用一個基于比例抽取的Bi-LSTM孿生網絡來實現數據篩選任務。

Bi-LSTM通過學習句對之間的跨語言語義來估計它們互為翻譯的可能性。該句子抽取模型使用共享權值的孿生網絡[17],利用雙向LSTM[18,19]句子編碼器將句子在共享向量空間中進行連續的向量表示,然后源句和目標句的表示被輸入到一個帶Sigmoid輸出層的前饋神經網絡中,計算它們為平行句對的條件概率,將相似度高于設定閾值的句對抽取出來。

3.3.1 語句編碼

(1)

(2)

(3)

(4)

3.3.2 句對信息匹配

對源語句和目標語句進行編碼之后,通過使用它們的元素乘積和元素差異的絕對值來量化源語句和目標語句之間的匹配信息,得到匹配向量,如式(5)和式(6)所示:

(5)

(6)

通過將匹配向量饋送到具有Sigmoid輸出層的前饋神經網絡來估計句子平行的條件概率,如式(7)和式(8)所示:

(7)

p(yi=1|hi)=σ(vhi+b)

(8)

其中,σ(·)是Sigmoid函數,W(1)∈Rdf×dh,W(2)∈Rdf×dh,v∈Rdf,b1∈Rdf,b是模型參數,p(yi=1)表示第i個句對平行的概率,df是前饋神經網絡隱藏層的大小。通過最小化句對的交叉熵損失來訓練模型,如式(9)所示:

(1-yi)log(1-σ(vhi+b)))

(9)

如果句對的概率大于或等于決策閾值ρ,則將其分類為平行,否則為不平行,如式(10)所示:

(10)

其中n和m分別表示源泉語句和目標語句的個數。

將句子平行的條件概率作為句對之間的相似度,然后對該相似度進行從高到低排列,抽取出大于設定閾值的句對,用于訓練一個能抽取出較高質量偽平行句對的句對抽取模型。

3.3.3 基于比例的損失函數改進

傳統基于Bi-LSTM孿生網絡篩選偽平行句對的方法是在可比語料上實現的,而本文是對回譯生成的大規模偽平行語料進行篩選,所以本文方法在結合回譯語料的基礎上,對傳統基于Bi-LSTM孿生網絡方法做了一定的改進。

在模型訓練階段,本文方法不再用平行語料和隨機生成負例來訓練模型,而是將平行句對與偽平行句對按比例混合來訓練模型,目的是使模型更好地識別出原始平行句對,在抽取過程中盡可能多地將原始平行句對抽取出來,如式(11)所示:

(11)

通過最大化count(D′1)和count(D1)的比例,使得訓練后的模型可以從混合語料中精準地識別并抽取出原始平行句對。

為了使平行句對抽取比例對模型產生積極的影響,本文定義了另外一個損失函數,如式(12)所示:

(12)

最終的損失函數由L1和L2共同決定,如式(13)所示:

L=λL1+(1-λ)L2

(13)

其中,λ是超參數,通過人工設定,用于調節L1和L2的權重。

3.3.4 語料設置

將混合語料輸入到基于比例抽取的Bi-LSTM句對抽取模型中,訓練句對抽取模型,使模型能精準地分辨出平行句對和偽平行句對。

4 實驗與分析

4.1 實驗模型設置

翻譯模型:為了驗證本文方法的有效性,首先基于Transformer翻譯模型進行了在漢-越任務上的訓練,作為baseline翻譯模型。在語料方面,通過網絡爬蟲工具爬取漢越雙語語料,并經過初步的篩選,刪掉標點符號過多或無效字符的句子,并刪掉越南語中短于5個詞和長于50個詞的句子及其對應的漢語句子(因為句對過短或過長對于模型訓練的收益不大);然后使用jieba分詞工具對漢語句子進行分詞,經過人工的精準校對和篩選,得到了200 000平行句對。從中分別隨機抽取出2 000個句對作為baseline的驗證集和測試集,剩余的作為訓練集,初始的實驗數據具體如表3所示。

Table 2 Representation of sentence pairs after being labeled and mixed

Table 3 Experimental data of baseline model

本文使用清華大學的開源Transformer翻譯模型THUMT,在參數設置上,將batch size設置為512,train step設置為50 000,漢語詞表大小為41 000,越南語詞表大小為32 000,訓練過程中每2個周期更新一次模型的參數,每訓練2 000步,對模型進行一次評估,最后保存評估得分最高的3個中間模型,使用BLEU(本文統一使用BLEU4)作為評測指標。在漢→越和越→漢的2個翻譯方向上分別對模型進行了訓練,實驗結果如表4所示。

Table 4 Experimental results of the baseline model

通過網絡爬取大規模的越南語單語數據,并像之前設置一樣刪掉過短或過長的句子,選取其中的600 000單語句子。將訓練的越→漢的基礎翻譯模型用于回譯,將目標端越南語單語句子回譯生成源端漢語句子,最終構成規模為600 000的偽平行語料庫。

句對抽取模型:對之前初步校對過的200 000平行句對進行人工篩選,選出其中質量較高的50 000,從偽平行數據中選取200 000,將2部分混合作為句對抽取模型的訓練集。從平行數據的剩余部分中分別抽取1 000個句對作為驗證集和測試集。該實驗數據中,漢語詞表大小為50 000,越南語詞表大小為35 000。

為了評估所訓練模型的性能,本文使用精度P(Precision)、R召回率(Recall)和F1值作為評價指標。精度是指所有抽取出的句對中真實平行句對的比例,召回率是指被抽取出的真實平行句對占測試集中所有平行句對的比例,而F1值是精度和召回率的調和平均值。

Bi-LSTM中詞嵌入層的維度設為512,前饋神經網絡中的隱藏層有256個隱藏單元,訓練過程中的學習率設置為0.000 2,訓練5個epoch,train step為36 000,抽取的閾值設為0.98,λ設為0.7。模型的訓練結果如表5所示。

Table 5 Training results of the proposed model

4.2 實驗結果分析

Table 6 Experimental results of different methods on different datasets

通過上述實驗發現,僅通過將偽平行語料與平行語料混合來直接訓練翻譯模型,不但沒有提高模型的性能,反而會降低BLEU4值。這是由于用來訓練回譯基礎模型MY→X的漢越平行語料規模不足,導致用基于偽平行語料來直接訓練正向的漢越翻譯模型MX→Y時反而會引入更多的噪聲,從而降低翻譯模型的BLEU4值得分。通過基于傳統的Bi-LSTM孿生網絡方法對偽平行句對進行抽取后,可以有效篩選掉平行程度較低或含有過多噪聲的句對,對比傳統的抽取方法,本文提出的基于比例抽取的方法對翻譯模型性能有更明顯的提升,BLEU4值增加了1.14。

4.3 驗證實驗

本節對基于比例抽取Bi-LSTM孿生網絡方法有效性進行驗證。實驗中的平行語料為人工校對過的高度平行的50 000漢越平行語料,將回譯生成的400 000偽平行語料與這部分平行語料混合,并用標簽區分它們,在平行句對后加標簽“1”,偽平行句對后加標簽“0”。通過加標簽區分混合語料中的平行和偽平行句對,可以直觀地看到模型抽取出的平行句對數和偽平行句對數。將這個混合的語料庫作為句對抽取模型的輸入語料,通過改變模型抽取句對時的閾值,可以得到不同規模的偽平行語料。具體的實驗結果如圖2所示。

由圖2可知,當閾值設為0.95時,抽取出的混合語料的數量驟減到原來的一半,這說明偽平行語料中有大量含噪聲的句對。當逐步提升閾值時,被抽取出的句對數量也隨之減少,平行句對所占的比例也就越來越高,這也驗證了本文模型的有效性。

為了繼續驗證抽取出的句對對神經機器翻譯的影響,用上述通過不同閾值抽取出的句對分別對翻譯模型進行訓練,實驗結果如圖3所示。

通過對比不同閾值下抽取偽平行句對的結果可知,當句對抽取模型抽取出的原始平行數據占比越高時,構成的混合語料庫的質量越高,對神經機器翻譯模型的提升越大。在閾值設置為0.999時,平行句對占比約為20%,此時得到的BLEU4值最大為21.76,相比只用平行語料訓練的baseline提高了1.14。

此外,為了探究訓練數據是否加標簽對本文方法的影響,分別用加標簽和不加標簽的訓練語料進行了一組對比實驗,實驗結果如表7所示。

Table 7 Verification of label validity

實驗表明,訓練數據中加入標簽的方法有效地提升了句對提取模型的準確率,并且抽取出的語料對翻譯模型的性能也有進一步的提升。

4.4 譯文對比分析

為驗證用基于回譯和比例抽取孿生網絡篩選方法構建語料庫對神經機器翻譯性能的影響,本文還用不同語料庫訓練的模型分別翻譯同一語句進行對比分析,翻譯結果如表8所示。

5 結束語

針對漢越神經機器翻譯模型訓練中平行語料不足的問題,本文提出了一種對語料進行擴充的方法。首先通過回譯的方法,將越南語單語數據擴充為偽平行句對,利用基于比例抽取的Bi-LSTM孿生網絡刪除含有過多噪聲的句對,同時抽取出相似度高的句對,用于構建漢越雙語語料庫。在句對抽取過程中,通過將平行句對混入偽平行句對中來指導抽取的過程。實驗表明,基于此方法構建的語料庫可以有效地提升漢越神經機器翻譯的性能。在未來的工作中,我們會對翻譯模型做更多的探索,以消除回譯過程中產生的噪聲,從而進一步提高漢越神經機器翻譯的性能。

Table 8 Comparison of translations results generated by different models

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 精品一区二区无码av| 亚洲男人的天堂久久香蕉| 毛片免费高清免费| 亚洲欧美精品日韩欧美| 国产在线欧美| 亚洲无码视频喷水| 国产精品欧美亚洲韩国日本不卡| 亚洲天堂自拍| 波多野结衣一区二区三区88| 色婷婷狠狠干| 亚洲日本中文字幕天堂网| 国产精品视频免费网站| 91系列在线观看| 久久精品人人做人人爽电影蜜月 | 毛片基地视频| 无码有码中文字幕| 一级毛片基地| 亚洲AⅤ波多系列中文字幕| 免费大黄网站在线观看| 日本一区中文字幕最新在线| 国产精品成人一区二区不卡| 日本成人福利视频| 毛片久久网站小视频| 欧美成人午夜影院| 日韩天堂在线观看| 亚洲视频影院| 久热中文字幕在线| 久久a毛片| 精品国产www| 久草视频精品| 色综合中文字幕| 国产v欧美v日韩v综合精品| 免费看a毛片| 在线播放国产一区| 免费中文字幕在在线不卡 | 在线观看精品国产入口| 国产真实二区一区在线亚洲| 欧美自慰一级看片免费| 午夜限制老子影院888| 国产剧情一区二区| 欧美国产综合色视频| aⅴ免费在线观看| 日韩第九页| 99久久精品免费观看国产| 免费在线看黄网址| 亚洲精品欧美日韩在线| 狠狠色噜噜狠狠狠狠色综合久| 国产精品性| 夜夜拍夜夜爽| 91小视频在线| 国产丝袜第一页| 国产在线97| 成年女人18毛片毛片免费| 在线观看亚洲成人| 国产精品视频999| 凹凸国产分类在线观看| 白丝美女办公室高潮喷水视频| 日韩在线欧美在线| a级毛片免费播放| 日韩A∨精品日韩精品无码| 在线播放国产一区| 国产精品亚欧美一区二区三区 | 99久久无色码中文字幕| 美女内射视频WWW网站午夜| 精品视频一区二区三区在线播| 一区二区三区在线不卡免费| 999精品色在线观看| 波多野结衣一区二区三视频| 午夜限制老子影院888| 精品国产中文一级毛片在线看| 欧美一级专区免费大片| 亚洲精品国偷自产在线91正片| 亚洲欧美日韩成人高清在线一区| 国内毛片视频| 亚洲美女一区| 噜噜噜久久| 亚洲高清无码久久久| 成人91在线| 久久综合色天堂av| 亚洲人成影院午夜网站| 亚洲人成网址| 67194成是人免费无码|