999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文化風格區(qū)分的無監(jiān)督領域適應的電商產(chǎn)品翻譯

2021-10-29 14:21:30史小靜寧秋怡段湘煜
廈門大學學報(自然科學版) 2021年6期
關鍵詞:模型文化

史小靜,寧秋怡,段湘煜

(蘇州大學計算機科學與技術學院,江蘇 蘇州 215006)

經(jīng)濟全球化促進了世界多邊貿(mào)易體制的形成,跨境貿(mào)易顯得日趨重要,出口產(chǎn)品信息翻譯需求也日益突顯,僅依靠人工來實現(xiàn)翻譯花費較大且不易實現(xiàn).機器翻譯(machine translation, MT)的發(fā)展使得這一問題得到了緩解.近年來神經(jīng)機器翻譯[1-3](neural machine translation,NMT)的提出極大地改善了MT模型的性能,并且在某些領域已經(jīng)達到了較高的水準[4-7],但是MT系統(tǒng)的性能很大程度上依賴于平行語料的規(guī)模和質(zhì)量,然而在跨語言的信息處理任務中,平行語料是非常稀有的,因此基于領域適應的MT引起了廣泛的關注,其中大部分工作集中在少量內(nèi)領域平行數(shù)據(jù)可用的情況[8-9].

現(xiàn)有的無監(jiān)督領域適應的NMT主要通過生成內(nèi)領域偽平行數(shù)據(jù)或?qū)δP徒Y構進行修改.Freitag等[10]提出使用外領域的平行語料預訓練一個翻譯系統(tǒng),基于外領域翻譯模型,利用內(nèi)領域的數(shù)據(jù)繼續(xù)進行調(diào)參訓練,以達到領域適應的目的,同時保證了外領域系統(tǒng)的性能僅有稍微的減弱.Sennrich等[11]提出將內(nèi)領域目標語言文本通過反向翻譯的方法翻譯為源端語言數(shù)據(jù),再將翻譯得到的源端數(shù)據(jù)和真實的目標端數(shù)據(jù)構建內(nèi)領域的偽平行數(shù)據(jù).Currey等[12]提出將內(nèi)領域的目標語言文本復制到源語言端來創(chuàng)建內(nèi)領域的偽平行語料數(shù)據(jù).Zeng等[13]提出分別使用外領域和內(nèi)領域的數(shù)據(jù)進行預訓練,然后基于知識蒸餾迭代地執(zhí)行雙向知識轉(zhuǎn)移幫助模型的訓練.Chu等[14]提出把多語言翻譯和領域自適應結合起來,改善資源缺乏的內(nèi)領域的翻譯模型的性能.Dou等[15]提出將領域特征嵌入到神經(jīng)網(wǎng)絡中編碼端的無監(jiān)督領域適應方法,并通過多任務學習來聯(lián)合訓練整個神經(jīng)網(wǎng)絡.Yang等[16]提出通過引入兩個分類器,其中一個用于判斷模型生成的句子是否屬于目標端領域,另一個用于判斷譯文句子是否屬于源端句子領域,這兩個分類器構成了一個對抗訓練的網(wǎng)絡.Su等[17]提出采用多任務學習的方式,將翻譯任務和領域分類任務進行聯(lián)合建模:通過在編碼端引入領域分類器和對抗領域分類器對輸入句子進行領域分類,從而分離出領域?qū)S行畔⒑皖I域共享信息;解碼端使用基于注意力機制的領域分類器,從而使分類器導出的注意力權重具有領域特征,可用來調(diào)整訓練過程中反饋的誤差.Zeng[18]提出將NMT模型和單語領域分類任務聯(lián)合,使用兩個門控向量構建領域區(qū)分和領域共享的注釋,利用目標端領域分類器得到的注意力信息調(diào)整目標詞的權重,使得領域相關的詞獲得更大的權重.Shoetsu等[19]提出詞表自適應方法,在微調(diào)之前將詞嵌入映射到內(nèi)領域的詞嵌入空間,緩解領域差異較大的預訓練導致的領域不匹配問題.Gordonm等[20]提出將知識蒸餾和領域適應相結合,提升多語言對模型的效果.

NMT模型的性能很大程度上依賴于訓練數(shù)據(jù)的數(shù)量和質(zhì)量,然而據(jù)本文調(diào)研,目前電商領域還沒有公開可利用的平行語料,這是訓練電商領域產(chǎn)品翻譯系統(tǒng)的主要挑戰(zhàn)之一.此外,由于不同地區(qū)的文化風格和語言特點的差異,即使對于同一種產(chǎn)品也會有不同風格的描述信息,這是電商領域產(chǎn)品信息翻譯的另一難點.為了解決電商領域語料稀少這一問題,本文分別從不同的電商平臺獲取了不同語言的產(chǎn)品數(shù)據(jù)信息,主要包括中文和英文電商領域產(chǎn)品的數(shù)據(jù)信息,中文電商領域的語料數(shù)據(jù)取自淘寶官方網(wǎng)站,英文電商領域的數(shù)據(jù)語料取自亞馬遜官方網(wǎng)站.針對產(chǎn)品信息文化風格差異這一問題,本文提出了基于無監(jiān)督領域適應的混合訓練方法和文化風格區(qū)分方法.利用資源豐富的新聞領域的平行語料訓練源語言到目標語言以及目標語言到源語言的兩個翻譯系統(tǒng),然后對電商領域的單語數(shù)據(jù)進行翻譯得到偽的平行數(shù)據(jù),使用偽平行數(shù)據(jù)進行混合訓練和文化風格區(qū)分的方法進行模型訓練.

1 混合訓練和文化風格區(qū)分的方法

本文提出的混合訓練和文化風格區(qū)分的無監(jiān)督領域適應電商產(chǎn)品信息的翻譯方法,使得基于資源豐富的外領域的平行語料庫訓練的翻譯模型能夠適應于沒有平行語料的電商領域單語數(shù)據(jù)的翻譯任務,提升電商領域的MT譯文質(zhì)量.本文基于目前效果最好的Transformer進行混合訓練和文化風格區(qū)分實驗,將電商領域的單語數(shù)據(jù)視為內(nèi)領域的數(shù)據(jù),將新聞領域的數(shù)據(jù)視為外領域的數(shù)據(jù).

1.1 混合訓練方法

1.2 文化風格區(qū)分的電商產(chǎn)品翻譯方法

電商領域中,不同語言的不同電子商務平臺的產(chǎn)品信息描述表現(xiàn)出顯著的風格差異,例如給出的同一類產(chǎn)品,不同語言的電子商務平臺的相應特性描述如下:

淘寶平臺:阿迪達斯adidas 男鞋 女鞋2021 春季 中底 運動鞋 減震 跑步鞋

亞馬遜平臺:These adidas running shoes are designed to turbo charge your daily miles.A soft, comfortable elastane heel allows for natural movement of the Achilles.

從上述樣例中可以看出:中文淘寶平臺的產(chǎn)品描述信息主要是以詞匯的無序堆疊方式呈現(xiàn),包含較少的語義信息;與之相比,亞馬遜平臺的英文產(chǎn)品描述信息更加流暢自然并且語義信息較為豐富.為了區(qū)分不同語言數(shù)據(jù)的不同文化風格,緩解電商產(chǎn)品翻譯過程中的文化風格差異問題,本文給不同語言的電商數(shù)據(jù)添加了對應的文化風格區(qū)分標記(如圖1所示).在訓練過程中告訴模型當前數(shù)據(jù)的所屬類別,根據(jù)類別信息獲取相應的文化風格區(qū)分特征向量.在編碼端,網(wǎng)絡的輸入信息添加源語言端的文化風格特征向量,而在解碼端添加目標端語言的風格特征向量θculture,使得模型在解碼過程中能夠?qū)W習到特定的目標語言的文化風格,在忠于源端數(shù)據(jù)的前提下使得到的譯文風格更趨于目標端的風格.文化風格特征向量在模型訓練過程中與其他參數(shù)共同訓練,通過與1.1節(jié)的混合訓練方法相結合,使得模型不僅能夠?qū)W習到同一產(chǎn)品的相關聯(lián)的描述信息,同時也能夠捕獲到同一產(chǎn)品的不同文化風格的描述信息,共同提升產(chǎn)品翻譯的譯文質(zhì)量.

圖1 文化風格區(qū)分的網(wǎng)絡結構Fig.1 The network structure of cultural-style aware

當編碼端的數(shù)據(jù)為淘寶平臺的數(shù)據(jù)時,則在編碼端添加淘寶數(shù)據(jù)的文化風格特征向量.相應地,希望目標端的譯文在忠于原文的前提下具有亞馬遜文化風格的特征,則在解碼端添加亞馬遜數(shù)據(jù)的文化風格特征向量.具體如式(1)和(2)所示.

(1)

(2)

相應地,混合訓練時當編碼端的數(shù)據(jù)為亞馬遜平臺的數(shù)據(jù)時,則在編碼端添加亞馬遜數(shù)據(jù)的文化風格特征向量.此時,希望目標端譯文在忠于原文數(shù)據(jù)的前提下具有淘寶文化風格的特征,則在解碼端添加淘寶數(shù)據(jù)的文化風格特征向量.特別地,文化風格區(qū)分的特征向量分別在編碼器端和解碼器端的每一層均添加,為了方便拼接,特征向量的維度和隱藏層的狀態(tài)向量維度保持一致.

2 對比訓練模型和策略

本文選擇標準的Transformer[7]模型結合混合訓練和文化風格區(qū)分的方法進行訓練,并將本文提出的方法與如下幾種訓練策略進行對比:

a) 反向翻譯 Sennrich等[11]提出利用外領域已有的平行語料,訓練一個目標端到源端的翻譯系統(tǒng),再通過訓練好的系統(tǒng)將目標端單語語料翻譯成源端對應的語料,將得到的源端語料和真實的目標端語料構成偽平行語料.將外領域的平行語料和合成的內(nèi)領域的偽平行語料連接實現(xiàn)對內(nèi)領域數(shù)據(jù)的擴充,使用擴充的語料訓練源端到目標端的NMT系統(tǒng).

b) 基于外領域模型微調(diào)的反向翻譯 Freitag等[10]提出使用外領域的平行語料預訓練一個Transformer翻譯系統(tǒng),基于外領域數(shù)據(jù)訓練得到的翻譯模型利用內(nèi)領域的數(shù)據(jù)繼續(xù)進行調(diào)參訓練,以達到領域適應的目標,同時保證了外領域系統(tǒng)的翻譯性能僅有稍微的減弱.

c) 目標端復制 Currey等[12]提出將目標端內(nèi)領域的單語語料復制一份作為源端數(shù)據(jù),與其構成偽平行數(shù)據(jù),將得到的偽平行數(shù)據(jù)與外領域的平行語料進行連接,共同訓練一個領域適應的Transformer系統(tǒng),并且證明了通過復制目標端文本到源端得到的偽平行語料不會消減外領域數(shù)據(jù)訓練的模型性能.

d) 基于領域感知特征嵌入的無監(jiān)督領域適應(domain aware feature embedding,DAFE) Dou等[15]通過將特定領域的特征嵌入添加到NMT編碼端的每一層網(wǎng)絡中,并且結合語言模型進行多任務學習來訓練特定的領域特征.這種在多任務學習網(wǎng)絡框架中的訓練模型,既有領域外的平行語料,也有通過反向翻譯生成的內(nèi)領域的偽平行語料.本文提出的文化風格區(qū)分的方法不僅在編碼端添加源語言端的文化風格區(qū)分標記,同時在解碼端添加目標端語言的文化風格區(qū)分標記.本文的文化風格區(qū)分標記的特征參數(shù)不是通過單獨的語言模型進行訓練,而是與網(wǎng)絡中其他參數(shù)一起訓練,降低了網(wǎng)絡訓練的復雜度,提升了模型在電商領域數(shù)據(jù)的翻譯性能.

3 實 驗

3.1 實驗數(shù)據(jù)集

從語言數(shù)據(jù)聯(lián)盟(LDC)中抽取新聞領域的中英平行語句對訓練中英和英中基準系統(tǒng),訓練數(shù)據(jù)包含125 萬平行語句對,該訓練數(shù)據(jù)集為外領域平行語料.測試集為美國國家標準與技術研究院2002年的數(shù)據(jù)NIST02、NIST03、NIST04、NIST05 和NIST08,共5個測試數(shù)據(jù)集.驗證集為NIST06.中文詞表大小為4萬,英文詞表大小為5萬,其余低頻詞用替換.

電商數(shù)據(jù)集中,因為淘寶和亞馬遜網(wǎng)站的電商產(chǎn)品資源非常豐富,并且獲取的數(shù)據(jù)比較具有權威性,所以中文電商領域的產(chǎn)品信息語料取自淘寶官方網(wǎng)站,英文電商領域的產(chǎn)品信息語料取自亞馬遜官方網(wǎng)站.中英文數(shù)據(jù)均主要包括女士服裝、男士服裝、玩具和食物四大類別,具體的數(shù)據(jù)統(tǒng)計信息如表1所示.

表1 電商領域的數(shù)據(jù)統(tǒng)計Tab.1 Data statistics of e-commerce

3.2 實驗參數(shù)

本文中所有實驗均基于開源代碼Fairseq[23],將模型設置為Transformer,模型的失活率設置為0.3,編碼器和解碼器層數(shù)均為6層,其他基本的超參數(shù)設置為Fairseq中的默認參數(shù)選項,最大保存模型數(shù)目設置為5.解碼時,采用集束搜索,其中束大小設置為5,其余參數(shù)采用默認設置.訓練和測試均在NVIDIA TITAN XP GPU硬件上實現(xiàn).

3.3 評測標準

雙語互譯評估[24](bilingual evaluation understudy,BLEU)是一種MT的自動評估指標,用來評估MT的譯文質(zhì)量,計算公式為:

(3)

其中:VBP表示過短懲罰系數(shù),當譯文的句子過短時,會給其一定的懲罰;pn為n元語法的精度,表示譯文句子的詞出現(xiàn)在參考答案中的概率;wn為每個pn的權重.

3.4 不同字節(jié)對編碼(BPE)實驗

由于電商數(shù)據(jù)多為基于名詞實體或短語的堆疊,比如:品牌名和產(chǎn)品的形狀等,固定的詞表大小產(chǎn)生的未登錄詞較多.在將數(shù)據(jù)用于相關實驗之前,本文中使用BPE[25]技術處理了所有數(shù)據(jù).并且分別設置了不同的BPE進行實驗,以探索合適的BPE.實驗結果如表2所示,當編碼方式為中英單獨編碼、BPE為64 000 時,翻譯性能最佳,故以下實驗均采用中英單獨編碼,BPE大小選為64 000.

表2 不同BPE的實驗結果對比Tab.2 Experimental results comparison of different BPE

3.5 混合訓練實驗

本文中分別嘗試不同比例的電商內(nèi)領域的偽數(shù)據(jù)和外領域的平行語料進行實驗,得到的實驗結果如表3所示.對比添加不同比例的外領域平行語料時Tranformer的翻譯性能可知,當電商數(shù)據(jù)與外領域平行語料的數(shù)據(jù)比例為1∶1時,翻譯效果最好,這與Sennrich等[11]得到的結論一致.

表3 不同比例數(shù)據(jù)的實驗結果Tab.3 Experimental results of different scale data

采用本文提出的混合訓練方法得到的實驗結果記錄在表3中最后兩行.與以1∶1的比例添加外領域平行數(shù)據(jù)的翻譯性能相比,本文提出的混合訓練方法僅用電商領域的單語數(shù)據(jù)及其解碼得到的偽數(shù)據(jù)在英中和中英翻譯中平均BLEU值分別提升2.64和1.54個百分點.雖然未使用質(zhì)量較高的外領域的平行語料,本文的混合訓練方法相比于其他已有的方法依舊得到了較大的提升.這與Edunov等[21]和Bogoychev等[22]的研究結果一致,本文提出的混合訓練方法結合了兩者的思想,通過混合訓練的方法使得模型能夠?qū)W習到亞馬遜和淘寶電商平臺產(chǎn)品數(shù)據(jù)的共同特點,特別是對于同類別產(chǎn)品的數(shù)據(jù)信息,使得模型能夠捕獲到不同平臺數(shù)據(jù)的相關信息,從而進一步提升了電商領域的產(chǎn)品信息的翻譯效果.

3.6 混合訓練+文化風格區(qū)分實驗

基于混合訓練方法添加文化風格特征嵌入的實驗結果和相關方法基準系統(tǒng)的實驗結果如表4所示.

表4中,基準系統(tǒng)為僅使用外領域平行語料訓練得到的Transformer模型.對比已有的主流方法反向翻譯、基于外領域模型微調(diào)的反向翻譯、目標端復制和DAFE方法的翻譯性能,可以看出以上實驗方法均能有效地提升電商領域產(chǎn)品信息翻譯的效果.其中,對于英中翻譯方向,目標端復制方法相對于基準系統(tǒng)的平均BLEU值提升最高,為3.63個百分點;對于中英翻譯方向,基于外領域模型微調(diào)的反向翻譯方法的性能提升最明顯,平均BLEU值提升6.90個百分點.本文提出的混合訓練方法在英中翻譯方向上BLEU平均得分為16.74%,高出基準系統(tǒng)3.99個百分點,中英翻譯方向上平均BLEU得分為16.79%,高出基準系統(tǒng)7.03個百分點,同時相較于已經(jīng)存在的相關主流方法均有進一步的提升.

表4 不同方法的實驗結果Tab.4 Experimental results of different methods

從表4中最后2行的結果來看,在混合訓練的基礎上增加文化風格特征區(qū)分后,在英中翻譯方向上的平均BLEU得分為17.07%,高出反向翻譯方法2.97個百分點,高出目標端復制單語數(shù)據(jù)的方法0.69個百分點,并且相較于混合訓練方法,模型效果有進一步地提升;在中英翻譯方向上,混合訓練+文化風格特征區(qū)分在四大類測試集數(shù)據(jù)上的平均BLEU得分為17.33%,高出反向翻譯方法1.58個百分點,高出目標端復制單語數(shù)據(jù)的方法0.78個百分點.實驗結果表明,文化風格特征嵌入和混合訓練的方法相結合使得模型不僅能夠?qū)W習到同一產(chǎn)品的相關描述,同時也能夠捕獲到同一產(chǎn)品的不同風格特征的描述,使得模型的翻譯效果得到進一步的提升.

4 結 論

針對電商產(chǎn)品翻譯系統(tǒng)的訓練存在兩個主要的問題:電商領域訓練數(shù)據(jù)稀缺和電商產(chǎn)品描述文化風格差異較大,本文將獲取的大量產(chǎn)品信息預處理后作為訓練語料,并且提出了基于無監(jiān)督領域適應的混合訓練添加文化風格特征區(qū)分的方法.實驗結果表明,本文提出的方法提高了基于單語語料的電商產(chǎn)品翻譯的準確度.目前僅對于中文淘寶官方網(wǎng)站的電商產(chǎn)品和英文亞馬遜官方網(wǎng)站的電商產(chǎn)品數(shù)據(jù)信息進行了相關實驗,未來工作中,將獲取更多平臺和更多語種的電商領域產(chǎn)品數(shù)據(jù)信息進行相關研究,使得電商產(chǎn)品信息翻譯模型性能夠得到進一步的提升.

猜你喜歡
模型文化
一半模型
文化與人
中國德育(2022年12期)2022-08-22 06:16:18
以文化人 自然生成
年味里的“虎文化”
金橋(2022年2期)2022-03-02 05:42:50
“國潮熱”下的文化自信
金橋(2022年1期)2022-02-12 01:37:04
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
誰遠誰近?
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 欧美成人一级| 国产69精品久久| 国产精品.com| 午夜高清国产拍精品| 亚洲国产看片基地久久1024| 国产凹凸一区在线观看视频| 97久久人人超碰国产精品| 国产第一页免费浮力影院| 国产簧片免费在线播放| 亚洲日韩高清在线亚洲专区| 久久国产亚洲欧美日韩精品| 五月天福利视频| 亚洲欧美日韩精品专区| 好紧太爽了视频免费无码| 亚洲愉拍一区二区精品| 五月婷婷亚洲综合| 一本无码在线观看| 欧美日本二区| 第九色区aⅴ天堂久久香| 亚洲人成人伊人成综合网无码| 中文字幕在线不卡视频| 国产精品微拍| 日韩欧美高清视频| 免费观看亚洲人成网站| 无码精品国产dvd在线观看9久| 久久人搡人人玩人妻精品| 99精品免费欧美成人小视频| 欧美中文字幕在线播放| 2021精品国产自在现线看| 国禁国产you女视频网站| 亚洲一级毛片免费看| 97在线免费| 国产色图在线观看| 人人看人人鲁狠狠高清| 久久精品国产免费观看频道| 无码网站免费观看| 18禁黄无遮挡免费动漫网站| 精品人妻一区二区三区蜜桃AⅤ| 97se亚洲综合在线韩国专区福利| 精品国产香蕉伊思人在线| 天堂av综合网| 国产午夜在线观看视频| 亚洲一区二区三区国产精品| 亚洲动漫h| 日韩欧美国产三级| 亚洲一区免费看| 亚洲手机在线| 国产男人的天堂| 国产免费羞羞视频| 国产AV无码专区亚洲精品网站| 99热国产这里只有精品无卡顿"| 热思思久久免费视频| 毛片手机在线看| 中文字幕在线看| 免费在线播放毛片| 伊人精品视频免费在线| 91麻豆久久久| 黄片在线永久| 欧美成人第一页| 中文字幕在线日韩91| 国产美女免费| 2021最新国产精品网站| 麻豆精品在线| 视频二区中文无码| 99re视频在线| 亚洲天堂精品视频| 一级成人欧美一区在线观看| 国产第一页免费浮力影院| 97在线免费视频| 毛片在线看网站| 欧美精品在线视频观看| 男女精品视频| 色综合激情网| 久久人搡人人玩人妻精品一| 国产精品无码久久久久AV| 国产综合亚洲欧洲区精品无码| 国产女人爽到高潮的免费视频| 欧美成人看片一区二区三区| 国产手机在线ΑⅤ片无码观看| 国产无遮挡猛进猛出免费软件| 人禽伦免费交视频网页播放| 日本AⅤ精品一区二区三区日|