999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

會議場景下融合外部詞典知識的領域個性化機器翻譯方法

2019-10-21 09:11:02劉慶峰劉晨璇王亞楠張為泰劉俊華
中文信息學報 2019年10期
關鍵詞:融合方法模型

劉慶峰,劉晨璇,,王亞楠,張為泰,劉俊華

(1. 語音及語言信息處理國家工程實驗室,安徽 合肥 230027;2. 認知智能國家重點實驗室,安徽 合肥 230088)

0 引言

隨著全球化經濟的發展和中國改革開放力度的加大,越來越多的機構和企業正走向世界參與全球經濟的發展和管理。日益頻繁的跨國交流,對包括口譯、筆譯及本地化等在內的語言服務提出了大量的、多樣化的需求。在傳統翻譯行業中,譯員培養和譯員提供服務的時間成本與經濟成本均較高,已逐漸進入瓶頸期。通過語音和翻譯等技術實現機器自動口語翻譯,輔助跨語言國際溝通交流,成為當前人工智能領域最重要的研究熱點之一[1-2]。

目前口語翻譯的研究和應用有兩個典型應用場景,一是不同語言使用者之間面對面的日常口語溝通交流,二是會議場景下講者面向廣大聽眾的演講交流。會議場景下,由于會議具有領域專業性,其涉及的大量專業術語和行業相關的語言表達,給機器翻譯帶來較大挑戰。

近年來,深度學習技術的進步推動神經機器翻譯技術取得重大進展,同時,在大規模平行數據語料的支撐下,機器翻譯效果不斷提升。Sutskever等[3]在2014年提出了一種編碼器—解碼器結構的翻譯模型,相比傳統基于統計的短語翻譯方法,該方法生成的譯文更加流暢。Bahdanau等[4]在此基礎上引入了注意力機制,使得神經機器翻譯系統生成的譯文全面超過統計機器翻譯系統。2017年,Vaswani等[5]提出的完全基于注意力機制的神經機器翻譯模型,能夠完全不依賴遞歸神經網絡或卷積神經網絡,使得神經機器翻譯整體效果又獲得大幅提升。

針對會議場景下機器翻譯面臨的實體詞或術語詞翻譯,以及領域用語翻譯的專業性問題,目前也有一些研究工作。在術語詞翻譯優化上,Hokamp等[6]提出使用Grid Beam Search方法進行限制解碼,保證短語或詞出現在解碼譯文中;Feng等[7]通過對詞典知識進行編碼構建Memory表示,在訓練和解碼時引入相應知識表示來提升術語詞的翻譯效果;Pham等[8]通過對訓練數據進行額外標注,使用拼接融合的方法提升稀疏詞的翻譯效果。在領域自適應訓練上,Luong等[9]通過在領域數據上進行模型微調(fine tuning),能夠在領域數據集上獲得較好的性能提升;Britz等[10]通過引入判別器網絡加強翻譯模型對領域信息的甄別,從而提升領域數據集的翻譯效果。

但是,現有的方法在實際應用中仍存在一些問題。例如,基于占位符[11]的方法容易影響流利度,基于拼接融合的方法[8]不能保證詞語翻譯的準確度。因此,本文根據專業和低頻詞匯的類別不同,分別采用不同的處理策略進行定制優化,在提升翻譯準確率的同時兼顧譯文的流利度。但在領域個性化方面,現有的方法在提升特定領域效果的同時,其他領域效果一般會存在較明顯下降。為此,我們通過基于分類和翻譯模型旁支參數(Patch)的優化方法,對實際應用中的句子先進行分類,再通過不同的Patch參數進行解碼,從而在特定領域獲得較大幅度性能提升的同時,幾乎不影響通用領域翻譯效果。

1 基線系統介紹

目前主流的神經機器翻譯方法采用編碼器—解碼器框架[3-4]。給定源語言句子X=(x1,x2,…,xn),利用編碼器將其映射為一組連續稠密的向量表示Z=(z1,z2,…,zn)。解碼器在t時刻以自回歸的形式將已生成詞序列Yt-1=(y1,y2,…,yt-1)和上下文向量ct作為條件輸入,計算生成當前詞yt。計算如式(1~3)所示。

其中,zi是xi的向量表示,dt和ct分別為t時刻解碼器隱狀態和注意力函數給出的上下文向量,y

本文采用基于注意力結構實現神經機器翻譯中的編碼、解碼和對齊模型的Transformer[5]模型作為基線系統。Transformer的主要特點在于僅通過自注意力機制計算輸入X序列和輸出Y序列的表示,通過自注意力機制(self-attention mechanism)將句子中的每個詞和該句子中的所有詞進行注意力計算,目的是學習句子內部的依賴關系,捕獲句子的內部結構。

2 融合外部詞典知識的領域個性化方法

針對會議場景下的領域專業性問題,本文從專業詞匯和語言表達領域個性化兩個角度出發,提出融合外部詞典知識的領域個性化方案。在專業詞匯個性化方面,通過引入外部專業詞匯雙語詞典知識提升翻譯質量。在會議語言表達領域個性化方面,則通過引入翻譯模型旁支參數(Patch),并基于會議場景相關數據,設計一套領域個性化自動訓練系統,進行領域雙語數據擴充和領域自適應訓練,在保持通用翻譯效果相當的同時,提升會議場景領域相關的翻譯性能。

2.1 術語詞個性化方法

神經機器翻譯采用一套編解碼神經網絡模型結構實現源語言文字到目標語言文字的翻譯,在提升翻譯效果的同時,也使得詞匯翻譯的干預變得更加困難。因此,針對術語詞和低頻詞的翻譯,是目前神經機器翻譯研究的一個重要任務。針對該問題,本文根據專業和低頻詞匯的類別不同,采用不同的處理策略進行定制優化。

針對人名、地名和數字等類別和用途明確的實體詞,本文采用占位符替換的翻譯方法。該方法通過命名實體識別(name entity recognition,NER)模塊獲得待翻譯的實體詞信息,然后將其替換為相應類別的占位符進行翻譯,最后將占位符替換為相應的目標譯文。該方法對于關鍵實體詞能夠取得較好的翻譯準確率,并且由于實體詞在語句中的用法比較類似,對目標譯文的流暢度影響較小。

針對上下文語義相關性較強的術語詞翻譯,本文借鑒文獻[8]的方法,采用融合外部詞典知識的拼接融合方法。該方法的初衷是考慮到該類術語詞匯在句子中可能占據不同成分,直接采用占位符替換的方法進行翻譯會破壞源語言不同詞匯之間編碼的相關性,同時在解碼過程中也會影響上下文之間的連貫性和流暢性。因此本文采用了拼接融合的方法,即根據輸入的源語言句子,從外部雙語詞典中查找相關術語對應的譯文,并將其拼接到源語言句子中對應術語詞之后的位置,如圖1所示。由于輸入源語言句子中既包括了術語詞原始信息,也包括目標譯文的信息,翻譯模型編碼過程中能夠看到所有詞匯之間的相關性信息,解碼過程生成術語詞目標譯文時也能夠兼顧上下文連貫性,從而提升了譯文的質量。

圖1 專業詞匯拼接融合方法示意圖

具體實現時,該方法將人地名表和術語詞典等知識作為外部詞典知識對部分訓練數據源語言句子進行標注,構建基于術語詞的拼接融合訓練平行語料,使得翻譯模型學習到類似的翻譯模式。其次,對翻譯模型訓練準則也進行了改進,通過引入拷貝網絡[12-13]和強化學習機制,提高了目標譯文包含外部術語詞典翻譯方式的概率。

2.2 領域個性化方法

機器翻譯性能與應用領域有很強的相關性,傳統領域個性化方案通常基于領域平行數據對翻譯模型進行自適應訓練[9-10,14]。該類方法在提升領域場景翻譯效果的同時,往往導致其他領域翻譯效果的下降,影響了翻譯模型的普適性。針對該問題,本文提出一種基于分類的領域Patch個性化定制優化方法,如圖2所示。待翻譯文本首先經過預先訓練好的分類(通用/會議領域)模型進行預測,當該文本被分到會議領域的概率大于設定閾值時,翻譯模型選擇使用領域Patch對其進行編碼,否則使用通用編碼器進行編碼,然后依次進行解碼預測,輸出譯文。

圖2 領域個性化定制方法流程

領域分類器模型方面,本文采用基于字符和詞拼接融合的卷積神經網絡 (Convolutional Neural Networks, CNN)進行建模[15],如圖3所示。

圖3 基于CNN的領域分類模型

采用字符的卷積編碼與詞向量表征拼接融合,能夠增強模型對輸入拼寫錯誤和識別錯誤的容錯度,進而提升分類模型的魯棒性。在特征提取網絡中,卷積層采用多個不同寬度的卷積核,從多個維度、不同粒度對語義特征進行建模,同時引入Highway網絡[16]提高網絡訓練收斂速度。最后采用全連接層進行特征向量變換,使用softmax函數計算類別概率。

領域個性化模型訓練方面,首先將訓練好的通用翻譯模型的編碼參數復制一份作為領域Patch參數的初始值,然后基于會議場景下領域相關的平行語料對領域Patch參數通過模型微調進行自適應訓練,其他模型參數則和通用翻譯模型共享。該方法在保持整體翻譯模型大小增加有限的情況下,獲得與通用翻譯模型相當的效果,并有效提升會議領域場景下的翻譯性能。

2.3 領域個性化自動訓練系統

翻譯模型的訓練包含數據預處理、模型訓練、模型評估和模型部署等流程,往往需要專業人員的參與。考慮到實際應用中具體會議涉及領域較多,人工成本較大,本文設計了一套自動訓練系統,以解決會議場景下領域個性化模型訓練和部署等問題。

如圖4所示,本系統分為訓練數據擴充、數據預處理、數據檢索、模型訓練評估和模型部署五個基本模塊。訓練數據擴充針對特定會議,用戶可預先收集會議相關術語詞典、單語數據、平行句對數據等,以達到領域數據增強的目的。在數據檢索模塊中,通過術語詞搜索方法從大規模語料庫檢索平行句對,通過模糊匹配或語義相似度等算法可進一步抽取平行句對,以及采用回譯技術[17-18]構建偽造句對,從而構建更豐富的訓練數據集。在模型訓練階段,以通用模型為基線,使用領域數據對模型進行自適應訓練,最終得到優化模型并完成部署。

圖4 領域個性化自動訓練系統架構圖

3 實驗

為驗證本文所提方法的有效性,我們在中英方向的翻譯任務上進行了實驗,設定會議場景包含體育領域、商務領域和醫學領域。我們分別從術語詞個性化定制和領域個性化定制兩個方面驗證方法的有效性,并在最后進一步驗證了融合兩個方法在翻譯效果上的效果提升。

3.1 實驗設置

基線系統采用Transformer Big模型結構[5],并集成了拷貝網絡[12-13]和強化學習策略,以便后續進行術語詞個性化定制實驗。模型中,編碼器和解碼器各6層,詞向量維度為1 024,多頭注意力數量為16,全連接層維度為8 192,解碼搜索束寬為4。為解決詞語的稀疏性問題,采用分詞之后的字節對編碼 (Byte Pair Encoding, BPE)[19]子詞作為建模單元,BPE操作次數為4萬次,中文詞典大小為5萬,英文詞典大小為4.1萬。訓練語料共3 000萬句對,其中120萬句對來源于Linguistic Data Consortium,2 300萬句對來源于WMT18國際翻譯大賽,剩余580萬句對來源于CWMT18機器翻譯大賽等。

在術語詞個性化定制實驗中,我們從訓練數據中抽取了約200萬含有術語詞的平行句對,構建拼接融合的訓練數據,混入到原有訓練語料中,共同用于模型訓練。測試集合包括了體育領域會議場景下3 725句含有術語詞的句對,包含了8 583對雙語術語(含人名、地名等實體詞);商務領域會議場景下4 023句含有術語詞的句對,包含了7 220對雙語術語;醫學領域會議場景下3 820句含有術語詞的句對,包含了9 235對雙語術語。本文采用句子層面翻譯客觀評分BLEU(Bilingual Evaluation Understudy)[20]和術語詞典指定的專業術語詞的翻譯準確率作為評價指標。

在領域個性化實驗中,我們使用自動化訓練平臺,針對體育領域搜集28萬雙語句對,抓取200萬領域相關英語單語數據,并根據這些數據從原始訓練集合中檢索出約500萬領域最相關的句對。針對商務領域搜集25萬雙語句對,抓取300萬領域相關英語單語數據,并從原始訓練集合中檢索出約500萬領域相關句對。針對醫學領域搜集25萬雙語句對,抓取800萬領域先關英語單語數據以及從原始訓練集合中檢索出700萬領域相關句對。其中單語語料采用Back Translation算法進行回譯得到偽平行語料,與其他領域數據一起共同構成了領域個性化訓練集合。體育領域、商務領域和醫學領域測試集與術語詞個性化實驗中相同,同時增加通用領域測試集合共3 981句。

3.2 術語詞個性化實驗

實驗中,為了減少實體詞識別錯誤對翻譯性能帶來的影響,我們采用了自己研發的基于BiLSTM-CRF[21]的NER工具,通過調參使得系統在體育、商務和醫學三個測試集合上的平均正確率為94.21%,平均召回率為89.31%。基于該NER策略,術語詞個性化實驗如表1和表2所示。從表1可以看出,單獨采用占位符替換方法,術語詞翻譯準確率較高,平均達到93.44%,而拼接融合方法由于需要靠模型自動學習指定術語譯文的輸出,導致部分術語詞翻譯準確率較低,平均為89.06%。術語詞個性化方法在術語詞準確率上與單獨采用占位符替換方法相當,平均達到93.17%。從表2可以看出,拼接融合方法由于源句保留了術語詞的原文和目標譯文信息,BLEU分指標平均由基線的32.48提升至39.49,提升了7.01個BLEU,使得翻譯結果更加流暢自然。占位符替換方法雖然術語詞準確率最高,但由于句子整體流暢性差,存在譯文直譯等問題,其BLEU分平均為37.64,比拼接融合方法低了1.85個BLEU。術語詞個性化方法在BLEU分指標上與拼接融合方法相當,達到了39.50,高于占位符替換方法1.86個BLEU。

綜上,本文提出的術語詞個性化方法,通過引入外部術語詞典知識,融合了占位符替換和拼接融合方法的優點,能夠在提升術語詞翻譯準確率的同時,兼顧翻譯結果的整體流暢性。

表1 術語詞個性化實驗術語詞準確率結果(%)

實驗中也發現,由于NER存在一定的漏識別問題,影響了個別人名、地名等實體詞的翻譯。這主要是由于專業術語詞中也存在個別詞與詞典指定翻譯方式有些出入,因為這些術語詞存在多種翻譯方式,而翻譯系統選擇了出現頻率較高的一種,整體上并不影響理解。

表2 術語詞個性化實驗BLEU分對比

3.3 領域個性化實驗

在領域個性化實驗中,我們分別將體育場景會議、商務場景會議和醫學場景會議作為目標領域,使用自動化訓練平臺進行分類器訓練、模型訓練和預測等實驗內容。以體育場景會議為例,首先從體育領域數據集和通用數據集中各隨機挑選了15 000句中文作為分類器模型的訓練數據集,從兩個數據集剩余數據中隨機挑選了4 000句中文作為開發集合,5 000句中文作為測試集合。商務場景會議和醫學場景會議的相關實驗配置相同。

表3給出了三個場景下通用與各領域分類效果。可以看出,在三個場景下,通用領域數據分類的F值均達到95%以上的較高水平,體育領域數據分類的F值為87.32%,商務領域數據分類的F值為87.14%,醫學領域數據分類的F值為90.19%。在實際應用中,為了避免領域測試數據分類錯誤帶來的通用性能損失,我們對分類閾值進行了調整,在犧牲領域數據召回率的情況下,使得其正確率處于較高水平。

表3 三個場景下領域分類效果

經過領域個性化模型自適應訓練之后的實驗結果,如表4所示。

表4 通用和各領域翻譯效果

可以看出,直接采用目前常用的FineTune方法[9],使用領域內數據進行迭代訓練和微調,雖然能夠在各相應領域獲得較明顯的效果提升,但在非相應領域會有較大的負面影響。例如,體育領域的FineTune模型雖然在體育集合上BLEU分由33.57提升至37.75,提升了4.18個 BLEU,但是在通用集合、商務集合以及醫學集合上都有不同幅度的下降,特別是在商務和醫學集合上,由于領域差異性較大,下降幅度達到7~8個BLEU。商務領域和醫學領域FineTune模型結論一致。采用經過本文領域個性化訓練之后,體育領域測試集合的翻譯性能從基線系統的33.57提升到37.45,提升了3.88個BLEU;商務領域測試集合的翻譯性能從35.32提升到38.66,提升了3.34個BLEU;醫學領域測試集合的翻譯性能從28.54提升到33.20,提升了4.66個BLEU。在通用領域測試集合上,個性化訓練之后的性能下降了0.02個BLEU,主要是因為一小部分通用數據錯分成了體育領域數據,不過整體影響較小,可以忽略不計。該實驗證明了本文所提方法在保持通用領域翻譯性能基本相當時,能夠大幅提升會議相關領域的翻譯效果。

3.4 融合外部詞典知識的領域個性化方法

最后,結合領域個性化自動訓練系統,我們融合術語詞個性化定制方法和領域個性化定制方法,給出了最終基于融合外部詞典知識的領域個性化方法在不同會議場景下的翻譯性能提升結果。表5給出了體育場景會議、商務場景會議和醫學場景會議下融合方法的實驗結果。其中,體育領域測試集合的翻譯性能提升至42.89,相對于基線方法提升了9.32 個BLEU;商務領域測試集合的翻譯性能提升至42.98,提升了7.66個BLEU;醫學領域測試集合的翻譯性能提升至39.21,提升了10.67 個BLEU。

表5 最終系統翻譯效果對比

以醫學場景為例,我們在表6中給出不同系統和方法的翻譯結果。從中可以看出,相比基線系統,融合了術語詞個性化和領域個性化的最終系統翻譯結果,在專業術語翻譯準確率和行業用語表達上效果更好。

表6 醫學場景各系統譯文舉例對比

4 總結和展望

本文針對由于會議行業屬性帶來的機器翻譯領域專業術語和行業用語的翻譯問題,提出了一種融合詞典知識的領域個性化方法,采用聯合占位符和拼接融合的編碼策略,通過引入外部詞典知識,在提升實體詞、專業術語詞翻譯準確率的同時,保持了譯文的流暢性。同時,基于分類的領域旁支參數個性化自適應策略,在保持通用領域翻譯效果的情況下,實現會議相關領域翻譯質量的提升。基于上述方案,本文設計了一套領域個性化自動訓練系統,在中英體育、商務和醫學會議翻譯任務上,基于會議領域相關數據,在不影響通用翻譯的情況下平均提升9.22個BLEU,獲得較好應用成效。

不過會議場景下語音翻譯除了行業屬性帶來了的術語詞和行業用語翻譯問題之外,還面臨語音識別錯誤影響、演講人口語化影響,以及翻譯實時性等問題。未來我們將針對這些問題進行進一步研究,并探索不同的應用模式,提升會議場景下語音翻譯的可用性,為不同語言使用者之間的信息溝通交流提供幫助。

猜你喜歡
融合方法模型
一半模型
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
重要模型『一線三等角』
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 中美日韩在线网免费毛片视频| 91福利一区二区三区| 久久青青草原亚洲av无码| 91蜜芽尤物福利在线观看| 中国毛片网| 亚洲精品第1页| 2020国产精品视频| 福利视频一区| 国产偷倩视频| 国产精品一区二区国产主播| 啊嗯不日本网站| 国产成人91精品| 国产传媒一区二区三区四区五区| 99这里精品| 国禁国产you女视频网站| 亚洲欧洲日韩久久狠狠爱| 在线观看亚洲成人| a级毛片免费网站| 亚洲欧美另类日本| 喷潮白浆直流在线播放| 国产在线一区二区视频| 美女无遮挡拍拍拍免费视频| 国产精品夜夜嗨视频免费视频| 国产一国产一有一级毛片视频| 亚洲a免费| 2020精品极品国产色在线观看| 成人无码区免费视频网站蜜臀| 99热这里只有精品免费国产| 特黄日韩免费一区二区三区| 伊人久久久久久久久久| 亚洲国产成人精品青青草原| 日韩无码视频专区| 在线观看热码亚洲av每日更新| 日韩在线中文| 国产成人啪视频一区二区三区| 精品欧美视频| 日本精品αv中文字幕| 制服丝袜 91视频| 99re这里只有国产中文精品国产精品| 成人无码一区二区三区视频在线观看| 亚洲伊人天堂| 国产99热| 手机精品福利在线观看| 91免费国产高清观看| 欧美成人一级| 亚洲欧美日韩中文字幕在线一区| 在线免费a视频| 国语少妇高潮| 亚洲成人动漫在线| 成人精品免费视频| 亚洲黄色视频在线观看一区| 激情爆乳一区二区| 欧美成人精品一区二区| 欧美激情网址| 日本在线免费网站| 草逼视频国产| 美女亚洲一区| 69综合网| 日韩AV无码免费一二三区| 国产成人午夜福利免费无码r| 91精品专区国产盗摄| 特级毛片8级毛片免费观看| 丁香六月激情综合| 玩两个丰满老熟女久久网| 欧美在线伊人| 五月婷婷丁香综合| 亚洲精品欧美日本中文字幕| 亚洲欧州色色免费AV| 亚洲色图欧美在线| 成人午夜免费观看| 无码中字出轨中文人妻中文中| 成年人福利视频| 亚洲第一视频网站| 日本一区二区不卡视频| 91精品情国产情侣高潮对白蜜| 丁香亚洲综合五月天婷婷| 亚洲精品第五页| 啪啪免费视频一区二区| 国产成人精品男人的天堂下载| 99精品视频播放| 亚洲成A人V欧美综合天堂| 亚洲国产成人精品一二区|