999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LSTM 的交互式神經(jīng)機(jī)器翻譯方法研究

2020-12-22 10:36:44田紅楠
關(guān)鍵詞:模型系統(tǒng)

田紅楠, 郭 欣, 袁 偉

(1.河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院, 天津300130; 2.國家康復(fù)輔具研究中心秦皇島研究院, 河北 秦皇島 066000)

0 引言

在過去的幾年里,機(jī)器翻譯領(lǐng)域取得了很大的進(jìn)展,這主要?dú)w功于基于雙語語料的機(jī)器翻譯的進(jìn)步。現(xiàn)在,機(jī)器翻譯系統(tǒng)是許多用戶和公司有用的工具, 自動(dòng)提供質(zhì)量可接受的翻譯結(jié)果[1]。 系統(tǒng)仍然會產(chǎn)生錯(cuò)誤的翻譯,這是一些特定領(lǐng)域翻譯是不允許的。例如,醫(yī)療記錄的翻譯必須準(zhǔn)確無誤。 此外,翻譯問題有許多微妙之處,使得機(jī)器難以處理:話語充分性、照應(yīng)清晰度、特定領(lǐng)域的意義、文體形式等等。

在需要高質(zhì)量翻譯的場景中, 系統(tǒng)的輸出通常由翻譯人員檢查,由翻譯人員糾正機(jī)器翻譯系統(tǒng)所犯的錯(cuò)誤,這就是所謂的譯后編輯模式。在這樣的背景下,研究人員開始將目光轉(zhuǎn)換到交互式翻譯系統(tǒng)上,一方面,不同于普通的譯后編輯模式,在交互式機(jī)器翻譯系統(tǒng)中,翻譯人員在翻譯過程中與系統(tǒng)不斷交互直到生成譯員滿意的結(jié)果[2]。另一方面,通過交互的過程,機(jī)器翻譯系統(tǒng)可以自適應(yīng)修改參數(shù),提高模型的翻譯效果。

1 神經(jīng)機(jī)器翻譯

統(tǒng)計(jì)機(jī)器翻譯的原理是找出給定語言s,求解在給定源語言的情況下,目標(biāo)語言t 的概率最大的值p(t|s)。通過大規(guī)模雙語平行語料學(xué)習(xí),生成模型參數(shù),當(dāng)輸入源語言時(shí),通過優(yōu)化條件概率的最優(yōu)結(jié)果,生成譯文[3]:

神經(jīng)網(wǎng)絡(luò)方法在計(jì)算機(jī)視覺和自動(dòng)語音識別方面取得了成功,在機(jī)器翻譯中得到了應(yīng)用。 與統(tǒng)計(jì)機(jī)器翻譯的離散表示方法不同, 神經(jīng)機(jī)器翻譯采用連續(xù)空間表示方法表示詞語和句子。直接從源語言映射到目標(biāo)語言。大多數(shù)NMT 系統(tǒng)依賴RNN 編解碼框架:在編碼過程中,源語句被映射成分布式表示,模型如圖1 所示。

圖1 編碼器-解碼器模型

1.1 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)

傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)里,相互的輸入沒有關(guān)聯(lián),例如輸入為X=(x1,x2,…,xn),其中x 之間相互不影響,無論以何種方式進(jìn)行輸入,都不會對最終的結(jié)果產(chǎn)生影響。但是對于機(jī)器翻譯來說,翻譯一句話必須要考慮詞之間的聯(lián)系,從整體進(jìn)行把握。 RNN 是處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò), 每進(jìn)行一次計(jì)算的時(shí)候, 都會考慮前一刻的所包含的信息內(nèi)容,其展開網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。

其中當(dāng)前時(shí)間為t,輸入為xt,當(dāng)輸入xt和ht-1進(jìn)行變換后得到ht, 在經(jīng)過處理得到輸出Ot,同時(shí)將ht作為下一次的輸入,進(jìn)行計(jì)算,這里的三個(gè)權(quán)重矩陣U、V、W 在每一個(gè)時(shí)間步的計(jì)算中都是完全相同的:

通過公式我們可以發(fā)現(xiàn),RNN 中的輸出Ot, 是之前每一時(shí)間步影響的累加,通過將前一時(shí)刻的時(shí)間步ht-1作為輸入來進(jìn)行記憶。

圖2 RNN 展開圖

1.2 長短時(shí)記憶網(wǎng)絡(luò)(LSTM)

循環(huán)神經(jīng)網(wǎng)絡(luò)在實(shí)際操作中卻有一個(gè)很大的問題:當(dāng)模型需要處理的任務(wù)比較簡單時(shí),環(huán)神經(jīng)網(wǎng)絡(luò)就可以很好的利用到以前記憶的信息學(xué)習(xí);當(dāng)模型需要處理的任務(wù)比較復(fù)雜時(shí), 循環(huán)神經(jīng)網(wǎng)絡(luò)就很難利用之前記憶的信息,這時(shí)翻譯任務(wù)的效果就會比較差甚至?xí)?dǎo)致翻譯失敗。

由公式(4)可知,在訓(xùn)練RNN 的時(shí)候,損失函數(shù)的公式為(5),由此可知,損失函數(shù)為每一時(shí)刻損失值的累加,在進(jìn)行反向傳播的時(shí)候會出現(xiàn)梯度爆炸和梯度消失的情況,很難對RNN 進(jìn)行訓(xùn)練。

為了解決RNN 很難進(jìn)行訓(xùn)練的問題, 由Hochreiter和Schmihuber 于1997 年提出LSTM[4]。 將其引入標(biāo)準(zhǔn)RNN中解決梯度爆炸和梯度消失的問題, 在機(jī)器翻譯任務(wù)上取得了較好的表現(xiàn)。

如圖3 所示為LSTM 網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)圖,LSTM 與RNN具有相同的連接結(jié)構(gòu), 標(biāo)準(zhǔn)RNN 隱藏層中有一個(gè)網(wǎng)絡(luò)層,但是LSTM 在隱藏單元中使用三個(gè)門來控制信息。 每一個(gè)LSTM 中有三個(gè)輸入:當(dāng)前輸入xt,上一步的細(xì)胞狀態(tài)Ct-1,上一步隱藏層狀態(tài)ht-1。 σ 是激活函數(shù)sigmoid。

圖3 LSTM 內(nèi)部結(jié)構(gòu)圖

(1)遺忘門:決定會從細(xì)胞狀態(tài)中丟棄什么信息,見圖4。

圖4 遺忘門

圖5 輸入門

圖6 輸出門

根據(jù)ht-1和xt判斷儲存信息與當(dāng)前輸入的關(guān)聯(lián),決定輸出哪些信息。 首先用sigmoid 來確定細(xì)胞狀態(tài)的哪個(gè)部分將輸出去。然后將狀態(tài)Ct通過tanh 處理,得到一個(gè)在-1 到1 之間的值,然后和sigmoid 輸出相乘,最終會輸出我們確定輸出的那部分。

LSTM 能夠解決傳統(tǒng)標(biāo)準(zhǔn)RNN 中訓(xùn)練時(shí)的梯度爆炸和梯度消失問題,并且在翻譯任務(wù)上表現(xiàn)不錯(cuò)。

2 交互式神經(jīng)機(jī)器翻譯

交互式機(jī)器翻譯作為經(jīng)典的后編輯模式階段的一種替代,在交互式機(jī)器翻譯系統(tǒng)中,人類以一種解耦的方式糾正交互式翻譯系統(tǒng)的輸出。 在交互模式下,后編輯階段變成了一個(gè)迭代的人機(jī)協(xié)作過程:每次用戶做出修改,系統(tǒng)就會根據(jù)用戶的反饋生成新的翻譯。 交互式翻譯系統(tǒng)將翻譯引擎的效率與翻譯人員的知識相結(jié)合[5]。

如圖7 所示,在交互式機(jī)器翻譯的總體框架中,將源句輸入系統(tǒng),輸出翻譯結(jié)果。 接下來,翻譯人員修訂譯文并提供反饋信號。 交互式翻譯系統(tǒng)輸出一個(gè)新的翻譯結(jié)果,考慮到用戶的反饋。預(yù)計(jì)這個(gè)新的翻譯結(jié)果比之前的翻譯結(jié)果更好,因?yàn)橄到y(tǒng)有更多的信息。 然后,一個(gè)新的迭代開始。 這個(gè)迭代過程一直持續(xù)到用戶接受交互式翻譯系統(tǒng)輸出的譯文。

圖7 交互式翻譯總體過程

在標(biāo)準(zhǔn)的解碼翻譯過程中, 常常用束搜索(beam search)來提提高譯文質(zhì)量。 我們將討論在交互式機(jī)器翻譯中束搜索和貪婪搜索的區(qū)別:

(1)貪婪搜索:在貪婪搜索算法中,在翻譯每個(gè)字的時(shí)候, 直接選取當(dāng)前概率最大的候選項(xiàng)作為當(dāng)前的最優(yōu)值。在貪婪搜索算法中,從局部最優(yōu)解出發(fā)不一定能產(chǎn)生全局最優(yōu)解。

(2)束搜索:束搜索算法是對貪婪搜索算法的一個(gè)改進(jìn),將貪婪算法的搜索空間擴(kuò)大。束搜索方法對所提供的前綴譯文進(jìn)行強(qiáng)制解碼,然后對翻譯器進(jìn)行波束搜索,以選擇最優(yōu)的翻譯。相對于標(biāo)準(zhǔn)翻譯的束搜索,在神經(jīng)交互翻譯中,波束搜索將使用相同的前綴翻譯。

眾所周知,束搜索比模型能產(chǎn)生更好的翻譯質(zhì)量,如果沒有束搜索,計(jì)算成本會更高。

2.2 融合先驗(yàn)知識的交互式機(jī)器翻譯

在神經(jīng)機(jī)器翻譯中, 譯員翻譯后的標(biāo)準(zhǔn)翻譯內(nèi)容是寶貴的資料, 在交互式翻譯框架中融合譯員的先驗(yàn)知識對于提升交互式機(jī)器翻譯效果具有重大意義。 從這個(gè)意義上說,以前修改過的句子對以后的翻譯有很大的幫助。使用在線學(xué)習(xí)方法在同一個(gè)會話中從之前更正過的句子中學(xué)習(xí)[6]。

在線學(xué)習(xí)模式下,數(shù)據(jù)是按順序提供的,模型是遞增更新的。 典型的交互式翻譯場景與這些階段相適應(yīng):

(1)一個(gè)新的源句t 進(jìn)入交互式翻譯系統(tǒng)。

(2)交互式翻譯系統(tǒng)生成一個(gè)譯文yt。

(3)譯員修訂譯文,糾正系統(tǒng)所犯的錯(cuò)誤,以交互的方式翻譯源句,生成一個(gè)正確的翻譯。

(4)系統(tǒng)使用修正后的樣本來調(diào)整其模型,提高模型的準(zhǔn)確率。

如果訓(xùn)練語料庫足夠大, 機(jī)器翻譯就會有很好的效果[7]。但是獲得大量的平行語料庫是一個(gè)困難的。此外,對于特定領(lǐng)域的翻譯,我們需要該領(lǐng)域的數(shù)據(jù),但是獲取特定領(lǐng)域的數(shù)據(jù)也是很困難的。 一種常見的方法是在一個(gè)大型通用語料庫上訓(xùn)練一個(gè)模型, 然后使用特定領(lǐng)域內(nèi)的數(shù)據(jù)對其進(jìn)行微調(diào)。 但是有時(shí)候這種方法可能是無用的,例如還不知道應(yīng)用到哪些領(lǐng)域的情況下。 因此,在機(jī)器翻譯系統(tǒng)上應(yīng)用在線學(xué)習(xí)功能對于特定領(lǐng)域翻譯具有特殊意義。

神經(jīng)網(wǎng)絡(luò)最常見的訓(xùn)練方法是SGD, 可以直接應(yīng)用于在線學(xué)習(xí)。 機(jī)器翻譯系統(tǒng)的在線適應(yīng)可以使用MBGD優(yōu)化器來進(jìn)行在線學(xué)習(xí)。

對于一個(gè)訓(xùn)練樣本, SGD 根據(jù)目標(biāo)函數(shù)相對于權(quán)值θt的梯度方向更新參數(shù):

式中:▽1θt是1 相對于θt的梯度,并且ρ 是控制步長的學(xué)習(xí)速率。

這個(gè)更新規(guī)則依賴于對ρ 的仔細(xì)選擇。因此,所說的自適應(yīng)SGD 算法試圖通過動(dòng)態(tài)計(jì)算學(xué)習(xí)率來克服這種依賴性。

本文在在線學(xué)習(xí)中采用MBGD 優(yōu)化算法, 在修訂后的歷史譯文積累到一定量的時(shí)候,進(jìn)行模型參數(shù)優(yōu)化,做增量訓(xùn)練。MBGD 每一次利用一小批樣本,即n 個(gè)樣本進(jìn)行計(jì)算,和SGD 的區(qū)別是每一次循環(huán)不是作用于每個(gè)樣本,而是具有n 個(gè)樣本的批次。

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)數(shù)據(jù)及處理

在數(shù)據(jù)集上選取UNv1.0 中英雙語平行語料集,該平行語料庫由六個(gè)聯(lián)合國手冊手工翻譯而成, 選取其中大約10000 句作為測試集,10000 句作為驗(yàn)證集,500 萬句作為訓(xùn)練集。由于其中的語料是雙語的平行語料,需要對齊進(jìn)行標(biāo)準(zhǔn)化處理。

對中文語料需要對其進(jìn)行分詞處理, 本文采用jieba分詞工具對中文語料進(jìn)行分詞處理。 由于英文本身就是按照單詞進(jìn)行分隔的,所以不需要進(jìn)行分詞。但是需要將標(biāo)點(diǎn)符號用空格進(jìn)行分隔。 將中文和英文的詞表規(guī)模分別設(shè)置為3 萬。

3.2 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)環(huán)境如表1 所示,實(shí)驗(yàn)采用openNMT 開源機(jī)器翻譯框架,采用pytorch深度學(xué)習(xí)框架搭配GPU 進(jìn)行實(shí)驗(yàn)環(huán)境搭建和計(jì)算。在實(shí)驗(yàn)?zāi)P椭校捎胹eq2seq(序列到序列) 作為基礎(chǔ)架構(gòu),其中的編碼器和解碼器軍采用LSTM。

在線學(xué)習(xí)部分采用MBGD 算法, 當(dāng)譯員修訂了一批語料之后,采用這一批樣本進(jìn)行參數(shù)更新。譯員每次修改的歷史句子都會被存在MYSQL 數(shù)據(jù)庫中,當(dāng)檢測到積累的句子達(dá)到100 句的時(shí)候進(jìn)行增量訓(xùn)練, 并且把這一批句子進(jìn)行標(biāo)注,防止下次再次運(yùn)用進(jìn)行訓(xùn)練。

表1 實(shí)驗(yàn)環(huán)境

3.3 實(shí)驗(yàn)結(jié)果

表2 模型效果測試

在交互式翻譯中, 經(jīng)過譯員修改后的內(nèi)容在和系統(tǒng)交互之后, 翻譯的質(zhì)量有明顯的提升, 在進(jìn)行兩輪修改之后, 翻譯質(zhì)量已經(jīng)達(dá)到了很好的效果,見表2。

4 結(jié)束語

在交互式機(jī)器翻譯的過程中, 通過譯員修改過的錯(cuò)誤, 在放進(jìn)交互式翻譯系統(tǒng)進(jìn)行重新解碼后可以提高翻譯的質(zhì)量。 通過對翻譯人員修訂過的內(nèi)容對模型進(jìn)行增量訓(xùn)練,可以提高模型的效果,可以有效利用翻譯人員的先驗(yàn)知識,更好的時(shí)間人機(jī)協(xié)同。在交互式機(jī)器翻譯領(lǐng)域還有很有的領(lǐng)域需要研究, 利用記憶庫和交互式翻譯進(jìn)行協(xié)作,實(shí)現(xiàn)翻譯人員、先驗(yàn)知識、神經(jīng)網(wǎng)絡(luò)三方面進(jìn)行協(xié)同。

猜你喜歡
模型系統(tǒng)
一半模型
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機(jī)系統(tǒng)
ZC系列無人機(jī)遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
基于PowerPC+FPGA顯示系統(tǒng)
半沸制皂系統(tǒng)(下)
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
3D打印中的模型分割與打包
主站蜘蛛池模板: 中文纯内无码H| 欧美天天干| 久久96热在精品国产高清| 日韩精品无码一级毛片免费| 啊嗯不日本网站| 51国产偷自视频区视频手机观看| 四虎影视无码永久免费观看| 深夜福利视频一区二区| 亚洲国产欧美自拍| 色综合狠狠操| 久久久噜噜噜久久中文字幕色伊伊| 沈阳少妇高潮在线| 伊人精品视频免费在线| 日韩国产欧美精品在线| 福利在线一区| 国产噜噜在线视频观看| 欧美一区二区三区欧美日韩亚洲| 免费看a级毛片| 香蕉网久久| 欧美日韩国产系列在线观看| 成人午夜久久| 成年网址网站在线观看| 亚洲 欧美 日韩综合一区| 呦视频在线一区二区三区| 免费久久一级欧美特大黄| 美女内射视频WWW网站午夜| 久久久久国产精品嫩草影院| 国产亚洲精品自在久久不卡| 国产精品久久久久鬼色| 精品国产一区二区三区在线观看 | 免费看的一级毛片| 精品一区二区三区自慰喷水| 99re热精品视频国产免费| 九九精品在线观看| 视频国产精品丝袜第一页| 国产成人精品一区二区免费看京| 漂亮人妻被中出中文字幕久久| 伊人蕉久影院| 香蕉99国内自产自拍视频| 国产午夜小视频| 国产精品精品视频| 亚洲二区视频| 欧美全免费aaaaaa特黄在线| 国产精品性| 精品一区二区三区无码视频无码| 99久久国产自偷自偷免费一区| 国产一级裸网站| 亚洲精品中文字幕无乱码| 欧美成a人片在线观看| 日韩美毛片| 欧美视频在线第一页| 国产激情无码一区二区三区免费| 午夜在线不卡| 亚洲天堂网在线播放| 亚洲天天更新| 亚洲Aⅴ无码专区在线观看q| 欧美视频在线播放观看免费福利资源| 日日拍夜夜嗷嗷叫国产| 欧美a在线看| 亚洲国产成人久久精品软件| 99久久精品国产自免费| 欧美一道本| 五月激情婷婷综合| 欧美日韩免费观看| 久久精品最新免费国产成人| 呦女亚洲一区精品| 亚洲爱婷婷色69堂| 国产午夜福利亚洲第一| 欧美成人影院亚洲综合图| 久99久热只有精品国产15| 日本五区在线不卡精品| 91精品人妻互换| 国产精品视频3p| 久久久波多野结衣av一区二区| 婷婷成人综合| 欧美精品伊人久久| 国产精品久久久久久久久久98 | 国产精品人人做人人爽人人添| 国产资源免费观看| 亚洲国产精品一区二区第一页免 | 色天天综合久久久久综合片| 四虎亚洲国产成人久久精品|