999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

譯者視角的當代機器翻譯發展綜述

2020-03-23 06:00:15郁林音
現代交際 2020年4期

郁林音

摘要:為了進一步打破機器翻譯研究領域中翻譯學科與計算機學科之間的界限,從譯者視角概括了機器發展的主要脈絡、當今神經網絡機器翻譯發展的現狀和新動向,總結了現有神經機器翻譯的實際應用,從譯者角度分析其優勢和弱項,并提出對未來神經機器翻譯發展的展望和建議,希望能幫助廣大譯者更深入地了解這一新技術。

關鍵詞:機器翻譯 翻譯理論與實踐 神經機器翻譯 谷歌翻譯 譯者視角

中圖分類號:H085 ?文獻標識碼:A ?文章編號:1009-5349(2020)04-0071-03

近年來人工智能的發展備受翻譯界矚目,機器翻譯是否會取代人類這一命題在業內也被廣泛討論。事實上,機器翻譯并不是科技的最新產物,而是有著悠久歷史的。在經歷了萌芽期、停滯期、飛速發展時期的傳統機器翻譯,于21世紀蛻變,發展為神經網絡機器翻譯。

神經網絡機器翻譯以具有深度學習功能的深度神經網絡為基礎,突破傳統統計型機器翻譯的算法,利用編碼器—解碼器框架的循環神經網絡,改進傳統機器翻譯的質量和速度,同時打破傳統機器翻譯受字典限制和人工制定規則的局限性,自2014年后發展迅猛,日新月異。

神經網絡機器翻譯被認為是計算機學科下的分支,然而其自然語言處理部分與外語工作者、譯者也有密不可分的關系。當代神經機器翻譯蓬勃發展,譯者需要打破自身學科界限,積極接觸了解這一新興科技。

從譯者視角,整合機器翻譯相關文獻,形成了機器發展的歷程及現狀的綜述,希望為剛涉足神經網絡機器翻譯的譯者提供簡要的知識框架。

一、機器翻譯發展歷程

機器翻譯出現的最早標志是1954年美國喬治敦大學和IBM公司合作利用IBM-701計算機首次完成英俄機器互譯的實驗。1966年ALPAC(Automatic Language Processing Advisory Committee)發表的報告全盤否定機器翻譯的可行性,機器翻譯發展進入停滯階段。1975年至1989年,國與國之間頻繁的科技情報交流和各國語言障礙對機器翻譯的需求日漸上升,機器翻譯進入快速發展時期(劉群,2009:147)。

機器翻譯的類型由不同的知識獲取方式可分為:基于規則的機器翻譯和基于語料庫的機器翻譯。后者根據學習方法又可分為基于實例的機器翻譯和統計型機器翻譯兩種(趙紅梅,劉群,2010:36)。

1.基于規則的機器翻譯(Rule-Based Machine Translation)

20世紀70年代,語言學和人工智能研究的發展背景下,基于規則的機器翻譯(RBMT)應運而生。RBMT的實現依賴雙語詞典和針對每種語言制定的語言規則,運用實例為PROMPT和Systran。RBMT的翻譯方法主要有三種:直接翻譯法、轉換翻譯法、中間語言法。直接翻譯法將語句劃分為單詞,通過簡單變形套用語法形成句子,對語言規則的依賴度高。轉換翻譯法先確定譯文語法,再確定句法,最后形成譯文。中間語言法基于法國哲學家笛卡爾(Rene Descartes)提出的中間語言(interlingua)形成,將每種語言轉化為中間語言,再由中間語言轉化為目的語。RBMT由于對語言規則的依賴度高,制定語言規則的工作量因而繁復巨大,且對同音異義詞的理解難度較高,有很大的局限性。

2.基于實例的機器翻譯(Example-Based Machine Translation)

1984年京都大學長尾真學者提出了EMBT。該觀點認為,可以通過向機器輸入現有翻譯、找出已有翻譯和當前翻譯任務的差異、替換有差異的詞匯來實現機器翻譯(Makoto Nagao,1984:353)。此種觀點彌補了RBMT語言規則的缺陷。

3.統計型機器翻譯(Statistical Machine Translation)

最早的統計型機器翻譯系統(SMT)由IBM公司于1990年提出(Brown et al。1990:76)。該系統分析兩種語言之間的相似性,學習文本模式,而非學習整體規則及語言學。SMT用切割句子、匹配單字、計算次數、選取次數最多的方式翻譯。最初的SMT的翻譯方法以單詞為基礎,后改進為基于短語統計、修改并重新排序,最后升級為基于語法的統計翻譯。在神經網絡機器翻譯出現前,基于語法的統計型機器翻譯一度被視作翻譯界的未來。

4.神經網絡語言模型(Neural Network Language Model)

2003年,神經網絡語言模型(NNLM)由Y.Bengio等人首次提出。由于機器在自然語言的自動處理和學習中需要將自然語言數學符號化,將詞匯“嵌入”一個固定的實數維度空間,實現向量化(Y.Bengio,2003:1138)。以往所用的one-hot表示法無法體現兩個詞的相互依賴程度,因而Bengio等人提出用增加詞向量層解決這一問題。(徐昊,易綿竹,2019:21)此種模型,將上下文的詞向量序列轉換成上下文隱藏向量,長度固定,不必儲存不同詞語的排列組合信息,從而改進傳統機器翻譯受字典存儲限制的問題,(陳晨等,2019:1441)也為后續神經網絡機器翻譯的發展奠定了基礎。

二、神經網絡機器翻譯發展現狀

神經網絡機器翻譯(Neural Machine Translation)是人工智能深度學習在神經網絡語言模型上的發展和延伸。許多研究表明,神經網絡可以成功地應用于自然語言處理(NLP)中的許多任務。這些包括但不限于語言建模(Bengio et al.,2003)、意譯檢測(Socher et al.,2011)和單詞嵌入提取(Mikolov et al.,2013)。2016年,Junczys-Dowmunt M等人研究了機器翻譯的30種語言間的翻譯,發現NMT在27種語言的翻譯上都優于SMT。

近年全球流行的谷歌等NMT主要采取的是端到端(End to End)分支下序列到序列(Sequence to Sequence)的機器翻譯,其主要編解碼模型采用的是深度神經網絡(Deep Neural Networks)中的循環神經網絡(Recurrent Neural Network)。現代神經機器翻譯的基本思路是運用端到端的神經網絡實現自然語言間的自動轉換,通常采用“編碼器—解碼器(Encoder-Decoder)”的結構實現其序列到序列的轉換(Zhang J et al.,2015)。

1.序列到序列的編碼器—解碼器翻譯模型

序列到序列(Sequence to Sequence)這一理念是2014年由Sutskever等人提出的,為解決DNNs只適用于輸入和目標可以用固定維數的向量合理編碼這一局限性,因為許多重要的問題都需要通過長度不受限的序列來表達,例如語音識別和機器翻譯都是有關序列的問題。

序列到序列的模型,實際上是循環神經網絡的進階版,通過兩個神經網絡實現,一個循環神經網絡負責接收源語言,另一個循環神經網絡負責轉化并輸出目的語言。這兩個神經網絡分別被稱為編碼器和解碼器。

相較于傳統的SMT模型,編碼器解碼器的翻譯框架有兩大優勢:一是能直接從數據中學習特征,將句法不同語義相近的句子整合到一起,也能區分句法相同語義不同的句子。二是能通過長短時記憶(LSTM)的RNN更加有效地利用上下文資源,使機器翻譯的譯文更具流暢性、可讀性。

2.加入注意力機制的序列到序列學習

然而,這種編碼器—解碼器的模式有一個潛在問題:神經網絡需要將源語言的所有必要信息壓縮成一個有固定長度的向量,而這會使神經網絡難以處理長句子,尤其是比訓練語料庫中句子更長的句子。為此,Bahdanau等人在Sutskever的基礎上,在這種模式中添加了注意力機制(attention mechanism),解碼器決定賦予源語言的哪部分注意力,從而將編碼器不必再負擔著將源語句中的所有信息編碼為固定長度向量的難題(Bahdanau et al.,2015)。使用這種新方法,信息可以在整個注釋序列中傳播,而相應的解碼器可以有選擇地檢索這些注釋,對解決機器翻譯中長難句的翻譯問題有所幫助。Bahdanau后,2015年Luong將注意力機制細分為全局注意力(global attention)和局部注意力(local attention),進一步改進了注意力機制。

三、神經網絡機器翻譯的應用成果

盡管NMT在2013年到2015年有了初步的發展框架,其系統翻譯性能仍然只是與SMT相去不遠。然而,自2016年開始,NMT開啟了飛速發展時代,其翻譯水平也遠超SMT。國內外多家高新科技公司也在大力研究開發,并取得了豐富成果。

1.Google GNMT

谷歌公司于2016年發布了技術報告,谷歌神經網絡翻譯系統GNMT問世。GNMT的問世直接受Cho等人于2014年發表的基于RNN的編碼器—解碼器的翻譯模式的啟發;它的出現和運用致力于消除人類翻譯和機器翻譯之間的差別,其出現本身也推動了“序列到序列”的映射模式的開創。該報告指出,GNMT以前的神經機器翻譯有三個固有弱點,導致實踐中NMT系統的準確性比基于短語的機器翻譯系統差:訓練和推理速度慢,處理罕見詞效率低,漏譯。

GNMT模型仍以帶注意力機制的編碼器—解碼器的RNN模型為框架,由一個有8個編碼器和8個解碼器層的深度LSTM網絡組成,使用剩余連接以及從解碼器網絡到編碼器的注意連接。為了提高并行度,減少訓練時間,GNMT的注意力機制將解碼器的底層連接到編碼器的頂層。運用低精度算法以提高最終的翻譯速度。為了解決罕見詞處理效率問題,GNMT將罕見詞拆分成子詞(sub-word)單元進行處理(Yonghui Wu et al.,2016)。如今,翻譯準確率已有顯著提高,能為客戶帶來更好的體驗,英法、英西互譯準確率已達90%,中英互譯也已達到80%。

2.Microsoft Translator

2016年,微軟旗下語音翻譯工具Microsoft Translator的各大復語互譯也改用神經網絡驅動。2019年,微軟公司發布了有關WMT19的新聞翻譯任務的報告,該報告中體現的翻譯思維具有創新意義,提出了與先前編碼器—解碼器框架不同的概念。WMT19上,微軟的主要關注點是使用深層轉換器模型的文檔類的神經機器翻譯。從強大的句子級基線開始,訓練通過數據過濾和嘈雜的回譯(Noisy Back-Translation)創建的大規模數據,并發現回譯似乎主要幫助翻譯的輸入;同時微軟還探索微調技術,以更深層次的模型和不同的集成策略來對抗這些影響。利用真實和合成的并行數據中的文檔邊界,創建了多達1000個子單詞片段的序列,并訓練了變壓器翻譯模型(Junczys-Dowmunt,2019)。

3.網易有道神經網絡翻譯(YNMT)

2017年全球移動互聯網大會上,網易宣布自主研發的YNMT翻譯軟件問世。有道神經網絡翻譯相比GNMT及國內各大翻譯工具有兩大優勢:一是數據積累。有道作為國內第一批提供機器翻譯服務的互聯網公司,已經有十多年的歷史,多年來一直專注于中外互譯,通過不斷提高質量吸引了大量的用戶,積累的大量的數據和語料庫,不斷推進自己的NNLM的優化。二是目標更為專注。相比谷歌公司的全球性質的翻譯任務,有道專注于中文與其他語言的互譯,更精通漢語運用習慣。BLEU評測結果顯示,有道的中外互譯翻譯質量高于同類翻譯系統。

4.科大訊飛翻譯機

科大訊飛公司長期致力于機器翻譯的研究,基于NMT基本框架,實現中外多種語言間的流暢互譯。2018年科大訊飛陷入同傳造假門,承認機器朗讀與機器同傳間仍然存在巨大差異。此后,科大訊飛對翻譯機的未來發展提出了三個方向的預期:一是在數學基礎算法上持續突破,二是將數學統計建模方法與腦科學深度結合,三是人機耦合提高其翻譯精度。

5.搜狗翻譯

搜狗神經網絡翻譯SNMT也采用業界主流的帶注意力模塊的RNN多層編碼器—解碼器翻譯模式。于2017年9月機器翻譯大賽中增設的中英新聞數據機器互譯任務中獲得冠軍。

除此之外,國內主要神經機器翻譯還有阿里巴巴翻譯和騰訊翻譯等。神經網絡機器翻譯的引入和蓬勃發展,體現了我國在機器翻譯領域由借鑒向自主研發的轉型,是我國語言研究領域的又一進步。

四、譯者視角的機器翻譯現存問題及發展前景

盡管NMT的發展自2016年以來已經進入了繁榮階段,其發展仍有諸多缺陷:一是國內外研究成果不透明;二是NMT的發展仍局限于語法和語義上的辨析,文字情感上的分析和表達仍未解決;三是NMT對于術語、罕見詞、長句的翻譯可讀性仍待提升;四是從相關文獻作者及內容來看,中國譯者對NMT的發展知之甚少,NMT的發展需要譯者的配合,應進一步向譯者普及這一技術。

NMT的出現順應時代的發展,隨著關注度的上升,其研究熱度也會不斷上漲。對于譯者而言,NMT距離取代人類譯者尚有較大距離;與其擔憂惶恐,不如嘗試了解、學習并利用這門技術。近年來,人工譯后編輯和人機耦合的神經網絡翻譯模式成為大勢,NMT的翻譯成果評析、翻譯結果改進、譯后編輯等工作都與人類譯者緊密聯系。人工智能輔助翻譯也將成為翻譯界的熱門新興行業之一。

參考文獻:

[1]Bahdanau D,Cho K,Bengio Y.Neural machine translation by jointly learning to align and translate[J].arXiv preprint arXiv:1409.0473,2014.

[2]Brown P F,Cocke J, Della Pietra S A,et al.A statistical approach to machine translation[J].Computational linguistics,1990,16(2):79-85.

[3]Bengio Y,Ducharme R, Vincent P,et al. A neural probabilistic language model[J].Journal of machine learning research,2003,3(Feb):1137-1155.

[4]Cho K,Van Merri?nboer B, Gulcehre C,et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[J].arXiv preprint arXiv:1406.1078,2014.

[5]Junczys-Dowmunt M,Dwojak T, Hoang H. Is neural machine translation ready for deployment?A case study on 30 translation directions[J].arXiv preprint arXiv:1610.01108,2016.

[6]Junczys-Dowmunt M.Microsoft Translator at WMT 2019:Towards Large-Scale Document-Level Neural Machine Translation[C]//Proceedings of the Fourth Conference on Machine Translation(Volume 2:Shared Task Papers,Day 1),2019:225-233.

[7]Luong M T,Pham H, Manning C D.Effective approaches to attention-based neural machine translation[J].arXiv preprint arXiv:1508.04025,2015.

[8]Mikolov T,Sutskever I,Chen K,et al. Distributed representations of words and phrases and their compositionality[C]//Advances in neural information processing systems.2013:3111-3119.

[9]Nagao M.A framework of a mechanical translation between Japanese and English by analogy principle[J].Artificial and human intelligence,1984:351-354.

[10]Socher R,Huang E H,Pennin J,et al.Dynamic pooling and unfolding recursive autoencoders for paraphrase detection[C]//Advances in neural information processing systems,2011:801-809.

[11]Wu Y,Schuster M,Chen Z,et al.Google's neural machine translation system:Bridging the gap between human and machine translation[J].arXiv preprint arXiv:1609.08144,2016.

[12]Zhang J,Zong C.Deep Neural Networks in Machine Translation: An Overview[J].IEEE Intelligent Systems,2015,5(30):16-25.

[13]陳晨,朱晴晴,嚴睿,等.基于深度學習的開放領域對話系統研究綜述[J].計算機學報,2019,42(7):1439-1466.

[14]馮志偉.自然語言機器翻譯新論[M].北京:語文出版社,1994.

[15]劉群.機器翻譯研究新進展[J].當代語言學,2009, 11(2):147-158+190.

[16]蘇放,王曉宇,張治.基于注意力機制的評論摘要生成[J].北京郵電大學學報,2018,41(3):7-13.

[17]徐昊,易綿竹.神經網絡語言模型的結構與技術研究評述[J].現代計算機,2019(19):18-23.

[18]趙紅梅,劉群.機器翻譯及其評測技術簡介[J].術語標準化與信息技術,2010(1):36-45.

責任編輯:楊國棟

主站蜘蛛池模板: 亚洲中文字幕23页在线| 98超碰在线观看| 亚洲aaa视频| 亚洲国产精品一区二区第一页免 | 国产成人亚洲精品蜜芽影院| 色婷婷天天综合在线| 国产欧美日韩另类精彩视频| 成人永久免费A∨一级在线播放| 欧美一区中文字幕| 制服丝袜 91视频| 亚洲男人的天堂久久香蕉网| 一级毛片高清| 亚洲精品成人7777在线观看| 欧美日韩91| 亚洲毛片在线看| 亚洲午夜国产精品无卡| 999福利激情视频| 国产99视频精品免费视频7| 午夜日韩久久影院| 久久精品波多野结衣| 呦女精品网站| 日韩天堂视频| 亚洲天堂区| 免费AV在线播放观看18禁强制| 99热线精品大全在线观看| 米奇精品一区二区三区| 国产欧美日韩另类精彩视频| 精久久久久无码区中文字幕| 免费a级毛片18以上观看精品| 日日噜噜夜夜狠狠视频| 天天色天天综合网| 国产尹人香蕉综合在线电影 | 亚洲国产成人综合精品2020| 国产第一色| 香蕉视频在线观看www| 国产女人在线| 国产精品一区在线麻豆| 国产网站免费看| 曰AV在线无码| 六月婷婷激情综合| 亚洲欧美另类色图| 超碰aⅴ人人做人人爽欧美 | 91伊人国产| 亚洲高清日韩heyzo| 国产精品成人免费视频99| 色综合天天操| 欧美视频在线第一页| 国产精品夜夜嗨视频免费视频| 97精品国产高清久久久久蜜芽| 国产精品久久久久久久伊一| 超清无码一区二区三区| 欧美精品成人一区二区在线观看| 色国产视频| 久久精品国产999大香线焦| 亚洲乱伦视频| 日本妇乱子伦视频| 色吊丝av中文字幕| 国产亚洲精品自在线| a级高清毛片| 色综合国产| 中文一级毛片| 91小视频在线| 亚洲欧美另类视频| 久久中文字幕2021精品| 91久久偷偷做嫩草影院免费看| 久久这里只有精品8| 国产精品免费露脸视频| 在线免费看片a| 精品国产免费观看一区| 亚洲色图欧美| 亚洲一级毛片| 亚洲成人一区二区三区| 国产成人a在线观看视频| 国产毛片久久国产| 成年免费在线观看| 毛片在线播放网址| 欧美黄网在线| 亚洲av无码成人专区| 日本久久久久久免费网络| 1级黄色毛片| 国产95在线 | 日韩av资源在线|