999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器翻譯的終極之路在哪里(下)

2020-03-26 09:29:25
中國信息技術教育 2020年6期
關鍵詞:人類語言模型

編者按:據不完全統計,世界上現存語言超過7000多種,即使人類不眠不休窮盡一生也只能掌握幾十種語言。于是,很多科學家開始思考如何用機器來幫助人們解決溝通問題,因此機器翻譯應運而生。那么,什么是機器翻譯?機器翻譯是如何發(fā)展的?目前還有哪些應用呢?接下來,我們將共同了解這些內容。

主持人:

倪俊杰? 浙江省桐鄉(xiāng)市鳳鳴高中

嘉? 賓:

劉宗凡? 廣東省肇慶市四會中學

邱元陽? 河南省安陽縣職業(yè)中專

金? 琦? 浙江師范大學附屬中學

楊? 磊? 天津市第五中學

邵建勛? 浙江省義烏市上溪中學

倪俊杰:在上一期中,我們介紹了機器翻譯的發(fā)展歷程以及它的基本應用。關于機器翻譯的類型,大致可以分為基于規(guī)則的方法、基于統計的方法和基于神經網絡的方法三種。受篇幅的限制,有關上述方法的原理及背后底層技術在上一期未能展開。但隨著機器翻譯越來越生活化,似乎讀者們對機器翻譯的“真面目”還想繼續(xù)深入了解,特別是最近很火的神經網絡。除此之外,有關機器翻譯在生活中的應用還有哪些方式,也是讀者們關心的問題。為此,本期我們將延續(xù)上期話題,繼續(xù)探討有關機器翻譯的故事。

神經網絡機器翻譯模型

倪俊杰:據相關新聞報道,神經網絡機器翻譯(NMT)與其他機器翻譯技術相比,可以使翻譯質量提升30%,同時解決了遠距離語言的復雜性問題。那么,關于神經網絡機器翻譯的模型,還有哪些值得關注呢?

邱元陽:關于神經網絡機器翻譯,確實有很多值得研究。2016年年底,因為Google公司率先公布了神經網絡機器翻譯,從此宣告機器翻譯正式從1989年的IBM機器翻譯模型過渡到了神經網絡機器翻譯模型(已經極大地接近普通人的翻譯水平)。為什么谷歌的神經網絡翻譯系統(GNMT)有這么強大的能量呢?原因是它巧妙地結合循環(huán)神經網絡(RNN)和編碼(Encoding)建立了一個能夠自學的翻譯系統,通過這個系統來實現更多精確的上下文翻譯,而不是一次翻譯一個單詞的破碎句子。深度學習模型也能使用它來學習,可以在無任何人為干預的情況下實現兩種語言之間的翻譯。

楊磊:這里我來著重介紹一下神經網絡機器翻譯的模型。人類語言可以表示為時間序列數據,即指在不同時間點上收集到的數據,這類數據反映了某一事物、現象等隨時間的變化狀態(tài)或程度,后面的數據跟前面的數據有關系。由于RNN可以有效地處理時間序列數據,所以,自然語言處理的各個領域越來越多地使用RNN。編碼過程就是利用RNN將輸入的一段文字轉換成一系列數字,用這些“特殊”的數字來表征非常復雜的對象(一句話或一段文字)。這樣比較兩種不同的語言就相對容易了,因為我們只要去比較那組“特殊”數字就可以,不需要比較完整的文字。我們可以再用另一個RNN,把這些數字再次轉換,轉換后的結果可以是輸入的原句,也可以是其他的語言,甚至還可以是一張圖片,這個過程的結果,取決于使用何種語料庫(數據集)。模型通過訓練網絡獲得編碼和解碼過程中的兩個RNN的權值,最終構建出一個翻譯網絡,全過程如圖1所示。GNMT利用深度學習方法不依賴于對人類語言規(guī)則的了解,模型本身清楚這些規(guī)則,這意味著不需要專家調整翻譯流程中的步驟,計算機就能做到這些,更有趣的是,如果有合適的訓練數據集,大部分序列到序列問題都可以采用該模型。

機器翻譯領域還有很多優(yōu)秀的模型,統計機器翻譯(SMT)也是其中的佼佼者。SMT是首先為語言的產生構造某種合理的統計模型,根據統計模型,定義模型參數,并設計參數估計算法,也就是把翻譯當成統計幾率,利用平行語料,然后逐字進行統計。例如,機器雖然不知道“病毒”的英文是什么,但是在大多數的語料統計后,會發(fā)現只要有“病毒”出現的句子,對應的英文例句就會出現“virus”這個詞。

最新的研究用生成對抗網絡(GAN)與神經機器翻譯(NMT)兩者結合到一起提出了一種新的框架 Adversarial-NMT,也得到了很好的實驗效果。相信,隨著研究的不斷深入和商業(yè)領域的創(chuàng)新實踐,機器翻譯將會給我們的學習生活帶來更多驚喜。

在線翻譯網站應用

倪俊杰:語言的魅力,有時候連人類都無法參透,更何況是機器翻譯呢?既然機器翻譯是靠技術支撐的,那么技術的選擇或者算法優(yōu)劣也會對翻譯的效果產生影響。目前市面上做機器翻譯的企業(yè)非常多,具體哪家最好,到底該如何分辨呢?

劉宗凡:從20世紀50年代開始興起的機器翻譯,經歷了基于規(guī)則的方法、統計機器翻譯的過程,隨著人工智能的發(fā)展,現在已經走入神經網絡機器翻譯的繁榮時期。我國在20世紀90年代后,在機器翻譯上也取得了不錯的成就,特別是在近年一眾互聯網公司的不斷推動下,商用機器翻譯逐漸邁入了實用化階段。

比如,百度在2010年開始進入機器翻譯領域,2011年百度機器翻譯上線。百度翻譯所研發(fā)的深度學習與多種主流翻譯模型相融合的在線翻譯系統以及基于“樞軸語言(pivotlanguage)”等技術的翻譯系統,處于業(yè)內領先水平。2017年底,百度翻譯被MIT Tech Review(《麻省理工科技評論》)評選為2018年世界十大突破技術。網易是我國最早涉足機器翻譯的公司,網易有道在互聯網用戶中擁有很好的口碑,它于2011年創(chuàng)立網易感知與智能中心,2014年關注神經網絡翻譯,2017年自主研發(fā)的神經網絡翻譯系統正式上線。騰訊、科大訊飛、阿里巴巴等公司在機器翻譯方面也投入了很多精力,他們的機器翻譯技術也在全球購物、同聲傳譯等方面起了至關重要的作用,在全球機器翻譯領域處于第一梯隊地位。

準確、優(yōu)美的翻譯,是人工智能的終極目標之一。目前的機器翻譯雖然取得了長足進展,但離準確、優(yōu)美還有很長的一段路要走。我們用目前最流行的幾個在線機器翻譯系統來翻譯一段《魯濱孫漂流記》中比較簡單的文字,至于翻譯結果的正確性和可讀性,留給讀者自己來評論。圖2~圖5分別是百度、谷歌、金山詞霸、有道翻譯的結果,下面這段是人工翻譯:

I had two elder brothers, one of whom was lieutenant-colonel to an English regiment of foot in Flanders, formerly commanded by the famous Colonel Lockhart, and was killed at the battle near Dunkirk against the Spaniards. What became of my second brother I never knew, any more than my father or mother knew what became of me.(我有兩個哥哥,大哥是駐佛蘭德的英國步兵團中校。著名的洛克哈特上校曾帶領過這支部隊,大哥是在敦刻爾克附近與西班牙人作戰(zhàn)時陣亡的。至于二哥的下落,我至今一無所知,就像我父母對我后來的境況也全然不知一樣。)

除了在線翻譯系統,機器翻譯在同聲傳譯方面也逐漸進入實用性階段,為人們出國旅游、學習外語等提供了極大的方便。科大訊飛公司的“訊飛翻譯機”目前已經可以實現粵語、四川話、東北話、河南話等方言和33種外語的實時翻譯以及中英、中日、中韓、中俄四種語言的離線翻譯。“搜狗翻譯寶”“漢王翻譯機”“小米、小愛老師”等產品基本都能滿足出國旅游的日常翻譯,與手機上的翻譯APP相比,這些產品大多支持離線翻譯,更方便、更穩(wěn)定。

手機翻譯APP應用

倪俊杰:既然介紹了機器翻譯的在線翻譯網站應用,我們就來了解一下手機APP端有哪些好的應用。

邵建勛:機器翻譯技術日新月異,并在逐步深入地改變我們的生活。在實踐中,有不同國籍的醫(yī)學專家借助機器翻譯通過視頻合作完成手術,也有不少網店利用機器翻譯把產品和企業(yè)介紹翻譯成外語,節(jié)省了一大筆翻譯的開支。目前應用最廣泛的應該是“隨身譯”,各大公司都推出了自己的隨身譯手機APP。

下面簡單介紹一下這5款手機APP的功能,這5款APP功能類似,基本都能滿足普通外出交流的需求,又都有自己的特色。

①“搜狗翻譯”,界面清爽,主要功能一目了然,有語音翻譯、拍照翻譯、文檔翻譯和推薦閱讀等功能。推薦閱讀欄目,主要是一些簡單場景、新聞、名人名言,可以聽語音,可以查看譯文。特色是文檔翻譯,支持PDF、DOC、DOCX格式,限10M內。

②“有道翻譯官”,有拍照翻譯、對話、同傳,也支持文檔翻譯,拍照翻譯速度和準確度都不錯,同傳的斷句不是很好,體驗稍差,主界面可以很快捷地查看翻譯歷史記錄。

③“翻譯全能王”,功能比較多,集合了百度、谷歌、必應網頁版的在線翻譯,同時也有拍照翻譯、語音翻譯、對話翻譯等功能,還有“每日一句”“日常口語”等。

④“百度翻譯”,有“取詞”功能、拍照翻譯、對話翻譯,還有比較有特點的菜單翻譯、實物翻譯等,取詞翻譯靈敏度很高,實際使用非常方便。

⑤“騰訊翻譯君”,包括對話翻譯、練聽說、看世界等,對話界面可以上拉進入同聲傳譯,UI界面和交互設計都很好,經過測試,效果比有道翻譯官要好。“練聽說”欄目小視頻跟讀的學習資源比較豐富,分類比較細,包括動漫、教育、紀錄片、電影、電視劇、綜藝等,可以主句跟讀,練聽力,練口語。特色是“看世界”欄目,全部是10多秒的短視頻,類似抖音,全是英文的,十分有趣。

機器翻譯競賽

倪俊杰:可能很多人不知道,在機器翻譯領域也有世界級的競賽——WMT(全稱為Workshop on Machine Translation(http://www.statmt.org/wmt19/),是全球學術界公認的國際頂級機器翻譯比賽)。那么,這項競賽是如何組織的?近幾年來賽況如何呢?

邵建勛:WMT是由國際計算語言學協會ACL(The Association for Computational Linguistics)舉辦的。這是一年一度的機器翻譯競賽,自2006年至今,WMT機器翻譯比賽已經成功舉辦14屆,每一次比賽都是全球各大高校、科技公司與學術機構展示自身機器翻譯實力的較量。在2018年的競賽中,阿里巴巴達摩院獲得5個項目的自動評測第一名,他們充分利用了阿里計算資源優(yōu)勢,基于業(yè)界最新的Transformer結構,進行了網絡的改進和對詞語位置信息的充分利用,全面改進了機器翻譯的性能。2019年的WMT19比賽,微軟亞洲研究院成了最大的贏家,競賽類別共19個,微軟參與了其中11個,并奪得了8個類別的冠軍(如圖6),微軟亞洲研究院的神經網絡機器翻譯算法的表現遙遙領先于其他參賽隊伍。

國際上,谷歌整合神經網絡正在顛覆性地改變機器翻譯,Facebook的開源機器翻譯框架(Fairseq模型),全新無監(jiān)督機器翻譯法也展示出了“獠牙”,還有亞馬遜、蘋果等一大批高科技公司都在暗中較勁。在國內,搜狐旗下的搜狗在2017年拿下WMT冠軍后,又拿下IWSLT機器翻譯頂級評測大賽冠軍,網易旗下的有道翻譯在某些場景下的翻譯擊敗了谷歌,科大訊飛也屢次獲得國際口語機器翻譯評測大賽冠軍,中國AI逐漸向世界展示我們的智慧。

人類還需要學習外語嗎?

倪俊杰:隨著機器翻譯技術的不斷進步,不少公司也宣稱其產品的機器翻譯水平已經達到了人類水平,正所謂“一機在手,世界任你走。” 那么,機器翻譯真的能達到人類水平嗎?人類還需要學習外語嗎?

金琦:隨著機器翻譯的發(fā)展,最先受到沖擊的是口譯同傳行業(yè)。口譯對反應速度和短時記憶能力要求很高,而機器在反應速度上遠超過人類。但是筆譯行業(yè),機器翻譯是很難替代的,一般來說,同傳要求準確翻譯80%就能及格,而筆譯是要求100%。機器翻譯處理長句子、復雜語法和文學語言的能力目前還不如人類。

雖然語音識別和機器翻譯技術都在飛速發(fā)展,但是到目前為止,我們使用機器翻譯處理大段文字或整個網頁,仍然會大失所望,而且機器翻譯的質量和語言語種有很大關系,如英語和法語比較相似,這兩種語言互譯的結果也比較理想,但英語對日語或者中文的翻譯效果就差別很大了,當前所有的商用文本機器翻譯系統存在諸多問題,如錯譯、漏譯和重復翻譯經常出現,尤其對成語、專業(yè)術語、人名地名等的翻譯更是令人失望,甚至出現張冠李戴的情況,最重要的是說話人的語氣、重音、語調,甚至肢體語言無法得到充分利用。

人類語言博大精深,一字之差,可能意義就完全不同。機器學習和人工智能的評測依靠一定的規(guī)則和衡量方法,而人類語言是沒有規(guī)則可言的,談話可以向無數不同的方向進行,這就需要我們根據特定的情境、人物、時間、地點才能體會出語言的真正內涵。更加重要的是,現實社會中,人與人交流更多的還是依靠口口對話,當對話雙方能用同一種語言進行交流時,雙方都會感覺很舒適。每一種語言的背后都是一種文化,一個民族,你知道的語言越多,你所能認識的世界就會越寬廣。

結語

倪俊杰:如何突破語言障礙,讓機器完成不同語言之間的自動翻譯,是人類長期以來的夢想,但理想與現實之間還有很大的距離。赫拉利在新書《未來簡史》中提到:“21世紀經濟學最重要的問題,可能就是多余的人能有什么功用。當擁有高度智能而本身沒有意識的算法接手幾乎一切工作,而且能比有意識的人類做得更好時,人類還能做什么?技術的發(fā)展將加劇世界的不平等,讓大多數人淪為無用階級,而少數精英將成為掌控者。因此,我們首先必須承認并且接受,一些簡單機械的工作,肯定會被機器所替代。隨著物聯網、大數據以及人工智能等新技術的不斷應用,還會有更多的行業(yè)工種會被替代。甚至,我們還得警醒,之所以現在還沒被機器取代,可能是因為目前機器用起來比較昂貴。但是,對于人類來說,學而不思則罔,學習是永恒的,創(chuàng)造更是人類的特長,學習并利用好機器翻譯,更好地造福人類社會,是每一個人的責任。

猜你喜歡
人類語言模型
一半模型
人類能否一覺到未來?
重要模型『一線三等角』
人類第一殺手
好孩子畫報(2020年5期)2020-06-27 14:08:05
重尾非線性自回歸模型自加權M-估計的漸近分布
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
1100億個人類的清明
讓語言描寫搖曳多姿
累積動態(tài)分析下的同聲傳譯語言壓縮
3D打印中的模型分割與打包
主站蜘蛛池模板: 99成人在线观看| 91精品网站| 成人精品在线观看| 亚洲人成在线精品| 国产乱子伦精品视频| 91口爆吞精国产对白第三集| 国产男人的天堂| 91精品国产自产91精品资源| 国产精品自拍露脸视频 | 国产a网站| 强乱中文字幕在线播放不卡| 久久综合亚洲鲁鲁九月天| 69视频国产| 凹凸国产分类在线观看| 精品一区二区三区水蜜桃| 在线观看无码a∨| av手机版在线播放| 丰满人妻中出白浆| 国模沟沟一区二区三区| 成人韩免费网站| 国产情精品嫩草影院88av| www.99精品视频在线播放| 国产不卡一级毛片视频| 国产美女91视频| 宅男噜噜噜66国产在线观看| 亚洲人成影院在线观看| 九色视频线上播放| 五月丁香在线视频| 亚洲综合极品香蕉久久网| 亚洲国产午夜精华无码福利| 一本综合久久| 久久久久久尹人网香蕉| 国产精品亚欧美一区二区| 在线免费a视频| 天天爽免费视频| 亚洲综合天堂网| 亚洲国产一成久久精品国产成人综合| 亚洲伊人久久精品影院| 中文字幕 91| 亚洲欧美日韩色图| 园内精品自拍视频在线播放| 亚洲an第二区国产精品| 真实国产乱子伦高清| 99久久亚洲综合精品TS| 激情综合激情| 成人午夜免费视频| 亚洲精品人成网线在线 | 国产91丝袜在线播放动漫 | 免费无码AV片在线观看国产| 国产成人精品2021欧美日韩| 国产欧美又粗又猛又爽老| 99ri国产在线| 亚洲男人的天堂在线观看| 欧美一级高清片欧美国产欧美| 67194亚洲无码| 极品国产一区二区三区| 波多野结衣视频网站| 国产精品九九视频| 国产69精品久久| 91一级片| 国产一级无码不卡视频| 成人夜夜嗨| 国产精品冒白浆免费视频| 性网站在线观看| 久久精品视频一| 国内精品一区二区在线观看| 久久天天躁狠狠躁夜夜2020一| 日韩精品高清自在线| 亚洲一区二区日韩欧美gif| 国产精品99久久久久久董美香| www精品久久| 超碰91免费人妻| 国产激情国语对白普通话| 五月天福利视频| 国产99精品视频| 伊人大杳蕉中文无码| 蜜芽一区二区国产精品| 黄色在线不卡| 亚洲人成影院在线观看| 国产精品视频a| 国产精品真实对白精彩久久| 强奷白丝美女在线观看|