999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

火山翻譯:打造AI地基之上的巴別塔

2021-08-17 06:12:47張書琛
電腦報 2021年31期
關鍵詞:引擎語言模型

張書琛

機器翻譯新突破

8月5日,ACL 2021正式頒發“最佳論文”獎項,字節跳動AI Lab的機器翻譯技術論文在3350篇論文投稿中脫穎而出,當選今年度“最佳論文”。ACL大會由國際計算語言學協會主辦,被視為自然語言處理與計算語言學領域最高級別的學術會議。多年來,自然語言處理被譽為“人工智能皇冠上的明珠”,在機器翻譯、搜索、信息流、輸入法等領域都有著廣泛的應用。

自1949年信息論先驅Warren Weaver發表翻譯備忘錄、提出機器翻譯的可能性以來,機器翻譯已經過了幾十年的發展迭代,如今進入了一個可以運用“神經網絡”和加入了“深度學習技術”的AI翻譯時代。

不可否認的是,全球化的商業巨頭已經走在了最前端。

字節跳動作為互聯網新貴,機器翻譯是其AI能力發展程度的重要體現之一。該公司業務覆蓋150個國家和地區,員工也遍布全球各地。在其11萬名員工跨越語言障礙、順暢交流協作的背后,字節跳動AI Lab火山翻譯團隊多年打磨的機器翻譯模型的支持必不可少。

基于文本翻譯、語音翻譯、圖像翻譯、語種識別等技術能力,火山翻譯推出了一系列形態多樣的產品與服務,包括機器翻譯云服務、智能視頻翻譯、智能同傳等。此外,火山翻譯還支持垂直領域的快速模型定制,能夠滿足不同群體和不同行業的翻譯需求。

據火山翻譯負責人王明軒介紹,內部很多大熱的軟件中都可以看到火山翻譯的身影。無論是在泛娛樂端還是工具端的應用,火山翻譯多語言互譯的速度和準確度都經受住了考驗。

如今,火山翻譯已經上線了56門語種之間的互譯,支持的語向翻譯多達3080個。據透露,今年內火山翻譯上線語種將超過150個。值得一提的是,火山翻譯不需要英語等通用語作為中間語,可以支持任意兩個語種之間的互譯,大大提高了翻譯速度。

火山翻譯的前沿技術也獲得了學術界認可。今年共有9篇論文被ACL 2021接收,就是由AI Lab的NLP基礎研究團隊和火山翻譯團隊合作實現的。由字節跳動AI Lab提出的一種新的詞表學習方案VOLT,更是獲得了年度唯一的“最佳論文”獎項。這是ACL59年歷史上,華人科學家團隊第二次贏得最高榮譽。

王明軒透露,火山翻譯現在每天都要處理數億次翻譯請求,可以說每一個上線語種都經過了實際用戶的檢驗,“因此,穩定和高質量的翻譯服務是我們必須提供的保障”。

今年內火山翻譯上線語種將超過150個

火山翻譯多語言預訓練新范式源于人類語言學習規律

持續不斷地為用戶提供高水平翻譯服務靠的不是運氣,而是火山翻譯背后強大的技術支撐和工程能力,以及字節跳動開放體系的聯動支持。

技術底色支撐應用落地

火山翻譯之所以能在近年快速落地,實現商業價值,離不開其濃厚的技術基底。

微軟技術學院院士黃學東曾表示,一家公司構建的翻譯系統效果如何,主要取決于兩點:一是數據是否夠全、夠多;二是算法是否足夠好。

海量數據是AI自我迭代不可或缺的基礎,由于背靠字節全球化布局,火山翻譯可以獲得更好的AI訓練結果,并從AI賦能中率先獲益。

同時,得益于字節跳動多年機器學習和自然語言處理領域的深耕,其AI團隊擁有百余項技術發明專利,在機器翻譯技術上更是獨創了multilingual Random Aligned Substitution Pre-training (mRASP)多語言預訓練算法,把幾十種語言語料融合在一起訓練,獲得的模型在具體語對上微調取得了44個語對的業界最佳性能。

據悉,目前研究界主流的多語言翻譯模型主要在英語相關的語對上進行訓練。這樣的系統通常在英語相關的語向(有監督語向)上表現不錯,而在非英語方向(零資源方向)的翻譯效果不佳。針對這個問題,火山翻譯團隊近期提出了更簡潔優雅的大規模多語言預訓練新范式mRASP2,通過引入對比學習,輔以對齊增強方法,將單語語料和雙語語料囊括在統一的訓練框架之下,旨在充分利用語料,學習更好的語言表示,并由此提升多語言翻譯性能。

這一多語言預訓練新范式運用在機器翻譯時,就像是一個精通兩三門語言的人類學者,在學習另一門語言時,速度就會更快。“人類在多語言學習過程中會自發去總結語言學習中比較抽象的共性,再去學習新語言的特性。因此想要提升個人語言學習能力,往往需要學習更多的語言。”火山翻譯就將這一規律植入神經網絡翻譯中,創造出了一個統一的具備多種語言能力的模型,在遇到新的語言時,臨時少量學習即可達到很流利的語言水平。

Transformer模型結構圖(以機器翻譯為例)

這意味著,無論是語料庫豐富的通用語言,還是訓練數據稀缺的小語種,機器都可以通過這一新范式,把翻譯能力遷移到不同語言上,使不同語言之間的信息互相利用,完成學習迭代。

隨著語種數量增加,翻譯任務增多,對機器自然語言處理任務的能力水平也提出了新的要求。

早在2019年12月,火山翻譯團隊曾經開源過一款Transformer類模型推理加速引擎LightSeq。作為業界第一款支持多種模型和解碼方法的推理加速引擎,LightSeq的推理速度快于其他同類軟件,更是遠遠超過了TensorFlow和PyTorch。

猜你喜歡
引擎語言模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
讓語言描寫搖曳多姿
藍谷: “涉藍”新引擎
商周刊(2017年22期)2017-11-09 05:08:31
累積動態分析下的同聲傳譯語言壓縮
3D打印中的模型分割與打包
我有我語言
無形的引擎
河南電力(2015年5期)2015-06-08 06:01:46
主站蜘蛛池模板: 亚洲高清在线播放| 欧美97色| 国产九九精品视频| 久久国产高清视频| 国产高清又黄又嫩的免费视频网站| 亚洲综合欧美在线一区在线播放| 欧美另类视频一区二区三区| 99在线小视频| 中国丰满人妻无码束缚啪啪| 99在线观看国产| 午夜国产理论| 久久精品91麻豆| 萌白酱国产一区二区| 呦系列视频一区二区三区| 91久久夜色精品国产网站| 国产欧美亚洲精品第3页在线| 亚洲人在线| 国产日韩av在线播放| 思思热在线视频精品| 国产精品美女自慰喷水| 精品少妇人妻无码久久| 在线国产资源| 国产一区在线视频观看| 中文字幕永久视频| 国产一级毛片高清完整视频版| 欧美一级高清片欧美国产欧美| 一区二区影院| 伊人网址在线| 亚洲黄色网站视频| 国产高清自拍视频| 久久久国产精品无码专区| 成人亚洲国产| 亚洲v日韩v欧美在线观看| 在线观看av永久| 天天爽免费视频| 国产精品无码在线看| 九月婷婷亚洲综合在线| 欧美日韩国产一级| 中文字幕首页系列人妻| 狠狠色婷婷丁香综合久久韩国| 伊人色综合久久天天| 美女被操91视频| 国产日本视频91| 3344在线观看无码| 欧美日韩免费在线视频| 色老头综合网| 国内精品视频| A级毛片无码久久精品免费| 亚洲国产欧美国产综合久久 | 国产91蝌蚪窝| 久久人妻xunleige无码| 国产午夜福利亚洲第一| 亚洲国产精品人久久电影| 婷婷开心中文字幕| 午夜福利在线观看成人| 青青操视频免费观看| 久久久波多野结衣av一区二区| 国产日韩欧美在线播放| 中文字幕亚洲乱码熟女1区2区| 亚洲成a人在线播放www| 亚洲成aⅴ人在线观看| 老司机精品一区在线视频| 国产成人欧美| 亚洲无码高清一区二区| 久久香蕉国产线| 日本国产精品一区久久久| 色综合天天娱乐综合网| 无码人中文字幕| 欧美日韩成人在线观看| 久草中文网| 高清无码不卡视频| 日韩欧美在线观看| 亚洲精品视频免费看| 国产在线无码一区二区三区| 日韩色图区| 国产永久免费视频m3u8| 四虎成人在线视频| 91丝袜乱伦| 日韩一区精品视频一区二区| 精品少妇人妻一区二区| 国产日韩欧美一区二区三区在线| 国产在线观看一区二区三区|