傅琳凌,劉 磊
(華南師范大學(xué)外國語言文化學(xué)院,廣州 510631)
在人工智能技術(shù)的發(fā)展與驅(qū)動下,機器翻譯技術(shù)迅猛發(fā)展。2016年,隨著谷歌神經(jīng)機器翻譯系統(tǒng)取得重大突破,翻譯準(zhǔn)確率顯著提高,全球機器翻譯領(lǐng)域迎來新一輪研發(fā)高潮[1]。2022年,人工智能研究實驗室OpenAI推出自然語言處理工具ChatGPT[2],為機器翻譯帶來人機互動新體驗。
本研究基于中國知網(wǎng)(CNKI)文獻數(shù)據(jù)庫,利用CiteSpace 6.1.R3軟件分析1992—2022年國內(nèi)機器翻譯研究的演進趨勢及研究者、研究機構(gòu)、研究主題等關(guān)鍵指標(biāo),梳理了國內(nèi)機器翻譯研究的動態(tài)進展與不足之處,并對未來我國機器翻譯研究的趨勢做出了展望。
CiteSpace 6.1.R3軟件兼具圖與譜的雙重特性,既能顯示知識聚類間的網(wǎng)絡(luò)、結(jié)構(gòu)、互動、交叉、演化或衍生等關(guān)系,也可揭示出復(fù)雜的知識關(guān)系孕育的前沿知識[3]。由于中國知網(wǎng)上檢索到國內(nèi)最早研究機器翻譯的文獻是1992年黃昌寧發(fā)表的《計算語言學(xué)簡介》,故將檢索時間設(shè)定為1992—2022年,主題詞設(shè)定為“機器翻譯”,文獻來源類別設(shè)定為核心期刊(包括SCI、EI、CSSCI、CSCD及中文核心期刊),經(jīng)人工剔除廣告、會議、通知、書評等非研究性文獻后得到文獻1702篇。將數(shù)據(jù)導(dǎo)入CiteSpace 6.1.R3軟件,自動剔除13條重復(fù)或空白數(shù)據(jù),得到有效文獻1689篇。
我國機器翻譯研究總體呈現(xiàn)穩(wěn)步上升趨勢,以2016年為分界點,可分為以下兩個發(fā)展階段。①平穩(wěn)成長期(1992—2015年):該時期發(fā)文量穩(wěn)步上升,但增幅不大且伴隨發(fā)文數(shù)量的波動。②快速發(fā)展期(2016—2022年):該時期發(fā)文量增幅明顯,2017年的發(fā)文數(shù)量同比增長超過60%,原因可能在于2016年谷歌翻譯等機構(gòu)在神經(jīng)機器翻譯系統(tǒng)研究領(lǐng)域取得重大突破,給全球機器翻譯的研發(fā)帶來了啟迪和動力,吸引大批學(xué)者投身機器翻譯相關(guān)研究;2019年起,年均發(fā)文量穩(wěn)定在110篇以上,2021年達到峰值(133篇)。詳見圖1。

圖1 機器翻譯研究年發(fā)文量Fig.1 Annual distribution of publications on machine translation
分析研究者的發(fā)文量及聚類情況,可了解某領(lǐng)域主要學(xué)者的文章發(fā)表情況及其研究的相關(guān)性。機器翻譯研究領(lǐng)域發(fā)文量在30篇以上的學(xué)者有5位,分別是來自中國科學(xué)院計算機研究所的劉群,哈爾濱工業(yè)大學(xué)的李生和趙鐵軍,國家教育部語言文字應(yīng)用研究所的馮志偉及昆明理工大學(xué)信息工程與自動化學(xué)院的余正濤。其中,劉群發(fā)文量最多,達40篇。上述學(xué)者主要的研究領(lǐng)域均涉及自然語言處理,其中4位學(xué)者(占80%)的主要研究方向為機器翻譯,2位學(xué)者(占40%)的主要研究方向為機器學(xué)習(xí)。
不同研究者的研究相關(guān)性可通過聚類圖進行分析,聚類圖中研究者間的距離越近,代表其研究成果的關(guān)聯(lián)性越強。我國機器翻譯領(lǐng)域形成以“機器翻譯評測”“模式”“融合”“機器訓(xùn)練語料選取”“回譯”等主題研究為核心的作者群。其中,“機器翻譯評測”主要涉及對特定翻譯系統(tǒng)或翻譯算法的評價與測試,常見的機器翻譯評測方法包括人工評測與基于n元匹配的自動評測,如“通過引入模糊匹配,BLEU的性能得到顯著提高”[4];“模式”相關(guān)研究成果主要涉及機器翻譯系統(tǒng)的計算模式及模式匹配算法研究;“融合”相關(guān)成果主要研究通過融合新模型、機制或知識如何進一步提升機器翻譯的性能,融合的目標(biāo)多數(shù)服務(wù)于機器翻譯的模型訓(xùn)練,故“融合”與“翻譯模型”這兩個研究主題的空間距離較近;無論是統(tǒng)計機器翻譯還是神經(jīng)機器翻譯,用于機器訓(xùn)練的大規(guī)模、高質(zhì)量平行語料是決定翻譯效果的核心要素,“訓(xùn)練語料選取”是機器翻譯研究領(lǐng)域的核心主題;“回譯”是“翻譯中重要的數(shù)據(jù)增強方法”[5],通過精準(zhǔn)性測試回譯訓(xùn)練機器模型,是提高機器翻譯準(zhǔn)確度的重要手段。詳見圖2。

圖2 研究者聚類圖Fig.2 Clustering knowledge atlas of researchers
分析文獻發(fā)表單位有助于了解特定領(lǐng)域的研究機構(gòu)及其發(fā)文特點。機器翻譯領(lǐng)域的研究機構(gòu)主要集中在計算機與信息工程類院校及研究所;前10所高產(chǎn)研究機構(gòu)中僅有2所在2000年前發(fā)表過機器翻譯相關(guān)研究成果,其余8所機構(gòu)均是2000年后開始發(fā)表機器翻譯相關(guān)主題文章的,可見我國機器翻譯研究發(fā)軔于1992年,研究中堅在2000年以后才陸續(xù)出現(xiàn)。詳見表1。

表1 前十位高產(chǎn)研究機構(gòu)發(fā)文量及首發(fā)年份Tab.1 Number of publications among top 10 prolific organizations and the year of their first publication
從發(fā)文內(nèi)容看,各機構(gòu)的研究重點有所不同:蘇州大學(xué)計算機科學(xué)與技術(shù)學(xué)院、中國科學(xué)院計算技術(shù)研究所、中國科學(xué)院計算技術(shù)研究所智能信息處理重點實驗室、中國科學(xué)技術(shù)信息研究所及北京大學(xué)計算語言學(xué)研究所這5家單位多以研究自然語言處理方向為主;中國科學(xué)院新疆理化技術(shù)研究所、昆明理工大學(xué)信息工程與自動化學(xué)院、新疆大學(xué)信息科學(xué)與工程學(xué)院及內(nèi)蒙古工業(yè)大學(xué)信息工程學(xué)院這4家單位的研究內(nèi)容呈現(xiàn)出明顯的地域特色,重點關(guān)注少數(shù)民族語言與漢語或外語的機器翻譯問題。外語類院校在機器翻譯研究領(lǐng)域的發(fā)文量明顯少于計算機類院校,發(fā)文量最高的外語院校為上海外國語大學(xué),在高產(chǎn)研究機構(gòu)中排在第12位;此類院校主要關(guān)注翻譯教學(xué)中機器翻譯的應(yīng)用、機器翻譯與人工翻譯的異同、機器翻譯產(chǎn)出的質(zhì)量管理等主題。
在CiteSpace 6.1.R3軟件的功能與參數(shù)板塊中,設(shè)置時間切片(Time Slicing)為“From 1992 Jan. To 2022 Dec.”以完整覆蓋所有有效數(shù)據(jù),年份切片(Year Per Slice)為1,選取關(guān)鍵詞(Keywords)為參數(shù),得到關(guān)鍵詞聚類圖及前十位高頻關(guān)鍵詞表。在CiteSpace 6.1.R3軟件生成的關(guān)鍵詞聚類圖中,節(jié)點的大小代表其總被引次數(shù)[6]。節(jié)點越大代表該關(guān)鍵詞出現(xiàn)的頻次越多,研究熱度越高。CiteSpace 6.1.R3軟件還通過自動聚類將關(guān)鍵詞劃分為不同主題,劃分依據(jù)是關(guān)鍵詞的共現(xiàn)關(guān)系及強度,若多個關(guān)鍵詞集中于某個主題范圍內(nèi),則說明這些研究熱點間的聯(lián)系更為密切。
目前國內(nèi)機器翻譯研究關(guān)注的熱點話題包括“人工智能”“翻譯技術(shù)”“深度學(xué)習(xí)”,以及與“句子對齊”“句法分析”“中間語言”等密切相關(guān)的自然語言處理。在主題分布上,“名詞短語”“句法分析”“多義詞”及“名詞詞組”等關(guān)鍵詞聯(lián)系緊密,這些研究內(nèi)容均從屬于自然語言處理領(lǐng)域;“人工智能”“信息檢索”“神經(jīng)網(wǎng)絡(luò)”等關(guān)鍵詞附近的詞項多涉及新興前沿方向。“人工智能”是僅次于“機器翻譯”的高頻關(guān)鍵詞,研究者對人工智能的關(guān)注幾乎與機器翻譯研究同步發(fā)端。“翻譯技術(shù)”是排名第三的高頻詞,與“譯后編輯”“語言服務(wù)”等詞聚類關(guān)系明顯。與機器翻譯緊密相關(guān)的研究陣營主要包括主攻機器翻譯系統(tǒng)開發(fā)的計算機技術(shù)陣營及促進機器翻譯技術(shù)普及的翻譯研究陣營,后者往往將機器翻譯作為“翻譯技術(shù)”的代表以討論技術(shù)轉(zhuǎn)向[7]、技術(shù)倫理[8]及技術(shù)應(yīng)用情況[9]等。學(xué)界對“機器翻譯”“人工智能”“人工翻譯”及“譯后編輯”等內(nèi)容關(guān)注較早,而“翻譯技術(shù)”“深度學(xué)習(xí)”“神經(jīng)網(wǎng)絡(luò)”等則是機器翻譯研究領(lǐng)域較新的關(guān)注熱點,均在2010年后受到重點關(guān)注。詳見圖3、表2。

表2 前十位高頻關(guān)鍵詞Tab.2 Top 10 high-frequency keywords

圖3 關(guān)鍵詞聚類圖Fig.3 Clustering knowledge atlas of keywords
“語料庫”“深度學(xué)習(xí)”“信息檢索”等均為研究熱點,且這三個關(guān)鍵詞聯(lián)系緊密,原因在于平行語料庫是機器翻譯系統(tǒng)開發(fā)的重要原料,深度學(xué)習(xí)是機器翻譯水平提升的突破口,信息檢索模型是機器翻譯訓(xùn)練中數(shù)據(jù)選擇與優(yōu)化的關(guān)鍵環(huán)節(jié)。作為機器學(xué)習(xí)(Machine Learning)的新方向,深度學(xué)習(xí)(Deep Learning)未來的發(fā)展方向更趨近于人工智能,“憑借龐大的數(shù)據(jù)集和強大的計算能力建立深層次神經(jīng)網(wǎng)絡(luò),并基于其深度、隱性學(xué)習(xí)與算法正則化的顯性特征模擬人腦機制完成對數(shù)據(jù)的分析,進而提高不同層次上對數(shù)據(jù)的解釋能力”[10]。廣義的深度學(xué)習(xí)也常被用于處理多模態(tài)翻譯實踐中的聲音、圖像等非文本信息。
“神經(jīng)網(wǎng)絡(luò)”也是機器翻譯研究的高頻關(guān)鍵詞,多見于神經(jīng)機器翻譯(NMT)的研究中。神經(jīng)機器翻譯系統(tǒng)“根據(jù)雙語語料庫進行深度學(xué)習(xí),就可實現(xiàn)機器翻譯,不再需要規(guī)模宏大而艱巨的‘語言特征工程’,幾乎完全拋棄了基于語言規(guī)則的符號主義方法”[11]。神經(jīng)機器翻譯的核心之一在于計算機神經(jīng)網(wǎng)絡(luò)技術(shù)的應(yīng)用,讓機器翻譯系統(tǒng)模仿人類大腦神經(jīng)元進行翻譯,故神經(jīng)網(wǎng)絡(luò)成為機器翻譯研究者重點關(guān)注的對象。機器翻譯的發(fā)展離不開人工翻譯,二者相輔相成,二者的異同分析、機器翻譯對人工譯者的影響等成為研究焦點,故“人工翻譯”也出現(xiàn)在高頻關(guān)鍵詞表中。
關(guān)鍵詞突現(xiàn)點列表以關(guān)鍵詞突現(xiàn)開始的時間順序由遠及近排列,反映各研究熱點受到高度關(guān)注的時段,由近五年開始突現(xiàn)的關(guān)鍵詞可管窺相應(yīng)領(lǐng)域的研究前沿。
在機器翻譯研究領(lǐng)域內(nèi),“大數(shù)據(jù)”“數(shù)據(jù)增強”“遷移學(xué)習(xí)”“回譯”這四個關(guān)鍵詞突現(xiàn)的起始時間集中在近五年之內(nèi)(即2018年及以后),說明近五年研究者對這四個領(lǐng)域的關(guān)注度顯著提升。“數(shù)據(jù)增強”“遷移學(xué)習(xí)”及“回譯”有助于提升低資源或稀缺資源語種的機器翻譯訓(xùn)練性能,如蔡子龍等在漢藏、漢英語對實驗中利用數(shù)據(jù)增強技術(shù)使得兩種語對與基準(zhǔn)系統(tǒng)相比均多出4個BLEU值,發(fā)現(xiàn)數(shù)據(jù)增強技術(shù)可有效解決神經(jīng)機器翻譯因訓(xùn)練數(shù)據(jù)太少而導(dǎo)致的泛化能力不足問題[12];數(shù)據(jù)增強是在不實質(zhì)性增加數(shù)據(jù)的原則下,通過對已有數(shù)據(jù)進行隨機裁剪、隨機對比,讓有限的數(shù)據(jù)發(fā)揮更大的作用。遷移學(xué)習(xí)則是將模型(NMT)學(xué)習(xí)到的參數(shù)遷移到相近的任務(wù)上,利用高資源翻譯任務(wù)得到的參數(shù)改善低資源翻譯任務(wù)的性能[13],如Zoph通過遷移學(xué)習(xí)有效提高了4組低資源語對5.6個BLEU值[14]。回譯可以分為術(shù)語回歸回譯與翻譯精確性測試回譯[15],不僅可直接用于檢驗機器翻譯中兩種語言轉(zhuǎn)換的準(zhǔn)確度,還可在高資源與低資源語對轉(zhuǎn)換中間接提升低資源語對的翻譯質(zhì)量,如張文博等將漢語單語數(shù)據(jù)按照領(lǐng)域相似性劃分成多份單語數(shù)據(jù),通過回譯方法分段利用不同的單語數(shù)據(jù)訓(xùn)練翻譯模型,借助模型平均、模型集成等方法進一步提升了維漢、蒙漢翻譯質(zhì)量[16]。近五年機器翻譯領(lǐng)域內(nèi)的四個突現(xiàn)關(guān)鍵詞均與低資源語對有關(guān),可見如何提高低資源語對的機器翻譯質(zhì)量是當(dāng)下機器翻譯研究的前沿問題。詳見圖4。

圖4 前十五位關(guān)鍵詞突現(xiàn)情況Fig.4 Top 15 keywords with the strongest citation bursts
1)從演進趨勢來看,近三十年機器翻譯相關(guān)研究成果總體呈穩(wěn)步上升趨勢,且自2016年起呈現(xiàn)明顯的增長趨勢。2019年后,國內(nèi)機器翻譯相關(guān)研究成果穩(wěn)定在年均110篇以上,且發(fā)文量在2021年達到峰值。機器翻譯研究的增長態(tài)勢不僅反映了人們?nèi)粘9ぷ魃顚C器翻譯的現(xiàn)實需求,也體現(xiàn)了人工智能時代各類技術(shù)更新迭代的內(nèi)在發(fā)展需求。
2)從研究群體來看,機器翻譯研究領(lǐng)域高產(chǎn)出、高影響力的學(xué)者主要具備計算機專業(yè)背景,這是由于機器翻譯的開發(fā)與優(yōu)化離不開計算機技術(shù);其他領(lǐng)域?qū)W者對機器翻譯的關(guān)注與研究成果產(chǎn)出較為分散。
3)從研究機構(gòu)來看,計算機科研院所為主力軍,與翻譯緊密相關(guān)的語言類院校研究力量仍未凝聚。機器翻譯的開發(fā)與突破離不開計算機技術(shù),技術(shù)的發(fā)展推動機器翻譯從傳統(tǒng)基于統(tǒng)計、規(guī)則的算法升級到基于神經(jīng)網(wǎng)絡(luò)的發(fā)展階段;但是,機器翻譯要取得重大突破,單純依靠算法還不夠,還需語言學(xué)、腦科學(xué)等多領(lǐng)域?qū)W者通力合作,無論技術(shù)發(fā)展到何種程度,人依然是機器學(xué)習(xí)無法繞開的參照物,也是機器翻譯系統(tǒng)優(yōu)化的旨歸。
4)從研究熱點與前沿來看,機器翻譯研究領(lǐng)域的熱點呈現(xiàn)多樣化特征與智能化趨勢,前沿問題主要集中于如何通過大數(shù)據(jù)、數(shù)據(jù)增強、遷移學(xué)習(xí)及回譯等方法在已有高資源語對平行語料的基礎(chǔ)上,解決低資源語對由于原始數(shù)據(jù)不足導(dǎo)致的機器翻譯質(zhì)量不如人意的難題。多樣化的特征體現(xiàn)在如今的機器翻譯已不再囿于傳統(tǒng)自然語言處理領(lǐng)域,而是與語料庫、人工智能、深度學(xué)習(xí)及翻譯技術(shù)等領(lǐng)域相互融合。智能化趨勢集中體現(xiàn)在大數(shù)據(jù)疊加機器翻譯催生的前沿翻譯技術(shù),特別是2013年神經(jīng)網(wǎng)絡(luò)機器翻譯(NMT)模型興起后,機器翻譯超越了基于規(guī)則與統(tǒng)計的機器翻譯,跨入神經(jīng)網(wǎng)絡(luò)翻譯時代[17]。國外的谷歌、微軟,國內(nèi)的百度、有道等企業(yè)不斷探索人工智能、大數(shù)據(jù)、語音識別技術(shù)(ASR)、深度學(xué)習(xí)等技術(shù),旨在進一步提升機器翻譯產(chǎn)出的質(zhì)量和效率。
基于近三十年的研究動態(tài),國內(nèi)機器翻譯研究者應(yīng)更加注重在研究方向、研究群體、研究應(yīng)用與技術(shù)推廣等維度的跨學(xué)科、跨領(lǐng)域合作,讓技術(shù)的研發(fā)與普惠齊頭并進。
1)在研究方向?qū)用?模型開發(fā)、訓(xùn)練語料選取、計算機自然語言處理等仍為機器翻譯研究領(lǐng)域的熱點話題。面向低資源語對的機器翻譯系統(tǒng)研發(fā)將繼續(xù)成為機器翻譯研究界的攻堅核心[18]。為順應(yīng)當(dāng)前人工智能的發(fā)展趨勢,翻譯技術(shù)、機器深度學(xué)習(xí)、神經(jīng)機器翻譯將成為未來機器翻譯研究相關(guān)成果的主要增長點。
2)在研究群體層面,機器翻譯系統(tǒng)研發(fā)的瓶頸突破需融合計算機科學(xué)及翻譯學(xué)、認知語言學(xué)等多學(xué)科的力量。學(xué)科交叉與融合是各專業(yè)研究及人才培養(yǎng)的共同趨勢,以翻譯學(xué)科為例,未來的翻譯人才培養(yǎng)目標(biāo)將不再局限于專職翻譯,而是既懂翻譯、又通曉技術(shù)的翻譯+語言工程師的融合體[19]。目前倡導(dǎo)的語言智能學(xué)科也是學(xué)科交叉的一個典范,有機融合了語言、認知、計算三大要素[20]。
3)在研究應(yīng)用層面,機器翻譯系統(tǒng)研發(fā)的目的在于服務(wù)人類生活與生產(chǎn)的現(xiàn)實需求。未來機器翻譯的技術(shù)開發(fā)與研究還應(yīng)注重對機器翻譯“功用”的追蹤,通過實際“功用”去調(diào)整語料的選取及算法、模型的設(shè)計。機器翻譯如何有效匹配人們在旅游、就醫(yī)、科技傳播、語言教學(xué)等不同情境的使用需求,如何滿足非通用語言使用者對機器翻譯的需求,如何實現(xiàn)低資源語言的平行語料庫資源建設(shè)等均是未來機器翻譯研發(fā)需重點調(diào)研的領(lǐng)域。
4)在技術(shù)推廣層面,機器翻譯作為一種易操作、易獲取的信息技術(shù),在教學(xué)、醫(yī)療、旅游等多領(lǐng)域均有實踐意義與推廣價值。以教學(xué)情境為例,《教育信息化2.0行動計劃》提出,要加強學(xué)生課內(nèi)外一體化的信息技術(shù)知識、技能、應(yīng)用能力以及信息意識、信息倫理等方面的培育[21]。作為具有代表性及可操作性的信息技術(shù),機器翻譯不僅可以賦能外語課堂的教與學(xué),還能消除多語言課堂情境下師生、生生間的語言障礙,推動形成和諧的多語言學(xué)習(xí)交流環(huán)境。機器翻譯還可有效提升不同國家和文化間資訊共享的效率,減少文化沖突,促進交流合作。