摘 要:面向翻譯的語言知識(shí)服務(wù)系統(tǒng)將平行語料庫、術(shù)語庫、本體知識(shí)庫等語言知識(shí)資源統(tǒng)一整合,在此基礎(chǔ)上對資源進(jìn)行客觀、直觀、動(dòng)態(tài)的描寫,挖掘重要語言特征與知識(shí)結(jié)構(gòu),建立知識(shí)系統(tǒng),并通過可視化手段對描述的結(jié)果進(jìn)行形象化表征,提高認(rèn)知效率與工作效率,滿足翻譯生態(tài)系統(tǒng)內(nèi)部各個(gè)重要環(huán)節(jié)的知識(shí)應(yīng)用需求和協(xié)同創(chuàng)新需求。語言知識(shí)服務(wù)系統(tǒng)的建設(shè)過程遵循協(xié)同化、統(tǒng)一化、可視化三原則,其核心部分由基礎(chǔ)層、分析層與應(yīng)用層三部分構(gòu)成,分別負(fù)責(zé)語言資源供給、數(shù)據(jù)分析統(tǒng)計(jì)與知識(shí)表征運(yùn)用,形成了模塊融合共通、知識(shí)循環(huán)利用的交互式有機(jī)整體。
關(guān)鍵詞:語言知識(shí)服務(wù)系統(tǒng);資源描述;多模態(tài);知識(shí)習(xí)得;機(jī)器翻譯
中圖分類號:H083; H059? 文獻(xiàn)標(biāo)識(shí)碼:A? DOI:10.12339/j.issn.1673-8578.2023.02.006
Fundamental Layers and Designing Principles of Language-Knowledge Service System for Translational Purposes//NING Hailin
Abstract:The language-knowledge service system for translational purposes is an organic integration of parallel corpora, term banks and ontological knowledge bases. The system is designed towards the achievement of two major functions, through which both wanted knowledge and coordinated innovation in the entire translational ecosystem are accessible: (1) the objective, intuitive and processive resource description aiming at knowledge discovery and construction; (2) visualization of the organized data aiming at the enhancement of cognitive capacity and working efficiency. As a product of collaboration, standardization and visualization, the system structures its kernel section with three layers, named the elementary, the analytical, and the applied layer. The elementary layer firstly delivers basic language resources to the analytical layer, then the processed resources and relative results are transported to the applied layer for visualized representation, thus an interactive system of module connecting and knowledge recycling is composed accordingly.
Keywords: language-knowledge service system; resource description; multi-modality; knowledge acquisition; machine translation
收稿日期:2022-09-29? 修回日期:2023-03-14
基金項(xiàng)目:教育部人文社會(huì)科學(xué)研究青年基金項(xiàng)目“翻譯技術(shù)的知識(shí)化演進(jìn)模式研究”(18YJC740067)階段性成果
0 引言
翻譯是一個(gè)由翻譯理論研究、翻譯教學(xué)、翻譯實(shí)踐、翻譯行業(yè)管理、翻譯技術(shù)應(yīng)用等多個(gè)有機(jī)要素相互聯(lián)動(dòng)而形成的生態(tài)系統(tǒng),在整個(gè)生態(tài)系統(tǒng)存續(xù)和擴(kuò)展的過程中,來自科技、經(jīng)濟(jì)、軍事、法律、醫(yī)療等社會(huì)認(rèn)知領(lǐng)域的大量信息在各個(gè)要素之間循環(huán)往復(fù)流動(dòng),形成閉合的動(dòng)態(tài)數(shù)據(jù)鏈,而整個(gè)翻譯生態(tài)系統(tǒng)的健康程度,取決于該鏈條中數(shù)據(jù)的數(shù)量、質(zhì)量與穩(wěn)定性。面向翻譯的整合化語言知識(shí)服務(wù)系統(tǒng)將信息環(huán)流中參與循環(huán)的各類數(shù)據(jù)有序地生成、存儲(chǔ)、加工、利用與管理[1],為上述各要素節(jié)點(diǎn)提供高質(zhì)量的信息與知識(shí)支持,從而加速數(shù)據(jù)流動(dòng),推動(dòng)整個(gè)翻譯生態(tài)系統(tǒng)持續(xù)高效運(yùn)轉(zhuǎn),促進(jìn)相關(guān)領(lǐng)域的知識(shí)創(chuàng)新。
1 語言知識(shí)服務(wù)系統(tǒng)的核心結(jié)構(gòu)
面向翻譯的語言知識(shí)服務(wù)系統(tǒng)由基礎(chǔ)層、分析層與應(yīng)用層構(gòu)成其核心部分(圖1)。基礎(chǔ)層負(fù)責(zé)存儲(chǔ)系統(tǒng)內(nèi)部的基本語言素材與專業(yè)知識(shí)素材,分析層建立對這些基本素材進(jìn)行描述的機(jī)制,應(yīng)用層可以直接調(diào)用分析層得出的數(shù)據(jù),將之運(yùn)用于翻譯研究與生產(chǎn)活動(dòng),而產(chǎn)出的成果會(huì)重新返回到基礎(chǔ)層以更新基礎(chǔ)數(shù)據(jù)。三個(gè)層級協(xié)同工作,實(shí)現(xiàn)資源的統(tǒng)一存儲(chǔ)、分類、加工、應(yīng)用與增長,以滿足譯者、外語學(xué)習(xí)者、語言服務(wù)需求方、語言服務(wù)企業(yè)、語言技術(shù)開發(fā)商、高等院校和研究機(jī)構(gòu)等[2]不同層次或領(lǐng)域用戶的需求。該系統(tǒng)支持動(dòng)態(tài)、開放的知識(shí)循環(huán)機(jī)制,隨著語言服務(wù)內(nèi)容與服務(wù)對象范圍的不斷擴(kuò)大,其主干與分支的構(gòu)成要素還將持續(xù)拓展。
1.1 基礎(chǔ)層
基礎(chǔ)層是語言知識(shí)服務(wù)系統(tǒng)的基礎(chǔ)與核心部分,負(fù)責(zé)基礎(chǔ)素材的存儲(chǔ)。以翻譯活動(dòng)的需求為導(dǎo)向,導(dǎo)入基礎(chǔ)層的素材類型一般包括平行語料庫、術(shù)語庫、本體知識(shí)庫[3]等基礎(chǔ)語言類數(shù)據(jù)庫以及由此衍生的功能型資源庫。基礎(chǔ)層的建設(shè)是將零散、不規(guī)則的碎片化信息進(jìn)行有序整合的過程,經(jīng)整合的素材不僅具備噪聲小、格式統(tǒng)一、分類清晰的特點(diǎn),同時(shí)也包含相對完整、可靠的專業(yè)領(lǐng)域語言信息與知識(shí)框架,為進(jìn)一步的數(shù)據(jù)分析與知識(shí)習(xí)得建立了基礎(chǔ)條件。
1.1.1 平行語料庫
平行語料庫是整個(gè)系統(tǒng)的知識(shí)來源所在,也是數(shù)據(jù)檢索、翻譯記憶、知識(shí)提取與大規(guī)模語言模型訓(xùn)練等多種語言深度處理活動(dòng)的基礎(chǔ)性依據(jù),在其投入使用之前,須將采集的專業(yè)領(lǐng)域多語種自然語言素材以實(shí)際應(yīng)用范圍為導(dǎo)向進(jìn)行去噪、對齊、標(biāo)注等預(yù)處理,同時(shí)可以在設(shè)計(jì)階段進(jìn)一步細(xì)化為多個(gè)子語料庫或?qū)n}子庫[4],以應(yīng)對更為精細(xì)化的知識(shí)服務(wù)需求。平行語料庫一般以普通文本的形式存在,也可以存儲(chǔ)為通用化的TMX(Translation Memory eXchange),即翻譯記憶庫格式,從而提升語料的互操作性。一個(gè)標(biāo)準(zhǔn)的TMX主體結(jié)構(gòu)包括至少一個(gè)tu(translation unit)標(biāo)簽,其下包含若干個(gè)tuv標(biāo)簽,用于存儲(chǔ)若干個(gè)相互對齊的語句(一個(gè)tuv標(biāo)簽對應(yīng)一種語言)。翻譯記憶庫借助特定領(lǐng)域文本句式的高度程式化和術(shù)語的高度一致性實(shí)現(xiàn)翻譯過程中的相似語對自動(dòng)調(diào)取,避免重復(fù)勞動(dòng),提升翻譯實(shí)踐效率。目前,該匹配過程主要運(yùn)用基于字段的完全匹配或基于本體語義的模糊匹配方法實(shí)現(xiàn)[5],而語料庫的規(guī)模、權(quán)威性與對齊程度仍然是決定匹配精度的關(guān)鍵因素。
1.1.2 術(shù)語庫
術(shù)語是知識(shí)網(wǎng)絡(luò)的節(jié)點(diǎn),術(shù)語庫的建設(shè)是專業(yè)領(lǐng)域知識(shí)體系構(gòu)建的重要組成部分。高質(zhì)量的平行語料庫可以作為術(shù)語提取與關(guān)系提取的素材[6],用以建設(shè)術(shù)語庫和本體知識(shí)庫,尤其對于一些前沿領(lǐng)域的術(shù)語編纂(terminography)工作而言,自動(dòng)提取技術(shù)能大幅提高雙語術(shù)語采集的效率。除了資源構(gòu)建層面的作用,術(shù)語庫也是最關(guān)鍵的翻譯輔助工具之一。術(shù)語庫將采集后的術(shù)語進(jìn)行粒度化(granularity)處理,根據(jù)用戶需求設(shè)置某個(gè)具體詞條包含的各項(xiàng)信息[7]。對于翻譯工作者來說,較為重要的信息包括詞條的譯文、語境、可靠度和關(guān)聯(lián)術(shù)語等,這些要素是對譯文進(jìn)行篩選與優(yōu)化的主要依據(jù)。以應(yīng)用TermOnline①術(shù)語庫進(jìn)行輔助翻譯為例,雖然TermOnline的術(shù)語和相關(guān)譯文需要經(jīng)過全國科學(xué)技術(shù)名詞審定委員會(huì)審定方可公布,但受審定的年份和適用語境等因素影響,許多過審的術(shù)語詞條仍然存在一詞多譯現(xiàn)象,此時(shí)譯者就必須結(jié)合發(fā)布時(shí)間、所屬領(lǐng)域、可靠度等多種信息來做出合理的判斷。
1.1.3 本體知識(shí)庫
本體知識(shí)庫是術(shù)語深度操作化(operationalization)的結(jié)果[8],它以術(shù)語為知識(shí)節(jié)點(diǎn),在節(jié)點(diǎn)之間引入邏輯關(guān)系與推理規(guī)則,并建立知識(shí)習(xí)得與知識(shí)挖掘的路徑。為了提高譯者的認(rèn)知與學(xué)習(xí)效率,本體知識(shí)庫的用戶端常引入多模態(tài)手段對概念與知識(shí)進(jìn)行直觀化表示。本體知識(shí)庫的建設(shè)過程主要包括三個(gè)步驟:一是概念構(gòu)建,這部分和術(shù)語編纂過程基本相同;二是概念關(guān)系構(gòu)建[9],可從語料庫中自動(dòng)提取,也可以依據(jù)專業(yè)領(lǐng)域的知識(shí)結(jié)構(gòu)進(jìn)行人工構(gòu)建,必要時(shí)須聯(lián)合領(lǐng)域?qū)<覅f(xié)同建設(shè);三是可視化機(jī)制構(gòu)建,包括對概念內(nèi)涵的多模態(tài)表示與領(lǐng)域主題圖的設(shè)計(jì)等[10]。本體知識(shí)庫是譯者進(jìn)行譯前準(zhǔn)備和知識(shí)習(xí)得的高效作業(yè)方案,它不僅可以直接調(diào)用術(shù)語庫中的詞條信息,還提供特定術(shù)語的所有關(guān)聯(lián)術(shù)語與邏輯關(guān)系索引,能夠幫助譯者快速了解、掌握與檢索內(nèi)容相關(guān)的專業(yè)知識(shí),形成對概念的網(wǎng)絡(luò)型認(rèn)知。
1.2 分析層
分析層整合數(shù)據(jù)檢索模塊、數(shù)據(jù)統(tǒng)計(jì)模塊與數(shù)據(jù)挖掘模塊,對基礎(chǔ)層中的平行語料庫、術(shù)語庫、本體知識(shí)庫等數(shù)字化資源進(jìn)行客觀化、直觀化、過程化的描寫,為語言規(guī)律分析、隱藏知識(shí)挖掘、專業(yè)知識(shí)習(xí)得途徑開發(fā)等翻譯研究、教學(xué)或?qū)嵺`工作提供依據(jù)。數(shù)據(jù)分析系統(tǒng)的模塊構(gòu)成需要以功能為導(dǎo)向進(jìn)行定向設(shè)計(jì),以滿足用戶的特定要求。此外,數(shù)據(jù)分析系統(tǒng)還重視以數(shù)字、表格、圖片等多模態(tài)手段對分析結(jié)果進(jìn)行可視化表示,形象地體現(xiàn)翻譯本質(zhì)和翻譯規(guī)律[11]。
數(shù)據(jù)檢索功能用于信息定位,檢索手段有關(guān)鍵詞或正則表達(dá)式等。平行語料庫的檢索著重于對語素的翻譯、搭配方法及其共現(xiàn)的語境的提取;術(shù)語庫的檢索內(nèi)容主要是術(shù)語詞條信息,也可以根據(jù)術(shù)語庫的粒度設(shè)置情況,依照詞條的領(lǐng)域、發(fā)布時(shí)間、相關(guān)詞條等信息標(biāo)簽做進(jìn)一步的深度檢索;本體知識(shí)庫的檢索模塊能夠清晰地定位知識(shí)節(jié)點(diǎn)在專業(yè)領(lǐng)域知識(shí)體系中的位置,譯者在深入學(xué)習(xí)該知識(shí)點(diǎn)的同時(shí),還能對以該知識(shí)點(diǎn)為中心的知識(shí)網(wǎng)絡(luò)產(chǎn)生宏觀認(rèn)知[12]。數(shù)據(jù)統(tǒng)計(jì)功能用于對語言素材的特征進(jìn)行客觀描述,其描述的對象主要是平行語料庫。例如,平行語料庫的分析系統(tǒng)一般需嵌入對語料的搭配、型次比、元信息[13]、主題詞、特征因子等數(shù)據(jù)的檢索與統(tǒng)計(jì)功能,以滿足基于語料庫的翻譯共性分析、修辭手法分析、譯者風(fēng)格比較、譯本歷時(shí)演變、譯文質(zhì)量評價(jià)、翻譯教學(xué)法研究等需求。數(shù)據(jù)挖掘功能用于對雙語術(shù)語、邏輯關(guān)系和知識(shí)鏈進(jìn)行自動(dòng)抽取。例如,本體知識(shí)庫的數(shù)據(jù)挖掘機(jī)制至少要具備兩個(gè)功能:一是與術(shù)語庫對接,讀取術(shù)語庫中存儲(chǔ)的知識(shí)節(jié)點(diǎn)信息,包括前文提及的定義、語境、關(guān)聯(lián)概念等;二是從大規(guī)模主題圖中抽取一部分由若干概念與概念關(guān)系組成的知識(shí)鏈進(jìn)行獨(dú)立展示或分析[14],以滿足譯者在譯前準(zhǔn)備過程中對特定知識(shí)點(diǎn)及其關(guān)聯(lián)知識(shí)點(diǎn)的學(xué)習(xí)需求。以基于EcoLexicon②環(huán)境本體知識(shí)庫的譯前準(zhǔn)備工作為例(圖2),譯者不僅可以檢索到關(guān)于“赤潮(red tide)”這個(gè)術(shù)語的英、法、德、西等六個(gè)語種的表達(dá),還可以在鄰近的知識(shí)路徑中獲取掌握赤潮的成因(result of)、引發(fā)赤潮的藻類(alga)的種類(type of)、赤潮對水質(zhì)的影響(affects)等相關(guān)專業(yè)知識(shí)。
1.3 應(yīng)用層
應(yīng)用層的主要功能是將基礎(chǔ)層存儲(chǔ)的素材和分析層處理的數(shù)據(jù)綜合運(yùn)用于翻譯相關(guān)的生產(chǎn)實(shí)踐環(huán)節(jié)。根據(jù)翻譯教學(xué)、翻譯實(shí)踐、翻譯研究等各領(lǐng)域不同的需求,應(yīng)用層的功能模塊也要視具體使用對象做出選擇性構(gòu)建。目前而言,應(yīng)用層主要由知識(shí)習(xí)得系統(tǒng)和自動(dòng)翻譯系統(tǒng)兩部分構(gòu)成,隨著面向翻譯的知識(shí)服務(wù)的范疇不斷擴(kuò)大,應(yīng)用層的功能與內(nèi)涵將繼續(xù)得以拓展。
1.3.1 知識(shí)習(xí)得系統(tǒng)
知識(shí)習(xí)得系統(tǒng)是在整合基礎(chǔ)層和分析層核心功能的基礎(chǔ)上建立的教學(xué)與自學(xué)一體化平臺(tái),它在提供優(yōu)質(zhì)翻譯教學(xué)資源的同時(shí),對個(gè)體學(xué)習(xí)行為與知識(shí)需求進(jìn)行分析,優(yōu)化學(xué)習(xí)路徑并建立互動(dòng)式學(xué)習(xí)機(jī)制,促進(jìn)用戶技術(shù)能力、信息能力、學(xué)習(xí)能力與翻譯實(shí)踐能力的共同發(fā)展[15]。在使用過程中,知識(shí)習(xí)得系統(tǒng)直接調(diào)取基礎(chǔ)層中的知識(shí)素材,在內(nèi)容與方法兩個(gè)層面執(zhí)行工作。在內(nèi)容層面,知識(shí)素材須包含語言知識(shí)、翻譯知識(shí)與專業(yè)知識(shí)。語言知識(shí)指源語和目標(biāo)語的語音、詞性、語義、語法、搭配等語言特征類知識(shí);翻譯知識(shí)指翻譯理論、翻譯技巧、翻譯技術(shù)、文化比較、翻譯史等翻譯方向知識(shí);專業(yè)知識(shí)指涉及社會(huì)民生各個(gè)領(lǐng)域的系統(tǒng)化知識(shí),如建筑知識(shí)、醫(yī)學(xué)知識(shí)、商務(wù)知識(shí)、法律知識(shí)等。各類知識(shí)素材需要以教學(xué)過程或?qū)W習(xí)過程為導(dǎo)向進(jìn)行語料標(biāo)注[16]、術(shù)語提取、多模態(tài)轉(zhuǎn)寫等預(yù)處理,為數(shù)據(jù)的挖掘與利用建立基礎(chǔ)。在方法層面,處理素材的手段須包括數(shù)據(jù)分析機(jī)制與教學(xué)機(jī)制。數(shù)據(jù)分析機(jī)制直接調(diào)用分析層的處理結(jié)果,建立知識(shí)習(xí)得過程中的最優(yōu)化路徑。教學(xué)機(jī)制的主要功能在于為用戶提供直觀而高效的工作環(huán)境,建立知識(shí)要點(diǎn)主題圖機(jī)制、互動(dòng)交流機(jī)制、成績評價(jià)機(jī)制與使用偏好分析機(jī)制,必要時(shí)也可建立跨領(lǐng)域、跨院校的合作網(wǎng)絡(luò)[17],及時(shí)整合、推送優(yōu)質(zhì)資源,實(shí)現(xiàn)知識(shí)共享。
1.3.2 機(jī)器翻譯系統(tǒng)
在基于規(guī)則和基于統(tǒng)計(jì)的翻譯方法之后,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的編碼―解碼框架把語言理解和語言模型結(jié)合起來,大幅度提高了機(jī)器翻譯的正確率[18]。高效機(jī)器翻譯系統(tǒng)的實(shí)現(xiàn)要具備兩個(gè)前提條件:一是建立大規(guī)模、多領(lǐng)域的語料庫,保證語言模型訓(xùn)練的質(zhì)量;二是建立能夠準(zhǔn)確分析與掌握深層次語義的算法,提高語言轉(zhuǎn)換的精確度。已投入應(yīng)用的主流機(jī)器翻譯平臺(tái)有谷歌翻譯、百度翻譯、DeepL等,相對于基于規(guī)則或統(tǒng)計(jì)手段的機(jī)器翻譯工具,這些翻譯平臺(tái)的綜合翻譯水準(zhǔn)已經(jīng)有了質(zhì)的提高,但在高文化負(fù)載文本的處理上依然不盡人意,相較于以機(jī)器為主體的自動(dòng)翻譯工具,當(dāng)前的機(jī)器翻譯系統(tǒng)更適合定位于“自動(dòng)化的翻譯輔助工具”,人工干預(yù)依然不可或缺,但合理地運(yùn)用機(jī)器翻譯系統(tǒng),可以有效提高翻譯效率,降低翻譯過程中的人力成本,更有利于促進(jìn)譯者翻譯能力的擴(kuò)展和延伸[19]。機(jī)器翻譯系統(tǒng)的發(fā)展應(yīng)著眼于三個(gè)任務(wù):一是挖掘?qū)W科交叉優(yōu)勢,推動(dòng)算法創(chuàng)新,開發(fā)綜合自然語言處理、知識(shí)本體與神經(jīng)網(wǎng)絡(luò)技術(shù)優(yōu)勢的語言識(shí)別機(jī)制,提高機(jī)器翻譯對文本和超文本的理解力和轉(zhuǎn)換能力;二是探索適用于機(jī)器翻譯的語境、領(lǐng)域和方式,促進(jìn)人機(jī)結(jié)合模式的創(chuàng)新,開發(fā)適合中國語言市場需求的翻譯平臺(tái)[20];三是深化校企合作,完善大規(guī)模語料庫與知識(shí)庫的共建機(jī)制,保證機(jī)器翻譯系統(tǒng)開發(fā)的資源基礎(chǔ)。
2 語言知識(shí)服務(wù)系統(tǒng)構(gòu)建的基本原則
協(xié)同化、統(tǒng)一化、可視化是語言知識(shí)服務(wù)系統(tǒng)構(gòu)建的三個(gè)基本原則,這是由翻譯需求決定的。翻譯需求是語言知識(shí)服務(wù)系統(tǒng)構(gòu)建的核心導(dǎo)向,當(dāng)前譯界對數(shù)字化平臺(tái)的需求主要體現(xiàn)在:(1)規(guī)模層面。大規(guī)模語料庫是各類數(shù)據(jù)和知識(shí)的來源,也是開發(fā)知識(shí)習(xí)得系統(tǒng)和自動(dòng)翻譯系統(tǒng)的前提條件,而隨著翻譯實(shí)踐范疇的擴(kuò)大,譯者對領(lǐng)域多樣性的要求也在不斷提高。(2)質(zhì)量層面。馮志偉指出,一個(gè)內(nèi)容豐富的多元數(shù)據(jù)語料可以極大地推動(dòng)諸如知識(shí)推理、數(shù)據(jù)不確定管理技術(shù)的研制[21]。數(shù)據(jù)分析的質(zhì)量取決于資源加工程度,為了適應(yīng)翻譯教學(xué)模式和研究范式的轉(zhuǎn)變,語言資源的加工方式正在向領(lǐng)域化、知識(shí)化、智能化不斷發(fā)展,包括語料庫的語義標(biāo)注[22]、術(shù)語的自動(dòng)化抽取與篩選、專業(yè)知識(shí)的邏輯關(guān)系與推理規(guī)則構(gòu)建等。(3)操作層面。高質(zhì)量的語言知識(shí)服務(wù)系統(tǒng)要具備簡易的人機(jī)交互界面與多維度的知識(shí)表示手段,以提高翻譯的工作體驗(yàn)和執(zhí)行效率。應(yīng)整合相關(guān)研究資源,推進(jìn)相關(guān)領(lǐng)域研究者之間的協(xié)作,在理論層面、實(shí)際操作層面與應(yīng)用層面進(jìn)一步深入探討[23]。
2.1 協(xié)同化
語言知識(shí)服務(wù)系統(tǒng)工程一般體量大、成本高、維護(hù)周期長,且相關(guān)技術(shù)涉及學(xué)科門類復(fù)雜,所以應(yīng)開展協(xié)同合作,建立語言知識(shí)服務(wù)系統(tǒng)的聯(lián)合共建機(jī)制。該機(jī)制包括兩方面的內(nèi)容:(1)社會(huì)各相關(guān)部門的協(xié)同合作,如政府機(jī)構(gòu)、高校、語言服務(wù)提供商、出版社之間建立的項(xiàng)目合作關(guān)系。政府機(jī)構(gòu)能夠?yàn)橄到y(tǒng)建設(shè)提供立項(xiàng)支持與資金支持,高校與語言服務(wù)提供商提供語言素材與技術(shù)支持,并監(jiān)督執(zhí)行素材的采集、整合與加工,出版社負(fù)責(zé)系統(tǒng)的發(fā)布、宣傳與管理,項(xiàng)目的成果由合作方共享,可長期為翻譯相關(guān)的產(chǎn)學(xué)研重要領(lǐng)域提供語言服務(wù),增強(qiáng)各部門的語言能力。另外,高校作為語言資源存儲(chǔ)量和使用量最大的部門,應(yīng)深化合作關(guān)系,整合優(yōu)質(zhì)資源,共建開放性的教學(xué)科研平臺(tái),實(shí)現(xiàn)校際知識(shí)共享。(2)各專業(yè)領(lǐng)域開展協(xié)同合作。由于語言活動(dòng)與翻譯活動(dòng)與生俱來的多學(xué)科性[24],翻譯面向的語言素材也必然源于多個(gè)領(lǐng)域,這也決定了譯者自身必須構(gòu)建多學(xué)科的知識(shí)體系以適應(yīng)語言服務(wù)市場的需求,而缺乏專業(yè)知識(shí)和相關(guān)素材也是譯者在職業(yè)發(fā)展中面臨的主要問題之一[25]。除了素材來源于多學(xué)科文獻(xiàn)之外,語言知識(shí)服務(wù)系統(tǒng)的建設(shè)流程包含對專業(yè)知識(shí)的提取、構(gòu)建與挖掘工作,與領(lǐng)域?qū)<医⒊掷m(xù)性合作關(guān)系、參考吸收相關(guān)建議,有利于準(zhǔn)確把握專業(yè)知識(shí)的結(jié)構(gòu)與要點(diǎn),強(qiáng)化資源質(zhì)量審核機(jī)制,保證資源建設(shè)的進(jìn)度與可靠性。此外,領(lǐng)域?qū)<业膮⑴c有助于增加資源中的原創(chuàng)概念定義、知識(shí)框架等項(xiàng)目的比重,在促進(jìn)知識(shí)創(chuàng)新的同時(shí)保護(hù)知識(shí)產(chǎn)權(quán)。
2.2 統(tǒng)一化
語言知識(shí)服務(wù)系統(tǒng)是由多個(gè)層級、子層和模塊構(gòu)成的有機(jī)整體,各個(gè)功能單位之間的資源和數(shù)據(jù)總是處于不斷的循環(huán)和交互之中,比如術(shù)語庫中的詞條語境信息來源于平行語料庫的相關(guān)語句,知識(shí)習(xí)得系統(tǒng)中的專業(yè)知識(shí)要點(diǎn)來源于本體知識(shí)庫的知識(shí)系統(tǒng)等。在語言知識(shí)服務(wù)系統(tǒng)的應(yīng)用過程中,數(shù)據(jù)的統(tǒng)一性至關(guān)重要,這也是評價(jià)系統(tǒng)總體質(zhì)量的主要依據(jù)之一。統(tǒng)一化原則的內(nèi)涵包括兩個(gè)方面:(1)基礎(chǔ)素材統(tǒng)一化。語料庫、術(shù)語庫和本體知識(shí)庫必須依次為后者的素材來源。生語料在經(jīng)過去噪、對齊、標(biāo)注等預(yù)處理環(huán)節(jié)轉(zhuǎn)化為熟語料之后,利用相應(yīng)工具提取本領(lǐng)域的雙語術(shù)語和概念關(guān)系,雙語術(shù)語經(jīng)篩選、編纂工作存入術(shù)語庫中,進(jìn)而將術(shù)語和概念關(guān)系有機(jī)結(jié)合為知識(shí)本體,這樣就構(gòu)建了語言素材之間的一體化聯(lián)動(dòng)關(guān)系。基礎(chǔ)素材統(tǒng)一化保證了資源與數(shù)據(jù)的高效調(diào)用。例如,譯者利用本體知識(shí)庫的知識(shí)導(dǎo)航功能進(jìn)行譯前準(zhǔn)備工作的同時(shí),還能夠以相關(guān)術(shù)語為關(guān)鍵詞,直接檢索到存儲(chǔ)于語料庫中的該術(shù)語的詞匯搭配和雙語例句,也可以直接檢索到存儲(chǔ)于術(shù)語庫中的該術(shù)語的各項(xiàng)條目信息[26]。另一方面,基礎(chǔ)素材統(tǒng)一化保證了語言應(yīng)用的一致性,能夠規(guī)避因同義異形詞濫用而導(dǎo)致的歧義,在降低語言經(jīng)濟(jì)成本的同時(shí)確保了翻譯的標(biāo)準(zhǔn)化和規(guī)范性。(2)翻譯技術(shù)標(biāo)準(zhǔn)統(tǒng)一化。語言資源的存儲(chǔ)和交換應(yīng)采用業(yè)界廣泛認(rèn)同的標(biāo)準(zhǔn)來執(zhí)行,這樣可以提高資源在不同翻譯技術(shù)工具和語言服務(wù)提供商之間的通用性或互操作性(interoperability),保證翻譯生態(tài)系統(tǒng)中數(shù)據(jù)環(huán)流的通暢,也有利于保護(hù)語言資產(chǎn),避免因市場和技術(shù)更新而造成經(jīng)濟(jì)損失[27]。當(dāng)前而言,平行語料庫多被存儲(chǔ)為TMX格式的翻譯記憶庫,術(shù)語庫一般以TBX(Term-Base eXchange)格式進(jìn)行存儲(chǔ)和應(yīng)用,本體知識(shí)庫通常以O(shè)WL(Web Ontology Language)格式作為標(biāo)準(zhǔn)化存儲(chǔ)方式,以便于統(tǒng)一化操作與管理。
2.3 可視化
從本質(zhì)上講,翻譯活動(dòng)是將一種符號所包含的思維內(nèi)涵用另外一種符號表示出來的知識(shí)傳播行為。符號是一個(gè)個(gè)體對象客體,它與另一種個(gè)體對象客體、概念或者事態(tài)長期相互對應(yīng),具有代表性地標(biāo)明這些事物[28],這個(gè)對象客體以文字、聲音、動(dòng)作、圖片、數(shù)字等多模態(tài)形式存在。換言之,翻譯是一種通過多類型符號進(jìn)行相互轉(zhuǎn)換來傳遞和表征一個(gè)思維內(nèi)涵的行為,多模態(tài)轉(zhuǎn)換是翻譯活動(dòng)的基本形式。語言知識(shí)服務(wù)系統(tǒng)在應(yīng)用層面的最大優(yōu)勢,在于將抽象的數(shù)據(jù)和知識(shí)轉(zhuǎn)換為直觀的多模態(tài)實(shí)體,提高用戶的認(rèn)知效率。可視化的內(nèi)涵覆蓋兩個(gè)層面:(1)數(shù)據(jù)可視化,指用圖表、圖形、動(dòng)畫等方式詮釋數(shù)據(jù)、表征大規(guī)模語料的內(nèi)部屬性,借以凸顯特征差異和隱形關(guān)系,形成對翻譯文本更加精確的理解和描述。翻譯領(lǐng)域比較重要的數(shù)據(jù)可視化方法包括詞頻分析法、共詞分析法和多元統(tǒng)計(jì)分析法等,借助Prefuse、CiteSpace、SPSS等工具能夠可視化地展示相關(guān)分析結(jié)果。(2)知識(shí)可視化,指將專業(yè)領(lǐng)域的知識(shí)框架與知識(shí)脈絡(luò)用可視化的方式形象地展示給用戶,并統(tǒng)一提供知識(shí)習(xí)得過程中常用的導(dǎo)航、檢索、抽取、調(diào)用等操作模塊。可視化的知識(shí)網(wǎng)絡(luò)是包含了文字、數(shù)字、圖形、動(dòng)畫、音頻、視頻的符號集合體,各類符號之間相互關(guān)聯(lián),共同構(gòu)成了譯者專業(yè)領(lǐng)域知識(shí)的多模態(tài)習(xí)得途徑。知識(shí)習(xí)得過程是合理利用各類符號資源進(jìn)行綜合構(gòu)建的過程,每種符號都具備自身的優(yōu)勢,如動(dòng)畫和視頻更加明晰、形象,能有效降低認(rèn)知難度,而文字與數(shù)字則較為詳細(xì)、具體,能夠補(bǔ)償視頻學(xué)習(xí)中忽略的細(xì)節(jié)部分。
3 結(jié)語
面向翻譯的語言知識(shí)服務(wù)系統(tǒng)是翻譯技術(shù)研究向知識(shí)化方向演進(jìn)發(fā)展的成果,是集存儲(chǔ)、分析、應(yīng)用于一體的綜合型翻譯研究、實(shí)踐與教學(xué)平臺(tái)。語言知識(shí)服務(wù)系統(tǒng)的構(gòu)建過程以翻譯需求為導(dǎo)向,體現(xiàn)了翻譯學(xué)、語料庫語言學(xué)、術(shù)語學(xué)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)等多學(xué)科交叉研究模式與數(shù)字人文研究方法,深化了翻譯產(chǎn)學(xué)研結(jié)合的發(fā)展路徑,也為翻譯的認(rèn)知研究、計(jì)算方法研究、數(shù)字化教學(xué)模式研究等前沿領(lǐng)域的開拓奠定基礎(chǔ)。同時(shí),伴隨翻譯活動(dòng)范疇的延伸和體量的增長,翻譯生態(tài)鏈中的數(shù)據(jù)環(huán)流也在迅速增大,鑒于此,語言知識(shí)服務(wù)系統(tǒng)的各個(gè)模塊應(yīng)在功能性、易用性、可靠性、專業(yè)性等方面不斷升級拓展,以滿足學(xué)者和譯者對數(shù)據(jù)和知識(shí)的獲取、應(yīng)用與創(chuàng)新持續(xù)增長的需求。
注釋
① http://www.termonline.cn/index.htm
② http://ecolexicon.ugr.es/visual/index_en.html
參考文獻(xiàn)
[1] WLOKA B,WINIWARTER W,BUDIN G. DASISH: An Initiative for a European Data Humanities Infrastructure[C]//Proceedings of International Conference on Information Integration and Web-based Applications & Services, 2013: 433.
[2] 王傳英,崔啟亮,朱恬恬. “一帶一路”走出去的國家語言服務(wù)基礎(chǔ)設(shè)施建設(shè)構(gòu)想[J]. 中國翻譯,2017 (6):62-67.
[3] 劉志,郝克俊. 基于Protégé的人工影響天氣術(shù)語本體知識(shí)庫設(shè)計(jì)與實(shí)現(xiàn)[J]. 中國科技術(shù)語, 2019, 21 (6):17-23.
[4] 楊明星,吳麗華, 牛桂玲, 等.“互聯(lián)網(wǎng)+” 背景下多模態(tài)、多語種外交話語平行語料庫設(shè)計(jì)與創(chuàng)建探析[J]. 外語教學(xué), 2018, 39 (6):13-19.
[5] 汪美俠. 基于句法和語義的英漢翻譯記憶系統(tǒng)的研究與實(shí)現(xiàn)[J]. 電子設(shè)計(jì)工程,2016,24(21):24-26,30.
[6] ARAZ L P,REIMERINK A,F(xiàn)ABER P. Knowledge Extraction on Multidimensional Concepts: Corpus Pattern Analysis (CPA) and Concordances[C]//The 8th International Conference on Terminology and Artificial Intelligence, Toulouse, 2009.
[7] BUDIN G, KABAS H, MRTH K. Towards Finer Granularity in Metadata: Analyzing the Contents of Digitised Periodicals[J/OL]. Journal of the Text Encoding Initiative, 2012(2). http://jtei.revues.org/416.DOI : 10.4000/jtei.416.
[8] KOCKAERT H,STEURS F. Handbook of Terminology[M]. Amsterdam: John Benjamins Publishing Company, 2015:128.
[9] 原偉. 面向中亞地區(qū)的多語種專業(yè)領(lǐng)域術(shù)語庫及本體知識(shí)庫構(gòu)建[J]. 中國科技術(shù)語, 2019, 21 (6):11-16.
[10] 苗菊,寧海霖. 翻譯技術(shù)的知識(shí)體系化演進(jìn):以雙語術(shù)語知識(shí)庫建設(shè)與應(yīng)用為例[J]. 中國翻譯,2016 (6):60-64.
[11] 胡開寶. 數(shù)字人文視域下翻譯研究的進(jìn)展與前景[J]. 中國翻譯,2018,39(6):24-26.
[12] GIL-BERROZPE J, FABER P. The Role of Terminological Knowledge Bases in Specialized Translation: The Use of Umbrella Concepts[C]//Temas actuales de terminología y estudios sobre el léxico. Publisher: Comares, Editors: Miguel ngel Candel-Mora, Chelo Vargas Sierra, 2017: 8.
[13] 梁茂成,許家金. 雙語語料庫建設(shè)中元信息的添加和段落與句子的兩級對齊[J]. 中國外語,2012,9 (6):37-42,63.
[14] 寧海霖. 面向汽車工程翻譯的可視化知識(shí)服務(wù)平臺(tái)構(gòu)建[J]. 中國科技術(shù)語,2020,22(1):21-25.
[15] 王少爽,李春姬. 技術(shù)賦能時(shí)代翻譯教師能力結(jié)構(gòu)模型構(gòu)建與提升策略探究[J]. 外語界,2021(1):71-78.
[16] 朱純深,慕媛媛. 以文本解釋力為導(dǎo)向的語料庫翻譯教學(xué):香港城大翻譯與雙語寫作在線教學(xué)/自學(xué)平臺(tái)的設(shè)計(jì)與試用分析[J]. 中國翻譯, 2013, 34 (2):56-62,127.
[17] 孫喜晨. EMT及其派生項(xiàng)目分析與MTI教育產(chǎn)學(xué)研合作網(wǎng)絡(luò)構(gòu)建[J]. 外語界,2017(4):44-50.
[18] 馮志偉. 機(jī)器翻譯與人工智能的平行發(fā)展[J]. 外國語,2018,41(6):35-48.
[19] 王少爽. 機(jī)器翻譯素養(yǎng)的概念內(nèi)涵與表現(xiàn)形式:代主持人語[J]. 語言教育,2021,9(2):54,62.
[20] 王贇,張政. 翻譯研究新路徑:數(shù)字人文新釋[J]. 外語教學(xué),2020,41 (2):81-86.
[21] 馮志偉.自然語言處理的重要資源:“知識(shí)圖譜”[J]. 外語學(xué)刊,2021(5):1-9.
[22] KUBLER S, ZINSMEISTER H. Corpus Linguistics and Linguistically Annotated Corpora[M]. London & New York: Bloomsbury, 2015: 83.
[23] 寧海霖.論翻譯技術(shù)研究的知識(shí)維度[J]. 外語學(xué)刊,2021(5):66-71.
[24] 陳平. 語言交叉學(xué)科研究的理論與實(shí)踐[J]. 語言戰(zhàn)略研究,2021,6(1):13-25.
[25] 丁大剛,李照國,劉霽. MTI教學(xué):基于對職業(yè)譯者市場調(diào)研的實(shí)證研究[J]. 上海翻譯,2012(3):41-44.
[26] LACASTA J, NOGUERAS-ISO J, ZARAZAGA-SORIA F J. Terminological Ontologies: Design, Management and Practical Applications[M]. New York: Springer, 2010: 131.
[27] 王華樹. 翻譯技術(shù)教程:上冊[M]. 北京:商務(wù)印書館;上海:上海外語音像出版社,2017:14.
[28] 費(fèi)爾伯. 術(shù)語學(xué)、知識(shí)論和知識(shí)技術(shù)[M]. 邱碧華,譯. 北京:商務(wù)印書館,2011:91.
作者簡介:
寧海霖(1982—),男,博士,天津商業(yè)大學(xué)外國語學(xué)院講師,研究方向?yàn)樾g(shù)語學(xué)與翻譯技術(shù)。2016年維也納國際術(shù)語學(xué)暑期學(xué)校學(xué)員,教育部人文社會(huì)科學(xué)基金項(xiàng)目主持人,參與國家社會(huì)科學(xué)基金重大項(xiàng)目、全國翻譯專業(yè)學(xué)位研究生教育研究項(xiàng)目各1 項(xiàng),在《中國翻譯》《中國科技翻譯》《翻譯界》《中國科技術(shù)語》等期刊發(fā)表論文10 余篇。通信方式: computerherald@163.com。