鄭丹丹 張夢宇 朱 波
(南京航空航天大學外國語學院,江蘇南京 210016)
術語通過語音或文字來表達專業概念,是特殊的認知信息結構[1]。術語知識庫利用計算機的特有功能,大量儲存術語,不斷進行修改、更新等操作,加強對術語條目的管理,適應科學技術發展對術語提出的新要求,在語言學、計算機輔助翻譯、機器翻譯、專業知識儲存等領域作用顯著。伴隨互聯網發展,術語知識庫推動了術語標準化和規范化,對專業知識進行組織、描述和管理,為專業學習、交流與傳播提供幫助。國外在這方面已有成功經驗,如世界知識產權組織(WIPO)術語庫,北約在線術語庫NATOTerm,美國聯機計算機圖書館中心(OCLC)術語庫,加拿大多領域大型術語庫Termium等。此外,網絡知識組織系統(NKOS)、開放元數據注冊(OMR)、維基百科等提供術語知識庫建設機制,供用戶發布和共享術語。術語知識庫一方面提供特定領域術語標準化信息;另一方面展示該領域知識網絡,成為知識服務的基石[2]。國內近年來也有突破,誕生了一批標志性成果,如全國科學技術名詞審定委員會主持建設的“術語在線”、中國特色話語對外翻譯標準化術語庫[3]、面向云計算領域的雙語術語知識庫[4]、航空術語語義知識庫[5]。術語知識庫研究涵蓋知識的融合、集成、管理、服務等方面,是一項系統的知識工程,在理論和應用上值得進一步探討。
西班牙格拉納達大學Lexicon團隊起步較早,成果突出,獨樹一幟。自1994年起,由Faber引領,團隊以詞匯語法模型和認知語言學為基礎,在術語學、詞匯語義學、詞典學、隱喻、翻譯和專業知識表征等領域開展研究。2003年,“基于多語語料庫的海岸工程知識提取”獲該國教育和科技部立項。在此基礎上,團隊開發出面向環境領域的多語術語知識庫EcoLexicon。經過不斷改進、完善,已在環境領域匯集3631個概念,總共20 342條術語,以六種語言呈現[6];專業語料庫容量巨大,僅英文專業文獻詞數就高達5400萬,可通過Sketch Engine免費檢索[7]。本文將以EcoLexicon為研究對象,探討其生成、應用及對業界的啟示。
在構建過程中,Lexicon團隊參考、借鑒了交際術語學和社會術語學等,在框架語義學基礎上形成了框架術語學(Frame-based Terminology,FBT),以概念組織、術語單元的多維性質、從多語語料庫提取語義和句法信息為特色,發展成為描寫術語學的最新流派。
FBT 是一種以認知為導向的術語理論,其核心理念為:在科學和技術傳播中,術語作為特定知識單元激活專業領域語義框架,后者取決于(用戶)專業背景知識并與之對應。語義框架論基于語義、句法和語用等三方面理論 ,它們分別關聯術語條目信息、專業知識單元之間關系和概念系統。
語義層面包含內部和外部表征。內部通過描述語義構成和語義關系,形成定義模板,構建術語作為特定知識單元的含義;外部是一個領域本體,頂端概念包括對象(Object)、事件(Event)、屬性(Attribute) 和關系(Relation)。本體由具體對象和過程的概念表征構成。概念體系如同一個支架,自然語言表述為術語數據查詢、數據集成和數據推斷提供語義基礎。句法層面基于具體事件,以謂詞-論元結構形式出現。事件在本質上由謂詞決定,它激活了不同實體之間的關系。FBT認為術語之間在句法上存在關聯,如同基于圖像的微型語法。這種結構不僅展現出語言上的層級和非層級關系,而且還能標記語料庫文本,用于信息檢索。語用層面指向語境,包含言內和言外兩種。言內語境又稱上下文,跨度通常為特定術語之前與之后的5個詞,在術語知識庫設計階段至關重要。通過各種搭配和搭配模式,上下文展現出術語激活和使用的具體情境,在術語消歧、定義表述、語言使用、概念建模和術語提取等方面作用顯著。相比之下,言外語境與文化知識、觀念和信仰相關,這緣于專業知識單位內嵌的文化信息。概念范疇與語言使用者的生存環境緊密關聯,后者從相關地理環境或區域條件中識解其內涵,比如常見天氣現象,因此文化定位對語義網絡產生直接影響。
FBT認為每個專業都有屬于本領域的事件模板(Event Template),這些事件能夠被概念系統捕捉,構成概念事件的結構基礎,可在框架中對新行為或新事件進行范疇化處理。參照原型概念,FBT把專業域中反復發生的事件稱為原型域事件(Prototypical Domain Event),原型域事件把專業域中的基礎層面范疇配置在一起,產生了一個適用于所有層面信息架構的模塊,把體現專業域特色的典型狀態和事件以及參與其中的實體都納入進去,確立起一個組織具體概念的框架。范疇中的具體概念被置于網絡中,通過層級和非層級關系聯系在一起[8]。EcoLexicon以此為理論基礎,根據語料來源把環境工程細分為地質學、生物學、氣象學等領域,并以這些領域為基礎,對概念網絡進行語境化處理,取得了突破。
EcoLexicon中的語義網絡基于域事件,為環境領域中的典型狀態或事件以及參與其中的實體提供一個模板,把它們融入其中。從視覺上看,語義網絡中的每個概念都與其他概念相互關聯。選擇這種可視化方法,原因是語義網絡是最為突出的術語表征方法,可在智能環境中獲取和封裝大量語義信息。在使用時,環境領域的廣闊性、多維性和大量概念命題經常導致EcoLexicon出現信息超載。Lexicon團隊通過量化和質性手段來解決這一問題,比如讓用戶通過關系類型來過濾超載的語義網絡;根據主題設置上下文限制,提供重新語境化的概念景象;提供網絡、樹型和路徑三種不同模式,讓概念行為可視化。
在概念圖左下角有一個文本框,允許用戶選取不同種類的概念關系,具體為下義關系(type_of),部分-整體關系(part_of)關系,以及非層級關系(has_function,located_at,causes, affects, result_of等)。這些概念關系不會直接出現頁面上。用戶點擊標簽左側的復選框,就可以啟動或退出一種關系的視圖。通過選擇關系種類,用戶可以過濾超載信息。通過下拉菜單,選取不同的語境領域,用戶就能更新語義網絡。這種質性方法可解決信息超載,同時提高表征的多維性。概念關系因視角不同而發生變化,導致語義網絡需要再語境化。用戶可根據具體概念在不同主題域的突出性,來啟動或限制概念命題,無需全方位表征。以Water為例。相比脫離語境、信息過載的語義網絡,圖1把領域限定為土木工程,語義網絡信息大幅降低,專業性顯著提升。

圖1 Water在土木工程領域的語義網絡
除網絡模式外,EcoLexicon還提供樹形模式和路徑模式。在樹形模式下,各種概念類別通過橫向樹形結構連接,通常情況下有多個樹形分支。兩者具有相同的根,即中心概念(而非術語)。與典型的Is A層次結構①相同,左側樹根顯示更通用的概念,而右側分支顯示與所搜索概念相關的更為具體的概念。例如,Sediment(沉積物)可分為Moraine(冰磧)、Diamict(混積巖)、Agglomerate(集塊巖)、Sludge(淤泥)等,其中Moraine又可以分為Lateral moraine(冰川側磧)、Terminal moraine(終磧)、Recessional moraine(后退冰磧)、Ground moraine(地磧)和Central moraine(中心冰磧),其余分支還可以繼續細分為各種子概念類別,形成樹形結構(見圖2)。

圖2 Sediment概念樹形模式
路徑模式顯示了兩個概念間的最短路徑及其關系。例如, Hurricane(龍卷風)屬于Wind(風)的一部分,Wind會影響Lithometeor(大氣塵粒),后者由Sand(沙)造成(見圖3)。

圖3 連接Hurricane和Sand的路徑模式
Lexicon團隊匯編了一個專用語料庫,以提取語言和概念知識,并對它們進行分類和標記,方便用戶訪問。每個文本都已根據一組基于可擴展標記語言(XML)的元數據進行了標注。這些標注包含文本語言、作者、出版日期、目標讀者、語境、關鍵字等信息。用戶可以根據語境或目標讀者等語用因素,來查詢語料庫,比較同一術語在不同文本中的使用情況。以pollute(污染)一詞為例。通過檢索專業語料,可以發現多種污染源和污染物,然后歸入語義角色和分類[7],具體可見表1。

表1 污染源和污染物
除標注外,EcoLexicon面對的另一挑戰就是將數據集成到語言鏈接開放數據云中。鏈接數據是一個重要步驟,通過在語義網中發布和鏈接結構化資源來創建共享信息空間。但是,數據源之間語義關系的規范化是一個限制因素。為解決這一問題,EcoLexicon將以三種方式出現:(1)當前提供的網頁應用程序;(2)另一個可讓用戶瀏覽關聯數據格式EcoLexicon的網頁應用程序;(3)簡單協議和資源描述框架端點②。團隊設計了一種鏈接算法,以自動執行DBpedia③和EcoLexicon之間的映射。EcoLexicon的數據類別與語言變體、多語言選擇和語義關系有關,這些類別對應于DBpedia所包含文本屬性。因此,數據鏈接第一步是把EcoLexicon中所有英語變體的字符串與DBpedia的資源描述框架屬性進行比較。由于這些字符串可能與DBpedia中各種條目匹配并導致歧義,需要通過比較其他語言有效項來消除歧義。當多語言選擇不適用,或出現多義性時,語義信息就會發揮作用。若語境中與概念相同的任何術語出現在與文本相關的DBpedia屬性中(即rdfs:comment;DBpedia-owl:abstract等),則被視為相同概念[6]。此外,還需提供EcoLexicon訪問權限,以便驗證、評估鏈接的安全性。
EcoLexicon(http://EcoLexicon.ugr.es)在網絡語義中設定環境概念,展示環境領域的概念結構。用戶群體包括環境學家、技術寫作人員和專業譯員等。它有助于拓展環境領域專業知識,提高用戶對文本的理解。所有信息和專業文本語料庫都儲存在一個獨立的數據庫中,可供添加、刪除、修改。用戶可訪問并查詢所需信息,主要目的是獲取專業知識。與最初版本相比,新版EcoLexicon增加了如下功能:兼容所有現代瀏覽器;增加更多交互和組合圖形,允許調整圖形大小,選擇概念關系,刪除或調整節點,前進/后退操作,為術語創建鏈接,通過谷歌或谷歌圖像搜索概念/術語;增加樹形模式與路徑模式;個性化存儲設置。
用戶打開網站,會發現三個區域:(1)頂部欄。包括術語/概念搜索或更改界面語言操作。(2)側邊欄。顯示有關概念圖的信息:定義、術語/概念、相關術語/概念、相關資源、概念類別和短語。(3)中心區。包括概念/術語搜索歷史、概念圖及其術語名稱,以及自定義配置概念圖的圖標。概念圖左下方有一個帶標題的文本框,供用戶區分EcoLexicon中的三類概念關系:上下義(普遍-特殊)關系、部分-整體關系、非層級關系。通過單擊某個概念/術語,就可以把它定位于中心或拖動節點。在側邊欄選擇,可顯示詳細信息(定義、關聯術語、資源等),獲取選定項的相關鏈接。此外,用戶還可以直接通過谷歌搜索、谷歌圖片和Wolfram Alpha④查詢概念的相關信息。
EcoLexicon頁面左側包含一系列模塊,顯示特定概念或術語的信息。這些信息主要包括:(1)定義:提供中心概念的定義。(2)術語:顯示指定中心概念所有相關術語的列表。按語言和術語類型(主要輸入術語、同義詞、變體、首字母縮寫等)排序,每個術語左側都有國旗標志,代表語言種類。(3)資源:提供與概念/術語相關的圖像、文本及視聽材料。每個概念的資源列表顯示在此框中。用戶可通過資源旁的圖標識別資源類型。單擊資源條目,就可以打開一個包含更多信息(標題、描述、來源等)的窗口。(4)概念類別:每個概念都與一個或多個概念類別相關聯。單擊其中一種類別,將出現一個視窗,列出所有相關概念。該模塊還包括“類別”層次結構圖標,單擊圖標,系統就會以分層形式顯示概念,每個節點可前進或后退。如單擊層次結構中的類別之一,則會出現一個新窗口,包含與該類別相關的所有概念。(5)詞匯表:如果概念圖中心元素是術語,則可顯示該術語最常用的搭配動詞列表。
以翻譯舉例。除專業翻譯外,不少學校的應用翻譯課程都會涉及環境科學術語。筆者在翻譯一篇關于大氣層的文獻時,曾登錄網站,查找核心術語Climate change(氣候變化)以及相關術語/概念。比如,埃克曼層(Ekman Layer)指離地面100~2000米的區域;Orographic effect(地形效應)指某一巖層由于地形、巖層的產狀與厚度因素的影響,在地質圖上有不同的露頭形態。對非環境專業譯者來說,在網絡上逐一搜索這些術語十分煩瑣,而且容易出錯。登錄EcoLexicon,輸入“Climate change”,會自動鏈接所有相關術語,比如Desertification(沙漠化)、Recession(衰退)、Atmosphere(大氣),還可以直接查看術語定義、使用語境以及相關資料,非常方便(見圖4)。
由此可見,EcoLexicon不僅適用于環境科學領域專業人士,對于需要了解環境科學知識的其他行業專家也有很大幫助。當用戶用其中一種語言搜索某個術語時,可以得出包括定義、分類、搭配、演變、語法等信息。對譯者來說,可以通過切換語言得知某個術語用另外五種語言如何表示,從而選擇相應的術語進行翻譯。不僅如此,EcoLexicon的術語庫可以在Sketch Engine中免費使用,譯者還可以通過Trados等計算機輔助軟件,自建翻譯術語庫,在環境科學領域承擔大型專業翻譯或本地化項目。
作為大型多語言術語知識庫,EcoLexicon過去十幾年里不斷改進,規模日趨擴大,專業化水平不斷提高,經濟和社會效益日益顯現,給術語知識庫建設和術語研究帶來如下啟示。
術語的國際化發展要從語言入手,而不同國家使用的不同語言可能導致各國學者在使用不同語種術語庫時遇到困難。早前,人們建立術語庫以方便編纂各種專業辭書,后來發現建立術語庫不僅方便編纂和修訂辭書,還能夠規范、協調和統一各種術語的使用,防止語言和文化差異造成的術語混用。比如,瑞典技術術語中心建立“TERMDOK術語數據庫”的主要目的就是解決北歐斯堪的納維亞地區復雜的語言體系為進出口貿易以及科技交流帶來的困難。該術語數據庫對每一條術語/概念的表述均采用了瑞典語、英語、法語、德語、挪威語、芬蘭語等多種語言,克服了北歐國家之間的語言障礙[10]。

圖4 Climate change相關術語
自創立以來,歐盟就支持語言多樣性。根據《歐洲語言教育政策發展指南》,多語種教育的定位一是多語教育,二是多語言意識教育。后者的優越性一方面在于提升學習者的語言能力和語言學習能力,另一方面在于啟發學習者語言是認知世界的資源,構建多語言格局,化解語言沖突與矛盾,促進各國之間經濟發展和文化交流[11]。順應歐盟多語言政策和規劃,EcoLexicon在系統內置西班牙語、英語、德語、法語、俄語和希臘語六種語言,為不同語言的使用者提供便利。與之相比,目前國內術語庫大多僅有漢、英兩種語言[12]。參照EcoLexicon多語言實踐,術語知識庫構建中可融入更多語言,促進國際合作,服務全球治理。世界是多元、多極、多層的,在構建中國學派、講好中國故事、傳遞中國聲音的過程中,應關注多種語言和不同受眾。
作為知識領域,術語學的研究對象是術語單元,可從三個角度加以討論。從語言學角度看,術語是語言的詞匯單元,在具體的語用和話語情境中表達特殊概念。這種特殊概念有準確意義,被各個領域的專業群體識別并穩定下來。從認知角度看,術語構成表征知識結點的概念單元。它們對專業領域的概念結構來說不可或缺,通過詞匯單元從語言上表現出來。所有概念結點組成一個領域的概念結構。從交際角度看,術語是話語單元,通過它可以從個體中發現專業人員,幫助他們進行交流和互動,還能通過教學目的來傳播知識,培養新的專家,或者把專業知識作為信息傳播給那些想學習一門學科的大眾。以Erosion(侵蝕)為例。在EcoLexicon中,通過分析海岸工程的專業語料和各種語義搭配,可以發現“侵蝕”:(1)是一種過程;(2)持續時間不一;(3)隨季節變換;(4)受事不同,影響某個地區或海洋動物群;(5)施事不同,由人為或自然因素觸發。由此可見,術語的主要功能就是在領域內表征和傳播專業知識。
譯者是術語工作者。專業譯者通常專注一個特定領域。統計顯示,專業譯者把75%的時間用于術語翻譯。除工具功能之外,術語可以為譯者提供獲取專業知識的途徑。翻譯產業進入2.0 時代后,采用計算機輔助翻譯技術已是勢在必行。術語庫在翻譯項目中的應用大幅提升了翻譯效率和質量,降低成本,成為企業語言資產的核心。專業翻譯公司和團體都在嘗試建設具有行業特色的翻譯術語庫,把擁有特定領域的術語庫作為產品和服務賣點,比如面向能源、地質、交通、計算機等領域的專業術語庫。受西班牙教育和科技部委托,Lexicon團隊基于海岸工程項目,構建面向環境領域的EcoLexicon,積累了豐富經驗,目前已轉向軍事和醫學等領域[13],服務北約和歐盟等市場或機構需求,開發可通過商品銷售共享的行業資源。
FBT認為圖形也可以描寫概念,與語言語境形成互補。與語言一樣, 圖形在句法方面表現為由不同的形態要素按照一定模式組合而成,在語義方面能夠傳達概念的內涵、外延以及同義關系,在語用方面則表現為因用戶需求、文本專業程度不同而發揮不同功能。Lexicon團隊把圖形信息分為形象圖形、抽象圖像和動態圖形三種,指出這三類圖形信息之間的不同組合,可以構成八種圖像表述方式。不管以何種方式出現,圖像都可以作為語境的一種表現形式,出現在術語庫之中,促進概念的傳播和理解,深化和擴展人們對于概念和概念關系的認識。例如下面兩幅圖像。圖5來自EcoLexicon圖像數據庫,是一幅實景圖,匯集了云、陸地、植被、雨和海洋等景象;圖6來自大氣研究大學協會(University Corporation for Atmospheric Research),細粒度刻畫了降水過程中的概念和知識點[8]。

圖5 降雨實景

圖6 水循環示意圖
信息化時代使科技和生活發生了巨大變革。紙媒體到融媒體的轉變給術語知識庫建設帶來挑戰,定義和解釋術語的方式需要與時俱進。為克服傳統術語庫的不足,需要優化知識庫處理技術,依托本體完成專業領域的概念網絡構建,形成立體化的知識圖譜。在大部分現存術語庫中,圖片的選擇和呈現都是隨機的,基本上是依靠術語編纂者的直覺,缺乏系統性和一致性。針對這個問題,Lexicon團隊做出了一些嘗試,提出視覺語法(visual grammar)概念,如同在詞、句、意等層面對語言進行分析,視覺信息也可以用相似性、抽象性和動態性三個特征進行分層,根據術語編撰的實際需要進行選擇。在開發過程中,EcoLexicon就遵循了這樣的原則,取得了較為理想的效果。此外,我們還可以依托本體理論,運用Protégé專業軟件,對領域概念及概念間的關系進行規范化描述,構建專業領域的概念網絡,形成立體化的主題知識圖譜,實現知識的體系化與可視化[4]。
所謂互操作性,指的是不同系統和機構之間相互合作、協同工作的能力,亦稱“協同工作能力”或“互用性”。按照較為通用的劃分方法, 互操作性依其范疇可分為組織機構互操作性、語義(內容)互操作性和技術互操作性,按照其發展水平還可分為技術、語義、流程、知識、價值、目標六個層級[15]。和重復利用一樣,互操作性是知識表征和提取中的關鍵問題,通過語義網和鏈接開放數據云等表現出來。在21世紀初,歐盟就發布了《聯結歐洲》(LinkingupEurope)提案,針對互操作的重要性和具體政策達成共識。2004年,歐洲互操作性框架正式出臺,規定了以互操作性為中心的一整套標準和指南,為各成員國提供了協調一致的頂層架構。歐盟互動術語數據庫(IATE)為歐盟術語資源提供基于網絡的基礎設施,提高信息的可用性和標準化,為聯盟內部的互操作性打下堅實基礎。
國內一些專業性機構及重要部門都有自己的術語庫。除中國百科術語庫、全國科技名詞委術語庫之外,大多數都是內部使用,外部用戶無法在互聯網直接訪問或進行交互,存在封閉、重復、簡單的弊端。作為一個多語術語知識庫,EcoLexicon集成了環境科學領域的概念、語言和視覺信息,包括術語在內的各種資源可融入不同類型的應用程序,得到重復利用。在開發過程中,Lexicon團隊創造出諸多“副產品”,比如環境專業英語數據庫(EcoLexicon English Corpus)、基于專業術語庫的環境領域計算機輔助翻譯系統(EcoLexiCAT)和圖像注釋工具(Manzanilla)。這些產品和EcoLexicon本身存在互操作性,可充分利用并強化EcoLexicon內部的術語數據資源[15]。以EcoLexiCAT為例。系統可以把專業翻譯工作中的不同功能集成在一個獨立界面,用戶可同時得到EcoLexicon、BabelNet、IATE和Sketch Engine支持,獲得豐富的術語信息,如定義、翻譯、圖像、復合術語、語料庫訪問。在Sketch Engine界面,譯者可以選取原文和譯文片段,直接獲得特定術語的索引、持續查詢語言(CQL)查詢和特性素描。如果想得到詳細分析,可在Sketch Engine上打開新標簽頁,在其開放數據庫中進一步查詢。用戶不僅能夠通過平臺獲取知識,還能直接參與術語庫的完善過程,按照自己的需求選擇術語庫的功能模式、增添術語條目,幫助術語庫實現優化、迭代。在術語庫建設中,我們可借鑒EcoLexicon,以重復利用和互操作性為導向,增加交互渠道,共享資源,不斷提高建設和應用水平。
科技是國家強盛之基,創新是民族進步之魂,術語是科技產品和創新思維在語言中的結晶。本文分析了EcoLexicon的功能和應用,總結出對術語知識庫建設的啟示。在知識經濟體系中,術語知識庫已納入國家發展戰略,許多國家和地區都把術語知識系統作為基礎設施加以建設,高度重視術語學和知識工程學等相關研究。EcoLexicon使知識在人機之間共享,進而實現個體知識與群體知識共享,滿足知識服務體系建設深層次需求,服務知識創新工程體系建設。從術語知識庫構建方式看,國內仍存在構建效率低、實例和屬性規模小、難以應對大數據時代領域知識快速增長等問題。為提升建設水平,可以參照EcoLexicon經驗,提高領域知識的獲取效率,展現多語言、領域性、可視化、互操作性等特點,不斷完善,打造系統化、智能化的術語和知識服務平臺。
注釋
① 在知識表示、面向對象程序設計與面向對象設計的領域,Is A(英語:subsumption,包含架構)是類的父子繼承關系,如類D是另一個類B的子類(類B是類D的父類)。
② SPARQL是Simple Protocol and RDF Query Language的縮寫,為資源描述框架(Resource Description Framework,RDF)開發的一種查詢語言和數據獲取協議。
③ DBpedia,一個特殊的語義網應用范例,從維基百科的詞條里擷取出結構化資料,強化搜尋功能,并將其他資料鏈接至維基百科。
④ 沃爾夫勒姆公司開發的新一代搜索引擎,能根據用戶所提問題直接給出答案。