數智時代翻譯學知識圖譜構建與應用研究

2024-04-14 13:00:26宣偉

信息系統工程 2024年1期

宣偉

摘要：數智時代的悄然到來深刻變革著社會實踐，特別是知識圖譜在不同場景的落地應用，有效解決了知識沉淀、數據關聯和推理分析等問題。作為圖網絡形態的知識存儲結構，知識圖譜在翻譯學領域構建及應用問題，學界尚未引起足夠重視。在爬梳相關文獻基礎上，針對翻譯學這一垂直領域呈現出的數據結構復雜化和知識來源多樣化特征，探討自底向上構建翻譯學知識圖譜基本原理和關鍵技術，設計翻譯學知識圖譜的應用場景，以提高翻譯學知識服務能力和認知智能水平，更好滿足數字人文發展和新文科建設需要，亦為后續相關研究提供啟示和借鑒。

關鍵詞：知識圖譜；翻譯學；垂直領域；人工智能

一、前言

國家高度重視面向未來的教育認知智能化發展。2023年2月，中共中央和國務院發布的《數字中國建設整體布局規劃》指出大力實施國家教育數字化戰略行動[1]。《中國教育現代化2035》提出利用現代技術加快推動人才培養模式改革，實現規?；逃c個性化培養的有機結合[2]。隨著云計算、大數據、區塊鏈、5G、全息技術、擴展現實等新一代信息傳播技術的迅速發展并深入影響社會眾多行業和關鍵領域，社會服務智能化水平得以不斷提升，人類社會進入到數智時代。

“數智時代”目前尚未形成統一概念，但可以肯定的是數智時代的核心內容即為“數智融合”，它作為面向未來的信息化力量，其內涵發展始終與信息技術迭代發展同頻共振，包括“大數據驅動”研究方法論范式、智能方法創新、人機融合行為等前沿研究方向[3]，從腦機技術、全域交互、人機融合、虛實共生、教育均衡、教育智腦等方面賦能未來教育新形態[4]。

在此時代背景下，翻譯學也迎來了以大數據和人工智能運用為典型特征的“數智時代”，尤其是以知識圖譜（Knowledge Graph，KG）為代表的大數據知識工程正受到學術界廣泛關注。知識圖譜是人工智能符號主義發展的典型性代表，由本體（Ontology）技術和語義網絡拓展發展而來，它不僅是對客觀世界進行描述的概念體系，也是一種結構化的語義知識庫和通用語義知識形式化描述框架。

二、知識圖譜概述

目前，知識圖譜尚無統一定義。根據維基百科，知識圖譜是使用語義檢索，從多種來源收集信息，以提高搜索質量的知識庫[5]。本質上來說，知識圖譜是通過由實體和關系組成的三元組（頭實體、關系、尾實體），形式化描述和存儲客觀世界各類實體（Entity）及相互關聯關系。

回溯發展歷程，知識圖譜始于斯坦福大學費根鮑姆（E.A.Feigenbaum）于1965年提出的專家系統（Expert System，ES）概念，基于知識進行決策，使人工智能研究從推理算法主導變為知識主導[6]。之后，奎林（M.R.Quillian）提出語義網絡（Semantic Network，SN）知識表示模式，用相互連接的節點和邊來表示知識[6]，為萬維網上的知識互聯奠定堅實基礎。2012年，Google公司為改善用戶搜索體驗，提升搜索效率和質量，在Freebase基礎上提出知識圖譜概念[7]。

按照知識聚類組織法，將知識按照主題特征進行聚合。知識圖譜可劃分為通用知識圖譜，例如單語的Freebase、OpenKG、Cyc、WordNet、OpenIE、Probase、CN-DBprdia、百度知心、搜狗知立方等；多語的DBpedia、GeoNames、YAGO、WikiData、BabelNet、Google知識圖譜等。此外，知識圖譜與各領域、各行業實現深度融合，面向特定垂直領域的知識圖譜構建已迅速成為研究熱點，例如軍事、中醫、交通、醫療、新聞與傳媒、體育、金融、高等教育等特定領域，具有專業程度高、知識規模大、知識粒度細等特點。

三、翻譯學知識圖譜研究現狀

翻譯學自創立伊始，天然地具有跨學科屬性。1972年，霍爾姆斯（James Holmes）發表“翻譯研究的名與實”（The Name and Nature of Translation Studies）確立了翻譯學學科屬性及研究分支，為學術界研究翻譯指明了方向[8]，被視為翻譯研究的奠基之作。后經過圖里（Gideon Toury）制作成“地圖”，以更直觀的方式呈現出來，對于其廣泛傳播發揮了重要作用[9]。一定程度上來說，這也是翻譯學知識圖譜的雛形。

爬梳翻譯學知識圖譜文獻，根據布拉德福定律（Bradford's? law），選取核心期刊，選取BlueMC詞云工具，繪制詞云圖，排名前十依次為：知識圖譜、Citespace、可視化分析、翻譯模型、表示學習、語料庫翻譯學、三元組分類、知識表示學習、字幕翻譯、機器翻譯。現有研究呈現出研究方法單一。多采用由陳超美博士團隊研發的科學文獻可視化軟件CiteSpace進行相關領域歷史梳理，分析研究現狀及預測未來研究趨勢；研究內容趨同，內容較為重復，同質化傾向較為明顯。

現有研究較少關注“翻譯學”本體（Ontology），實際上翻譯學內涵豐富，體系龐雜，涵蓋翻譯家、代表作、發表年代、研究機構等多種管理對象，數據結構松散，數據間關系復雜。而知識圖譜具有強大的語義處理能力，可將不同數據進行知識抽取，為用戶提供精準的知識服務。翻譯學知識圖譜的構建可深入揭示該垂直領域中各實體間關系，促使資源和服務的有效整合，為翻譯學知識組織提供理論框架，同時也對其他垂直領域知識圖譜的構建提供一定的啟示。

四、翻譯學知識圖譜構建

知識圖譜的構建方法通常有自頂向下和自底向上兩種[10]。前者指事先確定好知識圖譜的本體和數據模式，再添加實體予以豐富完善，例如Freebase項目即為此類，數據多從維基百科中抽取。大多數知識圖譜構建多采用后者，即先從置信度較高的數據中提取出實體后，再構建頂層的本體和數據模式。知識圖譜構建初期二者界限較為分明，隨著數據量增大和數據模型的不斷修正，兩種方式經常綜合起來使用。

鑒于翻譯學這一特定垂直領域特點，本知識圖譜構建采用自底向上的方式。其關鍵節點包括知識建模、數據獲取或預處理、知識抽取、知識融合、知識推理、知識管理。

（一）知識建模

知識建模，又名本體構建，現尚無固定流程與方法，可以細分為：人工構建方法，包括Uschold、TOVE、IDEF-5、Methontology；半自動構建方法，包括五步循環法、七步法、循環獲取法、Protégé等。翻譯學知識呈現出錯綜復雜、多源異構、存儲方式多樣等特點，需要深入分析翻譯學概念內涵，才能將翻譯學概念準確且有效表達出來，可用資源描述框架（Resource Description Framework，RDF）和網絡本體語言（Web Ontology Language，OWL）來描述實體和本體以建立知識體系。

（二）數據獲取或預處理

數據的獲取及處理是成功建立翻譯學知識圖譜的重要前提。翻譯學數據可以從翻譯學教材、翻譯學專業網站、翻譯學視頻等獲取，分為結構化數據、半結構化數據和非結構化數據（自然語言文本）。前兩者數據抽取較為簡單，數據噪聲小，經過數據清洗就可以得到質量較高的結構化三元組數據，而非結構化數據通常包括文本、圖像、視頻等內容，在實體、關系、屬性等非結構化知識抽取基礎上，可輔助圖像識別分類和專家梳理等人工過濾辦法。

（三）知識抽取

知識抽取是翻譯學知識圖譜構建的核心步驟，面臨算法選型和技術框架確定等諸多挑戰。知識抽取的核心內容為識別并抽取實體，常見的算法主要有：利用jieba、IK、HanLP等分詞工具的基于規則方法；利用隱馬爾可夫模型（HMM）、條件隨機場（CRF）、Standford NER等算法的基于特征的統計機器算法；結合卷積神經網絡（CNN）、循環神經網絡（RNN）、注意力網絡等基于深度神經網絡的算法。此外，為了解決基于規則和詞典的關系抽取出現的可遷移性差和成本高昂的問題，學界和業界也探索了Boostrapping和遠程監督學習的弱監督學習方法和Bert/GPT+CRF深層網絡的監督學習方法等。

（四）知識融合

翻譯學知識圖譜的核心價值在于連接聚合不同來源的特定領域知識、專家知識和數據等，因此，不同知識融合需要解決冗余、噪聲、歧義、沖突、欠完備等問題，而數據清洗不能有效解決上述問題。這就涉及實體對齊、關系識別、消歧等步驟，利用詞性標注、分詞、主題詞分析等自然語言處理技術，從數據源置信度和答案置信度進行置信度分析，并進行包括融合策略構建在內的多源數據融合。YAGO和BabelNet成功實現了跨語言知識關聯和共享為翻譯學知識圖譜的知識融合提供范例，據此可得出具有操作性的翻譯學知識圖譜。

（五）知識推理

在完成上述步驟后，所得翻譯學知識圖譜較為殘缺，這就需要知識推理進行知識發現予以補齊。知識推理的算法主要有基于傳統邏輯的推理、基于圖的推理和基于深度學習的推理來挖掘實體之間隱藏的語義關系。

（六）知識管理

傳統知識管理方式已無法滿足數智時代帶來的海量文件存儲、檢索和管理的現實需求，因此建立基于表結構和基于圖結構的知識圖譜存儲方式已引起學界和業界廣泛關注。在有效管理和存儲翻譯學知識基礎上，知識生命周期管理、知識審核與修正、知識安全管理、知識版本管理等知識質量校驗同樣應引起足夠重視。

五、翻譯學知識圖譜應用

近年來，以元宇宙、數字孿生、ChatGPT、數字人、湖倉一體等為代表的數字技術的產生和發展助推了翻譯學知識圖譜發展，已經成為翻譯學領域研究的重要增長點。作為操作性和實踐性明顯的領域，翻譯學知識圖譜至少在以下場景得到具體落地應用。

（一）專題主題文獻計量分析

學者多采用CiteSpace挖掘知識共現網絡關系、高頻關鍵詞、高被引作者和文獻、熱點主題等發展脈絡和熱點前沿，也有少數學者采用BICOMB、SPSS22.0、R語言Bibliometrix等工具。翻譯學知識圖譜可視化展示翻譯學知識，有效解決“數據孤島”問題，提升主題文獻分析效率，賦能翻譯學研究的智能化、個性化、定制化。

國內相關垂直領域大規模知識圖譜正處于積極探索期，較為知名的是由清華大學計算機系知識工程實驗室團隊研發的中國基礎教育知識圖譜EduKG（open.edukg.cn），該圖譜涵蓋基礎教育九門學科內容，實現學習資源語義化分析和個性化推薦等功能。除此之外，北京外國語大學人工智能與人類語言重點實驗室研發的外語學科知識圖譜LingNet嘗試建立外語學科概念之間關系，也產生了較為深遠影響。

（二）翻譯知識服務平臺構建

在翻譯知識圖譜基礎上，可積極構建翻譯知識服務平臺以滿足數智時代的知識服務需求。具體來看，以知識圖譜為基礎提供知識檢索服務，以知識推理系統為用戶提供智能問答服務，以用戶畫像為基礎提供個性化推薦服務。在文獻分析基礎上，擬構建的翻譯知識服務平臺從需求分析出發，對平臺功能性需求和非功能性需求進行詳細分析，主要包括下列關鍵環節：

1.明確所需技術和工具

可選擇ASP.NET作為開發平臺，以 VisualStudio作為開發工具，以面向對象的編程思想作為指導，運用目前實用而高效的Web應用程序開發技術ASP.NET、XML以及C#、Java script等編程語言，必要時使用部分第三方控件。

2.數據庫設計與建設

根據平臺需求，選擇SQL Server作為系統數據庫。根據翻譯知識服務平臺實際管理需求設計數據庫表結構，包括實體表、關聯表和屬性字段，確保數據的組織和存儲的合理性。根據數據庫設計，創建數據庫和相應的表結構，并設置索引、約束等數據庫元素，保證數據的完整性和一致性。

3.平臺功能開發

根據界面設計和用戶體驗要求，使用HTML、CSS和JavaScript等技術，開發前端界面和交互功能，實現用戶界面的友好性和響應性。根據模塊劃分，使用所選的編程語言和開發框架編寫后端代碼，實現各個功能模塊，包括數據處理、業務邏輯和接口設計。

4.系統集成與測試

將開發完成的各個功能模塊進行集成，確保模塊之間的協同工作和數據交互的正確性。對集成后的系統進行功能測試，驗證平臺的各項功能是否按照需求規格和設計要求正常運行。

5平臺部署與上線

準備服務器環境和網絡配置，確保平臺的運行環境滿足要求。將開發完成的平臺部署到服務器上，配置域名和端口，確保平臺能夠通過互聯網進行訪問和使用。

（三）翻譯智能產品研發

數智時代的典型特點是數字化和人工智能的深度耦合，知識圖譜在深化認知智能應用水平，為實現人、數據、知識的互聯互通提供堅實基礎。不可否認的是，市面上出現的眾多翻譯智能產品能夠實現智能問答、智能搜索與查詢等操作，但涉及的翻譯知識較為簡單，未能實現系統化和專業化，且魯棒性較低。而翻譯學知識圖譜的應用可有效提升翻譯智能產品的研發，提升翻譯智能產品的智能化水平。研究發現，人工智能技術中的自然語言處理、機器學習、計算機視覺已經在產品研發中得到廣泛運用，特別是機器翻譯、圖像識別、語音識別等技術，而“AI技術+流程+團隊”模式推動服務能力、翻譯行為和管理方式變革[11]。

六、結語

數智時代帶來的大數據和大知識為翻譯學研究帶來了挑戰，知識圖譜在解決“數據孤島”、彌合數據和知識“鴻溝”、提升認知智能水平等方面發揮著巨大作用，不失為有效路徑。以知識圖譜為基礎的認知智能發展深度契合國家高度重視并著力發展的“新文科建設”，有力推進哲學社會科學與新一輪科技革命和產業變革交叉融合。翻譯學研究需乘勢而為，堅持“古今結合”和“文理融合”，以期實現學科深度融通，培養交叉復合型翻譯人才，為高質量推動“一帶一路”建設，展示中國形象、發出中國聲音貢獻“翻譯力量”。

參考文獻

[1]中共中央，國務院.數字中國建設整體布局規劃[EB/OL].[2023-03-27].http：//www.gov.cn/xinwen/2023-02/27/content＿5743484.htm.

[2]中共中央，國務院.中國教育現代化2035[EB/OL].[2023-03-27].https：//www.gov.cn/zhengce/2019-02/23/content_5367987.htm.

[3]陳國青，任明，衛強，等.數智賦能：信息系統研究的新躍遷[J].管理世界，2022，38（01）：180-196.

[4]鄭思思，陳衛東，徐銣憶，等.數智融合：數據驅動下教與學的演進與未來趨向——兼論圖形化數據智能賦能教育的新形態[J].遠程教育雜志，2020，38（04）：27-37.

[5] Wikipedia. Google Knowledge Graph［EB/OL］. ［2023-02-14］.https：//en. wikipedia. org/wiki/Google_Knowledge_Graph.

[6]田玲，張謹川，張晉豪，等.知識圖譜綜述——表示、構建、推理與知識超圖理論[J].計算機應用，2021，41（08）：2161-2186.

[7] SINGHAL A. Introducing the knowledge graph：things，not strings［EB/OL］. ［2023-03-09］. https：//www. blog. google/products/search/introducing-knowledge-graph-things-not/.

[8] Pym，A．1998． Method in Translation History[M]．Manchester： StJerome．

[9]朱健平.完整再現霍爾姆斯翻譯研究學科構架圖[J].外語教學理論與實踐，2018（04）：75-83.

[10]劉嶠，李楊，段宏，等.知識圖譜構建技術綜述[J].計算機研究與發展，2016，53（03）：582-600.

[11]崔啟亮.人工智能在語言服務企業的應用研究[J].外國語文，2021，37（01）：26-32+73.

作者單位：南開大學外國語學院

責任編輯：尚丹