基于Transformer模型的軌道交通機器翻譯系統設計

2024-05-07 07:44:06李子林劉慶猛李雪山

鐵路計算機應用 2024年4期

李子林，劉慶猛，李雪山

（中國鐵道科學研究院集團有限公司科學技術信息研究所，北京 100081）

近年來，中國鐵路“走出去”的步伐不斷加快，已成為“一帶一路”建設和國際產能合作的一張靚麗名片。隨著坦桑尼亞—贊比亞鐵路（簡稱：坦贊鐵路）、蒙巴薩—內羅畢鐵路（簡稱：蒙內鐵路）、中國—老撾鐵路（簡稱：中老鐵路）、匈牙利—塞爾維亞鐵路（簡稱：匈塞鐵路）、雅加達—萬隆高速鐵路（簡稱：雅萬高鐵）等國際鐵路建設合作項目的順利、穩步推進，以及《高速鐵路設計基礎設施》等技術標準的國際化，中國鐵路生產經營、科技研發事業也不斷迎來一系列新的國際機遇和挑戰。鐵路行業對外合作和技術交流的不斷深入也對鐵路從業人員掌握外國語言的能力提出了更高的要求。此外，在鐵路科技自立自強背景下，國內鐵路科研人員囿于語言障礙，無法快速、精準地查詢和利用多語種科技文獻，造成國外先進的鐵路科技研發成果無法被充分了解、吸收和借鑒。鑒于此，立足軌道交通行業特點和現實需求，推出具有領域性、專業性和行業特色的機器翻譯系統工具意義深遠。

從基于循環神經網絡（RNN，Recurrent Neural Network）到基于注意力機制、基于卷積神經網絡（CNN，Convolutional Neural Network）的神經機器翻譯方法[1-3]，再發展至基于自注意力機制的Transformer模型的神經機器翻譯（NMT, Neural Machine Translation）方法[4]，神經機器翻譯模型通過神經網絡和注意力機制學習序列之間的映射優化了翻譯性能，已成為機器翻譯領域的主流模型。然而，聚焦小語種及特定行業領域的機器翻譯系統仍處于探索發展期[5-6]。以谷歌、百度、DeepL等為代表的主流機器翻譯系統在通用領域、常用語種翻譯方面效果顯著，但是在特定行業領域、小語種翻譯等方面仍然有較大的優化空間。以軌道交通行業為例，主流機器翻譯系統對專業術語、專有名詞縮寫、行業新詞的機器翻譯效果與通用領域翻譯效果尚存差距。另外，滿足本地化部署和信息安全保密要求亦是行業機器翻譯系統研發和設計關注的重點。

基于上述研究，本文立足軌道交通行業特色，打造基于Transformer模型的軌道交通機器翻譯系統——“鐵譯通”（RailTrans），面向行業用戶，提供專業化、多元化、定制化、安全性強的機器翻譯服務，為進一步豐富人工智能技術在鐵路行業的應用場景提供支撐[7]。

1 系統總體架構

軌道交通機器翻譯系統總體架構由應用層和翻譯引擎實現層組成，如圖1所示。

圖1 軌道交通機器翻譯系統總體架構

1.1 翻譯引擎實現層

1.1.1 資源數據

主要用于存儲雙語句對、軌道交通領域術語詞典等基本數據庫資源。

1.1.2 數據加工

主要對資源數據層存儲的數據進行結構化預處理，以確保訓練系統所需要的數據可用，主要包括：亂碼過濾、句對齊、中文分詞、多國語分詞、命名實體識別、子詞切分等流程。

1.1.3 模型訓練

采用基于Transformer模型進行神經機器翻譯建模，同時，使用極大似然估計針對平行數據進行網絡參數調優，進而可以使用此模型進行翻譯引擎構建。自動評價方法使用雙語互譯質量評估輔助工具（BLEU，Bilingual Evaluation Understudy）來評價翻譯質量，并根據評測結果的優缺點調整訓練模型，最后得出翻譯系統最佳模型。

1.1.4 引擎構建

對資源數據、數據加工及模型訓練等模塊進行統一調度管理，并將所有資源數據加載至內存，等待翻譯任務進行解碼。利用神經機器翻譯解碼技術，基于云平臺結構搭建系統架構，使之具備分布式處理能力，同時不斷擴展計算節點以進一步提高翻譯性能。

1.2 應用層

1.2.1 功能模塊

主要包括語種識別、用戶詞典等服務模塊。語種識別主要是基于統計模型建模，自動識別輸入句子的語言，以便于用戶自動切換到所需語種。用戶詞典主要是面向軌道交通專業用戶，提供嵌入軌道交通專業詞庫的領域翻譯功能，根據用戶需求添加術語詞典，確保神經機器模型在深度學習中提高翻譯性能。

1.2.2 應用服務

主要包括：翻譯應用程序編程接口（API，Application Programming Interface），用于支持二次開發；基于Web的文本翻譯、文檔翻譯，其中，文檔格式支持pdf、txt、doc、docx、xls、ppt和pptx等常用格式；基于Web的瀏覽器翻譯，其中，瀏覽器支持Chrome、Edge、360及其他基于Chrome內核的瀏覽器；基于Office插件的辦公軟件翻譯，兼容微軟Office和WPS，支持word、ppt、excel文檔。

2 系統功能

軌道交通機器翻譯系統的定位是面向國內軌道交通行業用戶的高度安全性、專業化、個性化的機器翻譯引擎，主要功能如下。

2.1 網頁端翻譯

網頁端翻譯功能主要適配瀏覽器端用戶使用場景，分為文本翻譯和文檔翻譯。其中，文本翻譯具備5 000字符文字翻譯能力，提供原文種自動識別、原文清空、譯文復制、雙語高亮等功能；文檔翻譯適配pdf、docx、txt、xls、xls、ppt、pptx、html等格式文檔，具備列表顯示、翻頁、搜索、翻譯進度、下載、刪除、預覽等功能，支持雙語對照格式、譯文docx格式下載。

2.2 翻譯API及翻譯插件

隨著多語種信息指數級增長，機器翻譯技術逐漸被融合應用到各類業務場景，為用戶提供實時便捷的翻譯服務[8]。鑒于此，本系統推出翻譯API及各類翻譯插件。文本翻譯API，是基于HTTP協議的翻譯API，用戶可根據需要便捷地集成嵌入到業務平臺或其他應用中；文檔翻譯API，通過API的方式可快速將文檔翻譯服務集成到現有業務系統；XML翻譯API，可支持XML文本翻譯，譯文保留原始格式；特色術語庫API，通過API調用添加行業特色語料，保證譯文中術語翻譯的準確性和一致性。Office翻譯插件，用戶下載插件到本地安裝后，點選Office辦公軟件工具欄的“鐵譯通”按鈕即可啟動翻譯服務；Web瀏覽器翻譯插件，用戶下載插件到本地安裝后，點選Web瀏覽器輔助工具欄的“鐵譯通”即可啟動網頁翻譯服務。

2.3 人工翻譯

機器翻譯在翻譯效率方面優勢明顯，但針對軌道交通行業專業性強、術語量多、內容復雜的科研類文檔，機器翻譯與人工翻譯相比在文章結構、用詞精準度、語言流暢度等方面仍有較大差距。因此，本系統推出人工翻譯功能，整合軌道交通翻譯專家數據庫，有效實現用戶翻譯需求與領域翻譯專家“點對點”關聯，完成人工翻譯訂單的在線投遞、定向分配、任務返回與譯文發布。

2.4 后臺管理

提供用戶（組）管理功能，可根據需要對特定用戶（組）的基本信息進行增刪改查，并對相應用戶（組）的使用權限進行自定義設置；提供充值管理功能，按照流量計費制度對用戶賬號流量進行實時監測和自動充值提醒；提供人工翻譯訂單管理功能，對接收的人工翻譯服務訂單進行派單操作和費用配置；提供API管理功能，對API權限、流量、個性化定制等進行設置；此外，提供訪問控制、訪問統計、流量統計等訪問日志功能。

3 關鍵技術

3.1 多語種數據處理與分析

多語種數據處理與分析主要包括多語言數據加工和多語種語言分析。大規模平行雙語數據來源廣泛，數字化過程中不免出現亂碼問題，因此，須對非法字符、控制字符等進行亂碼過濾等規范化處理。多語言數據加工主要通過集成分布式爬蟲、數據標注、數據清洗等工具，對軌道交通行業多語言數據進行采集、規范化處理和加工，為后期多語種語言分析提供數據基礎。

多語種語言分析能夠支持中文句子級的自動分詞、詞性標注、命名實體識別、組塊識別、成分句法分析等技術，對句子中的特殊信息進行預處理，主要包括數字、時間、日期、人名、地名和組織機構名等。在分詞基礎上，根據大規模語料進行子詞統計，得到更符合語料的詞匯表，同時，減少機器翻譯中詞匯表過大引起的速度問題。多語種語言分析平臺強大的語料處理能力為高質量語料訓練夯實基礎，進而保證翻譯質量的可信度。

3.2 Transformer模型及優化

Transformer神經網絡模型僅使用自注意力機制和標準的前饋神經網絡，不依賴循環單元或者卷積操作可以高效地描述任意距離之間的依賴關系，因此，非常適合處理語言文字序列。

軌道交通機器翻譯系統以Transformer神經網絡模型為基礎，在算法層面進行創新，以提升模型編碼和解碼的性能。Transformer模型優化的方法多數是將模型加寬（Transformer-Big模型），但是，堆疊太多的層會因為梯度消失或梯度爆炸而導致模型難以訓練，傳統的層標準化（LN，Layer Normalization）是在殘差連接之后進行，本文提出一種新的基于群體置換（Group-Permutation）的知識蒸餾方法，即將深的Transformer模型壓縮為一個淺的輕量模型，并通過隨機刪除子層以引入擾動訓練的子層跳躍（Skipping Sub-Layer）方法。基于Group-Permutation的知識蒸餾方法如圖2所示。

圖2 基于Group-Permutation的知識蒸餾方法

其主要可分為如下3個步驟。

（1）在Teacher模型上應用Group-permutation的訓練方法；

（2）通過Teacher模型生成SKD數據；

（3）利用得到的SKD數據訓練Student模型。

軌道交通機器翻譯系統引入翻譯記憶（TM，Translation Memory），并融入神經機器翻譯NMT模型進行訓練。翻譯記憶是保存信息所翻譯專家歷史翻譯記錄的數據庫，其中，每個條目包含源語句子及其翻譯。依托中國鐵道科學研究院集團有限公司科學技術信息研究所翻譯中心積累的豐富的優質翻譯經驗和語料，構成翻譯記憶的基礎，這些語料對于軌道交通領域的精準翻譯非常重要。模型訓練中，利用數據增廣的方式將翻譯記憶和訓練數據拼接起來，同時，調整神經機器翻譯的架構，使其能夠處理翻譯記憶信息，從中獲得翻譯知識。

3.3 專業語料庫構建

經典神經機器翻譯模型訓練高度依賴雙語平行語料庫[9]。為確保軌道交通機器翻譯系統的翻譯專業性和精準度，構建雙語平行專業語料庫，從語料規模、語料采集、語料擇選與規范化處理等維度進行規劃與控制，為后期神經機器翻譯模型的訓練夯實基礎。

4 應用場景

軌道交通機器翻譯系統作為子系統納入到了中國鐵道科學研究院集團有限公司的“軌道交通專業知識服務系統（鐵科院數字圖書館）”之中，面向軌道交通行業用戶提供基礎服務、特色服務和人工服務。

4.1 基礎服務

主要包括：文本翻譯、文檔翻譯服務。用戶登錄系統主界面后，手工錄入或上傳文檔即可翻譯。系統支持切換“領域翻譯”“即時翻譯”模式，用戶可自定義翻譯服務的時效性和專業化程度。例如，輸入文本“cars per cut”，在“通用領域”模式翻譯為“每輛車”，在“軌道領域”模式翻譯為“鉤車”，翻譯結果的專業性更強。

4.2 特色服務

主要包括：插件翻譯、文檔轉換處理等服務。相較于主流機器翻譯引擎，本系統增加Office/WPS翻譯插件、瀏覽器翻譯插件服務，同步在線端的用戶數據，真正實現“一個賬號聯通多種服務方式”。另外，推出“劃詞翻譯”“翻譯范圍自定義”等個性化翻譯工具，增設“文檔轉換處理”輔助翻譯工具，提高文檔翻譯服務的用戶滿意度。

4.3 人工服務

本系統整合國內軌道交通行業翻譯專家資源，增設人工翻譯服務模塊。用戶可在線提交“翻譯訂單”，上傳翻譯示例文檔，選擇不同等級的翻譯服務，并對翻譯內容提出要求。本系統將根據“翻譯訂單”進行專家配對，為用戶推薦目標領域的翻譯專家完成翻譯工作。

與商業機器翻譯引擎相比，本系統應用優勢如下。

（1）實現本地化部署，有效保障數據的安全性和保密性；

（2）利用專業語料庫，提升領域翻譯的專業性和精準度；

（3）提供多元化翻譯服務，除網頁端翻譯服務外，提供Office等插件翻譯和人工翻譯服務，適配用戶個性化的應用場景。

5 結束語

本文針對商用機器翻譯引擎安全性無法保證、專業化領域翻譯精準度低、翻譯服務方式單一等問題，設計軌道交通機器翻譯系統。通過應用知識蒸餾方法進行Transformer模型優化，構建軌道交通行業專業語料庫，提升系統翻譯的專業性和精準度，實現本地化部署與運營維護，保障數據的安全性和保密性；推出文本翻譯、文檔翻譯、Office插件翻譯等的多元化翻譯服務，為軌道交通行業人員提供更加安全化、專業化、特色化的翻譯工具。下一步，將豐富多語種語料庫，增加文檔翻譯OCR識別等功能，優化翻譯API性能，提升系統的穩定性和易用性。