999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Transformer模型的軌道交通機器翻譯系統設計

2024-05-07 07:44:06李子林劉慶猛李雪山
鐵路計算機應用 2024年4期
關鍵詞:用戶服務模型

李子林,劉慶猛,李雪山

(中國鐵道科學研究院集團有限公司 科學技術信息研究所,北京 100081)

近年來,中國鐵路“走出去”的步伐不斷加快,已成為“一帶一路”建設和國際產能合作的一張靚麗名片。隨著坦桑尼亞—贊比亞鐵路(簡稱:坦贊鐵路)、蒙巴薩—內羅畢鐵路(簡稱:蒙內鐵路)、中國—老撾鐵路(簡稱:中老鐵路)、匈牙利—塞爾維亞鐵路(簡稱:匈塞鐵路)、雅加達—萬隆高速鐵路(簡稱:雅萬高鐵)等國際鐵路建設合作項目的順利、穩步推進,以及《高速鐵路設計基礎設施》等技術標準的國際化,中國鐵路生產經營、科技研發事業也不斷迎來一系列新的國際機遇和挑戰。鐵路行業對外合作和技術交流的不斷深入也對鐵路從業人員掌握外國語言的能力提出了更高的要求。此外,在鐵路科技自立自強背景下,國內鐵路科研人員囿于語言障礙,無法快速、精準地查詢和利用多語種科技文獻,造成國外先進的鐵路科技研發成果無法被充分了解、吸收和借鑒。鑒于此,立足軌道交通行業特點和現實需求,推出具有領域性、專業性和行業特色的機器翻譯系統工具意義深遠。

從基于循環神經網絡(RNN,Recurrent Neural Network)到基于注意力機制、基于卷積神經網絡(CNN,Convolutional Neural Network)的神經機器翻譯方法[1-3],再發展至基于自注意力機制的Transformer模型的神經機器翻譯(NMT, Neural Machine Translation)方法[4],神經機器翻譯模型通過神經網絡和注意力機制學習序列之間的映射優化了翻譯性能,已成為機器翻譯領域的主流模型。然而,聚焦小語種及特定行業領域的機器翻譯系統仍處于探索發展期[5-6]。以谷歌、百度、DeepL等為代表的主流機器翻譯系統在通用領域、常用語種翻譯方面效果顯著,但是在特定行業領域、小語種翻譯等方面仍然有較大的優化空間。以軌道交通行業為例,主流機器翻譯系統對專業術語、專有名詞縮寫、行業新詞的機器翻譯效果與通用領域翻譯效果尚存差距。另外,滿足本地化部署和信息安全保密要求亦是行業機器翻譯系統研發和設計關注的重點。

基于上述研究,本文立足軌道交通行業特色,打造基于Transformer模型的軌道交通機器翻譯系統——“鐵譯通”(RailTrans),面向行業用戶,提供專業化、多元化、定制化、安全性強的機器翻譯服務,為進一步豐富人工智能技術在鐵路行業的應用場景提供支撐[7]。

1 系統總體架構

軌道交通機器翻譯系統總體架構由應用層和翻譯引擎實現層組成,如圖1所示。

圖1 軌道交通機器翻譯系統總體架構

1.1 翻譯引擎實現層

1.1.1 資源數據

主要用于存儲雙語句對、軌道交通領域術語詞典等基本數據庫資源。

1.1.2 數據加工

主要對資源數據層存儲的數據進行結構化預處理,以確保訓練系統所需要的數據可用,主要包括:亂碼過濾、句對齊、中文分詞、多國語分詞、命名實體識別、子詞切分等流程。

1.1.3 模型訓練

采用基于Transformer模型進行神經機器翻譯建模,同時,使用極大似然估計針對平行數據進行網絡參數調優,進而可以使用此模型進行翻譯引擎構建。自動評價方法使用雙語互譯質量評估輔助工具(BLEU,Bilingual Evaluation Understudy)來評價翻譯質量,并根據評測結果的優缺點調整訓練模型,最后得出翻譯系統最佳模型。

1.1.4 引擎構建

對資源數據、數據加工及模型訓練等模塊進行統一調度管理,并將所有資源數據加載至內存,等待翻譯任務進行解碼。利用神經機器翻譯解碼技術,基于云平臺結構搭建系統架構,使之具備分布式處理能力,同時不斷擴展計算節點以進一步提高翻譯性能。

1.2 應用層

1.2.1 功能模塊

主要包括語種識別、用戶詞典等服務模塊。語種識別主要是基于統計模型建模,自動識別輸入句子的語言,以便于用戶自動切換到所需語種。用戶詞典主要是面向軌道交通專業用戶,提供嵌入軌道交通專業詞庫的領域翻譯功能,根據用戶需求添加術語詞典,確保神經機器模型在深度學習中提高翻譯性能。

1.2.2 應用服務

主要包括:翻譯應用程序編程接口(API,Application Programming Interface),用于支持二次開發;基于Web的文本翻譯、文檔翻譯,其中,文檔格式支持pdf、txt、doc、docx、xls、ppt和pptx等常用格式;基于Web的瀏覽器翻譯,其中,瀏覽器支持Chrome、Edge、360及其他基于Chrome內核的瀏覽器;基于Office插件的辦公軟件翻譯,兼容微軟Office和WPS,支持word、ppt、excel文檔。

2 系統功能

軌道交通機器翻譯系統的定位是面向國內軌道交通行業用戶的高度安全性、專業化、個性化的機器翻譯引擎,主要功能如下。

2.1 網頁端翻譯

網頁端翻譯功能主要適配瀏覽器端用戶使用場景,分為文本翻譯和文檔翻譯。其中,文本翻譯具備5 000字符文字翻譯能力,提供原文種自動識別、原文清空、譯文復制、雙語高亮等功能;文檔翻譯適配pdf、docx、txt、xls、xls、ppt、pptx、html等格式文檔,具備列表顯示、翻頁、搜索、翻譯進度、下載、刪除、預覽等功能,支持雙語對照格式、譯文docx格式下載。

2.2 翻譯API及翻譯插件

隨著多語種信息指數級增長,機器翻譯技術逐漸被融合應用到各類業務場景,為用戶提供實時便捷的翻譯服務[8]。鑒于此,本系統推出翻譯API及各類翻譯插件。文本翻譯API,是基于HTTP協議的翻譯API,用戶可根據需要便捷地集成嵌入到業務平臺或其他應用中;文檔翻譯API,通過API的方式可快速將文檔翻譯服務集成到現有業務系統;XML翻譯API,可支持XML文本翻譯,譯文保留原始格式;特色術語庫API,通過API調用添加行業特色語料,保證譯文中術語翻譯的準確性和一致性。Office翻譯插件,用戶下載插件到本地安裝后,點選Office辦公軟件工具欄的“鐵譯通”按鈕即可啟動翻譯服務;Web瀏覽器翻譯插件,用戶下載插件到本地安裝后,點選Web瀏覽器輔助工具欄的“鐵譯通”即可啟動網頁翻譯服務。

2.3 人工翻譯

機器翻譯在翻譯效率方面優勢明顯,但針對軌道交通行業專業性強、術語量多、內容復雜的科研類文檔,機器翻譯與人工翻譯相比在文章結構、用詞精準度、語言流暢度等方面仍有較大差距。因此,本系統推出人工翻譯功能,整合軌道交通翻譯專家數據庫,有效實現用戶翻譯需求與領域翻譯專家“點對點”關聯,完成人工翻譯訂單的在線投遞、定向分配、任務返回與譯文發布。

2.4 后臺管理

提供用戶(組)管理功能,可根據需要對特定用戶(組)的基本信息進行增刪改查,并對相應用戶(組)的使用權限進行自定義設置;提供充值管理功能,按照流量計費制度對用戶賬號流量進行實時監測和自動充值提醒;提供人工翻譯訂單管理功能,對接收的人工翻譯服務訂單進行派單操作和費用配置;提供API管理功能,對API權限、流量、個性化定制等進行設置;此外,提供訪問控制、訪問統計、流量統計等訪問日志功能。

3 關鍵技術

3.1 多語種數據處理與分析

多語種數據處理與分析主要包括多語言數據加工和多語種語言分析。大規模平行雙語數據來源廣泛,數字化過程中不免出現亂碼問題,因此,須對非法字符、控制字符等進行亂碼過濾等規范化處理。多語言數據加工主要通過集成分布式爬蟲、數據標注、數據清洗等工具,對軌道交通行業多語言數據進行采集、規范化處理和加工,為后期多語種語言分析提供數據基礎。

多語種語言分析能夠支持中文句子級的自動分詞、詞性標注、命名實體識別、組塊識別、成分句法分析等技術,對句子中的特殊信息進行預處理,主要包括數字、時間、日期、人名、地名和組織機構名等。在分詞基礎上,根據大規模語料進行子詞統計,得到更符合語料的詞匯表,同時,減少機器翻譯中詞匯表過大引起的速度問題。多語種語言分析平臺強大的語料處理能力為高質量語料訓練夯實基礎,進而保證翻譯質量的可信度。

3.2 Transformer模型及優化

Transformer神經網絡模型僅使用自注意力機制和標準的前饋神經網絡,不依賴循環單元或者卷積操作可以高效地描述任意距離之間的依賴關系,因此,非常適合處理語言文字序列。

軌道交通機器翻譯系統以Transformer神經網絡模型為基礎,在算法層面進行創新,以提升模型編碼和解碼的性能。Transformer模型優化的方法多數是將模型加寬(Transformer-Big模型),但是,堆疊太多的層會因為梯度消失或梯度爆炸而導致模型難以訓練,傳統的層標準化(LN,Layer Normalization)是在殘差連接之后進行,本文提出一種新的基于群體置換(Group-Permutation)的知識蒸餾方法,即將深的Transformer模型壓縮為一個淺的輕量模型,并通過隨機刪除子層以引入擾動訓練的子層跳躍(Skipping Sub-Layer)方法。基于Group-Permutation的知識蒸餾方法如圖2所示。

圖2 基于Group-Permutation的知識蒸餾方法

其主要可分為如下3個步驟。

(1)在Teacher模型上應用Group-permutation的訓練方法;

(2)通過Teacher模型生成SKD數據;

(3)利用得到的SKD數據訓練Student模型。

軌道交通機器翻譯系統引入翻譯記憶(TM,Translation Memory),并融入神經機器翻譯NMT模型進行訓練。翻譯記憶是保存信息所翻譯專家歷史翻譯記錄的數據庫,其中,每個條目包含源語句子及其翻譯。依托中國鐵道科學研究院集團有限公司科學技術信息研究所翻譯中心積累的豐富的優質翻譯經驗和語料,構成翻譯記憶的基礎,這些語料對于軌道交通領域的精準翻譯非常重要。模型訓練中,利用數據增廣的方式將翻譯記憶和訓練數據拼接起來,同時,調整神經機器翻譯的架構,使其能夠處理翻譯記憶信息,從中獲得翻譯知識。

3.3 專業語料庫構建

經典神經機器翻譯模型訓練高度依賴雙語平行語料庫[9]。為確保軌道交通機器翻譯系統的翻譯專業性和精準度,構建雙語平行專業語料庫,從語料規模、語料采集、語料擇選與規范化處理等維度進行規劃與控制,為后期神經機器翻譯模型的訓練夯實基礎。

4 應用場景

軌道交通機器翻譯系統作為子系統納入到了中國鐵道科學研究院集團有限公司的“軌道交通專業知識服務系統(鐵科院數字圖書館)”之中,面向軌道交通行業用戶提供基礎服務、特色服務和人工服務。

4.1 基礎服務

主要包括:文本翻譯、文檔翻譯服務。用戶登錄系統主界面后,手工錄入或上傳文檔即可翻譯。系統支持切換“領域翻譯”“即時翻譯”模式,用戶可自定義翻譯服務的時效性和專業化程度。例如,輸入文本“cars per cut”,在“通用領域”模式翻譯為“每輛車”,在“軌道領域”模式翻譯為“鉤車”,翻譯結果的專業性更強。

4.2 特色服務

主要包括:插件翻譯、文檔轉換處理等服務。相較于主流機器翻譯引擎,本系統增加Office/WPS翻譯插件、瀏覽器翻譯插件服務,同步在線端的用戶數據,真正實現“一個賬號聯通多種服務方式”。另外,推出“劃詞翻譯”“翻譯范圍自定義”等個性化翻譯工具,增設“文檔轉換處理”輔助翻譯工具,提高文檔翻譯服務的用戶滿意度。

4.3 人工服務

本系統整合國內軌道交通行業翻譯專家資源,增設人工翻譯服務模塊。用戶可在線提交“翻譯訂單”,上傳翻譯示例文檔,選擇不同等級的翻譯服務,并對翻譯內容提出要求。本系統將根據“翻譯訂單”進行專家配對,為用戶推薦目標領域的翻譯專家完成翻譯工作。

與商業機器翻譯引擎相比,本系統應用優勢如下。

(1)實現本地化部署,有效保障數據的安全性和保密性;

(2)利用專業語料庫,提升領域翻譯的專業性和精準度;

(3)提供多元化翻譯服務,除網頁端翻譯服務外,提供Office等插件翻譯和人工翻譯服務,適配用戶個性化的應用場景。

5 結束語

本文針對商用機器翻譯引擎安全性無法保證、專業化領域翻譯精準度低、翻譯服務方式單一等問題,設計軌道交通機器翻譯系統。通過應用知識蒸餾方法進行Transformer模型優化,構建軌道交通行業專業語料庫,提升系統翻譯的專業性和精準度,實現本地化部署與運營維護,保障數據的安全性和保密性;推出文本翻譯、文檔翻譯、Office插件翻譯等的多元化翻譯服務,為軌道交通行業人員提供更加安全化、專業化、特色化的翻譯工具。下一步,將豐富多語種語料庫,增加文檔翻譯OCR識別等功能,優化翻譯API性能,提升系統的穩定性和易用性。

猜你喜歡
用戶服務模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
服務在身邊 健康每一天
今日農業(2019年12期)2019-08-15 00:56:32
服務在身邊 健康每一天
今日農業(2019年10期)2019-01-04 04:28:15
服務在身邊 健康每一天
今日農業(2019年16期)2019-01-03 11:39:20
招行30年:從“滿意服務”到“感動服務”
商周刊(2017年9期)2017-08-22 02:57:56
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
主站蜘蛛池模板: 免费国产高清视频| 91亚洲精选| 亚洲视频无码| 国产精品天干天干在线观看| 国产精品亚洲专区一区| 亚洲天堂网在线视频| 91亚洲视频下载| 成人亚洲国产| 日韩中文欧美| 久久精品国产国语对白| h视频在线播放| 伊人久久精品无码麻豆精品| 国产白丝av| 国产成人亚洲精品色欲AV| 一级毛片中文字幕| 国产欧美日韩视频怡春院| 亚洲女人在线| 男女男精品视频| 18禁黄无遮挡免费动漫网站| 国产噜噜在线视频观看| 久久久受www免费人成| 天天摸夜夜操| 欧美三级日韩三级| 一级毛片无毒不卡直接观看| 91国内在线观看| 久久黄色毛片| 亚洲AV无码不卡无码| 精品国产中文一级毛片在线看| 中文国产成人精品久久| 97国产在线观看| 18禁影院亚洲专区| 国产18页| 99精品免费欧美成人小视频| 在线日本国产成人免费的| 精品免费在线视频| 国产在线精品人成导航| 国产老女人精品免费视频| 久久综合九九亚洲一区| 亚洲天堂免费观看| 国产在线欧美| 亚洲伊人电影| 久久精品国产免费观看频道| 极品尤物av美乳在线观看| 911亚洲精品| 丝袜久久剧情精品国产| 日韩欧美一区在线观看| 国内熟女少妇一线天| 69av在线| 日日摸夜夜爽无码| 国产区免费| 中文无码精品A∨在线观看不卡| 欧美日本在线观看| 欧美a级在线| 亚洲国产成人综合精品2020| 在线精品自拍| 波多野结衣一区二区三视频 | 国产精品久久久免费视频| 亚洲男人的天堂网| 国产麻豆永久视频| 亚洲精品国产乱码不卡| 国产手机在线ΑⅤ片无码观看| 国产哺乳奶水91在线播放| 毛片a级毛片免费观看免下载| 任我操在线视频| 看av免费毛片手机播放| 日本精品影院| 国产内射一区亚洲| 日韩亚洲综合在线| 日韩天堂视频| 白丝美女办公室高潮喷水视频| 日本日韩欧美| 国产二级毛片| 亚洲国产精品美女| 日本午夜精品一本在线观看| 国产精品成人观看视频国产| 国产中文一区a级毛片视频| 不卡色老大久久综合网| 国产91在线免费视频| 成年免费在线观看| 97青草最新免费精品视频| 狠狠亚洲婷婷综合色香| 亚洲精品另类|