蒙漢機器翻譯中數詞自動翻譯的研討

2016-03-25 08:43:46牛其其日樂格

決策與信息·下旬刊 2016年2期

【摘要】隨著我國現代經濟及科技的不斷發展，計算機技術作為新興技術在自然語言信息處理方面已經得到了廣泛應用，計算機技術在語言信息處理方面可設計相關系統實現對蒙古文數詞的自動識別與翻譯。本文主要以蒙漢機器翻譯為研究背景，對其在數詞自動翻譯系統及應用結果方面進行相關探究，實現對蒙漢統計機器翻譯的完善性研究，促進機器翻譯性能的提升。

【關鍵詞】蒙漢機器翻譯；數詞；自動翻譯

目前，隨著現代計算機技術的完善性發展，蒙漢機器翻譯的發展及應用已逐漸趨于成熟，成為人們應用最廣泛的機器翻譯方法。在統計機器翻譯方面，國外已有大量的理論及技術研究基礎，因此，我國在進行蒙漢機器翻譯研究的過程中可借鑒相關理論及技術基礎，從而實現對該方法的有效研究。但是，由于蒙古語語言自身具有一定的多變性及復雜性，從而導致蒙漢機器翻譯在研究中仍存在一系列問題亟待解決。

1.蒙漢機器翻譯中數詞自動翻譯特點

1.1語言類型復雜性從語言學角度上來看，漢語與蒙語屬不同語系，二者語言特征及形態特征等均存在較大的差異性，故蒙漢機器翻譯數詞自動翻譯在研究中若采用傳統研究思路則難以實現數詞有效翻譯；除此之外，蒙語形態的復雜性主要表現在數詞的變形，該語種變形最多可達上百種，但漢語的詞語形態及語法等多無形態變化，故在機器翻譯中會出現大量未登錄詞，難以實現語言的完善及有效翻譯[1]。

1.2語言資源缺乏現階段，在應用社會中常用的統計機器翻譯方法時，需要大量語言資源對其進行支持，如在應用NIST機器翻譯測評時，其可提供的相關雙語語料庫規模可達1000萬句對，故平行語料庫規模較小，難以滿足系統翻譯需求，從而影響翻譯效果。

2.蒙漢數詞自動翻譯程序設計

數詞具有多表現形式，屬開放性集合，在蒙漢雙語語料庫中數詞形式具有相對不完善性，導致蒙漢翻譯譯文中多現未登錄數詞。由于蒙古數詞的多表現性，真實文本中數詞除了以蒙古文形式表現外，還會以多種形式如阿拉伯數字等出現，因此蒙漢機器在翻譯時因其自身的局限性，難以對所有數詞進行準確翻譯。針對此類問題，本文主要對蒙漢數詞自動翻譯程序進行完善性設計與改善，提升翻譯效果。蒙漢數詞自動識別及翻譯程序主要通過C語言實現，該程序在具體應用中能夠以詞性準確切分蒙古文拉丁形式，并能夠對蒙古文數詞及部分時間詞等相關資料進行準確性識別，在此基礎上實現自動翻譯，蒙古文中數詞多現詞格變化，多表示事物數量或替代事物，故在對數詞進行準確性識別時，必須先對其詞綴進行切分，后對相關詞語進行識別，在此過程中，若對序數詞及分數詞進行識別時，需合理應用各信息，實現正確識別，故在對詞綴切分功能進行設置時，需在序數詞及分數詞識別后才可設置。蒙漢數詞自動翻譯程序在設置時主要可分為時間詞及翻譯兩個模塊，其中，數詞翻譯模塊可分為基數詞、序數詞、集合數詞、概數詞、次數、分數詞、分配數詞及語法特征8個模塊，各模塊均具有自動識別及翻譯功能。在數詞翻譯程序中，各程序按數詞類別區分為8個不同的模塊，但各模塊均為數詞模塊程序，具有一定的關聯性，如部分分數詞翻譯模塊應用時還需與基數詞模塊配合使用，根據相關研究可知，在相關翻譯模塊應用中，基數詞模塊該模塊應用的基礎；時間詞翻譯模塊在應用時可分為3個小模塊，分別為表示年份、表示月份及表示其他時間的數詞翻譯模塊，若在應用時間詞翻譯模塊時，其數詞均由左向右逐字翻譯且按相關規則對其翻譯結果進行修改，這樣能夠保證翻譯結果的準確性及有效性。

3.蒙漢數詞自動翻譯程序應用及結果研究

3.1程序應用 3.1.1開源工具。在對相關數據進行處理時，可采用蒙漢數詞自動翻譯模塊進行處理與操作。在訓練時，可將相關訓練集、開發集及測試集等蒙古文進行大小寫轉化，展開縮略數詞，開源解碼器可選擇Moses進行操作解碼并對相關參數特征進行融合。3.1.2實驗數據。本文研究所應用實驗語料蒙漢平行語言為6.7萬句對，取14萬漢語句子用于語言模型訓練，測試集取500句對蒙漢平行語料，數詞及時間詞句子共70條，語料均不重復，本次研究中所取蒙古文均對應不同專業翻譯人員漢語翻譯譯文，可保證其相關準確性。3.1.3系統應用步驟。蒙漢數詞自動翻譯程序在蒙漢統計機器翻譯后處理應用中，對未登錄數詞進行翻譯可以提升翻譯性能。先采用統計機器翻譯系統實現對蒙古文源文的翻譯，后在本文設計的相關基礎程序之上實現對譯文未登錄數詞的識別及翻譯。3.1.4語料庫預處理。在進行系統應用及相關語料庫處理時，為保證相關測評質量，首先需對語料庫進行相關預處理，其中主要包含蒙古文及漢語兩部分語料庫處理內容，其方法可采用大小寫轉換、雙重格形態切分等。3.1.5解碼。解碼主要是對上述翻譯中所得到的模型進行選擇，其選擇依據主要以最高得分為主，這一程序具有相對應用困難性，在對相關句子及數詞進行翻譯時，首先需找出相關數詞進行翻譯，在此基礎上依照語言模型對其進行調試，最終得出概率最高翻譯句子。3.1.6結果。在本次研究中，采用層次短語4-gram語言模型對相關源文進行翻譯，然后在統計機器翻譯的基礎上得到譯文，該譯文中6個未登錄數詞，針對該數詞可對程序翻譯及原譯文比較可知蒙漢數詞自動翻譯程序翻譯未登錄數詞后期NIST測評值提升0.0318，BLUE提升0.0037，BLUE-SBP提升0.0018，且根據研究可知，在翻譯中，其源文數詞比例越大，提升效果越明顯，故采用該程序可有效提升翻譯效果，增強翻譯準確性。

結束語

綜上所述，蒙漢機器翻譯作為應用廣泛的翻譯方法在我國蒙漢語言翻譯中具有非常重要的作用，但就現階段而言，由于蒙古文自身的特殊性、復雜性以及蒙漢統計機器翻譯的缺陷性，導致蒙漢機器翻譯準確性較低。針對此類問題，相關人員可借鑒語言學知識，在此基礎上采用現代計算機技術實現對蒙漢機器翻譯數詞自動翻譯系統的研究，不斷改善機器翻譯性能，提升翻譯準確性。

參考文獻

[1]烏日力嘎.西里爾蒙古文—漢文機器翻譯系統的實現[D].內蒙古大學，2015.

作者簡介

牛其其日樂格（1989.3）女，籍貫：黑龍江省大慶市杜爾伯特蒙古族自治縣，現職稱：翻譯助級，學歷：本科，研究方向：中國少數民族（蒙古）語言文學。

決策與信息·下旬刊2016年2期

決策與信息·下旬刊的其它文章: 學生黨支部建設中的導師制度研究; 新形勢下醫院黨建工作的意義、舉措和成效; 社會主義核心價值體系大眾化研究; 習近平對群眾路線思想的新發展; 五大發展理念引領新時期經濟社會發展的邏輯內涵; 依法治國形勢下的農村基層黨組織法治化建設