郭靜芳 張令通

摘要:信息技術的高度發展和各地、各民族之間的交流日益密切,帶來了機器翻譯的繁榮景象,通過對白族語言語音、詞匯、語法方面的特點分析的方法,以及對多種少數民族語言與漢語之間的機器翻譯方法的對比分析,從而尋找到最適合白一漢語互譯的機器翻譯的方法。
關鍵詞:白族語言;機器翻譯;方法;對比分析
中圖分類號:TP391 文獻標識碼:A 文章編號:1007-9416(2020)05-0224-02
1研究背景及研究現狀
(1)研究背景:機器翻譯的大約產生在1930年,一名法國科學家率先提出了機器翻譯的思想;繼而產生了用于語言翻譯的機器,帶來了機器翻譯的繁榮。中國機器翻譯研究起步于二十世紀六十年代,后來因為初期的機器翻譯出現阻礙而導致其發展一度中斷,直到1975年之后機器翻譯才得到進一步得發展。而少數民族語言的機器翻譯出現在上個世紀八十年代,以蒙語、藏語和維語為主要研究對象進行初步的嘗試。(2)研究現狀:目前,機器翻譯的技術已經越來越精湛,對于英語、法語等廣泛使用的語言有很好的成效,但是對于我國少數民族語言來說,由于語料規模小、語序差距大等問題導致少數民族的機器翻譯很難達到想要的效果。(3)研究基礎:基于機器翻譯的普及和繁榮,國家對少數民族的重視和少數民族的機器翻譯也日漸成熟,使白語的機器翻譯更加有理論和技術的支持。
2常用機器翻譯的種類及對比
2.1神經網絡的機器翻譯的研究
2.1.1蒙漢機器翻譯
基本步驟:(1)以CRU-CRF混合算法來進行分詞模塊構建。(2)通過門控循環神經網絡(GRU)和條件隨機場(CRF)相結合的方式來對待標注序列進行語義分析和標注。(3)利用分布式表示方式對切分的單詞進行向量化處理。(4)基于神經網絡模型來構造編碼器。
優:在源語言和目標語言的對齊處理上展現出較好的性能,同時在翻譯質量上,其對應的BLEU值也得到了提高;切分蒙古文有效的解決了蒙古文的數據稀疏性,提高了蒙漢神經機器翻譯的性能。
劣:對有限的蒙漢雙語語料中的專有名詞、人名、地名和數字等名詞泛化處理,構詞詞綴的處理問題;對長句的處理能力較弱。
2.1.2維漢機器翻譯
基本步驟:(1)將老維吾爾文進行拉丁化處理。(2)實現了基于神經網絡維漢機器翻譯,并在此基礎上將傳統的LTSM或GRU等非線性單元替換為LUA非線性單元。
優:當源端語言采用詞亞詞為翻譯單元而目標端語言采用詞為翻譯單元時所得到的翻譯效果最好,通過Nginx+Django+uwsgi的實現方式使整個翻譯系統具有較高的翻譯速度和并發量。
劣:亞詞不能完全解決集外詞問題。
2.2基于混合策略的蒙漢機器翻譯的研究
基本步驟:(1)準備雙語訓練語料庫;(2)雙語訓練語料庫預處理;(3)漢蒙短語翻譯表的建立侗語對齊、短語抽取);(4)蒙古語語言模型的訓練;(5)解碼:重點研究:蒙古語的格、復數及領屬等附加成分的形態分析;蒙古語語序的漢語調序方法。
2.3基于規則的漢藏機器翻譯系統中的句法分析方法研究
模塊:詞典維護模塊、規則維護模塊、分詞標注模塊、漢藏翻譯模塊、系統設置模塊。
優:以動詞謂語為軸心,把詞項信息同語法規則相結合,把語法分析和語義分析融為一爐,實現語法分析和語義分析的一體化,并采用句法分析二分法就可以大大提高機器翻譯語法分析的效率。
劣:出現時間早。
2.4基于統計的漢藏翻譯系統關鍵研究與實現
技術原理:(1)樹到串的翻譯模型,抽取具體規則中更一般的規則;(2)中介語言方法;(3)專名識別;(4)統計翻譯模型訓練方法:無監督方法;(5)時態標注;(6)擴充已有的統計翻譯模型:藏文動詞的時態處理、動詞的及物性、格助詞處理等。
優:對藏文動詞的時態處理、動詞的及物性處理、格助詞處理等進行了適當的處理;改善了統計機器翻譯訓練過程的盲目性、低效性、冗余性、表面性等不足。
劣:漢藏雙語平行語料規模不夠,影響藏語自動分詞系統的分詞準確率和翻譯引擎的翻譯準確率
3幾種常見少數民族語言的對分析
3.1幾種語言的對比(表1)
3.2白語特征簡介
白族語屬于漢藏語系藏緬語族,分為大理(南部)、劍川(中部)、碧江(北部)這三個部分。
語音分析,輔音方面:雙唇、唇齒、舌尖、舌面、舌根。
元音方面:分松緊兩類,這一特點與彝語支語言相同。
詞匯方面,單音節詞較多,多音節詞較少。白語詞匯中漢語借詞所占比例是相當高的,構詞形式有附加式、重疊式和復合式三類。
語法方面,白語語序以主謂賓的結構為主,與漢語相似,但也保留了古代白語的主賓謂型語序;白語量詞發達,一般情況量詞置于名詞之后,其中部分量詞已具有名詞綴;白語聲調較多,例如動詞、助動詞的否定和肯定以及人稱代詞的數和格的變化,都需要通過語調的曲折變化來表達。
4白-漢語適用的機器翻譯方法
目前,基于統計和基于實例這兩種機器翻譯方法的技術已經十分成熟,但是這兩種機器翻譯的方法與語料庫密不可分,它們的準確度直接依賴于與語料庫的覆蓋面、精確度,因此需要大規模的雙語語料庫,盡管漢語語料庫的建設取得了很大的成就,比如:CCL漢語語料庫總字符數已經到達了783,163 175,其中現代漢語語料庫也有581794456字符,但是白語可收集的語料少、語料庫小,以至于不是特別有效。所以我們可以通過語法方面的研究進行補足,基于規則的機器翻譯的方法是依靠語言學家總結的語言翻譯規則庫,通過對句子的語法分析,按照語法規則進行判斷和推導,再生成目標語言語句,一般通過以動詞謂語為軸心,把語法和語義相結合,實現利用語法分析進行語義分析。而且,我國的自動分詞系統已經有9%以上的正確率,因此可以采用統計與規則相結合的方式進行白族語言機器翻譯,充分發揮規則和統計的作用,從而提高機器翻譯的準確率。再加上白族語屬于漢藏語系藏緬語族,與藏語的發音、詞匯、語法等方面有很大的相似度,因此對與藏語適用的機器翻譯的方法對白語也基本適用。
綜上,根據白族語言特點和各類機器翻譯的特點,白語的機器翻譯可采用統計與規則相結合的混合策略實現。
5結語
通過對比分析多種常用的少數民族語言與漢語之間互譯的機器翻譯方法的優點和不足,并根據白族語言語音、詞匯、語法方面的特點,提出了采用統計與規則相結合的混合策略實現白漢語互譯的機器翻譯方法,通過統計與規則二者之間的互補,解決白語語料庫不足的問題,并可通過不斷補充語料庫和完善規則庫,使白漢語互譯的效果得到進一步的提升。