999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于維吾爾語詞干詞綴粒度的漢維機器翻譯

2015-04-21 08:33:49米莉萬雪合來提吐爾根依布拉音
中文信息學報 2015年3期
關鍵詞:詞綴語言模型

米莉萬·雪合來提,劉 凱,吐爾根·依布拉音

(1. 新疆大學 信息科學與工程學院,新疆 烏魯木齊 830046;2. 中國科學院大學,北京 100190;3. 烏魯木齊市工商局,新疆 烏魯木齊 830002)

?

基于維吾爾語詞干詞綴粒度的漢維機器翻譯

米莉萬·雪合來提1,2,3,劉 凱2,吐爾根·依布拉音1

(1. 新疆大學 信息科學與工程學院,新疆 烏魯木齊 830046;2. 中國科學院大學,北京 100190;3. 烏魯木齊市工商局,新疆 烏魯木齊 830002)

漢語到維吾爾語的自動機器翻譯有著重要的現實意義。目前對于漢維統計機器翻譯方法的研究相對空白。該文提出了一種以維吾爾語為詞干詞綴粒度的漢維機器翻譯方法。該方法利用維吾爾語形態分析后的詞干詞綴作為翻譯的基本單位,并且根據其黏著語特性提出了一種基于有向圖的維吾爾語“詞干-詞綴”語言模型?;陂_放語料的實驗證明我們的詞干詞綴翻譯模型以及語言模型顯著優于之前的基于詞粒度的模型。

維吾爾語;機器翻譯;漢維翻譯;詞干;詞綴;形態分析

1 引言

漢語和維吾爾語之間的翻譯從語言學本質上可以看作是孤立語和黏著語之間的翻譯。目前國內已經有部分孤立語到黏著語翻譯的研究。針對維吾爾語到漢語機器翻譯的研究工作有: Batuer AISHAN[1]在翻譯過程中引入詞干詞綴信息輔助維漢翻譯;在CWMT2011評測中,參加單位中國科學院計算技術研究所直接利用維文端多種不同的粒度來進行的維漢翻譯[2-3]。到目前為止,大部分相關工作均是基于黏著語到非黏著語翻譯的,例如,一些基于土耳其語和韓語的工作[4-5]。也有部分工作是基于非黏著語到黏著語翻譯的工作[6]。但是目前基本上沒有直接針對漢語到維吾爾語統計機器翻譯的研究。并且由于漢維翻譯為非黏著語到黏著語的翻譯,其翻譯目標端為黏著語,面臨著與維漢翻譯不一樣的挑戰: 缺少以目標端為黏著語的翻譯工作研究;維漢平行語料資源稀缺;維語語料不如漢語資源豐富,所以訓練語言模型的語料相對較少。

本文提出了一種利用維吾爾語端詞干詞綴粒度進行翻譯建模的漢語到維吾爾語的機器翻譯方法。在該方法中我們利用維吾爾語端的詞干詞綴作為翻譯的基本單位,并對維吾爾語中“詞干-詞干”,“詞干-詞綴”結構進行建模,設計了一種針對維吾爾語的黏著語有向圖語言模型。我們的模型直接改進了現有的翻譯模型,并最終提升了翻譯質量。實驗結果證明我們設計的基于詞干詞綴翻譯方法和語言模型能夠顯著提高翻譯質量。

本文將在第2節介紹相關的機器翻譯的技術背景及維吾爾語的特點;在第3節介紹我們利用詞干詞綴作為翻譯基本單位的翻譯方法,以及基于有向圖的詞干詞綴的維吾爾語語言模型;第4節中的實驗結果證明了我們這種翻譯方法的有效性;最后我們對本文中工作進行了總結,并提出了進一步改進工作的方向。

2 相關技術背景

2.1 統計機器翻譯

隨著統計機器翻譯的發展,多種不同的翻譯方法相繼被提出: 基于詞的翻譯模型[7],基于短語的翻譯模型[8],基于形式句法的翻譯模型[9-10],基于句法的翻譯模型[11]等。本文中采用目前工業界和學術界中廣泛使用的層次短語模型(基于形式句法),來對機器翻譯進行簡要的說明。

統計機器翻譯流程中,以下幾點為機器翻譯的關鍵。

? 詞語對齊

利用大量雙語平行句對,依靠無監督的統計信息,自動對雙語平行句對進行詞對齊。常用的工具為根據IBM model[4]實現的GIZA++。對齊效果如圖1中所示。

? 規則抽取

本文中以層次短語為例,在圖1中給出了部分根據對齊信息抽取的翻譯規則。同樣地,在規則抽取過程中需要統計相應翻譯規則的各種概率及權重。

圖1 統計機器翻譯的關鍵步驟

? 語言模型

語言模型是根據單語語料庫統計得出的一個語言的生成式的概率模型。在翻譯中,語言模型用來對不同的翻譯候選結果給出相應的語言模型概率等分,對最終翻譯結果的流利度影響很大。

? 翻譯解碼

翻譯解碼的過程就是利用之前抽取的各種翻譯規則和語言模型,對目標端進行解碼,同時計算各種概率和得分,最終獲得模型相對得分最高的翻譯的過程。

從以上可以看出,統計機器翻譯中各關鍵流程均非常依賴統計信息。但在漢維翻譯中,上述關鍵流程由于維吾爾語的黏著語特點(2.2節)均會遇到相應的統計問題。

2.2 維吾爾語特點

維吾爾語屬于阿爾泰語系的東突厥語族。按形態分類,它屬于黏著語,與漢語之間的差異很大。維吾爾語作為黏著語,具有豐富的詞匯形態[12],這些形態是通過詞干綴接不同構形詞綴來呈現的。同一個詞的不同形態表示以詞干意義為主的不同的語法功能,構形詞綴還可以多層綴接。如表1所示可以看出: 一個維吾爾語詞匯是由一個詞干綴接多個詞綴(字符串前帶“+”)來表達豐富的語義;一個維吾爾語單詞往往能表達漢語中一個短語甚至是短句的意義;并且漢語中對應的重要的實詞在維吾爾語中也可能由詞綴形式來表達(例如,表1中的“你們”)。

因此,由不同詞干詞綴組合而成的維吾爾語詞匯的數量非常龐大,在統計方法中將會導致非常嚴重的數據稀疏問題。我們在五萬句對的漢維政府平行語料上分別統計了單詞種類個數、單詞總數以及所有單詞出現的頻數,在表2和表3中給出??梢钥闯觯S吾爾語單詞相比漢語數據稀疏問題更為突出。但是如果將所有維吾爾語單詞拆分成詞干、詞綴的形式, 以詞干、 詞綴單獨作為單詞再次統計,如表2所示。可以看出,如果維吾爾語以詞干、詞綴作為單詞,單詞數目顯著減少,平均單詞頻度相應升高。其中表3給出了漢語和維吾爾語使用頻度最高的五個單詞及其使用頻數。根據以上觀察,我們認為將維吾爾語端分解成詞干、詞綴形式可以顯著減小數據稀疏對機器翻譯的影響。

表1 一個維吾爾語詞干綴接多個詞綴表達豐富的語義

表2 維吾爾語漢語單詞種類、使用總數及平均單詞使用頻數

表3 維漢雙語頻數排名前5的單詞及它們在語料中使用的頻數

常用維吾爾詞頻數常用詞綴頻數常用漢語頻數we21542+i141507的52610bilen9626+ni66877和17064bir6487+ning50976在11360qilish6350+si34062了7849k?rek6132+d27066是5944

從句法角度看,維吾爾語和漢語也有顯著區別: 漢語的句法是SVO(主謂賓)結構,而維吾爾語是SOV(主賓謂)結構。例如,漢語中的“我讀了一本書”,對應的維吾爾語為: “man(我) birkitap(一本書) oqudum(讀了)”。這種結構的不一致將更容易導致翻譯中的長距離調序問題。

3 基于詞干詞綴的漢維翻譯

本節中我們將介紹我們基于詞干、詞綴的漢維翻譯方法。首先,我們將維吾爾語端分解成詞干、詞綴形式,并以此為機器翻譯的基本單位,緩解了統計機器翻譯中數據稀疏問題。然后,我們根據維吾爾語特點設計了一種基于“詞干-詞干”、“詞干-詞綴”的有向圖語言模型,并將其作為翻譯特征融入到翻譯解碼流程中。

3.1 詞干、詞綴拆分翻譯

在本節中我們介紹將維吾爾語端拆分成詞干、詞綴的翻譯方法。基本關鍵流程同圖1所示,不同的是我們將雙語語料中的維吾爾語端切分成詞干、詞綴形式,并以詞干、詞綴為基本單位進行雙語對齊、規則抽取、并最終根據詞干詞綴的源端輸入進行翻譯。

由于詞干詞綴切分,顯著地減小了詞語的數據稀疏問題,顯著改善了雙語無監督的詞語對齊質量。并且由于對齊粒度減小,使得自動對齊更加細致和準確。例如圖2(a)中,在詞級對齊中漢語端單詞“對”并沒有被對上,而在詞干詞綴級對齊中“對”被準確的對齊到了“+ge”這個詞綴。

更加極端的情況如圖2(b)中所示,在詞粒度下對我們之前表1中舉的例子進行對齊后,漢語端所有詞均對應到維吾爾語端的一個詞。在翻譯抽取規則的過程中只能獲得一個大片段的翻譯對: “你們不能進行標準化嗎,?lchemleshtürelmemsiler”。在翻譯過程中這種規則很難被使用上,因為只要待翻譯短語與該抽取的短語有一點不同,例如,“你們不能進行標準化”,就會導致該規則不能匹配,最終導致整個短語無法翻譯。如圖2(b)中的詞干詞綴對齊例子,如果利用詞干詞綴進行對齊,我們可以根據對齊獲得粒度更小、更準確的翻譯片段,同時能夠很好地解決上述翻譯問題。

3.2 有向圖詞干詞綴語言模型

在本節中介紹我們為詞干詞綴粒度的翻譯模型設計的語言模型。與維漢翻譯不同的是以維吾爾語為目標端的翻譯需要一個維吾爾語的語言模型,并且維吾爾語作為黏著語本身具有一定的特點: 詞綴的選擇主要依靠所依附的詞干信息和之前的詞綴信息,并且一個詞內部詞綴之間的排列組合也依據一定的規則;一句之中所有詞干表達了整個句子的結構信息,詞干的選擇和之間的順序決定了整個句子結構表達的正確性。根據上述特點,我們設計了一種基于“詞干-詞干”和“詞干-詞綴”的有向圖結構的語言模型。如圖3所示,我們將一般的基于詞序列的語言模型拆分成“詞干-詞干”和“詞干-詞綴”兩部分,計算語言模型的路徑將所有詞干詞綴組織成一個有向圖。

圖2 詞級對齊與詞干詞綴級對齊的效果

圖3 不同結構的詞語言模型和詞干詞綴語言模型

在一般的詞序列語言模型中,一個詞wi在當前串中的概率計算為P(wi|...wi-2wi-1),其中wi-1和wi-2分別為位置在i-1和i-2的詞。我們的詞干詞尾語言模型與詞序列語言模型不同的是,我們將詞干詞尾分開計算語言模型。其中詞干si的概率只由上下文的詞干決定: P(si|...si-2si-1),si-2和si-1為si之前的兩個詞干;詞尾am的概率只由所依附的詞干和前面的詞尾決定: P(am|si...sm-1),其中si為am所依附的詞干,am-1為am之前的一個詞尾。

由此,我們定義了一個具有黏著語特色的以詞干、詞綴為單位的有向圖結構的語言模型。其中,黏著語的有向圖建模已在黏著語詞法分析中證明能夠很好地描述黏著語[13]。由于該語言模型根據黏著語的特點設計,可以更好地描述作為黏著語的維吾爾語。

3.3 詞干詞綴訓練及翻譯流程

詞干、詞綴翻譯模型的訓練流程如圖4中實線所示。我們分別利用經過分詞的漢語句子和詞法分析后詞干、詞綴粒度的維吾爾語句子進行詞匯對齊;利用該對齊結果進行規則抽取,獲得維吾爾語端為詞干、詞綴粒度的規則表;同時使用維吾爾語詞干、詞綴粒度的訓練語料,根據上一節描述的方法訓練“詞干-詞干”“詞干-詞綴”的有向圖語言模型;利用最小錯誤率訓練(MERT)(圖中省略了調參流程)得到模型參數,得到最后的翻譯模型。

圖4 翻譯訓練及解碼流程圖

利用獲得的模型進行翻譯的流程如圖4中虛線所示。我們將待翻譯語料分詞后直接利用翻譯模型進行翻譯解碼獲得最終的翻譯結果。

4 實驗

我們在本節中對我們提出詞干詞綴粒度翻譯模型以及詞干、詞綴語言模型進行了驗證。我們分別使用詞和詞干、詞綴級別進行漢維翻譯,并在翻譯過程中利用我們提出的詞干、詞綴語言模型。

4.1 實驗設置

我們在實驗中利用12萬句對的語料,其中包括CWMT2011[2]公開評測所提供的5萬句對的維漢雙語訓練語料作為翻譯訓練集,其中開放的700句開發集也被作為我們翻譯訓練的開發集。另外我們自己組織了1 000句作為實驗的測試集。

我們利用中國科學院計算技術研究所開發的維吾爾語形態分析工具[14](分析的F值為91.4%)對需要進行形態分析的維吾爾語進行形態分析。中文端使用中國科學院計算技術研究所開發的分詞工具進行分詞。訓練雙語語料利用GIZA++進行無監督詞匯對齊對齊結果如圖1所示。我們分別利用詞級別和詞干詞綴級別的維吾爾語語料(雙語語料維吾爾語端)訓練不同元數的詞序列語言模型和“詞干-詞干”、“詞干-詞綴”語言模型。

我們使用開源的moses翻譯解碼器中的層次短語解碼器進行翻譯實驗。其中短語規則抽取長度為7。我們利用BLEU評價指標對不同翻譯結果進行評價(以詞干詞綴為粒度)。我們以重排序的方法將詞干詞綴語言模型嵌入到moses解碼器中,我們利用詞干詞綴語言模型在解碼器生成的nbest譯文上進行語言模型打分,并根據開發集調參重排序得到最后的譯文。如圖5所示,我們對翻譯的nbest譯文根據詞干詞綴語言模型進行重新打分,依據新打的分數及之前翻譯模型的特征分數將模型認為較好的譯文排到前面作為最終譯文。

圖5 nbest譯文重排序

4.2 實驗結果

我們利用上一節的工具和資源分別訓練詞和詞干詞綴級別的漢維翻譯模型。翻譯結果如表4所示: 其中前五行為詞粒度翻譯模型利用不同語言模型的翻譯結果;詞粒度翻譯系統中的詞干、詞綴語言模型是在形態分析后翻譯結果的基礎上計算的; 六到九行為我們詞干、詞綴翻譯模型利用不同語言模型的翻譯結果;最后一行為我們利用詞干詞綴抽取長度為4規則長度的測試結果。

表4 詞和詞干詞綴粒度的翻譯對比實驗(*是以詞干詞綴作為詞序列的語言模型)

翻譯粒度語言模型BLEU%詞詞級別5元51.19詞級別5元+詞干級別3元53.10(+1.91)詞級別5元+詞干級別5元53.18(+1.99)詞干詞綴3元53.18(+1.99)詞干詞綴5元53.44(+2.25)詞干詞綴詞級別5元?54.26(+3.07)詞干詞綴3元54.91(+3.72)詞干詞綴5元55.26(+4.07)詞級別5元?+詞干詞綴5元55.32(+4.13)詞干詞綴詞級別5元?+詞干詞綴5元+規則長度454.45(+2.26)

從結果可以看出我們提出的詞干、詞綴翻譯模型顯著優于比詞粒度的翻譯方法。同時,我們提出的詞干、詞綴語言模型在兩種粒度的翻譯中均能起到顯著的作用,效果在詞級別的翻譯中尤其顯著,證明了我們圖結構的“詞干-詞干”、“詞干-詞綴”語言模型確實能夠更準確地描繪維吾爾語的黏著語特點。

5 結論和未來工作

本文提出了一種基于詞干詞綴的漢維翻譯模型及維吾爾語有向圖語言模型。我們將維吾爾語詞分析為詞干詞綴粒度,很好地解決了漢維翻譯過程中的數據稀疏問題,同時圖結構的詞干詞綴語言模型能夠較好地描述作為黏著語的維吾爾語。該方法具有良好的適應性,可以用在所有非黏著語到維吾爾語翻譯的場合,而不是僅僅限定在漢維翻譯中。實驗結果證明我們提出的翻譯方法和圖結構語言模型均能夠顯著地提升翻譯效果,對比基線系統有4.13 BLEU的提升。下一步我們將完全地利用詞干詞綴的有向圖結構對維吾爾語進行翻譯建模,以期能夠從模型上直接描繪維吾爾語的黏著語特性。

[1] Batuer AISHAN, Maosong SUN. Uyghur-Chinese Statistical Machine Translation by Incorporating Morphological Information[J].Journal of Computational System, 2010,6(10):3137-3145.

[2] 趙紅梅,呂雅娟,賁國生,等. 第七屆全國機器翻譯研討會(CWMT2011)評測報告[C]//第七屆全國機器翻譯研討會論文集,2011:3-31.

[3] 劉凱,王志洋,于惠,等.2011全國機器翻譯研討會計算所系統描述[C]//第七屆全國機器翻譯研討會論文集,2011: 46-58.

[4] Brown P F, Pietra V J D, Pietra S A D,et al. The mathematics of statistical machine translation: Parameter estimation [J]. Computational linguistics, 1993, 19:263-311.

[5] Koehn P, Och F J, Marcu D. Statistical phrase-based translation [C]//Proceedings of the 2003 Conference of the North American Chapter of the ACL on Human Language Technology-Volume 1, 2003:48-54.

[6] Chiang D. Hierarchical phrase-based translation [J]. Computational Linguistics, 2007, 33:201-228.

[7] Xiong D, Liu Q, Lin S. Maximum entropy based phrase reordering model for statistical machine translation [C]//Proceedings of the Association for Computational Linguistics, 2006:521-528.

[8] Liu Y, Liu Q, Lin S. Tree-to-string alignment template for statistical machine translation [C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the ACL, 2006:609-616.

[9] 阿依克孜·卡德爾,開沙爾·卡德爾,吐爾根·依不拉音.面向自然語言信息處理的維吾爾語名詞形態分析研究[J].中文信息學報,2006,20(3):43-48.

[10] 姜文斌,吳金星,長青,等。蒙古語詞法分析的有向圖模型[J].中文信息學報,2011,25(5):94-100.

[11] 麥熱哈巴·艾力,姜文斌,王志洋,等.維吾爾語詞法分析的有限圖模型[J];軟件學報;2012,(23)12: 3115-3129.

[12] 麥熱哈巴·艾力,姜文斌,吐爾根·伊布拉音.維吾爾語詞法中音變現象的自動還原模型[J].中文信息學報,2012,26(1):91-96.

[13] Arianna Bisazza, Marcello Federico. Morphological pre-processing for Turkish to English statistical machine translation[C]//Proceedings of IWSLT,2009:1-135.

[14] Young-Suk Lee. Morphological analysis for statistical machine translation[C]//Proceedings of HLT-NAACL, Short Papers, 2004: 57-60.

[15] Minh-ThangLuong, PreslavNakov, Min-Yen Kan. A hybrid morpheme-word representation for machine translation of morphologically rich languages[C]//Proceedings of EMNLP,2010: 148-157.

[16] ReyyanYeniterzi, Kemal Oflazer. Syntaxto-morphology mapping in factored phrase-based statistical machine translation from English to Turkish[C]//Proceedings of ACL, 2010: 454-464.

Chinese-Uyghur Machine Translation based on smallest Translation Units of Stems and Suffixes

Miliwan xuehelaiti1,2,3, LIU Kai2, Turgun Ibrahim1

(1. Information Science and Technology Institute, Xinjiang University, Urumqi, Xinjiang 830046,China; 2. University of Chinese Academy of Sciences, Beijing 100190, China; 3. Urumqi Administration of Industry and Commerce, Urumqi, Xinjiang 830046, China)

Machine translation from Chinese to Uyghur has substantial real applications. Focusing on the insufficiently addressed issue, this paper, proposes a novel Chinese-Uyghur translation method employing stems and suffixes in Uyghur are used as the basic translation unit. Based on the directed graph, this “stem-suffix” language model is proved to be significant better than previous word based models.

Uyghur; machine translation; stem; suffix; morphologicalanalysis

米莉萬·雪合來提(1984—),博士研究生,主要研究領域為自然語言處理、機器翻譯。E?mail:mihreban@126.com劉凱(1987—),博士,主要研究領域為自然語言處理、機器翻譯。E?mail:liukai@ict.ac.cn吐爾根·依布拉音(1958—),通訊作者,教授,博士生導師,主要研究領域為自然語言處理、軟件工程。E?mail:turgun@xju.edu.cn

1003-0077(2015)03-0201-06

2013-03-27 定稿日期: 2013-08-14

國家自然科學基金(61063026,61032008);國家社會科學基金(10AYY006);新疆多語種信息技術重點實驗室開放課題。

TP391

A

猜你喜歡
詞綴語言模型
一半模型
從網絡語“X精”看“精”的類詞綴化
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
讓語言描寫搖曳多姿
釋西夏語詞綴wji2
西夏研究(2017年1期)2017-07-10 08:16:55
累積動態分析下的同聲傳譯語言壓縮
3D打印中的模型分割與打包
我有我語言
主站蜘蛛池模板: 欧美国产另类| 九九精品在线观看| 99视频国产精品| 欧美激情二区三区| 国产欧美网站| 国产成人乱码一区二区三区在线| 成人国产精品2021| 亚洲欧美日韩久久精品| 国产在线日本| h视频在线播放| 天天摸天天操免费播放小视频| 91极品美女高潮叫床在线观看| 婷婷午夜影院| 最新国产成人剧情在线播放| 尤物午夜福利视频| 国产成人午夜福利免费无码r| 狠狠亚洲五月天| 午夜日b视频| 97免费在线观看视频| 国产精品三区四区| 中文字幕在线欧美| 亚洲自偷自拍另类小说| 国产精品白浆无码流出在线看| 国产精品第一区| 日韩在线观看网站| 亚洲三级色| 国产黄在线免费观看| 欧美亚洲第一页| 伊人狠狠丁香婷婷综合色| 九色综合视频网| 免费在线成人网| 一级一级一片免费| 在线中文字幕网| 成人福利视频网| 国产精品成人一区二区不卡| 天天做天天爱夜夜爽毛片毛片| 欧美精品伊人久久| 国产亚洲视频免费播放| 中文字幕在线观| 亚洲欧美国产五月天综合| 国产成人亚洲精品蜜芽影院| 国产麻豆91网在线看| 91综合色区亚洲熟妇p| 五月天香蕉视频国产亚| 无码一区18禁| 国产jizz| 综合色区亚洲熟妇在线| 在线色国产| 国内熟女少妇一线天| 丁香亚洲综合五月天婷婷| 亚洲乱码在线播放| 女人av社区男人的天堂| 久久网欧美| 色欲色欲久久综合网| 青青草91视频| 国产精品天干天干在线观看| 高清欧美性猛交XXXX黑人猛交| 欧美a级在线| 不卡网亚洲无码| 国产美女视频黄a视频全免费网站| 亚洲欧美日韩成人高清在线一区| 亚洲女同一区二区| 婷婷综合在线观看丁香| 国产网站一区二区三区| 孕妇高潮太爽了在线观看免费| 污网站在线观看视频| 18禁黄无遮挡网站| 在线日本国产成人免费的| 中文字幕伦视频| 国产一级毛片yw| 国产福利观看| 亚洲午夜福利在线| 国产噜噜在线视频观看| 精品国产香蕉在线播出| 日韩高清一区 | 手机在线看片不卡中文字幕| 五月天在线网站| 成人自拍视频在线观看| 凹凸国产熟女精品视频| 五月激情婷婷综合| 亚洲一区黄色| 亚洲黄网在线|