999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向形態豐富語言的多粒度翻譯融合

2011-06-28 06:27:12王志洋呂雅娟
中文信息學報 2011年4期
關鍵詞:融合語言系統

王志洋,呂雅娟,劉 群

(1. 中國科學院 計算技術研究所, 中國科學院 智能信息處理重點實驗室,北京 100190;2. 中國科學院 研究生院,北京 100049)

1 引言

形態豐富語言的主要特征是高度豐富的形態變化,像曲折(Inflection)、派生(Derivation)、復合(Composition)等。給定一個詞根,通過形態變化可以衍生出成百上千種新的形式;例如蒙古語詞根UILED,理論上至少可以有1 710種變化形式[1]。如果將每一種變化形式都看作單獨的詞,這會大大增加詞匯量,導致語言模型參數估計的不可信,并提高未登錄詞(Out-Of-Vocabulary, OOV)的比例。對統計機器翻譯而言,這種數據稀疏現象會嚴重影響詞語對齊和翻譯的質量。這類語言給自然語言處理,尤其是機器翻譯帶來了巨大的挑戰。

我國是一個多民族國家,很多少數民族都有自己的語言文字,并在本民族的各個領域中廣泛應用。使用較多的少數民族語言,像維吾爾語、蒙古語、哈薩克語等都屬于形態豐富語言。研究這些少數民族語言與漢語之間的翻譯,對加強民族之間的溝通交流、文化傳播、經濟發展有重要的意義。而在與中國海陸相鄰的二十一個國家中,除中國南部的極少數國家(像越南、緬甸、老撾等),大部分國家使用的語言都有豐富的形態變化,像俄語、日語、韓語等。通過研究這些語言與漢語之間的翻譯,對維護地區穩定、促進交流合作等有重要作用。

本文主要研究形態豐富語言到漢語的翻譯。由于這類語言形態變化復雜,而且雙語資源相對匱乏。為了充分利用有限的雙語語料,緩解數據稀疏問題,本文將這類語言表示為不同的粒度,并分別進行翻譯,然后利用系統融合技術將不同粒度的翻譯結果進行融合,以提高機器翻譯的性能。具體來說,對同樣一份雙語語料,我們將源語言(形態豐富語言)用不同的粒度(詞、詞干、詞素等)表示,并使用同一個翻譯系統分別翻譯;然后將不同粒度的翻譯結果進行詞級系統融合。維吾爾語、蒙古語到漢語的兩組翻譯實驗表明,這種多粒度融合方法改善了翻譯效果,BLEU值[2]比最好的單系統分別提高了+1.41%和+2.03%。

2 相關工作

在機器翻譯任務中,當源語言為形態豐富語言時,一般有以下幾種處理思路。一種是選擇合適的粒度,嘗試通過不同的詞干詞綴組合來改善翻譯效果。Lee[3]先對阿拉伯語進行詞法分析,然后通過合并或刪除某些詞綴,來平衡阿拉伯語和英語之間的詞級語義;類似的工作還有文獻[4]等。另外一種方式是預調序,讓源句子的語序更接近目標句子,最有代表性的是Collins等人的工作[5],類似的預調序方式還有文獻[6-8]等。這類方法往往需要借助句法分析技術,這對很多語言,尤其是形態豐富語言往往是不可得的。還有一種思路是盡量利用形態句法信息。Koehn等[9]提出了基于要素(Factor)的模型,這能夠更好地融合形態和句法信息;但若使用要素過多,會影響調參效果和翻譯速度。Dyer等[10]將源句子詞法分析的結果表示為詞圖(Lattice)形式,使輸入更具容錯性,在阿拉伯語到英語的翻譯任務上取得了一定的效果。

在本文中,我們將源語言切分表示為不同的粒度,分別抽取翻譯模型進行翻譯;然后將不同粒度的翻譯結果進行系統融合。相比Koehn等人[9]的方法,不同粒度的翻譯模型都是單獨調參的,這樣即使引入更多的粒度,也不會影響調參效果;跟基于詞圖的方法比,我們的方法簡單而直接。

與本文工作類似的是Gispert等人的工作[11],他們通過使用不同的切分工具對源語言切分,然后使用最小貝葉斯風險(Minimum Bayes Risk, MBR)[12]的方法對翻譯結果進行融合。而本文使用同一個詞法分析工具,獲得源語言句子的不同粒度表示,像詞、詞干、詞綴等。此外,文獻[11]的融合方式是句子級的,更像是一種重排序(Re-rank)技術;而本文使用的是詞級系統融合,這往往能產生更好的融合效果[13]。

3 多粒度翻譯

在上一節中提到,翻譯中一個常見思路是選擇合適的粒度來表示形態豐富的語言端,然后再進行翻譯。但合適的粒度往往與雙語語料的規模以及翻譯語言對本身有關。在本文中,我們使用不同的粒度進行翻譯,然后再將翻譯結果進行詞級融合。因為不同的粒度表征了語言不同層面的特征;直覺上,不同粒度的翻譯結果融合應該可以生成更好的結果。例如,詞(Word)粒度的翻譯規則更精確,但豐富形態變化導致的數據稀疏,會使規則覆蓋面有限;詞干(Stem)能表征詞的大部分語義,使用詞干粒度能夠大大緩解詞稀疏的問題,但會引發某些歧義;而詞素(Morpheme)粒度,融入了更多的句法信息,可以生成更符合句法的結果,但詞素粒度過小,給詞語對齊和翻譯調序都帶來了負擔。

由于不同的粒度表示各有其優缺點,我們將其分別翻譯,然后將翻譯結果融合,盡量利用各種粒度的優點,以改善翻譯質量。圖1是一個維語句子經過詞法分析后,不同粒度表示的結果。

圖1 維語句子的不同粒度表示(對應的中文是“分組審議”)

4 詞級系統融合

在自然語言處理中,幾個功能相似的系統執行同一任務時,可能有多個輸出結果,系統融合就是將這些結果進行融合,以改善最終結果。具體到機器翻譯任務,每個翻譯模型都有相應的優點,生成的譯文也有所差別;系統融合可以將多個系統的譯文融合起來,充分利用各種系統的優點,輸出更好的譯文。

在機器翻譯中有多種系統融合方式,根據操作目標語言句子粒度的不同,可以分為三類:

a) 句子級系統融合: 對同一個源語言句子,利用MBR解碼[12]或重打分的方法比較多個系統的翻譯結果,將最優結果輸出。句子級系統融合方法不會產生新的翻譯假設(Hypothesis),它只是在已有的翻譯假設中挑選出“最好”的一個,本質上屬于一種重排序技術。

b) 短語級系統融合: 根據多個系統輸出的結果,重新抽取或生成與測試集相關的短語表,再利用新的短語表對測試集重新解碼。

c) 詞級系統融合: 首先將不同系統的輸出的翻譯結果利用詞對齊方法構建混淆網絡 (Confusion Network),再選取一定的特征在混淆網絡上進行解碼。

在實際融合性能上,Macherey等[13]對這三種融合方法進行了經驗性的比較。實驗結果顯示,相關度較小的翻譯系統之間進行融合,在性能上詞級系統融合最好,句子級最差。本文采用的融合方法是詞級系統融合。

4.1 詞級系統融合

圖2(a)是傳統的詞級系統融合的流程圖。首先收集各系統的翻譯假設,然后按照MBR方法為每個系統選取一個基準假設,按照一定的對齊方法將每個非基準假設和基準假設對齊以構建混淆網絡。最后在構建好的混淆網絡上搜索最優路徑,將最優路徑上的詞拼接起來便得到最終譯文。

圖2 詞級系統融合流程圖

詞語對齊在構建混淆網絡的時候尤為重要,它影響最終譯文的生成。在基于混淆網絡的系統融合模型中,應用最廣泛的是Rosti等[14]和He等[15]提出的方法。兩者的主要區別在于對齊方法的不同,前者采用類似編輯距離的TER(Translation Edit Rate)作為標準進行對齊,后者采用基于間接隱馬爾科夫模型(Indirect HMM, IHMM)的方法來進行對齊。由于IHMM的方法不僅考慮了兩個目標詞之間的字面相似度,還考慮了它們之間的語義相似度,進而取得了更好的對齊效果。本文采用了基于IHMM的對齊方法。

IHMM方法將基準假設中的詞看成是隱馬模型的狀態,翻譯假設中的詞看作是隱馬模型的觀察序列,基準假設和翻譯假設之間的詞對齊關系當作隱變量,于是可以使用一階隱馬模型來估計翻譯假設相對于基準假設的條件概率:

轉移概率p(aj|aj-1,I)對詞序重排進行建模,它取決于對齊的詞之間的跳轉距離,一般將其分成幾類,并賦予一定的經驗值。由于是單語對齊,對同序的對齊給予獎勵,而給非同序的對齊一定的懲罰。

最終的對齊結果可以通過Viterbi算法搜索得到:

在生成最終的譯文時,我們使用了一些特征來進行打分,它們通過對數線性模型組合在一起。

E*=argmaxE(λALpAL+λLMpLM

+λNULLNNULL(E)+λWORDNWORD(E))

其中pAL為詞的置信度,pLM為語言模型得分,NNULL(E)為插入空詞的懲罰,NWORD(E)為長度懲罰。λ為對應的權重。

4.2 多粒度系統融合

圖2(b)是多粒度系統融合的流程圖。相比傳統的利用多個翻譯系統來進行融合,本文只使用一個翻譯系統;并將源語言通過多種不同粒度來表示,而不是單一的表示。由于不同的粒度可以刻畫形態豐富語言不同層面的特征,使用同一個翻譯系統來翻譯不同的粒度,得到不同粒度的翻譯結果,再進行詞級系統融合,直覺上可以生成更好的翻譯結果。

由于對源語言有不同粒度的表示,在翻譯假設對齊過程中,計算語義相似度時需要考慮不同的粒度,并使用相應粒度的雙語詞典來計算單詞間的語義相似程度。

5 實驗

形態豐富語言眾多,這里我們僅以維吾爾語和蒙古語為例。通過維吾爾語、蒙古語到漢語的翻譯實驗,來驗證我們的方法。

將源語言表示為多種粒度,需要通過詞法分析工具來完成。我們按照姜文斌等[17]的有向圖思想實現了維語詞法分析工具,重現了蒙古語詞法分析工具。這里我們使用了詞、詞干、詞素三種粒度來進行融合。

基于短語的Moses*http://www.statmt.org/moses/,著名的開源工具。系統作為基線翻譯系統,翻譯質量使用基于詞的BLEU-4來衡量。在利用Moses進行翻譯時,語言模型是根據對應訓練集的中文部分,利用工具SRILM[18]訓練的五元模型;系統融合時,語言模型是使用約41M的LDC中文語料*包括LDC2002E18, LDC2003E07, LDC2003E14, Hansards portion of LDC2004T07, LDC2004T08和LDC2005T06的中文部分。訓練的五元模型。

5.1 維吾爾語到漢語翻譯

我們收集了面向新聞領域和政府文獻的約120K維—漢平行句對,通過去重,過濾掉單詞數超過100的句對,最終得到的有效句對數目為117 419句對。然后隨機各抽取出1 000句作為開發集和測試集,剩余部分作為訓練集。這里,開發集和測試集均為單參考譯文。

在訓練集上的統計信息如表1所示。經過詞法分析后,數據稀疏現象得到較大緩解,詞干和詞素粒度都大大減少了詞匯量。

當源語言使用不同粒度表示時,翻譯結果如表2所示。顯然使用詞干和詞素粒度都在一定程度上改善了翻譯效果。

然后我們將不同粒度的翻譯結果的100-best,進行詞級系統融合。由于源語言采用不同粒度表示,因此在融合時需要選擇一個粒度作為基準對齊,開發、測試集源端以及雙語詞典都使用同樣一種粒度表示。表3是實驗結果,可以看出,不論使用哪種粒度作為基準,系統融合的結果都有穩定提高,BLEU值都提高了1個點以上。

表1 維—漢訓練語料統計信息

表2 不同粒度表示的翻譯結果

表3 維—漢翻譯系統融合結果(和單系統最好結果比較)

實際上,在Moses生成的N-best結果中,有一些是重復的。表4是N-best列表去重前后的總數目的變化,有50%以上的翻譯假設都是重復的。

表4 N-best結果去重前后總數量對比

將去重后的N-best結果進行系統融合,結果如表5所示。

表5 N-best去重后維—漢翻譯結果

總的來說,N-best去重后再融合,詞和詞素粒度為基準粒度時,BLEU值略有提高;但當詞干粒度作為基準系統時,反而有所下降,不如去重前的效果。

5.2 蒙古語到漢語翻譯

蒙漢翻譯實驗使用的是CWMT09*http://www.icip.org.cn/cwmt2009/index.html的蒙漢語料的口語部分,共有34 135句對。各隨機抽出500句進行開發測試,剩下的33 135句對作為訓練集。

表6是不同粒度的翻譯結果,使用詞干和詞素粒度都改善了翻譯質量,提高了2個點以上。

表6 蒙—漢不同粒度的翻譯結果

表7是取100-best進行系統融合的結果。和維—漢翻譯的結果類似,這種多粒度系統融合的方式,都能帶來翻譯質量的穩定提高;跟最好的單系統結果相比,這里BLEU值也都有1個點左右的提高。尤其是詞素粒度作為基準時,提高了1.69個點。

表7 蒙—漢翻譯系統融合結果(和單系統最好結果比較)

表8是對翻譯結果的N-best去重后的結果。去重后,融合結果相比去重前的結果,都有一定的提高。其中當使用詞干粒度作為基準粒度時,BLEU值比去重前提高了約1個點,共計提高了2.03個點。

表8 N-best去重后蒙—漢系統融合結果

總體來說,在蒙—漢翻譯任務上,N-best去重后再進行融合,結果更穩健。

6 結論

當待翻譯的源語言為形態豐富語言時,本文將其切分為不同的粒度,分別使用翻譯引擎進行翻譯,并將不同粒度的翻譯結果通過詞級系統融合技術進行融合優化,從而改善翻譯質量。通過將不同粒度的結果進行詞級融合,可以優勢互補,生成更好的譯文。在維漢和蒙漢機器翻譯實驗上,本方法都取得了不錯的效果。

本方法直接而有效,在下一步工作中,可以在其他形態豐富語言上進行嘗試。此外,本文只是利用了三種粒度來進行融合,可考慮融入更多的粒度并在可獲得的更大規模的平行語料庫上進行實驗,來進一步改善翻譯質量。

7 致謝

感謝內蒙古大學和新疆大學提供的語料,感謝新疆大學的麥熱哈巴·艾力老師在維吾爾語知識層面的幫助。

[1] 那順烏日圖,劉群,巴達瑪放德斯爾. 面向機器翻譯的蒙古語生成[C]//全國第六屆計算語言學聯合學術會議論文集, 清華大學出版社, 2001.

[2] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. BLEU: a Method for Automatic Evaluation of Machine Translation[C]//Proceedings of 40th Annual Meeting of the Association for Computational Linguistics, 2002:311-318.

[3] Young-Suk Lee. Morphological Analysis for Statistical Machine Translation[C]//Proceedings of HLT-NAACL 2004, 2004:57-60.

[4] Sonja Nie?en and Hermann Ney. Statistical Machine Translation with Scarce Resources using Morpho-syntactic Information[J].Computational Linguistics, 2004, 30: 181-204.

[5] Michael Collins, Philipp Koehn, and Ivona Ivona Ku?erová. Clause restructuring for statistical machine translation[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, 2005:531-540.

[6] Marine Carpuat, Yuval Marton, and Nizar Habash. Improving Arabic-to-English Statistical Machine Translation by Reordering Post-verbal Subjects for Alignment[C]//Proceedings of the ACL 2010 Conference Short Papers, 2010: 178-183.

[7] Dmitriy Genzel. Automatically Learning Source-side Reordering Rules for Large Scale Machine Translation[C]//Proceedings of the 23rd International Conference on Computational Linguistics, 2010:376-384.

[8] Peng Xu, Jaeho Kang, Michael Ringgaard, Franz Josef Och. Using a Dependency Parser to Improve SMT for Subject-Object-Verb Languages[C]//Proceedings of 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, 2009:245-253.

[9] Philipp Koehn and Hieu Hoang. Factored Translation Models[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2007:868-876.

[10] C. Dyer, S. Muresan, and P. Resnik. Generalizing Word Lattice Translation[C]//Proceedings of ACL-08: HLT, 2008: 1012-1020.

[12] S. Kumar, W. Byrne. Minimum Bayes Risk Decoding for Statistical Machine Translation[C]//Proceedings of HLT-NAACL 2004, 2004:169-176.

[13] W. Macherey, F. J. Och. An Empirical Study on Computing Consensus Translations from Multiple Machine Translation Systems[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2007:986-995.

[14] Antti-Veikko I. Rosti, Spyros Matsoukas, and Richard Schwartz. Improved Word-level System Combination for Machine Translation[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, 2007:312-319.

[15] Xiaodong He, Mei Yang, Jangfeng Gao, Patrick Nguyen, and Robert Moore. Indirect-HMM-based Hypothesis Alignment for Computing Outputs from Machine Translation Systems[C]//Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, 2008:98-107.

[16] Frans J. Och and Hermann Ney. A Systematic Comparison of Various Statistical Alignment Models[J]. Computational Linguistics, 2003, 29:19-51.

[17] 姜文斌,吳金星,長青,等. 蒙古語詞法分析的生成式統計建模[C]//少數民族青年自然語言處理技術研究與進展, 2010年.

[18] Andreas Stolcke. SRILM-an Extensible Language Modeling Toolkit[C]//Proceedings of International Conference on Spoken Language Processing, 2002:901-904.

猜你喜歡
融合語言系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
讓語言描寫搖曳多姿
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
主站蜘蛛池模板: 在线观看91精品国产剧情免费| 欧美黄网站免费观看| 性欧美精品xxxx| 国产杨幂丝袜av在线播放| 日韩精品中文字幕一区三区| аⅴ资源中文在线天堂| 亚洲av中文无码乱人伦在线r| 成人无码一区二区三区视频在线观看| 少妇精品久久久一区二区三区| 国语少妇高潮| 国产91高清视频| 动漫精品中文字幕无码| 高h视频在线| 无码人妻免费| 日韩二区三区无| 中文国产成人精品久久| 国产打屁股免费区网站| 中国特黄美女一级视频| 午夜三级在线| 久久精品国产国语对白| 成人在线观看不卡| 精品视频第一页| 国产一区二区人大臿蕉香蕉| 欧美全免费aaaaaa特黄在线| 亚洲天堂视频网| 中文国产成人久久精品小说| 久久精品国产免费观看频道| 婷婷99视频精品全部在线观看| 青青热久免费精品视频6| 狠狠色丁婷婷综合久久| a毛片基地免费大全| 毛片基地美国正在播放亚洲 | 99手机在线视频| 狠狠色综合网| 国内嫩模私拍精品视频| 亚洲av无码人妻| 亚洲最大综合网| 国产高颜值露脸在线观看| 成人综合在线观看| 久久中文字幕不卡一二区| 国产网友愉拍精品视频| a级毛片一区二区免费视频| 全午夜免费一级毛片| 日本免费一级视频| 精品国产免费观看| 欧洲高清无码在线| 麻豆AV网站免费进入| 漂亮人妻被中出中文字幕久久| 欧美一级夜夜爽www| 在线播放91| 日韩毛片在线播放| 色综合天天娱乐综合网| 欧美一区二区啪啪| 高清不卡毛片| 亚洲国产精品国自产拍A| 99在线视频网站| a毛片在线| 国产成年女人特黄特色毛片免 | 性做久久久久久久免费看| 99热这里都是国产精品| 尤物视频一区| 992tv国产人成在线观看| 成年人免费国产视频| 国产精品理论片| 一级全黄毛片| 一本大道东京热无码av | jijzzizz老师出水喷水喷出| 欧美国产在线看| 在线不卡免费视频| 亚洲首页在线观看| 丰满人妻中出白浆| 国产视频大全| 欧美激情第一欧美在线| 婷婷久久综合九色综合88| 十八禁美女裸体网站| 国产一级小视频| 欧美一区二区三区香蕉视| 亚洲香蕉伊综合在人在线| 国产99欧美精品久久精品久久 | 国产免费网址| 久草国产在线观看| 婷婷激情亚洲|