孫水華,丁 鵬,黃德根
(1. 大連理工大學 計算機科學與技術學院,遼寧 大連 116024;2. 福建工程學院 信息科學與工程學院,福建 福州 350118)
?
利用句法短語改善統計機器翻譯性能
孫水華1,2,丁 鵬1,黃德根1
(1. 大連理工大學 計算機科學與技術學院,遼寧 大連 116024;2. 福建工程學院 信息科學與工程學院,福建 福州 350118)
短語表是基于短語的統計機器翻譯系統的一個核心組成部分,基于啟發式方法抽取到的短語表受單詞對齊錯誤和未對齊詞的影響嚴重,同時抽取到的短語也并非句法意義上的短語。該文提出一種基于EM(Expectation-maximization)算法的雙語句法短語抽取方法來抽取雙語句法短語,此方法可以通過不斷迭代的方式使各參數值達到最優。通過加入雙語句法短語、增加新特征、重新訓練三種不同的方法,將獲得的雙語句法短語與基于短語的統計機器翻譯方法結合以提高統計機器翻譯系統的性能。結果表明: 三種方法都不同程度提高了譯文的BLEU(BiLingual Evaluation Understudy)值,其中增加新特征方法提高了0.64個點。
統計機器翻譯;EM算法;雙語句法短語
自P Koehn 等提出從基于詞的對位中啟發式學習短語翻譯對[1]的方法以來,基于短語的統計機器翻譯方法受到廣泛關注,性能也不斷提高。基于短語的統計機器翻譯方法利用相鄰詞組合成的短語作為基本單位,在訓練階段獲得短語表,在解碼階段利用短語表來獲得候選翻譯。但是短語表中的短語并非句法意義上的短語,不能充分利用語言的句法信息,而且基于啟發式的短語抽取方法是以詞對齊為基礎來抽取短語對,詞對齊錯誤和大量的詞語對空[2]引進大量的無效短語使短語表變得很大。為此,研究者又提出基于句法的統計機器翻譯方法,以源語言句法樹或是目標語言句法樹作為訓練語料,形成了樹到串[3]、串到樹[4]、樹到樹[5]等機器翻譯方法。基于句法的統計機器翻譯方法抽取到的短語是句法意義上的短語,句法分析錯誤會大大影響抽取到的句法短語的質量,進而影響譯文的質量,同時基于句法的統計機器翻譯方法嚴格要求抽取句法意義上的短語,然而并不是所有的非句法短語都是無效的,所以這種嚴格的要求會損失掉一部分有益于機器翻譯的非句法短語。
鑒于以上基于短語的統計機器翻譯和基于句法的統計機器翻譯的不足,本文提出利用雙語句法短語來提高機器翻譯性能。該方法克服了基于短語統計機器翻譯方法未利用句法語言知識的不足,同時受語言句法分析準確率影響較小,且不需像基于句法統計機器翻譯方法對于句法短語要求那么嚴格。在基于短語的統計機器翻譯中利用了雙語句法短語所蘊含的語言學知識來提高譯文質量。
句法短語即句法意義上的短語,如名詞短語,介詞短語等。雙語句法短語是從源語言和目標語言句法樹中抽取的句法短語對。國內外不少學者對雙語句法短語的對齊做了研究,劉冬明等[6]提出將低頻短語和高頻短語分開處理,并利用人工編寫句法規則的方法來對齊名詞短語;Imamura[7]提出一種雙語句法短語結構對齊的方法,但時間復雜度太高,當句子太長時這種方法是不切實際的;劉群[8]提出一種雙語短語結構對齊的搜索算法,但模型較為簡單,在句法短語對齊過程中僅考慮了詞語對齊,對齊過程中的參數值需人工調整,很難找到一個最優化的參數值。受此雙語短語結構對齊搜索算法的啟發,本文提出一種基于EM算法的雙語句法短語對齊算法,不僅考慮了詞語對齊,還考慮了句法短語標記對齊,通過不斷迭代的過程使各參數值達到最優。
基于短語的統計機器翻譯方法有簡單實用的特點,很多學者都對其提出改進方法: Xu Jinxin[9]提出利用監督的方法來提高詞對齊的準確率,但實驗結果表明詞對齊準確率的提高對于最后機器翻譯BLEU值的提高效果較小,當加大訓練語料時這種效果幾乎可以忽略不計;何彥青等[10]引入“松弛尺度”標準來抽取短語表,保證更多源短語找到目標短語;Chen Boxing[11]在計算短語表中雙語短語的各個特征時加入平滑技術,利用平滑過的短語表來
提高機器翻譯性能。本文提出利用雙語句法短語來提高機器翻譯性能的方法,通過加入雙語句法短語、增加新特征、重新訓練三種不同的方法將雙語句法短語融合到一個基于短語的機器翻譯系統NiuTrans[12]中,取得了較好地效果。
雙語句法短語抽取通過雙語短語結構對齊搜索算法得到對齊的雙語短語,然后利用EM迭代算法獲得新的參數值,利用新的參數值通過雙語短語結構對齊搜索算法可以得到新的對齊雙語短語。這種不斷迭代的過程是收斂的,最終可以獲得最優的參數值和對齊的雙語短語。
2.1 雙語短語結構對齊搜索算法
雙語短語結構對齊搜索算法的輸入是源語言和目標語言句子句法分析樹,輸出是兩棵樹中對齊的雙語句法短語。整個短語結構對齊采用自底向上的柱形搜索算法,在源語言結構樹上,自底向上計算源語言樹結構中每個節點的最佳的N個局部對齊,每個節點上都保留最佳的N個局部對齊結果,即局部對齊列表。圖1給出了幾個源語言節點的局部對齊結構,局部對齊的邏輯結構如下:
Define LocalAlignment {
string SrcnodeSign; //源語言句子片段句法標記
pair TarnodeRange; //目標語言句子片段范圍(i,j),起始位置i,結束位置j
string TarnodeSign; //目標語言句子片段句法標記
double Score; //局部對齊評分
LocalAlignment*Children; //孩子節點局部對齊
}

圖1 局部對齊結構示意圖

(1)(2)(3)(4)SrcnodeSign:M(200)SrcnodeSign:M(多)SrcnodeSign:Q(名)SrcnodeSign:B(中外)TarnodeRange:(3,3)TarnodeRange:(1,1)TarnodeRange:(-1,-1)TarnodeRange:(4,4)TarnodeSign:CDTarnodeSign:JJRTarnodeSign:NULLTarnodeSign:JJScore:1.0Score:1.0Score:1.0Score:0.05Children:Empty(5)Children:Empty(6)Children:Empty(7)Children:Empty(8)SrcnodeSign:B(中外)SrcnodeSign:N(記者)SrcnodeSign:MCP(200多)SrcnodeSign:NP(中外記者)TarnodeRange:(6,6)TarnodeRange:(7,7)TarnodeRange:(1,3)TarnodeRange:(4,7)TarnodeSign:JJTarnodeSign:NNSTarnodeSign:QPTarnodeSign:NULLScore:0.03Score:0.8Score:...Score:...Children:EmptyChildren:EmptyChildren:(1)(2)Children:(4)(6)(9)(10)(11)(12)SrcnodeSign:NP(中外記者)SrcnodeSign:MP(200多名)SrcnodeSign:NP(200多名中外記者)SrcnodeSign:NP(200多名中外記者)TarnodeRange:(6,7)TarnodeRange:(1,3)TarnodeRange:(1,7)TarnodeRange:(1,7)TarnodeSign:NULLTarnodeSign:NULLTarnodeSign:NPTarnodeSign:NPScore:...Score:...Score:...Score:...Children:(5)(6)Children:(3)(7)Children:(8)(10)Children:(9)(10)圖1(續)
圖2給出了雙語短語結構對齊搜索算法。該算法可以分為兩步: (1)初始化葉子節點局部對齊列表;(2)自底向上對非葉節點進行局部對齊的歸并(Merge Local Alignment)。

圖2 雙語短語結構對齊搜索算法
初始化葉子節點局部對齊時為每個源語言單詞和對應的目標單詞構造一個局部對齊,如圖1所示,“中外”對應兩個目標詞,故有兩個局部對齊(4)、(5)。同時為每個源語言單詞增加一個TarnodeSign為NULL的局部對齊,為在局部對齊歸并過程中過濾掉詞對齊錯誤。局部對齊的評分由詞語翻譯概率和句法標記對齊概率求和得到(見圖2 算法第5步)。
非葉節點的局部對齊歸并過程即從該節點的所有孩子節點中選取局部對齊進行歸并,直至所有的局部對齊組合都已被選取。若子節點局部對齊的目標范圍重疊,則重新選取,否則進行歸并。如圖1所示,局部對齊(11)、(12)是由不同的子節點局部對齊歸并得來。
歸并過程中,歸并所得局部對齊的TarnodeRange的左邊界為子節點局部對齊的TarnodeRange左邊界的最小值,右邊界為子節點局部對齊的TarnodeRange的右邊界的最大值。(見圖2算法中歸并子函數第9步)。尋找覆蓋TarnodeRange的最小目標語言節點,TarnodeSign設為該節點的句法標記,如果該節點覆蓋的范圍與當前局部對齊的TarnodeRange不完全重合,則增加一個TarnodeSign為NULL的局部對齊。當前局部對齊得分(Score)由子節點局部對齊得分與句法標記對齊概率求和得到(見圖2算法中歸并子函數第13、17步)。
當自底向上對源語言樹結構中所有非葉節點都執行局部對齊歸并操作之后,根節點局部對齊列表中得分最高的局部對齊即為最優短語結構對齊。
2.2 基于EM算法的短語結構對齊
短語結構對齊搜索算法在歸并的過程中可以過濾掉部分錯誤的詞語對齊,好的詞語對齊又可以促使短語結構對齊搜索算法得到更好的雙語句法短語。故利用EM迭代算法,通過迭代使得詞語對齊和句法標記對齊的準確率不斷提高,從而得到更好的雙語句法短語。
受IBM模型[13]方法的啟發,本文利用生成式方法來計算詞語對齊概率和句法標記對齊概率。一對雙語句子的翻譯概率為:

(1)
S為源語言句子,T為目標語言句子,A為短語結構對齊,a為詞對齊。
在已知短語結構對齊A和詞語對齊a的情況下:


(2)
其中ssign為源語言句法短語標記,tsign是對應的目標語言句法短語標記;sw是源語言單詞,tw是對應的目標語言單詞;spos是源語言單詞位置,tpos是對應的目標語言單詞位置;m是源語言句子的句法短語數,n是源語言單詞數。
我們的目的是要知道所有的詞翻譯概率p(tw|sw)、句法標記對齊概率p(tsign|sisign)、對位概率p(tpos|spos),使得句子的翻譯概率P(T|S)最大,并且滿足以下三個條件:
(1) ∑tsignp(tsign|ssign) =1;
(2) ∑tposp(tpos|spos) =1;
(3) ∑twp(tw|sw) =1
為求限定條件下P(T|S)的最大值,引入拉格朗日乘法因子λ、μ、ν,并求以下公式的極大值。

(3)
根據求極大值條件,輔助函數h關于λ、μ、ν、p的偏導數應等于零。式(3)對p(tw|sw)的偏導數為:
(4)
其中δ是Kronecker函數,當它的兩個參數相同時值為1,否則值為0。由偏導數為0得:

(5)

因在實際應用中,訓練數據是大規模翻譯句對。同時將λsw替換可得:


(6)
其中N為訓練語料的雙語句對數,c(sw)代表單詞sw在源語言句子S中出現的次數。
同理可求得句法標記對齊概率和對位概率:
p(tpos|spos) =


(7)
p(tsign|ssign) =


(8)
其中c(spos,tpos)為位置對齊次數,c(ssign,tsign)是句法標記對齊次數,c(ssign)是句法標記ssign在源語言句子句法樹中出現的次數。
由2.1節可知,在求局部對齊評分Score時需要用到詞翻譯概率p(tw|sw)、句法標記對齊概率p(tsign|ssign),而由式(6)、(8)可知求這兩個概率需知概率P(T,A,a|S),又由式(2)可知求 P(T,A,a|S) 需知p(tw|sw),p(tsign|ssign)和p(tpos|spos)。故可以利用EM算法迭代求解。EM算法迭代求解步驟如下:
(1) 初始化三個概率 p(tsign|ssign),p(tw|sw),p(tpos|spos);
(2) 應用雙語短語結構對齊搜索算法求最優雙語句法短語對齊;
(3) 利用步驟2求得的最優雙語句法短語對齊和公式(6)、(7)、(8)重新求三個概率;
(4) 利用式(1)求P(T|S),若P(T|S)變化很小,則停止迭代,否則跳到步驟2。
初始化p(tsign|ssign)時假設任一源語言句法標記與所有目標語言句法標記對齊的概率相等,初始的p(tw|sw)和p(tpos|spos)可用GIZA++訓練雙語語料獲得。
當EM算法迭代結束時,源語言句法樹的根節點的局部對齊列表中,存儲了N個最優對齊。選出得分最高的對齊,并依據此對齊從根節點開始遍歷相對應的子節點局部對齊。最終可以抽取出所有的雙語句法短語。
本文提出三種方法,將雙語句法短語應用到基于短語的統計機器翻譯系統中,探究利用雙語句法短語改進基于短語機器翻譯系統性能的方法和效果。
3.1 擴展訓練語料規模后的重訓練模型
短語表是基于短語的統計機器翻譯系統中的一個核心組成部分,然而在利用啟發式方法抽取短語表的過程中,由于詞對齊錯誤和詞擴展[14];會引進錯誤短語對。基于啟發式方法的缺點,本文提出將抽取到的雙語句法短語作為雙語句對,加入到訓練語料中,利用NiuTrans翻譯系統重新訓練模型,獲取短語表。雙語句法短語是高質量的雙語短語,這樣可以增加高質量的短語對的共現次數,從而提高詞語對齊的準確率和抽取的短語表的質量。我們用“Baseline+retrain”來代表這種方法。
3.2 加入句法短語特征的訓練模型
Lopez 和Resnik[15]提出挖掘更好的特征可以提高機器翻譯的質量,受此啟發,本文增加一個句法短語特征到短語表中,若短語表中的短語為句法意義上的短語,則其句法短語特征為“是”,否則其句法特征為“否”。考慮到抽取到的雙語句法短語是高質量的短語對,這個特征可以使得機器翻譯系統在解碼時選擇更好的候選短語對。
NiuTrans系統利用對數線性模型框架,因此新增加的特征可以很容易地融合到模型中。
權重可以利用最小錯誤率訓練算法在開發集上訓練得到。我們用“Baseline+feature”來代表這種方法。
3.3 加入雙語句法短語的訓練模型
由于傳統的基于詞對齊的啟發式短語抽取方法會出現詞對齊錯誤和詞對空問題,進而導致丟掉很多雙語句法短語。為此,本文在用啟發式方法抽取完短語表后,將抽取的雙語句法短語加入到短語表中,這樣可以彌補一部分由啟發式短語抽取方法丟掉的短語對。將雙語句法短語加入到短語表后,計算短語表中的短語對的四個翻譯特征: (1)短語翻譯概率;(2)反向短語翻譯概率;(3)詞典權重;(4)反向詞典權重。在解碼階段利用新得到的短語表來匹配源語言句子的各個短語。我們用“Baseline+newphrase”來代表這種方法。
實驗采用了NiuTrans提供的數據集。語料的源語言為漢語,目標語言為英語。
從表1中可以看出英語句子要比漢語句子平均長8個詞,且漢英句子都較長,特別是英語句子平均長度達到了33個詞,這給句法分析帶來了難度。利用基于EM迭代的短語抽取算法抽從訓練語料的雙語句法樹中抽取出1 173 616對雙語句法短語。

表1 實驗語料的規模
實驗利用東北大學開發的NiuTrans系統作為Baseline系統。NiuTrans系統目前支持基于短語和基于句法的統計機器翻譯方法,我們用到了基于短語的統計機器翻譯模塊。Baseline系統使用如下幾個特征: (1)短語翻譯概率;(2)反向短語翻譯概率;(3)詞典權重;(4)反向詞典權重;(5)語言模型特征;(6)目標語言詞數特征,此特征是為了清除N元語言模型喜歡較短翻譯的偏見。為了排除調序因素的影響,Baseline系統未考慮短語調序特征。
表2是將雙語句法短語應用于基于短語的統計機器翻譯系統NiuTrans后的翻譯結果。從表2中我們可以看到,這三種方法都提高了機器翻譯系統的性能。其中Baseline+feature方法提高的最多,提高了0.64個點的BLEU值。Baseline+newphrase方法提高了0.41個點的BLEU值。Baseline+retrain方法提高了0.23個點的BLEU值。

表2 應用雙語句法短語后的機器翻譯結果
這三種方法的基本想法都是引進對基于短語的統計機器翻譯系統有用的雙語句法短語,來提高機器翻譯系統的性能。
Baseline+retrain方法,將雙語句法短語加入到訓練語料,然而在重新訓練時仍使用啟發式的短語抽取方法,這些雙語句法短語對在重新訓練時未能被全部抽取出來,所以Baseline+retrain的方法的效果并不顯著。
Baseline+newphrase方法將抽取到的雙語句法短語直接加入短語表中,充分利用了抽取到的雙語句法短語,效果較好。但抽取到的雙語句法短語的數量,相對于利用啟發式方法抽取到的短語表中短語對的數量來說,規模較小。故在將雙語句法短語加入到短語表中重新計算各短語對的特征值時,由于雙語句法短語規模較小而使得非句法短語的得分較高。
Baseline+feature方法在將抽取到的雙語句法短語加入到短語表的同時,新加入了一個特征來指示短語對是否是新加入的雙語句法短語。這保證了在解碼時優先選擇雙語句法短語,所以效果較好。
圖3給出了一個抽取雙語句法短語的實例,其中包含經過句法分析后的雙語句子的句法分析樹,雙語句子的詞對齊,以及抽取到的雙語句法短語。
由于雙語句法短語較多,我們手工抽樣檢查了抽取到的雙語句法短語,我們發現存在的錯誤主要由以下幾種原因引起:
句法分析錯誤,如圖3所示,因句法分析錯誤將漢語句子中的“。”放在句法樹中錯誤的位置,導致抽取的最后三對句法短語都錯誤的包含了“。”。
未對齊詞,如圖3所示,“the world”和“the people of the world”都對齊到了“世人”,顯然這是由于the、people、 of、三個詞都對空,且“the world”和“the people of the world”的句法標記都是NP,無法根據句法標記的偏向性進行選擇。
在抽取雙語句法短語的過程中,過濾掉了錯誤的對齊。如圖3所示,單詞“gained”錯誤的對齊到單詞“許多”,然而在抽取到的雙語句法短語“gained
the attention of the people of the world |||令 世人矚目”中過濾掉了此錯誤對齊,這將有利于在統計詞語對齊次數并計算翻譯概率時提高詞語對齊的準確率。
本文提出一種雙語短語結構對齊搜索算法與EM算法迭代相結合的方法,來抽取雙語句法短語,并通過加入雙語句法短語、增加新特征、重新訓練三種不同的方法將抽取到的雙語句法短語應用到基于短語的統計機器翻譯系統中。這種方法克服了基于短語統計機器翻譯方法未利用句法語言知識的不足,同時受語言句法分析準確率影響較小,且不像基于句法統計機器翻譯對于句法短語要求那么嚴格。在基于短語的統計機器翻譯中利用了雙語句法短語所蘊含的語言學知識來提高譯文質量。結果表明,譯文的BLEU得分都得到不同程度的提高。
雙語短語結構對齊搜索算法與EM算法迭代相結合的方法受句法分析錯誤的影響,會引進一部分非句法短語,如果可以有效地過濾掉這部分短語,機器翻譯性能會得到進一步提高。另外,本文提出的三種雙語句法短語與基于短語的統計機器翻譯系統相結合的方法還是比較簡單的,下一步可以考慮利用雙語句法短語更多的特征。除了將雙語句法短語應用到基于短語的統計機器翻譯系統中,可以考慮將雙語句法短語應用到基于層次短語的統計機器翻譯系統中,來提高機器翻譯的性能。
[1] Koehn P, Och F J, Marcu D. Statistical Phrase-based Translation[C]//Proceedings of the Human Language Technology and North American Association for Computational Linguistics Conference.Edmonton,Alberta.2003:127-133.
[2] Hailong Cao, Andrew Finch, Eiichiro Sumita. Syntactic Constraints on Phrase Extraction for Phrase-Based Machine Translation[C]//Proceedings of SSST-4, Fourth Workshop on Syntax and Structure in Statistical Translation, COLING 2010.Beijing.2010:28-33.
[3] Yang Liu, Qun liu, Shouxun Lin. Tree-to-String Alignment Template for Statistical Machine Translation[C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA.2006:609-616.
[4] Yamada K, Knight K.A Syntax-Based Statistical Translation Model [C]//Proceedings of the 39thAnnual Meeting of the Association for Computational Linguistics. Toulouse,France.2001:523-530.
[5] Quirk C, Menezes A,Herry C. Dependency Treelet Translation: Syntactically Information Phrasal SMT[C]//Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics. Ann Arbor.2005:271-279.
[6] 劉冬明,趙軍,楊爾弘. 漢英雙語語料庫中名詞短語的自動對應[J]. 中文信息學報, 2003,17(5):6-12.
[7] Imamura K. Hierarchical phrase alignment harmonized with parsing[C]//Proceedings of Six Natural Language Processing Pacific Rim Symposium.Tokyo.2001:377-384.
[8] 劉群. 漢英機器翻譯若干關鍵技術研究[M].清華大學出版社.2008.
[9] Jinxi Xu, Jinying Chen. How Much Can We Gain from Supervised Word Alignment?[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics. Portland, Oregon.2011:165-169.
[10] 何彥青,周玉,宗成慶,王霞. 基于“松弛尺度”的短語翻譯對抽取方法[J]. 中文信息學報,2007,21(5):91-95.
[11] Boxing Chen, Roland Kuhn, George Foster, et al. Unpacking and Transforming Feature Functions: New Ways to Smooth Phrase Tables[C]//Proceedings of the MT Summit ⅩⅢ: the Thirteenth Machine Translation Summit. Xiamen, China.2011: 269-275.
[12] Tong Xiao, Jingbo Zhu, Hao Zhang, et al. NiuTrans: An Open Source Toolkit for Phrase-based and Syntax-based Machine Translation[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Jeju Island,Korea.2012.
[13] Peter F. Brown, Stephen A. Della Pietra etc. The mathematics of statistical machine translation: parameter estimation[J]. Computational Linguistics,1993: 263-309.
[14] Franz Josef Och. Statistical Machine Translation: From Single-Word Models to Alignment Templates[D]. Ph.d. thesis, Computer Science Department, RWTH Aachen, Germany.2002.
[15] Adam Lopez and Philip Resnik. Word-based alignment, phrase-based translation: What’s the link?[C]//Proceedings of the 7th conference of the association for machine translation in the Americas: visions for the future of machine translation. Cambridge, Massachusetts, USA .2006:90-99.
An Improved Syntactic Phrase Extraction Approach for Statistical Machine Translation
SUN Shuihua1,2,DING Peng1,HUANG Degen1
(1. School of Computer Science and Technology, Dalian University of Technology,Dalian, Liaoning 116024, China; 2. College of Information and Engineering, Fujian Uniuersity of Technology, Fuzhou, Fujian 350118, China)
The phrase table lies at the core of a phrase-based statistical machine translation system. The extracted phrase table based on heuristic methods is affected by incorrect word alignments, the unaligned words, and the absence of syntactic information. This paper presents a bilingual syntactic phrases extraction method based on the Expectation-maximization algorithm,which can optimize all parameters by iteratiions. Three techniques are examined to integrate bilingual syntactic phrases to the phrase-based machine translation system: direct augmentation of bilingual phrass,adding new features and re-training. Experiments show that all the three methods improve the BLEU score to varying degrees,with the top increase of 0.64 BLEU score by adding new features.
statistical machine translation; Expectation-maximization algorithm; bilingual syntactic phrases

孫水華(1962—),博士研究生,副教授,主要研究領域為機器翻譯、文本知識挖掘。E?mail:sunh@mail.dlut.edu.cn丁鵬(1987—),碩士,主要研究領域為機器翻譯、計算語言學。E?mail:15092170184@163.com黃德根(1965—),博士,教授,博士生導師,主要研究領域為機器翻譯、多語言文本信息抽取、文本知識挖掘。E?mail:huangdg@dlut.edu.cn
1003-0077(2015)02-0095-08
2013-01-27 定稿日期: 2013-05-21
跨語言信息檢索中的機器翻譯研究(61173100, 61173101, 61272375)
TP391
A