馬青松,張金超,劉 群
(1. 中國科學(xué)院 計算技術(shù)研究所 智能信息處理重點(diǎn)實(shí)驗室,北京 100190; 2. 中國科學(xué)院大學(xué),北京 100049; 3. 騰訊科技(北京)有限公司,北京 100080; 4. 都柏林城市大學(xué),都柏林 愛爾蘭)
機(jī)器翻譯自動評價旨在為機(jī)器翻譯系統(tǒng)提供快速、可靠的質(zhì)量評估。近些年來,隨著機(jī)器翻譯技術(shù)的發(fā)展,自動評價也受到越來越廣泛的關(guān)注。機(jī)器翻譯自動評價方法通常通過計算機(jī)器譯文和參考譯文的相似度來衡量機(jī)器譯文質(zhì)量,不同的自動評價方法從不同的角度計算二者之間的相似度。比如,基于詞匯的自動評價方法中,BLEU[1]和NIST[2]統(tǒng)計機(jī)器譯文和參考譯文的共現(xiàn)N元組,Meteor[3]和GTM[4]捕捉機(jī)器譯文和參考譯文之間的詞對齊信息,WER[5]、PER[6]和TER[7]計算從機(jī)器譯文到參考譯文的編輯距離。基于句法的自動評價方法主要比較機(jī)器譯文和參考譯文在淺層語法結(jié)構(gòu)[8]、依存句法結(jié)構(gòu)[9]或成分句法結(jié)構(gòu)[10]上的相似度。
雖然各個評價方法都不盡完美,但它們都各自從不同的角度衡量機(jī)器譯文和參考譯文的相似度,反映機(jī)器譯文在不同評價角度上的質(zhì)量。那么,多角度的評價將會更全面地反映機(jī)器譯文的真實(shí)質(zhì)量。一個直接又有效的方法,就是利用各個評價方法的評分,把它們?nèi)诤铣梢粋€新的評價方法。各評價方法的評分代表對機(jī)器譯文在不同角度上的評價,融合后新的評價方法是對機(jī)器譯文的多角度綜合評價。
文獻(xiàn)[11]提出尋找最優(yōu)組合的方法,各個評價方法按照與人工評價的相關(guān)度降序排列,依次嘗試加到最優(yōu)集合里,如果能提高最優(yōu)集合的性能則加入;否則不加入。這是一種無參數(shù)的組合方法。另外,也可以采用有參數(shù)的組合方法,最直觀的就是線性組合,基本形式如式(1)所示。
(1)
其中,wi表示第i個評價方法xi的權(quán)重。
文獻(xiàn)[11]中的無參數(shù)組合方式是一種貪心算法,可能會得到局部最優(yōu)的組合。為了避免這種情況的發(fā)生,我們提出有參數(shù)的融合自動評價方法,采用機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練,并進(jìn)行多方面的實(shí)驗探索,主要包括以下幾個方面。
(1) 根據(jù)人工評價方法的不同,我們提出兩種融合自動評價方法,分別是DPMFcomb和Blend,實(shí)驗表明Blend性能更好;
(2) 在Blend上,對比使用支持向量機(jī)(SVM)[12]和全連接神經(jīng)網(wǎng)絡(luò)(FFNN)兩種機(jī)器學(xué)習(xí)算法的性能,實(shí)驗發(fā)現(xiàn)在當(dāng)前數(shù)據(jù)集上,使用SVM效果更好。
(3) 進(jìn)而在SVM基礎(chǔ)上,探索融合不同的評價方法對Blend的影響,為Blend尋找在性能和效率上的平衡。
(4) 把Blend推廣應(yīng)用到其他語言對上,驗證了它的穩(wěn)定性及通用性。
后續(xù)組織結(jié)構(gòu)如下: 第一節(jié)介紹模型方法,第二節(jié)介紹實(shí)驗,第三節(jié)介紹Blend參加WMT17評測的結(jié)果,第四節(jié)進(jìn)行總結(jié)。
我們首先介紹兩種人工評價方法,相對排序(relative ranking,RR)和直接評估(direct assessment,DA);然后介紹分別使用RR 和DA指導(dǎo)訓(xùn)練的兩種融合自動評價方法: DPMFcomb和Blend。
在WMT評測任務(wù)的發(fā)展過程中,先后使用兩種人工評價方法,分別是相對排序(RR)和直接評估(DA)。本節(jié)中我們將分別介紹這兩種人工評價方法。
相對排序的人工評價方法,讓評價者對同一個源端句子的五個不同機(jī)器譯文進(jìn)行1~5排名,從1到5表示機(jī)器譯文質(zhì)量依次下降,并且允許并列排名。表1是RR評價結(jié)果的一個示例,它表示對編號為103的句子,評價者給五個機(jī)器譯文(MTsys1-5)的排名結(jié)果。
直接評估(DA)[13]給出對機(jī)器譯文絕對的評分,在給定一個機(jī)器譯文和一個相應(yīng)的參考譯文情況下,評價者通過衡量機(jī)器譯文在多大程度上充分表達(dá)了參考譯文的含義,拖動表征機(jī)器譯文質(zhì)量的取值范圍為1~100的滑動條給出評分。每個評價者的評分都要通過嚴(yán)格的質(zhì)量控制,并做歸一化處理。最后,每個機(jī)器譯文的評分Score是多個評價者評分(歸一化后的評分)的平均值。表2表示評價者使用DA方法對不同編號句子的機(jī)器譯文的評分。

表2 直接評估(DA)結(jié)果的示例
相對排序從2008年WMT自動評價任務(wù)開始時使用,一直到2016年,積累了多年的數(shù)據(jù)。相對排序能在一定程度上反映機(jī)器譯文的質(zhì)量,但它有兩個明顯的缺點(diǎn)。首先,相對排序只提供五個給定機(jī)器譯文的相對排名,這只反映它們之間的相對質(zhì)量高低,不能反映它們各自的整體質(zhì)量。其次,相對排序存在人工評價者間的一致性較低的問題[14],這降低了相對排序的可靠性。與相對排序相比,直接評估能給出機(jī)器譯文的絕對評分,且設(shè)計一系列措施保證其可靠性。因此在WMT17評測任務(wù)中,直接評估已經(jīng)取代相對排序,成為唯一的人工評價方法。
DPMFcomb使用RR人工評價數(shù)據(jù),以各個評價方法的評分為特征,使用SVM進(jìn)行訓(xùn)練,是一個與人工評價一致性很高的自動評價方法。DPMFcomb融合的評價方法,包含Asiya[15][注]http://asiya.lsi.upc.edu/工具中目標(biāo)端為英語的默認(rèn)評價方法,包括55個基于詞匯、句法和語義的自動評價方法(如BLEU,NIST等),以及另外三個自動評價方法,分別是ENTF[16],REDp[17][注]DPMFcomb在WMT15評測中融入REDp,在WMT16評測中沒有融入REDp。下文實(shí)驗使用DPMFcomb在WMT16評測中的配置。和DPMF[18]。
若把RR給出的 1 到 5 的排名看作五個不同的類別,那么DPMFcomb的訓(xùn)練過程就可以看作是多分類問題,因此可以用SVM[12]進(jìn)行訓(xùn)練。SVM是Vapnik等人于1995年提出的一種學(xué)習(xí)器,可以用于分類和回歸分析。以線性分類問題為例,SVM可以從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)找到一個最優(yōu)超平面(圖1的中間一條直線),實(shí)現(xiàn)線性分類。對于線性不可分問題,SVM通過引入核函數(shù)對當(dāng)前空間進(jìn)行非線性變換,在高維空間實(shí)現(xiàn)線性分類。

圖1 SVM尋找最優(yōu)超平面
具體的,DPMFcomb使用SVMrank,訓(xùn)練數(shù)據(jù)如表3所示,第一列是目標(biāo)類別,即RR排名;第二列表示句子編號;從第三列開始,每列代表一個特征,即為融入的各個評價方法的評分。

表3 DPMFcomb的訓(xùn)練數(shù)據(jù)格式
在排序任務(wù)中,在測試階段SVM生成的預(yù)測值可以轉(zhuǎn)化為對測試集的排序;而在機(jī)器翻譯評價任務(wù)中,自動評價方法通常給出機(jī)器譯文的質(zhì)量分?jǐn)?shù),所以此預(yù)測值不必再轉(zhuǎn)化,可直接表示為DPMFcomb對機(jī)器譯文的評分,如式(2)所示。
(2)
其中,w和b是模型參數(shù),φ表示使用的核函數(shù),xi表示融入的第i個評價方法的評分。
DPMFcomb參加了WMT15-16評測的自動評價任務(wù),連續(xù)兩年獲得目標(biāo)端為英語的語言對中與人工評價的平均一致性最高的成績,其設(shè)置及結(jié)果可以參考文獻(xiàn)[19-20]。
我們提出DA指導(dǎo)訓(xùn)練的融合自動評價方法,命名為Blend,它可以利用任意的自動評價方法的優(yōu)點(diǎn),形成一個新的基于融合策略的自動評價方法[注]https://github.com/qingsongma/Blend。
Blend與DPMFcomb的基本思想一致,但二者在訓(xùn)練數(shù)據(jù)及訓(xùn)練方法上并不相同。Blend分別使用回歸支持向量機(jī)(SVM regression)和全連接神經(jīng)網(wǎng)絡(luò)(FFNN)訓(xùn)練,找到使其性能最優(yōu)的訓(xùn)練方式。
(1) 使用libsvm[21]中的SVM regression訓(xùn)練時,訓(xùn)練數(shù)據(jù)如表4所示。

表4 Blend的訓(xùn)練數(shù)據(jù)格式
其中,第一列表示目標(biāo)值,即為DA評分;之后每列代表一個特征,即融入的各個評價方法的評分。最終Blend評分如式(3)所示。
(3)
(2) FFNN是由輸入層、隱含層(一層或多層)和輸出層構(gòu)成的神經(jīng)網(wǎng)絡(luò)模型,其隱含層和輸出層的每一個神經(jīng)元與相鄰層的所有神經(jīng)元連接(即全連接),如圖2所示。

圖2 全連接神經(jīng)網(wǎng)絡(luò)(FFNN)模型圖
當(dāng)Blend采用FFNN的訓(xùn)練時,輸入層的每個輸入表示各個評價方法的評分,輸出層的輸出為Blend對機(jī)器譯文的評分。設(shè)輸入層有M個輸入節(jié)點(diǎn),隱含層有N個節(jié)點(diǎn),輸出層是一個節(jié)點(diǎn),則有:
其中,xi表示i個輸入節(jié)點(diǎn)的輸入值,即第i個評價方法的評分;wij表示第i個輸入節(jié)點(diǎn)到第j個隱含層節(jié)點(diǎn)的權(quán)重;f(·)表示激勵函數(shù);wj表示第j個隱含層到輸出層的權(quán)重;bj和b表示偏置值;Score是輸出層的輸出,代表Blend對機(jī)器譯文的評分。
我們進(jìn)行了四組實(shí)驗: (1)探索基于相對排序數(shù)據(jù)的DPMFcomb和基于直接評估數(shù)據(jù)的Blend在目標(biāo)端為英語的語言對上的表現(xiàn),對比兩種模型的性能; (2)分別實(shí)現(xiàn)基于SVM和FFNN的Blend訓(xùn)練方法,對比二者性能; (3)實(shí)驗了融合不同種類的自動評價方法,為Blend尋找在性能和效率上的平衡; (4)在其他語言對上驗證Blend的有效性。模型評價指標(biāo)是模型輸出與標(biāo)準(zhǔn)人工評價分?jǐn)?shù)的皮爾遜(Pearson)一致性系數(shù)。
我們在WMT16評測任務(wù)中目標(biāo)端為英語的各語言對上和英語—俄語語言對上測試。DA評價數(shù)據(jù)從WMT15-16評測任務(wù)中獲得,數(shù)據(jù)量情況如表5所示。因為目前只有少數(shù)有限的DA評價數(shù)據(jù),當(dāng)我們測試WMT16中每一個目標(biāo)端為英語的語言對(560句)時,使用WMT16的其他目標(biāo)端為英語的語言對和WMT15的所有目標(biāo)端為英語的語言對數(shù)據(jù)進(jìn)行訓(xùn)練(共4 800句)。對于英語—俄語語言對,我們使用WMT15的英語—俄語數(shù)據(jù)(500句)訓(xùn)練,在WMT16的英語—俄語(560句)上測試。

表5 WMT15-16評測任務(wù)DA評價數(shù)據(jù)量
使用SVM regression訓(xùn)練時,訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的特征都?xì)w一化到[-1,1]區(qū)間。我們使用epsilon-SVR,選擇RBF核函數(shù),epsilon設(shè)置為0.1。使用FFNN訓(xùn)練時,訓(xùn)練集與測試集保持與使用SVM regression時一致,并從訓(xùn)練集中隨機(jī)抽取500句作為開發(fā)集,其他設(shè)置在下文中詳細(xì)介紹。
在WMT16評測中,DPMFcomb融合57個自動評價方法,使用SVMrank,從WMT12-WMT14評測任務(wù)的所有目標(biāo)端為英語的語言對中,根據(jù)RR評價結(jié)果,抽取約445 000的訓(xùn)練數(shù)據(jù)。為了對比,Blend融合同樣的57個自動評價方法,使用SVM regression,從WMT15-WMT16的目標(biāo)端為英語的語言對上,抽取4 800句訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練得到的模型稱為Blend.all。
表6和表7分別列出了系統(tǒng)級和句子級的Pearson一致性系數(shù)。表6顯示Blend.all在WMT16的目標(biāo)端為英語的語言對中,在系統(tǒng)級上與人工評價的平均一致性(0.951)達(dá)到最高,超過了當(dāng)年評測中表現(xiàn)最好的兩個自動評價方法,MPEDA(0.941)和BEER (0.920)。表7列出WMT16評測的目標(biāo)端為英語的語言對中,Blend.all和另外兩個表現(xiàn)最好的自動評價方法DPMFcomb和EMTRICS-F在句子級上的Pearson系數(shù)。DPMFcomb在WMT16評測的目標(biāo)端為英語的語言對上表現(xiàn)最好,說明融合評價方法的有效性。表7顯示Blend.all在所有目標(biāo)端為英語的語言對的平均Pearson系數(shù)最高。值得一提的是,雖然Blend.all的訓(xùn)練集遠(yuǎn)遠(yuǎn)少于DPMFcomb的訓(xùn)練集,Blend.all的平均Pearson系數(shù)(0.641)卻高于DPMFcomb(0.633)。
所以,以上結(jié)果說明在WMT16評測的目標(biāo)端為英語的語言對中,DA指導(dǎo)訓(xùn)練的Blend,在性能上優(yōu)于RR指導(dǎo)訓(xùn)練的DPMFcomb。這在一定程度上是由于DA數(shù)據(jù)比RR數(shù)據(jù)可靠: RR數(shù)據(jù)只反映機(jī)器譯文間的相對質(zhì)量,且存在評價者間一致性較低的問題;而DA數(shù)據(jù)給出機(jī)器譯文的絕對評分,并且設(shè)計一系列措施保證其可靠性。因此,我們后面的實(shí)驗在Blend上進(jìn)行。

表6 在WMT16評測數(shù)據(jù)上各自動評價方法的10K系統(tǒng)級的Pearson系數(shù)

表7 在WMT16評測數(shù)據(jù)上各自動評價方法的句子級Pearson系數(shù)
Blend設(shè)計分別使用SVM regression和FFNN訓(xùn)練的對比實(shí)驗,從中選擇一個更優(yōu)的訓(xùn)練方式。首先,我們在捷克語—英語上嘗試多組實(shí)驗,尋找使得Blend在使用FFNN訓(xùn)練時的最優(yōu)實(shí)驗參數(shù)設(shè)置。實(shí)驗結(jié)果如表8所示。
表8(a)探索使用不同的數(shù)據(jù)形式,即原始數(shù)據(jù)(各個評價方法的評分)、使用libsvm中的svm_scale(表8中記為svm_std)歸一化數(shù)據(jù),以及Z值數(shù)據(jù)。不同的數(shù)據(jù)形式,分別與一層或兩層全連接神經(jīng)網(wǎng)絡(luò)組合,其他設(shè)置相同,具體如下: 采用SGD優(yōu)化方法,學(xué)習(xí)率設(shè)為0.01,使用sigmoid激勵函數(shù),隱層維度設(shè)為57(與輸入向量維度一致,即為融入的評價方法的個數(shù))。由表8(a)可知,2NN-orgin,即使用原始數(shù)據(jù)及兩層神經(jīng)網(wǎng)絡(luò)的實(shí)驗設(shè)置,與DA人工評價的Pearson一致性系數(shù)最高。表8(b)首先在2NN-orgin基礎(chǔ)上嘗試不同的隱層維度,分別為64、128、256、512和1024。實(shí)驗發(fā)現(xiàn)當(dāng)隱層維度為256時,Pearson系數(shù)相對較高。之后在2NN-orgin-256上增加L1、L2正則項,其Pearson系數(shù)有所增加;繼而將 sigmoid分別換為tanh和ReLU激活函數(shù),發(fā)現(xiàn)使用tanh時效果有明顯提升。表8(c)在表8(b)基礎(chǔ)上,把三種數(shù)據(jù)形式與設(shè)置為0.5的dropout分別組合,發(fā)現(xiàn)當(dāng)使用svm_scale與dropout組合設(shè)置時,Pearson系數(shù)再次顯著提升。表8(d)嘗試不同的dropout值,發(fā)現(xiàn)當(dāng)其設(shè)置為0.1時效果最好;繼而嘗試更深的網(wǎng)絡(luò)層數(shù),發(fā)現(xiàn)效果稍微下降。
所以,我們采用2NN-svm_std-256-L-tanh-drop0.1的實(shí)驗設(shè)置,記作Blend.NN,并采用此設(shè)置在其他到英語端的語言對上實(shí)驗,其結(jié)果與使用SVM regression訓(xùn)練得到的模型Blend.all比較,結(jié)果如表7所示。由表7可知,在當(dāng)前數(shù)據(jù)集上,Blend使用SVM的訓(xùn)練方式(Blend.all,0.641)略優(yōu)于使用FFNN(0.639),由此可以說明SVM在小數(shù)據(jù)集上就有較好的表現(xiàn),我們下文的實(shí)驗均在SVM regression上進(jìn)行。

表8 各模型在WMT16的捷克語—英語上的Pearson系數(shù)

(a)

(b)

(c)
(d)
原則上,為獲得與人工評價數(shù)據(jù)更高的一致性,Blend能夠融入更多數(shù)量的自動評價方法。然而,是否有些評價方法在性能上沒有對Blend起很大的作用,同時還降低了Blend的效率呢?為了探尋這點(diǎn),我們把Asiya工具中適用于目標(biāo)端為英語的語言對的默認(rèn)自動評價方法分為三類,分別是基于詞匯、基于句法和基于語義的評價方法。下文中Blend.lex只融合了默認(rèn)的基于詞匯的自動評價方法,Blend.syn和Blend.sem分別表示只融合了基于句法和基于語義的自動評價方法。Blend.lex包含25種自動評價方法,但實(shí)際只有九種自動評價方法[注]分別是BLEU,NIST,GTM,METEOR,ROUGE,Ol,WER,TER和PER。,因為其中有些自動評價方法只是一種自動評價方法的不同變種。Blend.syn和Blend.sem分別包含17種和13種自動評價方法,但實(shí)際各自對應(yīng)三種不同的自動評價方法(詳見文獻(xiàn)[15])。
在WMT16評測的句子級實(shí)驗結(jié)果如表9所示。Blend.all,包含Asiya所有默認(rèn)的評價方法,在五個目標(biāo)端為英語的語言對(共6種)上與人工評價的一致性,以及平均一致性達(dá)到最高。然而,值得注意的是: Blend.lex在句子級上與人工評價的平均一致性與Blend.all相比僅差0.009,而Blend.syn和Blend.sem的性能遠(yuǎn)低于Blend.all,甚至低于Blend.lex。基于句法和基于語義的自動評價方法通常比較復(fù)雜,耗時較長。經(jīng)測試,基于詞匯、句法和語義的評價方法在服務(wù)器上的平均用時為19.3ms/句、85.5ms/句和181.4ms/句[注]CPU: AMD Opteron(TM),8核,8線程;內(nèi)存: 96GB。Blend.lex的性能與Blend.all相當(dāng),所以Blend可以只融合Asiya工具中基于詞匯的評價方法,在達(dá)到高性能的同時提高效率。
我們又繼續(xù)增加了四種其他的自動評價方法到Blend.lex中: CharacTer[22], 一種基于字符的自動評價方法;BEER[23],一種融入多角度特征的自動評價方法;DPMF和ENTF(在DPMFcomb的實(shí)驗中證明了它們的有效性)。新增的四種自動評價方法分別從字符、句法等角度衡量機(jī)器譯文質(zhì)量,且都方便使用。表10說明Blend.lex+4(0.640)的性能優(yōu)于Blend.lex(0.632),并且與表9中的Blend.all(0.641)非常接近,可以作為Blend在性能和效率上的一個很好的平衡。

表9 在WMT16評測數(shù)據(jù)上Blend融合不同類型的評價方法時的句子級Pearson系數(shù)

表10 在WMT16評測數(shù)據(jù)上Blend.lex加入4個不同類型的評價方法時的句子級Pearson系數(shù)
Blend可以適用于任何語言對,只要融入的評價方法支持這種語言對。因為目前除了目標(biāo)端為英語的語言對外,只有英語—俄語的DA評價數(shù)據(jù),所以我們在WMT16評測的英語—俄語語言對上實(shí)驗來說明這一點(diǎn),其句子級一致性結(jié)果如表11所示。

表11 在WMT16評測的英語—俄語語言對中各自動評價方法的句子級Pearson系數(shù)
Blend.default融合Asiya提供的適用于英語—俄語的默認(rèn)自動評價方法,共20個,實(shí)質(zhì)為九種[注]與Blend.lex一樣的9種。。模型在500句訓(xùn)練集上訓(xùn)練得到。Blend.default+2在Blend.default基礎(chǔ)上,只加入BEER和 CharacTer,在句子級的Pearson系數(shù)上取得很大提升,從0.613上升到0.675。BEER是在WMT16評測中英語—俄語的最好的自動評價方法(0.666),此實(shí)驗結(jié)果顯示,BEER可以在性能上給Blend帶來很大提升,同時Blend可以進(jìn)一步提升性能已經(jīng)很好的自動評價方法,再一次說明融合策略的有效性。
Blend參加了WMT17評測的自動評價任務(wù)。在目標(biāo)端為英語的語言對中,提交Blend.lex+4,其訓(xùn)練數(shù)據(jù)包括WMT15和WMT16所有目標(biāo)端為英語的語言對的數(shù)據(jù),共5 360句。在句子級上,Blend在所有七種目標(biāo)端為英語的語言對中,均獲得了第一名的成績;在系統(tǒng)級上,在六種目標(biāo)端為英語的語言對(共七種)中取得了第一名的成績;在10K系統(tǒng)級(10 000個翻譯系統(tǒng))上,在兩種目標(biāo)端為英語的語言對(共七種)中獲得了第一名。
此外,Blend參加了英語—俄語語言對的自動評價任務(wù),提交Blend.default+2,訓(xùn)練數(shù)據(jù)包括WMT15和WMT16兩年英語—俄語的數(shù)據(jù),共1 060句。Blend在英語—俄語語言對中,取得在句子級上第五(與最高的一致性系數(shù)相差0.058)、系統(tǒng)級第一、10K系統(tǒng)級上第二的成績。WMT17評測結(jié)果的詳細(xì)報告參見文獻(xiàn)[24] ,Blend的系統(tǒng)報告參見文獻(xiàn)[25]。文獻(xiàn)[25]是本文提出的融合評價方法系列探索性工作的一部分,本文相比于文獻(xiàn)[25],有更系統(tǒng)的探索、實(shí)驗和分析。
本文提出基于融合策略的自動評價方法,融合多個自動評價方法,以形成一個新的、與人工評價有更高一致性的自動評價方法。根據(jù)人工評價方法的不同,我們提出兩種融合自動評價方法,分別是DPMFcomb和Blend,實(shí)驗結(jié)果表明: 使用DA指導(dǎo)訓(xùn)練的Blend,即使在較少的訓(xùn)練數(shù)據(jù)上,其性能也優(yōu)于DPMFcomb;在Blend上,對比使用SVM和FFNN兩種機(jī)器學(xué)習(xí)算法的性能,發(fā)現(xiàn)在當(dāng)前數(shù)據(jù)集上使用SVM效果略好(此結(jié)論僅限于當(dāng)前數(shù)據(jù)集);我們進(jìn)一步探索了在SVM基礎(chǔ)上融合不同的評價方法對Blend的影響,為Blend尋找在性能和效率上的平衡;在多個語言對上進(jìn)行了實(shí)驗,證明了Blend的穩(wěn)定性及通用性。該文提出的Blend方法參加了WMT17評測,取得了多項第一的優(yōu)異成績。