999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于神經網絡特征的句子級別譯文質量估計

2017-08-31 19:49:08陳志明李茂西王明文
計算機研究與發展 2017年8期
關鍵詞:特征質量模型

陳志明 李茂西 王明文

(江西師范大學計算機信息工程學院 南昌 330022) (qqchenzhiming@jxnu.edu.cn)

基于神經網絡特征的句子級別譯文質量估計

陳志明 李茂西 王明文

(江西師范大學計算機信息工程學院 南昌 330022) (qqchenzhiming@jxnu.edu.cn)

機器翻譯質量估計是自然語言處理中的一個重要任務,與傳統的機器翻譯自動評價方法不同,譯文質量估計方法評估機器譯文的質量不使用人工參考譯文.針對目前句子級別機器譯文質量估計特征提取嚴重依賴語言學分析導致泛化能力不足,并且制約著后續支持向量回歸算法的性能,提出了利用深度學習中上下文單詞預測模型和矩陣分解模型提取句子向量特征,并將其與遞歸神經網絡語言模型特征相結合來提高譯文質量自動估計與人工評價的相關性.在WMT’15和WMT’16譯文質量估計子任務數據集上的實驗結果表明:利用上下文單詞預測模型提取句子向量特征的方法性能統計一致地優于傳統的QuEst方法和連續空間語言模型句子向量特征提取方法,這揭示了提出的特征提取方法不僅不需要語言學分析,而且顯著地提高了譯文質量估計的效果.

機器翻譯質量估計;句子級別;詞向量;遞歸神經網絡語言模型;支持向量回歸

機器譯文質量估計(quality estimation, QE)利用機器學習算法,在沒有人工參考譯文的情況下自動評價機器翻譯的質量.它是統計機器翻譯近幾年來新興起的一個研究方向.機器譯文質量估計不僅為最終用戶提供一個度量譯文可用程度的指標,而且可以輔助專業人工譯員進行譯文的后編輯.因此,它在促進機器翻譯技術快速發展和推廣應用中起著重要的作用.

在沒有人工參考譯文對照的情況下,如何定量評價機器譯文的質量呢?受語音識別中計算詞的置信得分(confidence estimation)的啟發,初期機器譯文質量估計主要集中于估計譯文中詞語的置信度[1-2].與估計詞語級別譯文質量相比,估計句子或系統級別的譯文質量更具有實際意義.Blatz等人把它看作是一個機器學習的2類分類問題,通過使用樸素貝葉斯分類器和多層感知機算法,引入4類不需要人工參考譯文就能提取的91個特征來區分機器譯文是否正確[3].Quirk提出利用線性回歸算法對機器譯文的質量進行分類[4].寧偉等人提出使用淺層詞法特征和深層句法特征,利用支持向量機建立模型對譯文質量的“好”與“差”進行估計等[5-6].

早期的工作由于對譯文質量的分類標準不一致,提取的特征過多,且提取算法與目標語言種類相關,缺乏通用性,因此并沒有引起研究者們足夠的重視.直到Specia等人在前人工作的基礎上,提出了譯文質量估計方法QuEst[7],并發布了相關工具包供WMT QE句子級別子任務作基線系統.QuEst方法把機器譯文質量估計看作是一個機器學習中的回歸問題,從翻譯難度、生成的譯文流利度和忠實度3個方面抽取描述譯文質量的特征,利用基于徑向基函數核的支持向量回歸算法估計機器譯文的質量.

圍繞機器譯文質量估計的QuEst方法,研究者們進行了許多卓有成效的工作.這些研究工作主要集中在2個方面:1)對機器譯文質量估計中機器學習算法的研究.由于在機器譯文質量估計中一般提取的特征較多,特征之間存在一定的重疊或者互相依賴.因此,首先要選擇相關的特征,Rubino等人使用回歸樹學習進行特征的選擇;在特征選擇之后使用機器學習算法對譯文質量進行估計[8].Soricut等人使用M5P模型學習決策樹來進行譯文質量估計[9];Hardmeier等人使用基于多項式核的支持向量回歸算法來進行譯文質量估計[10];Almaghout和Specia使用Logistic回歸進行譯文質量的估計[11].2)對機器譯文質量估計中特征的研究.由于缺乏人工參考譯文,許多研究工作嘗試對機器譯文進行深層次語言學分析來提取更多與譯文質量密切相關的特征,包括對機器譯文進行詞性標注[9]、概率上下文無關文法分析[12]、組合范疇文法分析[11]等.

盡管這些方法提高了機器譯文質量估計與人工評價的相關性,但是它們采用的還是機器學習中傳統的“特征工程+任務建模”的范式.這導致特征提取嚴重依賴語言學分析模塊,特征提取方法與語言種類相關缺乏通用性,并且譯文質量估計的效果不甚理想.針對這個問題,本文探索結合深度學習中詞語的向量表示和譯文的遞歸神經網絡語言模型概率作為特征來進行譯文的質量估計.在特征提取中,本文利用大規模單語語料訓練詞向量和語言模型,因此不需要語言學分析且獨立于具體語言.進一步,通過實驗驗證本文方法的性能優于傳統的QuEst方法和基于連續空間語言模型的特征提取方法.

1 相關工作

近年來,深度學習在自然語言處理中取得了極大的成功,包括神經網絡語言模型的提出[13],神經機器翻譯編碼解碼框架的提出等[14-15].因此,一些工作嘗試將其引入到機器譯文質量估計任務中以提高譯文質量自動估計與人工估計的相關性.

從評價粒度來說,機器翻譯質量估計一般分為詞級別、句子級別和文檔級別,深度學習方法在各級別都有應用.在詞語級別機器譯文質量估計中,Shah等人將詞向量用做特征以區分機器譯文中詞語翻譯的“好”與“差”[16].Kreutzer等人將深度前饋神經網絡用于詞級別的質量估計[17].Patel等人將遞歸神經網絡語言模型用于詞級別質量估計任務[18].在文檔級別機器譯文質量估計中,Scarton等人結合篇章分析信息和詞向量特征對篇章翻譯質量進行估計[19].盡管他們使用詞向量作為特征,但是本文方法與其區別在于,本文是在句子級別機器譯文質量估計中將句子中詞語的向量轉化為句子的整體向量,并將其與遞歸神經網絡語言模型結合作為特征.

在句子級別機器譯文質量估計中,Shah等人2015年提出利用連續空間語言模型[20]分別訓練源語言句子和目標語言句子的語言模型概率用作特征,并融合傳統的QuEst方法提取的基準特征,來提高譯文自動估計與人工評價的相關性[21].在WMT’16 QE子任務中,Shah等人在上述工作的基礎上,進一步提出增加源語言句子和目標語言句子的交叉熵和句子向量等特征對其進行擴展[22],在提取交叉熵和句子向量特征時,他們利用的仍然是連續空間語言模型.有部分研究者利用神經網絡建立質量估計模型,直接預測機器譯文的質量.例如,Paetzold等人提出使用多層的LSTM網絡建立質量估計模型[23].Kim等人在基于注意力機制的神經機器翻譯編碼解碼框架[24]的基礎上,通過在解碼器端增加一層后向RNN網絡進行機器譯文質量估計[25].

本文在Shah等人[21-22]的工作基礎上進行研究,由于Shah等人提取神經網絡特征使用的是連續空間語言模型,它是一種前饋神經網絡并且輸入是固定長度的詞序列,不能夠很好地處理序列數據;而且該模型使用了多個隱層,隨著神經網絡的隱層增多和其中節點數量的增加,神經網絡的參數將急劇增加導致算法異常復雜.因此,本文提出分別使用上下文單詞預測模型[26]和矩陣分解模型[27]訓練詞向量進而得到句子向量特征,并將提取的句子向量特征與遞歸神經網絡語言模型概率特征進行結合.在WMT’15 QE和WMT’16 QE子任務數據集上[28-29],將上下文單詞預測模型和矩陣分解模型提取的句子向量特征與Shah等人提出的利用連續空間語言模型提取的句子向量特征進行了對比,實驗結果表明:本文提出的方法顯著提高了譯文質量自動估計的性能.

2 模型和性能評價指標

句子級別機器譯文質量估計的目標是給定源語言句子S和它的機器譯文T,定量估計機器譯文的翻譯質量.假設給定一個訓練集D,它包含m個源語言句子和其對應機器譯文,以及人工對機器譯文的質量評價結果(根據專業譯員對機器譯文后編輯的次數計算出的HTER[30]值)yi(i=1,2,…,m),它可以表示為D={(S1,T1,y1),(S2,T2,y2),…,(Sm,Tm,ym)}.通過從源語言句子和其對應的機器譯文中抽取描述翻譯質量的特征Xi(i=1,2,…,m),訓練集可以進一步表示為D′={(X1,y1),(X2,y2),…,(Xm,ym)}.我們希望在訓練集上訓練一個函數f,它在訓練集的所有樣本上預測損失最小,并且對于在未知樣本上提取的特征向量X,f(X)輸出一個反映翻譯質量的實值y.這實際上是一個回歸問題.

本文采用機器學習中經典方法支持向量回歸(support vector regression)來進行模型訓練和測試.我們也嘗試了復雜的回歸模型,如梯度提升回歸(gradient boosting regression)和隨機森林回歸(random forest regression)等,它們增加了模型的復雜度,但是并沒有顯著提高譯文質量估計的性能.在實驗中,支持向量回歸核函數選用的是徑向基函數,利用格點搜索(grid search)算法和3折交叉驗證選擇模型最優的參數,包括C,ε,γ.

為了評價機器譯文質量估計模型的性能,皮爾森相關系數(Pearson correlation coefficient)r被用來測定機器譯文質量自動估計與人工評價的打分相關性:

遵循WMT’16 QE子任務的官方評價方法[29],斯皮爾曼相關系數(Spearman correlation coefficient)ρ被用來測定機器譯文質量排名與人工評價排名的排名相關性:

其中,RH(Ti)和RV(Ti)分別是機器譯文Ti自動估計的排名序號和人工評價的排名序號.斯皮爾曼相關系數越大,譯文質量估計與人工評價的相關性越高.同時也給出了德爾塔平均值(delta average, DeltaAvg)[31]作為排名評價的參考指標.

3 神經網絡特征

為了克服譯文質量估計中傳統特征提取方法嚴重依賴句子語言學分析等問題,本文結合深度學習方法,從源語言句子和其機器譯文中提取描述翻譯質量的特征,提取的特征包括句子向量特征和遞歸神經網絡語言模型特征.

3.1句子向量特征

3.1.1 詞向量訓練方法

為了提取句子向量特征,首先需要訓練詞語的向量(word embedding),使用的詞向量訓練方法包括3種:

1) 上下文單詞預測模型訓練詞向量方法(word2vec).Mikolov等人在Bengio提出的神經網絡語言模型的基礎上,去除了比較耗時的隱層,提出了2個簡化的神經網絡模型用于詞向量的訓練,分別稱為連續的詞袋模型(continuous bag-of-words, CBOW)和Skip-Gram模型[26].CBOW模型是給定上下文單詞預測中間單詞出現的條件概率,而Skip-Gram模型則是根據中間單詞預測上下文單詞出現的條件概率.由于CBOW模型訓練速度快且更適合大規模的數據集,因此實驗中使用它訓練源語言詞語和目標語言詞語的詞向量.在詞向量訓練時,設窗口大小window=10,負采樣優化方法中負例的個數negative=10,高頻詞亞采樣頻率sample=1e-5,訓練迭代次數iter=15.

2) 矩陣分解模型訓練詞向量方法(Glove).除了利用上下文單詞預測模型訓練詞向量,我們也嘗試了矩陣分解模型Glove[27]訓練詞向量.Glove基于詞語共現關系進行建模,它能有效地結合矩陣分解模型和上下文單詞預測模型的優點.在使用Glove模型訓練詞向量時,將x_max參數設為100,窗口大小設為15,訓練迭代次數設為50,學習率設為0.75.

3) 連續空間語言模型訓練詞向量方法(CSLM).Schwenk在Bengio提出的神經網絡語言模型的基礎上引入多個隱層,利用連續空間語言模型(conti-nuous space language model, CSLM)計算句子語言模型概率和進行詞向量訓練[32].Shah等人在WMT’16 QE子任務中利用該模型提取句子的交叉熵和句子向量特征[22].為了與Shah等人提出的方法進行比較,實驗中對于CSLM采用了與其一樣的參數設置進行詞向量訓練,即使用4個隱層,投影層使用320個神經元,其他3個隱層每層使用1 024個神經元,輸出層使用softmax激活函數.

3.1.2 句子向量提取策略

獲得了詞向量之后如何獲得句子向量呢?假設詞匯表中每一個詞w的向量表示為vw,長度為p的源語言句子S=(s1,s2,…,sp)和其長度為q的機器譯文T=(t1,t2,…,tq)可以使用向量分別表示為

為了將源語言句子和機器譯文中詞向量轉化為句子的向量表示,并統一轉化后句子向量的維數,我們嘗試了4種策略:

1) 算術平均方法(mean).對于源語言句子或其機器譯文,句子向量V可以表示為句子中所有詞語詞向量的算術平均.

如果句子中某個詞為未登錄詞,不失一般性,這里將其設為0向量.

2) tf-idf加權平均方法(tf-idf).由于句子中每一個詞對整句的重要性不同,比如在整個語料中出現頻率低而在句子中出現頻率高的詞更能顯著表達句子的含義.為了區分詞語的重要性,借鑒于信息檢索中tf-idf方法對詞向量進行加權.對于源語言句子或其機器譯文,其句子向量V可以表示為句子中所有詞語詞向量的tf-idf值的加權平均:

3) 最小值方法(min).對于源語言句子或機器譯文,句子向量V的第k維值表示為

VS[k]=minvw[k],w∈{s1,s2,…,sp},

其中k=1,2,…,d,d為詞向量的維數.依次類推,最大值方法(max)選擇最大值作為最終句子向量的第k維.

4) 乘法方法(mul).對于源語言句子或其機器譯文,句子向量的第k維表示為句子中所有詞語向量的第k維連乘的積.

].

為了避免句子向量為0導致信息丟失,如果句子中出現未登錄詞,這里將其設為單位向量1.

獲取了源語言句子和其機器譯文的向量表示VS和VT后,將它們連接成dS+dT維向量作為譯文質量估計的句子向量特征.dS和dT分別為源語言詞向量和目標語言詞向量的維數,由于源語言句子和機器譯文在任務中的重要性不同,源語言詞語的向量維數和目標語言詞語的向量維數不一定相同.

3.2遞歸神經網絡語言模型特征

由于句子向量特征中,詞向量訓練方法采用的是詞袋模型,它忽略了機器譯文中詞序對譯文質量的影響.為了刻畫機器譯文的流利度,進一步引入了源語言句子和其機器譯文的遞歸神經網絡語言模型概率作為特征.

傳統的統計語言模型在高階文法概率估計時由于參數空間過大容易導致數據稀疏,遞歸神經網絡語言模型(recurrent neural network language model, RNNLM)通過將詞語投影到連續的空間,并在該空間對語言模型進行建模來緩解維數災難的問題,它已在口語識別任務和統計機器翻譯譯文重排序任務中實驗證明優于傳統的統計語言模型[33].因此,我們使用遞歸神經網絡語言模型來計算源語言句子和其機器譯文的語言模型概率,并把它們與句子向量特征進行結合.遞歸神經網絡語言模型訓練時,它的隱層大小設為100,后傳步數bptt設為4,輸出層類數設為200.

4 實 驗

4.1實驗數據

為了驗證基于神經網絡特征的譯文質量估計效果,我們在WMT’15 QE和WMT’16 QE句子級別譯文質量估計子任務[28-29]上進行了實驗.WMT’15 QE任務評價英語到西班牙語方向的翻譯質量,而WMT’16 QE任務評價英語到德語方向的翻譯質量.實驗中僅使用當年官方公布的語料,其規模統計如表1所示,其中神經網絡特征訓練語料為WMT評測方發布用于訓練統計機器翻譯系統的雙語平行語料,這里將其源語言端和目標語言端語料分別用來訓練詞語的詞向量和遞歸神經網絡語言模型.在所有語料使用前均對其進行了符號化(tokenizer)處理[34].

Table 1 The Corpus Statistics表1 語料規模統計

4.2實驗結果

為了比較不同的特征對譯文質量估計的性能影響,實驗中統一采用支持向量回歸方法建立質量估計模型,性能評價的主要指標分別為Pearsonr和Spearmanρ,參考指標為MAE,RMSE和DeltaAvg,其中Pearsonr,Spearmanρ或DeltaAvg值越大,表示性能越好;而MAE或RMSE值越大,表示性能越差.

首先,實驗中將本文提出的上下文單詞預測模型和矩陣分解模型提取句子向量特征的方法與連續空間語言模型方法進行了對比,為了與Shah等人提出的方法[22]進行比較,固定源語言端和目標語言端詞向量維數均為256,采用算術平均方法求取源語言句子和其機器譯文的句子向量.表2和表3分別給出了不同的句子向量特征在WMT’15 QE和WMT’16 QE任務上的譯文質量估計性能,我們發現使用上下文單詞預測模型(word2vec(256))和矩陣分解模型(Glove(256))提取句子向量特征的方法在Pearsonr和Spearmanρ相關性指標上均超過了連續空間語言模型方法(CSLM(256)).而連續空間語言模型方法由于在輸出層softmax激活函數求條件概率時只考慮高頻詞(同文獻[22]一致,我們取32K高頻詞),而這些高頻詞的數量遠小于詞匯表中詞語的數量,在WMT’15 QE中占訓練語料目標端詞匯量的1/30,而在WMT’16 QE中僅占訓練語料目標端詞匯量的1/56,這導致它的性能較低.盡管我們考慮增加高頻詞數量來提高句子向量特征的質量,但是,隨著高頻詞數量的增加,它的算法復雜度將成指數增加,而系統性能的提升有限.為了簡化比較,后續實驗中均采用上下文單詞預測模型提取句子向量特征.

Table 2 The System Performance with Different Features on WMT’15 QE Tasks表2 使用不同的特征在WMT’15 QE任務上系統的性能

Table 3 The System Performance with Different Features on WMT’16 QE Tasks表3 使用不同的特征在WMT’16 QE任務上系統的性能

其次,采用最優的詞向量維數組合句子向量特征(在后續4.2.1小節和4.2.2小節中討論),將其與評測方提供的17個基準特征(QuEst方法提取的特征)進行了比較.實驗結果表明:單純采用上下文單詞預測模型提取的句子向量特征(word2vec),在WMT’15 QE和WMT’16 QE任務上譯文質量估計的效果均顯著的優于QuEst基準特征(Baseline)的性能.進一步,將句子向量特征與遞歸神經網絡語言模型特征(RNNLM)結合,在WMT’16 QE任務上打分相關性系數Pearsonr由0.412提高到0.441,提高了7.0%,而排名相關性系數Spearmanρ由0.443提高到0.468,提高了5.6%.這說明遞歸神經網絡語言模型特征對提高譯文質量估計性能起著很大的作用.最后將Baseline特征與神經網絡特征進行融合,系統性能在WMT’15 QE任務上提高不顯著,而在WMT’16 QE任務上打分相關性系數Pearsonr和排名相關性系數Spearmanρ分別提高了2.9%和3.0%.這些實驗對比表明,本文提出的神經網絡特征能夠較好地描述翻譯的質量,使用神經網絡特征系統性能較QuEst方法有了顯著提高,最高提升達到54.6%(0.229→0.354).

4.2.1 詞向量維數對性能的影響

為了揭示詞向量維數對譯文質量估計性能的影響,實驗中將句子向量生成方式固定為算術平均法.首先當源語言詞向量維數和目標語言詞向量維數相同時,不斷增加維數值,實驗結果如圖1所示,在WMT’15 QE任務中當向量維數為1 024時在打分任務和排序任務都取得了最好的結果,在WMT’16 QE任務中當向量維數為2 048和1 024時分別在打分任務和排序任務取得了最好的結果.

Fig. 1 Changes in system performance based on the simultaneous growth of word vector dimensions圖1 詞向量維數同步變化對系統的影響

Mikolov等人實驗證明在機器翻譯中將源語言向量維數設置為目標語言向量維數的2~4倍時,翻譯質量最好[35].借鑒這個思路,實驗中固定源語言(src)或目標語言(tgt)詞向量維數為256維,讓另一端語言維數按n倍增長,n的取值為2,4,8,16.Pearson相關系數的變化曲線如圖2所示,在WMT’15 QE任務中當源語言詞向量維數為256維,目標語言詞向量維數為其8倍時系統性能最優,而在WMT’16 QE任務中,當源語言詞向量維數和目標語言詞向量維數都為2 048維時系統性能最優.由于在譯文質量估計中機器譯文特征比源語言句子特征更重要,我們發現增加目標語言詞向量維數比增加源語言詞向量維數更能提高系統性能.當然這不能說明源語言特征不重要,實驗結果同時表明單獨增加源語言詞向量維數也能逐步提高系統性能.這吻合了Paetzold等人得出的“源語言句子對于預測目標語言句子的質量有著很大的作用”的結論[23].

Fig. 2 Changes in system performance based on variation of single word vector dimension圖2 單一端詞向量維數變化對系統的影響

4.2.2 句子向量特征提取策略實驗對比

為了比較3.1節提出的不同句子向量特征提取策略,實驗中將詞向量維數固定為256,分別使用算術平均方法(mean)、tf-idf加權平均方法(tf-idf)、最小值方法(min)、最大值方法(max)和乘法方法(mul)提取句子特征,它們在WMT’15 QE和WMT’16 QE任務中的性能如表4和表5所示,其中采用算術平均方法將句子向量化表示基本取得了最優的相關性,tf-idf加權平均方法盡管對詞向量設置了不同的權重,這些權重對信息檢索起著重要作用,但是在譯文質量估計中效果不明顯.

由于訓練詞向量和遞歸神經網絡語言模型需要一定規模的單語語料,本文通過實驗比較了不同的語料規模對抽取的神經網絡特征質量的影響,限于篇幅,這里沒有給出結果數據,從實驗中發現當訓練語料句子規模在1 M以上時,系統性能基本沒有降低,而當語料規模少于1 M,隨著語料規模的減少,系統性能會逐步降低.這說明詞向量和遞歸神經網絡語言模型訓練對語料規模的依賴并不大.

Table 4 The Performance of Different Sentence EmbeddingFeature Extraction Strategies on WMT’15 QE

Table 5 The Performance of Different Sentence EmbeddingFeature Extraction Strategies on WMT’16 QE

5 結束語

本文提出利用神經網絡特征,包括句子向量特征和遞歸神經網絡語言模型特征,來提高譯文質量估計與人工評價的相關性,并通過實驗驗證本文方法優于傳統的QuEst方法和基于連續空間語言模型的特征提取方法.與譯文質量估計中基于語言學分析提取特征的方法相比,利用神經網絡提取特征不僅提高了譯文質量估計的性能,而且方法與語言種類無關;它的缺點在于提取的特征解釋性不強,且詞向量和語言模型訓練時需要相關語言的單語語料,幸運的是隨著互聯網的發展,網絡上存在大量的單語語料可供使用.在以后的工作中,我們將探索將神經網絡應用到譯文質量估計模型構建中,創建一個端到端的系統.

[1] Gandrabur S, Foster G. Confidence estimation for translation prediction[C] //Proc of the 7th Conf on Natural Language Learning at HLT-NAACL. Stroudsburg, PA: ACL, 2003: 95-102

[2] Ueffing N, Ney H. Word-level confidence estimation for machine translation[J]. Computational Linguistics, 2007, 33(1): 9-40

[3] Blatz J, Fitzgerald E, Foster G, et al. Confidence estimation for machine translation[C] //Proc of the 20th Int Conf on Computational Linguistics. Stroudsburg, PA: ACL, 2004: 315-321

[4] Quirk C. Training a sentence-level machine translation confidence measure[C] //Proc of the 4th LREC. Paris: ELRA, 2004: 825-828

[5] Ning Wei, Miao Xuelei, Hu Yonghua, et al. Machine translation quality evaluation without reference based on SVM[C] //Proc of Machine Trans Research Progress—The 4th National Conf on Machine Translation. Beijing: Chinese Information Processing Society of China, 2008: 196-203 (in Chinese)(寧偉, 苗雪雷, 胡永華, 等. 基于 SVM 的無參考譯文的譯文質量評測[C] //機器翻譯研究進展——第四屆全國機器翻譯研討會論文集. 北京: 中國中文信息學會, 2008: 196-203)

[6] Yin Baosheng, Miao Xuelei, Ji Duo, et al. Research on automatic translation quality evaluation technology without translation references for large-scale translations[J]. Journal of Shenyang Aerospace University, 2012, 29(1): 70-74 (in Chinese)(尹寶生, 苗雪雷, 季鐸, 等. 大規模無參考譯文質量自動評測技術的研究[J]. 沈陽航空航天大學學報, 2012, 29(1): 70-74)

[7] Specia L, Shah K, De Souza J G C, et al. QuEst-A translation quality estimation framework[C] //Proc of ACL: System Demonstrations. Stroudsburg, PA: ACL, 2013: 79-84

[8] Rubino R, Toral A, Vaíllo S C, et al. The CNGL-DCU-Prompsit translation systems for WMT13[C] //Proc of the 8th WMT. Stroudsburg, PA: ACL, 2013: 211-216

[9] Soricut R, Bach N, Wang Z. The SDL language weaver systems in the WMT12 quality estimation shared task[C] //Proc of the 7th WMT. Stroudsburg, PA: ACL, 2012: 145-151

[10] Hardmeier C, Nivre J, Tiedemann J. Tree kernels for machine translation quality estimation[C] //Proc of the 7th WMT. Stroudsburg, PA: ACL, 2012: 109-113

[11] Almaghout H, Specia L. A CCG-based quality estimation metric for statistical machine translation[C] //Proc of the XIV MT Summit. Langhorne, PA: AMTA, 2013: 223-230

[12] Avramidis E. Quality estimation for machine translation output using linguistic analysis and decoding features[C] //Proc of the 7th WMT. Stroudsburg, PA: ACL, 2012: 84-90

[13] Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3(2): 1137-1155

[14] Cho K, Bahdanau D, Bougares F, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[C] //Proc of 2014 Conf on EMNLP. Stroudsburg, PA: ACL, 2014: 1724-1734

[15] Liu Zhiyuan, Sun Maosong, Lin Yankai, et al. Knowledge representation learning: A review[J]. Journal of Computer Research and Development, 2016, 53(2): 247-261 (in Chinese)(劉知遠, 孫茂松, 林衍凱, 等. 知識表示學習研究進展[J]. 計算機研究與發展, 2016, 53(2): 247-261)

[16] Shah K, Logacheva V, Paetzold G, et al. SHEF-NN: Translation quality estimation with neural networks[C] //Proc of the 10th WMT. Stroudsburg, PA: ACL, 2015: 342-347

[17] Kreutzer J, Schamoni S, Riezler S. Quality estimation from ScraTCH(QUETCH): Deep learning for word-level translation quality estimation[C] //Proc of the 10th WMT. Stroudsburg, PA: ACL, 2015: 316-322

[18] Patel R N, Sasikumar M. Translation quality estimation using recurrent neural network[C] //Proc of the 1st Conf on Machine Translation. Stroudsburg, PA: ACL, 2016: 819-824

[19] Scarton C, Beck D, Shah K, et al. Word embeddings and discourse information for machine translation quality estimation[C] //Proc of the 1st Conf on Machine Translation. Stroudsburg, PA: ACL, 2016: 831-837

[20] Schwenk H. Continuous space language models[J]. Computer Speech & Language, 2007, 21(3): 492-518

[21] Shah K, Ng R W M, Bougares F, et al. Investigating continuous space language models for machine translation quality estimation[C] //Proc of EMNLP 2015. Stroudsburg, PA: ACL, 2015: 1073-1078

[22] Shah K, Bougares F, Barrault L, et al. SHEF-LIUM-NN: Sentence level quality estimation with neural network features[C] //Proc of the 1st Conf on Machine Translation. Stroudsburg, PA: ACL, 2016: 838-842

[23] Paetzold G H, Specia L. SimpleNets: Machine translation quality estimation with resource-light neural networks[C] //Proc of the 1st Conf on Machine Translation. Stroudsburg, PA: ACL, 2016: 812-818

[24] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. Proceedings of ICLR, arXiv: 1409.0473, 2014

[25] Kim H, Lee J. A recurrent neural networks approach for estimating the quality of machine translation output[C] //Proc of NAACL-HLT 2016. Stroudsburg, PA: ACL, 2016: 494-498

[26] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. Proceedings of ICLR, arXiv: 1301.3781, 2013

[27] Pennington J, Socher R, Manning C D. Glove: Global vectors for word representation[C] //Proc of EMNLP 2014. Stroudsburg, PA: ACL, 2014: 1532-1543

[28] Bojar O, Chatterjee R, Federmann C, et al. Findings of the 2015 workshop on statistical machine translation[C] //Proc of the 10th WMT. Stroudsburg, PA: ACL, 2015: 1-46

[29] Bojar O, Chatterjee R, Federmann C, et al. Findings of the 2016 conference on machine translation[C] //Proc of the 1st Conf on Machine Translation. Stroudsburg, PA: ACL, 2016: 131-198

[30] Snover M, Dorr B, Schwartz R, et al. A study of translation edit rate with targeted human annotation[C] //Proc of AMTA 2006. Langhorne, PA: AMTA, 2006: 223-231

[31] Callison-Burch C, Koehn P, Monz C, et al. Findings of the 2012 workshop on statistical machine translation[C] //Proc of the 6th WMT. Stroudsburg, PA: ACL, 2011: 10-51

[32] Schwenk H. Continuous space translation models for phrase-based statistical machine translation[C] //Proc of COLING 2012. New York: ACM, 2012: 1071-1080

[33] Mikolov T, Karafiát M, Burget L, et al. Recurrent neural network based language model[C] //Proc of Interspeech 2010. Grenoble, France: ISCA, 2010: 1045-1048

[34] Koehn P, Hoang H, Birch A, et al. Moses: Open source toolkit for statistical machine translation[C] //Proc of the 45th Annual Conf on ACL. Stroudsburg, PA: ACL, 2007: 177-180

[35] Mikolov T, Le Q V, Sutskever I. Exploiting similarities among languages for machine translation[J]. arXiv preprint arXiv: 1309.4168, 2013

Sentence-LevelMachineTranslationQualityEstimationBasedonNeuralNetworkFeatures

Chen Zhiming, Li Maoxi, and Wang Mingwen

(SchoolofComputerInformationEngineering,JiangxiNormalUniversity,Nanchang330022)

Machine translation quality estimation is an important task in natural language processing. Unlike the traditional automatic evaluation of machine translation, the quality estimation evaluates the quality of machine translation without human reference. Nowadays, the feature extraction approaches of sentence-level quality estimation depend heavily on linguistic analysis, which leads to the lack of generalization ability and restricts the system performance of the subsequent support vector regression algorithm. In order to solve this problem, we extract sentence embedding features using context-based word prediction model and matrix decomposition model in deep learning, and enrich the features with recurrent neural network language model feature to further improve the correlation between the automatic quality estimation approach and human judgments. The experimental results on the datasets of WMT’15 and WMT’16 machine translation quality estimation subtasks show that the system performance of extracting the sentence embedding features by the context-based word prediction model is better than the traditional QuEst method and the approach that extracts sentence embedding features by the continuous space language model, which reveals that the proposed feature extraction approach can significantly improve the system performance of machine translation quality estimation without linguistic analysis.

machine translation quality estimation; sentence-level; word embedding; recurrent neural network language model; support vector regression

Chen Zhiming, born in 1993. Postgraduate. His main research interests include natural language processing and machine translation.

Li Maoxi, born in 1977. PhD, associate professor. Member of CCF. His main research interests include natural language processing and machine translation.

Wang Mingwen, born in 1964. PhD, pro-fessor and PhD supervisor. Senior Member of CCF. His main research interests include natural language processing and information retrieval.

2017-03-20;

:2017-05-16

國家自然科學基金項目(61462044,61662031,61462045) This work was supported by the National Natural Science Foundation of China (61462044, 61662031, 61462045).

李茂西(mosesli@jxnu.edu.cn)

TP391

猜你喜歡
特征質量模型
一半模型
“質量”知識鞏固
質量守恒定律考什么
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
做夢導致睡眠質量差嗎
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产免费a级片| 在线亚洲精品自拍| 国产毛片不卡| 四虎永久在线精品国产免费| 91福利片| 999福利激情视频| 国产欧美另类| 一级爱做片免费观看久久| 欧美精品三级在线| 国产91无码福利在线| 亚洲日韩精品无码专区97| 91黄色在线观看| 亚洲欧美日韩色图| 福利在线一区| 狠狠操夜夜爽| 99久久精彩视频| 成人欧美日韩| 日本人又色又爽的视频| 中字无码av在线电影| 日韩国产黄色网站| 免费在线一区| 欧美午夜理伦三级在线观看| 日韩欧美亚洲国产成人综合| 国产三级视频网站| a天堂视频在线| 黄色一及毛片| 九九线精品视频在线观看| 欧美日韩资源| 动漫精品啪啪一区二区三区| 亚洲无码精彩视频在线观看| 欧美成人影院亚洲综合图| 国产区福利小视频在线观看尤物| 国产精品无码久久久久久| 国产99精品久久| 91精品网站| av一区二区人妻无码| 亚洲免费毛片| 亚洲精品va| 全裸无码专区| 日韩毛片免费| 成年午夜精品久久精品| 亚洲黄网在线| 99热国产这里只有精品无卡顿" | 色综合天天娱乐综合网| 无码AV高清毛片中国一级毛片| 国产福利免费视频| 日韩天堂视频| 狠狠色香婷婷久久亚洲精品| 久久精品亚洲专区| 男人天堂亚洲天堂| 日韩无码视频网站| 91久久大香线蕉| a级毛片免费网站| 九九久久99精品| 成人夜夜嗨| 国产爽妇精品| 久久青草免费91观看| 99久久精品国产麻豆婷婷| 久久美女精品| 99久久亚洲综合精品TS| 免费不卡在线观看av| 国产日韩精品欧美一区喷| 日韩无码真实干出血视频| 国产一区三区二区中文在线| 91视频青青草| 天天干天天色综合网| 亚洲成人网在线播放| 天堂亚洲网| 91破解版在线亚洲| 国产日韩欧美成人| 欧美日本二区| 久久久久亚洲AV成人网站软件| 日韩中文无码av超清| 亚洲大尺码专区影院| 黄色在线不卡| 欧美另类图片视频无弹跳第一页| 日本黄色a视频| 99re这里只有国产中文精品国产精品 | 日本一区二区三区精品国产| 97人人模人人爽人人喊小说| 亚洲第一极品精品无码| 成人午夜亚洲影视在线观看|