999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于翻譯模型和語言模型相融合的雙語句對選擇方法

2016-05-04 02:54:06姚建民
中文信息學報 2016年5期
關鍵詞:排序語言方法

姚 亮,洪 宇,劉 昊,劉 樂,姚建民

(蘇州大學 江蘇省計算機信息處理重點實驗室,江蘇 蘇州 215006)

基于翻譯模型和語言模型相融合的雙語句對選擇方法

姚 亮,洪 宇,劉 昊,劉 樂,姚建民

(蘇州大學 江蘇省計算機信息處理重點實驗室,江蘇 蘇州 215006)

雙語句對選擇方法旨在從大規模通用領域雙語語料庫中,自動抽取與待翻譯文本領域相關性較高的句對,以緩解特定領域翻譯模型訓練語料不足的問題。區別于原有基于語言模型的雙語句對選擇方法,該文從句對生成式建模的角度出發,提出一種基于翻譯模型和語言模型相融合的雙語句對選擇方法。該方法能夠有效評價雙語句對的領域相關性及互譯性。實驗結果顯示,利用該文所提方法選擇雙語句對訓練所得翻譯系統,相比于基準系統,在測試集上性能提升3.5個BLEU值;此外,針對不同句對質量評價特征之間的權重調節問題,該文提出一種基于句對重排序的特征權重自動優化方法。基于該方法的機器翻譯系統性能繼續提升0.68個BLEU值。

雙語句對選擇;生成式建模;翻譯模型;語言模型;權重調節

1 引言

面向特定領域的統計機器翻譯(Statistical Machine Translation,SMT)系統依賴于充分規模且質量較好的目標領域雙語語料,當訓練語料和測試文本的領域分布不一致時,翻譯系統的性能往往較低。原因在于,特定領域中包含較多的專業術語,但從其他領域的訓練數據中無法獲得這類專業術語的有效翻譯知識。例如,給定待翻譯句子 “Youhavetosubmityourapplicationtothewebbeforedeadline.”,如果訓練數據屬于教育領域,機器翻譯系統很大程度上會將“application”譯為“申請”;反之,若訓練數據屬于計算機領域,那么機器翻譯系統則傾向于將“application”譯為“應用程序”。另一方面,在特定領域中,句子的表述方式和語言風格也與其他領域有著巨大差異。例如,待翻譯句子為: “我 感到 很熱”。若訓練語料來自口語領域,則機器翻譯系統會傾向于譯文“Ifeelsohot”;反之,若訓練語料來自專業文學領域,那么機器翻譯系統將傾向于譯文“I’mburningup”。

針對上述機器翻譯中的領域適應性問題,現有研究方法大致分為三類: 1)基于Web自動獲取特定領域雙語語料[1-3]; 2)基于翻譯模型特征優化的機器翻譯領域適應性研究[4-6]; 3)基于句對選擇的機器翻譯領域適應性研究[7-13]。其中,基于句對選擇的機器翻譯領域適應性研究方法,旨在從大規模通用領域雙語語料中選擇與待翻譯文本領域相關性較高的句對,用以提升訓練集中特定領域翻譯知識的含量,或構建專屬的領域雙語知識庫,并最終用于訓練特定領域機器翻譯系統。現有基于句對選擇的機器翻譯領域適應性研究方法,多從判別模型的角度出發,利用語言模型困惑度估計雙語句對屬于目標領域的概率。此類方法主要考慮句對的領域相關性,忽略了句對在目標領域的互譯性。例如,如下基于語言模型方法抽取的雙語句對樣例: “ifismoke?”,“你 是否 介意 ?”該句對的源端和目標端句子均來自口語領域,但句對的互譯質量較差,難以為訓練翻譯模型提供有效的翻譯知識。此外,針對句對選擇方法中使用的各種語言特征或統計特征,現有方法通常基于人工經驗調節它們的權重。基于人工先驗知識的參數調節方法,效率較低,且難以獲得最優值。

針對上述研究問題,本文提出一種語言模型和翻譯模型相融合的特定領域雙語句對選擇方法。該方法首先利用目標領域語言模型評價源語言句子的領域相關性;其次,利用領域內語料訓練的翻譯模型評價目標領域下雙語句對的互譯性,并融合二者得分獲取雙語句對在目標領域下的生成概率;最終,得分較高的雙語句對將會被優先選擇,用以擴充特定領域訓練集。此外,本文進一步融合不同方向的語言模型特征或翻譯模型特征,用于選擇領域相關的雙語句對,并提出一種基于句對重排序的特征權重自動優化方法。該方法首先標注一部分來自目標領域且互譯質量較好的句對,并利用啟發式搜索策略自動調節不同特征之間的權重,最終使得人工標注的雙語句對在全部句對中的排序盡量靠前。實驗中,利用本文方法選擇雙語句對訓練獲得的機器翻譯系統,相比于基準系統,在測試集上BLEU值提升3.5個百分點。此外,利用基于句對重排序的模型權重優化方法優化權重后所得翻譯系統,BLEU值進一步提升0.68個百分點。

本文章節組織如下: 第二節介紹相關工作;第三節提出面向特定領域的雙語句對選擇方法;第四節提出基于句對重排序的特征權重自動優化方法;第五節給出實驗結果和分析;第六節總結工作并提出未來展望。

2 相關工作

基于句對選擇的機器翻譯領域適應性相關工作主要可分為以下兩類。

1) 基于Web自動獲取特定領域雙語語料。Pecina等[1]提出基于聚焦爬蟲自動獲取特定領域雙語語料的方法,該方法利用聚焦爬蟲計算網頁與目標領域相關性,并基于預先設定閾值對網頁進行二值分類,最終在目標領域網頁中抽取雙語平行文本。劉昊等[2]提出一種基于全局搜索和局部分類的特定領域雙語網站識別方法。該方法首先利用目標領域雙語短語對構造查詢,并基于搜索引擎的返回結果獲取候選領域雙語網站。其次,該方法融合領域性特征和雙語網站結構特征,構造二元分類器,用以過濾非目標領域的候選雙語網站。最終從候選雙語網站中抽取雙語句對。然而,Rarrick等[3]指出從Web自動獲取的雙語網站中抽取的雙語句對的質量千差萬別,利用質量較差的雙語句對不但不能提升翻譯性能,反而引入更多的噪聲和錯誤。因此,利用該方法獲取的特定領域雙語語料仍需進一步的篩選和分類。

2) 基于雙語句對選擇的機器翻譯領域適應性研究。該方法旨在從大規模本地平行語料庫中自動抽取與測試集領域相關的句對,用以訓練特定領域機器翻譯系統。Lü等[7],黃瑾等[8]提出一種基于信息檢索的雙語句對選擇方法,該方法利用測試集句子作為查詢,從通用語料庫中檢索與測試集語料較為相關的句對。Yasuda等[9]提出基于目標領域語言模型困惑度評價并選取雙語句對的方法。Moore等[10],Axelrod等[11]分別利用目標領域和通用領域語言模型計算句子的交叉熵得分,并基于交叉熵的差值選擇句對。Haddow等[12]同樣利用語言模型困惑度評價通用領域句對的領域相關性,并將選擇的雙語句對運用于翻譯系統的詞對齊、短語抽取以及短語打分等階段,以評價其對翻譯性能的影響。Duh等[13]繼承Axelrod等[11]的方法,并利用神經網絡語言模型計算交叉熵,以緩解n元文法語言模型存在的數據稀疏問題;此外,針對通用翻譯系統中的雙語句對選擇問題,姚書杰等[14]提出一種基于句對質量和覆蓋度的雙語句對選擇方法,該方法基于人工設定的權重融合多種特征得分評價句對質量,選擇得分較高的句對,并基于N-gram覆蓋度進一步過濾冗余的句對。王星等[15]提出一種基于分類的平行語料選擇方法,通過少數句對特征構造差異較大的分類器,以區分雙語句對的質量。上述基于雙語句對選擇的機器翻譯領域適應性研究方法,雖然取得較好的效果,但仍存在以下不足。首先,該類方法僅考慮句對的領域相關性,但忽略句對在目標領域中的互譯性。因此,利用此類方法選擇的雙語句對,其互譯質量可能較差,從而為后續翻譯模型的訓練帶來噪聲。其次,現有研究方法中不同句對質量評價特征之間的權重依賴于人工經驗調節,無法獲得最佳性能。

基于此,本文提出一種翻譯模型和語言模型相結合的雙語句對選擇方法。該方法既考慮句對與目標領域的相關性,又兼顧領域相關句對的互譯質量,從而有效地提升了選擇句對的質量;其次,本文進一步提出一種基于句對重排序的特征權重自動優化方法,規避了基于人工經驗設定權重的句對選擇結果的影響。

3 雙語句對選擇方法

本文從句對生成式建模的角度出發,融合目標領域語言模型和翻譯模型,用以評價雙語句對質量(即領域相關性和互譯性)。分別提出基于翻譯模型、基于翻譯模型和語言模型相結合、基于雙向翻譯模型和語言模型的三種具體句對選擇方法,用以從大規模通用領域雙語語料中選擇與目標領域相關的句對。

3.1 基于翻譯模型的句對選擇方法

翻譯模型是統計機器翻譯系統的核心組成部分,通常用于評價句對(或短語對)的互譯概率。本文提出一種基于IBM Model 1[16]的句對質量評價方法。該方法首先利用小規模目標領域雙語語料統計單詞之間共現頻率,用以獲取IBM Model 1中的詞匯翻譯模型;其次,利用獲得的基于詞的翻譯模型對大規模通用領域雙語句對打分;最終,基于雙語句對得分對全部句對進行排序,并從中選擇排序靠前的雙語句對子集。

基于上述方法,本文基于IBM Model 1評價雙語句對質量,具體如式(1)、式(2)所示。

其中,P(e|f)表示利用IBM Model 1詞翻譯模型計算獲得的源語言句子f翻譯成目標語言句子e的條件概率。t(ej|fi)表示單詞fi翻譯成單詞ej的條件概率,利用目標領域雙語語料統計信息估計得到。lf和le分別表示源語言和目標語言句子長度,∈表示歸一化常量,由于它不影響句對排序結果,因此此處將其賦值為1。R表示長度歸一化的IBM Model 1翻譯概率,用于評價通用領域句對的質量。

3.2 融合翻譯模型和語言模型的句對選擇方法

本文從生成式建模角度出發,估計在目標領域下雙語句對的生成概率,并基于此排序和選擇領域相關的雙語句對。本文首先利用目標領域單語語料訓練n元文法語言模型,并依據語言模型困惑度得分評價源語言句子的領域性;其次,利用目標領域雙語語料統計單詞之間的共現頻率,用以估計IBM Model 1翻譯模型參數,進而獲得句對在該領域下的互譯概率;最終,從生成式建模的角度出發,融合語言模型和翻譯模型得分,用以評價雙語句對在目標領域下的生成概率。具體如式(3)、式(4)所示。

其中,P(e|f)表示句對在目標領域中的生成概率,通過融合翻譯模型P(e|f)和語言模型P(f)得分估計得到。R表示長度歸一化處理后的句對生成概率,消除了句子長度對句對打分的影響。最終,生成概率得分較高的句對將會被優先選擇用以擴充目標領域翻譯模型訓練語料。

3.3 融合雙向翻譯模型與語言模型的句對選擇方法

本文3.2節提出從生成式建模角度出發,融合語言模型和翻譯模型評價雙語句對的質量。但是,該方法僅利用源端語言模型和源端到目標端翻譯模型評價句對的質量。基于此,本文進一步利用目標端語言模型和目標端到源端翻譯模型評估句對的生成概率。進而整合不同方向的領域特征,對雙語句對質量進行綜合評價。其次,由于面向不同語言翻譯任務時(例如,英—漢或漢—英),不同方向的領域特征對句對質量評價的重要程度不同,本文為它們分別設置不同的權值。具體如式(5)所示。

(5)

其中,R表示融合不同方向領域特征評價句對質量的模型。λ1和λ2分別表示不同方向領域特征的權值,利用下文所提特征權重優化方法獲得。

4 基于句對重排序的特征權重優化方法

本文提出一種基于句對重排序思想自動優化不同領域特征權重的方法,該方法核心思想如下: 首先,在目標領域訓練語料中人工標注一部分領域相關性高、對齊質量較好的句對(規模為: n對),并與大規模通用領域平行句對(規模為: m對)合并;其次,利用式(5)中的雙語句對選擇方法對全部句對(規模為: m+n對)打分并排序;最終,通過啟發式的搜索算法,尋找最優特征權重,使得人工標注質量較好的句對在全部句對中排序位置盡量靠前。

上述方法的關鍵是通過調節特征權重對全部句對進行重排序,使得人工標注句對的排序位置盡量靠前,因此需要定量表示不同權重下的排序結果。本文類比信息檢索中相關文檔的平均準確率MAP(Mean Average Precision)[17],定義人工標注句對的平均準確率,用以量化表示句對的排序結果。相關文檔的平均準確率是指,檢索返回結果中每篇相關文檔位置上的準確率均值。平均準確率越高,相關文檔的排序位置越靠前,檢索性能也越好。相關文檔的平均準確率定義如式(6)所示。

(6)

其中n表示相關文檔總數,posi表示第i個相關文檔的排序位置,ri表示前posi個排序結果中相關文檔的數目。

本文首先將人工標注的雙語句對類比成信息檢索中的相關文檔,將其他來自通用領域的雙語句對類比成信息檢索中的不相關文檔,并利用式(6)計算人工標注句對的平均準確率。顯然,人工標注句對的平均準確率越高,其排序位置越靠前。其次,利用人工標注的雙語句對作為參照,通過自動調節不同方向領域特征的權重,使得人工標注句對的平均準確率不斷提升,即使得它們的排序位置盡量靠前。由于人工標注句對來自于目標領域且對齊質量較好。因此,優化特征權重后的句對選擇方法會傾向于選擇類似的雙語句對,即與目標領域比較相關同時互譯性較好的雙語句對。

基于上述思想,本文提出基于句對重排序的特征權重搜索算法,該算法基于人工標注句對的平均準確率,定義錯誤率指標err,用以評價人工標注句對的排序情況。錯誤率指標的定義如式(7)所示。

(7)

本文提出的基于句對重排序的特征權重搜索算法屬于迭代算法,算法的具體描述如表1所示。

表1 基于句對重排序的特征權重搜索算法

基于上述算法,本文獲取不同方向領域特征的權重,進而對通用領域的雙語句對進行打分和排序,最終選擇排序靠前的TopN雙語句對子集用以擴充目標領域翻譯系統訓練集。

5 實驗與結果分析

5.1 語料配置

本文實驗面向口語領域翻譯任務,目標領域語料采用CWMT09官方提供的旅游口語平行語料(規模為: 50k句);通用領域語料為利用Liu等[18]所提基于鏈接的平行網頁對識別方法,在Web中自動獲取所得平行語料(規模為: 16m),該語料領域分布較為混雜。所有語料配置具體如表2所示。

表2 語料統計信息

本文實驗使用NiuTrans[19]機器翻譯引擎搭建口語領域英到漢的層次短語翻譯系統,系統的語料配置如下。

? 翻譯模型訓練語料是利用本文所提雙語句對選擇方法從通用領域平行語料中選擇所得TopN句對子集;

? 語言模型訓練語料取自本地漢語單語語料(規模為: 1 350k句);

? 翻譯系統的開發集使用2005年“863”口語翻譯任務的開發集,包含456英文句子和對應四個中文翻譯結果;

? 翻譯系統的測試集使用2004年“863”口語翻譯任務的測試集,包含400個英文句子和四個中文翻譯結果。

5.2 系統設置

本文實驗采用NiuTrans[19]開源機器翻譯系統,該系統融合GIZA++[20]工具實現雙語句對詞對齊,并從詞對齊的平行句對中抽取層次短語翻譯規則。針對雙語句對選擇任務,本文采用SRILM工具[21]獲取目標領域4-gram語言模型,用以估計通用領域雙語句對與目標領域的相關性。同時,本文借助小規模目標領域平行語料的詞對齊信息,獲取該領域詞匯翻譯概率表,用以估計特定領域下雙語句對的互譯概率。

本文搭建口語領域英語到漢語層次短語翻譯系統,該系統基于最小錯誤率訓練方法[22]優化翻譯系統權重,并采用BLEU[23]值作為評價指標。本文設置如下八個翻譯系統,以驗證本文所提方法的有效性。

Baseline1: 利用通用領域16m句對訓練翻譯模型,所得機器翻譯系統。

Baseline2: 利用CWMT口語領域約50k句對訓練翻譯模型,所得機器翻譯系統。

Baseline3: 從通用領域中隨機抽取50k句對訓練翻譯模型,所得機器翻譯系統。

Lv_2007: 利用Lü等[7]提出的基于信息檢索的句對選擇方法,從通用領域句對中選擇TopN句對子集訓練翻譯模型,所得機器翻譯系統。

Duh_2013: 利用Duh等[13]方法,從通用領域句對中選擇TopN句對子集訓練翻譯模型,所得機器翻譯系統。

TM: 利用本文所提基于翻譯模型的方法,從通用領域中選擇TopN句對子集訓練翻譯模型,所得機器翻譯系統。

TM_LM: 利用本文所提融合翻譯模型和語言模型的方法,從通用領域中選擇TopN句對子集訓練翻譯模型,所得機器翻譯系統。

Bidirectional TM+LM: 將不同方向翻譯模型和語言模型的特征權重均設為0.5,用以評價通用領域句對質量,并選擇TopN句對子集訓練翻譯模型,所得機器翻譯系統。

Tune_Bi_TM+LM: 利用本文所提特征權重優化方法調節不同方向領域特征的權重,并基于此評價通用領域句對質量,選擇TopN句對子集訓練翻譯模型,所得機器翻譯系統。

5.3 實驗結果及分析

? 基線系統

本文構建的基線系統性能如表3所示。Baseline1,Baseline2,Baseline3語言模型均采用本地漢語單語語料訓練(規模為: 1 350k句)。

表3 Baseline系統翻譯性能

實驗結果表明,利用大規模通用領域平行語料訓練的翻譯系統(Baseline1)相比利用目標領域平行語料訓練的翻譯系統(Baseline2),在相同的測試集上BLEU值提升了12個百分點。原因在于,大規模通用領域平行語料覆蓋更多的翻譯知識和語言現象;而特定領域平行語料由于規模較小,容易發生數據稀疏問題,從而導致翻譯系統的性能較低。另外,從通用領域中隨機抽取與Baseline2等規模的雙語句對訓練所得翻譯系統(Baseline3)的性能明顯低于Baseline2。這一現象說明,與待翻譯文本領域一致的訓練語料要優于領域相對混雜的訓練語料。原因在于,特定領域中存在較多的專業術語以及較為獨特的語言表達方式,從其他領域的雙語語料中難以有效學習這類專業用語或語言現象的翻譯知識。綜上所述,本文從通用領域雙語語料中抽取與待翻譯文本領域一致的訓練語料,用以擴充目標領域翻譯系統訓練集,是切實可行的。

? 雙語句對選擇方法

實驗利用本文所提特定領域雙語句對選擇方法,對通用領域的平行句對打分并排序,依次選取排序Top N={50k,100k,200k,400k,600k,800k,1000k}的句對子集訓練目標領域機器翻譯系統。系統在測試集上的實驗性能如圖1所示。

圖1 機器翻譯系統性能

圖1為利用所提方法從通用領域選擇排序TopN句對訓練獲得機器翻譯系統的性能。其中,橫坐標表示選取句對的規模(單位為: 1k),縱坐標表示訓練獲取機器翻譯系統的BLEU值。

實驗結果表明,本文提出的雙語句對選擇方法對改善特定領域機器翻譯性能是有效的。當僅從通用領域平行語料中選擇Top400k的句對子集訓練機器翻譯系統時,系統在測試集上的性能優于使用全部的通用領域平行語料(規模為: 16m)。這一現象說明,機器翻譯系統訓練語料的規模并非越大越好。原因在于,通用領域平行語料庫中包含各個領域的訓練數據,利用其抽取的翻譯規則中可能存在較多的噪聲,導致翻譯系統難以有效地選取適合目標領域的翻譯結果。因此訓練語料規模增大時,翻譯性能反而下降。此外,實驗結果表明,當目標領域訓練數據相對較少時,從通用領域平行語料匯總選擇領域相關較高的句對有助于提升機器翻譯系統的性能。

面向口語領域翻譯任務時,相比使用通用領域語料訓練的Baseline1系統,TM方法僅選擇Top800k句對子集,但在測試集上的性能提升了3個百分點;同時,TM+LM和Bidirectional TM+LM方法的性能分別提升了3.52和3.5個百分點。相比主流的基于語言模型的句對選擇方法Duh_2013,TM方法在測試集上性能提升0.87個百分點;同時,TM+LM和Birectional TM+LM方法的性能分別提升了1.32和1.3個百分點。相比基于信息檢索的句對選擇方法Lü_2007,TM方法在測試集上提升1.2個百分點;同時,TM+LM和Birectional TM+LM方法的性能分別提升了1.65和1.63個百分點。雖然,如圖1所示,本文所提方法的在測試集上的性能并非一直優于現有方法,但本文方法在整體上有著顯著的優勢。這表明,融合翻譯模型和語言模型的雙語句對選擇方法,相比現有雙語句對選擇方法,能有效地提升選擇雙語句對的質量。原因在于,通過融合翻譯模型和語言模型等領域特征,本文所提方法既能保證雙語句對的領域相關性,又能有效地保證選取的雙語句對具有較好的互譯性。此外,Birectional TM+LM方法同時兼顧了源語言句子和目標語言句子的質量。

實驗結果還表明,相比Birectional TM+LM方法,優化模型權重后的Tune_Bi_TM+LM方法,在測試集上的性能進一步提升0.68個百分點,且優于本文其他方法。原因在于,利用雙向翻譯模型和語言模型選擇雙語句對,能夠解決由于詞匯翻譯概率估計偏差導致某些質量較差的句對得分較高的問題。在合理設置不同方向權重的情況下,本文方法能夠有效地減少這種錯誤,從而保證選擇的句對質量較優,最終有利于提升翻譯系統的性能。

6 總結與展望

本文提出翻譯模型和語言模型相融合的雙語句對選擇方法。相比于基準系統,利用本文所提方法選擇句對訓練所得特定領域機器翻譯系統,在測試集上BLEU值提升了3.5個百分點。此外,本文進一步提出基于句對重排序的特征權重優化方法,利用該方法優化后的系統,在測試集上BLEU值進一步提升0.68個百分點。

在未來工作中,本文嘗試提出更多有效的領域特征用以選擇特定領域雙語句對。另外,本文方法僅從統計角度,通過融合翻譯模型和語言模型特征得分選擇雙語句對,忽略了句對本身蘊涵的語義信息。因此,未來工作中可進一步融合句對的語義信息,如采用主題模型或神經網絡等方法評價和選擇雙語句對。

[1] Pavel P, Antonio T, Andy W, et al. Towards using web-crawled data for domain adaptation in statistical machine translation[C]//Proceedings of the 15th Annual Conference of the European Association for Machine Translation.2011: 297-304.

[2] 劉昊, 洪宇, 劉樂等. 基于全局搜索和局部分類的特定領域雙語網站識別方法[C]. 第二十屆全國信息檢索學術會議(CCIR). KunMing, China, 2014.

[3] SpencerRarrick, Chris Quirk, Will Lewis. MT detection in web-scraped parallel corpora[C]//Proceedings of the Machine Translation Summit.2011: 422-429.

[4] Su J, Wu H, Wang H, et al. Translation model adaptation for statistical machine translation with monolingual topic information[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2012: 459-468.

[5] Foster G,Goutte C, Kuhn R. Discriminative instance weighting for domain adaptation in statistical machine translation[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2010: 451-459.

[6] Sennrich R, Schwenk H, Aransa W. A Multi-Domain Translation Model Framework for Statistical Machine Translation[C]//Proceedings of the 51th Annual Meeting of the Association for Computational Linguistics.2013: 832-840.

[7] Lü, Yajuan, Jin H, Qun L. Improving Statistical Machine Translation Performance by Training Data Selection and Optimization[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational, 2007: 343-350.

[8] 黃瑾, 呂雅娟, 劉群. 基于信息檢索方法的統計翻譯系統訓練數據選擇與優化[J]. 中文信息學報, 2008, 22(2): 40-46.

[9] Yasuda K, Zhang R, Yamamoto H, et al. Method of Selecting Training Data to Build a Compact and Efficient Translation Model[C]//Proceedings of the IJCNLP.2008: 655-660.

[10] Moore R C, Lewis W. Intelligent selection of language model training data[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 220-224.

[11] Axelrod A, He X,Gao J. Domain adaptation via pseudo in-domain data selection[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011: 355-362.

[12] Haddow B, Philipp K. Analysing the effect of out-of-domain data on SMT systems[C]//Proceedings of the Seventh Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2012: 422-432.

[13] Duh K,Neubig G, Sudoh K, et al. Adaptation Data Selection using Neural Language Models: Experiments in Machine Translation[C]//Proceedings of the 51th Annual Meeting of the Association for Computational Linguistics.2013: 678-683.

[14] 姚樹杰, 肖桐, 朱靖波. 基于句對質量和覆蓋度的統計機器翻譯訓練語料選取[J]. 中文信息學報, 2011, 25(2): 72-77.

[15] 王星, 涂兆鵬, 謝軍, 等. 一種基于分類的平行語料選擇方法[J]. 中文信息學報, 2013, 27(6): 144-150.

[16] Brown P F,Pietra V J D, Pietra S A D, et al. The mathematics of statistical machine translation: Parameter estimation [J]. Computational linguistics, 1993, 19(2): 263-311.

[17] Buckley C, Voorhees E M. Evaluating evaluation measure stability[C]//Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2000: 33-40.

[18] Liu L, Hong Y, Lu J, et al. An Iterative Link-based Method for Parallel Web Page Mining [C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics.2014: 1216-1233.

[19] Xiao T, Zhu J, Zhang H, et al. NiuTrans: an open source toolkit for phrase-based and syntax-based machine translation[C]//Proceedings of the ACL 2012 System Demonstrations. Association for Computational Linguistics, 2012: 19-24.

[20] Och F J, Ney H. A systematic comparison of various statistical alignment models [J]. Computational linguistics, 2003, 29(1): 19-51.

[21] Andreas Stolcke. SRILM-an extensible language modeling toolkit[C]//Proceedings of the International Conference on Spoken Language Processing.2002: 901-904.

[22] Och F J. Minimum error rate training in statistical machine translation[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2003: 160-167.

[23] Papineni K, Roukos S, Ward T, et al. BLEU: a method for automatic evaluation of machine translation[C]//Proceedings of the 40th annual meeting on association for computational linguistics. Association for Computational Linguistics, 2002: 311-318.

Combining Translation and Language Models for Bilingual Data Selection

YAO Liang, HONG Yu, LIU Hao, LIU Le, YAO Jianmin

(Provincial Key Laboratory of Computer Information Processing Technology Soochow University, Suzhou, Jiangsu 215006,China)

Data Selection aims at selecting sentence pairs most relevant to target domain from large scale general-domain bilingual corpus that are , so as to alleviate the lack of high quality bi-text for statistical machine translation in the domain of interest. Instead of solely using traditional language models, we propose a novel approach combining translation models with language models for data selection from the perspective of generative modeling. The approach can better measure the relevance between sentence pairs and the target domain, as well as the translation probability of sentence pair. Experiments show that the optimized system trained on selected bi-text using our methods outperforms the baseline system trained on general-domain corpus by 3.5 BLEU points. In addition, we present an effective method based on sentence pairs re-ranking to tune the weights of different features which are used for evaluating quality of general domain texts. Machine translation system based on this method achieves further imporvments of 0.68 BLEU points.

bilingual data selection; generative modeling; translation model; language model; weight tuning

姚亮(1993—),碩士,主要研究領域為統計機器翻譯,自然語言處理。E?mail:yaoliang310@163.com洪宇(1978—),博士后,副教授,主要研究領域為話題檢測、信息檢索、和信息抽取。E?mail:tianxianer@gmail.com劉昊(1990—),碩士,主要研究領域為統計機器翻譯,自然語言處理。E?mail:liuhao19900412@gmail.com

1003-0077(2016)05-0145-08

2015-07-31 定稿日期: 2016-01-25

國家自然科學基金(61373097, 61272259, 61272260)

TP391

A

猜你喜歡
排序語言方法
排序不等式
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
恐怖排序
節日排序
讓語言描寫搖曳多姿
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
累積動態分析下的同聲傳譯語言壓縮
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
我有我語言
主站蜘蛛池模板: 免费网站成人亚洲| 好吊色妇女免费视频免费| 亚洲午夜福利精品无码不卡| 国产精品久久久久久影院| 永久免费精品视频| 久久美女精品| 夜夜操天天摸| 国产精品林美惠子在线观看| 国产成人一区在线播放| 欧美日韩激情在线| 日韩精品专区免费无码aⅴ| 久久中文电影| 亚洲日韩精品无码专区| 91成人免费观看在线观看| 欧美国产日韩在线| 欧美日韩精品在线播放| 亚洲美女久久| 99久久这里只精品麻豆| 欧美va亚洲va香蕉在线| 国外欧美一区另类中文字幕| 久久免费视频6| 国产亚洲精| 欧美日本在线一区二区三区| 91在线精品免费免费播放| 国产日韩欧美在线播放| 四虎永久在线视频| 浮力影院国产第一页| 久久精品无码国产一区二区三区| 色网在线视频| 98超碰在线观看| AV不卡无码免费一区二区三区| 亚洲国产天堂久久综合226114| 亚洲无码视频一区二区三区| 18禁高潮出水呻吟娇喘蜜芽| 伊人精品视频免费在线| 国产高清在线观看91精品| 福利在线一区| 精品国产一区91在线| 欧美午夜一区| 久草视频精品| 丰满人妻一区二区三区视频| 久久国产精品娇妻素人| 亚洲欧美综合在线观看| 亚洲国产精品成人久久综合影院| 亚洲精品动漫| 国产欧美日韩视频一区二区三区| 国产精品女主播| 香蕉网久久| 日韩精品一区二区三区大桥未久| 国内熟女少妇一线天| 国产女同自拍视频| 天天操精品| 欧美中文字幕第一页线路一| 欧美97欧美综合色伦图| 亚洲男人在线| 精品少妇人妻av无码久久| 国产成人一区免费观看| 亚洲色图综合在线| 欧美va亚洲va香蕉在线| 中文字幕乱码二三区免费| 亚洲欧美在线综合图区| 97在线视频免费观看| 青青草原国产精品啪啪视频| 色婷婷电影网| 亚洲区第一页| 全免费a级毛片免费看不卡| 国产精品性| 亚洲一区二区三区麻豆| 伊人久久婷婷五月综合97色| 99人妻碰碰碰久久久久禁片 | 亚洲精品波多野结衣| 亚洲天堂网视频| 日韩亚洲综合在线| 波多野结衣中文字幕一区二区| 日韩区欧美区| 国产精品永久不卡免费视频| 99热这里只有成人精品国产| 日韩精品无码免费专网站| 在线色国产| 国产亚洲现在一区二区中文| 国产 在线视频无码| 色久综合在线|