999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

譯文語序的領域性思考:一種融合主題信息的領域自適應調序模型

2017-11-27 09:05:37劉夢眙姚建民
中文信息學報 2017年5期
關鍵詞:特征方法模型

劉夢眙,姚 亮,洪 宇,劉 昊,姚建民

(蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006)

譯文語序的領域性思考:一種融合主題信息的領域自適應調序模型

劉夢眙,姚 亮,洪 宇,劉 昊,姚建民

(蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006)

領域自適應研究的目標是建立一種動態調整翻譯模型,使翻譯模型對目標領域的語言特征具備較強的學習和處理能力,借以保證翻譯系統在不同領域獲得平衡可靠的翻譯能力。現有翻譯模型的自適應研究已經取得顯著進展,但調序過程的領域適應性研究相對較少。在該文前期工作中通過對大規模源語言和目標語言的真實互譯樣本統計發現,在語義等價的短語級互譯對子中,36.17%的樣本在不同領域中的語序存在顯著差異。針對這一問題,該文從主題角度出發,探索不同主題分布下的短語調序差異,提出一種融合主題信息的領域自適應調序模型。實驗結果顯示,嵌入調序適應性模型的翻譯系統取得了較為明顯的性能優勢。

統計機器翻譯;領域適應性;調序模型;主題模型

1 引言

通常認為,統計機器翻譯(statistical machine translation,SMT)系統的性能很大程度上依賴于語料的規模和質量[1]。一般地,訓練語料的規模越大、質量越好,則有效的翻譯知識越多,涵蓋的語言現象越充分,因而更有助于提升翻譯系統中統計模型(翻譯模型、語言模型、調序模型)的訓練效果。

然而,當訓練數據和測試數據所屬領域不一致時,機器翻譯系統的性能往往偏低。造成這一問題的核心原因是,語言現象在特定領域中具有一定的獨立性,換言之,語義的收斂性和語用的多樣性促成了不同領域文字表述的本質的差異,文法、修辭、術語、語序和慣用規則,都在特定領域有著明顯的獨立性,而在不同領域間有著可見的差異,這對雙語之間的互譯造成了一定影響。本文研究的主要對象,即為語序的領域特性,尤其是如何識別、模擬和應用這一特性,改進現有的機器翻譯模型。

本文側重研究利用主題信息提升調序模型領域適應性的可行性及方法學。這一探索源于如下經驗性的發現: 主題的分布往往能夠表現領域的特性,比如,法律領域的主題往往集中于“審判”“拘捕”和“罪行”等,自然科學領域則集中于“發現”“方法學”和“實驗”等。而語言的組織(如語用形式、語序關系和語義表示形式等)往往與主題有著更為直接的聯系。因此,我們提出一種基本的直推式假設: 領域→主題→語言組織→語序。通過這一間接推理,語序作為語言組織的重要組成部分,可通過與主題的關聯程度和形式,決定其與特定領域的關系。這一點將成為支持本文方法學的核心,即利用主題信息調整翻譯過程中的語序結果,以適應特定領域的文字特點。為了便于理解上述例子,下面給出了一對源語言(中文)和目標語言(英文)的語序樣例,及其關聯的主題和領域:

源語言: 保安 司 可 隨時 指示 將 一個 根據 羈留 令 被 羈留 的 人 釋放。

目標語言: the secretary for security may at any time direct that a person detained under a detention warrant be released.

[例1]

源語言: 可以 隨時 根據 偏好 重新 排列 搜索 規則。

目標語言: you can reorder the search rules according to the preference at any time.

[例2]

上述是“at any time”在法律和科技領域下調序的一個實例。例1來源于法律條文,從例句中可以看出,“at any time”相對于前一個短語“may”,在源語言端對應的短語相對位置保持不變。此時短語“at any time”的調序類型是單調調序(M)。例2來源于科技文獻,從例句中可以看出,“at any time”相對于前一個短語“preference”,在源語言端對應的短語相對位置進行了交換且間隔開了。此時短語“at any time”的調序類型是不連續調序(D)。基于此調序現象,本文利用法律和科技領域較大規模的平行文本進行統計分析,結果發現,“隨時 at any time”在法律領域下單調調序(M)的概率為62%,而在科技領域下不連續調序(D)的概率為97%。從統計中可以發現,該短語對在法律領域下更傾向于單調調序,而在科技領域下更傾向于不連續調序。

從上述分析可以看出,短語調序受領域影響,在不同領域下短語調序的傾向不同。龐弘燊等[2]指出: 通過對某一領域文獻的主題進行分析,是了解和評價學科領域發展的歷史、現狀和趨勢的一種有效途徑。可以看出,主題能夠表現領域特性,上述法律領域的主題多集中于“失職”“釋放”“審判”等;科技領域的主題多集中于“軟件”“服務器”“計算機”等。因而本文猜測具有與特定領域對應性的主題分布,能夠間接反映該領域中調序的特點,這就構成了本文通過捕捉主題信息,將其引入調序模型,讓調序具備領域特點的基本動機。

基于上述現象,本文提出一種融合主題信息的調序模型領域自適應方法。其核心思想如下: 首先,利用主題模型估計不同領域下雙語文檔的主題分布;其次,利用極大似然估計的方法,獲取不同主題下短語對的調序分布。最終在解碼時,該方法借助待測文本的主題信息對短語對的調序概率進行加權,從而優化短語對的調序分布,以提升特定領域機器翻譯系統的性能。基于NIST標準測試集的實驗表明,本文所提優化調序模型的方法改進了機器翻譯系統的性能,相比于基準系統,BLEU值提升了0.76%。

本文章節組織如下: 第二節介紹相關工作;第三節介紹傳統調序模型;第四節描述融合主題信息的調序模型領域自適應方法;第五節給出實驗結果和分析;第六節總結工作并提出展望。

2 相關工作

調序問題是統計機器翻譯中的重要問題,常見的詞匯化調序模型主要出現在短語模型中,包括基于詞、基于短語、基于層次化短語的調序。近年來在調序模型上的探索不乏一些值得借鑒的工作: 馮洋等[3]認為正確地對介詞短語進行調序對提高翻譯質量至關重要,在層次短語模型基礎上,利用條件隨機場模型識別出介詞短語,然后抽取帶有介詞短語的規則,構建新的同步上下文無關文法;何鐘豪等[4]針對最大熵調序模型中短語調序實例樣本分布不平衡的問題,引入集成學習多分類器融合的模型訓練方法,發現通過性能加權投票融合的無放回欠采樣的方法,相比于基線系統提升最為顯著;肖欣延等[5]提出面向層次短語模型的詞匯化調序方法,定義變量與鄰接詞語的調序關系,并使用變量所泛化短語片段的邊界詞信息來指導調序,解碼時將此調序模型作為新特征融入基準系統中;Cao等[6]提出一種直接構建在同步文法規則上的詞匯化的調序模型,對包含在文法規則里的每個目標端短語,計算其在文法規則下的調序概率,在解碼時將該調序模型融入翻譯解碼器,提高了系統系能。

當訓練數據和測試數據所屬領域不一致時,機器翻譯系統的性能往往偏低。統計機器翻譯領域自適應研究大致包括如下兩種思路:

(1) 領域相關數據選擇

平行句對選擇是翻譯模型適應性研究中簡單而有效的實施方法。當前,面向特定領域的雙語文本往往比較匱乏,從大規模通用領域句對中選擇與目標領域相關的平行句對,可作為擴充特定領域翻譯模型訓練數據的重要來源。Yasuda等[7]利用小規模目標領域雙語語料,分別在源端和目標端訓練語言模型,利用語言模型困惑度衡量通用領域平行句對和目標領域的領域相關性,進而選擇相關程度較高的平行句對擴充目標領域訓練數據,提升特定領域機器翻譯系統的性能;Axelrod等[1]改進基于語言模型困惑度的句對選擇方法,分別計算特定領域和通用領域的語言模型困惑度,并利用其差值評價句對的領域相關性;Duh等[8]首次應用深度神經網絡語言模型代替傳統的N-gram語言模型評價平行句對,進而選擇句對擴充目標領域訓練數據,取得較好的性能;王星等[9]提出基于分類的平行語料選擇方法,特征采用雙語詞典翻譯質量、翻譯模型概率、語言模型、句子長度及未對齊詞數量,利用少數句對特征差異較大的句對構建分類器,從而對其他未分類句對進行分類;Liu等[10]提出融合特定領域翻譯模型和語言模型評價雙語句對質量,有效地解決了基于語言模型方法選取的領域相關句對中存在翻譯質量較差的問題。

(2) 統計特征優化。

Foster等[11]提出從短語特征層次出發,對來自不同領域的翻譯模型進行線性或對數線性融合;Matsoukas等[12]通過計算通用領域句對和目標領域的領域相似程度,給句對賦予不同的權重值;曹杰等[13]提出一種基于上下文信息的翻譯概率計算模型。該模型利用上下文相關的領域特征,重新估計雙語短語的翻譯概率,實現了領域信息和翻譯知識的有效融合;Foster等[14]在前人的基礎上從短語實例粒度考慮,為領域相關的短語實例賦予較高的權重,并重新估計翻譯模型,提升了翻譯性能;Su等[15]借助領域單語語料訓練主題模型,并通過構建目標領域和通用領域主題映射,重新估計通用翻譯模型的參數;Hewavitharana等[16]將測試文本與訓練文檔的主題相似度作為額外的翻譯特征,以提升口語的翻譯性能。Hasler等[17]通過改進LDA模型,提出推理雙語主題模型的方法,并將其應用于計算主題適應的短語翻譯特征。Chen等[18]首次進行了調序模型領域適應性的研究,提出將線性混合模型技術運用到調序模型領域適應性中,該方法為不同領域的子語料賦予不同的權重,以獲取適應目標領域的調序模型。此外,Chen等[18]還通過平滑領域內語料和文檔頻率加權的方法提高了翻譯系統性能。

上述研究仍存在以下不足: 首先,依據語料來源標簽人工劃分語料領域(例如,若語料標簽為news-wire(新聞專線),則將其劃分為新聞領域)。但新聞語料可能包含各種主題(體育、娛樂、政治等)的文本,因此,該方法在劃分時過于泛化,缺乏對文本內容的分析。其次,該方法并不適用于測試文本來源未知的情況,即無法根據測試文本的變化動態優化調序模型。

針對上述問題,Wang等[19]在判別相鄰短語的調序方向時,融入短語對所在文檔的主題信息作為特征,將該特征加入最大熵分類器中,此外,還使用邊界單詞及單詞主題作為特征。在解碼時,將該調序模型融入統計機器翻譯系統中,提升了翻譯性能;Zhang等[20]提出一種基于結構化學習的判別式調序模型(discriminative reordering model,DRM),用以探索不同領域中調序特征的關聯性,以使從通用領域中學習的調序規律更適應于目標領域,該模型挖掘不同領域共有的調序特征,并將這些特征融入翻譯解碼過程中。

受上述工作鼓勵,本文嘗試強化調序模型的適應性,但區別于將主題作為特征維間接干涉調序過程,本文利用主題分布概率計算調序概率,直接影響調序結果。

3 傳統調序模型

利用不同語言對同一語義進行表述時,語序往往存在較大差異。就句子級的表述形式而言,句子結構迥異。調序模型用于對譯文片段的相對位置進行建模,以生成符合常用語言表述習慣的譯文。例如,中文“樹上有只小鳥”,對應的英文譯文為“there is a bird in the tree”。由此可見,互譯的短語中“樹(tree)”和“小鳥(bird)”的相對位置發生了變化。調序模型旨在將目標端譯文短語重新排序,以滿足目標語言的表述習慣。同樣地,調序模型的訓練也包括調序表的抽取和調序概率計算,表1所示為調序表樣例。

表1 調序表樣例

調序模型包括以下三部分: 源端短語(如上“上海 浦東 發展”)、目標端短語(如上“and pudong development”)、短語對調序特征得分(如上“-0.51 -1.61 -1.61 -0.51 -1.65 -1.63”)。其中,調序特征常根據具體情況而定,此處特征為短語模型中常用的MSD調序特征。詞匯化調序模型由Tillmann等[21]首次提出,對任意一個短語對,這種調序模型考慮三種調序類型: 單調調序(M);交換調序(S);非連續調序(D)。

其中oi為M、S或D,概率以ai-1和ai為條件來確保方向oi與短語對齊一致,如式(2)所示。

因此,可以用以下三個特征函數對調序方向構建模型,每個函數對應一個調序方向。此處的短語對調序方向是相對于前一個短語對來確定的,分別對應表1中短語對的前三個特征,如式(3)~(5)所示。

除了上述的三種特征,也可以融入另外三個相似的特征(fM-b,fS-b和fD-b,分別對應表1中短語對的后三個特征)。這三個特征中的短語對調序方向是相對于后一個短語對來確定的,其中oi以(ai,ai+1) 為條件,而不是(ai-1,ai)。

4 融合主題信息的調序模型領域自適應方法

本文提出一種融合主題信息的調序模型領域自適應方法,該方法旨在解決測試文本領域未知的翻譯問題,并利用文檔主題分布動態優化調序模型。核心思想如下: 首先,利用主題模型估計包含不同主題的雙語文檔的主題分布;其次,統計短語對在每篇文檔中以M、S或D為調序方向的次數,利用文檔的主題分布對調序次數進行加權,從而獲取不同主題下短語對的調序分布;最終在解碼時,該方法借助待測文本的主題信息對不同主題下短語對的調序概率進行加權,從而優化短語對的調序分布,以提升跨領域機器翻譯系統的性能。方法框架如圖1所示。

圖1 融合主題信息的調序模型自適應方法框架

4.1 估計不同主題下短語對的調序分布

本文這一部分內容旨在量化同一短語對在不同主題下調序的差異性。借助于Latent Dirichlet Allocation(LDA)[22]主題模型,本文從規模較大的領域混雜平行文檔中學習短語對的調序分布,并借助文檔主題對調序進行優化。

4.2 利用測試集文檔主題分布優化調序模型

本文分別對部分調序特征及全部調序特征進行優化,旨在驗證本文所提方法的有效性。部分調序特征包括: 短語對相對于前一個短語的調序方向(fM-f,fS-f和fD-f)、短語對相對于后一個短語的調序方向(fM-b,fS-b和fD-b)。

5 實驗與結果分析

5.1 語料配置

為了驗證不同領域下的短語調序分布存在差異,本文對法律和科技語料進行統計。其中法律語料來源于LDC香港平行文本法律部分(規模為: 400k句);科技語料來源于中國科學技術信息研究所英漢科技文獻句子級對齊語料庫(規模為: 600k句)。統計分析語料如表2所示。

表2 統計分析語料

①香港平行文本400k科技中信所英漢科技文獻句子級對齊語料庫600k①LDC2004T08香港平行文本法律部分。

本文實驗使用NiuTrans[25]機器翻譯引擎搭建漢英短語翻譯系統。翻譯模型訓練語料是由LDC官方提供的英漢雙語平行語料,本文過濾句子數少于10或大于50的文檔(規模為: 933k句);語言模型訓練語料取自LDC2005T12英語單語語料(規模為: 11m句);翻譯系統的開發集使用2002年NIST MT公開測試集(NIST02),包含878個中文句子和對應4個英文翻譯結果;翻譯系統的測試集1使用NIST03,包含919個中文句子和對應4個英文翻譯結果;翻譯系統的測試集2使用NIST04,包含1 788個中文句子和對應4個英文翻譯結果。機器翻譯系統的語料如表3所示。

表3 機器翻譯系統語料

5.2 系統配置

本文實驗采用NiuTrans開源機器翻譯系統,該系統融合GIZA++[26]工具實現雙語句對詞對齊,并從詞對齊的平行句對中抽取短語翻譯規則。本文采用SRILM[27]工具訓練4-gram語言模型,并以傳統MSD調序模型作為基線系統的調序模型,翻譯系統模型權重采用最小錯誤率[28]訓練方法獲得,系統輸出結果采用大小寫不敏感的BLEU-4[29]值進行評價。本文設置如下五個翻譯系統,以驗證本文所提方法的有效性:

(1) Baseline: 搭建基于短語的翻譯系統,包含翻譯模型、語言模型、調序模型等特征。

(2) Hybrid: 實現文獻[18]提出的基于混合模型的調序模型領域適應性方法,并搭建基于短語的翻譯系統。

(3) LDA_a: 利用主題信息優化調序模型的全部調序特征,作為新特征融入短語翻譯系統。

(4) LDA_f: 利用主題信息優化相對于前一個短語的調序特征(fM-f,fS-f和fD-f),將得到的調序模型作為新特征融入短語翻譯系統。

(5) LDA_b: 利用主題信息優化相對于后一個短語的調序特征(fM-b,fS-b和fD-b),將得到的調序模型作為新特征融入短語翻譯系統。

為了訓練融入主題信息的調序模型,本文選用吉布斯采樣方法推斷LDA模型的參數,使用GibbsLDA++*http://sourceforge.net/projects/gibbslda/。開源工具來進行主題的估計和推斷。本文在進行主題估計前去除了中文停用詞(共558個),主題數目取20,超參數均設為0.05,迭代次數設為1 000。

5.3 實驗結果及分析5.3.1 統計現象

為驗證不同領域中短語調序分布存在差異這一猜想,本文對法律和科技領域的語料進行統計。本文只保留在兩個領域下共現次數大于20的短語對,并分別計算兩個領域下的調序分布RDlaw和RDtech。 本文用KL距離來衡量同一個短語對在兩個領域下調序分布的差異性,KL距離計算如式(9)所示。

對符合條件的10 661個短語對根據其KL距離從大到小進行編號排序,做出如圖2所示折線圖,為了折線圖顯示效果,編號5000以后的點不在圖中顯示。其中,橫坐標表示短語對的編號,縱坐標表示短語對的兩個調序分布RDlaw與RDtech之間的KL距離。

圖2 短語對的調序分布差異——KL距離折線圖

其中,編號3856的短語對為“效果 effect”,其在兩個領域下的調序分布如表4所示,分布的KL距離為0.157 1,三個概率值分別表示短語對以M、S或D進行調序的概率。從表中可以看出,該短語對在法律領域下更傾向于單調調序(M),而在科技領域下更傾向于不連續調序(D)。KL距離越大,短語對在兩個領域下的調序分布差異越大。那么,KL距離大于0.157 1的短語對調序分布差異更加明顯,所占比重為36.17%(3 856/10 661),故至少36.17%的短語對在不同領域的調序存在差異。

表4 短語對“效果 effect”在兩個領域下的調序分布

此外,從語料中也可以發現短語對“效果 effect”在兩個領域下的不同調序現象,如表5所示。目標端短語“effect”相對于其前一個短語“possible”,在源語言端對應的短語(“可能”“效果”)相對位置保持不變,故此時的調序類型是單調調序(M);而在科技領域下,目標端短語“effect”相對于其前一個短語“display”,在源語言端對應的短語(“顯示”“效果”)相對位置發生了改變,不再保持連續,故此時調序類型是不連續調序(D)。

表5 短語對“效果 effect”在不同領域下的調序現象

綜上所述,至少36.17%的短語對在不同領域的調序存在差異性,本文針對這部分短語對的調序分布進行優化,融入短語所在文檔的主題信息,以期提高翻譯系統的性能。

5.3.2 實驗結果與分析

本文搭建漢英機器翻譯系統,并基于最小錯誤率訓練方法調節特征權重,最終解碼得到翻譯結果。本文構建的五個翻譯系統(Baseline、Hybrid、LDA_a、LDA_f、 LDA_b)性能如表6所示。實驗結果表明, 優化調序模型的翻譯系統相比于原始的翻譯系統(Baseline),在測試集上性能均有提升。其中優化

全部調序特征的翻譯系統(LDA_a)性能最好,相比于基準系統(Baseline),在NIST03上提升了0.76%,在NIST04上提升了0.38%;而優化部分調序特征的翻譯系統性能則不如優化全部調序特征的翻譯系統(LDA_a),其中優化相對于前一個短語對的調序特征的翻譯系統(LDA_f),相比于基準系統(Baseline),在NIST03上提升了0.55%,在NIST04上提升了0.33%;優化相對于后一個短語對的調序特征的翻譯系統(LDA_b),相比于基準系統(Baseline),在NIST03上提升了0.38%,在NIST04上提升了0.28%。綜上所述,本文提出的利用主題信息優化調序模型的方法是有效的。原因在于,本文方法能充分考慮不同主題下調序的差異性,并根據測試文檔的主題分布動態地進行優化,以獲得最佳的調序效果。同時,調序的性能會最終影響整體的翻譯效果,達到提升翻譯性能的目的。

表6 機器翻譯系統性能

另一方面,與Chen(2013)提出的基于混合模型方法優化調序模型搭建的翻譯系統(Hybrid)相比,性能也有一定的提升。從表6可以看出,LDA_a在NIST03上比Hybrid提升了0.39%,在NIST04上提升了0.14%;而優化部分調序特征的翻譯系統(LDA_f、LDA_b)在測試集上性能也有所提升。該部分實驗結果表明,人工粗略地根據語料來源和文體進行領域劃分并不是最優的,借助主題模型進而利用主題信息進行領域的區分相比于人工的方法更加的精確,且減少了人工標注需要的工作量。 表7為一個中到英的翻譯實例,分別由本文所搭建的Baseline和LDA_a翻譯所得。

表7 一個中英翻譯實例

從表中可以看出,“海牙 法庭 醫療 小組”的翻譯,LDA_a與參考譯文基本一致,“海牙 法庭”的英文翻譯調序到“醫療 小組”的后面。從詞匯化調序模型的觀點來看,調序方向是交換調序(S)。而在Baseline中,對“海牙 法庭”進行了順序翻譯,沒做任何調序,反而將人名“波貝特克”錯誤地調序到“醫療 小組”前面。此外,對于“確認 波貝特克 的 病情”的翻譯,LDA_a與參考譯文都進行了順序翻譯,從詞匯化調序模型的觀點來看,調序方向是單調調序(M)。而在Baseline中,“確認 波貝特克 的 病情”對應的翻譯片段及順序是“波貝特克”、“the conditions of”、“confirm”,Baseline對短語“確認”進行了錯誤的調序。從以上分析可以看出,利用本文所提方法搭建的翻譯系統對短語進行了正確的調序,證實了本文所提方法的有效性。

6 總結與展望

本文驗證了短語調序分布在不同的領域下存在差異,并提出了一種融合主題信息的調序模型領域自適應方法,利用文檔的主題信息優化短語的調序分布。本文所提優化調序模型的方法改進了機器翻譯系統的性能,相比于基準系統,BLEU值提升了0.76%。這證實了在短語調序中融入文檔主題信息的有效性。最后,本文分析了融入主題信息能夠提升調序性能的原因。

[1] Axelrod A, He Xiaodong, Gao Jianfeng. Domain adaptation via pseudo in-domain data selection[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processins. Edingburg, Scotland, United Kingdom: Association for Computational Linguistics, 2011, 355-362.

[2] 龐弘燊, 方曙, 楊志剛, 等. 研究領域的主題發展趨勢分析方法研究: 基于多重共現的視角[J].情報理論與實踐, 2012, 35(8): 44-47,73.

[3] 馮洋, 張冬冬, 劉群. 層次短語翻譯模型的介詞短語調序[J]. 中文信息學報, 2012, 26(1): 31-36.

[4] 何鐘豪, 蘇勁松, 史曉東, 等. 引入集成學習的最大熵短語調序模型[J]. 中文信息學報, 2014, 28(1): 87-93.

[5] 肖欣延, 劉洋, 劉群, 等. 面向層次短語翻譯的詞匯化調序方法研究[J]. 中文信息學報, 2012, 26(1): 37-41,50.

[6] Cao Hailong, Zhang Dongdong, Li Mu, et al. A lexicalized reordering model for hierarchical phrase-based translation[C]//Proceedings of the 25th International Conference on Computational Linguistics. Dublin, Ireland: Technical Papers, 2014: 1144-1153.

[7] Yasuda K, Zhang Ruiqiang, Hirofumi Y, et al.Method of selecting training data to build a compact and efficient translation model[C]//Proceedings of the 3rd International Joint Conference on Natural Language Processing. Hyderabad, India: The Association for Computer Linguistics, 2008: 655-660.

[8] Duh K, Neubig G, Sudoh K, et al. Adaptation data selection using neural language models: experiment in machine translation[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Sofia, Bulgaria: Association for Computational Linguistics, 2013: 678-683.

[9] 王星, 涂兆鵬, 謝軍, 等. 一種基于分類的平行語料選擇方法[J]. 中文信息學報, 2013, 27(6): 144-150.

[10] Liu Le, Hong Yu, Liu Hao, et al. Effective selection of translation model training data[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore, Maryland, USA: Association for Computational Linguistics, 2014: 569-573.

[11] Foster G, Kuhn R. Mixture-model adaptation for SMT[C]//Proceedings of the 2nd Workshop on Statistical Machine Translation. Prague, Czech Republic: Association for Computational Linguistics, 2007: 128-135.

[12] Matsoukas S, Rosti A V I, Zhang B. Discriminative corpus weight estimation for machine translation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Singapore: Association for Computational Linguistics, 2009: 708-717.

[13] 曹杰, 呂雅娟, 蘇勁松, 等. 利用上下文信息的統計機器翻譯領域自適應[J]. 中文信息學報, 2010, 24(6): 50-56.

[14] Foster G, Goutte C, Kuhn R. Discriminative instance weighting for domain adaptation in statistical machine translation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Massachusetts, USA: Association for Computational Linguistics, 2010: 451-459.

[15] Su Jinsong, Wu Hua, Wang Haifeng, et al. Translation model adaptation for statistical machine translation with monolingual topic information[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Jeju, Republic of Korea: Association for Computational Linguistics, 2012: 459-468.

[16] Hewavitharana S, Mehay D N, Ananthakrishnan S, et al. Incremental topic-based translation model adaptation for conversational spoken language translation[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Sofia, Bulgaria: Association for Computational Linguistics, 2013: 697-701.

[17] Hasler E, Blunsom P, Koehn P, et al. Dynamic Topic Adaptation for Phrase-based MT[C]//Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. Gothenburg, Sweden: Association for Computational Linguistics, 2014: 328-337.

[18] Chen B, Foster G, Kuhn R. Adaptation of reordering models for statistical machine translation[C]//Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology. Atlanta, Georgia: Association for Computational Linguistics, 2013: 938-946.

[19] Wang X, Xiong D, Zhang Min, et al.A topic-based reordering model for statistical machine translation[M]. Berlin Heidelberg: Springer, 2014.

[20] Zhang B, Su J, Xiong D, et al. Discriminative reordering model adaptation via structural learning[C]//Proceedings of the 24th International Conference on Artificial Intelligence. Buenos Aires, Argentina: AAAI Press, 2015: 1040-1046.

[21] Tillmann C, Zhang T. A localized prediction model for statistical machine translation[C]//Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics. Ann Arbor, Michigan: Association for Computational Linguistics, 2005: 557-564.

[22] Blei D M, Andrew Y Ng, Michael I J. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.

[23] Koehn P, Och F, Marcu D. Statistical phrase-based translation[C]//Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology. Edmonton, Canada: Association for Computational Linguistics, 2003: 48-54.

[24] Koehn P, Hoang H, Birch A, et al. Moses: open source toolkit for statistical machine translation[C]//Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics on Interactive Poster and Demonstration Sessions. Prague, Czech Republic: Association for Computational Linguistics, 2007: 177-180.

[25] Xiao T, Zhu J, Zhang H, et al. NiuTrans: an open source toolkit for phrase-based and syntax-based machine translation[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Jeju, Republic of Korea: Association for Computational Linguistics, 2012: 19-24.

[26] Franz J O, Hermann N. A systematic comparison of various statistical alignment models[J]. Computational Linguistics, 2003, 29(Jan): 19-51.

[27] Andreas S. SRILM-an extensible language modeling toolkit[C]//Proceedings of the 7th International Conference on Spoken Language Processing. Denver, Colorado, USA: Interspeech, 2002: 901-904.

[28] Franz J O. Minimum error rate training in statistical machine translation[C]//Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics. Sapporo, Japan: Association for Computational Linguistics, 2003: 160-167.

[29] Kishore P, Salim R, Todd W, et al. BLEU: a method for automatic evaluation of machine translation[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, Pennsylvania: Association for Computational Linguistics, 2002: 311-318.

劉夢眙(1993—),碩士研究生,主要研究領域為自然語言處理、機器翻譯。

E-mail: lmysd2015@163.com

姚亮(1993—),碩士研究生,主要研究領域為自然語言處理、機器翻譯。

E-mail: yaoliang310@163.com

洪宇(1978—),通信作者,副教授,研究生導師,主要研究領域為話題檢測、信息檢索和信息抽取。

E-mail: tianxianer@gmail.com

DomainAdaptationofReorderingModelviaTopicInformation:WordOrderinTranslatedTextacrossDomains

LIU Mengyi, YAO Liang, HONG Yu, LIU Hao, YAO Jianmin

(School of Computer Science amp; Technology, Soochow University, Suzhou, Jiangsu 215006, China)

The research on domain adaptation (DA) for statistical machine translation (SMT) aims at dynamically adjusting the translation model to ensure balanced and reliable translation quality in different domains. Existing researches on adaptation of translation model have made remarkable progress, but neglect the reordering issue. This paper investigates the translation samples in a large scale source bilingual corpus, revealing that 36.17% samples exhibits clear word order differences in phrase level translation pairs. Therefore, we propose a domain adaptive reordering model based on fusing topic information, to explore the reordering differences of phrases under different topic distribution. Experimental results show that translation systems with adaptive reordering model yield obvious performance improvements.

statistical machine translation; domain adaptation; reordering model; topic model

1003-0077(2017)05-0050-09

TP391

A

2016-08-16定稿日期2017-04-26

國家自然科學基金(61373097,61672368,61672367, 61331011);江蘇省科技計劃(SBK2015022101);教育部—中國移動科研基金(MCM20150602)

猜你喜歡
特征方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 三级欧美在线| 免费国产一级 片内射老| 四虎亚洲精品| 国产精品一区二区无码免费看片| 啪啪啪亚洲无码| 日韩 欧美 小说 综合网 另类| 国产成人精品一区二区三区| 免费国产黄线在线观看| 精品国产免费人成在线观看| 91免费观看视频| 在线观看91香蕉国产免费| 四虎国产成人免费观看| 国产视频一二三区| 国产精品伦视频观看免费| 日韩无码视频专区| 国产成人亚洲毛片| 无码有码中文字幕| 亚洲丝袜第一页| 香蕉视频在线观看www| 国产一级一级毛片永久| 亚洲人成在线精品| 欧美特级AAAAAA视频免费观看| 亚洲人成在线精品| 99精品国产电影| 视频国产精品丝袜第一页| 国产免费a级片| 超清无码熟妇人妻AV在线绿巨人| 麻豆精品国产自产在线| 中国特黄美女一级视频| 天天婬欲婬香婬色婬视频播放| 91欧美在线| 国产激情无码一区二区APP| 国产内射一区亚洲| 成人国产精品网站在线看| 日本一区高清| 精品国产免费第一区二区三区日韩| 亚洲最黄视频| 久热中文字幕在线观看| 久久福利片| 无码电影在线观看| 99成人在线观看| 欧美视频在线播放观看免费福利资源| 日本黄网在线观看| 国产亚洲精品在天天在线麻豆 | 久久亚洲日本不卡一区二区| 亚洲熟女偷拍| 91小视频版在线观看www| 亚洲精品动漫在线观看| 激情无码字幕综合| 婷婷开心中文字幕| 免费国产高清精品一区在线| 国产成人免费视频精品一区二区| 国产高清精品在线91| 国产成人a毛片在线| 中文成人在线视频| 亚洲精品午夜无码电影网| 国产欧美精品一区二区| 漂亮人妻被中出中文字幕久久 | 欧美日韩国产一级| AV老司机AV天堂| 欧美乱妇高清无乱码免费| 国产菊爆视频在线观看| 成人亚洲视频| 久久五月天综合| 国产真实乱了在线播放| 国产无码制服丝袜| 国产乱子伦视频三区| 内射人妻无码色AV天堂| 亚洲国产欧美国产综合久久 | 国产在线观看91精品| 国产永久免费视频m3u8| 日本三级欧美三级| 九九热这里只有国产精品| 天天综合网色中文字幕| 欧美在线黄| 久久精品国产亚洲麻豆| 少妇精品在线| 亚洲色图综合在线| 日本免费高清一区| av一区二区无码在线| 广东一级毛片| 国产99视频在线|