999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

統(tǒng)計機器翻譯中翻譯模型的約簡概述

2011-01-01 00:00:00郎君
智能計算機與應(yīng)用 2011年3期

摘要: 統(tǒng)計機器翻譯從誕生至今獲得了長足的發(fā)展,目前已經(jīng)成為機器翻譯的主流。但是作為基礎(chǔ)模塊之一的翻譯模型卻隨訓(xùn)練語料的增大而呈現(xiàn)飛速增大的趨勢。為了使統(tǒng)計機器翻譯更加實用,翻譯模型的約簡一直是研究熱點之一。概述了統(tǒng)計機器翻譯中翻譯模型約簡的研究現(xiàn)狀,相關(guān)方法主要圍繞解碼過程統(tǒng)計分析、訓(xùn)練語料中的統(tǒng)計分析、翻譯模型中的短語對自身特點分析等三個類別。結(jié)合相關(guān)分析,最后也探討了這個方向的未來發(fā)展趨勢。

關(guān)鍵詞:

中圖分類號: TP391.2 文獻(xiàn)標(biāo)識碼:A 文章編號:2095-2163(2011)01-0013-04

0概述

機器翻譯(Machine Translation)是自然語言處理(N-atural Language Processing)的重要分支之一,其目的是借助計算機將文字或者語音從一種自然語言翻譯成另外一種自然語言,例如將中文翻譯成英文。早期的機器翻譯借助基于語法規(guī)則的轉(zhuǎn)換語法,在翻譯詞典的基礎(chǔ)上實現(xiàn)源語言到目標(biāo)語言的翻譯。這種方法可以在特定領(lǐng)域取得很好的效果,例如天氣預(yù)報。因為這些領(lǐng)域的翻譯比較規(guī)律,容易總結(jié)出相關(guān)的翻譯模式。然而針對較為復(fù)雜的領(lǐng)域,例如新聞或者旅游等,總結(jié)出的翻譯模式就很難保證覆蓋度和準(zhǔn)確度了。

從上世紀(jì)末開始,隨著計算機計算能力和存儲能力的不斷提升,機器翻譯方法中統(tǒng)計方法開始異軍突起。目前非限定領(lǐng)域機器翻譯中,統(tǒng)計方法是性能較佳的一種方法。統(tǒng)計機器翻譯的基本思想是通過對大量的平行語料進(jìn)行統(tǒng)計分析,構(gòu)建統(tǒng)計翻譯模型,進(jìn)而使用此模型結(jié)合語言模型來進(jìn)行翻譯(機器翻譯中將翻譯過程可以看成解碼過程)。從發(fā)展階段來看,統(tǒng)計機器翻譯最早以基于詞的方法為主,現(xiàn)在已經(jīng)完全過渡到基于短語的翻譯方法。統(tǒng)計機器翻譯的研究方面,目前開始出現(xiàn)大量的融合句法信息的方法,以實現(xiàn)進(jìn)一步提高翻譯的精確性。但相對于基于短語的方法,基于句法的方法產(chǎn)生的翻譯模型會龐大很多,相應(yīng)的翻譯速度也會慢很多。目前實用的統(tǒng)計機器翻譯系統(tǒng)都主要集中在基于短語的方法上,現(xiàn)在的一些商用機器翻譯系統(tǒng)也是基于短語的方法,例如Google的翻譯系統(tǒng)。

統(tǒng)計機器翻譯的首要任務(wù)是為語言的產(chǎn)生構(gòu)造某種合理的統(tǒng)計模型,并在此統(tǒng)計模型基礎(chǔ)上,定義要估計的模型參數(shù),并設(shè)計參數(shù)估計算法。早期的基于詞的統(tǒng)計機器翻譯采用的是噪聲信道模型,并運用最大似然準(zhǔn)則進(jìn)行無監(jiān)督訓(xùn)練,而近年來常用的基于短語的統(tǒng)計機器翻譯則采用區(qū)分性訓(xùn)練方法,一般來說需要參考語料進(jìn)行有監(jiān)督訓(xùn)練。

統(tǒng)計機器翻譯系統(tǒng)的翻譯效果與用于訓(xùn)練翻譯模型的雙語平行語料的規(guī)模有關(guān)。普遍的共識是平行語料的規(guī)模越大,翻譯的結(jié)果就會越準(zhǔn)確。事實上,Google的翻譯系統(tǒng)就是基于超大規(guī)模的雙語平行語料訓(xùn)練出來的。但是,語料增大隨之而來的問題就是得到的翻譯模型的規(guī)模也會越大。在同樣計算能力的條件下,翻譯模型越大,翻譯速度就會越慢。為了解決這個問題,很多科研人員開始考慮如何約簡翻譯模型的規(guī)模,例如從手機等移動設(shè)備的角度來盡可能約簡。

以Moses為代表的基于短語的統(tǒng)計機器翻譯系統(tǒng)在雙語平行語料上訓(xùn)練得到的翻譯模型的格式如下:

Source Phrase ||| Target Phrase ||| Related Features

其中Source Phrase是源語言短語,Target Phrase是目標(biāo)語言短語,Related Features是用于實際句子翻譯過程中的短語對的相關(guān)特征。如下所示為實際的一個翻譯模型所對應(yīng)的一條短語對(Bi-phrase):

很 多 議員 ||| many councillors ||| 0.04 2.15638e-08 1 0.000542039 2.718

本文所述的統(tǒng)計機器翻譯模型的約簡就是對這些翻譯的短語對進(jìn)行相應(yīng)的度量,并最終進(jìn)行適當(dāng)?shù)奶蕹:罄m(xù)部分還介紹了經(jīng)典的統(tǒng)計機器翻譯的處理流程以及模型約簡的三個類別的方法。

1經(jīng)典的統(tǒng)計機器翻譯處理流程

統(tǒng)計機器翻譯發(fā)展至今,相關(guān)軟件的開源開發(fā)在其中發(fā)揮了重要的促進(jìn)作用。下面以Moses為例,簡述經(jīng)典的統(tǒng)計機器翻譯的學(xué)習(xí)和翻譯的基本流程。

統(tǒng)計機器翻譯一般都從雙語平行語料開始進(jìn)行處理。先在句子對齊的語料庫上調(diào)用Giza++詞對齊程序進(jìn)行迭代處理,在得到的詞對齊結(jié)果上按照一些啟發(fā)式規(guī)則抽取得到相應(yīng)的短語對齊結(jié)果,例如上面提到的“Source Phrase ||| Target Phrase”。隨后對這些抽取得到的短語對按照相應(yīng)的統(tǒng)計方法得到與相關(guān)的短語對所對應(yīng)的特征值,例如前面的“Related Features”及相關(guān)的那些數(shù)值。至此就得到了統(tǒng)計機器翻譯的翻譯模型。也就是說,大量的短語對及相關(guān)特征構(gòu)成了翻譯模型。

接下來,實際的機器翻譯解碼器會在這個翻譯模型以及另外訓(xùn)練得到的語言模型的基礎(chǔ)上,通過一些調(diào)試數(shù)據(jù)對一些特征相關(guān)的參數(shù)進(jìn)行調(diào)優(yōu)。得到最優(yōu)參數(shù)后,就可以在解碼器的基礎(chǔ)上對任意輸入的源語言句子進(jìn)行翻譯。實際評測機器翻譯性能的方法是將一些有多個參考答案的句子經(jīng)翻譯后,把翻譯結(jié)果和多個標(biāo)準(zhǔn)答案比對,得到最終的得分。最常用的得分標(biāo)準(zhǔn)叫做BLEU值。BLEU值越高的系統(tǒng)被認(rèn)為翻譯質(zhì)量最好。

例如,在一個100萬句對平行語料上經(jīng)過詞對齊、短語抽取處理得到的短語表的大小為68 968 597;在一個20萬句對平行語料上得到的短語表大小為26 787 367。

2翻譯模型約簡方法的三種類型

統(tǒng)計機器翻譯研究的經(jīng)驗表明,用于訓(xùn)練翻譯模型的雙語平行語料規(guī)模越大,最終機器翻譯結(jié)果的質(zhì)量就會越好。但是隨著語料的增多,翻譯模型的大小也會變得非常巨大。為了縮小翻譯模型的大小,很多研究人員嘗試了各種方法來對翻譯模型中的短語對進(jìn)行評估并刪除質(zhì)量較差的短語對。這其中,多數(shù)方法在翻譯模型減小的同時,會降低最終解碼器的翻譯質(zhì)量,即BLEU值;但也有一些方法能在翻譯模型減小很多的情況下,最終的BLEU值卻沒有一點顯著的損耗,甚至有方法能夠使得BLEU值得到提高。最理想的模型約簡方法就是在翻譯模型大幅度減小的同時,最終的BLEU值也得到一定的提高。這種現(xiàn)狀說明,翻譯模型中有不少短語對對于最終的機器翻譯起到了反作用。

下面分四種類型來介紹這些翻譯模型的約簡方法。

2.1根據(jù)解碼器解碼過程中短語對的出現(xiàn)情況進(jìn)行約簡

實際的解碼器在進(jìn)行句子翻譯時會窮舉輸入句子可能的各種切分結(jié)果,根據(jù)這些切分結(jié)果形成的Source Phrase在翻譯模型中查詢得到所有對應(yīng)的Target Phrase,這些Target Phrase又會在不斷深入的搜索中進(jìn)行相應(yīng)的排序,最終會被選中出現(xiàn)在翻譯結(jié)果中的Target Phrase所對應(yīng)的短語對被認(rèn)為是重要的。實際上一個源語言句子的翻譯結(jié)果會有很多個,通常解碼器會根據(jù)需求輸出最靠前的翻譯結(jié)果,這些翻譯結(jié)果被認(rèn)為是系統(tǒng)輸出的最終結(jié)果。

Eck等[1]將一個在調(diào)試集上調(diào)好參數(shù)的解碼器用來翻譯一組大量的源語言句子,針對每個翻譯模型中的短語對統(tǒng)計如下兩個數(shù)值:

(1)c(phrase pair)=短語對在語料翻譯過程中被考慮(出現(xiàn)在翻譯候選中)的次數(shù);

(2)u(phrase pair)=短語對出現(xiàn)在最終翻譯結(jié)果(被選中)中的次數(shù)。

對于每個短語對,最終的得分為:

score(phrase pair)=[log(c(phrase pair)+1)]?觹

[u(phrase pair)+1] (1)

最后將每個短語對,根據(jù)score從高到低進(jìn)行排序,對于排序結(jié)果取出前N個短語對作為翻譯模型約簡的結(jié)果。

Eck等[2]在上述工作的基礎(chǔ)上進(jìn)一步考慮到了短語對在翻譯結(jié)果的N-best中的情況。如圖1所示,針對某個源語言句子的翻譯結(jié)果的N-best中,i-best包含ki個短語對。解碼器會根據(jù)這個N-best順序選擇最優(yōu)的翻譯結(jié)果1-best。但是根據(jù)源語言句子的多個參考翻譯結(jié)果,采用某種評價方法(metric),例如BLEU,實際上最好的結(jié)果是i-best。

Eck等[2]的工作是根據(jù)i-best相對于1-best的距離關(guān)系來對各個i-best中的短語對打分,兩種打分公式如式(2),式(3)所示,然后根據(jù)這個打分進(jìn)行短語對排序并選擇排序靠前的結(jié)果作為約簡結(jié)果。

Eck等的這兩種方法都能夠進(jìn)行有效的約簡,但是得到的約簡翻譯模型對應(yīng)的翻譯質(zhì)量都有所降低,文獻(xiàn)[2]的約簡結(jié)果的翻譯質(zhì)量優(yōu)于文獻(xiàn)[1]。

2.2根據(jù)雙語平行語料中短語對的出現(xiàn)情況進(jìn)行約簡

翻譯對來自于雙語平行語料,但翻譯對的抽取卻采用了一些啟發(fā)式的方法。這些方法并沒有考慮翻譯對在雙語平行語料中整體出現(xiàn)的情況。為此,針對翻譯對在雙語平行語料中的出現(xiàn)情況,研究人員分別提出了p-value, noise-value, C-value等方法。

首先,定義翻譯對的源語言短語Source Phrase為s,目標(biāo)語言短語Target Phrase為t;C(s,t)為平行語料中源語言句子至少包含s的一次出現(xiàn),同時目標(biāo)語言句子至少包含t的一次出現(xiàn)的雙語句對的句子個數(shù);C(s)為平行語料中源語言部分至少包含s的一次出現(xiàn)的句子的個數(shù);C(t)為平行語料中源語言部分至少包含t的一次出現(xiàn)的句子的個數(shù);假設(shè)平行語料包含N個雙語句對。根據(jù)這些統(tǒng)計量,得到s和t的聯(lián)立表如表1所示。

根據(jù)表1中的數(shù)據(jù),Fisher精確檢驗采用如式(4),式(5)的超幾何分布函數(shù)phg來計算精確的p-value統(tǒng)計量。

Johnson等[3]采用的就是式(5)的p-value來對翻譯模型中所有的短語對進(jìn)行打分,隨后按從高到低的順序來擇優(yōu)選取短語對作為約簡的結(jié)果。事實上,這種方法在將短語表約簡到原始大小的大約10%時,還能使得最終的翻譯質(zhì)量得到提升。這是一種目前為止最好的翻譯模型約簡方法。

隨后,Tomeh等[4]在上述p-value方法的基礎(chǔ)上,根據(jù)Moore[5]指出的p-value方法的缺點以及noise-value方法的優(yōu)點,采用noise-value來進(jìn)行翻譯模型的約簡。Moore[5]指出,針對出現(xiàn)頻率較低的一些事件,p-value數(shù)值較高并不一定意味著s和t之間具有獨立性。Tomeh等[4]采用的noise-value的定義如下:

事實上,Tomeh et al.[4]的實驗結(jié)果顯示,雖然noise-value也能在將翻譯模型約簡到28%左右還能保證翻譯質(zhì)量不降低,但是Johnson et al.[3]的方法明顯還是要好一些。

上面兩種方法都是在統(tǒng)計短語對的源語言短語和目標(biāo)短語分別在平行語料中的出現(xiàn)情況。He等[6]借用術(shù)語抽取領(lǐng)域的C-value來衡量短語對的質(zhì)量。一個短語對p的C-value主要考察四個因素:(L, F, S, N),其中:

(1)L(p)是短語對中源語言短語的長度;

(2)F(p)是源語言短語在語料中的出現(xiàn)頻率;

(3)S(p)是源語言短語在語料中作為子串出現(xiàn)在其他更長短語中的頻率;

(4)N(p)是語料中包含源語言短語的短語的個數(shù)。

具體的計算算法是:

C-value在術(shù)語抽取領(lǐng)域被廣泛使用,He等[6]指出這種方法在翻譯模型約簡到22%時還能保證翻譯質(zhì)量的BLEU值不降低,并且將這個數(shù)值作為解碼器的附加特征進(jìn)行參數(shù)調(diào)優(yōu)后在22%的約簡前提下,BLEU值還能有一定的提高。

2.3根據(jù)短語對的內(nèi)部詞對齊情況來進(jìn)行約簡

上面的兩類方法都是在考察短語對在平行語料中的情況,這里的第三類方法重點考察短語對內(nèi)部的對齊情況。因為短語對是在平行語料詞對齊結(jié)果的基礎(chǔ)上抽取得到的。

Sánchez-Mart?覦nez等[7]考慮了短語對中的詞類情況。文中將詞語分成開放詞類(Open Words)和封閉詞類(Closed Words)。根據(jù)兩條原則來剔除短語對:

(1)如果短語對的源語言短語或者目標(biāo)語言短語包含開放詞類,但是至少有一個開放詞沒有在另一端對齊到開放詞類上;

(2)在上一條原則的基礎(chǔ)上,如果短語對的任何一端的第一個或者最后一個詞語對空。

注:對空現(xiàn)象是在進(jìn)行對齊短語抽取時可能產(chǎn)生的現(xiàn)象,例如“我們 一起 吃飯 ||| let's have dinner together but”中的but。

針對相關(guān)的語言,Sánchez-Mart?覦nez等[7]定義了封閉詞類包含哪些類別以及具體的詞語,沒有包含其中的詞語都是開放詞類。圖2分別定義了英語、法語、西班牙語的封閉詞類。

這種啟發(fā)式的方法得到的翻譯模型約簡會導(dǎo)致翻譯結(jié)果的BLEU值降低1-2個點。

基于此,He等[8]將短語對的內(nèi)部對齊情況分成兩大類:不能再分拆的最小對齊,和由最小對齊構(gòu)成的組合對齊。例如圖3左圖表示最小對齊,右圖表示組合對齊。

在組合對齊里,又分為單調(diào)組合(如圖4左圖)和非單調(diào)組合(如圖4右圖)。

He等[8]的方法是將翻譯對里單調(diào)組合的短語全部剔除,因為這種單調(diào)組合的短語在實際解碼過程中可能通過最小對齊的短語對順序地拼接而成。仿真實驗結(jié)果顯示,在翻譯模型被約簡為原始大小的30%左右時,相應(yīng)的BLEU值還能有一點提高。從約簡計算的代價來看,也是值得推廣的。

3結(jié)束語

統(tǒng)計機器翻譯的研究越來越熱,剛剛結(jié)束的自然語言處理頂級會議ACL2011中機器翻譯達(dá)到了史無前例的7個分會場[9]。隨著機器翻譯的深入研究,相信會產(chǎn)生更多的關(guān)于翻譯模型約簡的研究成果。在本文綜述的四類方法中,筆者認(rèn)為最好的方法是基于Fisher精確檢驗理論的Johnson等[3]的p-value的方法,因為在模型約簡到原始大小的10%左右規(guī)模的同時,還能得到測試語料上BLEU值的提高。當(dāng)然,這種Fisher精確檢驗的方法存在的一個問題是對翻譯模型完成一次約簡需要一定的時間,而這是因為Fisher精確檢驗方法的計算復(fù)雜度相對較高。如果為了進(jìn)行快速的翻譯模型約簡,可嘗試He等[8]的剔除單調(diào)組合對齊的短語對的方法。

筆者針對翻譯模型約簡進(jìn)行過一些嘗試。在統(tǒng)計學(xué)中,Fisher精確檢驗比傳統(tǒng)的卡方檢驗效果要好,但還存在一種理論上比Fisher檢驗更好的方法——Barnard檢驗[10]。Barnard檢驗是在[0,1]區(qū)間內(nèi)尋找一個最優(yōu)的度量值來作為檢驗的結(jié)果,雖然理論上更優(yōu),但是計算量驚人。如果Barnard檢驗的計算復(fù)雜度能夠降低的話,應(yīng)該是一種非常值得探索的方法。

參考文獻(xiàn):

[1] ECK M,VOGEL S,WAIBEL A. Translation model pruning via usage statistics for statistical machine translation[C]// Human La- nguage Technologies 2007: The Conference of the North Ameri- can Chapter of the Association for Computational Linguistics; C- ompanion Volume, Short Papers, New York Rochester:Associa- tion for Computational Linguistics,2007:21-24.

[2] ECK M,VOGEL S,WAIBEL A. Estimating phrase pair relevan- ce for translation model pruning[C]// Proceedings of the MT Su- mmit XI,2007.

[3] JOHNSON H,MARTIN J,FOSTER G,et al. Improving transla- tion quality by discarding most of the phrasetable[C]// Proceed- ings of the 2007 Joint Conference on Empirical Methods in Na- tural Language Processing and Computational Natural Language Learning (EMNLPCoNLL), Prague, Czech Republic: Association for Computational Linguistics,2007:967-975.

[4] TOMEH N,CANCEDDA N,DYMETMAN M. Complexity-basedphrastable filtering for statistical machine translation[C]// Proce- edings of the MT Summit XII,2009.

[5] MOORE R C. On log-likelihood-ratios and the significance of rare events[C]// Lin Dekang, Wu Dekai. Proceedings of EMNLP2004, Spain, Barcelona: Association for Computational Linguis- tics,2004:333-340.

[6] HE Zhongjun,MENG Yao,LV Yajuan,et al. Reducing smt rule table with monolingual key phrase[C]// Proceedings of the ACLI- JCNLP 2009 Conference Short Papers,Singapore,Suntec:Associ- ation for Computational Linguistics,2009:121-124.

[7] Sánchez-Martnez F,Way A. Marker-based filtering of bilingual phrase pairs for smt[C]// Proceedings of the 13th Annual Meeting of the European Association for Machine Translation (EAMT-09), Citeseer,2009:144-151.

[8] HE Zhongjun,MENG Yao,YU Hao. Discarding monotone comp- osed rule for hierarchical phrase-based statistical machine tran- slation[C]// Proceedings of the 3rd International Universal Comm- unication Symposium, ACM,2009:25-29.

[9] http://www.acl2011.org/program.utf8.shtml.

[10] http://en.wikipedia.org/wiki/barnard%27s_exact_test.

主站蜘蛛池模板: 久久久久国产精品免费免费不卡| 香蕉蕉亚亚洲aav综合| 色妺妺在线视频喷水| 日韩av无码精品专区| 日韩精品亚洲人旧成在线| 久久精品无码中文字幕| 伊人网址在线| 五月天丁香婷婷综合久久| 午夜国产精品视频| 欧美色伊人| 中文字幕天无码久久精品视频免费| 婷婷亚洲视频| 国产欧美精品一区二区| 久久亚洲中文字幕精品一区| 日韩高清中文字幕| 99热国产在线精品99| 国产一级毛片yw| 国产在线精彩视频二区| 欧美亚洲一区二区三区在线| 亚洲成人免费在线| 国产精品香蕉在线观看不卡| 丝袜无码一区二区三区| 日本道综合一本久久久88| 亚洲国产亚洲综合在线尤物| 91网址在线播放| 国模沟沟一区二区三区| 国产chinese男男gay视频网| 国产肉感大码AV无码| 69国产精品视频免费| 伊人久久综在合线亚洲91| 思思热精品在线8| 91福利免费视频| 国产天天色| 88av在线| 在线观看无码av免费不卡网站 | 国产99免费视频| 色婷婷亚洲综合五月| 久久公开视频| 色婷婷亚洲综合五月| 国产在线91在线电影| 亚洲精品午夜无码电影网| 亚洲aⅴ天堂| 久爱午夜精品免费视频| 日韩高清中文字幕| 亚洲国产精品不卡在线| 欧美日韩理论| 欧美a在线| 第一区免费在线观看| 依依成人精品无v国产| 精品国产污污免费网站| 性69交片免费看| 最新国产高清在线| 国产麻豆另类AV| 亚洲无码91视频| 美女被操黄色视频网站| 日本人妻丰满熟妇区| 国产成人乱无码视频| 国产97视频在线| 国产美女丝袜高潮| 黄色网站不卡无码| 999精品色在线观看| 欧美自慰一级看片免费| 有专无码视频| 日韩经典精品无码一区二区| 亚洲熟女偷拍| 在线观看免费人成视频色快速| av大片在线无码免费| 有专无码视频| 亚洲精品无码抽插日韩| 高h视频在线| 在线国产91| 欧美精品伊人久久| 日韩在线视频网站| 久久人搡人人玩人妻精品| 欧美人在线一区二区三区| 成人在线亚洲| 久久精品国产国语对白| 亚洲床戏一区| 久久久久免费精品国产| 国产激情第一页| 国产精品久久久久婷婷五月| 国产高清无码第一十页在线观看|