統(tǒng)計機器翻譯中翻譯模型的約簡概述

2011-01-01 00:00:00郎君

智能計算機與應(yīng)用 2011年3期

摘要：統(tǒng)計機器翻譯從誕生至今獲得了長足的發(fā)展，目前已經(jīng)成為機器翻譯的主流。但是作為基礎(chǔ)模塊之一的翻譯模型卻隨訓(xùn)練語料的增大而呈現(xiàn)飛速增大的趨勢。為了使統(tǒng)計機器翻譯更加實用，翻譯模型的約簡一直是研究熱點之一。概述了統(tǒng)計機器翻譯中翻譯模型約簡的研究現(xiàn)狀，相關(guān)方法主要圍繞解碼過程統(tǒng)計分析、訓(xùn)練語料中的統(tǒng)計分析、翻譯模型中的短語對自身特點分析等三個類別。結(jié)合相關(guān)分析，最后也探討了這個方向的未來發(fā)展趨勢。

關(guān)鍵詞：

中圖分類號：ＴＰ３９１．２文獻(xiàn)標(biāo)識碼：Ａ文章編號：２０９５－２１６３（２０１１）０１－００１３－０４

０概述

機器翻譯（ＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ）是自然語言處理（Ｎ－ａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ）的重要分支之一，其目的是借助計算機將文字或者語音從一種自然語言翻譯成另外一種自然語言，例如將中文翻譯成英文。早期的機器翻譯借助基于語法規(guī)則的轉(zhuǎn)換語法，在翻譯詞典的基礎(chǔ)上實現(xiàn)源語言到目標(biāo)語言的翻譯。這種方法可以在特定領(lǐng)域取得很好的效果，例如天氣預(yù)報。因為這些領(lǐng)域的翻譯比較規(guī)律，容易總結(jié)出相關(guān)的翻譯模式。然而針對較為復(fù)雜的領(lǐng)域，例如新聞或者旅游等，總結(jié)出的翻譯模式就很難保證覆蓋度和準(zhǔn)確度了。

從上世紀(jì)末開始，隨著計算機計算能力和存儲能力的不斷提升，機器翻譯方法中統(tǒng)計方法開始異軍突起。目前非限定領(lǐng)域機器翻譯中，統(tǒng)計方法是性能較佳的一種方法。統(tǒng)計機器翻譯的基本思想是通過對大量的平行語料進(jìn)行統(tǒng)計分析，構(gòu)建統(tǒng)計翻譯模型，進(jìn)而使用此模型結(jié)合語言模型來進(jìn)行翻譯（機器翻譯中將翻譯過程可以看成解碼過程）。從發(fā)展階段來看，統(tǒng)計機器翻譯最早以基于詞的方法為主，現(xiàn)在已經(jīng)完全過渡到基于短語的翻譯方法。統(tǒng)計機器翻譯的研究方面，目前開始出現(xiàn)大量的融合句法信息的方法，以實現(xiàn)進(jìn)一步提高翻譯的精確性。但相對于基于短語的方法，基于句法的方法產(chǎn)生的翻譯模型會龐大很多，相應(yīng)的翻譯速度也會慢很多。目前實用的統(tǒng)計機器翻譯系統(tǒng)都主要集中在基于短語的方法上，現(xiàn)在的一些商用機器翻譯系統(tǒng)也是基于短語的方法，例如Ｇｏｏｇｌｅ的翻譯系統(tǒng)。

統(tǒng)計機器翻譯的首要任務(wù)是為語言的產(chǎn)生構(gòu)造某種合理的統(tǒng)計模型，并在此統(tǒng)計模型基礎(chǔ)上，定義要估計的模型參數(shù)，并設(shè)計參數(shù)估計算法。早期的基于詞的統(tǒng)計機器翻譯采用的是噪聲信道模型，并運用最大似然準(zhǔn)則進(jìn)行無監(jiān)督訓(xùn)練，而近年來常用的基于短語的統(tǒng)計機器翻譯則采用區(qū)分性訓(xùn)練方法，一般來說需要參考語料進(jìn)行有監(jiān)督訓(xùn)練。

統(tǒng)計機器翻譯系統(tǒng)的翻譯效果與用于訓(xùn)練翻譯模型的雙語平行語料的規(guī)模有關(guān)。普遍的共識是平行語料的規(guī)模越大，翻譯的結(jié)果就會越準(zhǔn)確。事實上，Ｇｏｏｇｌｅ的翻譯系統(tǒng)就是基于超大規(guī)模的雙語平行語料訓(xùn)練出來的。但是，語料增大隨之而來的問題就是得到的翻譯模型的規(guī)模也會越大。在同樣計算能力的條件下，翻譯模型越大，翻譯速度就會越慢。為了解決這個問題，很多科研人員開始考慮如何約簡翻譯模型的規(guī)模，例如從手機等移動設(shè)備的角度來盡可能約簡。

以Ｍｏｓｅｓ為代表的基于短語的統(tǒng)計機器翻譯系統(tǒng)在雙語平行語料上訓(xùn)練得到的翻譯模型的格式如下：

ＳｏｕｒｃｅＰｈｒａｓｅ｜｜｜ＴａｒｇｅｔＰｈｒａｓｅ｜｜｜ＲｅｌａｔｅｄＦｅａｔｕｒｅｓ

其中ＳｏｕｒｃｅＰｈｒａｓｅ是源語言短語，ＴａｒｇｅｔＰｈｒａｓｅ是目標(biāo)語言短語，ＲｅｌａｔｅｄＦｅａｔｕｒｅｓ是用于實際句子翻譯過程中的短語對的相關(guān)特征。如下所示為實際的一個翻譯模型所對應(yīng)的一條短語對（Ｂｉ－ｐｈｒａｓｅ）：

很多議員｜｜｜ｍａｎｙｃｏｕｎｃｉｌｌｏｒｓ｜｜｜０．０４２．１５６３８ｅ－０８１０．０００５４２０３９２．７１８

本文所述的統(tǒng)計機器翻譯模型的約簡就是對這些翻譯的短語對進(jìn)行相應(yīng)的度量，并最終進(jìn)行適當(dāng)?shù)奶蕹：罄m(xù)部分還介紹了經(jīng)典的統(tǒng)計機器翻譯的處理流程以及模型約簡的三個類別的方法。

１經(jīng)典的統(tǒng)計機器翻譯處理流程

統(tǒng)計機器翻譯發(fā)展至今，相關(guān)軟件的開源開發(fā)在其中發(fā)揮了重要的促進(jìn)作用。下面以Ｍｏｓｅｓ為例，簡述經(jīng)典的統(tǒng)計機器翻譯的學(xué)習(xí)和翻譯的基本流程。

統(tǒng)計機器翻譯一般都從雙語平行語料開始進(jìn)行處理。先在句子對齊的語料庫上調(diào)用Ｇｉｚａ＋＋詞對齊程序進(jìn)行迭代處理，在得到的詞對齊結(jié)果上按照一些啟發(fā)式規(guī)則抽取得到相應(yīng)的短語對齊結(jié)果，例如上面提到的“ＳｏｕｒｃｅＰｈｒａｓｅ｜｜｜ＴａｒｇｅｔＰｈｒａｓｅ”。隨后對這些抽取得到的短語對按照相應(yīng)的統(tǒng)計方法得到與相關(guān)的短語對所對應(yīng)的特征值，例如前面的“ＲｅｌａｔｅｄＦｅａｔｕｒｅｓ”及相關(guān)的那些數(shù)值。至此就得到了統(tǒng)計機器翻譯的翻譯模型。也就是說，大量的短語對及相關(guān)特征構(gòu)成了翻譯模型。

接下來，實際的機器翻譯解碼器會在這個翻譯模型以及另外訓(xùn)練得到的語言模型的基礎(chǔ)上，通過一些調(diào)試數(shù)據(jù)對一些特征相關(guān)的參數(shù)進(jìn)行調(diào)優(yōu)。得到最優(yōu)參數(shù)后，就可以在解碼器的基礎(chǔ)上對任意輸入的源語言句子進(jìn)行翻譯。實際評測機器翻譯性能的方法是將一些有多個參考答案的句子經(jīng)翻譯后，把翻譯結(jié)果和多個標(biāo)準(zhǔn)答案比對，得到最終的得分。最常用的得分標(biāo)準(zhǔn)叫做ＢＬＥＵ值。ＢＬＥＵ值越高的系統(tǒng)被認(rèn)為翻譯質(zhì)量最好。

例如，在一個１００萬句對平行語料上經(jīng)過詞對齊、短語抽取處理得到的短語表的大小為６８９６８５９７；在一個２０萬句對平行語料上得到的短語表大小為２６７８７３６７。

２翻譯模型約簡方法的三種類型

統(tǒng)計機器翻譯研究的經(jīng)驗表明，用于訓(xùn)練翻譯模型的雙語平行語料規(guī)模越大，最終機器翻譯結(jié)果的質(zhì)量就會越好。但是隨著語料的增多，翻譯模型的大小也會變得非常巨大。為了縮小翻譯模型的大小，很多研究人員嘗試了各種方法來對翻譯模型中的短語對進(jìn)行評估并刪除質(zhì)量較差的短語對。這其中，多數(shù)方法在翻譯模型減小的同時，會降低最終解碼器的翻譯質(zhì)量，即ＢＬＥＵ值；但也有一些方法能在翻譯模型減小很多的情況下，最終的ＢＬＥＵ值卻沒有一點顯著的損耗，甚至有方法能夠使得ＢＬＥＵ值得到提高。最理想的模型約簡方法就是在翻譯模型大幅度減小的同時，最終的ＢＬＥＵ值也得到一定的提高。這種現(xiàn)狀說明，翻譯模型中有不少短語對對于最終的機器翻譯起到了反作用。

下面分四種類型來介紹這些翻譯模型的約簡方法。

２．１根據(jù)解碼器解碼過程中短語對的出現(xiàn)情況進(jìn)行約簡

實際的解碼器在進(jìn)行句子翻譯時會窮舉輸入句子可能的各種切分結(jié)果，根據(jù)這些切分結(jié)果形成的ＳｏｕｒｃｅＰｈｒａｓｅ在翻譯模型中查詢得到所有對應(yīng)的ＴａｒｇｅｔＰｈｒａｓｅ，這些ＴａｒｇｅｔＰｈｒａｓｅ又會在不斷深入的搜索中進(jìn)行相應(yīng)的排序，最終會被選中出現(xiàn)在翻譯結(jié)果中的ＴａｒｇｅｔＰｈｒａｓｅ所對應(yīng)的短語對被認(rèn)為是重要的。實際上一個源語言句子的翻譯結(jié)果會有很多個，通常解碼器會根據(jù)需求輸出最靠前的翻譯結(jié)果，這些翻譯結(jié)果被認(rèn)為是系統(tǒng)輸出的最終結(jié)果。

Ｅｃｋ等[１]將一個在調(diào)試集上調(diào)好參數(shù)的解碼器用來翻譯一組大量的源語言句子，針對每個翻譯模型中的短語對統(tǒng)計如下兩個數(shù)值：

（１）ｃ（ｐｈｒａｓｅｐａｉｒ）＝短語對在語料翻譯過程中被考慮（出現(xiàn)在翻譯候選中）的次數(shù)；

（２）ｕ（ｐｈｒａｓｅｐａｉｒ）＝短語對出現(xiàn)在最終翻譯結(jié)果（被選中）中的次數(shù)。

對于每個短語對，最終的得分為：

ｓｃｏｒｅ（ｐｈｒａｓｅｐａｉｒ）＝[ｌｏｇ（ｃ（ｐｈｒａｓｅｐａｉｒ）＋１）]?觹

[ｕ（ｐｈｒａｓｅｐａｉｒ）＋１] （１）

最后將每個短語對，根據(jù)ｓｃｏｒｅ從高到低進(jìn)行排序，對于排序結(jié)果取出前Ｎ個短語對作為翻譯模型約簡的結(jié)果。

Ｅｃｋ等[２]在上述工作的基礎(chǔ)上進(jìn)一步考慮到了短語對在翻譯結(jié)果的Ｎ－ｂｅｓｔ中的情況。如圖１所示，針對某個源語言句子的翻譯結(jié)果的Ｎ－ｂｅｓｔ中，ｉ－ｂｅｓｔ包含ｋｉ個短語對。解碼器會根據(jù)這個Ｎ－ｂｅｓｔ順序選擇最優(yōu)的翻譯結(jié)果１－ｂｅｓｔ。但是根據(jù)源語言句子的多個參考翻譯結(jié)果，采用某種評價方法（ｍｅｔｒｉｃ），例如ＢＬＥＵ，實際上最好的結(jié)果是ｉ－ｂｅｓｔ。

Ｅｃｋ等[２]的工作是根據(jù)ｉ－ｂｅｓｔ相對于１－ｂｅｓｔ的距離關(guān)系來對各個ｉ－ｂｅｓｔ中的短語對打分，兩種打分公式如式（２），式（３）所示，然后根據(jù)這個打分進(jìn)行短語對排序并選擇排序靠前的結(jié)果作為約簡結(jié)果。

Ｅｃｋ等的這兩種方法都能夠進(jìn)行有效的約簡，但是得到的約簡翻譯模型對應(yīng)的翻譯質(zhì)量都有所降低，文獻(xiàn)[２]的約簡結(jié)果的翻譯質(zhì)量優(yōu)于文獻(xiàn)[１]。

２．２根據(jù)雙語平行語料中短語對的出現(xiàn)情況進(jìn)行約簡

翻譯對來自于雙語平行語料，但翻譯對的抽取卻采用了一些啟發(fā)式的方法。這些方法并沒有考慮翻譯對在雙語平行語料中整體出現(xiàn)的情況。為此，針對翻譯對在雙語平行語料中的出現(xiàn)情況，研究人員分別提出了ｐ－ｖａｌｕｅ，ｎｏｉｓｅ－ｖａｌｕｅ，Ｃ－ｖａｌｕｅ等方法。

首先，定義翻譯對的源語言短語ＳｏｕｒｃｅＰｈｒａｓｅ為ｓ，目標(biāo)語言短語ＴａｒｇｅｔＰｈｒａｓｅ為ｔ；Ｃ（ｓ，ｔ）為平行語料中源語言句子至少包含ｓ的一次出現(xiàn)，同時目標(biāo)語言句子至少包含ｔ的一次出現(xiàn)的雙語句對的句子個數(shù)；Ｃ（ｓ）為平行語料中源語言部分至少包含ｓ的一次出現(xiàn)的句子的個數(shù)；Ｃ（ｔ）為平行語料中源語言部分至少包含ｔ的一次出現(xiàn)的句子的個數(shù)；假設(shè)平行語料包含Ｎ個雙語句對。根據(jù)這些統(tǒng)計量，得到ｓ和ｔ的聯(lián)立表如表１所示。

根據(jù)表１中的數(shù)據(jù)，Ｆｉｓｈｅｒ精確檢驗采用如式（４），式（５）的超幾何分布函數(shù)ｐｈｇ來計算精確的ｐ－ｖａｌｕｅ統(tǒng)計量。

Ｊｏｈｎｓｏｎ等[３]采用的就是式（５）的ｐ－ｖａｌｕｅ來對翻譯模型中所有的短語對進(jìn)行打分，隨后按從高到低的順序來擇優(yōu)選取短語對作為約簡的結(jié)果。事實上，這種方法在將短語表約簡到原始大小的大約１０％時，還能使得最終的翻譯質(zhì)量得到提升。這是一種目前為止最好的翻譯模型約簡方法。

隨后，Ｔｏｍｅｈ等[４]在上述ｐ－ｖａｌｕｅ方法的基礎(chǔ)上，根據(jù)Ｍｏｏｒｅ[５]指出的ｐ－ｖａｌｕｅ方法的缺點以及ｎｏｉｓｅ－ｖａｌｕｅ方法的優(yōu)點，采用ｎｏｉｓｅ－ｖａｌｕｅ來進(jìn)行翻譯模型的約簡。Ｍｏｏｒｅ[５]指出，針對出現(xiàn)頻率較低的一些事件，ｐ－ｖａｌｕｅ數(shù)值較高并不一定意味著ｓ和ｔ之間具有獨立性。Ｔｏｍｅｈ等[４]采用的ｎｏｉｓｅ－ｖａｌｕｅ的定義如下：

事實上，Ｔｏｍｅｈｅｔａｌ．[４]的實驗結(jié)果顯示，雖然ｎｏｉｓｅ－ｖａｌｕｅ也能在將翻譯模型約簡到２８％左右還能保證翻譯質(zhì)量不降低，但是Ｊｏｈｎｓｏｎｅｔａｌ．[３]的方法明顯還是要好一些。

上面兩種方法都是在統(tǒng)計短語對的源語言短語和目標(biāo)短語分別在平行語料中的出現(xiàn)情況。Ｈｅ等[６]借用術(shù)語抽取領(lǐng)域的Ｃ－ｖａｌｕｅ來衡量短語對的質(zhì)量。一個短語對ｐ的Ｃ－ｖａｌｕｅ主要考察四個因素：（Ｌ，Ｆ，Ｓ，Ｎ），其中：

（１）Ｌ（ｐ）是短語對中源語言短語的長度；

（２）Ｆ（ｐ）是源語言短語在語料中的出現(xiàn)頻率；

（３）Ｓ（ｐ）是源語言短語在語料中作為子串出現(xiàn)在其他更長短語中的頻率；

（４）Ｎ（ｐ）是語料中包含源語言短語的短語的個數(shù)。

具體的計算算法是：

Ｃ－ｖａｌｕｅ在術(shù)語抽取領(lǐng)域被廣泛使用，Ｈｅ等[６]指出這種方法在翻譯模型約簡到２２％時還能保證翻譯質(zhì)量的ＢＬＥＵ值不降低，并且將這個數(shù)值作為解碼器的附加特征進(jìn)行參數(shù)調(diào)優(yōu)后在２２％的約簡前提下，ＢＬＥＵ值還能有一定的提高。

２．３根據(jù)短語對的內(nèi)部詞對齊情況來進(jìn)行約簡

上面的兩類方法都是在考察短語對在平行語料中的情況，這里的第三類方法重點考察短語對內(nèi)部的對齊情況。因為短語對是在平行語料詞對齊結(jié)果的基礎(chǔ)上抽取得到的。

Ｓáｎｃｈｅｚ－Ｍａｒｔ?覦ｎｅｚ等[７]考慮了短語對中的詞類情況。文中將詞語分成開放詞類（ＯｐｅｎＷｏｒｄｓ）和封閉詞類（ＣｌｏｓｅｄＷｏｒｄｓ）。根據(jù)兩條原則來剔除短語對：

（１）如果短語對的源語言短語或者目標(biāo)語言短語包含開放詞類，但是至少有一個開放詞沒有在另一端對齊到開放詞類上；

（２）在上一條原則的基礎(chǔ)上，如果短語對的任何一端的第一個或者最后一個詞語對空。

注：對空現(xiàn)象是在進(jìn)行對齊短語抽取時可能產(chǎn)生的現(xiàn)象，例如“我們一起吃飯｜｜｜ｌｅｔ＇ｓｈａｖｅｄｉｎｎｅｒｔｏｇｅｔｈｅｒｂｕｔ”中的ｂｕｔ。

針對相關(guān)的語言，Ｓáｎｃｈｅｚ－Ｍａｒｔ?覦ｎｅｚ等[７]定義了封閉詞類包含哪些類別以及具體的詞語，沒有包含其中的詞語都是開放詞類。圖２分別定義了英語、法語、西班牙語的封閉詞類。

這種啟發(fā)式的方法得到的翻譯模型約簡會導(dǎo)致翻譯結(jié)果的ＢＬＥＵ值降低１－２個點。

基于此，Ｈｅ等[８]將短語對的內(nèi)部對齊情況分成兩大類：不能再分拆的最小對齊，和由最小對齊構(gòu)成的組合對齊。例如圖３左圖表示最小對齊，右圖表示組合對齊。

在組合對齊里，又分為單調(diào)組合（如圖４左圖）和非單調(diào)組合（如圖４右圖）。

Ｈｅ等[８]的方法是將翻譯對里單調(diào)組合的短語全部剔除，因為這種單調(diào)組合的短語在實際解碼過程中可能通過最小對齊的短語對順序地拼接而成。仿真實驗結(jié)果顯示，在翻譯模型被約簡為原始大小的３０％左右時，相應(yīng)的ＢＬＥＵ值還能有一點提高。從約簡計算的代價來看，也是值得推廣的。

３結(jié)束語

統(tǒng)計機器翻譯的研究越來越熱，剛剛結(jié)束的自然語言處理頂級會議ＡＣＬ２０１１中機器翻譯達(dá)到了史無前例的７個分會場[９]。隨著機器翻譯的深入研究，相信會產(chǎn)生更多的關(guān)于翻譯模型約簡的研究成果。在本文綜述的四類方法中，筆者認(rèn)為最好的方法是基于Ｆｉｓｈｅｒ精確檢驗理論的Ｊｏｈｎｓｏｎ等[３]的ｐ－ｖａｌｕｅ的方法，因為在模型約簡到原始大小的１０％左右規(guī)模的同時，還能得到測試語料上ＢＬＥＵ值的提高。當(dāng)然，這種Ｆｉｓｈｅｒ精確檢驗的方法存在的一個問題是對翻譯模型完成一次約簡需要一定的時間，而這是因為Ｆｉｓｈｅｒ精確檢驗方法的計算復(fù)雜度相對較高。如果為了進(jìn)行快速的翻譯模型約簡，可嘗試Ｈｅ等[８]的剔除單調(diào)組合對齊的短語對的方法。

筆者針對翻譯模型約簡進(jìn)行過一些嘗試。在統(tǒng)計學(xué)中，Ｆｉｓｈｅｒ精確檢驗比傳統(tǒng)的卡方檢驗效果要好，但還存在一種理論上比Ｆｉｓｈｅｒ檢驗更好的方法——Ｂａｒｎａｒｄ檢驗[１０]。Ｂａｒｎａｒｄ檢驗是在[０，１]區(qū)間內(nèi)尋找一個最優(yōu)的度量值來作為檢驗的結(jié)果，雖然理論上更優(yōu)，但是計算量驚人。如果Ｂａｒｎａｒｄ檢驗的計算復(fù)雜度能夠降低的話，應(yīng)該是一種非常值得探索的方法。

參考文獻(xiàn)：

[１] ＥＣＫＭ，ＶＯＧＥＬＳ，ＷＡＩＢＥＬＡ．Ｔｒａｎｓｌａｔｉｏｎｍｏｄｅｌｐｒｕｎｉｎｇｖｉａｕｓａｇｅｓｔａｔｉｓｔｉｃｓｆｏｒｓｔａｔｉｓｔｉｃａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ[Ｃ]／／ＨｕｍａｎＬａ－ｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｉｅｓ２００７：ＴｈｅＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＮｏｒｔｈＡｍｅｒｉ－ｃａｎＣｈａｐｔｅｒｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ；Ｃ－ｏｍｐａｎｉｏｎＶｏｌｕｍｅ，ＳｈｏｒｔＰａｐｅｒｓ，ＮｅｗＹｏｒｋＲｏｃｈｅｓｔｅｒ：Ａｓｓｏｃｉａ－ｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，２００７：２１－２４．

[２] ＥＣＫＭ，ＶＯＧＥＬＳ，ＷＡＩＢＥＬＡ．Ｅｓｔｉｍａｔｉｎｇｐｈｒａｓｅｐａｉｒｒｅｌｅｖａｎ－ｃｅｆｏｒｔｒａｎｓｌａｔｉｏｎｍｏｄｅｌｐｒｕｎｉｎｇ[Ｃ]／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＭＴＳｕ－ｍｍｉｔＸＩ，２００７．

[３] ＪＯＨＮＳＯＮＨ，ＭＡＲＴＩＮＪ，ＦＯＳＴＥＲＧ，ｅｔａｌ．Ｉｍｐｒｏｖｉｎｇｔｒａｎｓｌａ－ｔｉｏｎｑｕａｌｉｔｙｂｙｄｉｓｃａｒｄｉｎｇｍｏｓｔｏｆｔｈｅｐｈｒａｓｅｔａｂｌｅ[Ｃ]／／Ｐｒｏｃｅｅｄ－ｉｎｇｓｏｆｔｈｅ２００７ＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａ－ｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇａｎｄＣｏｍｐｕｔａｔｉｏｎａｌＮａｔｕｒａｌＬａｎｇｕａｇｅＬｅａｒｎｉｎｇ（ＥＭＮＬＰＣｏＮＬＬ），Ｐｒａｇｕｅ，ＣｚｅｃｈＲｅｐｕｂｌｉｃ：ＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，２００７：９６７－９７５．

[４] ＴＯＭＥＨＮ，ＣＡＮＣＥＤＤＡＮ，ＤＹＭＥＴＭＡＮＭ．Ｃｏｍｐｌｅｘｉｔｙ－ｂａｓｅｄｐｈｒａｓｔａｂｌｅｆｉｌｔｅｒｉｎｇｆｏｒｓｔａｔｉｓｔｉｃａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ[Ｃ]／／Ｐｒｏｃｅ－ｅｄｉｎｇｓｏｆｔｈｅＭＴＳｕｍｍｉｔＸＩＩ，２００９．

[５] ＭＯＯＲＥＲＣ．Ｏｎｌｏｇ－ｌｉｋｅｌｉｈｏｏｄ－ｒａｔｉｏｓａｎｄｔｈｅｓｉｇｎｉｆｉｃａｎｃｅｏｆｒａｒｅｅｖｅｎｔｓ[Ｃ]／／ＬｉｎＤｅｋａｎｇ，ＷｕＤｅｋａｉ．ＰｒｏｃｅｅｄｉｎｇｓｏｆＥＭＮＬＰ２００４，Ｓｐａｉｎ，Ｂａｒｃｅｌｏｎａ：ＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓ－ｔｉｃｓ，２００４：３３３－３４０．

[６] ＨＥＺｈｏｎｇｊｕｎ，ＭＥＮＧＹａｏ，ＬＶＹａｊｕａｎ，ｅｔａｌ．Ｒｅｄｕｃｉｎｇｓｍｔｒｕｌｅｔａｂｌｅｗｉｔｈｍｏｎｏｌｉｎｇｕａｌｋｅｙｐｈｒａｓｅ[Ｃ]／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＣＬＩ－ＪＣＮＬＰ２００９ＣｏｎｆｅｒｅｎｃｅＳｈｏｒｔＰａｐｅｒｓ，Ｓｉｎｇａｐｏｒｅ，Ｓｕｎｔｅｃ：Ａｓｓｏｃｉ－ａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，２００９：１２１－１２４．

[７] Ｓáｎｃｈｅｚ－ＭａｒｔｎｅｚＦ，ＷａｙＡ．Ｍａｒｋｅｒ－ｂａｓｅｄｆｉｌｔｅｒｉｎｇｏｆｂｉｌｉｎｇｕａｌｐｈｒａｓｅｐａｉｒｓｆｏｒｓｍｔ[Ｃ]／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１３ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＥｕｒｏｐｅａｎＡｓｓｏｃｉａｔｉｏｎｆｏｒＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ（ＥＡＭＴ－０９），Ｃｉｔｅｓｅｅｒ，２００９：１４４－１５１．

[８] ＨＥＺｈｏｎｇｊｕｎ，ＭＥＮＧＹａｏ，ＹＵＨａｏ．Ｄｉｓｃａｒｄｉｎｇｍｏｎｏｔｏｎｅｃｏｍｐ－ｏｓｅｄｒｕｌｅｆｏｒｈｉｅｒａｒｃｈｉｃａｌｐｈｒａｓｅ－ｂａｓｅｄｓｔａｔｉｓｔｉｃａｌｍａｃｈｉｎｅｔｒａｎ－ｓｌａｔｉｏｎ[Ｃ]／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＵｎｉｖｅｒｓａｌＣｏｍｍ－ｕｎｉｃａｔｉｏｎＳｙｍｐｏｓｉｕｍ，ＡＣＭ，２００９：２５－２９．

[９] ｈｔｔｐ：／／ｗｗｗ．ａｃｌ２０１１．ｏｒｇ／ｐｒｏｇｒａｍ．ｕｔｆ８．ｓｈｔｍｌ．

[１０] ｈｔｔｐ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／ｂａｒｎａｒｄ％２７ｓ＿ｅｘａｃｔ＿ｔｅｓｔ．

智能計算機與應(yīng)用2011年3期

智能計算機與應(yīng)用的其它文章: 面向互聯(lián)網(wǎng)新聞的話題檢測與追蹤; 面向互聯(lián)網(wǎng)的計算語言學(xué)研究; 用于擊鍵特征識別的壓力感應(yīng)鍵盤設(shè)計; BP神經(jīng)網(wǎng)絡(luò)在短道速滑智能體決策過程中的應(yīng)用; 一種針對大規(guī)模URL關(guān)鍵字的多模匹配算法; 基于SVM的Fast-flux僵尸網(wǎng)絡(luò)檢測技術(shù)研究