999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Transformer-CRF詞切分方法在蒙漢機(jī)器翻譯中的應(yīng)用

2019-10-21 09:11:02蘇依拉仁慶道爾吉牛向華趙亞平
中文信息學(xué)報(bào) 2019年10期
關(guān)鍵詞:實(shí)驗(yàn)模型

蘇依拉,張 振,仁慶道爾吉,牛向華,高 芬,趙亞平

(內(nèi)蒙古工業(yè)大學(xué) 信息工程學(xué)院, 內(nèi)蒙古 呼和浩特 010080)

0 引言

由于人工翻譯成本較高,隨著科學(xué)和信息技術(shù)的發(fā)展進(jìn)步,機(jī)器翻譯已經(jīng)逐漸取代人工翻譯。1954年1月7日,在IBM紐約總部,Georgetown-IBM實(shí)驗(yàn)啟動,IBM的701型計(jì)算機(jī)將60個(gè)俄語句子自動翻譯成英語,這是歷史上首次實(shí)現(xiàn)的機(jī)器翻譯。經(jīng)過六十多年的發(fā)展,機(jī)器翻譯技術(shù)日趨成熟。目前,基于深度學(xué)習(xí)的神經(jīng)機(jī)器翻譯和統(tǒng)計(jì)機(jī)器翻譯成為機(jī)器翻譯的主要研究方向和主流技術(shù)。

Cho K等[1]提出基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)端到端框架,它還有另一個(gè)名稱,即編碼器—解碼器框架,編碼器和解碼器分別是兩個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),編碼器實(shí)現(xiàn)源語言的統(tǒng)一編碼,解碼器把編碼器輸出的隱層狀態(tài)解碼成對應(yīng)的目標(biāo)語言,實(shí)現(xiàn)雙語的近似同義轉(zhuǎn)換。Cho K的實(shí)驗(yàn)使用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),RNN神經(jīng)網(wǎng)絡(luò)不能對信息進(jìn)行長期記憶,會造成一定程度的梯度消失和提取的特征信息片面性或丟失問題。Sundermeyer M等[2]提出了一種長短期記憶神經(jīng)網(wǎng)絡(luò)模型(long short terms memory,LSTM)。但是,這種編碼器—解碼器框架有一個(gè)致命的缺陷,即無論源語言句子有多長,編碼器始終都生成一個(gè)固定維度的隱藏層向量,這對較長的句子來說,很難捕獲長距離的依賴關(guān)系,而且LSTM神經(jīng)網(wǎng)絡(luò)的序列遞歸特性難以并行化計(jì)算。

蒙古語屬于黏著語,漢語則是一種獨(dú)立語。目前漢語分詞方法對機(jī)器翻譯質(zhì)量的提高發(fā)揮著積極作用,而對于蒙古文的詞切分處理方法的研究還相當(dāng)匱乏,蒙古文詞切分算法的不足導(dǎo)致蒙漢機(jī)器翻譯中一個(gè)蒙古文句子對應(yīng)多個(gè)漢語詞語的一對多的映射關(guān)系,影響了蒙漢機(jī)器翻譯的發(fā)展。因此,蒙古文詞切分算法和語料預(yù)處理對于蒙漢機(jī)器翻譯的優(yōu)化越來越重要。

利用LSTM神經(jīng)機(jī)器模型能夠?qū)χ匾蛄啃畔⑦M(jìn)行記憶,防止由于梯度消失造成信息丟失,有利于緩解蒙漢雙語語序差異較大的問題。但是由于LSTM是在RNN的架構(gòu)上引入記憶單元進(jìn)行改進(jìn),而RNN固有的單層的序列結(jié)構(gòu)形式導(dǎo)致其難以并行化計(jì)算的缺點(diǎn),烏尼爾[9]提出了基于CNN詞根形態(tài)選擇模型的改進(jìn)蒙漢機(jī)器翻譯研究,然而卷積神經(jīng)網(wǎng)絡(luò)不擅長處理序列較長的文本,難以充分利用上下文相關(guān)信息進(jìn)行翻譯。所以LSTM和CNN的神經(jīng)網(wǎng)絡(luò)對上下文關(guān)系的建模依然存在局限性,并且傳統(tǒng)的蒙漢機(jī)器翻譯由于輸入詞匯特征單一,依然存在詞匯受限、譯文忠實(shí)度低等問題。

本文根據(jù)Tensor2Tensor神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)[10],對蒙漢神經(jīng)機(jī)器翻譯模型進(jìn)行建模,利用Transformer模型的self-Attention、Multi-head Attention等技術(shù)對指代信息豐富的上下文進(jìn)行建模。首先,我們利用了詞性標(biāo)注的分詞工具THULAC[11]配合一種字節(jié)對編碼(byte-pair Encoding,BPE)算法來獲得子詞單元,然后本文對基于Transformer-CRF的蒙古語詞切分算法進(jìn)行研究,通過對蒙古文詞切分算法的研究來幫助翻譯模型得到較好的輸入數(shù)據(jù)。其次,我們構(gòu)建了基于Tensor2Tensor神經(jīng)網(wǎng)絡(luò)的蒙漢翻譯編碼器—解碼器架構(gòu)。最后,通過對模型進(jìn)行參數(shù)的初始化和參數(shù)訓(xùn)練,得到用于實(shí)驗(yàn)的訓(xùn)練模型,對實(shí)驗(yàn)?zāi)P瓦M(jìn)行相應(yīng)的測試和對比,分析了本文基于Tensor2Tensor神經(jīng)機(jī)器翻譯模型的翻譯質(zhì)量和特性。

1 基于Transformer-CRF的蒙古語詞切分算法研究

本文采用的語料來自內(nèi)蒙古工業(yè)大學(xué)蒙漢翻譯課題組的項(xiàng)目《基于深度學(xué)習(xí)的蒙漢統(tǒng)計(jì)機(jī)器翻譯的研究與實(shí)現(xiàn)》構(gòu)建的120萬句對蒙漢平行語料庫和內(nèi)蒙古大學(xué)開發(fā)的67 288句對蒙漢平行雙語語料,用UTF-8編碼格式作為蒙漢雙語語料的編碼格式。采用了分布式表示(distributional representation)的詞向量方法。

1.1 CRF詞切分算法

條件隨機(jī)場(CRF)是一種基于概率計(jì)算的框架,它主要用在文本標(biāo)記和對結(jié)構(gòu)化數(shù)據(jù)(例如,序列、樹和格子)進(jìn)行切分時(shí),經(jīng)過條件概率計(jì)算得到一種概率分布。 CRF的基本思想是在給定特定觀察(輸入)序列x=x1,x2,…,xm的情況下定義標(biāo)簽序列y=y1,y2,…,yn上的條件概率分布,而不是在標(biāo)簽和觀察序列上的聯(lián)合分布。

例如,給定句子中的未標(biāo)注字的序列為x=x1,x2,…,xm,對應(yīng)的已標(biāo)注字序列為y=y1,y2,…,yn,則狀態(tài)序列線性鏈CRF的條件概率計(jì)算方式如式(1)所示。

(1)

其中,wj表示特征函數(shù)對應(yīng)的權(quán)重,ξj則表示特征函數(shù),i為當(dāng)前時(shí)刻待標(biāo)注字位置,T(x,w)表示歸一因子。T(x,w)的計(jì)算式如式(2)所示。

(2)

CRF優(yōu)于隱馬爾可夫模型的主要是它的條件性質(zhì),放松了隱馬爾可夫模型(Hidden Markov Models, HMM)所需的獨(dú)立性假設(shè),以確保易處理的推理。另外,CRF避免了標(biāo)簽偏差問題,這是基于有向圖形模型的最大熵馬爾可夫模型(MEMM)和其他條件馬爾可夫模型所表現(xiàn)出的弱點(diǎn)。 CRF在許多領(lǐng)域的許多實(shí)際任務(wù)中都優(yōu)于MEMM和HMM,包括生物信息學(xué)、計(jì)算語言學(xué)和語音識別。

雖然CRF詞切分方式借助語言特征可以識別出詞典內(nèi)部詞匯和一部分集外詞,但是在處理邊界詞歧義以及長字詞問題時(shí)同樣會因?yàn)闊o法進(jìn)行深層語義挖掘和缺乏擬合能力而導(dǎo)致標(biāo)注偏差等問題,有研究者提出基于BiLSTM-CRF[12]的詞切分算法,但LSTM固有的梯度消失問題和難以并行化計(jì)算的缺陷仍無法克服,因此本文提出了一種基于Transformer-CRF的蒙古文詞切分算法。

1.2 基于Transformer-CRF的詞切分算法

基于Tensor2Tensor模型通過建模海量數(shù)據(jù)中的實(shí)體概念等先驗(yàn)語義知識,學(xué)習(xí)真實(shí)世界的語義關(guān)系[13]。具體來說,Tensor2Tensor模型通過對詞、實(shí)體等語義單元的掩碼,使得模型能夠?qū)W習(xí)完整概念的語義表示。例如,給模型輸入一個(gè)句子“呼和浩特是內(nèi)蒙古自治區(qū)的省會城市”,ERNIE(1)https://github.com/Paddle Paddle/ERNIE通過學(xué)習(xí)詞與實(shí)體的表達(dá),使模型能夠建模出『呼和浩特』與『內(nèi)蒙古自治區(qū)』的關(guān)系,學(xué)到『呼和浩特』是『內(nèi)蒙古自治區(qū)』的省會以及『內(nèi)蒙古自治區(qū)』是個(gè)省份名詞。

基于Tensor2Tensor架構(gòu)的Transformer模型是一種完全基于注意力機(jī)制的可以高度并行化的網(wǎng)絡(luò),由于每個(gè)詞語在句子中都有上下文依賴關(guān)系,所以我們需要神經(jīng)網(wǎng)絡(luò)隱藏層捕捉層次化的信息,這就需要建立一個(gè)很深層的神經(jīng)網(wǎng)絡(luò),而不是一個(gè)單層的序列的LSTM的網(wǎng)絡(luò)。并且我們需要能夠?qū)χ复畔⒇S富的上下文進(jìn)行建模,這需要Self-Attention、Multi-head Attention這樣的技術(shù)。本文借鑒CRF思想,使用Tensor2Tensor結(jié)構(gòu)結(jié)合CRF層進(jìn)行序列的詞切分標(biāo)注。基于Transformer-CRF的詞切分算法結(jié)構(gòu)圖如1所示。

圖1 基于Transformer-CRF的詞切分算法結(jié)構(gòu)

圖1中,輸入層的基本單元是漢語語料中的字對應(yīng)的向量形式,Transformer的神經(jīng)網(wǎng)絡(luò)架構(gòu)基于Tensor2Tensor,多頭自注意力機(jī)制能夠?qū)γ總€(gè)詞語的指代信息進(jìn)行豐富的上下文關(guān)系建模[14],而且能夠?qū)Ψ蔷€性特征進(jìn)行擬合,從而克服CRF詞切分算法難以進(jìn)行上下文提取的缺點(diǎn),又克服了BiLSTM-CRF詞切分算法容易梯度消失和難以并行化計(jì)算的缺點(diǎn)。接著通過一個(gè)RELU層進(jìn)行輸出,并將字向量的信息傳遞給CRF層來進(jìn)行序列標(biāo)注。

1.3 Transformer-CRF詞切分模型構(gòu)建

蒙古語屬于黏著語,其構(gòu)詞規(guī)則如圖2所示,一個(gè)蒙古語詞由一個(gè)詞根與多個(gè)詞綴組成[15]。

圖2 蒙古文詞匯構(gòu)成

語料詞切分時(shí)需要對語料中的每一個(gè)字或字符進(jìn)行單點(diǎn)標(biāo)注,設(shè)定單點(diǎn)標(biāo)注集為四元組,包括“P(prefix): 詞根(頭);W(Word suffix): 構(gòu)詞后綴;C(Configuration suffix): 構(gòu)型后綴;E(End suffix): 結(jié)尾后綴”四種類型。本文利用Tensor2Tensor神經(jīng)網(wǎng)絡(luò)結(jié)合上下文特征,同時(shí)根據(jù)CRF來考慮句子前后的標(biāo)簽,進(jìn)行序列的詞切分標(biāo)注。我們將蒙古文單詞的詞根(詞首)稱為左邊界L,最后一個(gè)字符(結(jié)尾后綴)稱為右邊界R.如果我們將L和R視為隨機(jī)事件,那么就可以從它們中導(dǎo)出4個(gè)事件(或標(biāo)記):

以Transformer-CRF算法處理句子時(shí),通過分析其序列中詞語的依存關(guān)系來進(jìn)行詞語的切分。句子中的詞語之間的主要依賴關(guān)系是: “呼和浩特”和“內(nèi)蒙古自治區(qū)”相關(guān)聯(lián),“呼和浩特”和“省會城市”相關(guān)聯(lián),“呼和浩特”和“城市”相關(guān)聯(lián),所以“呼和浩特”在這句話中的依賴關(guān)系是多元、交叉的,多頭自注意力機(jī)制可以幫助每個(gè)詞語和其他詞語建立多元的上下文依賴關(guān)系。這一發(fā)現(xiàn)表明Transformer模型對語料的上下文語義信息的提取和關(guān)聯(lián)分析具有重要意義,具體切分流程如圖3所示。

圖3 蒙古文詞語切分過程

1.4 數(shù)據(jù)實(shí)驗(yàn)及結(jié)果分析

本文利用GitHub中的TensorFlow等開源工具實(shí)現(xiàn)了基于Transformer-CRF模型的實(shí)驗(yàn),采用Word2Vec工具進(jìn)行字符向量的訓(xùn)練,字符向量的維度分別設(shè)定為250維和500維,標(biāo)注集的類型采用四元組形式,即{P,W,C,E},數(shù)據(jù)的訓(xùn)練集中字符數(shù)量為1 183 112。本文的詞切分模型將與傳統(tǒng)的HMM詞切分系統(tǒng)[16]、CRF模型和LSTM-CRF模型進(jìn)行實(shí)驗(yàn)對比,利用詞切分準(zhǔn)確率P和F值作為評估指標(biāo),同時(shí)在模型訓(xùn)練過程中,Dropout分別設(shè)定為0.3和0.6,并在不同參數(shù)下觀察實(shí)驗(yàn)結(jié)果,具體如表1所示。

表1 不同參數(shù)的分割效果

通過表1可以看出,在字向量的維度設(shè)定為500維,且神經(jīng)網(wǎng)絡(luò)訓(xùn)練Dropout設(shè)定維0.3時(shí),詞切分準(zhǔn)確率達(dá)到了86.5%,F(xiàn)值也達(dá)到了87.2%,所以模型擁有很好的詞切分質(zhì)量。

模型的實(shí)驗(yàn)對比將和傳統(tǒng)的HMM詞切分模型和CRF詞切分模型進(jìn)行比較,參數(shù)設(shè)定為500維向量和0.3的Dropout。通過實(shí)驗(yàn)的結(jié)果來分析模型的質(zhì)量,結(jié)果如表2所示。

表2 實(shí)驗(yàn)結(jié)果比較

根據(jù)對比實(shí)驗(yàn)可以看出,標(biāo)注集為四元組的Transformer-CRF模型較HMM算法、CRF算法和LSTM-CRF算法的詞切分模型,準(zhǔn)確率和F值均有一定的提升。充分說明利用Transformer神經(jīng)網(wǎng)絡(luò)進(jìn)行語料語義提取的重要性,對句子的上下文的獲取以及高質(zhì)量的詞語切分提供了基礎(chǔ)。

2 基于Tensor2Tensor蒙漢機(jī)器翻譯的詞素編碼的研究

2.1 基于蒙文詞切分預(yù)處理的Tensor2Tensor編碼器模型構(gòu)建

2.1.1 蒙古語詞素四元組切分

詞素切分以蒙古文詞根、詞綴詞典庫為基礎(chǔ)。在進(jìn)行切分時(shí),首先利用詞頻統(tǒng)計(jì)工具OpenNMT.dict生成蒙古語語料的詞典,并結(jié)合本項(xiàng)目組構(gòu)建的15萬詞典庫以及蒙漢專有名詞詞典庫包含11 160組地名庫、15 001組人名庫、2 150組農(nóng)業(yè)名詞庫、308 714組醫(yī)學(xué)名詞、5 000組物理名詞。詞典生成后,搜索詞典內(nèi)詞干來進(jìn)行匯總,生成詞干表。詞干表以外的部分是相應(yīng)的詞綴表部分。本文以詞干表和詞綴表為基礎(chǔ),利用堆棧算法和逆向最大匹配算法對蒙古語的每個(gè)詞語進(jìn)行詞素切分,其切分流程如圖4所示。

圖4 詞素四元組切分流程圖

2.1.2 基于Tensor2Tensor的詞素編碼器構(gòu)建過程

圖5 指示代詞指代關(guān)系示例圖(a)

圖6 指示代詞指代關(guān)系示例圖(b)

圖5、圖6展示了self-attention通過結(jié)合上下文相關(guān)信息,強(qiáng)化對齊關(guān)系,有助于機(jī)器學(xué)習(xí)(神經(jīng)網(wǎng)絡(luò))學(xué)習(xí)到更加復(fù)雜的語義關(guān)系。在我們的編碼器網(wǎng)絡(luò)架構(gòu)中,我們利用蒙古語的詞素信息進(jìn)行編碼,如圖7所示。

圖7 蒙古語詞素輸入過程

在我們的基于Tensor2Tensor的蒙漢神經(jīng)機(jī)器翻譯系統(tǒng)中,編碼器包含Self-Attention層。 在Self-Attention層中,所有鍵(key)、值(value)和查詢(query)都來自相同的位置,在這種情況下,是編碼器中前一層的輸出。 編碼器中的每個(gè)位置都可以處理編碼器前一層中的所有位置。

2.2 注意力機(jī)制(Attention)

圖8 蒙漢平行語料的對齊機(jī)制

圖9 蒙漢平行語料詞與詞之間的關(guān)聯(lián)關(guān)系

我們在Transformer中提出一種擴(kuò)展性更高、并行度更高的Attention計(jì)算方式,它把Attention看作一個(gè)基于內(nèi)容的查詢的過程,它會設(shè)置3個(gè)向量: Query Vector、Key Vector、Value Vector。并且每一個(gè)Vector都是通過它的input embedding和權(quán)重的矩陣相乘得到的。我們利用這個(gè)Q、K、V向量進(jìn)行各種數(shù)值的計(jì)算,最終得到Attention得分。這個(gè)計(jì)算過程是相對復(fù)雜的。

“Multi-head Attention”的方式,就是“多頭”Attention,我們設(shè)置多個(gè)Q、K、V矩陣和它實(shí)際值的矩陣。我們這樣設(shè)計(jì)有兩種好處,第一,它的可訓(xùn)練參數(shù)更多,能提升模型能力,去考慮到不同位置的Attention;另一個(gè)好處是對這個(gè)Attention賦予了多個(gè)子空間。從機(jī)器學(xué)習(xí)的角度來說,首先參數(shù)變多了,擬合數(shù)據(jù)的能力變強(qiáng)了。從語言學(xué)是這樣的,不同的子空間可以表示不一樣的關(guān)聯(lián)關(guān)系,比如一個(gè)子空間表示指代的Attention,另一個(gè)子空間表示依存的Attention,第三個(gè)子空間表示其他句法信息的Attention,它能夠綜合表示各種各樣的位置之間的關(guān)聯(lián)關(guān)系,這樣極大地提升了Attention的表現(xiàn)能力,這是傳統(tǒng)的RNN、LSTM系統(tǒng)中所不具備的,也是最終實(shí)驗(yàn)時(shí)會對性能有巨大影響的一項(xiàng)工作。

2.3 Tensor2Tensor解碼器模型構(gòu)建

模型的結(jié)構(gòu)為編碼器—解碼器神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),編碼器為了更好地獲取蒙古語的語義信息,采用完全依賴于注意力機(jī)制來繪制輸入和輸出之間的全局依賴關(guān)系。其具體結(jié)構(gòu)如圖10所示。

圖10 解碼器模型結(jié)構(gòu)

與編碼器類似,解碼器中的自注意力層允許解碼器中的每個(gè)位置參與解碼器中的所有位置直到并包括該位置。 我們需要防止解碼器中的向左信息流以保持自回歸屬性。我們實(shí)現(xiàn)保持自回歸屬性的目標(biāo)在縮放點(diǎn)乘積注意的內(nèi)部。我們實(shí)現(xiàn)點(diǎn)乘積注意力,通過屏蔽(設(shè)置為-∞)softmax[]輸入中與非法連接相對應(yīng)的所有值。當(dāng)出現(xiàn)未登錄詞時(shí),解碼器自動到專有名詞詞典庫進(jìn)行多頭查找,當(dāng)匹配到相應(yīng)的蒙古文專有名詞時(shí),進(jìn)行基于詞典的翻譯,這個(gè)計(jì)算過程雖然會增加解碼消耗的時(shí)間,但是我們的Transformer網(wǎng)絡(luò)具有高度并行化計(jì)算的特點(diǎn),而且這樣處理后,翻譯質(zhì)量和譯文忠實(shí)度有了較明顯的改善,一般可以提高兩個(gè)BLEU值[13]。

3 數(shù)據(jù)實(shí)驗(yàn)及結(jié)果分析

3.1 數(shù)據(jù)集劃分及訓(xùn)練參數(shù)設(shè)定

模型訓(xùn)練的數(shù)據(jù)集使用內(nèi)蒙古工業(yè)大學(xué)蒙漢翻譯課題組的項(xiàng)目《基于深度學(xué)習(xí)的蒙漢統(tǒng)計(jì)機(jī)器翻譯的研究與實(shí)現(xiàn)》構(gòu)建的120萬句對蒙漢平行語料庫和內(nèi)蒙古大學(xué)開發(fā)的67 288句對蒙漢平行雙語語料,另外使用了由一些專有名詞組成的詞典庫,用來校正我們的蒙漢翻譯系統(tǒng),蒙漢平行詞典庫包含11 160組地名庫、15 001組人名庫、2 150組農(nóng)業(yè)名詞庫、308 714組醫(yī)學(xué)名詞、5 000組物理名詞。實(shí)驗(yàn)數(shù)據(jù)采用留出法進(jìn)行語料的劃分。留出法主要將數(shù)據(jù)集語料分為三個(gè)部分: 訓(xùn)練集、驗(yàn)證集和測試集。模型的數(shù)據(jù)集劃分如表3所示。

表3 實(shí)驗(yàn)數(shù)據(jù)集劃分

采用了分布式表示(distributional representation)[14]的詞向量方法。我們用UTF-8編碼格式作為蒙漢雙語語料的編碼格式。

3.2 硬件和時(shí)間表

我們在一臺配備1個(gè)NVIDIA GTX 1070Ti GPU的機(jī)器上訓(xùn)練模型。 對于使用本文所述的超參數(shù)的基本模型,每個(gè)訓(xùn)練步驟大約需要28秒。 我們對基礎(chǔ)模型進(jìn)行了總共200 000步大約12小時(shí)的訓(xùn)練。

3.3 優(yōu)化器

我們使用Adam優(yōu)化器,β1=0.9,β1=0.98和ε=10-9。根據(jù)式(3),我們在訓(xùn)練過程中改變了學(xué)習(xí)率:

(3)

這對應(yīng)于為第一個(gè)warmup_steps訓(xùn)練步驟線性地增加學(xué)習(xí)速率,然后與步數(shù)的反平方根成比例地減小它。 我們用了warmup_steps=4 000。

3.4 正則化

我們將dropout應(yīng)用于每個(gè)子層的輸出,然后將其添加到子層輸入并進(jìn)行歸一化[15]。 此外,我們將dropout應(yīng)用于編碼器和解碼器堆棧中的嵌入和位置編碼的總和。對于基本模型,我們使用的速率為Pdrop=0.1。

3.5 實(shí)驗(yàn)結(jié)果對比和總結(jié)

我們首先采用傳統(tǒng)的句子級蒙古文和漢語分詞預(yù)處理后的平行的蒙漢雙語語料作為翻譯系統(tǒng)的輸入信號,接下來,搭建基于長短期記憶神經(jīng)網(wǎng)絡(luò)LSTM的蒙漢翻譯模型,并記錄相關(guān)的實(shí)驗(yàn)結(jié)果作為后期對比實(shí)驗(yàn)的基準(zhǔn)模型,然后用同樣的輸入進(jìn)行Transformer蒙漢翻譯模型的實(shí)驗(yàn)并記錄實(shí)驗(yàn)結(jié)果,最后我們使用模型做了n組對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,與不進(jìn)行蒙語詞素切分的Transformer翻譯模型和LSTM蒙漢機(jī)器翻譯基準(zhǔn)系統(tǒng)相比,該方法基于漢語詞語級別評測的BLEU值得到一定的提升。為了更好地緩解低資源語言語料數(shù)據(jù)稀缺和語料內(nèi)容覆蓋面有限的問題,我們在生成未登錄詞時(shí)對語料庫進(jìn)行基于詞典的詞語近似替換,來更好地緩解蒙漢翻譯中的數(shù)據(jù)稀疏和沒有充分理解原文語義關(guān)系的問題。

實(shí)驗(yàn)的對比利用Google的seq2seq框架下的LSTM神經(jīng)機(jī)器翻譯系統(tǒng)作為基準(zhǔn)實(shí)驗(yàn),同時(shí)與Google的基于Tensor2Tensor的神經(jīng)機(jī)器翻譯模型Transformer和不加詞干詞綴、詞性標(biāo)注信息以及名詞泛化的Tensor2Tensor機(jī)器翻譯模型進(jìn)行對比。

本實(shí)驗(yàn)的模型在訓(xùn)練生成的10個(gè)檢查點(diǎn)模型中進(jìn)行質(zhì)量評測并記錄數(shù)據(jù),根據(jù)模型的數(shù)據(jù)進(jìn)行研究,表4、表5為在相同測試集及參考譯文的條件下,最后5個(gè)檢查點(diǎn)模型對應(yīng)的BLEU值指標(biāo)。

表4 譯文質(zhì)量Accuracy評分

續(xù)表

表5 測試集BLEU值評估表

通過表4和表5可以看出,Transformer翻譯架構(gòu)明顯比LSTM神經(jīng)網(wǎng)絡(luò)的翻譯質(zhì)量好。另外,經(jīng)過實(shí)驗(yàn)對比,發(fā)現(xiàn)應(yīng)用了Transformer-CRF的詞切分算法對蒙古文進(jìn)行詞素切分后作為源語言輸入比句子級蒙古文輸入的翻譯效果好,避免了一個(gè)源語言句子向量對應(yīng)多個(gè)目標(biāo)語言多個(gè)詞語向量的輸入和輸出向量數(shù)量不對稱的矛盾,這種方法為資源稀缺的語種之間的翻譯提供了一定的參考價(jià)值。Transformer-CRF蒙古文詞切分方法應(yīng)用在基于Tensor2Tensor架構(gòu)的蒙漢機(jī)器翻譯中,它的翻譯率0.93Accuracy和BLEU值49.47評估比對比實(shí)驗(yàn)中的其他詞切分方法效果好,比使用句子級蒙古文句子作為源語言的Tensor2Tensor翻譯模型BLEU值高出2.99個(gè)詞語級別的BLEU值。

4 結(jié)論和未來展望

本文利用基于Tensor2Tensor架構(gòu)的Transformer模型構(gòu)建了翻譯模型的編碼器—解碼器結(jié)構(gòu),該架構(gòu)是一種完全基于注意力機(jī)制的可以高度并行化的網(wǎng)絡(luò),它能夠捕捉層次化的信息,這就需要建立一個(gè)深層的神經(jīng)網(wǎng)絡(luò),而不是一個(gè)單層的序列的LSTM的網(wǎng)絡(luò),使其能夠?qū)χ复畔⒇S富的上下文進(jìn)行建模。另外,本文以有向圖判別式結(jié)合Transformer神經(jīng)網(wǎng)絡(luò)的算法對源語言語料進(jìn)行詞干和附加詞綴的切分,同時(shí)將切分完成的蒙古語詞干詞綴進(jìn)行詞性標(biāo)注,詞切分和標(biāo)注過程采用Transformer-CRF算法。

實(shí)驗(yàn)結(jié)果表明,以詞根、構(gòu)詞詞綴、構(gòu)型后綴和結(jié)尾后綴四元組作為最小單元進(jìn)行的詞素切分作為編碼輸入的Tensor2Tensor蒙漢機(jī)器翻譯模型的翻譯質(zhì)量,比LSTM基準(zhǔn)系統(tǒng)和不經(jīng)過Transformer-CRF詞素和漢語分詞切分的單一粒度的Tensor2Tensor模型的BLEU值有了一定的提高。

基于深度學(xué)習(xí)的神經(jīng)機(jī)器翻譯方法主要利用逐層傳遞的復(fù)雜的函數(shù)來建立雙語語料之間的映射關(guān)系。神經(jīng)網(wǎng)絡(luò)通過復(fù)雜的函數(shù)嵌套關(guān)系學(xué)習(xí)權(quán)重矩陣,然后建立翻譯模型,從而實(shí)現(xiàn)機(jī)器的智能翻譯。這種模型的訓(xùn)練建立在大規(guī)模語料的基礎(chǔ)上,單純利用很小規(guī)模的語料很難訓(xùn)練出好的翻譯模型。然而,隨著機(jī)器學(xué)習(xí)理論和技術(shù)的發(fā)展和成熟,目前在較難獲取大規(guī)模語料資源的語言上可以使用遷移學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、多任務(wù)學(xué)習(xí)結(jié)合弱監(jiān)督學(xué)習(xí)等一些方法來緩解這種資源稀缺的問題。

猜你喜歡
實(shí)驗(yàn)模型
一半模型
記一次有趣的實(shí)驗(yàn)
微型實(shí)驗(yàn)里看“燃燒”
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
做個(gè)怪怪長實(shí)驗(yàn)
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 大学生久久香蕉国产线观看| 91 九色视频丝袜| 99伊人精品| 99久久这里只精品麻豆| 欧美一级专区免费大片| 亚洲女同一区二区| 国产女人在线观看| 国产成人精品18| 久久久久久久蜜桃| 亚洲精品少妇熟女| 日韩国产高清无码| 亚洲日韩AV无码精品| 超薄丝袜足j国产在线视频| 欧美激情视频二区| 欧美一级一级做性视频| 中文字幕免费播放| 新SSS无码手机在线观看| 伊人国产无码高清视频| 国产成人综合日韩精品无码不卡| 亚洲午夜福利在线| 97国产成人无码精品久久久| 蝴蝶伊人久久中文娱乐网| 污网站免费在线观看| 欧美a网站| 欧美一级高清视频在线播放| 在线观看91香蕉国产免费| 8090成人午夜精品| 国产美女精品一区二区| 五月婷婷丁香色| 国产综合欧美| 亚洲第一综合天堂另类专| 欧美亚洲国产一区| 青青草a国产免费观看| 99伊人精品| 666精品国产精品亚洲| www.精品国产| 欧美中文字幕无线码视频| AV熟女乱| 色婷婷丁香| 中文字幕日韩视频欧美一区| 二级毛片免费观看全程| 久久久国产精品无码专区| 久久国产毛片| 中国一级特黄大片在线观看| 91黄视频在线观看| AV不卡无码免费一区二区三区| 亚洲天堂啪啪| 永久天堂网Av| 99久久婷婷国产综合精| 中文成人在线| 亚洲六月丁香六月婷婷蜜芽| 国产超薄肉色丝袜网站| 好吊色妇女免费视频免费| 国产粉嫩粉嫩的18在线播放91| 无码中文字幕乱码免费2| 亚洲成人网在线观看| 亚洲国产欧美国产综合久久| 国产精品自在线拍国产电影| 无码中文AⅤ在线观看| 人人看人人鲁狠狠高清| a级毛片视频免费观看| jizz亚洲高清在线观看| 伊人久久综在合线亚洲2019| 超级碰免费视频91| 亚洲国产成人久久77| 亚洲日本中文字幕天堂网| 玖玖精品在线| 丝袜无码一区二区三区| 99久久精品久久久久久婷婷| 激情六月丁香婷婷四房播| 69国产精品视频免费| 黄片一区二区三区| 91丝袜乱伦| 22sihu国产精品视频影视资讯| 白浆免费视频国产精品视频 | 国模视频一区二区| 黄色在线不卡| 欧美久久网| 亚洲综合久久一本伊一区| 中文精品久久久久国产网址| 一级在线毛片| 欧美日韩在线亚洲国产人|