師玲萍
(西安鐵路職業(yè)技術(shù)學(xué)院,陜西西安 710026)
隨著我國(guó)鐵路運(yùn)輸系統(tǒng)的不斷發(fā)展,相關(guān)的學(xué)術(shù)交流及技術(shù)溝通越發(fā)頻繁,該領(lǐng)域內(nèi)專業(yè)術(shù)語的翻譯質(zhì)量也亟需進(jìn)行相應(yīng)提升。而作為專業(yè)性較強(qiáng)的學(xué)科,該專業(yè)的詞匯中有諸多日常使用的詞組均被賦予了全新的意義,這便要求翻譯人員具有一定的專業(yè)知識(shí)基礎(chǔ)。但由于大多數(shù)人員并不具備專業(yè)背景,故容易造成一詞多譯、詞義缺失以及直譯等現(xiàn)象的發(fā)生。
為了彌補(bǔ)翻譯工作者在文獻(xiàn)翻譯過程中存在的不足,機(jī)器翻譯技術(shù)[1-2]應(yīng)運(yùn)而生。該技術(shù)利用算法將源語言轉(zhuǎn)換為目標(biāo)語言,同時(shí)其對(duì)主要語種的翻譯質(zhì)量與人工翻譯相差較小。傳統(tǒng)機(jī)器翻譯算法包括模板匹配(Match Template)[3]、統(tǒng)計(jì)學(xué)算法[4]及評(píng)分篩選[5]三種。但這三種算法的學(xué)習(xí)能力較差,無法根據(jù)語料數(shù)據(jù)集的變化對(duì)翻譯質(zhì)量進(jìn)行更新。隨著深度學(xué)習(xí)(Deep Learning,DL)[6-8]的發(fā)展和應(yīng)用,現(xiàn)代機(jī)器翻譯算法可從語料庫中不斷學(xué)習(xí)新的特征來完善自身功能。文中基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)對(duì)專業(yè)英語詞匯進(jìn)行分析,進(jìn)而提升翻譯質(zhì)量,并滿足翻譯需求。
自然語言處理(Natural Language Processing,NLP)通常將編碼器-解碼器[9-10]作為算法框架,其符合語言數(shù)據(jù)的特征,即序列化。該算法框架如圖1所示。

圖1 編碼器-解碼器算法框架
圖1 中,第一個(gè)結(jié)構(gòu)是編碼器(Encoder),其作用是編碼源語言,以形成固定向量;第二個(gè)結(jié)構(gòu)則是解碼器(Decoder),其負(fù)責(zé)解碼編碼器輸出的向量,并形成目標(biāo)語言,且兩者間通過上下文向量C進(jìn)行連接。而輸入向量X與輸出向量Y可表示為:
當(dāng)前時(shí)刻的目標(biāo)單詞向量yt以概率形式輸出,具體如下所示:
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[11]由神經(jīng)單元及反饋因子循環(huán)組成,其結(jié)構(gòu)示意如圖2 所示。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)有所不同,循環(huán)神經(jīng)網(wǎng)絡(luò)中的輸入變量會(huì)互相影響,這也符合語料數(shù)據(jù)的特點(diǎn)。

圖2 循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
在RNN 模型中,輸入層為語料數(shù)據(jù)構(gòu)成的向量,S為中間隱藏層,O為輸出層。U、w和V分別為輸入、隱藏及輸出層的神經(jīng)元參數(shù)。
但由于RNN 模型在處理大量數(shù)據(jù)時(shí)使用雅克比矩陣(Jacobian Matrix)次數(shù)過多,會(huì)遇到梯度異常的問題,從而導(dǎo)致訓(xùn)練效果的收斂性較差。因此,采用長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)來對(duì)該情況進(jìn)行改善。通過對(duì)前置狀態(tài)的選擇性遺忘,以保證數(shù)據(jù)收斂的一致性。
LSTM 利用輸入門、輸出門與遺忘門來對(duì)記憶狀態(tài)進(jìn)行更新。該網(wǎng)絡(luò)的結(jié)構(gòu)示意圖如圖3 所示。

圖3 LSTM結(jié)構(gòu)示意圖
遺忘門的傳遞函數(shù)可表示為:
在LSTM 模型中,輸入門對(duì)狀態(tài)信息進(jìn)行更新,再通過σ函數(shù)更新控制信息。其中,it為控制信息,ht-1是上層輸出值,xt為輸入值,則為狀態(tài)信息。由式(6)-(8)即可得到最新的單元格狀態(tài)Ct,具體計(jì)算過程可表征為:
其中,*代表卷積運(yùn)算,b為相應(yīng)的偏置數(shù)值。
注意力機(jī)制(Attention Mechanism)[12]是一種衡量多輸入數(shù)據(jù)關(guān)聯(lián)程度的算法,該算法起源于圖像處理領(lǐng)域。經(jīng)過多年的研究,在其基礎(chǔ)上改進(jìn)的多頭注意力機(jī)制(Multi-Head-Attention)可應(yīng)用于機(jī)器翻譯領(lǐng)域,并幫助模型更好地理解上下文含義。
注意力機(jī)制的輸入端為單詞向量,根據(jù)輸入的單詞向量能生成三個(gè)子向量,分別為查詢向量Q、鍵向量K及值向量V。注意力機(jī)制的公式可表示為:
其中,dk為向量K的維度;Softmax 為分類器,可將單詞向量的影響度進(jìn)行歸一化。
權(quán)重在每一個(gè)子向量中的反饋是不同的,為了能在任意維度對(duì)子向量權(quán)值進(jìn)行優(yōu)化,該文采用多頭注意力機(jī)制進(jìn)行改進(jìn)。其將原本的數(shù)據(jù)維度空間切分成為n份的子空間,并在子空間中對(duì)Q和K的相似度加以計(jì)算,由此便可減少單個(gè)子向量的維度,且最終進(jìn)行綜合。多頭注意力機(jī)制結(jié)構(gòu)如圖4所示。

圖4 多頭注意力機(jī)制結(jié)構(gòu)
該文基于編碼器-解碼器框架進(jìn)行機(jī)器翻譯模型的設(shè)計(jì),該模型由編碼器、解碼器、輸入層及輸出層四部分組成。具體模型結(jié)構(gòu)如圖5 所示。

圖5 機(jī)器翻譯模型結(jié)構(gòu)
如圖6 所示,該文設(shè)計(jì)模型的編碼器模塊共有六層,且每一層均有兩個(gè)子編碼層。其中第一個(gè)子編碼層中包含有多頭注意力模塊和邏輯計(jì)算模塊,用來計(jì)算注意力值;第二個(gè)子編碼層則是全連接模塊,同時(shí)還在該層中加入了殘差模塊,以完成模塊的傳遞。

圖6 模型編碼器示意圖
子層的輸出可表示為:
解碼器部分則使用了三個(gè)子解碼層,第一個(gè)子解碼層使用多頭注意力模塊,第二個(gè)子解碼層對(duì)應(yīng)的是上下文模塊的輸入,第三個(gè)子解碼層則為全連接模塊。模型解碼器示意圖如圖7 所示。

圖7 模型解碼器示意圖
由于輸入的數(shù)據(jù)類型為包含有鐵道車輛專業(yè)詞匯的英文語句。因此針對(duì)某些具有特定含義的單詞,還需對(duì)其進(jìn)行語義訓(xùn)練,從而提高編解碼器模型的翻譯準(zhǔn)確度與流暢度。
在輸入模塊的設(shè)計(jì)中,文中將LSTM 和多頭注意力機(jī)制相結(jié)合,再對(duì)專業(yè)英語詞匯進(jìn)行訓(xùn)練,進(jìn)而將共同作用的結(jié)果作為輸出。基于LSTM 的輸入數(shù)據(jù)訓(xùn)練模塊如圖8 所示。

圖8 基于LSTM的輸入數(shù)據(jù)訓(xùn)練模塊
可以看到,輸入的句子被分解為單詞向量[x1,x2,…,xj-1,xj],單詞向量同時(shí)經(jīng)過LSTM 模塊及編碼器模塊,最后共同輸出作為解碼器的輸入數(shù)據(jù)。由此,較好地兼顧了LSTM 和注意力機(jī)制的特性。注意力機(jī)制所關(guān)注的是源語言與目標(biāo)語言之間的特征相似程度,但其忽略了句子之間單詞的關(guān)系。而LSTM 可獲取句子間單詞的結(jié)構(gòu)關(guān)系,并將該關(guān)系傳輸至上層。因此,二者結(jié)合即可生成質(zhì)量更高的譯文。
最優(yōu)線性無偏(Best Linear Unbiased Evaluation,BLUE)評(píng)估是目前最常用的譯文質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)基于N元模型(N-gram)建立,可將BLUE 值看作模型輸出與實(shí)際譯文間的加權(quán)匹配程度,其可用概率值pn表示。而BLEU 模型的匹配度計(jì)算則如式(11)所示,且BLEU 值越高,表明算法性能越優(yōu)。
式中,BP 為懲罰項(xiàng),其可根據(jù)句子的長(zhǎng)短進(jìn)行取值,則有:
該翻譯語料集合使用了WMT2020 作為訓(xùn)練語料集與部分驗(yàn)證語料集。為驗(yàn)證算法的工程應(yīng)用能力,從互聯(lián)網(wǎng)抓取了1 000 條與特定專業(yè)英語有關(guān)的語料集作為算法驗(yàn)證語料集。實(shí)驗(yàn)環(huán)境配置與樣本數(shù)據(jù)說明如表1 所示。

表1 實(shí)驗(yàn)環(huán)境配置與樣本數(shù)據(jù)說明
實(shí)驗(yàn)代碼部署在GPU 中,并利用TensorFlow 框架[13-14]進(jìn)行代碼測(cè)試。對(duì)比算法選擇了RNN、BiLSTM[15]及BiLSTM+GAN 算法[16],訓(xùn)練語料集的數(shù)量則分別為1 萬、5 萬和10 萬條,訓(xùn)練數(shù)據(jù)集運(yùn)行10次后取平均BLEU 值。測(cè)試結(jié)果如表2 所示。

表2 不同算法的測(cè)試結(jié)果
由表2 可看出,對(duì)比其他機(jī)器翻譯算法,該文算法在所有數(shù)量的訓(xùn)練集下表現(xiàn)均最為優(yōu)異。且在訓(xùn)練語料為10 萬條的情況下,與對(duì)比算法中性能較好的BiLSTM+GAN 算法相比,該文算法的BLEU 值提升了2.7。同時(shí)還可看出,隨著訓(xùn)練集數(shù)量的增多,各算法的BLEU 值均有顯著提升。但訓(xùn)練集數(shù)量也并非越多越好,當(dāng)語料集大于5 萬時(shí),算法BLEU值的增長(zhǎng)逐漸減弱。由此表明,在訓(xùn)練集語料條數(shù)為5 萬時(shí),算法可兼具速度與性能。
除了WMT2020 語料集合外,文中還選擇了對(duì)應(yīng)的鐵道與車輛相關(guān)專業(yè)語句來進(jìn)行翻譯。并將所提算法與機(jī)器翻譯算法的結(jié)果進(jìn)行對(duì)比,結(jié)果如表3所示。

表3 專業(yè)術(shù)語翻譯結(jié)果對(duì)比
由表3 可知,當(dāng)句子中包含專有含義詞匯時(shí),例如coupler、multiple unit,常規(guī)含義為耦合器與多單元,而在學(xué)科專業(yè)英語中則表示車鉤、動(dòng)車組。在對(duì)該類詞匯進(jìn)行翻譯時(shí),該文算法能準(zhǔn)確地完成句子翻譯,而網(wǎng)絡(luò)翻譯則無法對(duì)專業(yè)詞匯進(jìn)行翻譯。此外在句子整體翻譯的流暢性上,該文算法相較網(wǎng)絡(luò)翻譯也較優(yōu)。由此證明,該文算法能對(duì)相關(guān)專業(yè)詞匯進(jìn)行準(zhǔn)確、流暢地翻譯。
文中研究了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的專業(yè)英語詞匯機(jī)器翻譯算法。該算法以編碼器-解碼器為框架,使用改進(jìn)的RNN 算法和多頭注意力機(jī)制對(duì)輸入語料數(shù)據(jù)進(jìn)行訓(xùn)練。編-解碼器均有六層結(jié)構(gòu),每層都包含有多頭注意力機(jī)制和全連接層。實(shí)驗(yàn)測(cè)試中,該文算法的BLEU 值在對(duì)比算法中為最優(yōu),且對(duì)專業(yè)英語語料地翻譯也較為準(zhǔn)確、流暢,證明其具有良好的應(yīng)用價(jià)值。