基于循環(huán)神經(jīng)網(wǎng)絡(luò)的工程專業(yè)語義智能分析方法研究

2024-01-24 10:10:18師玲萍

電子設(shè)計(jì)工程 2024年2期

關(guān)鍵詞：模型

師玲萍

（西安鐵路職業(yè)技術(shù)學(xué)院，陜西西安 710026）

隨著我國(guó)鐵路運(yùn)輸系統(tǒng)的不斷發(fā)展，相關(guān)的學(xué)術(shù)交流及技術(shù)溝通越發(fā)頻繁，該領(lǐng)域內(nèi)專業(yè)術(shù)語的翻譯質(zhì)量也亟需進(jìn)行相應(yīng)提升。而作為專業(yè)性較強(qiáng)的學(xué)科，該專業(yè)的詞匯中有諸多日常使用的詞組均被賦予了全新的意義，這便要求翻譯人員具有一定的專業(yè)知識(shí)基礎(chǔ)。但由于大多數(shù)人員并不具備專業(yè)背景，故容易造成一詞多譯、詞義缺失以及直譯等現(xiàn)象的發(fā)生。

為了彌補(bǔ)翻譯工作者在文獻(xiàn)翻譯過程中存在的不足，機(jī)器翻譯技術(shù)[1-2]應(yīng)運(yùn)而生。該技術(shù)利用算法將源語言轉(zhuǎn)換為目標(biāo)語言，同時(shí)其對(duì)主要語種的翻譯質(zhì)量與人工翻譯相差較小。傳統(tǒng)機(jī)器翻譯算法包括模板匹配（Match Template）[3]、統(tǒng)計(jì)學(xué)算法[4]及評(píng)分篩選[5]三種。但這三種算法的學(xué)習(xí)能力較差，無法根據(jù)語料數(shù)據(jù)集的變化對(duì)翻譯質(zhì)量進(jìn)行更新。隨著深度學(xué)習(xí)（Deep Learning，DL）[6-8]的發(fā)展和應(yīng)用，現(xiàn)代機(jī)器翻譯算法可從語料庫中不斷學(xué)習(xí)新的特征來完善自身功能。文中基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)對(duì)專業(yè)英語詞匯進(jìn)行分析，進(jìn)而提升翻譯質(zhì)量，并滿足翻譯需求。

1 模型構(gòu)建

1.1 編碼器-解碼器框架

自然語言處理（Natural Language Processing，NLP）通常將編碼器-解碼器[9-10]作為算法框架，其符合語言數(shù)據(jù)的特征，即序列化。該算法框架如圖1所示。

圖1 編碼器-解碼器算法框架

圖1 中，第一個(gè)結(jié)構(gòu)是編碼器（Encoder），其作用是編碼源語言，以形成固定向量；第二個(gè)結(jié)構(gòu)則是解碼器（Decoder），其負(fù)責(zé)解碼編碼器輸出的向量，并形成目標(biāo)語言，且兩者間通過上下文向量C進(jìn)行連接。而輸入向量X與輸出向量Y可表示為：

當(dāng)前時(shí)刻的目標(biāo)單詞向量yt以概率形式輸出，具體如下所示：

1.2 循環(huán)神經(jīng)網(wǎng)絡(luò)模型

循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）[11]由神經(jīng)單元及反饋因子循環(huán)組成，其結(jié)構(gòu)示意如圖2 所示。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)有所不同，循環(huán)神經(jīng)網(wǎng)絡(luò)中的輸入變量會(huì)互相影響，這也符合語料數(shù)據(jù)的特點(diǎn)。

圖2 循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖

在RNN 模型中，輸入層為語料數(shù)據(jù)構(gòu)成的向量，S為中間隱藏層，O為輸出層。U、w和V分別為輸入、隱藏及輸出層的神經(jīng)元參數(shù)。

但由于RNN 模型在處理大量數(shù)據(jù)時(shí)使用雅克比矩陣（Jacobian Matrix）次數(shù)過多，會(huì)遇到梯度異常的問題，從而導(dǎo)致訓(xùn)練效果的收斂性較差。因此，采用長(zhǎng)短期記憶網(wǎng)絡(luò)（Long Short-Term Memory，LSTM）來對(duì)該情況進(jìn)行改善。通過對(duì)前置狀態(tài)的選擇性遺忘，以保證數(shù)據(jù)收斂的一致性。

LSTM 利用輸入門、輸出門與遺忘門來對(duì)記憶狀態(tài)進(jìn)行更新。該網(wǎng)絡(luò)的結(jié)構(gòu)示意圖如圖3 所示。

圖3 LSTM結(jié)構(gòu)示意圖

遺忘門的傳遞函數(shù)可表示為：

在LSTM 模型中，輸入門對(duì)狀態(tài)信息進(jìn)行更新，再通過σ函數(shù)更新控制信息。其中，it為控制信息，ht-1是上層輸出值，xt為輸入值，則為狀態(tài)信息。由式（6）-（8）即可得到最新的單元格狀態(tài)Ct，具體計(jì)算過程可表征為：

其中，*代表卷積運(yùn)算，b為相應(yīng)的偏置數(shù)值。

1.3 多頭注意力機(jī)制

注意力機(jī)制（Attention Mechanism）[12]是一種衡量多輸入數(shù)據(jù)關(guān)聯(lián)程度的算法，該算法起源于圖像處理領(lǐng)域。經(jīng)過多年的研究，在其基礎(chǔ)上改進(jìn)的多頭注意力機(jī)制（Multi-Head-Attention）可應(yīng)用于機(jī)器翻譯領(lǐng)域，并幫助模型更好地理解上下文含義。

注意力機(jī)制的輸入端為單詞向量，根據(jù)輸入的單詞向量能生成三個(gè)子向量，分別為查詢向量Q、鍵向量K及值向量V。注意力機(jī)制的公式可表示為：

其中，dk為向量K的維度；Softmax 為分類器，可將單詞向量的影響度進(jìn)行歸一化。

權(quán)重在每一個(gè)子向量中的反饋是不同的，為了能在任意維度對(duì)子向量權(quán)值進(jìn)行優(yōu)化，該文采用多頭注意力機(jī)制進(jìn)行改進(jìn)。其將原本的數(shù)據(jù)維度空間切分成為n份的子空間，并在子空間中對(duì)Q和K的相似度加以計(jì)算，由此便可減少單個(gè)子向量的維度，且最終進(jìn)行綜合。多頭注意力機(jī)制結(jié)構(gòu)如圖4所示。

圖4 多頭注意力機(jī)制結(jié)構(gòu)

1.4 基于編-解碼器的機(jī)器翻譯模型

該文基于編碼器-解碼器框架進(jìn)行機(jī)器翻譯模型的設(shè)計(jì)，該模型由編碼器、解碼器、輸入層及輸出層四部分組成。具體模型結(jié)構(gòu)如圖5 所示。

圖5 機(jī)器翻譯模型結(jié)構(gòu)

如圖6 所示，該文設(shè)計(jì)模型的編碼器模塊共有六層，且每一層均有兩個(gè)子編碼層。其中第一個(gè)子編碼層中包含有多頭注意力模塊和邏輯計(jì)算模塊，用來計(jì)算注意力值；第二個(gè)子編碼層則是全連接模塊，同時(shí)還在該層中加入了殘差模塊，以完成模塊的傳遞。

圖6 模型編碼器示意圖

子層的輸出可表示為：

解碼器部分則使用了三個(gè)子解碼層，第一個(gè)子解碼層使用多頭注意力模塊，第二個(gè)子解碼層對(duì)應(yīng)的是上下文模塊的輸入，第三個(gè)子解碼層則為全連接模塊。模型解碼器示意圖如圖7 所示。

圖7 模型解碼器示意圖

由于輸入的數(shù)據(jù)類型為包含有鐵道車輛專業(yè)詞匯的英文語句。因此針對(duì)某些具有特定含義的單詞，還需對(duì)其進(jìn)行語義訓(xùn)練，從而提高編解碼器模型的翻譯準(zhǔn)確度與流暢度。

在輸入模塊的設(shè)計(jì)中，文中將LSTM 和多頭注意力機(jī)制相結(jié)合，再對(duì)專業(yè)英語詞匯進(jìn)行訓(xùn)練，進(jìn)而將共同作用的結(jié)果作為輸出。基于LSTM 的輸入數(shù)據(jù)訓(xùn)練模塊如圖8 所示。

圖8 基于LSTM的輸入數(shù)據(jù)訓(xùn)練模塊

可以看到，輸入的句子被分解為單詞向量[x1,x2,…,xj-1,xj]，單詞向量同時(shí)經(jīng)過LSTM 模塊及編碼器模塊，最后共同輸出作為解碼器的輸入數(shù)據(jù)。由此，較好地兼顧了LSTM 和注意力機(jī)制的特性。注意力機(jī)制所關(guān)注的是源語言與目標(biāo)語言之間的特征相似程度，但其忽略了句子之間單詞的關(guān)系。而LSTM 可獲取句子間單詞的結(jié)構(gòu)關(guān)系，并將該關(guān)系傳輸至上層。因此，二者結(jié)合即可生成質(zhì)量更高的譯文。

1.5 評(píng)估標(biāo)準(zhǔn)

最優(yōu)線性無偏（Best Linear Unbiased Evaluation，BLUE）評(píng)估是目前最常用的譯文質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)基于N元模型（N-gram）建立，可將BLUE 值看作模型輸出與實(shí)際譯文間的加權(quán)匹配程度，其可用概率值pn表示。而BLEU 模型的匹配度計(jì)算則如式（11）所示，且BLEU 值越高，表明算法性能越優(yōu)。

式中，BP 為懲罰項(xiàng)，其可根據(jù)句子的長(zhǎng)短進(jìn)行取值，則有：

2 算法測(cè)試

2.1 測(cè)試環(huán)境

該翻譯語料集合使用了WMT2020 作為訓(xùn)練語料集與部分驗(yàn)證語料集。為驗(yàn)證算法的工程應(yīng)用能力，從互聯(lián)網(wǎng)抓取了1 000 條與特定專業(yè)英語有關(guān)的語料集作為算法驗(yàn)證語料集。實(shí)驗(yàn)環(huán)境配置與樣本數(shù)據(jù)說明如表1 所示。

表1 實(shí)驗(yàn)環(huán)境配置與樣本數(shù)據(jù)說明

2.2 實(shí)驗(yàn)測(cè)試

實(shí)驗(yàn)代碼部署在GPU 中，并利用TensorFlow 框架[13-14]進(jìn)行代碼測(cè)試。對(duì)比算法選擇了RNN、BiLSTM[15]及BiLSTM+GAN 算法[16]，訓(xùn)練語料集的數(shù)量則分別為1 萬、5 萬和10 萬條，訓(xùn)練數(shù)據(jù)集運(yùn)行10次后取平均BLEU 值。測(cè)試結(jié)果如表2 所示。

表2 不同算法的測(cè)試結(jié)果

由表2 可看出，對(duì)比其他機(jī)器翻譯算法，該文算法在所有數(shù)量的訓(xùn)練集下表現(xiàn)均最為優(yōu)異。且在訓(xùn)練語料為10 萬條的情況下，與對(duì)比算法中性能較好的BiLSTM+GAN 算法相比，該文算法的BLEU 值提升了2.7。同時(shí)還可看出，隨著訓(xùn)練集數(shù)量的增多，各算法的BLEU 值均有顯著提升。但訓(xùn)練集數(shù)量也并非越多越好，當(dāng)語料集大于5 萬時(shí)，算法BLEU值的增長(zhǎng)逐漸減弱。由此表明，在訓(xùn)練集語料條數(shù)為5 萬時(shí)，算法可兼具速度與性能。

除了WMT2020 語料集合外，文中還選擇了對(duì)應(yīng)的鐵道與車輛相關(guān)專業(yè)語句來進(jìn)行翻譯。并將所提算法與機(jī)器翻譯算法的結(jié)果進(jìn)行對(duì)比，結(jié)果如表3所示。

表3 專業(yè)術(shù)語翻譯結(jié)果對(duì)比

由表3 可知，當(dāng)句子中包含專有含義詞匯時(shí)，例如coupler、multiple unit，常規(guī)含義為耦合器與多單元，而在學(xué)科專業(yè)英語中則表示車鉤、動(dòng)車組。在對(duì)該類詞匯進(jìn)行翻譯時(shí)，該文算法能準(zhǔn)確地完成句子翻譯，而網(wǎng)絡(luò)翻譯則無法對(duì)專業(yè)詞匯進(jìn)行翻譯。此外在句子整體翻譯的流暢性上，該文算法相較網(wǎng)絡(luò)翻譯也較優(yōu)。由此證明，該文算法能對(duì)相關(guān)專業(yè)詞匯進(jìn)行準(zhǔn)確、流暢地翻譯。

3 結(jié)束語

文中研究了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的專業(yè)英語詞匯機(jī)器翻譯算法。該算法以編碼器-解碼器為框架，使用改進(jìn)的RNN 算法和多頭注意力機(jī)制對(duì)輸入語料數(shù)據(jù)進(jìn)行訓(xùn)練。編-解碼器均有六層結(jié)構(gòu)，每層都包含有多頭注意力機(jī)制和全連接層。實(shí)驗(yàn)測(cè)試中，該文算法的BLEU 值在對(duì)比算法中為最優(yōu)，且對(duì)專業(yè)英語語料地翻譯也較為準(zhǔn)確、流暢，證明其具有良好的應(yīng)用價(jià)值。