張超軼,陳 媛,張聚偉
(1.河南科技大學(xué) a.電氣工程學(xué)院 b.外國(guó)語(yǔ)學(xué)院,河南 洛陽(yáng) 471023;2.河南省新能源汽車(chē)電力電子與電力傳動(dòng)工程研究中心,河南 洛陽(yáng) 471023)
隨著智能電網(wǎng)建設(shè)的全面展開(kāi),國(guó)與國(guó)之間電網(wǎng)的互聯(lián)和電力技術(shù)的交互越來(lái)越密切,電氣領(lǐng)域的機(jī)器翻譯能夠?yàn)殡姎夤I(yè)的技術(shù)交流提供便利,節(jié)省許多人力物力。因此,對(duì)電氣領(lǐng)域機(jī)器翻譯的研究是十分必要的。
近年來(lái),隨著深度學(xué)習(xí)等人工智能技術(shù)的發(fā)展,詞向量表示結(jié)合神經(jīng)網(wǎng)絡(luò)模型被廣泛地應(yīng)用于機(jī)器翻譯任務(wù)中[1]。編碼器-解碼器模型[2]成為現(xiàn)在神經(jīng)機(jī)器翻譯的主流架構(gòu)。其中,文獻(xiàn)[3]提出的seq2seq模型、文獻(xiàn)[4-5]提出的基于注意力機(jī)制的seq2seq模型應(yīng)用最廣。在此基礎(chǔ)上,文獻(xiàn)[6]提出的加入覆蓋率機(jī)制的翻譯模型在許多翻譯任務(wù)上也取得了很好的效果。但是,在這些經(jīng)典模型中,嵌入層參數(shù)均由隨機(jī)初始化得到,模型僅利用雙語(yǔ)語(yǔ)料獲取詞向量。然而,對(duì)于電氣領(lǐng)域這樣的低資源翻譯任務(wù),有限的雙語(yǔ)語(yǔ)料規(guī)模限制了詞向量對(duì)詞本身所包含信息的學(xué)習(xí),因此,需要通過(guò)詞向量模型利用大規(guī)模單語(yǔ)語(yǔ)料訓(xùn)練得到好的詞向量表示。對(duì)此,詞嵌入模型應(yīng)運(yùn)而生,相關(guān)研究日益增多[7-9]。文獻(xiàn)[10-12]對(duì)模型源端和目標(biāo)端中的一端分別使用了預(yù)訓(xùn)練的Glove、Word2vec或Fasttext進(jìn)行嵌入層參數(shù)初始化,另一端采用隨機(jī)初始化方式進(jìn)行實(shí)驗(yàn),結(jié)果表明:詞嵌入模型的應(yīng)用對(duì)翻譯效果起到了十分明顯的提升作用。文獻(xiàn)[13]采用ELMo神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)訓(xùn)練源語(yǔ)言和目標(biāo)語(yǔ)言的單語(yǔ)語(yǔ)料,從而在烏英翻譯任務(wù)上取得了更好的效果。文獻(xiàn)[14]將二次訓(xùn)練多語(yǔ)言BERT預(yù)訓(xùn)練模型與條件隨機(jī)場(chǎng)(conditional random field,CRF)相結(jié)合,并采用兩種子詞融合方式,提出了一種新的蒙古文動(dòng)態(tài)詞向量學(xué)習(xí)方法。文獻(xiàn)[15]引入了3種語(yǔ)言預(yù)訓(xùn)練模型:蒙面語(yǔ)言模型(masked language model,MLM)、因果語(yǔ)言模型(causal language modeling,CLM)和基于平行語(yǔ)料的翻譯語(yǔ)言模型(translation language modeling,TLM),用于編碼器或解碼器的初始化節(jié)點(diǎn),均提升了模型在蒙漢翻譯任務(wù)上的效果。但是,對(duì)于使用通用語(yǔ)料訓(xùn)練的電氣工程領(lǐng)域翻譯模型來(lái)說(shuō),僅使用一種算法得到的詞向量來(lái)初始化嵌入層參數(shù)是不夠的,本研究希望引入多種詞嵌入技術(shù)和術(shù)語(yǔ)詞典來(lái)聯(lián)合提升電氣語(yǔ)料中高頻常用詞和低頻專(zhuān)業(yè)術(shù)語(yǔ)的詞向量表示,使翻譯模型在提高泛化能力的同時(shí)更好地融合領(lǐng)域術(shù)語(yǔ)信息。
本文收集了與電氣工程領(lǐng)域相關(guān)的中英文平行語(yǔ)料、英文單語(yǔ)語(yǔ)料及術(shù)語(yǔ)詞典,利用Word2vec與Glove分別訓(xùn)練得到包含領(lǐng)域信息的術(shù)語(yǔ)詞向量和包含通用文本信息的常用詞向量,將兩種詞向量結(jié)合起來(lái)去初始化模型嵌入層矩陣中對(duì)應(yīng)的參數(shù),并利用術(shù)語(yǔ)詞典進(jìn)行文本分詞和未登錄詞查找替換,以此來(lái)優(yōu)化電氣工程領(lǐng)域語(yǔ)料的翻譯效果,為此后垂直領(lǐng)域的神經(jīng)機(jī)器翻譯提供一個(gè)可行的優(yōu)化思路。
以文獻(xiàn)[4]提出的基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型為基線模型,利用領(lǐng)域內(nèi)術(shù)語(yǔ)詞典和單語(yǔ)語(yǔ)料來(lái)融合術(shù)語(yǔ)信息。首先,在數(shù)據(jù)預(yù)處理時(shí)利用術(shù)語(yǔ)詞典對(duì)雙語(yǔ)語(yǔ)料進(jìn)行自定義分詞,并使用大規(guī)模單語(yǔ)語(yǔ)料通過(guò)Glove和Word2vec分別訓(xùn)練得到包含通用文本信息和術(shù)語(yǔ)信息的詞向量。其次,結(jié)合兩者訓(xùn)練得到的詞向量初始化模型的嵌入層參數(shù)。最后,針對(duì)翻譯過(guò)程中由于領(lǐng)域內(nèi)術(shù)語(yǔ)詞造成的未登錄詞問(wèn)題,利用外部術(shù)語(yǔ)詞典對(duì)其進(jìn)行查找替換。具體模型結(jié)構(gòu)及框架流程如圖1所示。

圖1 融合術(shù)語(yǔ)信息的神經(jīng)機(jī)器翻譯框架圖
在自然語(yǔ)言處理中,詞向量的表示方式由最初的獨(dú)熱(one-hot)編碼發(fā)展到后來(lái)的分布式表示,將原本稀疏的巨大維度壓縮到一個(gè)更小維度的空間中,并使得詞表示包含了更多的語(yǔ)義信息[16]。本文使用兩種預(yù)訓(xùn)練詞向量方法:Glove[17]與Word2vec[18]。Glove 模型于2014年被提出,是一種基于全局信息的單詞向量表示。該模型同時(shí)利用了全局的統(tǒng)計(jì)信息和局部上下文信息,經(jīng)過(guò)預(yù)先訓(xùn)練可得到一套完整的詞向量集。對(duì)于Word2vec,本文使用其中的一種——連續(xù)詞袋模型(continuous bag-of-words model,CBOW)來(lái)預(yù)訓(xùn)練詞向量。該模型從周?chē)~預(yù)測(cè)中心詞,使得訓(xùn)練的詞嵌入較為集中,更容易學(xué)習(xí)源語(yǔ)言和目標(biāo)語(yǔ)言中對(duì)應(yīng)詞的映射關(guān)系。其似然函數(shù)是由背景詞生成任一中心詞的概率[19],計(jì)算公式如式(1)所示:
(1)
其中:T為文本序列長(zhǎng)度;w(t)表示時(shí)間步為t時(shí)的詞;m為背景窗口大小。設(shè)vi和ui分別表示詞典中索引為i的詞作為背景詞和中心詞的向量,中心詞wc在詞典中的索引為c,則以wo為背景詞的中心詞wc的出現(xiàn)概率P(wc|wo)可以通過(guò)softmax函數(shù)求得:
(2)
其中:V為所有詞語(yǔ)組成的詞匯表;vo為背景詞向量的平均。由此可見(jiàn),Word2vec雖然學(xué)習(xí)到了詞的局部信息,但沒(méi)有考慮到詞與局部窗口外詞的聯(lián)系,也忽略了計(jì)算代價(jià)高昂的事實(shí)。Glove在Word2vec的基礎(chǔ)上利用了共現(xiàn)矩陣,使得訓(xùn)練得到的詞向量泛化能力更強(qiáng)。本文通過(guò)Word2vec利用大規(guī)模電氣領(lǐng)域單語(yǔ)語(yǔ)料訓(xùn)練得到包含更多術(shù)語(yǔ)信息的詞向量表示,結(jié)合Glove在大規(guī)模通用單語(yǔ)語(yǔ)料上訓(xùn)練得到的詞向量表示,使得語(yǔ)料中的每個(gè)詞都得到充分的向量表示。
目前,對(duì)機(jī)器翻譯的研究可以分為通用領(lǐng)域機(jī)器翻譯和特定的垂直領(lǐng)域機(jī)器翻譯。前者使用通用語(yǔ)料訓(xùn)練,其訓(xùn)練出的神經(jīng)機(jī)器翻譯模型在通用語(yǔ)義環(huán)境下翻譯出色,而在特定的專(zhuān)業(yè)領(lǐng)域文本中表現(xiàn)很差。而后者大多只使用本領(lǐng)域有限的雙語(yǔ)語(yǔ)料作為訓(xùn)練集,限制了詞向量對(duì)詞本身所包含信息的學(xué)習(xí),導(dǎo)致訓(xùn)練出的模型泛化能力弱。本文利用Word2vec訓(xùn)練出包含術(shù)語(yǔ)信息的詞向量,并與Glove訓(xùn)練出的包含通用語(yǔ)料全局和局部上下文信息的詞向量結(jié)合,同時(shí)提升了模型在電氣領(lǐng)域的翻譯性能及泛化能力。
首先,使用Word2vec在大規(guī)模電氣領(lǐng)域單語(yǔ)語(yǔ)料上預(yù)訓(xùn)練得到的詞向量初始化模型的嵌入矩陣。利用Glove在大規(guī)模通用單語(yǔ)語(yǔ)料上預(yù)訓(xùn)練好的公開(kāi)詞向量集,與翻譯模型生成的數(shù)據(jù)集詞表對(duì)照,對(duì)于兩者共同出現(xiàn)的常見(jiàn)單詞,使用Glove詞向量替換嵌入矩陣中對(duì)應(yīng)的向量。數(shù)據(jù)集詞表中的其他單詞的詞向量則保持不變,依舊使用Word2vec初始化的詞向量。這樣將兩種方式結(jié)合起來(lái),用Glove初始化常見(jiàn)詞,用Word2vec初始化不常見(jiàn)的專(zhuān)業(yè)術(shù)語(yǔ)詞匯,從而使得數(shù)據(jù)集詞表中的所有詞匯都得到了很好的表示,彌補(bǔ)了語(yǔ)料規(guī)模小、領(lǐng)域不匹配的問(wèn)題。
為了對(duì)電氣領(lǐng)域語(yǔ)料中由于專(zhuān)業(yè)術(shù)語(yǔ)產(chǎn)生的未登錄詞(unknown words,UNK)進(jìn)行查找替換,本文在中英文分詞時(shí)將電氣術(shù)語(yǔ)詞典添加為自定義分詞詞典,把電氣專(zhuān)業(yè)術(shù)語(yǔ)更好地分割為一個(gè)整體詞匯。同時(shí),將術(shù)語(yǔ)詞典作為翻譯系統(tǒng)的外部詞典,對(duì)模型翻譯出來(lái)的句子進(jìn)行未登錄詞查找替換。在進(jìn)行中文分詞時(shí),采用jieba分詞的精確模式,并利用其自定義詞典功能,將術(shù)語(yǔ)詞典添加到分詞詞典中,在一定程度上保證了電氣專(zhuān)業(yè)領(lǐng)域術(shù)語(yǔ)的專(zhuān)業(yè)性、完整性以及一些特殊詞匯的組合性,提升了其在電氣專(zhuān)業(yè)語(yǔ)料上的分詞效果。為了與中文句子中電氣專(zhuān)業(yè)術(shù)語(yǔ)的分詞相對(duì)應(yīng),本文使用NLTK分詞工具中的MWETokenizer短語(yǔ)分詞器,將術(shù)語(yǔ)詞典中的短語(yǔ)設(shè)置為自定義詞語(yǔ)來(lái)對(duì)英文句子進(jìn)行分詞。這樣就使得模型可以準(zhǔn)確地學(xué)習(xí)到術(shù)語(yǔ)詞典中短語(yǔ)的映射關(guān)系。當(dāng)翻譯第i個(gè)句子時(shí),對(duì)該句子中每一個(gè)詞判斷其是否在術(shù)語(yǔ)詞典中,以此來(lái)尋找句子中是否存在專(zhuān)業(yè)術(shù)語(yǔ)。若存在,則將該句子中的術(shù)語(yǔ)詞加入到臨時(shí)的專(zhuān)業(yè)術(shù)語(yǔ)列表中。當(dāng)解碼過(guò)程中出現(xiàn)未登錄詞時(shí),使用列表中對(duì)應(yīng)的術(shù)語(yǔ)詞對(duì)其進(jìn)行替換。這樣的做法,在一定程度上從側(cè)面解決了識(shí)別句子中電氣專(zhuān)業(yè)術(shù)語(yǔ)的問(wèn)題。與訓(xùn)練并使用命名實(shí)體詞識(shí)別模型來(lái)識(shí)別專(zhuān)業(yè)術(shù)語(yǔ)的方法相比,本文提出的方法更加簡(jiǎn)潔有效,省去了許多麻煩,并最終使得翻譯模型在電氣領(lǐng)域中的翻譯效果得到了提升。
鑒于目標(biāo)領(lǐng)域語(yǔ)料的特點(diǎn),本文選擇UM-Corpus[20]中與其相近的關(guān)于科技論文主題的30萬(wàn)個(gè)句子對(duì)作為訓(xùn)練語(yǔ)料。將收集到的電氣專(zhuān)業(yè)領(lǐng)域語(yǔ)料作為驗(yàn)證集和測(cè)試集。其中,驗(yàn)證集為20 000句對(duì),測(cè)試集為12 000句對(duì)。這些電氣領(lǐng)域語(yǔ)料的來(lái)源主要有:公開(kāi)專(zhuān)業(yè)文獻(xiàn)資料、電氣方面的中英對(duì)照書(shū)籍[21~23]、詞典中包含電氣術(shù)語(yǔ)的例句、官方組織發(fā)布的權(quán)威標(biāo)準(zhǔn)以及互聯(lián)網(wǎng)中一些與電氣相關(guān)的技術(shù)論壇、官方網(wǎng)站等,確保了語(yǔ)料的權(quán)威性、專(zhuān)業(yè)性和準(zhǔn)確性。除此之外,本文還收集了包含電工學(xué)、電機(jī)工程、電力工程、電氣自動(dòng)化以及機(jī)械工程專(zhuān)業(yè)共471 945條相關(guān)術(shù)語(yǔ)作為外部術(shù)語(yǔ)詞典。
2.2.1 實(shí)驗(yàn)數(shù)據(jù)及參數(shù)配置
本文使用Pytorch復(fù)現(xiàn)了Attention_nmt模型[4]以及其他3個(gè)經(jīng)典的神經(jīng)機(jī)器翻譯模型(Seq2seq模型[3]、Luong_nmt模型[5]、Coverage_nmt模型[6])作為對(duì)比模型,來(lái)驗(yàn)證改進(jìn)方法的有效性。在4個(gè)模型中,編碼器和解碼器的隱藏層單元個(gè)數(shù)均設(shè)置為256,批大小為32。由于本文所針對(duì)的電氣專(zhuān)業(yè)領(lǐng)域語(yǔ)料多來(lái)源于科技論文,具有長(zhǎng)難句多的特點(diǎn),因此實(shí)驗(yàn)將訓(xùn)練模型所用語(yǔ)料的句子長(zhǎng)度均限制在100個(gè)單詞以內(nèi),長(zhǎng)度大于100個(gè)單詞的句子將被過(guò)濾掉。中文端和英文端詞典大小均設(shè)定為40 000。用單詞“UNK”取代其他不在詞表中的低頻詞。實(shí)驗(yàn)中其他參數(shù)的設(shè)定均保持一致,學(xué)習(xí)率設(shè)置為0.000 5,并使用隨機(jī)梯度下降算法和Adam算法訓(xùn)練模型。模型翻譯結(jié)果通過(guò)雙語(yǔ)互譯質(zhì)量評(píng)估輔助工具BLEU以及準(zhǔn)確率進(jìn)行評(píng)估。
2.2.2 翻譯系統(tǒng)評(píng)價(jià)指標(biāo)
BLEU算法[24]是目前業(yè)界公認(rèn)的機(jī)器翻譯質(zhì)量評(píng)估方法。該方法認(rèn)為,機(jī)器翻譯的結(jié)果與人工翻譯的結(jié)果越接近,機(jī)器翻譯的質(zhì)量越高。因此,BLEU算法的實(shí)質(zhì)就是計(jì)算機(jī)器翻譯句子與人工翻譯句子的相似度。首先,統(tǒng)計(jì)兩者同時(shí)出現(xiàn)n-gram的次數(shù),并取較小值作為最終匹配個(gè)數(shù),再除以機(jī)器譯文的總n-gram數(shù),從而得到修改后的精度得分pn,計(jì)算公式如式(3)~式(4)所示:
Countclip(n-gram)=min{Count(n-gram),MaxRefCount(n-gram)};
(3)
(4)
其中:Count(n-gram)為n元詞在翻譯結(jié)果中出現(xiàn)的次數(shù),MaxRefCount(n-gram)為n元詞在一個(gè)句子的參考翻譯結(jié)果中最大出現(xiàn)的次數(shù)。對(duì)pn求對(duì)數(shù)的算術(shù)平均并加入長(zhǎng)度懲罰因子BP,就得到了評(píng)價(jià)結(jié)果BLEU值,計(jì)算公式如式(5)~式(6)所示:
(5)
(6)
其中:c為實(shí)際機(jī)器翻譯句子的長(zhǎng)度;r為人工翻譯的參考譯文的長(zhǎng)度。BLEU-1值為單獨(dú)的1-gram分?jǐn)?shù),即當(dāng)前一元組權(quán)重為1,其他元組的權(quán)重均為0 時(shí)的BLEU值。
除了計(jì)算BLEU值之外,本文還進(jìn)行了測(cè)試集準(zhǔn)確率的計(jì)算,將機(jī)器譯文與參考譯文中的詞進(jìn)行對(duì)比計(jì)算,得到翻譯模型的準(zhǔn)確率,從而對(duì)機(jī)器翻譯結(jié)果的忠誠(chéng)度進(jìn)行評(píng)測(cè),其計(jì)算公式如式(7)所示。
(7)
其中:T為機(jī)器翻譯的句子;Wright為每個(gè)機(jī)器譯文中翻譯正確的詞數(shù)量;Wnum為每個(gè)機(jī)器譯文中翻譯詞的總數(shù)量。
2.3.1 未登錄詞查找替換對(duì)比實(shí)驗(yàn)

表1 未登錄詞查找替換實(shí)驗(yàn)效果對(duì)比
本文以Attention_nmt模型為基線模型,對(duì)未登錄詞查找替換的改進(jìn)效果進(jìn)行實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果如表1所示(表1中,“+”表示改進(jìn)后的模型)。改進(jìn)后得到的BLEU-1值較原模型提高了1.542,準(zhǔn)確率提高了12.029%,整體BLEU值也有所提升。證明改進(jìn)后,更多的詞被單獨(dú)翻譯出來(lái),提高了翻譯的忠誠(chéng)度。
分析整體BLEU值提升較低的原因可能有兩點(diǎn):一方面,Attention_nmt模型在注意力機(jī)制的作用下已經(jīng)能夠很好地學(xué)習(xí)到句子的上下文信息,而本文的改進(jìn)只是針對(duì)提高語(yǔ)料中電氣術(shù)語(yǔ)詞的翻譯,并不能對(duì)模型整體翻譯的流暢性以及長(zhǎng)距離依賴問(wèn)題起到很好的提升作用。另一方面,本文針對(duì)電氣領(lǐng)域翻譯對(duì)中英文分詞做出的改進(jìn),在一定程度上增大了切分粒度。在源端和目標(biāo)端均將電氣術(shù)語(yǔ)詞的特殊組合看作一個(gè)整體來(lái)處理,將電氣術(shù)語(yǔ)的粒度從詞語(yǔ)變成了詞組,因而可能會(huì)對(duì)模型的學(xué)習(xí)優(yōu)化產(chǎn)生影響。
2.3.2 嵌入層參數(shù)初始化方法對(duì)比實(shí)驗(yàn)
對(duì)于Word2vec初始化方式,實(shí)驗(yàn)使用大約各95萬(wàn)條中文和英文混合單語(yǔ)語(yǔ)料對(duì)其進(jìn)行訓(xùn)練得到詞向量,并初始化模型的嵌入層參數(shù)。這些混合單語(yǔ)語(yǔ)料大約包含了65萬(wàn)條電氣領(lǐng)域語(yǔ)料和30萬(wàn)條通用語(yǔ)料。對(duì)于Glove初始化方式,實(shí)驗(yàn)使用其官方網(wǎng)站[17]公開(kāi)的預(yù)訓(xùn)練好的詞向量文件,其中包含詞數(shù)840 B,詞表大小2.2 M,詞向量維度為300。本文以添加未登錄詞查找替換后的Attention_nmt模型為基礎(chǔ),對(duì)不同嵌入層初始化方法進(jìn)行對(duì)比。不同嵌入層初始化方法結(jié)果對(duì)比如表2所示。

表2 不同嵌入層初始化方法結(jié)果對(duì)比
分析表2可知:
(1)對(duì)比初始化方法1、2、3,在模型源端或目標(biāo)端中任一端采用Word2vec預(yù)訓(xùn)練詞向量去初始化嵌入層參數(shù),均能使模型的性能得到大幅度的提升,尤其是BLEU-1值,方法2和方法3較方法1分別提高了6.221和6.415。證明對(duì)于小型數(shù)據(jù)集及跨領(lǐng)域機(jī)器翻譯,預(yù)訓(xùn)練詞向量的必要性和有效性。
(2)對(duì)比初始化方法2、3、4,在模型源端和目標(biāo)端均采用Word2vec預(yù)訓(xùn)練詞向量去初始化嵌入層參數(shù),雖然與方法1相比BLEU值也得到了大幅度提升,但與任一端保持隨機(jī)初始化的方法2、3相比,方法4的BLEU值提升的幅度減小了很多,方法4的BLEU-1值較方法1也僅提升了4.215。分析其原因可能是由于在翻譯任務(wù)中,源端和目標(biāo)端是兩種不同的語(yǔ)言,需要使用兩套在不同語(yǔ)言的語(yǔ)料集上預(yù)訓(xùn)練的詞向量,而在不同的數(shù)據(jù)集上訓(xùn)練的詞向量并不能很好地契合,導(dǎo)致在源語(yǔ)言和目標(biāo)語(yǔ)言中表示同一意思的詞在詞向量上會(huì)有很大的差異,這一差異對(duì)模型性能產(chǎn)生了一定的影響。
(3)對(duì)比初始化方法1、2、5,將Word2vec與Glove結(jié)合起來(lái)去初始化模型嵌入層參數(shù)的方法較其他初始化方法得到了更好的翻譯效果,其BLEU-1值較方法1提高了8.712,較方法2提高了2.491。分析其翻譯效果提升的原因有兩點(diǎn):一方面,該方法的本質(zhì)是使用Glove預(yù)訓(xùn)練的詞向量去初始化數(shù)據(jù)集詞表中出現(xiàn)的常用單詞,同時(shí)使用Word2vec預(yù)訓(xùn)練的詞向量去初始化數(shù)據(jù)集詞表中出現(xiàn)的罕見(jiàn)單詞,即專(zhuān)業(yè)術(shù)語(yǔ)詞匯。因?yàn)镚love預(yù)訓(xùn)練的詞向量表示是在大規(guī)模通用語(yǔ)料上訓(xùn)練得到的,Word2vec預(yù)訓(xùn)練的詞向量是在大規(guī)模電氣領(lǐng)域單語(yǔ)語(yǔ)料上訓(xùn)練得到的,所以數(shù)據(jù)集詞表中的常見(jiàn)詞和專(zhuān)業(yè)術(shù)語(yǔ)詞都能得到很好的詞向量表示。另一方面,Glove在Word2vec的基礎(chǔ)上,添加了全局的基于詞語(yǔ)共現(xiàn)頻率的統(tǒng)計(jì)信息,訓(xùn)練得到了泛化能力更強(qiáng)的詞向量。用這些詞向量來(lái)初始化常見(jiàn)詞的表示,也更有利于電氣領(lǐng)域語(yǔ)料的翻譯。
表3是采用隨機(jī)初始化的基線系統(tǒng)和改進(jìn)嵌入層參數(shù)初始化后模型的翻譯結(jié)果對(duì)比。由表3可知:改進(jìn)后的翻譯質(zhì)量相比于基線系統(tǒng)都有了明顯的改善。相比于采用隨機(jī)初始化的翻譯結(jié)果,本文提出的嵌入層參數(shù)初始化方法,在一定程度上減少了未登錄詞的數(shù)量,提高了語(yǔ)料中電氣術(shù)語(yǔ)詞翻譯的準(zhǔn)確性,使得訓(xùn)練得到的翻譯結(jié)果語(yǔ)義更為完整,句子更為流暢,更加符合漢語(yǔ)的語(yǔ)言習(xí)慣。

表3 翻譯結(jié)果比較
2.3.3 整體改進(jìn)效果對(duì)比

表4 不同翻譯模型的BLEU值對(duì)比
為了評(píng)估嵌入層參數(shù)初始化方法的有效性,實(shí)驗(yàn)選取了3個(gè)經(jīng)典的_nmt模型作為對(duì)比。實(shí)驗(yàn)結(jié)果如表4所示(表4中,“++”表示使用方法5初始化的Attention_nmt+模型),其中Luong_nmt模型采用其論文中表現(xiàn)最好的local_p(predictive alignment)局部注意力機(jī)制進(jìn)行訓(xùn)練。實(shí)驗(yàn)中對(duì)比模型的源端和目標(biāo)端詞向量均使用隨機(jī)初始化。由表4可以看出:整體改進(jìn)后模型Attention_nmt++在電氣領(lǐng)域語(yǔ)料上的翻譯效果不僅明顯優(yōu)于自身原模型2.713個(gè)BLEU值點(diǎn),同時(shí)也優(yōu)于其他3個(gè)對(duì)比模型。與表現(xiàn)最優(yōu)的Luong_nmt基線模型相比,改進(jìn)后模型Attention_nmt++的BLEU值提升0.932個(gè)百分點(diǎn),BLEU-1值提升了3.031個(gè)百分點(diǎn),準(zhǔn)確率提升15.005個(gè)百分點(diǎn),在電氣領(lǐng)域的翻譯任務(wù)上取得了更好的翻譯效果。
本文針對(duì)神經(jīng)網(wǎng)絡(luò)模型在電氣領(lǐng)域英漢翻譯任務(wù)上的不足,提出了一種融合領(lǐng)域術(shù)語(yǔ)信息的嵌入層參數(shù)初始化方法,并利用術(shù)語(yǔ)詞典對(duì)未登錄詞進(jìn)行查找替換。緩解了由于訓(xùn)練文本缺乏針對(duì)性而導(dǎo)致的專(zhuān)業(yè)詞匯錯(cuò)漏等問(wèn)題,有效地提升了翻譯模型在電氣領(lǐng)域內(nèi)的翻譯效果,同時(shí)也降低了對(duì)領(lǐng)域內(nèi)平行語(yǔ)料的依賴。最終將電氣領(lǐng)域測(cè)試集的譯文BLEU值提高了2.713個(gè)點(diǎn)。在下一步的工作中,將嘗試對(duì)神經(jīng)網(wǎng)絡(luò)模型本身進(jìn)行改進(jìn),來(lái)提升模型在電氣專(zhuān)業(yè)領(lǐng)域翻譯上的整體性能。