尹寶生 張斌斌 李紹鳴
(沈陽(yáng)航空航天大學(xué) 遼寧 沈陽(yáng) 110136)
(遼寧省知識(shí)工程與人機(jī)智能研究中心 遼寧 沈陽(yáng) 110136)
雙語(yǔ)詞匯的提取和對(duì)齊在跨語(yǔ)言檢索和雙語(yǔ)詞典的建立中起著重要的作用。雙語(yǔ)詞對(duì)齊也是統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中關(guān)鍵的一步,詞對(duì)齊的準(zhǔn)確率將直接影響翻譯系統(tǒng)的性能。此外,經(jīng)過(guò)標(biāo)注詞對(duì)齊信息的語(yǔ)料具有很大的應(yīng)用價(jià)值。它能為詞典編撰、跨語(yǔ)言信息檢索和語(yǔ)義消歧等自然語(yǔ)言處理任務(wù)提供重要的支撐。因此,研究和實(shí)現(xiàn)高質(zhì)量的雙語(yǔ)詞對(duì)齊方法和工具,具有很大的研究?jī)r(jià)值。
本文的主要貢獻(xiàn)可以概括為以下兩點(diǎn):
(1) 分析英語(yǔ)與漢語(yǔ)的語(yǔ)言特征,以英語(yǔ)為基準(zhǔn),制定標(biāo)注規(guī)范,在英中句對(duì)齊的數(shù)據(jù)集上使用GIZA++工具實(shí)現(xiàn)了英語(yǔ)單詞與中文漢字間的對(duì)應(yīng)關(guān)系并依此構(gòu)建了英中雙語(yǔ)詞對(duì)齊語(yǔ)料。
(2) 在建立語(yǔ)料庫(kù)基礎(chǔ)上,本文提出在神經(jīng)網(wǎng)絡(luò)的編碼層融合線性句法樹(shù)結(jié)構(gòu)信息,在神經(jīng)網(wǎng)絡(luò)部分使用BiLSTM結(jié)合TextCNN的方法來(lái)實(shí)現(xiàn)關(guān)于詞對(duì)齊任務(wù)的神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建。
在詞對(duì)齊的研究中,經(jīng)典的非監(jiān)督詞對(duì)齊方法主要是基于IBM1-IBM5模型詞對(duì)齊方法和基于HMM[1]模型的詞對(duì)齊方法。GIZA++工具將這兩種模型都進(jìn)行了實(shí)現(xiàn),因此很多的研究者都使用GIZA++來(lái)進(jìn)行詞對(duì)齊,本文也將使用此工具進(jìn)行英漢詞對(duì)齊的實(shí)驗(yàn)。謝庚全[2]利用GIZA++工具在英漢平行語(yǔ)料上手動(dòng)對(duì)齊,對(duì)齊速度比單純的無(wú)監(jiān)督對(duì)齊的方法有了大幅度提升,準(zhǔn)確率比其他純自動(dòng)詞對(duì)齊法也有所提升。有很多學(xué)者使用機(jī)器學(xué)習(xí)來(lái)進(jìn)行詞對(duì)齊任務(wù),趙東玥[3]利用雙語(yǔ)詞典對(duì)語(yǔ)料標(biāo)注了少量信息,選取了候選術(shù)語(yǔ)翻譯對(duì)的多種統(tǒng)計(jì)學(xué)特征,使用半監(jiān)督學(xué)習(xí)在雙語(yǔ)語(yǔ)料間進(jìn)行雙語(yǔ)術(shù)語(yǔ)對(duì)齊。近年來(lái)隨著深度學(xué)習(xí)模型的快速發(fā)展,很多學(xué)者使用深度學(xué)習(xí)方法對(duì)詞對(duì)齊進(jìn)行建模,莫媛媛等[4]提出了一種基于深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)擴(kuò)展HMM 的漢—越雙語(yǔ)詞語(yǔ)對(duì)齊方法,在大規(guī)模的漢—越雙語(yǔ)詞語(yǔ)對(duì)齊任務(wù)上該方法的準(zhǔn)確率、召回率有明顯的提高,并且詞語(yǔ)對(duì)齊錯(cuò)誤率大大降低。周嘉劍[5]在雙語(yǔ)詞對(duì)齊任務(wù)上使用(Recurrent Neural Network, RNN)網(wǎng)絡(luò),詞對(duì)齊效果比DNN網(wǎng)絡(luò)有明顯提升。為了讓神經(jīng)網(wǎng)絡(luò)學(xué)到更多的語(yǔ)義知識(shí),有很多學(xué)者在神經(jīng)網(wǎng)絡(luò)中融入統(tǒng)計(jì)特征或者其他外部信息,賈善崇等[6]針對(duì)老撾語(yǔ)與中文的句子上下文信息,從句子所含動(dòng)詞、名詞和形容詞等詞序進(jìn)行句子對(duì)齊,該方法在對(duì)齊的篇章級(jí)語(yǔ)料中的提取對(duì)齊句子有較好的表現(xiàn)。在當(dāng)前解決雙語(yǔ)詞對(duì)齊任務(wù)的方法中,存在以下兩個(gè)主要問(wèn)題:
(1) 在訓(xùn)練過(guò)程中通常需要大量的標(biāo)注好的詞對(duì)齊數(shù)據(jù),而人工標(biāo)注的對(duì)齊數(shù)據(jù)又太少,不能滿(mǎn)足訓(xùn)練需求。
(2) 現(xiàn)有的詞對(duì)齊方法往往通過(guò)統(tǒng)計(jì)信息進(jìn)行對(duì)齊,沒(méi)有充分考慮不同語(yǔ)言之間的特征表達(dá)上的差異。現(xiàn)有的方法使用神經(jīng)網(wǎng)絡(luò)來(lái)完成詞對(duì)齊任務(wù)時(shí)仍不能提取到更全面的跨語(yǔ)言的語(yǔ)義信息。
針對(duì)這兩個(gè)問(wèn)題,本文提出一種在英中句對(duì)齊的數(shù)據(jù)集上使用GIZA++工具實(shí)現(xiàn)了在雙語(yǔ)句對(duì)齊語(yǔ)料上無(wú)監(jiān)督的構(gòu)建雙語(yǔ)詞對(duì)齊數(shù)據(jù)集,并在該數(shù)據(jù)集基礎(chǔ)上,在BiLSTM網(wǎng)絡(luò)的編碼層融合源語(yǔ)言與目標(biāo)語(yǔ)言的線性句法樹(shù)結(jié)構(gòu),并后續(xù)接入TextCNN網(wǎng)絡(luò)再對(duì)句子級(jí)別的特征進(jìn)行提取,對(duì)詞對(duì)齊任務(wù)進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建。
該模型主要由三部分組成,分別是GIZA++自動(dòng)詞對(duì)齊生成數(shù)據(jù)集部分、對(duì)數(shù)據(jù)集進(jìn)行線性句法結(jié)構(gòu)分析部分、神經(jīng)網(wǎng)絡(luò)部分,本文的完整模型訓(xùn)練流程如圖1所示。
詞對(duì)齊的主要任務(wù)是確定兩種語(yǔ)言句子中單詞的映射關(guān)系。本文中將詞對(duì)齊定義為給定一個(gè)互譯的雙語(yǔ)句對(duì),本文中源語(yǔ)言句子表示為英文,目標(biāo)語(yǔ)言為 中文,例如,圖2中展示了本文中具體一個(gè)詞對(duì)齊關(guān)系的展示。

圖2 詞對(duì)齊具體展示
基于統(tǒng)計(jì)特征的雙語(yǔ)詞對(duì)齊方法在源語(yǔ)言與目標(biāo)語(yǔ)言的多種對(duì)應(yīng)關(guān)系中,往往很多模型都假設(shè)在其中的一種,GIZA++是常用的詞對(duì)齊抽取工具,GIZA++在計(jì)算源語(yǔ)言英文與目標(biāo)語(yǔ)言中文之間翻譯概率的同時(shí),也產(chǎn)生了詞對(duì)齊文件。本文使用UTF-8作為統(tǒng)一的字符集。所以,在預(yù)處理時(shí),將所有的中文都轉(zhuǎn)換成簡(jiǎn)體。還需要將無(wú)效的字符除去,無(wú)效的字符有中文標(biāo)點(diǎn)、希臘字母、特殊符號(hào)、無(wú)意義字母組合,在去除上述字符的同時(shí),將英文大寫(xiě)轉(zhuǎn)成小寫(xiě)。為降低翻譯過(guò)程中運(yùn)算復(fù)雜度以及避免句子被分詞工具過(guò)度切分,英文句子中的token是每個(gè)單詞,中文中的token是每個(gè)漢字。
本文是將詞對(duì)齊任務(wù)建模成序列標(biāo)注任務(wù),為了實(shí)現(xiàn)這一目標(biāo),需要處理GIZA++生成的雙語(yǔ)詞對(duì)齊文件,交換源語(yǔ)言與目標(biāo)語(yǔ)言運(yùn)行兩次GIZA++,取IBM3生成的文件進(jìn)行處理,示例如圖3所示。輸入到后續(xù)神經(jīng)網(wǎng)絡(luò)中的是兩部分,一部分是英文句子與對(duì)應(yīng)中文句子的拼接句子,另一部分是句子的標(biāo)簽,句子的標(biāo)簽以字母“B”與數(shù)字組合,數(shù)字表示對(duì)齊詞的順序,標(biāo)注“O”代表無(wú)意義詞或找不到與該詞對(duì)應(yīng)的詞。

圖3 生成詞對(duì)齊數(shù)據(jù)集,制定標(biāo)注規(guī)范
短語(yǔ)結(jié)構(gòu)語(yǔ)法分析(Phrase Structure Grammer,PSG)作用是識(shí)別出句子中的短語(yǔ)結(jié)構(gòu)以及短語(yǔ)之間的層次句法關(guān)系。在本文中,短語(yǔ)句法分析選擇與經(jīng)過(guò)GIZA++進(jìn)行詞對(duì)齊分析相同的數(shù)據(jù),這樣做是為了保證訓(xùn)練數(shù)據(jù)使用的短語(yǔ)句法知識(shí)數(shù)據(jù)的一致性。短語(yǔ)句法線性化方法遵循Li等[7]的方法。為了獲得一個(gè)單詞在其短語(yǔ)句法樹(shù)中的結(jié)構(gòu)上下文,理想的情況下,模型不僅應(yīng)該捕獲和記住整個(gè)句法樹(shù)結(jié)構(gòu),而且應(yīng)該區(qū)分任意兩個(gè)不同詞的上下文。然而,考慮到缺乏直接對(duì)結(jié)構(gòu)信息建模的有效方法,另一種方法是將短語(yǔ)句法樹(shù)線性化為一個(gè)結(jié)構(gòu)標(biāo)簽序列,并通過(guò)該序列學(xué)習(xí)結(jié)構(gòu)上下文。將短語(yǔ)句法分析樹(shù)按照深度優(yōu)先遍歷順序抽取。Choe等[8]按照深度優(yōu)先遍歷順序?qū)⒍陶Z(yǔ)句法樹(shù)線性化為結(jié)構(gòu)標(biāo)記序列也被廣泛地采用在神經(jīng)句法分析的最新進(jìn)展中,這表明線性化序列可以被視為其樹(shù)結(jié)構(gòu)的替代。例如,圖4顯示按照深度優(yōu)先遍歷順序顯示了中文句子與英文句子的結(jié)構(gòu)標(biāo)簽序列的生成。

圖4 線性句法結(jié)構(gòu)分析
本文使用句法分析工具Stanford CoreNLP對(duì)源語(yǔ)言和目標(biāo)語(yǔ)言進(jìn)行句法分析,分別得到英文的句法分析樹(shù)和中文的句法分析樹(shù),將兩種語(yǔ)言的句法結(jié)構(gòu)進(jìn)行線性分析后得到的序列進(jìn)行embedding,并將embedding后的結(jié)果進(jìn)行按位加和。
LSTM[9]網(wǎng)絡(luò)引入了記憶單元和門(mén)控機(jī)制,這一機(jī)制的引用實(shí)現(xiàn)了對(duì)上文長(zhǎng)距離信息的有效利用從而解決了之前RNN 模型中存在的梯度消失或者爆炸問(wèn)題。但是LSTM只考慮文本的上文信息,并不能有效解決雙語(yǔ)對(duì)齊問(wèn)題中的新詞發(fā)現(xiàn)問(wèn)題,BiLSTM在解決序列標(biāo)注類(lèi)的問(wèn)題有更好的表現(xiàn)[10]。所以本文選擇了BiLSTM網(wǎng)絡(luò),既可以考慮上文信息,又可以考慮下文信息,對(duì)以往出現(xiàn)的詞和新詞能更有效地提取信息。李志杰等[11]提出了一種LSTM與TextCNN聯(lián)合的模型實(shí)現(xiàn)了對(duì)文本的分類(lèi),經(jīng)過(guò)測(cè)試比較之后發(fā)現(xiàn)優(yōu)于單模型LSTM和TextCNN。TextCNN模型的主要思想是將不同長(zhǎng)度的短文作為矩陣輸入,使用多個(gè)不同大小的過(guò)濾器去提取句子中的關(guān)鍵信息并用于最終的分類(lèi)。于是本文為了能更好地提取拼接句子的整句特征,在BiLSTM后接入TextCNN模型。TextCNN層的輸入即前面BiLSTM網(wǎng)絡(luò)輸出的向量矩陣,在該輸入的基礎(chǔ)上,使用卷積窗口進(jìn)行卷積并通過(guò)函數(shù)激活得到特征圖。實(shí)驗(yàn)中將每個(gè)特征圖向量中最大的一個(gè)值抽取出來(lái),組成一個(gè)一維向量,可捕獲其最重要的特征。該層的輸入為池化操作后全連接成的n維向量,經(jīng)過(guò)激活函數(shù)輸出最后的分類(lèi)。本部分所述實(shí)驗(yàn)?zāi)P腿鐖D5所示。

圖5 BiLSTM+TextCNN網(wǎng)絡(luò)
但由于BiLSTM結(jié)構(gòu)從源語(yǔ)言和目標(biāo)語(yǔ)言中無(wú)法顯式地學(xué)習(xí)句子結(jié)構(gòu)及句子成分。因此本文提出在神經(jīng)網(wǎng)絡(luò)的編碼層融入雙語(yǔ)的線性句法結(jié)構(gòu),本文所述實(shí)驗(yàn)融入句法信息的整體結(jié)構(gòu)如圖6所示,圖6虛線框部分是將雙語(yǔ)線性句法結(jié)構(gòu)信息融入進(jìn)神經(jīng)網(wǎng)絡(luò),圖6左側(cè)BiLSTM的輸入是英文線性句法結(jié)構(gòu)樹(shù)的編碼e與中文線性句法結(jié)構(gòu)的編碼z的和,右側(cè)BiLSTM的輸入是源語(yǔ)言與目標(biāo)語(yǔ)言拼接后使用Word2vec訓(xùn)練的詞向量編碼k,后續(xù)TextCNN網(wǎng)絡(luò)的輸入為前面兩部分BiLSTM輸出的向量矩陣的和。

圖6 融合PSG的BiLSTM+TextCNN
本文將詞對(duì)齊轉(zhuǎn)為序列標(biāo)注問(wèn)題,在上述模型輸出結(jié)果之后,傳入softmax分類(lèi)器,利用softmax層對(duì)結(jié)果的標(biāo)簽選擇做多分類(lèi),softmax分類(lèi)器的計(jì)算方式如式(1)所示。K表示類(lèi)別數(shù)目, 本文中的類(lèi)別是B0至B8、“O”和padding“0”,表示每個(gè)句子中第1個(gè)至第9個(gè)對(duì)齊的詞、無(wú)意義詞的詞,以及padding“0”共11類(lèi),那么對(duì)于類(lèi)別k的概率計(jì)算公式如式(2)所示,將具有最高概率的標(biāo)注作為最終的結(jié)果。
y′=wy+b
(1)
式中,y′為實(shí)際類(lèi)別;y為神經(jīng)網(wǎng)絡(luò)的輸出;w是權(quán)重矩陣;b是偏置矩陣。
(2)
本節(jié)為使用本文采用的損失函數(shù)為多分類(lèi)交叉熵來(lái)訓(xùn)練模型,將輸入數(shù)據(jù)x傳入模型,得到真實(shí)標(biāo)簽為y,模型的輸出代表了類(lèi)別的概率,訓(xùn)練目標(biāo)是最小化損失函數(shù),損失函數(shù)如式(3)所示。
本文采用的評(píng)價(jià)標(biāo)準(zhǔn)為詞對(duì)齊的準(zhǔn)確率,準(zhǔn)確率是指分類(lèi)器分類(lèi)正確的樣本在數(shù)據(jù)集中占的比例。
(3)
式中:K為標(biāo)簽的數(shù)量;yi為真實(shí)的預(yù)測(cè)標(biāo)簽,也就是i的類(lèi)別;pi是神經(jīng)網(wǎng)絡(luò)的輸出,也就是指類(lèi)別是i的概率。采用隨機(jī)梯度下降算法優(yōu)化網(wǎng)絡(luò)參數(shù),優(yōu)化器為adam。
本節(jié)將設(shè)置GIZA++進(jìn)行詞對(duì)齊實(shí)驗(yàn),并在GIZA++對(duì)齊的數(shù)據(jù)集上設(shè)計(jì)標(biāo)注方式,實(shí)現(xiàn)英文單詞與中文漢字間一個(gè)單詞對(duì)應(yīng)連續(xù)的多個(gè)漢字與一個(gè)單詞對(duì)應(yīng)多個(gè)間斷的漢字間的關(guān)系,建立英中詞對(duì)齊數(shù)據(jù)集,并在該數(shù)據(jù)集上搭建多種網(wǎng)絡(luò)模型。最后將會(huì)給出多種模型對(duì)該數(shù)據(jù)集的對(duì)齊結(jié)果的準(zhǔn)確率,并針對(duì)實(shí)驗(yàn)結(jié)果予以分析。
為了保證句平行語(yǔ)料的權(quán)威性與準(zhǔn)確性,本文的語(yǔ)料來(lái)源是英中句對(duì)齊的公開(kāi)專(zhuān)利與標(biāo)準(zhǔn)標(biāo)題,在使用GIZA++生成神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)集的部分中,本文的數(shù)據(jù)集分為兩部分,一部分是5萬(wàn)余組CNKI電子與計(jì)算機(jī)領(lǐng)域文獻(xiàn)的英中平行的標(biāo)題,另一部分是從1990年至2005年中國(guó)專(zhuān)利中抽取的45萬(wàn)余組英中平行的專(zhuān)利標(biāo)題,在標(biāo)準(zhǔn)與專(zhuān)利標(biāo)題中,所有的名詞都是專(zhuān)業(yè)術(shù)語(yǔ),人為主觀的分詞標(biāo)注差異與情感分析錯(cuò)誤的問(wèn)題。
在上文生成的神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)集中,因?yàn)橛⑽呐c對(duì)應(yīng)的中文拼接后的句長(zhǎng)范圍在5~230個(gè)字符之間,句長(zhǎng)差距明顯會(huì)影響模型訓(xùn)練結(jié)果,本文以10個(gè)字符為句長(zhǎng)梯度,對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行初步建模后,發(fā)現(xiàn)英文與中文拼接后長(zhǎng)度范圍在10到20個(gè)字符之間的數(shù)據(jù)集上訓(xùn)練結(jié)果最佳,所以只選擇英文中文拼接后長(zhǎng)度在10到20之間的數(shù)據(jù)共約26.5萬(wàn)組句對(duì)作為神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)集,在訓(xùn)練集、驗(yàn)證集與測(cè)試集的樣本選取中考慮了標(biāo)簽的類(lèi)別數(shù)量分配均勻的問(wèn)題,各標(biāo)簽數(shù)量分布如表1所示。最后按照訓(xùn)練集、驗(yàn)證集與測(cè)試集的分布為8∶1∶1進(jìn)行分配。

表1 數(shù)據(jù)集中的標(biāo)簽分布
并且本語(yǔ)料的特點(diǎn)是低頻詞占的比例很大,本文將出現(xiàn)次數(shù)少于20次的詞定義為低頻詞,對(duì)于數(shù)據(jù)集中低頻詞的統(tǒng)計(jì)如表2所示,所以本文的實(shí)驗(yàn)設(shè)計(jì)中考慮到了低頻詞在神經(jīng)網(wǎng)絡(luò)中更新不及時(shí)的問(wèn)題,沒(méi)有選擇隨機(jī)初始化詞向量,為了不影響翻譯的準(zhǔn)確性,并沒(méi)有去掉低頻詞。

表2 數(shù)據(jù)集中的低頻詞分布
在使用GIZA++進(jìn)行詞對(duì)齊建立了句對(duì)齊語(yǔ)料的基礎(chǔ)上,為了保證詞向量中的詞與神經(jīng)網(wǎng)絡(luò)中的數(shù)據(jù)集的一致性,本文在英中拼接后長(zhǎng)度范圍在10到20之間的句子共26萬(wàn)組句對(duì)在Word2vec上進(jìn)行詞向量訓(xùn)練,并基于當(dāng)前詞向量提出了以下幾種方法:
1) baseline方法。
(1) Word2vec訓(xùn)練詞向量結(jié)合DNN網(wǎng)絡(luò)[4]。
(2) Word2vec訓(xùn)練詞向量結(jié)合單層RNN網(wǎng)絡(luò)[5]。
2) Word2vec訓(xùn)練詞向量合BiLSTM與TextCNN網(wǎng)絡(luò)(BiLSTM+TextCNN)。
3) Word2vec訓(xùn)練詞向量,隨機(jī)初始化線性句法結(jié)構(gòu),將雙語(yǔ)線性句法結(jié)構(gòu)信息融入BiLSTM后結(jié)合TextCNN網(wǎng)絡(luò)(融合PSG的BiLSTM+TextCNN)。
本文中的GIZA++使用默認(rèn)參數(shù)設(shè)置,神經(jīng)網(wǎng)絡(luò)模型部分的參數(shù)設(shè)置如下:
(1) Word2vec:選擇了Gensim工具包,使用skip-gram方式,特征向量維度為128,因?yàn)楸疚臄?shù)據(jù)集的特點(diǎn)是低頻詞占比很高,未丟棄低頻詞,高頻詞匯負(fù)采樣置閾值為0.001,窗口為10,其他參數(shù)選擇工具包的默認(rèn)設(shè)置。
(2) 句法樹(shù)的embedding層:輸入維度10 000維,輸出128維。
(3) DNN網(wǎng)絡(luò):100個(gè)激活單元,激活函數(shù)是“tanh”。
(4) RNN網(wǎng)絡(luò):256個(gè)simpleRNN單元,輸入維度是20×128維,激活函數(shù)是“tanh”,使用dropout防止過(guò)擬合,dropout是0.1。
(5) BiLSTM網(wǎng)絡(luò):256個(gè)LSTM單元,輸入維度是20×768維,選用ReLU激活函數(shù),使用dropout防止過(guò)擬合,dropout是0.2。
(6) TextCNN網(wǎng)絡(luò):采用3層CNN,卷積核大小分別是2×20、3×20和4×20,每個(gè)卷積核2個(gè)filter,選用ReLU激活函數(shù),每個(gè)卷積核大小128×20,池化方式是最大化。
本文的實(shí)驗(yàn)結(jié)果主要分成以下三部分,分別是GIZA++進(jìn)行詞對(duì)齊并建立數(shù)據(jù)集實(shí)驗(yàn)、用神經(jīng)網(wǎng)絡(luò)進(jìn)行詞對(duì)齊實(shí)驗(yàn)、融合線性句法樹(shù)結(jié)構(gòu)的實(shí)驗(yàn)結(jié)果。
(1) GIZA++進(jìn)行詞對(duì)齊。根據(jù)GIZA++生成的對(duì)齊矩陣標(biāo)注出英文與中文對(duì)齊的雙語(yǔ)詞對(duì)齊結(jié)果,隨機(jī)抽取出結(jié)果中的1 198組詞語(yǔ)對(duì),引用網(wǎng)絡(luò)翻譯詞典加以判斷,人工判斷的準(zhǔn)確率為91.4%,說(shuō)明可以為訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型提供語(yǔ)料基礎(chǔ)。
(2) 神經(jīng)網(wǎng)絡(luò)進(jìn)行詞對(duì)齊。本文設(shè)計(jì)的實(shí)驗(yàn)的結(jié)果如表3所示,可以看出本文設(shè)計(jì)的方法能夠有效地提高雙語(yǔ)平行句對(duì)語(yǔ)料中詞對(duì)齊的效果。從神經(jīng)網(wǎng)絡(luò)模型在數(shù)據(jù)集上進(jìn)行詞對(duì)齊的準(zhǔn)確率上可以看出,本文提出的BiLSTM的方法相比于文獻(xiàn)[5]使用的DNN網(wǎng)絡(luò)和RNN網(wǎng)絡(luò)進(jìn)行詞對(duì)齊的方法在準(zhǔn)確率上分別提升了32.87百分點(diǎn)和15.26百分點(diǎn)。在本文提出的其他方法中,BiLSTM結(jié)合TextCNN網(wǎng)絡(luò)的方法比BiLSTM單模型在準(zhǔn)確率提升了0.76百分點(diǎn),其主要原因是結(jié)合了BiLSTM模型與TextCNN的方法與BiLSTM單模型相比可以更好整合輸入的句子中的中英文在句子級(jí)別的語(yǔ)義信息。

表3 多個(gè)模型的實(shí)驗(yàn)結(jié)果
從各個(gè)模型收斂的epoch上可以看出各個(gè)模型均能達(dá)到收斂,說(shuō)明模型的結(jié)果準(zhǔn)確有效。
(3) 融合線性句法樹(shù)結(jié)構(gòu)。為了讓雙語(yǔ)詞對(duì)齊達(dá)到更好的效果,本文融入了英文和中文的線性句法樹(shù)結(jié)構(gòu)的方法,句子間的短語(yǔ)結(jié)構(gòu)以及短語(yǔ)間的層次句法結(jié)構(gòu)可以在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)更好地對(duì)特征進(jìn)行指導(dǎo),所以融入句法樹(shù)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)有了更好的表現(xiàn),比未融合句法樹(shù)的模型在準(zhǔn)確率上提升了2.43百分點(diǎn)。
本文為了比較使用神經(jīng)網(wǎng)絡(luò)進(jìn)行詞對(duì)齊的準(zhǔn)確率與GIZA++方法進(jìn)行詞對(duì)齊的準(zhǔn)確率,另外設(shè)計(jì)一組實(shí)驗(yàn),在50萬(wàn)句的所有語(yǔ)料上訓(xùn)練詞向量,并在26萬(wàn)
句10到20個(gè)字符長(zhǎng)度的數(shù)據(jù)集上使用TextCNN結(jié)合BiLSTM方法,詞對(duì)齊的準(zhǔn)確率達(dá)到91.19%,與使用GIZA++詞對(duì)齊的準(zhǔn)確率91.4%相當(dāng)。而神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率仍有提高空間,說(shuō)明未來(lái)神經(jīng)網(wǎng)絡(luò)進(jìn)詞對(duì)齊的比GIZA++進(jìn)行詞對(duì)齊有更好的表現(xiàn),并且神經(jīng)網(wǎng)絡(luò)模型的使用具有即時(shí)性,使用起來(lái)更加快速靈活。綜上所述,本文設(shè)計(jì)的基于GIZA++對(duì)雙語(yǔ)句對(duì)齊語(yǔ)料進(jìn)行標(biāo)注生成詞對(duì)齊數(shù)據(jù)集,并在此基礎(chǔ)上訓(xùn)練雙語(yǔ)詞對(duì)齊神經(jīng)網(wǎng)絡(luò)模型的方案切實(shí)可行。
雙語(yǔ)詞對(duì)齊在跨語(yǔ)言的自然語(yǔ)言任務(wù)中起著重要作用,因此本文提出一種基于GIZA++與神經(jīng)網(wǎng)絡(luò)相結(jié)合的無(wú)監(jiān)督的詞對(duì)齊神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練方法,本文方法通過(guò)GIZA++對(duì)初始的英中平行的句語(yǔ)料進(jìn)行詞對(duì)齊抽取。通過(guò)人工判別,使用GIZA++進(jìn)行詞對(duì)齊的準(zhǔn)確率達(dá)到91.4%,說(shuō)明該詞對(duì)齊語(yǔ)料可以作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)集,在此數(shù)據(jù)集的基礎(chǔ)上,設(shè)計(jì)了雙語(yǔ)詞語(yǔ)對(duì)齊標(biāo)注規(guī)范,用“B”與數(shù)字的結(jié)合來(lái)表示雙語(yǔ)詞的對(duì)應(yīng)關(guān)系。最后將標(biāo)注好的數(shù)據(jù)集經(jīng)過(guò)Word2vec訓(xùn)練成詞向量,神經(jīng)網(wǎng)絡(luò)模型為BiLSTM與TextCNN的結(jié)合,并在神經(jīng)網(wǎng)絡(luò)的編碼層融入兩種語(yǔ)言的線性句法結(jié)構(gòu),雙語(yǔ)線性句法信息能更好地對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行指導(dǎo),實(shí)驗(yàn)結(jié)果的準(zhǔn)確率達(dá)到了89.05%,說(shuō)明設(shè)計(jì)方案可行。
本文中所使用的語(yǔ)料涉及的領(lǐng)域?yàn)闃?biāo)準(zhǔn)與標(biāo)題,其中的術(shù)語(yǔ)含量占比很大,本文未來(lái)的工作方向?yàn)楹Y選出術(shù)語(yǔ),將雙語(yǔ)詞對(duì)齊任務(wù)擴(kuò)展為雙語(yǔ)術(shù)語(yǔ)對(duì)齊任務(wù),為建立雙語(yǔ)術(shù)語(yǔ)詞典奠定基礎(chǔ)。