柳 楊,吉立新,黃瑞陽(yáng),朱宇航,李 星
(國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心,河南 鄭州 450002)
詞向量(word vectors)也稱為詞嵌入(word embeddings),是一種基于神經(jīng)網(wǎng)絡(luò)的分布式表示方法,可以把自然語(yǔ)言中的單詞映射到稠密、實(shí)值的向量空間。將單詞映射到向量空間的好處是,相似語(yǔ)義的單詞可以分布在近似的、鄰近的向量空間,而通過(guò)計(jì)算向量之間的夾角或距離可以表示詞與詞之間的相似性。Mikolov[1]等人研究發(fā)現(xiàn)跨語(yǔ)言、相同語(yǔ)義的單詞分布在相似的語(yǔ)義空間位置,從而在一定程度上證明了詞向量表示語(yǔ)義的合理性和有效性。
針對(duì)詞向量的表示方法,Mikolov[2-4]等人提出Word2Vec(word to vectors)方法,其主要包括CBOW(continuous bag-of-words)和Skip-gram兩種模型,分別從語(yǔ)境單詞推測(cè)目標(biāo)單詞、從目標(biāo)單詞推測(cè)語(yǔ)境單詞。Pennington[5]等人提出GloVe(global vectors)方法,利用全局詞共現(xiàn)矩陣和矩陣分解的方法獲取詞向量。Ji[6]等人提出WordRank方法,該方法通過(guò)使用魯棒的排序方法獲得詞向量。Joulin[7]等人、Bojanowski[8]等人提出了FastText方法,該方法利用詞形態(tài)變化,在Word2Vec的基礎(chǔ)上發(fā)展了詞向量的學(xué)習(xí)和表示方法,訓(xùn)練速度、性能都有所提升。以上方法都是將一個(gè)單詞映射到向量空間唯一的一個(gè)點(diǎn)上,統(tǒng)稱為單一詞向量方法。這種方法已經(jīng)被廣泛運(yùn)用于如文本分類、文本摘要和機(jī)器翻譯等自然語(yǔ)言處理相關(guān)任務(wù)場(chǎng)景中,然而由于自然語(yǔ)言本身存在一詞多義的特性,上述單一詞向量的方法因無(wú)法解決單詞的歧義問(wèn)題從而限制了詞向量表達(dá)單詞語(yǔ)義的性能。
其他如將詞映射為多個(gè)詞向量或高斯分布的方法也是解決上述問(wèn)題的多種嘗試。Vilnis[9]等人將單詞映射為一個(gè)高斯分布,Chen[10]等人基于Vilnis[9]等人的工作,提出了GMSG(gaussian mixture skip-gram)模型,將每個(gè)單詞映射為多個(gè)高斯分布的合成,每個(gè)高斯部件代表一個(gè)詞義。Huang[11]等人通過(guò)使用全局文檔語(yǔ)境結(jié)合局部語(yǔ)境得到每個(gè)單詞的多個(gè)語(yǔ)義向量。Neelakantan[12]等人提出MSSG(multi-sense skip-gram)模型,通過(guò)在線詞義區(qū)分的方法學(xué)習(xí)多語(yǔ)義詞向量。Niu[13]基于Skip-gram模型使用注意力機(jī)制學(xué)習(xí)義素(sememe)的方法得到多語(yǔ)義詞向量。但以上方法或多或少?zèng)]能有效利用詞序、句法結(jié)構(gòu)、詞間距等信息對(duì)詞的語(yǔ)義表達(dá)的影響計(jì)算詞的向量表達(dá)。
本文受Dauphin[14]等人使用門(mén)控卷積網(wǎng)絡(luò)(gated convolutional networks,GCN)進(jìn)行語(yǔ)言建模及Gehring[15]等人將GCN加以注意力機(jī)制應(yīng)用于機(jī)器翻譯工作的啟發(fā)。其中Dauphin[14]等人的工作成功地將門(mén)控機(jī)制應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò),并且取得了比LSTM(long short-term memory)門(mén)機(jī)制更好的效果,Gehring[15]等人的工作利用GCN和跳躍注意力機(jī)制模擬了人類閱讀時(shí)的注意力機(jī)制和跳躍機(jī)制應(yīng)用于搭建機(jī)器翻譯模型。
本文基于自然語(yǔ)言的多義性是由語(yǔ)義最小單元詞義的多義性,從低層次到高層次逐層影響到自然語(yǔ)言整體表達(dá)的多義性這一基本思想,采用非殘差塊封裝的門(mén)控卷積機(jī)制,提出了層次注意力門(mén)控卷積網(wǎng)絡(luò)模型(hierarchical attention gated convolutional networks model,HAGCNM),并基于該模型在語(yǔ)料上學(xué)習(xí)、計(jì)算得到了詞的多語(yǔ)義詞向量(multi-sense word embedding,MWE)。
本文的多語(yǔ)義詞向量計(jì)算方法主要基于CBOW模型由語(yǔ)境詞預(yù)測(cè)目標(biāo)詞的思想和GCN模型的門(mén)控機(jī)制,所以本節(jié)將主要介紹CBOW模型和GCN模型的相關(guān)工作。
CBOW是Word2Vec方法中的一個(gè)重要模型。CBOW模型的結(jié)構(gòu)如圖1所示,其包含三層: 輸入層、映射層和輸出層。

圖1 CBOW模型結(jié)構(gòu)
其工作原理是在已知目標(biāo)單詞wt(第t個(gè)單詞,t∈N)一個(gè)窗口內(nèi)結(jié)合上下文語(yǔ)境cwt={wt-2,wt-1,...,wt+1,wt+2}預(yù)測(cè)目標(biāo)單詞wt。在該方法中,每個(gè)單詞wt被映射成向量ewt,其中ewt∈Rd,d是詞向量維度。wt的語(yǔ)境cwt被映射成向量ecwt,如式(1)所示。
(1)
基于負(fù)抽樣(negative sampling,NEG)的CBOW模型希望能最大化語(yǔ)境條件下對(duì)應(yīng)目標(biāo)單詞出現(xiàn)的聯(lián)合概率,如式(2)所示。
(2)
函數(shù)NEG(·)得到負(fù)抽樣的語(yǔ)境單詞向量。條件概率P(u|cwt)如式(3)所示。
(3)
1{·}是示性函數(shù),σ(·)是Sigmoid激活函數(shù),eu是被用來(lái)比較的詞向量。
給定語(yǔ)料,得到(詞,語(yǔ)境)對(duì)(wt,cwt)后,目標(biāo)是最小化損失函數(shù),θ是該模型參數(shù)集,如式(4)所示。
(4)
Dauphin[14]等人于2016年提出GCN模型。其模型結(jié)構(gòu)如圖2所示,其原理可以歸納為在卷積的基礎(chǔ)上添加了門(mén)控機(jī)制,并將卷積、門(mén)控單元封裝成殘差模塊進(jìn)行堆疊[16]。
輸入的詞向量矩陣E=[ew1,ew2,...,ewN](句子長(zhǎng)度為N)進(jìn)行如式(5)所示運(yùn)算得到隱層hi輸出,所以不存在路徑依賴,多個(gè)單詞可以并行處理。
hi(X)=(X*W+b)?σ(X*V+c)
(5)
其中X∈RN×d可以是隱層hi輸入的詞向量矩陣或上一隱層的輸出。W、V∈Rk×d×m,b、c∈Rm,是通過(guò)學(xué)習(xí)獲得的參數(shù),k是卷積核的寬度,m是卷積核的個(gè)數(shù)。σ是Sigmoid激活函數(shù),?是矩陣的逐點(diǎn)乘運(yùn)算。σ(X*V+c)是對(duì)信息能否通過(guò)該隱層節(jié)點(diǎn)的門(mén)控,該機(jī)制稱為門(mén)控線性單元(gated linear units,GLU)。
通過(guò)對(duì)多個(gè)這樣結(jié)構(gòu)隱層的堆疊,得到包含了語(yǔ)境窗口內(nèi)每個(gè)單詞的上下文分布式表示。將卷積和門(mén)控線性單元封裝在一個(gè)預(yù)先激活了的殘差塊中,其輸出加上該模塊的輸入作為最后的輸出。該模塊結(jié)構(gòu)上的瓶頸是最多堆疊5層該殘差塊,否則會(huì)影響計(jì)算效率[14]。
我們將這種將門(mén)控方法應(yīng)用到卷積的機(jī)制稱為基于殘差模塊封裝的門(mén)控卷積機(jī)制。
針對(duì)目前詞向量表示存在的問(wèn)題,本文提出了基于HAGCNM模型的多語(yǔ)義詞向量計(jì)算方法。
自然語(yǔ)言的多義性來(lái)源于承載語(yǔ)義的最小單位——詞的多義性。只有出現(xiàn)在語(yǔ)境中,詞才會(huì)受上下文詞、句法結(jié)構(gòu)、語(yǔ)法、詞序和詞間距離等因素的影響,從而限定在一個(gè)或多個(gè)語(yǔ)義表達(dá)上。按照詞的多義性,經(jīng)詞嵌入方式得到的詞向量應(yīng)該對(duì)應(yīng)分布在詞的多個(gè)語(yǔ)義空間(稱為詞的子語(yǔ)義空間)上。
現(xiàn)有的單一詞向量方法的學(xué)習(xí)過(guò)程中,詞所學(xué)習(xí)到的語(yǔ)義向量是幾種子語(yǔ)義向量的平均。這種方法在一詞多義的場(chǎng)景下使詞義的表達(dá)偏向于某一個(gè)子語(yǔ)義,從而不利于解決一詞多義性的問(wèn)題。
本文通過(guò)給預(yù)訓(xùn)練好的每個(gè)單詞單一詞向量ep加上多個(gè)語(yǔ)義偏移向量{eo1,eo2,...,eon},得到每個(gè)詞的多語(yǔ)義詞向量矩陣Es∈Rn×d,n為子語(yǔ)義個(gè)數(shù),d為向量維度。
(6)
其中esj=ep+eoj,esj∈Rd,j=1,2,3...,n。
圖3所示為多語(yǔ)義詞向量的子語(yǔ)義的更新過(guò)程,其中圖3(a)是用1億個(gè)詞的英文Wiki語(yǔ)料通過(guò)Word2Vec訓(xùn)練得到詞向量中抽取的幾個(gè)詞的向量的降維表示。提及單詞“apple”一般會(huì)聯(lián)想到“mac”“iphone”“computer”等與IT有關(guān)的詞或者是“pineapple”“banana”“fruit”等與水果有關(guān)的詞。從圖3(a)可以看到“apple”分布在兩類語(yǔ)義中間更靠近IT類語(yǔ)義的位置。從而難以分辨“apple”到底指的是水果類語(yǔ)義還是IT類語(yǔ)義,從圖3(a)的結(jié)果來(lái)看更多的把“apple”視為IT類語(yǔ)義。
如圖3(b)所示基于Word2Vec方法得到的單一詞向量基礎(chǔ)上,首先給“apple”隨機(jī)初始化了4個(gè)子語(yǔ)義偏移向量,與“apple”相加得到“apple0_init”到“apple3_init”。隨著訓(xùn)練的進(jìn)行,4個(gè)子語(yǔ)義向量分別更新到了不同的語(yǔ)義位置。如“apple2”更靠近水果類語(yǔ)義位置,“apple0”“apple1”“apple3”更靠近IT類語(yǔ)義位置。
可以看到通過(guò)本模型學(xué)習(xí)得到的多語(yǔ)義詞向量將詞的語(yǔ)義擴(kuò)散到多個(gè)語(yǔ)義位置。相較于之前,單一詞向量能更好地描述詞的多義性。
本文基于CBOW模型由語(yǔ)境詞預(yù)測(cè)目標(biāo)詞的思想,以及非殘差塊封裝的門(mén)控卷積機(jī)制,加以層次注意力機(jī)制,構(gòu)建了一種HAGCNM模型。
對(duì)于詞匯表中每一個(gè)單詞wt都有對(duì)應(yīng)的多語(yǔ)義詞向量矩陣Es,如式(6)所示,作為模型子語(yǔ)義層的輸入。
2.2.1 層次注意力機(jī)制預(yù)測(cè)目標(biāo)詞
圖4所示為HAGCNM模型中的層次注意力實(shí)現(xiàn)原理示意圖。其中每個(gè)詞的多語(yǔ)義詞向量由多個(gè)子語(yǔ)義向量esj(j∈N+)構(gòu)成,對(duì)于目標(biāo)詞wt的子語(yǔ)義向量esi(i∈N+)受所選定語(yǔ)境窗口除esi自己外,目標(biāo)單詞及其他單詞的子語(yǔ)義向量esj(j≠i)注意力的影響,得到esi的權(quán)重系數(shù)Ki,將wt的所有
子語(yǔ)義向量加權(quán)求和得到在該語(yǔ)境窗口下wt的合成語(yǔ)義向量ewt,其他單詞同理。


圖5 HAGCNM模型結(jié)構(gòu)圖
2.2.2 非殘差塊封裝的門(mén)控卷積機(jī)制
本文直接將GCN加入到模型中,并沒(méi)有采用殘差塊封裝的模式。使用殘差塊封裝是因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)在訓(xùn)練中容易梯度消失,導(dǎo)致訓(xùn)練結(jié)果變差。
實(shí)驗(yàn)結(jié)果表明,非殘差塊封裝的門(mén)控卷積機(jī)制在神經(jīng)網(wǎng)絡(luò)隱藏層層數(shù)較少的情況下能取得較好的效果。
該機(jī)制利用卷積加GLU單元的方式得到每個(gè)子語(yǔ)義的注意力向量。n為偶數(shù)時(shí)每個(gè)卷積核k∈R(n+1)×d×2d,n為奇數(shù)時(shí)k∈Rn×d×2d,對(duì)輸入的多語(yǔ)義詞向量矩陣前后各補(bǔ)充n/2(向下取整)個(gè)零向量,卷積步長(zhǎng)為1。第l步卷積輸出hol=[AB],hol∈R2d,A、B∈Rd。然后通過(guò)GLU單元的運(yùn)算,得到輸入的多個(gè)語(yǔ)義注意力矩陣,如式(7)所示。
g([AB])=A?σ(B)
(7)
其中?是向量A、B的逐點(diǎn)乘法,σ是Sigmoid函數(shù),g([AB])∈Rd。B起到的是門(mén)控的功能[14],其控制了信息的流通。
2.2.3 子語(yǔ)義注意力層
為了得到子語(yǔ)義層注意力矩陣,如圖4左上角對(duì)單詞“I”“want”的處理所示,首先將語(yǔ)境窗口(窗口長(zhǎng)度為N)內(nèi)每個(gè)單詞的多語(yǔ)義詞向量矩陣通過(guò)一層非殘差塊封裝的門(mén)控卷積機(jī)制,然后將所有單詞對(duì)應(yīng)的輸出向量接連起來(lái)得到向量矩陣Y∈RnN×d,為模擬人類分析、比對(duì)詞義時(shí)往往會(huì)損失一部分信息的情況,添加Dropout層得到Y(jié)drop∈RnN×d,子語(yǔ)義間的注意力可以計(jì)算得到:
a0=Ydrop×YT
(8)
其中a0∈RnN×nN(同時(shí)令對(duì)角線為0,以排除自己對(duì)自己注意力的干擾),如圖5左邊部分所示子語(yǔ)義層的注意力矩陣。a0的每一列對(duì)應(yīng)語(yǔ)境窗口內(nèi)其他子語(yǔ)義向量對(duì)該列對(duì)應(yīng)的子語(yǔ)義向量的注意力情況。
對(duì)每一列采用最大池化,取語(yǔ)境窗口內(nèi)最大程度的注意力作為權(quán)重。對(duì)每個(gè)單詞wt子語(yǔ)義向量esj(j∈N+)加權(quán)求和,得到其合成語(yǔ)義向量ewt。
2.2.4 合成語(yǔ)義注意力層

語(yǔ)境窗口內(nèi)的每個(gè)詞都是目標(biāo)單詞,也即對(duì)每個(gè)目標(biāo)單詞其語(yǔ)境窗口都是非對(duì)稱的,這樣就考慮到了目標(biāo)單詞在不同語(yǔ)境中可能出現(xiàn)的不同位置對(duì)其語(yǔ)義表達(dá)的影響。
2.2.5 輸出層

所以輸出層對(duì)相似度矩陣每一行求Softmax歸一化,使用交叉熵的方法,定義得到損失函數(shù)如式(9)所示。
(9)

在學(xué)習(xí)語(yǔ)料的過(guò)程中,會(huì)將損失函數(shù)使用梯度反向求導(dǎo)的方式更新每個(gè)單詞的語(yǔ)義偏移向量{eo1,eo2,...,eon},以期每個(gè)單詞的子語(yǔ)義向量可以分布到合適的語(yǔ)義空間點(diǎn)中。
模型在子語(yǔ)義注意力層使用一層門(mén)控卷積機(jī)制層,在合成語(yǔ)義注意力層使用四層門(mén)控卷積機(jī)制層。使用的優(yōu)化方法為Nesterov[17],其中momentum=0.99,初始學(xué)習(xí)率lr=0.5,學(xué)習(xí)速率按照步數(shù)每2 000步指數(shù)下降15%,并且使用了梯度裁剪[18]閾值為0.035。對(duì)于模型中Dropout參數(shù)Ddropout,Ddropout=0.75效果最好。

該模型采用批處理的方式,所以對(duì)每一層的注意力矩陣及卷積輸出進(jìn)行了批歸一化[19]。
首先分別在英文小規(guī)模語(yǔ)料Text8(約有1 700萬(wàn)單詞),在大規(guī)模語(yǔ)料英文Wiki(約有1.5億單詞)上學(xué)習(xí)得到詞向量,在Mikolov[2]的詞類比任務(wù)上實(shí)驗(yàn)以驗(yàn)證本方法的有效性;其次基于該任務(wù)分別針對(duì)子語(yǔ)義數(shù)量n、窗口尺寸N、向量維度d、時(shí)間消耗t進(jìn)行本方法性能的測(cè)試;然后在不同數(shù)據(jù)集: WordSim-353、MC、RG和RW上進(jìn)行實(shí)驗(yàn);最后在PTB(penn tree bank)數(shù)據(jù)集上對(duì)模型語(yǔ)言建模能力進(jìn)行實(shí)驗(yàn)。
Wordanalogy詞類比任務(wù)*https: //github.com/dav/word2vec/tree/master/data(Mikolov[2])是由一系列的詞類比任務(wù)構(gòu)成,如“a與b的類比就如同c和_的類比”。該數(shù)據(jù)集一共包括19 544個(gè)這樣的問(wèn)題,被分割成了語(yǔ)義類比和語(yǔ)法類比兩個(gè)部分。語(yǔ)義類比示例如“boy girl nephew niece”;語(yǔ)法類比示例如“acceptable unacceptable aware unaware”。
WordSim-353WordSim-353*http: //www.cs.technion.ac.il/~gabr/resources/data/wordsim353/wordsim353.html(Finkelstein[20])一共包括353對(duì)單詞和它們的相似度得分。該數(shù)據(jù)集被分成了兩個(gè)部分: 單詞相似集和單詞關(guān)系集。單詞相似集包含153對(duì)詞和它們的相似度得分,該分值基于13個(gè)主題打分的平均值,例如“tiger cat 7.35”;單詞關(guān)系集包含200對(duì)詞和它們的相似度得分,該分值基于16個(gè)主題打分的平均值,例如“FBI fingerprint 6.94”。
MCMC*https: //github.com/mfaruqui/eval-word-vectors/tree/master/data/word-sim/EN-MC-30.txt(Miller和Charles[21])包括30對(duì)名詞并且按照語(yǔ)義相似度進(jìn)行了打分,例如“coast shore 3.70”。
RGRG*https: //github.com/mfaruqui/eval-word-vectors/tree/master/data/word-sim/EN-RG-65.txt(Rubenstein[22])包括65對(duì)名詞并且按照語(yǔ)義相似度進(jìn)行了打分,例如“crane rooster 1.41”。
RWRW*https: //github.com/mfaruqui/eval-word-vectors/tree/master/data/word-sim/EN-RW-STANFORD.txt(Luong[23])包括2 034對(duì)詞,詞的類型多種多樣,并且含有大量罕見(jiàn)詞,同樣按照語(yǔ)義相似度進(jìn)行了打分,例如“connoting imply 7.67”。
PTBPTB*http: //www.fit.vutbr.cz/~imikolov/rnnlm/simple-examples.tgz(Marcus[24])中包括929KB訓(xùn)練單詞,73KB驗(yàn)證單詞和82KB測(cè)試單詞。PTB數(shù)據(jù)集是語(yǔ)言模型訓(xùn)練中經(jīng)常使用的一個(gè)數(shù)據(jù)集,它的質(zhì)量較高,可以用來(lái)評(píng)測(cè)語(yǔ)言模型的準(zhǔn)確率。
為驗(yàn)證本方法的有效性。本文分別在Text8和英文Wiki語(yǔ)料上訓(xùn)練了Skip-gram、CBOW和GloVe的單一詞向量,將其評(píng)測(cè)結(jié)果作為一個(gè)對(duì)比基線。
基于以上單一詞向量完全隨機(jī)初始化子語(yǔ)義偏移向量得到的多語(yǔ)義詞向量(random initial MWE,Ran-MWE)作為另一個(gè)對(duì)比的重要依據(jù),因?yàn)镽an-MWE沒(méi)有經(jīng)過(guò)HAGCNM模型在語(yǔ)料的學(xué)習(xí),所以和經(jīng)過(guò)HAGCNM模型學(xué)習(xí)后、更新了每個(gè)單詞的子語(yǔ)義偏移向量得到的MWE的實(shí)驗(yàn)結(jié)果對(duì)比,以證明本方法的有效性。
各模型訓(xùn)練參數(shù)如下: 所有模型的窗口長(zhǎng)度為20,向量維度為200;子語(yǔ)義數(shù)量為4。模型各訓(xùn)練參數(shù)對(duì)實(shí)驗(yàn)結(jié)果和性能的影響在3.3節(jié)“性能分析”中有詳細(xì)討論和實(shí)驗(yàn)。基于大量實(shí)驗(yàn),本節(jié)設(shè)置的訓(xùn)練參數(shù)在詞類比實(shí)驗(yàn)上取得的結(jié)果最好。
3.2.1 評(píng)測(cè)方法
本文采用cos相似度作為詞向量相似度。詞類比的實(shí)驗(yàn)任務(wù)是已知wa與wb,由wc類比wa與wb的關(guān)系推得wd。

3.2.2 實(shí)驗(yàn)結(jié)果及分析
表1和2分別展示了在不同語(yǔ)料下詞類比任務(wù)的實(shí)驗(yàn)結(jié)果。

表1 詞類比實(shí)驗(yàn)結(jié)果(1)

表2 詞類比實(shí)驗(yàn)結(jié)果(2)
通過(guò)分析實(shí)驗(yàn)結(jié)果我們可以得到如下結(jié)論。
(1) Ran-MWE相比于基線的單一詞向量實(shí)驗(yàn)結(jié)果的準(zhǔn)確率均有下降,說(shuō)明基于單一詞向量隨機(jī)初始化得到的多語(yǔ)義詞向量并不能很好地表達(dá)詞的多語(yǔ)義,反而會(huì)有對(duì)單詞語(yǔ)義表達(dá)的負(fù)面影響。
(2) MWE相比于Ran-MWE,在語(yǔ)義類比上有平均1.92%的較高的性能提升,語(yǔ)法類比上1.31%的性能提升。結(jié)合圖3對(duì)更新過(guò)程的記錄,可以判斷,隨機(jī)初始化的子語(yǔ)義偏移向量經(jīng)過(guò)學(xué)習(xí),達(dá)到了更好表達(dá)詞的多個(gè)語(yǔ)義的位置。
(3) MWE和基線的結(jié)果對(duì)比顯示,在語(yǔ)義類比上有平均0.97%的性能提升,可最高提升1.42%,在語(yǔ)法類比上有平均0.06%的提升,語(yǔ)法類比上的提升相對(duì)不明顯。由此可以認(rèn)為基于單一詞向量學(xué)習(xí)到的多語(yǔ)義詞向量能更好地表達(dá)詞的多義性,但在語(yǔ)法性能上的表達(dá)還欠妥。
實(shí)驗(yàn)結(jié)果表明,基于多種單一詞向量、在不同尺寸大小的語(yǔ)料上學(xué)習(xí)得到的MWE對(duì)詞語(yǔ)義的表達(dá)均有一定效果的提升,從而證明了MWE方法對(duì)單一詞向量性能的提升有很好的泛化性。
本文基于詞類比任務(wù)對(duì)MWE進(jìn)行了性能分析實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖6所示。使用Text8語(yǔ)料基于CBOW模型訓(xùn)練得到的單一詞向量,分別針對(duì)子語(yǔ)義數(shù)量、窗口尺寸、向量維度、訓(xùn)練時(shí)間消耗進(jìn)行了實(shí)驗(yàn)分析。
圖6(a)、圖6(d)中CBOW模型訓(xùn)練窗口尺寸為20,向量維度為100,MWE訓(xùn)練窗口尺寸為20,向量維度為100。圖6(b)、圖6(e)中CBOW模型訓(xùn)練窗口尺寸為20,向量維度為200,MWE訓(xùn)練子語(yǔ)義數(shù)量為4,向量維度為200。圖6(c)、圖6(f)中CBOW模型訓(xùn)練窗口尺寸為200,MWE訓(xùn)練窗口尺寸為20,子語(yǔ)義數(shù)量為4。
通過(guò)分析實(shí)驗(yàn)結(jié)果我們可以得到:
(1) 如圖6(a)、圖6(d)所示,隨著子語(yǔ)義數(shù)量的增加,準(zhǔn)確度有穩(wěn)定的提升,但時(shí)間消耗變長(zhǎng)。
(2) 如圖6(b)、圖6(e)所示,窗口尺寸中間位置準(zhǔn)確度的提升最少,由中間向兩邊準(zhǔn)確度的提升逐漸變大。但從語(yǔ)言建模的角度看,實(shí)際實(shí)驗(yàn)結(jié)果表明: 隨窗口尺寸變小,語(yǔ)言建模能力下降,時(shí)間消耗隨著窗口尺寸的增加而減小。
(3) 如圖6(c)、圖6(f)所示,隨著向量維度的增加,準(zhǔn)確度先增加后減小,但準(zhǔn)確度的提升在穩(wěn)定增加,向量維度越大,詞向量的表示就越準(zhǔn)確,但會(huì)有一個(gè)適中的取值范圍,時(shí)間消耗隨著向量維度的增加而增加。


圖6 詞向量性能分析
詞相似度任務(wù)的目的是通過(guò)計(jì)算數(shù)據(jù)集詞對(duì)相似度的排序,與數(shù)據(jù)集給出的人類判斷的詞對(duì)相似度得分排序進(jìn)行比較,從而評(píng)價(jià)該詞向量語(yǔ)義表達(dá)的質(zhì)量。
3.4.1 評(píng)測(cè)方法
本文采用cos相似度作為詞向量的相似度。基線的評(píng)測(cè)方法為計(jì)算數(shù)據(jù)集所有詞對(duì)的相似度,然后得到詞對(duì)相似度排序,計(jì)算該詞對(duì)相似度排序和數(shù)據(jù)集的詞對(duì)得分排序的斯皮爾曼等級(jí)相關(guān)系數(shù)(Spearman correlation)ρ,取ρ×100并保留小數(shù)點(diǎn)后兩位作為評(píng)測(cè)依據(jù)。
對(duì)于MWE的評(píng)測(cè)方法,每個(gè)詞都有一個(gè)子語(yǔ)義向量矩陣,計(jì)算詞對(duì)中兩個(gè)單詞間所有子語(yǔ)義向量的相似度,得到相似度矩陣,取該矩陣所有的元素的平均作為該詞對(duì)的相似度。之后用同樣方法計(jì)算斯皮爾曼等級(jí)相關(guān)系數(shù)(Spearman correlation)ρ,取ρ×100并保留小數(shù)點(diǎn)后兩位作為評(píng)測(cè)依據(jù)。
3.4.2 實(shí)驗(yàn)結(jié)果
表3所示為實(shí)驗(yàn)結(jié)果。從實(shí)驗(yàn)結(jié)果可以看到,基于Skip-gram的MWE方法提升最明顯,平均有3.63、最高有5.48的提升,其中WS353-Rel和MC上的提升均在5左右;基于CBOW的MWE方法平均有0.94、最高在WS353-Sim上有1.12的提升;基于GloVe的MWE方法平均有0.86、最高在RG上有4.23的提升,但在WS353-Rel和RW上沒(méi)有提升,有0.5左右的下降。

表3 詞相似度實(shí)驗(yàn)結(jié)果
從整體上來(lái)看,在各個(gè)數(shù)據(jù)集上,MWE方法最好結(jié)果相比于單一詞向量最好結(jié)果有平均2.11、最高5.47的提升。
對(duì)實(shí)驗(yàn)結(jié)果的分析表明: 分別基于Skip-gram、CBOW和GloVe得到的MWE均能基本在單一詞向量基礎(chǔ)上對(duì)詞的表達(dá)性能有所提升。
MWE的方法是通過(guò)層次注意力機(jī)制結(jié)合門(mén)控卷積機(jī)制,通過(guò)在固定語(yǔ)境窗口詞的子語(yǔ)義層得到語(yǔ)義合成向量,然后通過(guò)語(yǔ)境單詞的合成語(yǔ)義向量預(yù)測(cè)目標(biāo)詞的語(yǔ)義合成向量。該方法的目的是通過(guò)模仿人類理解、分析語(yǔ)境中詞的語(yǔ)義表達(dá)的機(jī)制,從而對(duì)語(yǔ)言進(jìn)行較好的建模。所以本文使用PPL作為評(píng)測(cè)指標(biāo),對(duì)該方法的語(yǔ)言建模能力進(jìn)行了評(píng)測(cè)。本文中PPL可以理解為在給定語(yǔ)境窗口(本節(jié)實(shí)驗(yàn)中長(zhǎng)度為20個(gè)單詞)中所有單詞作為備選單詞的條件下,模型綜合語(yǔ)境單詞預(yù)測(cè)目標(biāo)單詞時(shí)有多少種選擇的數(shù)量。PPL越低說(shuō)明模型預(yù)測(cè)目標(biāo)單詞的能力越準(zhǔn)確。
與之對(duì)比的是通過(guò)語(yǔ)境單詞預(yù)測(cè)目標(biāo)單詞的GloVe和CBOW模型,本文分別做了兩組對(duì)比實(shí)驗(yàn)。第一組對(duì)非對(duì)稱窗口語(yǔ)境單詞取平均來(lái)預(yù)測(cè)目標(biāo)詞;第二組添加了注意力機(jī)制。
在PTB數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。實(shí)驗(yàn)結(jié)果表明: MWE方法相較于其他方法PPL均有顯著下降,該方法能夠更好地綜合整體語(yǔ)境對(duì)語(yǔ)言進(jìn)行建模。除了PTB數(shù)據(jù)集,本方法在不同語(yǔ)料的實(shí)驗(yàn)上PPL也均能下降并穩(wěn)定在1.01~1.10左右。

表4 語(yǔ)言建模實(shí)驗(yàn)結(jié)果
本文綜合考慮了詞的多義性和詞序、句法結(jié)構(gòu)、詞間距離等對(duì)固定語(yǔ)境詞的語(yǔ)義表達(dá)的影響,提出了基于門(mén)控卷積機(jī)制與層次注意力機(jī)制的多語(yǔ)義詞向量計(jì)算方法。該方法使用非殘差塊封裝的門(mén)控卷積機(jī)制以利用詞序、句法結(jié)構(gòu)等信息控制詞語(yǔ)義的表達(dá);利用注意力機(jī)制使詞語(yǔ)義的表達(dá)受到語(yǔ)境詞的子語(yǔ)義的影響。
本文做了四個(gè)實(shí)驗(yàn): 有效性實(shí)驗(yàn)驗(yàn)證了本方法在一定程度上的有效性;性能實(shí)驗(yàn)探索了不同參數(shù)設(shè)置對(duì)本方法性能的影響;在WordSim353、MC、RG、RW數(shù)據(jù)集上的實(shí)驗(yàn)表明,本方法相較于單一詞向量方法性能有所提升;語(yǔ)言建模能力上的實(shí)驗(yàn)表明,本方法相較于其他預(yù)測(cè)目標(biāo)單詞的語(yǔ)言模型,可以有效地從語(yǔ)境單詞的備優(yōu)單詞中選出目標(biāo)單詞。
(1)提出了一種完全基于卷積神經(jīng)網(wǎng)絡(luò)模型的多語(yǔ)義詞向量計(jì)算方法; (2)構(gòu)造了一種由目標(biāo)單詞所在的語(yǔ)境窗口(可以是非對(duì)稱語(yǔ)境窗口)中,所有單詞子語(yǔ)義向量間的相互注意力生成目標(biāo)單詞子語(yǔ)義的權(quán)重,從而對(duì)目標(biāo)單詞子語(yǔ)義向量加權(quán)求和計(jì)算得到目標(biāo)單詞在該語(yǔ)境窗口中合成詞義向量的計(jì)算方法; (3)構(gòu)造了一種由目標(biāo)單詞所在的語(yǔ)境窗口(可以是非對(duì)稱語(yǔ)境窗口)中,其他單詞合成語(yǔ)義向量間的相互注意力生成其他單詞各自的權(quán)重,從而對(duì)其他單詞合成詞義向量加權(quán)求和計(jì)算以預(yù)測(cè)目標(biāo)單詞合成語(yǔ)義向量的計(jì)算方法。
未來(lái)將針對(duì)以下幾個(gè)問(wèn)題進(jìn)一步探索: ①研究基于HowNet、標(biāo)點(diǎn)符號(hào)等先驗(yàn)知識(shí)的加入對(duì)本方法的影響; ②將HAGCNM模型應(yīng)用于文本分類、關(guān)系抽取、情感分析等具體任務(wù)場(chǎng)景中。