鄭 津,賈兆軍,徐萬(wàn)珺,陳 雁,李 平
(西南石油大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,四川 成都 610500)
目前研究多跳閱讀理解任務(wù)的工作中,大多采用流水線式(Pipeline)的求解框架[1],即首先將多跳閱讀理解任務(wù)進(jìn)行分解,然后借助問(wèn)題與文檔匹配的檢索、命名實(shí)體識(shí)別、指代消解等自然語(yǔ)言處理技術(shù)來(lái)逐次解決。例如,Min S等[2]先對(duì)問(wèn)題進(jìn)行解析,然后利用解析后的問(wèn)題分階段進(jìn)行預(yù)測(cè)。這類(lèi)方法對(duì)特定的數(shù)據(jù)集或者任務(wù)場(chǎng)景具有不錯(cuò)的效果,但由于模型不夠靈活,缺乏通用性,使其難以推廣。
本文提出了一種基于多視角和注意力的圖卷積網(wǎng)絡(luò)MV-GCN。在MV-GCN中,主要包括多視角圖卷積和多視角注意力兩部分。多視角圖卷積通過(guò)構(gòu)建多個(gè)學(xué)習(xí)通路,并設(shè)置每個(gè)通路的參數(shù)皆可學(xué)習(xí)且彼此獨(dú)立訓(xùn)練,使得在MV-GCN中多通路之間的學(xué)習(xí)能力形成互補(bǔ),有利于提取到不同視角的候選實(shí)體語(yǔ)義之間的相關(guān)關(guān)系。多視角注意力利用Squeeze-and-Excitation機(jī)制將每個(gè)學(xué)習(xí)通路得到的特征視作基本單位,并通過(guò)為其自適應(yīng)加權(quán)的方式來(lái)進(jìn)行多個(gè)通路的信息融合。在WikiHop通用問(wèn)答數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文所提的MV-GCN能更有效地學(xué)習(xí)到多跳實(shí)體之間的相關(guān)關(guān)系,其性能優(yōu)于當(dāng)前的主流方法,可為進(jìn)一步研究提供借鑒。
本文的貢獻(xiàn)概括如下:
(1)提出了一個(gè)基于多視角和注意力的圖卷積網(wǎng)絡(luò)的多跳推理閱讀理解模型MV-GCN,通過(guò)實(shí)驗(yàn)驗(yàn)證了其性能優(yōu)于當(dāng)前的主流方法;
(2)設(shè)計(jì)了多視角的圖卷積通路結(jié)構(gòu),提高了模型多視角學(xué)習(xí)多跳實(shí)體間語(yǔ)義相關(guān)性的表達(dá)能力;
(3)構(gòu)建了自注意力融合結(jié)構(gòu),可動(dòng)態(tài)地確定不同通路的重要性權(quán)重,從而實(shí)現(xiàn)多個(gè)通路的特征表達(dá)的有效融合。
多跳閱讀理解(multi-hop question answering,MQA),也被稱為多文檔閱讀理解(multi-document machine reading comprehension,MMRC),在智能問(wèn)答[3,4]、多輪對(duì)話[5,6]、知識(shí)圖譜等自然語(yǔ)言處理任務(wù)中有著廣泛的應(yīng)用。本文集中研究多跳閱讀理解中的答案選擇問(wèn)題,其主要任務(wù)是從多篇文檔中尋找相關(guān)信息,進(jìn)行線索推理,并從候選實(shí)體集合中選擇正確的答案。圖1展示了WikiHop數(shù)據(jù)集(Unmasked)中一個(gè)真實(shí)樣本的部分?jǐn)?shù)據(jù),分別為問(wèn)句以及與問(wèn)句相關(guān)的3個(gè)文檔、候選實(shí)體和答案,任務(wù)是從若干候選實(shí)體中選出一個(gè)正確答案,模型需要在若干不定長(zhǎng)的文檔中定位相關(guān)語(yǔ)句,并在帶有干擾的相關(guān)語(yǔ)句中找到正確推理信息。多跳閱讀理解任務(wù)的難點(diǎn)在于如何有效地學(xué)習(xí)和表達(dá)多跳實(shí)體間的語(yǔ)義相關(guān)關(guān)系,因而長(zhǎng)期以來(lái)是自然語(yǔ)言處理研究領(lǐng)域的熱點(diǎn)問(wèn)題。

圖1 WikiHop數(shù)據(jù)集(Unmasked)的多跳推理示例樣本
多跳閱讀理解問(wèn)題的核心是建模和表達(dá)多跳實(shí)體之間的語(yǔ)義關(guān)系,圖網(wǎng)絡(luò)在這方面具有天然的優(yōu)勢(shì)。因此,最近的相關(guān)工作中提出了基于圖神經(jīng)網(wǎng)絡(luò)的方法[7,8]。但這類(lèi)方法仍然面臨巨大的挑戰(zhàn),包括:①該類(lèi)模型大多采用單視角的特征提取方案,即僅采用一個(gè)通路來(lái)建模多跳實(shí)體語(yǔ)義相關(guān)關(guān)系,使得這類(lèi)模型學(xué)習(xí)實(shí)體關(guān)系表達(dá)的角度單一、學(xué)習(xí)能力有限;②為更好地提取到結(jié)點(diǎn)的特征和相關(guān)關(guān)系,一些工作嘗試加深網(wǎng)絡(luò)深度,但過(guò)深的圖卷積結(jié)構(gòu)會(huì)導(dǎo)致圖嵌入表達(dá)趨同、過(guò)擬合等問(wèn)題。雖然可以通過(guò)引入殘差[9]、自注意力[10]等機(jī)制緩解,但往往進(jìn)一步使結(jié)構(gòu)復(fù)雜化,出現(xiàn)性能震蕩、難以訓(xùn)練,加劇過(guò)擬合的風(fēng)險(xiǎn)。
針對(duì)現(xiàn)有方法中單視角特征提取通路學(xué)習(xí)能力不足的問(wèn)題,受Inception工作的啟發(fā),本文提出了基于多視角和注意力的圖卷積網(wǎng)絡(luò)MV-GCN(multi-view graph convolutional network)。值得一提的是,MV-GCN中的多通路結(jié)構(gòu)與原始的Inception有明顯區(qū)別。首先,原始的Inception主要針對(duì)圖像識(shí)別任務(wù),因而不同通道中卷積核的尺寸設(shè)置成不同,以提取和學(xué)習(xí)不同感受野下的特征。在本文所提出的MV-GCN中,因任務(wù)性質(zhì)不同,每個(gè)通路上的圖卷積被設(shè)置具有相同的結(jié)構(gòu),但在訓(xùn)練時(shí)這些參數(shù)并不共享。其次,多個(gè)通路所學(xué)習(xí)到的特征信息需要進(jìn)行融合。在原始的Inception中是直接將多個(gè)通道的特征進(jìn)行拼接,然后通過(guò)1×1的卷積或者pooling來(lái)實(shí)現(xiàn)融合,其中,默認(rèn)通道間的權(quán)重相同。在本文中,特征提取是在實(shí)體圖網(wǎng)絡(luò)上進(jìn)行,直接套用原始Inception中的融合方法會(huì)丟失實(shí)體間的拓?fù)湫畔ⅰ?/p>
因此,本文在特征融合處理中引入了Squeeze-and-Excitation(SE)機(jī)制[11],設(shè)計(jì)了一種多視角注意力模塊。一方面,通過(guò)SE機(jī)制可動(dòng)態(tài)地確定不同通路的權(quán)重,從而將多個(gè)通路的特征表達(dá)進(jìn)行有效融合,另一方面多視角注意力模塊是一種自注意力處理結(jié)構(gòu),這意味著不需要添加繁重的網(wǎng)絡(luò)結(jié)構(gòu)和太多額外的參數(shù),可有效避免過(guò)擬合的風(fēng)險(xiǎn),易于訓(xùn)練和部署。
本文所提出的基于多視角和注意力的圖卷積網(wǎng)絡(luò)包含4個(gè)模塊,包括:①“候選實(shí)體-文檔”圖構(gòu)建,得到用于表達(dá)候選實(shí)體與文檔之間關(guān)聯(lián)關(guān)系的拓?fù)鋱D,并對(duì)候選實(shí)體結(jié)點(diǎn)的語(yǔ)義特征進(jìn)行初始化;②候選實(shí)體多跳上下文的嵌入表達(dá),基于多個(gè)橫向通路的圖卷積結(jié)構(gòu)來(lái)建模結(jié)點(diǎn)間的多視角相關(guān)關(guān)系,并借助SE機(jī)制對(duì)其進(jìn)行融合表達(dá),以此學(xué)到候選實(shí)體的多視角語(yǔ)義特征;③“候選實(shí)體-問(wèn)句”關(guān)系映射,利用雙向注意力機(jī)制,將上一階段獲得的候選實(shí)體多視角語(yǔ)義特征與問(wèn)句特征進(jìn)行交互,獲得候選實(shí)體與問(wèn)句的配對(duì)映射關(guān)系表達(dá);④答案預(yù)測(cè),基于候選實(shí)體與問(wèn)句的配對(duì)關(guān)系輸出最終的答案預(yù)測(cè)結(jié)果。
模型的整體流程如圖2所示,接下來(lái)對(duì)每個(gè)模塊的具體操作做詳細(xì)描述。

圖2 模型整體流程
構(gòu)建表達(dá)候選實(shí)體與文檔之間關(guān)聯(lián)關(guān)系的“候選實(shí)體-文檔”圖(以下簡(jiǎn)稱實(shí)體圖),包括實(shí)體圖的生成以及結(jié)點(diǎn)特征初始化兩個(gè)方面。
2.1.1 實(shí)體圖的生成
根據(jù)MQA任務(wù)的特性,本文選取候選集中的候選實(shí)體作為圖的結(jié)點(diǎn),結(jié)點(diǎn)間用無(wú)向邊連接,用于表達(dá)兩種結(jié)點(diǎn)間關(guān)系[7]。兩種結(jié)點(diǎn)關(guān)系分別為:
(1)一個(gè)候選實(shí)體多次出現(xiàn)在文檔中(包括同一文檔或不同文檔兩種情況),考慮到文檔主題和上下文依賴關(guān)系的影響,本文中將該候選實(shí)體輔以“文檔+位置”的索引表示為實(shí)體圖中的不同結(jié)點(diǎn),并在它們之間設(shè)置連邊;
(2)兩個(gè)不同候選實(shí)體出現(xiàn)在相同文檔中,考慮到同一文檔中的語(yǔ)素信息相關(guān),因此在實(shí)體圖中前述兩個(gè)不同候選實(shí)體間也設(shè)置連邊。
圖3展示了依照?qǐng)D1中示例樣本構(gòu)建的實(shí)體圖,相同顏色代表了相同候選實(shí)體,使用不同的虛線來(lái)區(qū)分文檔內(nèi)部以及跨文檔的結(jié)點(diǎn)連邊類(lèi)型,箭頭表示推理過(guò)程。

圖3 實(shí)體圖
2.1.2 結(jié)點(diǎn)特征初始化
候選實(shí)體X一般由一個(gè)或多個(gè)單詞組成,其對(duì)應(yīng)的語(yǔ)義特征可由詞嵌入特征和文檔上下文特征的組合來(lái)表達(dá),即候選實(shí)體結(jié)點(diǎn)的初始化特征Fnode為
(1)
其中,K是候選實(shí)體X所包含的單詞個(gè)數(shù),GloVe(Xi) 是候選實(shí)體X中單詞i的GloVe嵌入,ELMo(X) 是候選實(shí)體X的ELMo[12]嵌入, [,] 表示拼接操作。將候選實(shí)體所包含全部單詞的GloVe嵌入平均值作為候選實(shí)體的嵌入,并與ELMo嵌入拼接后傳入全連接層。使用ELMo嵌入的原因是原始文檔中出現(xiàn)的候選實(shí)體與其上下文之間的相關(guān)性信息對(duì)于建模這些候選實(shí)體間關(guān)系也十分重要。其中,GloVe(Xi)∈Rd,ELMo(X)∈Rd,F(xiàn)node∈Rd,d為單詞及結(jié)點(diǎn)的嵌入維度,實(shí)體圖初始化特征Fnodes∈RT×d,T為實(shí)體圖中結(jié)點(diǎn)數(shù)量。
在實(shí)體圖中,候選實(shí)體結(jié)點(diǎn)與其多跳鄰居結(jié)點(diǎn)之間具有信息相關(guān)性,因此候選實(shí)體結(jié)點(diǎn)的多跳上下文特征學(xué)習(xí)需要考慮其鄰居結(jié)點(diǎn)的影響。在本文中,候選實(shí)體特征的多跳上下文特征學(xué)習(xí)包括多視角圖卷積和多視角特征融合兩個(gè)階段。其中,在多視角圖卷積階段,借助多個(gè)橫向通路的圖卷積結(jié)構(gòu)來(lái)建模候選實(shí)體結(jié)點(diǎn)間的多視角相關(guān)關(guān)系,而在多視角特征融合中基于SE機(jī)制對(duì)前述所提取的多視角特征進(jìn)行融合,最終學(xué)到候選實(shí)體的多跳上下文特征的嵌入表達(dá)。
2.2.1 多視角圖卷積
在本文中,圖卷積的基本模塊是基于R-GCN[13]的思想來(lái)進(jìn)行構(gòu)建的。這樣做的原因是R-GCN在建模不同結(jié)點(diǎn)間的信息相關(guān)性時(shí),引入了連邊的類(lèi)型和方向作為特征,十分契合本文所研究的MQA任務(wù)。同時(shí),受Inception啟發(fā),本文中的圖卷積結(jié)構(gòu)設(shè)計(jì)為多視角的形式,即由多個(gè)圖卷積通路構(gòu)成。如圖2中“C-多視角圖卷積”所示,這些圖卷積通路的結(jié)構(gòu)相同但獨(dú)立訓(xùn)練。
對(duì)于V個(gè)圖卷積通路,每個(gè)通路的輸入為實(shí)體圖初始化特征Fnodes和結(jié)點(diǎn)間的連邊信息e, 信息在結(jié)點(diǎn)間的傳遞可表示為
(2)


(3)

因此,在本文的實(shí)體圖中,候選實(shí)體結(jié)點(diǎn)的更新公式為
(4)
其中,?代表按位相乘,所有的變換f*都是相似的,經(jīng)過(guò)L層(每個(gè)圖卷積通路的層數(shù))后產(chǎn)生的關(guān)系感知表示特征為FR-GCN∈RT×d,T為實(shí)體圖中結(jié)點(diǎn)數(shù)量,d為每個(gè)結(jié)點(diǎn)的嵌入維度。
2.2.2 多視角特征融合
對(duì)于多通路的特征提取結(jié)構(gòu),特征融合是關(guān)鍵步驟。在適配機(jī)器視覺(jué)的Inception結(jié)構(gòu)中一般采用1*1卷積或池化操作來(lái)對(duì)多個(gè)通路不同尺寸的特征進(jìn)行融合。在一些自然語(yǔ)言處理任務(wù)中,會(huì)對(duì)不同通路上的信息進(jìn)行加權(quán)求和來(lái)進(jìn)行融合[14]。但本文中若直接套用這些方式會(huì)忽略實(shí)體圖上多視角特征之間的差異性和重要性特征,從而導(dǎo)致多跳過(guò)程中拓?fù)湫畔⒌膩G失。
Squeeze-and-Excitation機(jī)制是一種輕量級(jí)的特征重要性動(dòng)態(tài)重校準(zhǔn)結(jié)構(gòu),參數(shù)量少,訓(xùn)練開(kāi)銷(xiāo)小,可有效避免過(guò)擬合風(fēng)險(xiǎn),且易于遷移。因此,本文引入了SE機(jī)制,設(shè)計(jì)了一種多視角注意力模塊,來(lái)增強(qiáng)特征融合過(guò)程中對(duì)多視角特征的重要性辨別能力,以實(shí)現(xiàn)多視角特征的有效融合,如圖2中“D-多視角特征融合”所示。
本文中的多視角注意力模塊包含兩個(gè)全連接層,其中,第一個(gè)全連接層起到降維的作用,降維系數(shù)r為超參數(shù),然后采用ReLU激活,第二個(gè)全連接層恢復(fù)原始的維度,然后采用Sigmoid激活的門(mén)控機(jī)制,得到每個(gè)通路產(chǎn)生特征的權(quán)重。
具體地,首先,對(duì)于V個(gè)通路產(chǎn)生的特征集合 [f1,f2,…,fV],fv∈RT×d,v∈[1,2,…,V], 其中fv表示第v個(gè)通路產(chǎn)生的關(guān)系感知表示特征,它的全局特征zv可表示為
(5)
然后,多視角特征融合的重要性度量s可表示為
s=σ(g(z,W))=σ(W2ReLU(W1z))
(6)

最后,將學(xué)習(xí)到的各個(gè)通路生成特征的權(quán)重與它的原始特征加權(quán)求和,得到融合后的多視角特征Fgraph
(7)
其中,fv∈RT×d是第v個(gè)通路產(chǎn)生的關(guān)系感知表示特征,sv為每個(gè)通路對(duì)應(yīng)的特征權(quán)重,·表示矩陣相乘,F(xiàn)graph∈RT×d為融合后的多視角候選實(shí)體上下文嵌入表達(dá),T為實(shí)體圖中結(jié)點(diǎn)數(shù)量,d為每個(gè)結(jié)點(diǎn)的嵌入維度。
在MQA任務(wù)中,“候選實(shí)體-問(wèn)句”的關(guān)聯(lián)是獲得最終答案的關(guān)鍵步驟。在本文中,借鑒BiDAF[15]、BAG[8]等相關(guān)工作的思路,“候選實(shí)體-問(wèn)句”的關(guān)系映射也是采用雙向注意力的機(jī)制獲得的。雙向注意力操作的輸入為式(7)候選實(shí)體上下文嵌入表達(dá)Fgraph和問(wèn)句嵌入表達(dá)Fquery, 處理過(guò)程如下所述。
2.3.1 問(wèn)句嵌入表達(dá)Fquery
Fquery由問(wèn)句詞嵌入特征和問(wèn)句上下文特征的組合來(lái)表達(dá),可表示為
Fquery=LSTM([GloVe(Qi),ELMo(Qi)])
(8)
其中,GloVe(Qi) 表示問(wèn)句Q中第i個(gè)單詞的GloVe嵌入,ELMo(Qi) 表示問(wèn)句Q中第i個(gè)單詞的ELMo嵌入, [,] 表示拼接操作。問(wèn)句嵌入表達(dá)Fquery的初始化方法與實(shí)體圖中候選實(shí)體結(jié)點(diǎn)特征的初始化方法類(lèi)似,唯一不同的是,由于問(wèn)句包含的單詞數(shù)量比候選實(shí)體的多,所以問(wèn)句中單詞的GloVe特征和ELMo特征不進(jìn)行平均的操作,而是直接拼接后通過(guò)一個(gè)雙向LSTM得到相應(yīng)的嵌入編碼。其中,GloVe(Qi)∈RM×d,ELMo(Qi)∈RM×d,F(xiàn)query∈RM×d,M為問(wèn)句中的單詞數(shù)量,d為問(wèn)句嵌入的維度。
2.3.2 “候選實(shí)體-問(wèn)句”關(guān)聯(lián)度矩陣
“候選實(shí)體-問(wèn)句”關(guān)聯(lián)度矩陣用于表達(dá)每個(gè)候選實(shí)體與每個(gè)問(wèn)句單詞之間的關(guān)聯(lián)程度,可表示為
S=avg-1fa([Fgraph,Fquery,(Fgraph?Fquery)])
(9)
其中, fa表示線性變換操作, avg-1表示在最后一個(gè)維度上求均值, [,] 表示拼接操作,?表示按位乘法,S∈RT×M,T為實(shí)體圖中的結(jié)點(diǎn)數(shù)量,M為問(wèn)句中的單詞數(shù)量,F(xiàn)graph∈RT×d為候選實(shí)體上下文嵌入表達(dá),F(xiàn)query∈RM×d為問(wèn)句嵌入表達(dá)。由此得出的關(guān)聯(lián)度矩陣也可以看作是候選實(shí)體與問(wèn)句單詞間的Attention。
2.3.3 雙向注意力計(jì)算
本文中的雙向注意力包括“候選實(shí)體→問(wèn)句”以及“問(wèn)句→候選實(shí)體”兩種。
(10)

(11)

2.3.4 “候選實(shí)體-問(wèn)句”關(guān)系映射
(12)



(13)

本文在WikiHop數(shù)據(jù)集上對(duì)提出的模型進(jìn)行實(shí)驗(yàn)分析,WikiHop是基于維基百科開(kāi)放域的文章數(shù)據(jù)集,其中每一個(gè)樣本包含一個(gè)問(wèn)題、多個(gè)支撐文檔和多個(gè)候選實(shí)體。為了能進(jìn)一步驗(yàn)證模型的推理能力,該數(shù)據(jù)集在Unmasked版本的基礎(chǔ)上構(gòu)建了Masked版本,唯一的區(qū)別是在Masked版本中,所有候選實(shí)體均用“__MASK__”標(biāo)記來(lái)進(jìn)行替換,這樣模型在進(jìn)行推理時(shí)無(wú)法利用候選實(shí)體本身的語(yǔ)義信息,只能借助上下文信息,對(duì)模型的推理能力提出了更高的要求。WikiHop數(shù)據(jù)集目前只公開(kāi)了訓(xùn)練集Train和驗(yàn)證集Dev兩部分,為了方便測(cè)試,本文在實(shí)驗(yàn)中將驗(yàn)證集Dev中的部分?jǐn)?shù)據(jù)作為測(cè)試集Test-1,相關(guān)統(tǒng)計(jì)見(jiàn)表1。

表1 數(shù)據(jù)集指標(biāo)統(tǒng)計(jì)
在實(shí)驗(yàn)中,將準(zhǔn)確率作為評(píng)價(jià)指標(biāo)
(14)
其中, Max()i表示第i個(gè)樣本中概率最大的實(shí)體,即預(yù)測(cè)結(jié)果,labeli表示第i個(gè)樣本的標(biāo)簽, I(,) 為指示函數(shù),如果兩者相同就返回1,否則返回0,N表示數(shù)據(jù)集中樣本數(shù)量。
在預(yù)處理中,模型采用840B 300 d的GloVe預(yù)訓(xùn)練嵌入作為詞語(yǔ)級(jí)別的初始特征,使用1024維的標(biāo)準(zhǔn)ELMo表示作為上下文級(jí)別的語(yǔ)義信息,用于結(jié)點(diǎn)編碼的1層線性映射網(wǎng)絡(luò)維度為512,并且使用Tanh作為激活函數(shù);用于問(wèn)句編碼的2層雙向LSTM網(wǎng)絡(luò)維度為256。多視角圖卷積的通路數(shù)量C設(shè)置為4,多視角注意力模塊中Squeeze-and-Excitation操作的降維系數(shù)r設(shè)置為4。參照R-GCN[13],每個(gè)圖卷積通路的層數(shù)L設(shè)為5。此外,對(duì)于每個(gè)樣本,最大結(jié)點(diǎn)數(shù)量和最大問(wèn)題長(zhǎng)度分別設(shè)置為500、25。
每個(gè)圖卷積通路中的Dropout率設(shè)置為0.2,在顯存為16 G的Tesla T4上進(jìn)行實(shí)驗(yàn),batch size設(shè)為32,使用初始學(xué)習(xí)率為0.0002的Adam優(yōu)化器,并且每2個(gè)epoch后學(xué)習(xí)率減半,損失函數(shù)選用交叉熵,損失計(jì)算如下
(15)

3.3.1 多跳問(wèn)答任務(wù)測(cè)試
為了驗(yàn)證本文所提出的MV-GCN模型的有效性,此處將其與兩類(lèi)基線模型進(jìn)行對(duì)比,分別在WikiHop數(shù)據(jù)集的Unmasked、Masked兩個(gè)版本上進(jìn)行實(shí)驗(yàn)。兩類(lèi)基線模型是:①基于RNN的模型,包括FastQA、BiDAF、Coref-GRU[16];②基于圖網(wǎng)絡(luò)的模型,包括MHQA-GRN、Entity-GCN[7]、BAG[8]。其中基線模型Entity-GCN、BAG展示了與本模型相同環(huán)境下的運(yùn)行結(jié)果,其它基線模型的設(shè)置皆參照其原始論文進(jìn)行。
對(duì)比結(jié)果如表2所示,“MV-GCN”即本文提出的模型,表中報(bào)告的結(jié)果是在多視角圖卷積參數(shù)C為4,降維系數(shù)r為4設(shè)置下的結(jié)果。從表2的實(shí)驗(yàn)結(jié)果可以看出,本文提出的模型整體上優(yōu)于目前所有的基線模型,并且在Unmasked版本測(cè)試集上達(dá)到了68.6%的準(zhǔn)確率。說(shuō)明通過(guò)設(shè)計(jì)多視角圖卷積來(lái)提取結(jié)點(diǎn)間的傳遞信息,以及多視角信息融合的方法能很大程度上提高模型的特征表征和推理能力;并且在多次實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn)相較于基線模型,本文提出的模型在穩(wěn)定性上表現(xiàn)更好,這是因?yàn)樯窠?jīng)網(wǎng)絡(luò)本身具有不穩(wěn)定性,再加上隨機(jī)初始化等因素,單視角的網(wǎng)絡(luò)穩(wěn)定性較差,而多個(gè)視角之間可以形成互補(bǔ)與增強(qiáng),從而在提高性能的同時(shí)達(dá)到一個(gè)動(dòng)態(tài)平衡。

表2 多跳問(wèn)答任務(wù)下不同模型的準(zhǔn)確率對(duì)比/%
3.3.2 對(duì)多視角圖卷積參數(shù)C的分析
圖4展示了關(guān)于多視角圖卷積參數(shù)的實(shí)驗(yàn),驗(yàn)證不同多視角圖卷積參數(shù)對(duì)模型性能的影響。由于Inception中每層的通道數(shù)量較大,所以對(duì)應(yīng)的Squeeze-and-Excitation機(jī)制中降維系數(shù)r也設(shè)置的很大,比如16、32;但在本文的模型中多視角圖卷積數(shù)量并不是很大,所以將降維系數(shù)為r設(shè)為4,其它設(shè)置相同。從圖4可以看出,當(dāng)多視角圖卷積參數(shù)設(shè)為4時(shí)準(zhǔn)確率達(dá)到最高,這是因?yàn)閳D網(wǎng)絡(luò)本身具有較強(qiáng)的特征抽取及推理能力,當(dāng)視角參數(shù)過(guò)大時(shí),反而會(huì)形成信息冗余及視角間的互相干擾,而視角數(shù)量過(guò)少則會(huì)出現(xiàn)信息抽取角度不夠的問(wèn)題。

圖4 關(guān)于多視角圖卷積參數(shù)C的實(shí)驗(yàn)
3.3.3 對(duì)多視角融合中降維系數(shù)r的分析
圖5展示了關(guān)于多視角融合中降維系數(shù)r的實(shí)驗(yàn),驗(yàn)證降維系數(shù)r對(duì)模型性能的影響,實(shí)驗(yàn)時(shí)將多視角圖卷積參數(shù)C設(shè)置為24,這樣可以盡可能多地測(cè)試多組r值,其它設(shè)置相同;為了提高實(shí)驗(yàn)效率,分別隨機(jī)選取了5000條訓(xùn)練樣本和1000條驗(yàn)證樣本進(jìn)行實(shí)驗(yàn)。從折線圖可以看出,當(dāng)r值為4時(shí),準(zhǔn)確率最高,此時(shí)降維后的維度為6,能對(duì)多個(gè)視角進(jìn)行最大程度的權(quán)重篩選,但又不影響信息的融合,最終使整個(gè)模型的性能達(dá)到最優(yōu)。

圖5 關(guān)于降維系數(shù)r的實(shí)驗(yàn)
3.3.4 對(duì)MV-GCN模型訓(xùn)練穩(wěn)定性的分析
在基線模型中,目前BAG的綜合性能最好,圖6為MV-GCN與BAG在穩(wěn)定性方面的性能對(duì)比,展示了從訓(xùn)練開(kāi)始5個(gè)epoch(215 000步)內(nèi)的損失變化情況。從圖中可以看出,訓(xùn)練開(kāi)始階段,MV-GCN的損失快速且平滑下降;在訓(xùn)練中后期的每個(gè)epoch內(nèi),BAG的損失會(huì)略有上升,而MV-GCN的損失變化平緩,波動(dòng)幅度小,且在整個(gè)訓(xùn)練過(guò)程中MV-GCN的損失都略低于BAG,表明相較于BAG有更好的穩(wěn)定性。

圖6 訓(xùn)練過(guò)程中損失變化
本文針對(duì)多文檔多跳推理閱讀理解問(wèn)題,提出了基于多視角圖卷積的MV-GCN模型,摒棄了傳統(tǒng)加深網(wǎng)絡(luò)的思路,而是采用在橫向設(shè)計(jì)多個(gè)圖網(wǎng)絡(luò)通路的思路來(lái)加寬網(wǎng)絡(luò),引入更加豐富的特征信息,并通過(guò)SE機(jī)制對(duì)多個(gè)圖卷積通路的全局信息進(jìn)行動(dòng)態(tài)重校準(zhǔn)的方式實(shí)現(xiàn)信息融合。經(jīng)過(guò)驗(yàn)證,整個(gè)模型擁有較好的性能,但在實(shí)際應(yīng)用場(chǎng)景中還存在著一些問(wèn)題,比如針對(duì)不同的問(wèn)句需要不同的跳轉(zhuǎn)次數(shù),這就需要模型能夠動(dòng)態(tài)進(jìn)行答案推理。為應(yīng)對(duì)這些問(wèn)題,在下一步研究工作中,將通過(guò)引入更加靈活有效的注意力機(jī)制[10]的方式,并結(jié)合門(mén)控圖網(wǎng)絡(luò)等方法來(lái)進(jìn)一步提高多跳推理閱讀理解模型的推理能力。