唐竑軒,武愷莉,朱朦朦,洪 宇
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
多文檔機(jī)器閱讀理解(Multi-document Machine Reading Comprehension,MMRC)的核心任務(wù)是在多篇文檔中尋找線索,輔助答案的推理并抽取答案的描述語(yǔ)言。目前,面向MMRC構(gòu)建的國(guó)際公開(kāi)語(yǔ)言學(xué)資源包括TriviaQA[1]、DuReader[2]、HotpotQA[3]等。其中HotpotQA問(wèn)答集作為相關(guān)分析與實(shí)驗(yàn)的語(yǔ)料,包含112 779條多文檔抽取式問(wèn)答樣本。
“多跳”和“橋?qū)嶓w”現(xiàn)象的學(xué)習(xí)與處理,是優(yōu)化MMRC模型的重要條件,也是HotpotQA問(wèn)答集中分布最為廣泛的語(yǔ)言現(xiàn)象。如自然問(wèn)句“卡斯帕·施梅切爾的父親在1992年獲得了IFFHS授予的什么獎(jiǎng)項(xiàng)”中,“父親”是最為關(guān)鍵的橋?qū)嶓w,先尋找“父親是誰(shuí)”的解,再探尋“父親所獲獎(jiǎng)項(xiàng)名稱”的解,即構(gòu)成了問(wèn)題多跳求解過(guò)程。在HotpotQA問(wèn)答集中,“卡斯帕·施梅切爾”與其“父親”的父子關(guān)系表述,以及其“父親”與“獎(jiǎng)項(xiàng)”的關(guān)系表述,并未置于同一自然語(yǔ)句中,甚至分別出現(xiàn)于不同的相關(guān)文檔中,所以現(xiàn)有針對(duì)單一段落或單一語(yǔ)篇的閱讀理解模型,并不能在MMRC場(chǎng)景下得以直接應(yīng)用。因此,面向MMRC的研究不可避免地需要面向如下挑戰(zhàn):以問(wèn)句為目標(biāo)的相關(guān)文檔判別,其核心任務(wù)是從文檔集合中獲取直接相關(guān)于當(dāng)前問(wèn)題的文檔,如在上例中,預(yù)先精確獲取相關(guān)于“卡斯帕·施梅切爾的父親”的文檔,并屏蔽無(wú)關(guān)文檔,是輔助后續(xù)抽取答案的前提;基于“蟲(chóng)洞”的相關(guān)文檔判別,假設(shè)自然問(wèn)句Q包含兩個(gè)子問(wèn)題Qα和Qβ(回答Qα為一跳求解,回答Qβ為二跳求解),Qα和Qβ的答案表述共享同一個(gè)橋?qū)嶓w,但兩者分別出現(xiàn)于文檔α和β,那么以橋?qū)嶓w為“蟲(chóng)洞”,在一跳推理后突破文檔α的束縛,階躍進(jìn)入文檔β進(jìn)行二跳推理,即為“蟲(chóng)洞”驅(qū)動(dòng)的MMRC策略,從所有相關(guān)文檔中唯獨(dú)尋找“蟲(chóng)洞”連通的α和β,則是輔助MMRC的關(guān)鍵步驟;多文檔答案求解,對(duì)“蟲(chóng)洞”聯(lián)通的推理依據(jù)(如不同相關(guān)文檔中共享橋?qū)嶓w的兩句話)進(jìn)行綜合的語(yǔ)義學(xué)習(xí),并在此基礎(chǔ)上,利用抽取模型或生成模型輸出答案。
現(xiàn)有研究往往采用較為剛性的方式解決上述相關(guān)性判別的難題(即問(wèn)題與文檔的相關(guān)性求解難題,以及蟲(chóng)洞聯(lián)通的文檔級(jí)相關(guān)性求解難題)。此外,雖然多種計(jì)算語(yǔ)言學(xué)方法和自然語(yǔ)言處理技術(shù)可借助流水線式(Pipeline)的問(wèn)題求解框架,逐步遞進(jìn)地解決上述難題,但其在整體上往往缺乏通用性和復(fù)用性。如首先利用檢索技術(shù)解決問(wèn)題與文檔的匹配[4]問(wèn)題,從而獲取相關(guān)文檔;然后利用命名實(shí)體鏈接(Entity Linking)[5]和指代消解[6]方法探索橋?qū)嶓w,并進(jìn)而鎖定蟲(chóng)洞聯(lián)通的相關(guān)文檔;最后利用已有的閱讀理解模型在蟲(chóng)洞聯(lián)通的文字片段上抽取答案。但是,這樣一種流水線式的MMRC系統(tǒng),很可能因?yàn)樾纬上x(chóng)洞的信息不是橋?qū)嶓w(例如橋?qū)傩浴蛐袨椤驙顟B(tài)、關(guān)系橋和上下位橋),使得原有的中間環(huán)節(jié)(文檔級(jí)關(guān)聯(lián)計(jì)算)不可復(fù)用,而更換蟲(chóng)洞必然在各個(gè)環(huán)節(jié)之間引起模型的再次集成與重新協(xié)作的問(wèn)題。
針對(duì)上述問(wèn)題,本文提出一種多文檔的聯(lián)合神經(jīng)閱讀理解(Joint Neural MMRC,JNM)模型。JNM是由一組功能各異的神經(jīng)網(wǎng)絡(luò)構(gòu)成的聯(lián)合學(xué)習(xí)模型,包含基于雙向門控循環(huán)單元[7](Bi-directional Gated Recurrent Unit,BiGRU)的循環(huán)神經(jīng)網(wǎng)絡(luò)[8](Recurrent Neural Network,RNN)、單向和雙向注意力網(wǎng)絡(luò)[9]以及指針網(wǎng)絡(luò)[10]。JNM將相關(guān)性、蟲(chóng)洞、答案抽取等各個(gè)獨(dú)立的學(xué)習(xí)環(huán)節(jié)納入統(tǒng)一且唯一的深度學(xué)習(xí)框架,構(gòu)建一種新的普適性閱讀理解網(wǎng)絡(luò)結(jié)構(gòu)。
MMRC的輸入是未經(jīng)加工的純文本文檔集合S,以及一條特定的自然問(wèn)句Q。MMRC的輸出是Q的答案a。從概率的角度分析,在給定Q和S的前提下,能夠使得條件概率P(a|Q,S)最大化的字符串即為答案a,其公式表示如下:
a=argmaxP(a|Q,S)
(1)
其中,argmaxP(*|*)是最大似然概率。
值得注意的是,當(dāng)MMRC被用于抽取式問(wèn)答的求解過(guò)程時(shí),Q并未被預(yù)先給定或限定于任何候選答案,其唯一的答案需要從集合S內(nèi)的某一相關(guān)文檔中自行抽取。因此,這一相關(guān)文檔中出現(xiàn)的所有命名實(shí)體、詞、短語(yǔ)和子句,都可能成為問(wèn)句q的候選答案。相對(duì)地,如果MMRC被用于求解“是非”問(wèn)題時(shí),每個(gè)問(wèn)句的候選答案已得到預(yù)先的限定,即“是”或“非”。此外,在MMRC的實(shí)驗(yàn)環(huán)境中,用于估計(jì)答案的線索并未集中于一篇文檔,而是離散在不同文檔之中,這也是MMRC多文檔求解的特色之一。
圖1給出了MMRC在抽取式問(wèn)答場(chǎng)景下的應(yīng)用實(shí)例。這一實(shí)例顯示,MMRC針對(duì)給定的問(wèn)題,需要從文檔集合S中識(shí)別兩篇相關(guān)文檔α和β,并結(jié)合α和β中各自蘊(yùn)含的線索(如下劃線標(biāo)記的斜體文字),進(jìn)行答案的抽取(如文檔β內(nèi)加粗的斜體文字)。

圖1 HotpotQA數(shù)據(jù)樣例
可用于MMRC研究的英文數(shù)據(jù)資源包括TriviaQA[1]和HotpotQA[3]。其中,TriviaQA指出,其問(wèn)題求解需要結(jié)合多篇文檔中的文字線索,但人工觀測(cè)顯示,大量目標(biāo)問(wèn)題可通過(guò)單文檔實(shí)現(xiàn)答案抽取;相比而言,HotpotQA顯得較為純粹,其蘊(yùn)含的目標(biāo)問(wèn)題幾乎全部需要依賴多篇文檔中的線索進(jìn)行求解,多跳和橋?qū)嶓w(或橋事件)現(xiàn)象出現(xiàn)于全部問(wèn)答樣本中。本文在HotpotQA上展開(kāi)實(shí)驗(yàn),并對(duì)其進(jìn)行概述。
HotpotQA是推動(dòng)閱讀理解模型可解釋性研究的重要語(yǔ)料之一,其包含的文檔來(lái)自維基百科,自然問(wèn)句與答案通過(guò)眾包進(jìn)行收集。HotpotQA中的每個(gè)問(wèn)句對(duì)應(yīng)10篇相關(guān)文檔、1個(gè)答案以及人工標(biāo)記的句子級(jí)支持性事實(shí)。該語(yǔ)料共含有112 779條有效數(shù)據(jù)。評(píng)價(jià)標(biāo)準(zhǔn)除了答案的EM值和F1值之外,還有對(duì)支持事實(shí)的EM值和F1值以及答案與支持事實(shí)的聯(lián)合得分。
MMRC問(wèn)題是現(xiàn)有機(jī)器閱讀理解(MRC)問(wèn)題的延伸。在探討MMRC研究之前,本節(jié)首先簡(jiǎn)要回顧MRC的最新研究進(jìn)展。
隨著大規(guī)模監(jiān)督數(shù)據(jù)的發(fā)布和神經(jīng)閱讀理解模型的發(fā)展,使得機(jī)器閱讀理解研究取得了顯著的進(jìn)步。目前,谷歌語(yǔ)言人工智能研究院發(fā)布的BERT模型[11],在SQuAD數(shù)據(jù)集[12]上取得了較高性能,EM值和F1值分別為85.08%和91.83%。其相比于人工答疑結(jié)果,呈現(xiàn)出較優(yōu)的能力(注:這一論斷僅參考SQuAD相關(guān)評(píng)測(cè)的已有性能報(bào)告,不具備普適性和絕對(duì)性)。盡管如此,現(xiàn)有MRC模型的優(yōu)勢(shì)在更為復(fù)雜的問(wèn)答場(chǎng)景下,并不能得以有效延續(xù),其在蘊(yùn)含“多跳”和“橋?qū)嶓w”等語(yǔ)言現(xiàn)象的多文檔答案抽取中,欠缺直接予以應(yīng)用的條件。
以目標(biāo)問(wèn)句為參考,度量文檔中詞項(xiàng)的注意力,是利用指針網(wǎng)絡(luò)進(jìn)行答案抽取的主要方法之一[13-15]。然而,圖1中的例子說(shuō)明,問(wèn)句中作為約束條件的表述“在約瑟夫·班尼特?fù)?dān)任中校的那場(chǎng)戰(zhàn)斗中”,并未在答案所在的文檔β中出現(xiàn)。從而在本質(zhì)上,注意力計(jì)算無(wú)法將這一約束中蘊(yùn)含的語(yǔ)義信息傳遞到答案的發(fā)現(xiàn)過(guò)程中,形成了低約束條件下的問(wèn)題求解。這一不足將在大規(guī)模數(shù)據(jù)和開(kāi)放域應(yīng)用場(chǎng)景下引起爭(zhēng)議(如“歷史上領(lǐng)導(dǎo)德克薩斯軍隊(duì)”的領(lǐng)袖不止一個(gè),為什么答案一定是“薩姆·休斯頓將軍”,沒(méi)有前提約束,答案顯然靈活且多變)。
當(dāng)前現(xiàn)有的單文檔MRC模型大多無(wú)法完成多跳推理或?qū)﹂L(zhǎng)文本進(jìn)行答案抽取的任務(wù),如基于BERT的MRC模型必須將文本長(zhǎng)度限制在512字以內(nèi),因此建立一種專門針對(duì)長(zhǎng)文本或多段落求解的MRC模型顯得意義重大。MMRC即是針對(duì)這種問(wèn)題提出的新型閱讀理解任務(wù),其核心在于將自然問(wèn)句蘊(yùn)含的多方面因素或前提條件引入計(jì)算范疇,尤其是要求問(wèn)答系統(tǒng)不能回避約束因素(或前提)離散于多篇文檔的客觀事實(shí),形成趨近于真實(shí)應(yīng)用場(chǎng)景下的問(wèn)答研究課題。比如,圖1中的例子顯示,“圣哈辛托戰(zhàn)役”是連接前提“在約瑟夫·班尼特?fù)?dān)任中校的那場(chǎng)戰(zhàn)斗中”和正確答案“薩姆·休斯頓將軍”的重要橋梁(即“橋事件”),且這一橋梁橫跨文檔α和β。針對(duì)這一情況,閱讀理解需在綜合考慮α和β中的關(guān)聯(lián)線索,并經(jīng)過(guò)多跳求解才能獲得可靠的答案,推理過(guò)程如圖2所示。

圖2 HotpotQA數(shù)據(jù)樣例推理過(guò)程
針對(duì)MMRC的研究,文獻(xiàn)[16]提出一種基于候選挖掘的推理模型。其首先抽取候選答案,然后利用推理機(jī)制對(duì)候選答案逐個(gè)驗(yàn)證,擇優(yōu)輸出。文獻(xiàn)[17]提出一種管道式方法,先從多文檔中篩選出最相關(guān)的文檔,再使用閱讀理解模型從中進(jìn)行答案抽取。在此基礎(chǔ)上,文獻(xiàn)[18]提出了基于重排序的相關(guān)文檔獲取方法,借以避免文檔選擇錯(cuò)誤產(chǎn)生的損失,文獻(xiàn)[19]提出了一個(gè)端到端的模型,對(duì)所有文檔進(jìn)行答案抽取,最后比較并選擇最終答案,文獻(xiàn)[20]提出了一種語(yǔ)義分析的閱讀理解模型,先進(jìn)行答案句檢索,再進(jìn)行答案抽取,文獻(xiàn)[21]提出了一種針對(duì)中文的多文檔多答案閱讀理解模型,在真實(shí)的多文檔中文閱讀理解數(shù)據(jù)集上表現(xiàn)優(yōu)異。
聯(lián)合學(xué)習(xí)模型(JNM)是針對(duì)本文目標(biāo)任務(wù)形成的一種綜合神經(jīng)網(wǎng)絡(luò)架構(gòu),并配以一套新型的聯(lián)合學(xué)習(xí)方法。本文側(cè)重解釋注意力機(jī)制的使用,包括:1)如何將雙向注意力網(wǎng)絡(luò)應(yīng)用于問(wèn)題-多文檔的關(guān)聯(lián)性表示;2)如何將雙向注意力網(wǎng)絡(luò)投入蟲(chóng)洞的識(shí)別與表示,并將蟲(chóng)洞兩端的文字線索應(yīng)用于答案抽取過(guò)程。本文的貢獻(xiàn)總體上包含如下3個(gè)方面:
1)提出一種面向多文檔閱讀理解的聯(lián)合學(xué)習(xí)模型,用于克服現(xiàn)有流水線推理模型的低復(fù)用性和重用性問(wèn)題。JNM將各個(gè)獨(dú)立的學(xué)習(xí)環(huán)節(jié)(相關(guān)性、蟲(chóng)洞和答案抽取)納入統(tǒng)一且唯一的深度學(xué)習(xí)框架,降低了建模、訓(xùn)練和開(kāi)發(fā)的操作難度。
2)JNM是由一組簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)模型構(gòu)建而成,旨在嘗試新的普適性閱讀理解網(wǎng)絡(luò)結(jié)構(gòu),并未包含復(fù)雜度較高或網(wǎng)絡(luò)層數(shù)較深的模型,從而避免了較高的計(jì)算復(fù)雜度。如其引入的指針網(wǎng)絡(luò)僅為兩層的全連接層。在這一情況下,JNM獲得了優(yōu)于現(xiàn)有前沿MMRC模型的性能,在HotpotQA測(cè)試集上產(chǎn)生了約2.0個(gè)百分點(diǎn)的精度(Exact Match)優(yōu)勢(shì)。
3)JNM可用作基本框架,以支撐更為復(fù)雜的神經(jīng)問(wèn)答模型開(kāi)發(fā)。其可通過(guò)局部模型的優(yōu)化和一體化訓(xùn)練,獲得更高的性能優(yōu)勢(shì)。如使用谷歌發(fā)布的BERT模型[11]替代現(xiàn)有的表示層或答案抽取環(huán)節(jié)。
根據(jù)MMRC定義,直觀的問(wèn)題求解方式可以歸結(jié)為文字片段(或“是非”論斷)作為正解的最大似然估計(jì)。本節(jié)對(duì)這一求解過(guò)程進(jìn)行分解,并解釋網(wǎng)絡(luò)設(shè)計(jì)思路和聯(lián)合學(xué)習(xí)的必要性。
MMRC涵蓋多文檔關(guān)聯(lián)分析、多跳推理和橋?qū)嶓w識(shí)別等問(wèn)題,因此其解決思路不能局限于傳統(tǒng)的單文檔閱讀理解方法。本文受人類解決MMRC問(wèn)題的啟發(fā),提出了一種“剝洋蔥皮”式的解題方法,其包括如下關(guān)鍵環(huán)節(jié),可類比人類閱讀理解的略讀、精讀和確定答案的3個(gè)步驟:


(2)
a=argmaxP(a|Q,Dα,Dβ)×
(3)
3)MMRC依賴的文字線索(如圖1中下劃線標(biāo)記的語(yǔ)句)分別出現(xiàn)于相關(guān)文檔Dα和Dβ,且缺一不可。假設(shè)文檔Dα和Dβ中蘊(yùn)含的線索分別為Cα和Cβ,則MMRC的求解過(guò)程可進(jìn)一步細(xì)化為給定Cα和Cβ條件下的最大似然估計(jì):
a=argmaxP(a|Q,Cα,Cβ)×P(Cα,Cβ|Q,Dα,Dβ)×
(4)

由于蟲(chóng)洞的識(shí)別直接影響相關(guān)文檔Dα和Dβ的選擇和線索Cα和Cβ的判定,從而詞項(xiàng)(含實(shí)體)作為蟲(chóng)洞的概率計(jì)算也應(yīng)融入總體的答案似然估計(jì)。由此,“剝洋蔥皮”式的MMRC將形成如下更為繁瑣的概率計(jì)算過(guò)程:
a=argmaxP(a|Q,Cα,Cβ)×P(Cα,Cβ|WH,Q,Dα,Dβ)×
(5)
其中,WH表示作為蟲(chóng)洞(WormHole)的詞項(xiàng)或?qū)嶓w。
上述概率計(jì)算形成了遞進(jìn)式的MMRC模型,具有較強(qiáng)的邏輯性,但是卻欠缺可操作性。其中,線索文檔Dα和Dβ、文字線索Cα和Cβ、蟲(chóng)洞WH都是有待識(shí)別的未知因素,其概率估計(jì)往往依賴多樣的前提條件。在這一情況下,較難判定哪一種或多種條件應(yīng)在概率計(jì)算中發(fā)揮主導(dǎo)作用。尤其是文字線索Cα和Cβ的文字形式較為靈活,文字塊、子句或句子都可以形成文字線索,從而概率計(jì)算P(Cα,Cβ|WH,Q,Dα,Dβ)缺少文法確切的候選目標(biāo)。下一節(jié)將通過(guò)建立涵蓋“剝洋蔥皮”各個(gè)環(huán)節(jié)的神經(jīng)網(wǎng)絡(luò),對(duì)上述問(wèn)題予以解決。


圖3 模型總體框架
下文概述4個(gè)子模塊的具體功能:

3)P(Cα,Cβ|Q,Dα,Dβ)求解:旨在挖掘文字線索Cα和Cβ。取出Dα與Dβ在第2步之后的分布式表示結(jié)果{GDiQ,GDjQ},與上一步類似,使用文檔雙向注意力機(jī)制獲取兩篇線索文檔間的關(guān)系。與文檔選擇模塊的雙向注意力不同,答案抽取模塊中的文檔雙向注意力的學(xué)習(xí)旨在挖掘與答案相關(guān)的文字線索Cα和Cβ,而不是找尋蟲(chóng)洞。
4)P(a|Q,Cα,Cβ)求解:旨在預(yù)測(cè)最終答案a。對(duì)Dα與Dβ的高維語(yǔ)義特征表示{RDαQ,RDβQ}分別使用指針網(wǎng)絡(luò)進(jìn)行答案抽取,獲得候選答案{Ansα,Ansβ}。再通過(guò)打分函數(shù)進(jìn)行答案選擇,判斷最終答案出自文檔Dα還是文檔Dβ。
文檔選擇主要包括以下2層:
1)BiGRU層。JNM對(duì)問(wèn)題Q以及N篇文檔{D1,D2,…,DN}使用預(yù)訓(xùn)練的300維Glove詞向量[22]進(jìn)行詞嵌入。同時(shí)使用通過(guò)卷積神經(jīng)網(wǎng)絡(luò)[23]對(duì)單詞中的字符進(jìn)行卷積獲得單詞的字符級(jí)詞嵌入,以此解決未登錄詞的問(wèn)題。此外,引入EM特征[24],該特征是一個(gè)二進(jìn)制特征,將問(wèn)題與文檔中同時(shí)出現(xiàn)的詞標(biāo)記為1,未同時(shí)出現(xiàn)的詞標(biāo)記為0,并將0和1映射成n維向量,與詞向量和字符級(jí)向量拼接。按照上述方式得到單詞的分布式表示W(wǎng)。接著使用隱層數(shù)量為h的BiGRU對(duì)具有q個(gè)單詞的問(wèn)題Q和具有di個(gè)單詞的文檔Di進(jìn)行編碼,得到問(wèn)題與文檔的分布式表示HQ∈q×h和HDi∈di×h:
HQ=BiGRU(Q)HDi=BiGRU(Di)
(6)
2)注意力矩陣層。在得到了問(wèn)題和文檔的分布式表示HQ和{HD1,HD2,…,HDN}后,JNM分別使用兩種形式的注意力機(jī)制來(lái)進(jìn)行高維特征表示和信息的交互與融合。JNM首先使用類似文獻(xiàn)[14]提出的雙向注意力機(jī)制,挖掘文檔中與問(wèn)題相關(guān)的部分:
(7)
其中,WDi,WQ∈h×1為可訓(xùn)練參數(shù),S∈di×q表示文檔詞與問(wèn)題詞的注意力得分,A∈di×h表示問(wèn)題對(duì)文檔的注意力,max(*)表示對(duì)S按列取最大值,rep(*)表示按行復(fù)制h次。由此得到結(jié)合問(wèn)題信息的文檔表示GDiQ∈di×4h。本文將上述計(jì)算文本A與文本B間注意力的方式記作GAB=BiAtt(A,B)。
如第1.3節(jié)相關(guān)研究與分析中所述,正確答案需要聯(lián)合兩篇文檔推理獲得,因此JNM構(gòu)建了一個(gè)文檔注意力矩陣M用于輔助線索文檔的選擇,旨在捕獲文檔間可能存在的聯(lián)系,找尋蟲(chóng)洞WH。對(duì)于N篇文檔,該矩陣M是一個(gè)N×N的方陣,其中Mij表示第i篇文檔對(duì)第j篇文檔的注意力,如圖4所示。

圖4 文檔注意力矩陣
據(jù)此,計(jì)算得到Mij和第i篇文檔的表示RDi:
(8)
其中,Mij∈di×h,M∈N×N×di×h。JNM通過(guò)文檔注意力矩陣得到新的文檔表示Ri∈di×Nh。對(duì)獲得的10篇文檔的分布式表示{R1,R2,…,RN}通過(guò)BiGRU解碼,使用全連接層進(jìn)行二分類,判斷其是否為線索文檔,具體如下:
yi=W2×max(BiGRU(Ri))+b2
(9)

答案抽取主要包括以下2層:
1)語(yǔ)篇注意力層。在篩選出線索的文檔Dα與Dβ后,為降低參數(shù)量級(jí)以及簡(jiǎn)化訓(xùn)練,保留文檔選擇模塊中的問(wèn)題編碼表示HQ,并且從{HD1,HD2,…,HDN}中取出線索文檔的編碼表示{HDα,HDβ}。與3.1節(jié)中的注意力矩陣不同,這里使用更加精細(xì)的語(yǔ)篇注意力交互,旨在挖掘文字線索Cα和Cβ。JNM分別計(jì)算文檔與問(wèn)題的雙向注意力以及兩篇文檔之間的雙向注意力,并且利用殘差網(wǎng)絡(luò)[25]進(jìn)行信息融合,獲得結(jié)合問(wèn)題與另一篇線索文檔信息的表示RDα∈dα×h與RDβ∈dβ×h:
(10)

(11)


(12)
JNM使用聯(lián)合訓(xùn)練的方法訓(xùn)練文檔選擇和答案抽取兩個(gè)模塊。文檔選擇模塊的損失記為L(zhǎng)sele,答案抽取模塊的損失記為L(zhǎng)ans。其中Lans由抽取損失Lex和答案源推理選擇損失Lclf構(gòu)成,并且在抽取損失Lex前添加一個(gè)指示函數(shù)I(i),當(dāng)答案源選擇錯(cuò)誤時(shí)不產(chǎn)生損失。
當(dāng)模型答案源選擇正確時(shí)loss=Lex+Lclf,由于答案源選擇為二分類任務(wù),在分類正確的情況下二分類交叉熵?fù)p失遠(yuǎn)小于答案抽取的損失,答案抽取可看作兩個(gè)多分類,分別是文檔中每個(gè)詞作為答案開(kāi)頭的概率和答案結(jié)尾的概率。因此,Lclf遠(yuǎn)小于Lex,即loss≈Lex,當(dāng)答案源選擇錯(cuò)誤時(shí)loss=Lclf。為了避免做出錯(cuò)誤選擇時(shí)模型損失loss的情況發(fā)生,在答案源選擇損失Lclf前添加損失調(diào)和系數(shù)λ,用于平衡答案源選擇損失與答案抽取損失,保持Lex與λ×Lclf相近。
(13)
其中,K表示答對(duì)總數(shù),N表示一個(gè)問(wèn)答對(duì)對(duì)應(yīng)的文檔規(guī)模,Lex與Lclf均為交叉熵?fù)p失。
預(yù)訓(xùn)練詞向量為300維的Glove詞向量[22],并在訓(xùn)練過(guò)程中反向傳播更新詞向量,使詞向量更加適配任務(wù)。EM特征維度為100維,學(xué)習(xí)率設(shè)為0.000 6。由于在HotpotQA數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),每個(gè)問(wèn)題均提供10篇候選文檔,因此最大文檔數(shù)為10。模型的編碼層BiGRU隱層數(shù)與解碼層RNN隱層數(shù)一致,設(shè)為120。模型使用Adam優(yōu)化器[26],其中除學(xué)習(xí)率外的參數(shù)均為默認(rèn)值,模型訓(xùn)練的參數(shù)如表1所示。由于答案抽取模塊對(duì)于文檔選擇模塊的強(qiáng)依賴性,在文檔選擇模塊尚未完全訓(xùn)練時(shí),答案抽取模塊的訓(xùn)練會(huì)變得非常緩慢。這是因?yàn)楫?dāng)模型未從正確文檔抽取答案時(shí)抽取損失Lex為0(在線索文檔定位錯(cuò)誤的情況下答案源選擇不可能正確),答案抽取模塊無(wú)法進(jìn)行反向傳播更新參數(shù)。為解決這一問(wèn)題,JNM在訓(xùn)練時(shí)始終使用正確的兩篇線索文檔訓(xùn)練答案抽取模塊,在預(yù)測(cè)時(shí)使用文檔選擇模塊預(yù)測(cè)的線索文檔進(jìn)行預(yù)測(cè)。

表1 模型參數(shù)Table 1 Model parameters
在文檔選擇部分,JNM將該部分看作一個(gè)二分類任務(wù),本文使用兩篇線索文檔均定位正確的性能accuracy(簡(jiǎn)稱ACC)和F1值對(duì)篩選出的線索文檔進(jìn)行評(píng)估。在答案抽取部分,本文使用文獻(xiàn)[12]在SQuAD任務(wù)中的評(píng)估方法,即利用EM值和F1值對(duì)預(yù)測(cè)答案進(jìn)行評(píng)估。具體而言,EM值表示預(yù)測(cè)值與標(biāo)準(zhǔn)答案是否完全匹配,匹配為1,不匹配則為0。F1值則將預(yù)測(cè)值與真實(shí)值分別視為一個(gè)詞袋,通過(guò)預(yù)測(cè)值與真實(shí)值之間的平均重疊單詞計(jì)算F1值。
實(shí)驗(yàn)的對(duì)比對(duì)象為HotpotQA提供的標(biāo)準(zhǔn)基線模型[3],模型架構(gòu)如圖5所示。模型將N篇文檔進(jìn)行拼接構(gòu)成長(zhǎng)度為M的長(zhǎng)文本,并采用BiGRU對(duì)長(zhǎng)文本D和問(wèn)題Q進(jìn)行編碼,并通過(guò)雙向注意力機(jī)制進(jìn)行信息融合,得到融合問(wèn)題的文檔表示G,最后使用指針網(wǎng)絡(luò)作為模型的輸出層,輸出答案的開(kāi)始位置start和結(jié)束位置end。

圖5 基線模型框架
在HotpotQA的測(cè)試集上,JNM獲得了60.75%的F1值和47.07%的EM值,高于基線模型獲得的59.02%的F1值和45.02%的EM值。JNM的文檔選擇模塊能夠召回91.24%的答案,使用BERT進(jìn)行向量表示則可召回92.36%的答案。相比之下,基線模型使用線索文檔進(jìn)行答案預(yù)測(cè)的F1值為63.58%。由于測(cè)試集并未給出問(wèn)題類型標(biāo)簽,并且官方禁止實(shí)驗(yàn)?zāi)P偷姆磸?fù)提交。因此,本文使用HotpotQA的開(kāi)發(fā)集進(jìn)行實(shí)驗(yàn)分析。
對(duì)于文檔選擇模塊,JNM的F1值為88.47%,ACC值為78.99%,具體性能如表2所示。

表2 文檔選擇模塊的性能Table 2 Performance of document selection module %
若進(jìn)一步使用BERT進(jìn)行向量表示,性能可以提升至90.43%的F1值和79.66%的EM值。其中比較類問(wèn)題的文檔選擇性能明顯高于橋類。針對(duì)比較類問(wèn)題,兩個(gè)比較對(duì)象往往對(duì)應(yīng)著兩篇線索文檔,如圖6中的問(wèn)題“上海和衡陽(yáng),哪座城市具有更多的人口?”,比較對(duì)象“上海”和“衡陽(yáng)”各自對(duì)應(yīng)一篇線索文檔,從文章的標(biāo)題即可完成定位,因此定位難度較低。在比較類問(wèn)題的文檔選擇方面,無(wú)論是JNM還是基線模型均獲得了遠(yuǎn)高于橋類問(wèn)題的性能。針對(duì)圖1中給出的橋類問(wèn)題“在約瑟夫·班尼特?fù)?dān)任中校的那場(chǎng)戰(zhàn)斗中,誰(shuí)領(lǐng)導(dǎo)了德克薩斯軍隊(duì)?”,模型需要先定位到第一篇線索文檔“約瑟夫·班尼特”,從中找尋蟲(chóng)洞WH,“圣哈辛托戰(zhàn)役”,據(jù)此定位到另一篇線索文檔“圣哈辛托戰(zhàn)役”,因此橋類問(wèn)題的文檔選擇更具挑戰(zhàn)。

圖6 比較類問(wèn)題錯(cuò)誤樣例
同樣,答案抽取模塊(模型的總體性能)針對(duì)兩種問(wèn)題類型的EM值、F1值如表3所示。

表3 答案抽取模塊的總體性能Table 3 Overall performance of answer extraction module %
若進(jìn)一步使用BERT進(jìn)行向量表示,JNM性能可以提升至67.91%的F1值和53.27%的EM值。其中基線模型性能為使用官方提供的經(jīng)過(guò)多次實(shí)驗(yàn)所得到的最高性能源代碼。發(fā)現(xiàn)無(wú)論是JNM還是基線模型,針對(duì)橋?qū)嶓w類問(wèn)題都有著較高的答案定位能力(預(yù)測(cè)值與真實(shí)值有交集)和較差的邊界定位能力。但比較類問(wèn)題則相反,模型的答案定位能力較差,邊界定位能力較強(qiáng)。如對(duì)圖1中給出的問(wèn)題“在約瑟夫·班尼特?fù)?dān)任中校的那場(chǎng)戰(zhàn)斗中,誰(shuí)領(lǐng)導(dǎo)了德克薩斯軍隊(duì)?”,模型的預(yù)測(cè)答案為“薩姆·休斯頓”,與真實(shí)答案“薩姆·休斯頓將軍”不完全匹配,但從語(yǔ)義角度兩個(gè)答案均正確,屬于答案定位準(zhǔn)確但答案邊界不準(zhǔn)確的情況。而對(duì)圖6中給出的比較類問(wèn)題,分析問(wèn)題即可將答案鎖定在“上海”和“衡陽(yáng)”之間,若答案源定位正確,答案邊界幾乎不可能有誤。因此,比較類問(wèn)題的最大挑戰(zhàn)是答案源的定位。如圖6中的錯(cuò)誤樣例,模型需要獲取知識(shí)“上海人口超過(guò)2 400萬(wàn)”和“居住著1 075 516名居民”,假設(shè)模型已經(jīng)通過(guò)文檔雙向注意力層挖掘到文字線索“1 075 516名”與“2 400萬(wàn)”,模型任然面臨著“1 075 516名”與“2 400萬(wàn)”的值比較問(wèn)題。不僅如此,還需結(jié)合問(wèn)題中的“更多的人口”這一信息,進(jìn)行比較結(jié)果與問(wèn)題方向的異或判斷。這對(duì)現(xiàn)有的神經(jīng)閱讀理解模型具有極大挑戰(zhàn)。
不過(guò)JNM僅是一套MMRC框架,可將內(nèi)部功能模塊替換成任意神經(jīng)網(wǎng)絡(luò)模型,如將BERT替代現(xiàn)有表示層后,JNM文檔抽取的F1值上升了2個(gè)百分點(diǎn),答案抽取性能上升了5.9個(gè)百分點(diǎn)。融合BERT表示的模型性能如表4所示。

表4 融合BERT表示的JNM各模塊性能Table 4 Performance of each JNM module expressed by BERT %
為更細(xì)致地分析JNM模型,本文在HotpotQA的開(kāi)發(fā)集上進(jìn)行了消減實(shí)驗(yàn),分別移除文檔選擇模塊的文檔注意力矩陣和答案抽取模塊的文檔雙向注意力,并分析其對(duì)文檔選擇性能、答案抽取性能和聯(lián)合性能的影響。
消減實(shí)驗(yàn)結(jié)果如表5所示,首先去掉EM特征,無(wú)論是文檔選擇模塊還是答案抽取模塊,性能都略有損失,證明EM特征對(duì)兩個(gè)模塊均有幫助。但損失值并不明顯,尤其是文檔選擇部分,ACC和F1值損失均在1%之內(nèi),表示EM特征并沒(méi)有在本文的模型中起決定性作用。去掉文檔選擇模塊的文檔注意力矩陣,模型在文檔選擇部分的性能損失的F1值為10.06%,答案抽取性能下降2.79%,證明文檔注意力矩陣對(duì)JNM性能起到?jīng)Q定性作用,尤其是對(duì)文檔選擇模塊。去掉答案抽取模塊的文檔雙向注意力,不僅導(dǎo)致答案抽取部分的F1值下降2.38%,同時(shí)導(dǎo)致文檔選擇部分的F1值下降2.30%。實(shí)驗(yàn)結(jié)果表明,無(wú)論消減文檔選擇模塊中的子模塊還是消減答案抽取模塊的子模塊,均會(huì)對(duì)兩個(gè)模塊以及總體性能產(chǎn)生影響,證明本文提出的聯(lián)合學(xué)習(xí)方法有助于在解決答案抽取問(wèn)題的同時(shí)解決文檔選擇問(wèn)題,并且文檔選擇對(duì)答案抽取(總體性能)有輔助作用。

表5 消減實(shí)驗(yàn)結(jié)果Table 5 Ablation experimental results %
本文針對(duì)多文檔推理問(wèn)題提出一種“剝洋蔥皮”式的解決方案,并通過(guò)面向多文檔的聯(lián)合學(xué)習(xí)模型JNM對(duì)該方案進(jìn)行實(shí)現(xiàn),同時(shí)針對(duì)蟲(chóng)洞現(xiàn)象,利用文檔注意力矩陣來(lái)輔助線索文檔的挖掘,并運(yùn)用文檔雙向注意力使答案抽取和答案源選擇更加準(zhǔn)確。實(shí)驗(yàn)結(jié)果表明,與基線模型相比,該模型的EM值和F1值在HotpotQA測(cè)試集中獲得了2.1%和1.7%的提升。理想的閱讀理解模型不僅需要提供問(wèn)題的預(yù)測(cè)答案,還應(yīng)給出推理答案所使用的支持事實(shí),使模型具有更好的可解釋性,下一步將對(duì)此進(jìn)行研究。