999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

選擇式機(jī)器閱讀理解綜述

2022-01-01 00:00:00賀吉飛徐行健孟繁軍

收稿日期:2021-11-03;修回日期:2021-12-21" 基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(61841703);全國高等院校計(jì)算機(jī)基礎(chǔ)教育研究會(huì)計(jì)算機(jī)基礎(chǔ)教育教學(xué)研究項(xiàng)目(2021-AFCEC-341,2021-AFCEC-342);內(nèi)蒙古自然科學(xué)基金資助項(xiàng)目(2019MS06014,2019BS06001);內(nèi)蒙古哲學(xué)社會(huì)科學(xué)研究專項(xiàng)資助項(xiàng)目(ZSZX21088,ZSZX21092);內(nèi)蒙古師范大學(xué)引進(jìn)人才科研啟動(dòng)項(xiàng)目(2017YJRC020)

作者簡介:賀吉飛(1998-),男,內(nèi)蒙古阿拉善人,碩士研究生,主要研究方向?yàn)榻逃髷?shù)據(jù);徐行健(1988-),男,安徽蚌埠人,講師,博士,主要研究方向?yàn)榻逃髷?shù)據(jù)、生物信息學(xué);孟繁軍(1975-),男(通信作者),內(nèi)蒙古赤峰人,副教授,碩士,主要研究方向?yàn)榻逃髷?shù)據(jù)、計(jì)算機(jī)存儲(chǔ)系統(tǒng)(ciecmfj@imnu.edu.cn).

摘 要:機(jī)器閱讀理解是自然語言處理領(lǐng)域的研究熱點(diǎn)之一,對提升機(jī)器閱讀能力和智能水平有著重要意義,為跟進(jìn)相關(guān)領(lǐng)域的研究進(jìn)展對其進(jìn)行綜述。首先,介紹機(jī)器閱讀理解的發(fā)展歷程及主要任務(wù);其次,重點(diǎn)梳理當(dāng)前選擇式機(jī)器閱讀理解基于深度學(xué)習(xí)方法的相關(guān)工作,并從語義匹配、預(yù)訓(xùn)練模型、語義推理、外部知識四個(gè)方面展開敘述;歸納總結(jié)了相關(guān)數(shù)據(jù)集以及評價(jià)指標(biāo);最后,對選擇式機(jī)器閱讀理解的未來發(fā)展趨勢進(jìn)行了展望。

關(guān)鍵詞:自然語言處理;選擇式機(jī)器閱讀理解;數(shù)據(jù)集;深度學(xué)習(xí)

中圖分類號:TP391.1"" 文獻(xiàn)標(biāo)志碼:A

文章編號:1001-3695(2022)06-004-1622-11

doi:10.19734/j.issn.1001-3695.2021.11.0589

Review of multi-choice machine reading comprehension

He Jifei,Xu Xingjian,Meng Fanjun

(College of Computer Science amp; Technology,Inner Mongolia Normal University,Hohhot 010022,China)

Abstract:Machine reading comprehension is one of the research hotspots in the field of natural language processing,it is of great significance to improve the reading ability and intelligence level of the machine.In order to follow up the research progress in related fields,this paper reviewed it.Firstly,this paper introduced the development process and main tasks of machine reading comprehension.Secondly,it focused on the current work of multi-choice machine reading comprehension based on deep learning methods,and described the related work from four aspects:semantic matching,pre-training model,semantic reasoning and external knowledge.Next,it summarized the related datasets and evaluation metrics.Finally,this paper looked forward to the future development trend of multi-choice machine reading comprehension.

Key words:natural language processing;multi-choice machine reading comprehension;datasets;deep learning

閱讀是人類運(yùn)用文字或者語言方式來獲取信息、認(rèn)識現(xiàn)實(shí)世界、發(fā)展個(gè)人思維的重要方式,“讀書破萬卷,下筆如有神”可以體現(xiàn)閱讀的重要性,而教會(huì)機(jī)器閱讀與理解是自然語言處理(natural language processing,NLP)領(lǐng)域一個(gè)非常重要的任務(wù)。因此,研究人員提出了機(jī)器閱讀理解(machine reading comprehension,MRC)任務(wù),主要目的是通過給定段落以及相關(guān)問題測試機(jī)器回答問題的準(zhǔn)確性,從而驗(yàn)證機(jī)器理解自然語言的程度,是近年來NLP領(lǐng)域熱門的研究方向之一。發(fā)展至今,機(jī)器閱讀理解任務(wù)主要存在填空式、選擇式、抽取式、生成式等類型,伴隨著深度學(xué)習(xí)的發(fā)展,也不斷涌現(xiàn)出如會(huì)話式、多跳推理等其他任務(wù)類型。選擇式機(jī)器閱讀理解作為機(jī)器閱讀理解領(lǐng)域的重要任務(wù)之一,是一個(gè)受語言能力考試啟發(fā)的機(jī)器閱讀理解任務(wù),它要求機(jī)器根據(jù)所提供的段落和問題在有限的候選答案集合中挑選出正確答案。選擇式機(jī)器閱讀理解任務(wù)的問題一般來源于語言考試,答案有時(shí)不能直接從段落信息中獲得,需經(jīng)過推理才能得到,且存在是否類、無答案等類型問題,更適合于實(shí)際應(yīng)用場景。

1 機(jī)器閱讀理解

1.1 機(jī)器閱讀理解發(fā)展歷程

機(jī)器閱讀理解的發(fā)展最早可以追溯到20世紀(jì)70年代,主要分為基于規(guī)則、基于機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)三個(gè)發(fā)展階段。

a)基于規(guī)則的方法構(gòu)建機(jī)器閱讀理解系統(tǒng)。自20世紀(jì)70年代開始,研究人員就已經(jīng)提出機(jī)器閱讀理解是檢驗(yàn)機(jī)器理解自然語言程度的一種重要方法。1977年,Lehnert[1]提出QUALM系統(tǒng),證實(shí)了給定文本語境對于問答的重要性,但該系統(tǒng)受限于手工腳本編碼,難以得到廣泛應(yīng)用。此后的二十年間,對于相關(guān)領(lǐng)域的研究進(jìn)入低谷期。直到1999年,Hirschman等人[2]針對自己構(gòu)建的數(shù)據(jù)集提出Deep Read系統(tǒng),在該數(shù)據(jù)集中,包含60個(gè)來自3~6年級的故事和一些簡短的事實(shí)類問答對,該系統(tǒng)利用基于規(guī)則的詞袋方法以及在規(guī)則中加入詞干提取、語義類標(biāo)志等特征,實(shí)現(xiàn)對文本的理解。Riloff等人[3]采用手工定制規(guī)則、判別詞匯和語義一致性,以計(jì)算數(shù)據(jù)集中句子和問題之間的匹配度。由于該領(lǐng)域在中文方向的研究較少,Hao等人[4]于2007年提出一種中文機(jī)器閱讀理解問答系統(tǒng)Cqarc。上述系統(tǒng)的性能只能達(dá)到30%~40%,由于在基于規(guī)則的發(fā)展階段,機(jī)器閱讀理解任務(wù)復(fù)雜性超過當(dāng)時(shí)技術(shù)水平,基于規(guī)則或手工構(gòu)建特征的方式過度依賴人工,加之缺少大規(guī)模數(shù)據(jù)集,導(dǎo)致機(jī)器閱讀理解的研究十分緩慢。

b)基于機(jī)器學(xué)習(xí)方法解決機(jī)器閱讀理解任務(wù)。從2013年開始到2015年結(jié)束,由于機(jī)器學(xué)習(xí)算法的興起,利用機(jī)器學(xué)習(xí)相關(guān)技術(shù)解決機(jī)器閱讀理解任務(wù)成為研究的主流,研究人員開始嘗試將機(jī)器閱讀理解任務(wù)定義為一種有監(jiān)督學(xué)習(xí)任務(wù),以三維度的〈段落,問題,答案〉定義機(jī)器閱讀理解內(nèi)容,建立有標(biāo)記的數(shù)據(jù)集。2013年,Richardson等人[5]通過眾包的方式構(gòu)建面向開放域的MCTest數(shù)據(jù)集。該數(shù)據(jù)集是選擇式機(jī)器閱讀理解數(shù)據(jù)集,其中主要內(nèi)容是660篇虛構(gòu)故事和與其相對應(yīng)的單項(xiàng)選擇問題。在這一時(shí)期,由于選擇式機(jī)器閱讀理解任務(wù)目標(biāo)以及評價(jià)方法明確,其逐漸成為研究熱點(diǎn),基于MCTest數(shù)據(jù)集的一系列機(jī)器閱讀理解模型被提出[6~8],大大推動(dòng)了機(jī)器閱讀理解領(lǐng)域的研究進(jìn)展。這幾種代表性模型大多數(shù)都是基于最大邊緣計(jì)算框架完成機(jī)器閱讀理解任務(wù),利用句法依存、語義框架等充足的語義特征集合實(shí)現(xiàn)對〈段落,問題,答案〉三元組的擬合。與基于規(guī)則的方法相比,這些模型方法的最終效果有一定提升,但仍然存在一些問題,如數(shù)據(jù)集規(guī)模較小,以MCTest數(shù)據(jù)集為例,供模型訓(xùn)練的樣例數(shù)無法支撐部分模型的訓(xùn)練;以詞法、句法分析和語義分析等為主的特征提取方法大多只經(jīng)過單一領(lǐng)域數(shù)據(jù)集訓(xùn)練,缺少泛化能力;大部分機(jī)器學(xué)習(xí)模型在構(gòu)建特征時(shí)只在有限范圍內(nèi)手動(dòng)選擇特征,很少加入遠(yuǎn)距離特征,若加入遠(yuǎn)距離特征會(huì)出現(xiàn)難以構(gòu)造有效特征等問題。

c)基于深度學(xué)習(xí)的方法解決機(jī)器閱讀理解任務(wù)。Hermann等人[9]于2015年提出CNN/Daily mail數(shù)據(jù)集,以英文報(bào)刊為基礎(chǔ),抹掉其中一些實(shí)體詞,并將抹掉的詞放入一個(gè)候選答案集合中,其類型為填空式機(jī)器閱讀理解,并針對該數(shù)據(jù)集構(gòu)建了基于神經(jīng)網(wǎng)絡(luò)的模型Attentive Reader。此模型是有監(jiān)督的基于注意力機(jī)制的長短期記憶網(wǎng)絡(luò)模型,在2015—2017年間掀起研究人員對機(jī)器閱讀理解及問答領(lǐng)域中基于注意力機(jī)制模型研究的熱潮[12~16],機(jī)器閱讀理解正式步入深度學(xué)習(xí)時(shí)代,但該數(shù)據(jù)的構(gòu)建方法和一些其他誤差會(huì)產(chǎn)生較大的噪聲,限制了進(jìn)一步發(fā)展。為解決這一問題,Rajpurkar等人[10]通過收集在維基百科中的十萬多問答對構(gòu)建了SQuAD數(shù)據(jù)集,該數(shù)據(jù)規(guī)模大且質(zhì)量高,一度成為機(jī)器閱讀理解模型主流的測試基準(zhǔn),此后又構(gòu)建了相關(guān)的SQuAD 2.0[11]。由于問題的答案出現(xiàn)在段落中,需要從段落中截取出部分內(nèi)容作為正確答案,稱之為抽取式機(jī)器閱讀理解。

機(jī)器閱讀理解領(lǐng)域相關(guān)研究還未達(dá)到終極目標(biāo),在此期間還產(chǎn)生了類似會(huì)話式、多跳推理式等機(jī)器閱讀理解任務(wù),其答案不受語境限制的自由問答形式更加貼合不同真實(shí)場景,促進(jìn)機(jī)器閱讀理解領(lǐng)域的研究進(jìn)展。與傳統(tǒng)方法相比,基于深度學(xué)習(xí)的機(jī)器閱讀理解模型能夠更好地匹配和解釋詞語,提取更深層次的語義特征。伴隨著預(yù)訓(xùn)練語言模型的問世,在SQuAD數(shù)據(jù)集上有部分基于預(yù)訓(xùn)練模型[17,18]的表現(xiàn)水平都已超過人類平均水平,但大部分的數(shù)據(jù)集還不可以完美處理,甚至性能表現(xiàn)水平遠(yuǎn)遜色于人類平均表現(xiàn)水平。因此,機(jī)器閱讀理解的研究還有很長的一段路要走。

1.2 機(jī)器閱讀理解任務(wù)

可以通過給定三元組的形式〈P,Q,A〉定義機(jī)器閱讀理解任務(wù),其中P代表passage表示段落,Q代表question表示對應(yīng)段落的特定問題,A代表answer表示對應(yīng)段落以及問題的答案。最終目的定義為擬合一個(gè)預(yù)測器f,通過給定的相關(guān)段落P和問題Q得到一個(gè)相應(yīng)的答案作為預(yù)測結(jié)果。

f:(P,Q)→A(1)

在機(jī)器閱讀理解領(lǐng)域,由于數(shù)據(jù)集的不同,問題和相關(guān)的答案也會(huì)表現(xiàn)出不同的形式。以下是除選擇式機(jī)器閱讀任務(wù)外,其他主要任務(wù)的定義:

a)填空式。在這類任務(wù)數(shù)據(jù)集中,存在一個(gè)候選答案集合O(options),且大小|O|固定;然后將段落中的某些實(shí)體或單詞隱去,機(jī)器的目標(biāo)就是從預(yù)定義的集合O中為每一個(gè)隱去部分選出正確答案。

b)選擇式。以RACE[19]數(shù)據(jù)集為代表,目標(biāo)是從候選答案集合O={o1,o2,…,ok}中為給定的段落和問題對〈P,Q〉選擇正確答案,其中k為候選答案的數(shù)量,一般為4,候選答案可能是一個(gè)單詞、一個(gè)短語或一個(gè)句子。經(jīng)過數(shù)據(jù)的表示學(xué)習(xí),機(jī)器的目標(biāo)是擬合出概率分布函數(shù)F(o1,o2,…,ok|P,Q),以從O中選擇出正確答案。

c)抽取式。任務(wù)數(shù)據(jù)集中給定段落P和問題Q,段落P可表示成{t1,…,tn},而機(jī)器的目標(biāo)就是在段落P中抽取出一段連續(xù)的子序列A={ti,ti+1,…,ti+k}(1≤i≤n,0≤k≤n-i)作為正確答案[10,11]。

d)生成式。與抽取式任務(wù)數(shù)據(jù)集相同,給定段落P和問題Q,需要機(jī)器生成一段序列A作為答案,而A可能是P的一段子序列,也可能不是P的一段子序列[20]。

e)會(huì)話式。該類任務(wù)數(shù)據(jù)集中,對于給定段落P,存在一個(gè)會(huì)話歷史Hk={Q1,A1,Q2,A2,…,Qk-1,Ak-1},其中Qi和Ai代表第i輪的問題和答案[21],機(jī)器的目標(biāo)是預(yù)測Qk的答案Ak。

f)多跳推理。與上述任務(wù)數(shù)據(jù)集不同,多跳推理任務(wù)數(shù)據(jù)集中問題Q對應(yīng)的正確答案不再是在單獨(dú)文檔或段落中獲得,需要機(jī)器結(jié)合多個(gè)段落或文檔以推理方式最終返回正確答案[22]。

2 選擇式機(jī)器閱讀理解模型

基于規(guī)則的機(jī)器閱讀理解模型過度依賴手工構(gòu)造特征,模型難以構(gòu)建,利用匹配模式的傳統(tǒng)機(jī)器學(xué)習(xí)模型難以構(gòu)造有效特征。隨著神經(jīng)網(wǎng)絡(luò)的興起,基于神經(jīng)網(wǎng)絡(luò)的機(jī)器閱讀理解模型也得到了巨大的發(fā)展,機(jī)器閱讀理解通過深度學(xué)習(xí)的方法構(gòu)建段落、問題、候選答案之間的語義關(guān)系用于預(yù)測答案,在大規(guī)模數(shù)據(jù)集上的表現(xiàn)往往優(yōu)于傳統(tǒng)的方法。如圖1所示[23],大多數(shù)現(xiàn)有的機(jī)器閱讀理解框架由以下幾個(gè)部分組成:

a)嵌入層。該層的主要任務(wù)是通過映射的方式得到段落、問題和候選答案中的詞在向量空間中的表示。

b)編碼層。對段落、問題和候選答案進(jìn)行編碼表示,將得到的嵌入表示通過某一種合成函數(shù)得到上下文特征信息,其中最具代表性的就是雙向循環(huán)神經(jīng)網(wǎng)絡(luò)。

c)信息交互層。通過將段落、問題和每一個(gè)候選答案的信息進(jìn)行交互,得到這三者匹配關(guān)系的特征表示,從而定位段落中與問題、候選答案相關(guān)度高的部分。

d)消除層。細(xì)化段落表示,消除最不相關(guān)的候選答案以及其相對應(yīng)的段落。Parikh等人[24]提出了一種模仿人類方法的ElimiNet模型進(jìn)行多輪部分消除以細(xì)化段落表示,最終在RACE數(shù)據(jù)集上,相對于基線模型[23]性能提高了0.4%。

e)答案層。根據(jù)任務(wù)用于生成最終結(jié)果的解碼器。該層復(fù)雜度會(huì)根據(jù)不同的網(wǎng)絡(luò)結(jié)構(gòu)而變化,可以是全連接層、卷積神經(jīng)網(wǎng)絡(luò)(CNN)[25]或recurrent deep highway networks [26]。

目前,對于選擇式機(jī)器閱讀理解模型框架的研究主要針對以上五層。圖2展示了選擇式機(jī)器閱讀理解模型分類的方式和代表模型,根據(jù)方法不同的側(cè)重點(diǎn)主要分為語義匹配、預(yù)訓(xùn)練模型、推理機(jī)制、外部知識輔助四個(gè)方面,以下將從這幾個(gè)方面的相關(guān)工作展開敘述。

2.1 語義匹配相關(guān)工作

注意力機(jī)制的首次應(yīng)用是在計(jì)算機(jī)視覺領(lǐng)域(computer vision,CV),Mnih等人[27]以循環(huán)神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ),引入注意力機(jī)制進(jìn)行圖像分類,效果提升顯著;隨后,注意力機(jī)制在各類任務(wù)上表現(xiàn)突出,受到研究人員的廣泛關(guān)注。Bahdanau等人[28]通過將注意力機(jī)制用于神經(jīng)機(jī)器翻譯(neural machine translation,NMT)任務(wù),使翻譯和對齊同時(shí)進(jìn)行,顯著提升了翻譯的準(zhǔn)確率,這是第一個(gè)將注意力機(jī)制應(yīng)用于自然語言處理領(lǐng)域中的工作。從此,基于注意力機(jī)制的各種衍生變體相繼出現(xiàn),在諸多自然語言處理任務(wù)上有著突出的表現(xiàn)。注意力機(jī)制在選擇式機(jī)器閱讀理解中應(yīng)用的基本思想是:只需關(guān)注段落、問題、候選答案之間相關(guān)的部分,降低無關(guān)部分的權(quán)重。近年來,基于注意力機(jī)制的機(jī)器閱讀理解模型受到研究人員的廣泛關(guān)注,有很多針對這方面的研究。在文獻(xiàn)[12,29]方法的基礎(chǔ)上,Lai等人[19]在得到問題感知的段落表示后,使用編碼后的候選答案表示與問題感知的段落表示進(jìn)行雙線性計(jì)算,實(shí)現(xiàn)三者之間的語義匹配;Zhu等人[30]進(jìn)行候選答案之間的語義匹配建模,從而優(yōu)化各候選答案的語義表示,用于與問題和段落語義匹配。上述方法一般是先將問題和段落進(jìn)行語義匹配得到問題感知的段落表示,再用問題感知的段落表示與候選答案表示進(jìn)行語義匹配進(jìn)而選擇答案。Wang等人[31]認(rèn)為問題和候選答案應(yīng)該是同等重要,只關(guān)注段落和問題的信息或讓兩者先后與段落進(jìn)行匹配可能會(huì)造成信息的損失,于是提出一種Co-matching的方法,將問題和候選答案看成兩個(gè)句子,讓段落和問題進(jìn)行匹配的同時(shí)也與候選答案進(jìn)行匹配,這樣段落中的每個(gè)詞就會(huì)同時(shí)關(guān)注到段落和候選答案。Co-matching模型結(jié)構(gòu)如圖3所示[31]。在模型中,沒有細(xì)致劃分嵌入層與編碼層,而得到的Hp、Hq和Ha就是經(jīng)過雙向LSTM得到的上下文嵌入表示,分別代表段落、問題和候選答案的上下文表示。

注意力的計(jì)算按照方向可分為單向和雙向,按照計(jì)算方式可分為one-hop和multi-hop。multi-hop思想與循環(huán)神經(jīng)網(wǎng)絡(luò)概念相似,以迭代的形式將當(dāng)前時(shí)間步的注意力計(jì)算結(jié)果作為下一時(shí)間步輸入的一部分,參與下一時(shí)間步的注意力計(jì)算;而one-hop是指注意力只計(jì)算一次。Co-matching采用one-hop的注意力計(jì)算方式,對問題、段落和候選答案、段落同時(shí)進(jìn)行交互:

G=softmax((WgH2+bgeQ)H1)(2)

=HG(3)

其中:Wg、bg為待學(xué)習(xí)參數(shù);eQ是全部為1的向量,目的是與偏置向量bg做張量積,將其重復(fù)到矩陣中去。以Hp和Hq、Hp和Ha作為H1和H2的輸入進(jìn)行注意力計(jì)算,輸出分別是Gq和Ga。Gq代表段落中每個(gè)單詞對問題中每個(gè)單詞的注意力,同理,Ga是段落相對于候選答案的。經(jīng)過式(3),以Hq、Gq和Ha、Ga作為H、G的輸入,分別對問題Hq和候選答案Ha進(jìn)行加權(quán)求和,得到問題和候選答案相對于段落重要的表示q和a。

為得到更好的交互特征,將問題和候選答案相對于段落重要的表示q和a分別與段落的上下文表示進(jìn)行信息比較。如式(4)所示,若將q作為輸入,與Hp做element-wise減法和element-wise乘法操作,通過拼接向量、再通過激活函數(shù)ReLU得到與段落的比較信息Mq,同理可以得到關(guān)于候選答案的交互信息Ma。最終將所有得到的交互信息拼接,得到C,送入下一個(gè)單元。

M=ReLU(WmHp

Hp+bm),C=MqMa(4)

其中:Wm、bm是待訓(xùn)練參數(shù)。

需要強(qiáng)調(diào)的是,從圖3中可以看出前面是按段落句子得到交互信息,那么{C1,C2,…,CN}最終表示的是整個(gè)段落的語義交互信息,N代表段落由N個(gè)句子構(gòu)成,這里得到的是詞級的語義信息。將Cn通過一個(gè)雙向LSTM再進(jìn)行最大池化,就可以得到段落中第n個(gè)句子的句級語義表示hsn。與此同時(shí),還可以使原本不等長的句子表示轉(zhuǎn)換成等長的向量表示,如式(5)所示。

hsn=maxpooling(Bi-LSTM(Cn))(5)

將得到的所有句級語義信息向量連接,并讓每個(gè)hsn通過一個(gè)雙向LSTM加最大池化就可以得到整個(gè)段落的語義表示ht。

Hs=[hs1,hs2,…,hsN]

,ht=maxpooling(Bi-LSTM(Hs))(6)

最終,選擇式機(jī)器閱讀理解是一個(gè)分類任務(wù),這里以四個(gè)候選答案為例,最終任務(wù)是在四個(gè)候選答案中選出正確答案,ht代表的是一個(gè)候選答案相對于段落、問題的段落級語義信息,每個(gè)候選答案做一次會(huì)得到四個(gè)ht。輸出層就是一個(gè)全連接層,輸出的維度是1,將四個(gè)ht經(jīng)過輸出層后得到四個(gè)維度為1的張量,拼接后得到最大張量對應(yīng)的下標(biāo)就是最終預(yù)測結(jié)果。損失函數(shù)就是四個(gè)張量拼接的值和真實(shí)標(biāo)簽的獨(dú)熱編碼表示做交叉熵:

L(Ai|P,Q)=-logexp(wT hti)∑4j=1 exp(wThtj)(7)

其中:Ai表示第i個(gè)候選答案;P、Q分別代表段落和問題;w表示可學(xué)習(xí)參數(shù)。

Co-matching模型是選擇式機(jī)器閱讀理解中經(jīng)典的模型之一,在RACE數(shù)據(jù)集上的準(zhǔn)確率達(dá)到50.4%,后續(xù)有很多研究人員會(huì)在這個(gè)模型的基礎(chǔ)上進(jìn)行研究,將在后面的章節(jié)中闡述。

隨后,Chen等人[32]提出一種CSA方法,該方法的思想是結(jié)合問題提取候選答案的高層信息,故在信息交互階段運(yùn)用一種CNN-maxpooling動(dòng)態(tài)提取相鄰空間注意力的方式得到在〈P,Q,A〉構(gòu)成的三維空間上的注意力矩陣,在RACE數(shù)據(jù)集上,單模準(zhǔn)確率相較于ElimiNet模型提高了6.4%。Tay等人[33]認(rèn)為將段落模塊化,按需劃分成幾個(gè)不同的子段落有利于對答案的推理,運(yùn)用一種MRU編碼單元的方式,MRU按條件將段落劃分為若干子段落,再經(jīng)過拓展并傳入一個(gè)線性層,最后,設(shè)置門向量以輸出最相關(guān)信息,通過結(jié)合雙向注意力機(jī)制表現(xiàn)高于基準(zhǔn)模型。除針對選擇式機(jī)器閱讀理解提出的模型,還有一些其他機(jī)器閱讀領(lǐng)域的模型可以完成選擇式任務(wù),其中最有代表性的就是BiDAF模型[34]。Seo等人總結(jié)了機(jī)器閱讀理解領(lǐng)域注意力機(jī)制的相關(guān)工作后提出BiDAF模型,作為奠定機(jī)器閱讀理解模型框架的重要模型之一,通過雙向注意力機(jī)制的方式交互信息。如圖4所示[34],為加強(qiáng)段落和問題之間的關(guān)鍵信息,弱化無關(guān)信息,獲得context2query和query2context的雙向注意力分為以下兩步:

a)將上下文表示為段落VD={Ct}mt=1和問題VQ={Ct}nt=1,通過點(diǎn)積匹配的方式獲得成對的相似度匹配矩陣M:

M=(VD)T·VQ(8)

b)在M的基礎(chǔ)上,利用式(9)獲得段落對問題C2Q的注意力hC2Qt:

aqt=softmax(Mt:),hC2Qt=∑ni=1aqtQi(9)

其中:Mt:表示段落中第t個(gè)詞對應(yīng)的問題中所有詞的注意力分布;aqt表示歸一化的結(jié)果,然后加權(quán)求和得到與段落中第t個(gè)詞相關(guān)的表示hC2Qt。再利用式(11)獲得問題對段落Q2C的注意力hQ2Ct:

C2Qt={hC2Qt|t∈(1,m)}∈Euclid Math TwoRAp2d×m(10)

apt=softmax(maxcol(M))

,hQ2Ct=∑mi=1aptCi(11)

其中:maxcol(M)表示取矩陣每列的最大值作為問題對段落中每個(gè)詞的關(guān)注,apt同樣表示歸一化后的結(jié)果,然后加權(quán)求和得到與問題相關(guān)的段落表示hQ2Ct,并將段落m個(gè)詞的相關(guān)信息平鋪得到C2Qt={hC2Qt|t∈(1,m)}∈Euclid Math TwoRAp2d×m作為最后雙線性注意力的表示;d表示模型的輸入長度。該模型雖為抽取式而生,但在該模型的基礎(chǔ)上,通過修改輸出層的編碼可以適應(yīng)不同類型的數(shù)據(jù)集,甚至適用于其他類型的任務(wù),是一個(gè)強(qiáng)適用性模型。

段利國等人[35]針對AIchallager2018中文觀點(diǎn)型機(jī)器閱讀理解數(shù)據(jù)集,采用BiDAF模型的方式構(gòu)建一種端對端的深度學(xué)習(xí)模型。觀點(diǎn)型數(shù)據(jù)集包含兩類問題:一類是候選答案為A、非A或不確定的yes-no類問題;另一類是候選答案為A、B或不確定的entity-fact類問題,語料本身是提供候選答案的,所以本質(zhì)上是一種選擇式閱讀理解數(shù)據(jù)集。在編碼層采用雙向GRU的方式對段落和問題進(jìn)行上下文編碼,在信息交互層采用基于多注意的融合算法獲取段落和問題之間的綜合語義信息,其中包括Q2C和C2Q的雙向注意力以及拼接、雙線性、點(diǎn)乘、差集這四種注意力的計(jì)算方式,進(jìn)一步采用多層注意力轉(zhuǎn)移推理機(jī)制不斷聚焦,從而獲得更加準(zhǔn)確的綜合語義信息,再與候選答案作比較,在答案層以選擇式的方式輸出最終答案。

從表1所示的語義匹配相關(guān)工作比較來看,注意力的計(jì)算形式是語義匹配的工作重點(diǎn),隨著注意力機(jī)制的發(fā)展,促使應(yīng)用相關(guān)方法的選擇式機(jī)器閱讀理解模型在公共數(shù)據(jù)上的性能也有著不同程度的提升。文獻(xiàn)[36]利用多頭注意力機(jī)制(multi-head attention)達(dá)到了很好的效果,將會(huì)在后面的章節(jié)中介紹。不加約束的注意力計(jì)算方式會(huì)導(dǎo)致信息交互過程的無差別對待,將產(chǎn)生一些噪聲影響模型的整體性能。所以,構(gòu)建高效的語義網(wǎng)絡(luò)以及能否引入基于圖的注意力計(jì)算方式將是研究人員的工作重點(diǎn)。

2.2 預(yù)訓(xùn)練模型相關(guān)工作

預(yù)訓(xùn)練語言方式是遷移學(xué)習(xí)的代表性工作之一,目前有很多的自然語言處理任務(wù)的研究方法都是基于預(yù)訓(xùn)練加微調(diào)的方式,效果表現(xiàn)突出。預(yù)訓(xùn)練模型是指預(yù)先訓(xùn)練一個(gè)模型;微調(diào)是指在已訓(xùn)練好模型的基礎(chǔ)上可以完成自己特定的任務(wù),最后經(jīng)過訓(xùn)練、學(xué)習(xí),更好地適應(yīng)特定任務(wù),是一種借前人經(jīng)驗(yàn)完成具體任務(wù)的方式。預(yù)訓(xùn)練語言模型可以分為兩類,分別是以ELMo[37]、GPT[38]為代表的自回歸語言模型(autoRegressive LM,LM)以及以BERT[17]為代表的自編碼語言模型(autoEncoder LM,MLM)。常見的模型框架如圖5所示[17],存在編碼輸入層、網(wǎng)絡(luò)結(jié)構(gòu)層、編碼輸出層。

在ELMo、GPT一類的語言模型出現(xiàn)前,語言模型以一種從前向后看的方式得到一個(gè)詞產(chǎn)生的概率,但是當(dāng)面對機(jī)器閱讀理解這一類自然語言處理任務(wù)時(shí),需要得到詞的上下文信息,而傳統(tǒng)的語言模型方法只能得到詞的上文信息。因此誕生了一種考慮反向信息特征的語言模型,這種模式還需要計(jì)算一個(gè)詞從后向前看產(chǎn)生的概率,將其命名為自回歸語言模型。Peters等人提出ELMo模型,在用一個(gè)LSTM捕獲上文信息的同時(shí),采用另外一個(gè)LSTM捕獲下文信息,再將兩個(gè)信息拼接得到上下文信息。但是這種方式實(shí)質(zhì)上還是一種單向自回歸語言模型,存在不能有效地提取到更遠(yuǎn)的上下文信息、訓(xùn)練時(shí)間較長等不足。Radford等人以Transformer框架[39]為關(guān)鍵技術(shù),提出GPT自回歸語言模型,Transformer在多種領(lǐng)域數(shù)據(jù)集上的表現(xiàn)優(yōu)于LSTM,能夠捕獲更遠(yuǎn)的上下文信息以及采用一種并行運(yùn)算的方式大大加快訓(xùn)練速度。

自回歸語言模型根據(jù)上下文從前向后或從后向前去預(yù)測一個(gè)詞。相比而言,以BERT為代表的自編碼語言模型,同樣以Transformer框架為基礎(chǔ)。為提升模型的性能表現(xiàn),在預(yù)訓(xùn)練的過程中加入兩個(gè)特殊的任務(wù):a)將語料中的一部分詞遮蔽,根據(jù)上下文來預(yù)測這些被遮蔽的詞; b)對于連續(xù)句子的預(yù)測(next-sentence prediction,NSP)。這兩種方式可以促使BERT充分地挖掘大量語料庫信息[40],并得到詞級和句級的表示,最終在包括機(jī)器閱讀理解在內(nèi)的11項(xiàng)自然語言處理下游任務(wù)中達(dá)到最優(yōu)結(jié)果。后來的研究人員對于BERT的優(yōu)化以及微調(diào)相關(guān)工作展開了深入的研究,文獻(xiàn)[41]對機(jī)器閱讀理解及上下文語言模型(contextualized language model,CLM)進(jìn)行綜述,其中就有對BERT優(yōu)化及微調(diào)的相關(guān)闡述,下面將重點(diǎn)從這兩個(gè)方面講述相關(guān)工作。

2.2.1 優(yōu)化BERT相關(guān)工作

作為一種語言模型,研究人員為提升其性能以及適用于更多領(lǐng)域,針對BERT做過很多改進(jìn)優(yōu)化,后續(xù)的工作中結(jié)合這些在原生模型上的改進(jìn),在選擇式機(jī)器閱讀理解數(shù)據(jù)集上表現(xiàn)突出,甚至在RACE數(shù)據(jù)集上可達(dá)到90.7%的準(zhǔn)確率,非常接近人類水平。

通過在原生BERT的基礎(chǔ)上改進(jìn)生成任務(wù),微軟曾提出MASS[42]、UNILM[43]等模型。UNILM通過結(jié)合LM和MLM的方式在預(yù)訓(xùn)練階段用三種特殊遮蔽機(jī)制(BPE),從而使得模型可以用做自然語言生成任務(wù)(natural language generation,NLG)。ERNIE系列[44,45]的提出,研究人員通過引入外部知識的方式進(jìn)行優(yōu)化,同時(shí)還改進(jìn)遮蔽策略以引入外部知識,提出一種通過知識圖譜預(yù)測隨機(jī)遮蔽實(shí)體的預(yù)訓(xùn)練方式(denoising entity auto-encoder,DEA)。為增強(qiáng)模型在特定任務(wù)上的性能和泛化能力,文獻(xiàn)[46,47]引入多任務(wù)學(xué)習(xí)(multi-task learning),同時(shí)學(xué)習(xí)多個(gè)相關(guān)任務(wù),讓這些任務(wù)在學(xué)習(xí)過程中共享知識,利用多個(gè)任務(wù)之間的相關(guān)性來改進(jìn)模型。除ERNIE系列工作中引入外部知識時(shí)會(huì)對遮蔽策略進(jìn)行優(yōu)化,還存在BERT-wwm[48]、SpanBERT[49]等為整合全局語言信息,也針對遮蔽策略進(jìn)行了改進(jìn),其中SpanBERT使用遮罩范圍左右邊界上的未遮罩單詞和被遮罩單詞的位置信息來預(yù)測當(dāng)前遮罩單詞(span boundary objective,SBO)。研究人員發(fā)現(xiàn)對所有詞不加任何顯式約束地計(jì)算注意力向量,會(huì)因?yàn)橐恍└蓴_詞的無差別對待而導(dǎo)致機(jī)器閱讀理解模型的精度下降,SG-Net[50]引入語法向?qū)В╯yntax-guided)的上下文編碼,獲得更精細(xì)的上下文向量表示。

Liu等人[51]以精細(xì)調(diào)參的方式提出一種RoBERTa模型,首先,采用一種動(dòng)態(tài)遮蔽的方法,同一句話存在不同遮蔽詞的形式進(jìn)行預(yù)訓(xùn)練;其次,去除連續(xù)句子預(yù)測任務(wù),增加一種一次輸入連續(xù)句子的訓(xùn)練方式;最后,模型需要更大的batch-size、更多的訓(xùn)練語料、更長的訓(xùn)練時(shí)間。Megatron[52]采用一種新的層內(nèi)模型并行計(jì)算方法,在提高計(jì)算速度的同時(shí)可有效地支持大規(guī)模基于Transformer模型的訓(xùn)練,但對算力要求極高。

隨著原生以及優(yōu)化模型突出的表現(xiàn),為得到更好的模型表現(xiàn),很多預(yù)訓(xùn)練語言模型采用提高參數(shù)量的方式,這樣會(huì)帶來很多問題,如對算力的要求越來越高,模型需要更長的時(shí)間去訓(xùn)練,甚至有些時(shí)候更大的參數(shù)量卻沒有帶來更好的模型表現(xiàn),因此近年來模型壓縮和加速技術(shù)的研究成為當(dāng)前的熱點(diǎn),給BERT“瘦身”也成為了研究人員的重點(diǎn)工作。ALBERT[53]通過嵌入矩陣分解和Transformer跨層參數(shù)共享的方式來解決預(yù)訓(xùn)練過程中內(nèi)存消耗和訓(xùn)練速度慢的問題,并在預(yù)訓(xùn)練時(shí)用句序預(yù)測(sentence-order prediction,SOP)替代NSP任務(wù)。除參數(shù)共享、參數(shù)矩陣優(yōu)化的形式,研究人員還通過知識蒸餾的方式,將原始網(wǎng)絡(luò)蒸餾到一個(gè)輕量級的淺層網(wǎng)絡(luò)上,其中兩個(gè)模型總是被稱為老師模型和學(xué)生模型。例如,BERT-PKD[54]引入額外的提取過程,學(xué)習(xí)教師模型各層的特征表示;Tiny-BERT[55]則設(shè)計(jì)兩階段學(xué)習(xí)思想,包括通用域的預(yù)訓(xùn)練和特定任務(wù)域的微調(diào);DistilBERT[56]引入三個(gè)損失函數(shù)來解決模型層數(shù)減少后的歸納偏差問題。在這些知識蒸餾的方法中,學(xué)生模型通常是一個(gè)獨(dú)立的結(jié)構(gòu),其效率取決于向教師模型學(xué)習(xí)的效果,并且都具有加速后降低預(yù)測精度的特點(diǎn),即犧牲精度來獲得一定的加速優(yōu)勢。隨后,F(xiàn)astBERT[57]采用不同于以上的知識蒸餾方法,引入自蒸餾(self-distilling),用模型本身的分支去蒸餾自己的主干知識,在減少計(jì)算量的同時(shí)保證模型的損失也較低。

在BERT系列模型后,Google發(fā)布的XLNet[18]在諸多自然語言處理任務(wù)上的表現(xiàn)都大幅超越BERT,提出一種排列語言模型(permutation language modeling,PLM),結(jié)合自回歸、自編碼的方式從前向后預(yù)測下一個(gè)詞時(shí),蘊(yùn)涵上下文信息的同時(shí),加入一種操作,改進(jìn)BERT預(yù)訓(xùn)練過程中的遮蔽任務(wù),在確保位置編碼不變的前提下,獲得輸入序列的亂序,然后預(yù)測的順序還是按照原始的位置編碼順序來預(yù)測,但是相應(yīng)的上下文就是按照打亂順序的上下文來看的,這樣在預(yù)測目標(biāo)詞時(shí),可以隨機(jī)地獲得上下文信息。XLNet采用Transformer-XL架構(gòu)[58]捕獲特征,相比于傳統(tǒng)的Transformer能捕獲更長距離的單詞依賴關(guān)系。XLNet的框架結(jié)構(gòu)較為龐大,在長文本的自然語言處理任務(wù)上表現(xiàn)突出,但對算力要求較高。

從表2所示的預(yù)訓(xùn)練語言模型比較可以看出,預(yù)訓(xùn)練語言模型大幅度提升了選擇式機(jī)器閱讀理解模型的性能,從BERT到XLNet,改進(jìn)語言模型目標(biāo),不斷突破上界是重點(diǎn),預(yù)訓(xùn)練語言模型難以挖掘更有價(jià)值的知識信息,如何從淺層的文本匹配轉(zhuǎn)向認(rèn)知推理是工作的重中之重。同時(shí)缺乏豐富的知識信息,應(yīng)當(dāng)引入更豐富的知識信息,更精細(xì)的調(diào)參,設(shè)計(jì)更有價(jià)值的遮蔽策略。大規(guī)模的語言模型對算力要求過高,輕量化語言模型的各種策略雖有效果,但模型最終的表現(xiàn)效果還是明顯下降,能否以輕量級模型達(dá)到最佳模型表現(xiàn)水平(state of the art,SOTA)效果是未來可研究的方式之一。

2.2.2 基于BERT微調(diào)相關(guān)工作

BERT被不斷優(yōu)化的同時(shí),針對選擇式機(jī)器閱讀理解領(lǐng)域的下游微調(diào)的方式也層出不窮。Jin等人[59]認(rèn)為選擇式機(jī)器閱讀理解相較于其他機(jī)器閱讀理解任務(wù)需要更高的閱讀理解技巧,如邏輯推理、總結(jié)和算術(shù)運(yùn)算能力,提出MMM模型,一種多階段、多任務(wù)的選擇式機(jī)器閱讀理解框架。首先采用一種新的多步注意力網(wǎng)絡(luò)改進(jìn)分類器,其參考多跳記憶網(wǎng)絡(luò)[34]的推理能力,使用K步GRU不斷更新與問題候選答案拼接的相關(guān)有效信息;其次,運(yùn)用一種兩階段微調(diào)的方式提高模型的性能,第一階段的粗微調(diào)階段利用豐富的自然語言推斷(natural language inference,NLI)數(shù)據(jù)集等任務(wù)來增強(qiáng)模型的句對問題學(xué)習(xí)能力,第二階段的多任務(wù)學(xué)習(xí)階段在目標(biāo)數(shù)據(jù)集上進(jìn)行多任務(wù)學(xué)習(xí)。

受到Co-matching模型的啟發(fā),Zhang等人[60]采用BERT微調(diào)的方式構(gòu)建模型,提出DCMN模型,針對Co-matching模型的三個(gè)不足進(jìn)行了改進(jìn):a)Co-matching的注意力計(jì)算方式是問題對段落以及候選答案對段落的單向注意力,不同的是,DCMN加入段落對問題以及段落對候選答案的注意力;b)DCMN加入問題和候選答案之間的交互,充分考慮所有的信息交互;c)在信息融合階段,不同于Co-matching拼接的方式保留所有信息,該模型的思想是取其精華、去其糟粕,運(yùn)用一種門控融合機(jī)制留下有用信息,去除無用信息。隨后,Zhang等人[61]又提出DCMN+模型,除采用DCMN的信息交互方式外,還加入了句子抽取模型、候選答案交互模型兩部分。對于每個(gè)候選答案,首先通過句子抽取模型從段落{S1,S2,…,Sn}中抽選出與候選答案相關(guān)的句子{Si,…,Sk}作為最終段落表示,其中St表示段落的第t個(gè)句子;然后所有候選答案經(jīng)過候選答案交互模型學(xué)習(xí)候選答案間相互感知的候選答案表示,而問句表示保持不變;最后將以上的段落表示、問句表示和候選答案表示再送入一個(gè)兩兩相互匹配的模型,得到最終的三元組隱層表示送入分類器。

除段落、問題和候選答案三者相互的信息交互外,Ran等人[62]認(rèn)為候選答案與候選答案之間的比較是帶有一些信息的,正如人在做閱讀理解時(shí)也會(huì)反復(fù)地比較候選答案才會(huì)最終確定答案。通過構(gòu)建一種候選答案比較網(wǎng)絡(luò)OCN,得到候選答案的編碼表示時(shí)會(huì)壓縮成一個(gè)固定維的表示,再將每一個(gè)候選答案與其他候選答案進(jìn)行信息比較,最終采用門控機(jī)制將候選答案信息與候選答案比較信息結(jié)合起來,形成最終的信息表示。該模型考慮了候選答案之間的對比信息,模型的性能雖表現(xiàn)突出,但相較于DCMN,候選答案信息比較的過程過于復(fù)雜,且性能表現(xiàn)與DCMN模型相差不多,還需要在未來的工作中構(gòu)造簡單、有效的候選信息對比特征。伴隨著機(jī)器閱讀理解模型的發(fā)展,機(jī)器閱讀理解模型仿佛陷入構(gòu)造復(fù)雜網(wǎng)絡(luò)的陷阱,不僅對機(jī)器算力的要求越來越高,在目標(biāo)數(shù)據(jù)集上的性能表現(xiàn)還不增反降。Zhu等人[36]認(rèn)為無須通過加深網(wǎng)絡(luò)結(jié)構(gòu)的方式,預(yù)訓(xùn)練語言模型本身已然能夠充分捕捉段落、問題和候選答案之間的關(guān)聯(lián)特征。因此構(gòu)建了一種將問題、候選答案拼接后,將其通過基于多頭注意力機(jī)制的交互組件計(jì)算出與段落的最終表示。在此基礎(chǔ)上,研究人員對融合方式、組件層數(shù)展開對比實(shí)驗(yàn),最終采用拼接的方式構(gòu)建了一種DUMA模型。

Jiang等人[63]認(rèn)為人類在做這種多選項(xiàng)選擇式機(jī)器閱讀理解時(shí)會(huì)逐個(gè)考慮候選答案,兩兩對比,選擇置信度高的作為最終答案,便將多分類問題轉(zhuǎn)換成二分類問題,每兩個(gè)候選答案形成一條新的數(shù)據(jù),解決了數(shù)據(jù)稀疏的問題,最終表現(xiàn)在RACE數(shù)據(jù)集上達(dá)到SOTA水平。表3所示的是基于BERT微調(diào)相關(guān)模型比較。在微調(diào)階段,構(gòu)造有效的語義網(wǎng)絡(luò)能夠提高對答案的推理,且提出的各種學(xué)習(xí)策略也能帶來一定性能上的提升。但存在一定問題:a)與語義匹配相關(guān)工作相同,構(gòu)建高效的語義網(wǎng)絡(luò)是未來的研究重點(diǎn);b)各種策略總是難以有效建模,需要研究者有效地融合各種策略,尤其是關(guān)于候選答案比較法與常用語義匹配網(wǎng)絡(luò)的結(jié)合研究。

2.3 語義推理相關(guān)工作

以語言考試為例,在理解問題和候選答案后,正確答案并不能在書面意思上得到,人類會(huì)通過對段落的反復(fù)閱讀掌握重要的信息,并經(jīng)過推敲才能得到最終的答案。一些研究人員就通過迭代的方式模仿人類反復(fù)閱讀推理的過程,加深網(wǎng)絡(luò)結(jié)構(gòu),即在面對選擇式機(jī)器閱讀理解任務(wù)時(shí),結(jié)合段落、問題、候選答案三者的信息進(jìn)行多輪迭代,獲得更優(yōu)的信息表示,在最終預(yù)測時(shí)提升答案的準(zhǔn)確性。

以ElimiNet模型為代表的工作確定了消除層的框架結(jié)構(gòu),加入一個(gè)模塊用于決定一個(gè)候選答案是否被消除,考慮消除和未消除的候選答案從而完善段落表示,對以上兩步迭代多次,最后預(yù)測出正確答案。模型結(jié)構(gòu)如圖6所示[24]。

首先,經(jīng)過編碼模塊(encoder module)運(yùn)用一種雙向循環(huán)網(wǎng)絡(luò)的方式獲得段落、問題、候選答案的上下文表示hd、hq和hzi;其次,在交互模塊(interaction module)運(yùn)用同樣的方式讓段落與問題進(jìn)行交互,從而完善段落的表示,關(guān)注與問題相關(guān)的部分,最終得到段落表示x。消除模塊(elimination module)的目標(biāo)就是進(jìn)一步完善段落表示,以便模型不會(huì)對與不相關(guān)候選答案對應(yīng)的段落內(nèi)容投入關(guān)注。如式(12)所示,引入一種消除門來實(shí)現(xiàn)軟消除,其中We、Ve和Ue是待訓(xùn)練參數(shù),需要特別注意的是,不同候選答案之間不共享該門的結(jié)構(gòu),訓(xùn)練結(jié)果ei決定與第i個(gè)候選答案相關(guān)的段落部分是否該被消除。

ei=sigmoid(Wex+Vehq+Uehzi)(12)

其中:ri表示段落與候選答案的相關(guān)部分。通過式(14)得到xei是段落表示和候選答案表示正交組成部分,經(jīng)過式(15)便可得到段落表示和候選答案表示相關(guān)組成部分xri。

ri=〈x,hzi〉hzi|x|2(13)

xei=x-ri(14)

xri=x-xei(15)

結(jié)合消除門決定有多少信息需要被保留,如式(16)所示,若ei的取值為1,表示段落表示與該候選答案進(jìn)行正交,即舍去與該候選答案相關(guān)的部分;ei的取值為0表示段落表示將向該候選答案對齊,即重點(diǎn)關(guān)注與其相關(guān)的段落部分。最終得到針對第i候選答案的段落表示i:

i=ei⊙xei+(1-ei)⊙xri(16)

式(14)(15)會(huì)無選擇地減去候選答案相關(guān)和正交的內(nèi)容,這里,認(rèn)為減去的內(nèi)容不應(yīng)該直接完全被減去,應(yīng)該有選擇地減去,所以,為增加模型的靈活性,引入另外一種相減門的結(jié)構(gòu):

si=sigmoid(Wsx+Vshq+Ushzi)(17)

xei=x-si⊙ri(18)

xri=x-si⊙xei(19)

其中:Ws、Vs和Us是待訓(xùn)練參數(shù);si與ei作用相同,決定有多少內(nèi)容參與相減。加入相減門后,用式(18)(19)分別替代式(14)(15)。

針對每個(gè)候選答案得到的獨(dú)立表示i,將這些表示結(jié)合起來得到獨(dú)立完善的段落表示。Wb、vb、Ub是待訓(xùn)練參數(shù),bi是i的進(jìn)一步學(xué)習(xí)表示,再經(jīng)過歸一化得到βi針對第i個(gè)候選答案的單通道段落表示,經(jīng)過以下公式將多個(gè)單通道表示融合,得到最終的段落表示。重復(fù)這些過程L步,就可以獲得不斷完善的段落表示。

bi=vTb tanh(Wbi+Ubhzi)(20)

βi=softmax(bi),=∑ni=1βii(21)

最終在選擇模塊(selection module)通過雙線性函數(shù)得到段落表示與候選答案的匹配得分以預(yù)測正確答案,損失函數(shù)是交叉熵?fù)p失函數(shù),其在RACE數(shù)據(jù)集上的性能表現(xiàn)為44.5%,超過基線模型。Shen等人[64]曾針對抽取式機(jī)器閱讀理解任務(wù)提出ReasoNet模型,采用強(qiáng)化學(xué)習(xí)的方法訓(xùn)練模型動(dòng)態(tài)地決定多輪迭代次數(shù);Xu等人[65]基于上述工作,針對選擇式機(jī)器閱讀理解提出DFN模型,在交互層針對不同問題類型設(shè)計(jì)一種動(dòng)態(tài)獲取注意力的方式,得到段落、問題和候選答案三者的融合向量,在答案層采用形如ReasoNet模型的方式進(jìn)行動(dòng)態(tài)推理,最終性能在RACE數(shù)據(jù)集上相較于ElimiNet模型提升了4.7%。

在語義推理相關(guān)工作中,其模型的表現(xiàn)性能與復(fù)雜的語義匹配網(wǎng)絡(luò)相比存在一定差距。與ReasoNet相關(guān)的多跳推理研究中,引入的終止?fàn)顟B(tài)是離散量,模型無法用反向傳播算法,因此采用強(qiáng)化學(xué)習(xí)的方法訓(xùn)練模型,所以利用怎樣的訓(xùn)練方式確定多輪迭代的次數(shù)仍然是當(dāng)前研究的熱點(diǎn)。

2.4 外部知識相關(guān)工作

以往的工作只是在一個(gè)數(shù)據(jù)集上進(jìn)行學(xué)習(xí),往往限定了模型獲取知識的廣度,況且人類在完成有限文本的閱讀理解問題時(shí)會(huì)就當(dāng)前文本展開思考,而思考的過程肯定超過給定文本的范圍,會(huì)在已獲得知識背景的輔助下得出正確的答案。因此,越來越多的研究人員通過模擬人類知識背景的方式,加入外部知識以擴(kuò)展模型獲取知識的廣度,從而提升模型的性能。在近年來的研究中,主要分為顯式和隱式兩種方式傳遞外部知識。

在隱式傳遞外部知識信息的研究中,一些研究人員會(huì)將外部知識的特征融入到嵌入層中。Weissenborn等人[66]提出一種引入外部知識的框架,先利用外部知識豐富詞嵌入信息,為交互模塊提供豐富的詞嵌入信息以完成相應(yīng)的任務(wù)。文獻(xiàn)[67~71]在語義匹配工作的基礎(chǔ)上結(jié)合常識知識,采用來自通用知識圖譜ConceptNet[72]的關(guān)系嵌入來增加輸入,以優(yōu)化最終的答案。以三向注意力網(wǎng)絡(luò)TriAN[67]為例,在經(jīng)過編碼后,取出段落中的一個(gè)詞Pi與問題集合{Qi}|Q|i=1或者候選答案集合{Ai}|A|i=1進(jìn)行查詢操作,i表示第i個(gè)詞,將查詢到的關(guān)系融入到編碼表示中。如果存在多種不同的關(guān)系,只需隨機(jī)保留一種關(guān)系即可;然后采用拼接的方式作為輸入,保留查詢到的特征:

wPi=[EglovePi;EposPi;EnerPi;ErelPi;fPi](22)

其中:wPi代表段落的嵌入向量表示,作為模型的輸入特征,包括EglovePi代表的GloVE詞向量嵌入、EposPi代表的詞性嵌入、EnerPi代表的命名實(shí)體嵌入、ErelPi代表的關(guān)系嵌入以及針對維基百科語料fPi代表的詞共現(xiàn)特征嵌入。問題和候選答案采用同樣的方式拼接作為模型的輸入。在隱式傳遞外部知識工作中,除將外部知識特征融入到嵌入層中,在文獻(xiàn)[67,73]中還會(huì)通過增加除目標(biāo)數(shù)據(jù)集以外數(shù)據(jù)集的方式,以達(dá)到傳遞外部知識的目的,從而提升模型在目標(biāo)數(shù)據(jù)集上的表現(xiàn)。文獻(xiàn)[74]提出結(jié)合圖卷積神經(jīng)網(wǎng)絡(luò)技術(shù)和LSTM,利用一種具有基于層次路徑的注意力機(jī)制,通過獲得圖表示作用于最終對正確答案的選擇。

顯式傳遞外部知識會(huì)將經(jīng)過選擇的知識融入到模型中。其中代表性的工作就是知識型讀者模型[75],該方法是針對填空式機(jī)器閱讀理解提出的,從知識圖譜中檢索到與目標(biāo)數(shù)據(jù)集相關(guān)的外部知識,經(jīng)過對外部知識進(jìn)行編碼再將編碼信息融入到段落和問題的編碼表示中,得到信息豐富的語義信息。Xia等人[76]認(rèn)為預(yù)訓(xùn)練語言模型也是常識知識的一種來源,采用BERT作為編碼器,利用多任務(wù)學(xué)習(xí)聯(lián)合與常識相關(guān)的輔助任務(wù),以顯性的方式融入外部知識。通過對比表4內(nèi)容可知,在外部知識相關(guān)工作中,加入外部知識的各種機(jī)器閱讀理解模型雖相較于基線模型的性能有所提升,但是在一些較復(fù)雜數(shù)據(jù)集上的表現(xiàn)效果差,且與復(fù)雜網(wǎng)絡(luò)仍然有一定差距,加上相關(guān)工作只針對常識類數(shù)據(jù)集或某特定領(lǐng)域數(shù)據(jù)展開研究,不具備良好的遷移性,如何融合開放域知識問答,擴(kuò)展模型及知識的遷移性是研究的重點(diǎn)。其次,選擇式機(jī)器閱讀理解任務(wù)在加入外部知識時(shí)往往不能直接查詢到相關(guān)信息,如何從頭實(shí)體到其他相同或共現(xiàn)實(shí)體構(gòu)建一個(gè)或多個(gè)推理路徑,可以考慮利用圖神經(jīng)網(wǎng)絡(luò)算法并對其優(yōu)化以挖掘更多的隱含關(guān)聯(lián)信息。

3 數(shù)據(jù)集及評價(jià)指標(biāo)

選擇式機(jī)器閱讀理解模型因其易構(gòu)建、易評價(jià)等特點(diǎn),受到了研究人員的廣泛關(guān)注,常被用做評價(jià)某種模型的能力。與此同時(shí),選擇式機(jī)器閱讀理解任務(wù)中,候選答案不一定是段落的一部分,需要根據(jù)段落的內(nèi)容表述進(jìn)行總結(jié)、歸納、推理,對于模型的語義理解能力要求更高,甚至需要引入外部知識,因此語義匹配、語義推理以及引入外部知識常常作為輔助手段用做選擇式機(jī)器閱讀理解任務(wù)。表5給出了數(shù)據(jù)集RACE[19]的一個(gè)示例。

3.1 數(shù)據(jù)集

基于選擇式機(jī)器閱讀理解的各種特點(diǎn)和研究人員對該領(lǐng)域不斷的研究和探索,各式各樣的選擇式機(jī)器閱讀理解數(shù)據(jù)集也不斷被提出,其中主要包括MCTest[5]、TQA[77]、SciQ[78]、MCScript[80]、RACE[19]、ARC[82]、DREAM[83]、CommonsenseQA[84]、C3[85]等數(shù)據(jù)集。

1)TQA數(shù)據(jù)集 Kembhavid等人認(rèn)為在人類世界中知識本質(zhì)上是多模態(tài)的,分布在文本文檔、圖像和視頻中,一個(gè)可以回答關(guān)于世界的任意問題的系統(tǒng)必須學(xué)會(huì)理解這些多模態(tài)信息。同時(shí)“是否類”問題被加入到數(shù)據(jù)集中,與之前的機(jī)器理解和視覺問答數(shù)據(jù)集相比,TQA數(shù)據(jù)集更為復(fù)雜。

2)SciQ數(shù)據(jù)集 Welbl等人認(rèn)為迷惑性是高質(zhì)量選擇式機(jī)器閱讀理解數(shù)據(jù)集的重要特質(zhì),只有具備信息抽取、整合、理解和常識推理能力的模型才能回答問題。SciQ是一個(gè)高結(jié)構(gòu)化的數(shù)據(jù)集,答案通常可以直接在段落內(nèi)找到,因此,難度并沒有TQA數(shù)據(jù)集的高。該數(shù)據(jù)集存在外部知識研究相關(guān)工作[79]。

3)RACE數(shù)據(jù)集 在大規(guī)模的選擇式機(jī)器閱讀理解數(shù)據(jù)集中,RACE數(shù)據(jù)集是應(yīng)用最廣泛的數(shù)據(jù)集之一,來源于12~18歲中學(xué)生的英語語言能力考試,涵蓋各種主題,專為評估學(xué)生的理解和推理能力而精心設(shè)計(jì)。該數(shù)據(jù)集存在以下特點(diǎn):a)問題和候選答案均來自于專家標(biāo)注,可以很好地用于測試人類的閱讀理解能力;b)候選答案不一定出現(xiàn)在段落和問題中,這使得任務(wù)更具挑戰(zhàn)性;c)問題和答案不僅是簡單地對于文本詞語的重復(fù),也是段落的復(fù)述表示;d)具有多種推理類型,包括細(xì)節(jié)推理、全局推理、段落總結(jié)、態(tài)度分析、世界知識等。

4)MCScript數(shù)據(jù)集 該數(shù)據(jù)集采取與SciQ數(shù)據(jù)集相似的構(gòu)建方式,運(yùn)用眾包的方法從日常語料中獲取,眾包工作者會(huì)根據(jù)某個(gè)主題創(chuàng)作故事,該數(shù)據(jù)集由大量的敘述性文本構(gòu)成,以及包含這些文本的各種類型的問題,構(gòu)成每個(gè)問題都對應(yīng)一個(gè)候選答案對的集合。該數(shù)據(jù)集需要使用常識知識進(jìn)行推理機(jī)器閱讀理解任務(wù),在回答部分問題時(shí)需要超出文本中提到的事實(shí)的知識,即它需要使用關(guān)于日常活動(dòng)的常識性知識進(jìn)行推理,同時(shí)為加大數(shù)據(jù)集的難度,加入一部分的“是否類”問題以提高數(shù)據(jù)集的難度。該數(shù)據(jù)集促進(jìn)了基于推理類任務(wù)的研究,Ostermann等人[81]還對該數(shù)據(jù)集的相關(guān)研究進(jìn)行總結(jié),稱之為SemEval-2018 task 11。

5)ARC數(shù)據(jù)集 2018年,Clark等人構(gòu)建了ARC數(shù)據(jù)集,來源于中學(xué)生考試中的科學(xué)問題,機(jī)器在回答這些問題時(shí)需要強(qiáng)大的知識推理能力。此外,該數(shù)據(jù)集中提供大量與該任務(wù)相關(guān)的科學(xué)事實(shí)語料庫用于回答這些問題。經(jīng)過在幾個(gè)經(jīng)典模型上的實(shí)驗(yàn)難以達(dá)到基線模型的準(zhǔn)確率,反映了這項(xiàng)任務(wù)的艱巨性,因此也成為目前為止選擇式機(jī)器閱讀理解數(shù)據(jù)集中難度最大的數(shù)據(jù)集之一。

6)DREAM數(shù)據(jù)集 為彌補(bǔ)機(jī)器閱讀理解領(lǐng)域?qū)τ趯υ捓斫獾难芯浚琒un等人構(gòu)建并呈現(xiàn)第一個(gè)基于多輪多方對話的選擇式機(jī)器閱讀理解數(shù)據(jù)集,該數(shù)據(jù)集的來源是評估中國英語學(xué)習(xí)者水平的英語考試。84%的問題的答案是不能在段落中直接提取到的,85%的問題需要在一個(gè)句子之外進(jìn)行推理,34%的問題還涉及到真實(shí)世界中的常識知識,因此DREAM是一個(gè)極具挑戰(zhàn)性的數(shù)據(jù)集。

7)CommonsenseQA數(shù)據(jù)集 2019年,Talmor等人提出CommonsenseQA,一個(gè)富有挑戰(zhàn)性的常識性問答數(shù)據(jù)集。為捕捉關(guān)聯(lián)之外的常識,從通用ConceptNet[70]中提取多個(gè)目標(biāo)概念,這些目標(biāo)概念與單個(gè)源概念具有相同的語義關(guān)系。通過眾包的方式收集問題,要求眾包工作者設(shè)計(jì)問題時(shí)提及源概念,并在每個(gè)目標(biāo)概念之間進(jìn)行區(qū)分,這鼓勵(lì)工作人員創(chuàng)建具有復(fù)雜語義的問題,這些問題通常需要先驗(yàn)知識。

8)C3數(shù)據(jù)集 目前,閱讀理解數(shù)據(jù)集大多是英文的,中文數(shù)據(jù)集相對較少,為彌補(bǔ)選擇式機(jī)器閱讀理解領(lǐng)域中文領(lǐng)域的空白,C3數(shù)據(jù)集應(yīng)運(yùn)而生,它是第一個(gè)自由形式的選擇式中文機(jī)器閱讀理解數(shù)據(jù)集。所有問題均來自真實(shí)世界中專家精心設(shè)計(jì)的漢語第二語言考試,旨在測試漢語學(xué)習(xí)者的閱讀理解能力。在該數(shù)據(jù)集中不僅包含多種類型的問題,而且還需要在閱讀段落信息的同時(shí)結(jié)合先驗(yàn)知識來回答問題。

表6展示了各種數(shù)據(jù)集的基本信息。其中,不可回答指的是模型通過閱讀段落和問題無法回答的問題,也就是模型需要判斷問題是否具有實(shí)際意義;“是否類”問題是指問題的候選答案就只有是或否,這兩類問題需要機(jī)器擁有更好的判斷推理能力,才能得到正確答案。RACE數(shù)據(jù)集的出現(xiàn)帶動(dòng)了選擇式機(jī)器閱讀理解任務(wù)的發(fā)展,數(shù)據(jù)集的規(guī)模也隨著深度學(xué)習(xí)技術(shù)的出現(xiàn)不斷擴(kuò)大,其中主要的構(gòu)建方法是考試收集和眾包。為保證數(shù)據(jù)集的質(zhì)量采用眾包的方法會(huì)消耗大量的人力物力,而考試收集的方法會(huì)大大節(jié)省這些成本。而且在評價(jià)一個(gè)模型的性能時(shí),常常會(huì)被拿來與人類表現(xiàn)作比較,通過考試收集的段落問題由人類專家專為考量學(xué)習(xí)者能力而設(shè)計(jì),更具權(quán)威性;缺點(diǎn)在于人工設(shè)計(jì)問題慢,需要很多的專家知識,且收集方式的特殊性會(huì)給數(shù)據(jù)集帶來一定噪聲。

對于選擇式機(jī)器閱讀理解研究的水平,隨著數(shù)據(jù)集越來越符合人類語言習(xí)慣,機(jī)器閱讀理解的挑戰(zhàn)性越來越大,在不斷發(fā)展。從選擇式機(jī)器閱讀理解的評價(jià)指標(biāo)準(zhǔn)確率(accuracy)來看,針對代表性的RACE數(shù)據(jù)集,目前模型表現(xiàn)的SOTA水平正在不斷接近人類水平,三年時(shí)間已經(jīng)從基線模型GAReader[23]的44.1%準(zhǔn)確率上升到ALBERT-SingleChoice+transfer learning[63]模型的90.7%準(zhǔn)確率。但依舊有很多其他數(shù)據(jù)集上的模型表現(xiàn)與人類水平相差很大,且在結(jié)合大量外部知識的情況下模型的水平依舊無法達(dá)到人類水平,這種現(xiàn)象表明很多問題是需要很強(qiáng)的推理能力才能解決的。還有像MCScript數(shù)據(jù)集增加“是否類”問題,模型在這種情況下不僅需要具備更強(qiáng)的邏輯推理能力,還需要具備一定的辨識能力,而不是盲目地從段落中找錯(cuò)誤的答案。從語言類別來看,中文領(lǐng)域相關(guān)的數(shù)據(jù)集較少,且近年來也不斷地出現(xiàn)了中文數(shù)據(jù)集,說明未來研究人員的重點(diǎn)會(huì)放在對中文領(lǐng)域的研究。

3.2 評價(jià)指標(biāo)

對于抽取式機(jī)器閱讀理解,常使用預(yù)測答案與真實(shí)答案完全一致的百分比EM值以及預(yù)測答案與真實(shí)答案完全一致的百分比F1值作為評價(jià)指標(biāo)[10]。對于非抽取式的生成式機(jī)器閱讀理解答案并不局限于給定的段落和問題中,因此進(jìn)一步采用ROUGE-L[86]以及BLEU[87]作為評價(jià)指標(biāo)。針對填空式機(jī)器閱讀理解以及選擇式機(jī)器閱讀理解模型的評價(jià)方式簡潔直觀,通常采用準(zhǔn)確率,在評價(jià)模型時(shí),通過得到回答正確的樣本數(shù)目與總樣本數(shù)目的比值來評價(jià)模型的能力,比值越高表明模型性能越好,具體公式為

accuracy=1N∑Ni=1I(y′i=yi)(23)

其中:N為樣本總數(shù);y′i代表第i個(gè)樣本的預(yù)測標(biāo)簽;yi代表第i個(gè)樣本的真實(shí)標(biāo)簽;I(y′i=yi)作為判斷y′i與yi是否相等的指示函數(shù),如果相等,則為1,反之,則為0。

4 結(jié)束語

高質(zhì)量、大規(guī)模數(shù)據(jù)集是推動(dòng)機(jī)器閱讀理解領(lǐng)域發(fā)展的重要驅(qū)動(dòng)力,選擇式機(jī)器閱讀理解數(shù)據(jù)集的發(fā)展推動(dòng)了整個(gè)領(lǐng)域的發(fā)展,尤其是在2017年RACE數(shù)據(jù)集提出后,選擇式機(jī)器閱讀理解進(jìn)入高速發(fā)展時(shí)期。每個(gè)新數(shù)據(jù)集的出現(xiàn)會(huì)對該領(lǐng)域的發(fā)展進(jìn)行歸納總結(jié),從而引出新的問題,研究人員針對新產(chǎn)生的問題展開研究,循環(huán)往復(fù),大大促進(jìn)了該領(lǐng)域的發(fā)展。但在選擇式機(jī)器閱讀理解發(fā)展的過程中仍然存在很多難點(diǎn)和挑戰(zhàn),未來值得研究人員繼續(xù)探索。

1)低資源數(shù)據(jù)研究 大規(guī)模的高質(zhì)量數(shù)據(jù)集依舊需要人工標(biāo)注,而大多數(shù)可用的數(shù)據(jù)集都是資源豐富的語言,從多項(xiàng)式機(jī)器閱讀理解的數(shù)據(jù)集來看,大部分語言類型就是英語。為低資源語言創(chuàng)建高質(zhì)量數(shù)據(jù),同時(shí)考慮利用多任務(wù)學(xué)習(xí)技術(shù)展開相關(guān)模型的研究,是當(dāng)前領(lǐng)域的主要趨勢[88~90];還可以考慮采用半監(jiān)督訓(xùn)練的形式,運(yùn)用生成對抗網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)增強(qiáng),同時(shí)還可以提升模型的魯棒性[23]。

2)深層高效網(wǎng)絡(luò) 預(yù)訓(xùn)練語言模型的提出促進(jìn)了整個(gè)機(jī)器閱讀理解的發(fā)展,也提升了模型對于算力的要求。蒸餾技術(shù)已經(jīng)在預(yù)訓(xùn)練模型的優(yōu)化階段得到了很好的效果,但相應(yīng)也存在性能的下降。如何獲得輕量且能在多項(xiàng)式機(jī)器閱讀理解任務(wù)中達(dá)到SOTA水平,即簡化網(wǎng)絡(luò)結(jié)構(gòu)的同時(shí)獲得更好的上下文表示是一大研究難點(diǎn)。其次,在微調(diào)階段可以考慮在文本匹配時(shí),融入高質(zhì)量的候選答案比較信息來輔助答案的選擇[62]。

3)長文本理解 在預(yù)訓(xùn)練語言模型中,單次輸入不能超過512個(gè)字符,而在當(dāng)前大多數(shù)選擇式機(jī)器閱讀理解數(shù)據(jù)中,參考的段落長度多數(shù)不止于此,這極大地限制了預(yù)訓(xùn)練語言模型在選擇式機(jī)器閱讀理解領(lǐng)域的應(yīng)用,當(dāng)前語言模型無法處理長文本。因此,可以考慮利用知識抽取的能力對輸入序列進(jìn)行壓縮,通過訓(xùn)練一個(gè)模型用于計(jì)算與問題以及候選答案相關(guān)度高的信息片段作為輸入[14,91~93];其次,可以采用產(chǎn)生文本摘要的形式壓縮段落信息,作為模型的輸入[94]。

4)復(fù)雜推理 近年來,圖神經(jīng)網(wǎng)絡(luò)技術(shù)得到廣泛關(guān)注,已被用于復(fù)雜推理任務(wù)上[95~99]。選擇式機(jī)器閱讀理解研究中,尤其隨著數(shù)據(jù)集規(guī)模的擴(kuò)大,模型如何在廣闊的搜索空間快速、準(zhǔn)確地從中總結(jié)推理出正確答案是一個(gè)急需解決的問題。尤其在面對多文檔推理任務(wù)時(shí),為獲得正確答案,需要模型從多個(gè)文檔中總結(jié)歸納推理,可以考慮利用圖神經(jīng)網(wǎng)絡(luò)的形式聚合不同的語義粒度,輔助問題的解答。

選擇式機(jī)器閱讀理解是一個(gè)數(shù)據(jù)集與模型方法相互促進(jìn)發(fā)展的領(lǐng)域。本文總結(jié)了相關(guān)領(lǐng)域的數(shù)據(jù)集及模型方法,重點(diǎn)闡述基于深度學(xué)習(xí)模型方法四個(gè)方面的相關(guān)工作,即語義匹配、預(yù)訓(xùn)練模型、推理機(jī)制和外部知識輔助。最后從選擇式機(jī)器閱讀理解的研究進(jìn)展來看,未來可以在低資源數(shù)據(jù)、深層高效網(wǎng)絡(luò)、長文本理解、復(fù)雜推理等方面進(jìn)行進(jìn)一步研究。

參考文獻(xiàn):

[1]Lehnert W G.The process of question answering[M].New Haven,CT:Yale University,1977.

[2]Hirschman L,Light M,Breck E,et al.Deep Read:a reading comprehension system[C]//Proc of the 37th Annual Meeting of Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,1999:325-332.

[3]Riloff E,Thelen M.A rule-based question answering system for rea-ding comprehension tests[C]//Proc of ANLP/NAACL Workshop on Reading Comprehension Tests as Evaluation for Computer-Based Language Understanding Systems.Stroudsburg,PA:Association for Computational Linguistics,2000:13-19.

[4]Hao Xiaoyan,Chang Xiaoming,Liu Kaiying.A rule-based Chinese question answering system for reading comprehension tests[C]//Proc of the 3rd International Conference on Intelligent Information Hiding and Multimedia Signal Processing.Washington DC:IEEE Computer Society,2007:325-329.

[5]Richardson M,Burges C J C,Renshaw E.MCTest:a challenge dataset for the open-domain machine comprehension of text[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2013:193-203.

[6]Narasimhan K,Barzilay R.Machine comprehension with discourse relations[C]//Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2015:1253-1262.

[7]Sachan M,Dubey K,Xing E,et al.Learning answer-entailing structures for machine comprehension[C]//Proc of the 53rd Annual Mee-ting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2015:239-249.

[8]Wang Hai,Bansal M,Gimpel K,et al.Machine comprehension with syntax,frames,and semantics[C]//Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2015:700-706.

[9]Hermann K M,Kocˇisky T,Grefenstette E,et al.Teaching machines to read and comprehend[C]//Proc of the 28th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2015:1693-1701.

[10]Rajpurkar P,Zhang Jian,Lopyrev K,et al.SQuAD:100 000+questions for machine comprehension of text[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2016:2383-2392.

[11]Rajpurkar P,Jia R,Liang P.Know what you don’t know:unanswerable questions for SQuAD[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2018:784-789.

[12]Chen Danqi,Bolton J,Manning C D.A thorough examination of the CNN/daily mail reading comprehension task[EB/OL].(2016-08-08).https://arxiv.org/abs/1606.02858.

[13]Wang Shuohang,Jiang Jing.Machine comprehension using match-LSTM and answer pointer[EB/OL].(2016-11-07).https://arxiv.org/abs/1608.07905.

[14]Chen Danqi,F(xiàn)isch A,Weston J,et al.Reading Wikipedia to answer open-domain questions[EB/OL].(2017-04-28).https://arxiv.org/abs/1704.00051.

[15]Wang Wenhui,Yang Nan,Wei Furu,et al.Gated self-matching networks for reading comprehension and question answering[C]//Proc of the 55th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2017:189-198.

[16]Yu A W,Dohan D,Luong M T,et al.QANet:combining local convolution with global self-attention for reading comprehension[EB/OL].(2018-04-23).https://arxiv.org/abs/1804.09541.

[17]Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL].(2019-05-24).https://arxiv.org/abs/1810.04805.

[18]Yang Zhilin,Dai Zihang,Yang Yiming,et al.XLNet:generalized autoregressive pretraining for language understanding[EB/OL].(2020-01-02).https://arxiv.org/abs/1906.08237.

[19]Lai Guokun,Xie Qizhe,Liu Hanxiao,et al.RACE:large-scale reading comprehension dataset from examinations[EB/OL].(2017-12-05).https://arxiv.org/pdf/1704.04683.pdf.

[20]Nguyen T,Rosenberg M,Song Xia,et al.MS MARCO:a human gene-rated machine reading comprehension dataset[EB/OL].(2016-12-24).http://ceur-ws.org/Vol-1773/CoCoNIPS_2016_paper9.pdf.

[21]Reddy S,Chen Danqi,Manning C D.CoQA:a conversational question answering challenge[EB/OL].(2019-03-29).https://arxiv.org/abs/1808.07042.

[22]Yang Zhilin,Qi Peng,Zhang Saizheng,et al.HotpotQA:a dataset for diverse,explainable multi-hop question answering[EB/OL].(2018-09-25).https://arxiv.org/abs/1809.09600.

[23]Liu Zhuang,Xiao Keli,Jin Bo,et al.Unified generative adversarial networks for multiple-choice oriented machine comprehension[J].ACM Trans on Intelligent Systems and Technology,2020,11(3):article No.25.

[24]Parikh S,Sai A B,Nema P,et al.ElimiNet:a model for eliminating options for reading comprehension with multiple choice questions[EB/OL].(2019-04-04).https://arxiv.org/abs/1904.02651.

[25]LeCun Y,Bengio Y.Convolutional networks for images,speech,and time series[M]// The Handbook of Brain Theory and Neural Networks.Cambridge,MA:MIT Press,1998.

[26]Xiong Caiming,Zhong V,Socher R.Dynamic coattention networks for question answering[EB/OL].(2018-03-06).https://arxiv.org/abs/1611.01604.

[27]Mnih V,Heess N,Graves A,et al.Recurrent models of visual attention[C]//Proc of the 27th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2014:2204-2212.

[28]Bahdanau D,Cho K,Bengio Y.Neural machine translation by jointly learning to align and translate[EB/OL].(2016-05-19).https://arxiv.org/abs/1409.0473.

[29]Dhingra B,Liu Hanxiao,Yang Zhilin,et al.Gated-attention readers for text comprehension[EB/OL].(2017-04-21).https://arxiv.org/abs/1606.01549.

[30]Zhu Haichao,Wei Furu,Qin Bing,et al.Hierarchical attention flow for multiple-choice reading comprehension[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:6077-6084.

[31]Wang Shuohang,Yu Mo,Chang Shiyu, et al.A co-matching model for multi-choice reading comprehension[EB/OL].(2018-06-11).https://arxiv.org/abs/1806.04068.

[32]Chen Zhipeng,Cui Yiming,Ma Wentao,et al.Convolutional spatial attention model for reading comprehension with multiple-choice questions[C]//Proc of the 33rd AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2019:6276-6283.

[33]Tay Y,Tuan L A,Hui S C.Multi-range reasoning for machine comprehension[EB/OL].(2018-03-24).https://arxiv.org/abs/1803.09074.

[34]Seo M,Kembhavi A,F(xiàn)arhadi A,et al.Bidirectional attention flow for machine comprehension[EB/OL].(2018-06-21).https://arxiv.org/abs/1611.01603.

[35]段利國,高建穎,李愛萍.機(jī)器閱讀理解中觀點(diǎn)型問題的求解策略研究[J].中文信息學(xué)報(bào),2019,33(10):81-89.(Duan Liguo,Gao Jianying,Li Aiping.A study on solution strategy of opinion-problems in machine reading comprehension[J].Journal of Chinese Information Processing,2019,33(10):81-89.)

[36]Zhu Pengfei,Zhang Zhuosheng,Zhao Hai,et al.DUMA:reading comprehension with transposition thinking[J].IEEE/ACM Trans on Audio,Speech,and Language Processing,2022,30(12):269-279.

[37]Peters M E,Neumann M,Iyyer M,et al.Deep contextualized word re-presentations[EB/OL].(2018-03-22).https://arxiv.org/abs/1802.05365.

[38]Radford A,Narasimhan K,Salimans T,et al.Improving language understanding by generative pre-training[EB/OL].(2018-10-11).https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf.

[39]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:6000-6010.

[40]Zhu Yukun,Kiros R,Zemel R,et al.Aligning books and movies:towards story-like visual explanations by watching movies and reading books[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2015:19-27.

[41]Zhang Zhuosheng,Zhao Hai,Wang Rui.Machine reading comprehension:the role of contextualized language models and beyond[EB/OL].(2020-05-13).https://arxiv.org/abs/2005.06249.

[42]Song Kaitao,Tan Xu,Qin Tao, et al.MASS:masked sequence to sequence pre-training for language generation[EB/OL].(2019-06-21).https://arxiv.org/abs/1905.02450.

[43]Dong Li,Yang Nan,Wang Wenhui, et al.Unified language model pre-training for natural language understanding and generation[EB/OL].(2019-10-15).https://arxiv.org/abs/1905.03197.

[44]Sun Yu,Wang Shuohuan,Li Yukun, et al.ERNIE:enhanced representation through knowledge integration[EB/OL].(2019-04-19).https://arxiv.org/abs/1904.09223.

[45]Zhang Zhengyan,Han Xu,Liu Zhiyuan,et al.ERNIE:enhanced language representation with informative entities[EB/OL].(2019-06-04).https://arxiv.org/abs/1905.07129.

[46]Liu Xiaodong,He Pengcheng,Chen Weizhu,et al.Multi-task deep neural networks for natural language understanding[EB/OL].(2019-05-30).https://arxiv.org/abs/1901.11504.

[47]Sun Yu,Wang Shuohuan,Li Yukun,et al.ERNIE 2.0:a continual pre-training framework for language understanding[C]//Proc of the 34th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:8968-8975.

[48]Cui Yiming,Che Wanxiang,Liu Ting,et al.Pre-training with whole word masking for Chinese BERT[J].IEEE/ACM Trans on Audio,Speech,and Language Processing,2021,29(11):3504-3514.

[49]Joshi M,Chen Danqi,Liu Yinhan, et al.SpanBERT:improving pre-training by representing and predicting spans[EB/OL].(2020-01-18).https://arxiv.org/abs/1907.10529.

[50]Zhang Zhuosheng,Wu Yuwei,Zhou Junru,et al.SG-Net:syntax-guided machine reading comprehension[C]//Proc of the 34th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:9636-9643.

[51]Liu Yinhan,Ott M,Goyal N,et al.RoBERTa:a robustly optimized BERT pretraining approach[EB/OL].(2019-07-26).https://arxiv.org/abs/1907.11692.

[52]Shoeybi M,Patwary M,Puri R,et al.Megatron-LM:training multi-billion parameter language models using model parallelism[EB/OL].(2020-03-13).https://arxiv.org/abs/1909.08053.

[53]Lan Zhenzhong,Chen Mingda,Goodman S,et al.ALBERT:a lite BERT for self-supervised learning of language representations[EB/OL].(2020-02-09).https://arxiv.org/abs/1909.11942.

[54]Sun Siqi,Cheng Yu,Gan Zhe,et al.Patient knowledge distillation for BERT model compression[EB/OL].(2019-08-25).https://arxiv.org/abs/1908.09355.

[55]Jiao Xiaoqi,Yin Yichun,Shang Lifeng,et al.TinyBERT:distilling BERT for natural language understanding[EB/OL].(2020-10-16).https://arxiv.org/abs/1909.10351.

[56]Sanh V,Debut L,Chaumond J,et al.DistilBERT,a distilled version of BERT:smaller,faster,cheaper and lighter[EB/OL].(2020-03-01).https://arxiv.org/abs/1910.01108.

[57]Liu Weijie,Zhou Peng,Zhao Zhe,et al.FastBERT:a self-distilling BERT with adaptive inference time[EB/OL].(2020-04-29).https://arxiv.org/abs/2004.02178.

[58]Dai Zihang,Yang Zhilin,Yang Yiming,et al.Transformer-XL:attentive language models beyond a fixed-length context[EB/OL].(2019-06-02).https://arxiv.org/abs/1901.02860.

[59]Jin Di,Gao Shuyang,Kao J Y,et al.MMM:multi-stage multi-task learning for multi-choice reading comprehension[EB/OL].(2019-11-19).https://arxiv.org/abs/1910.00458.

[60]Zhang Shuailiang,Zhao Hai,Wu Yuwei,et al.Dual co-matching network for multi-choice reading comprehension[EB/OL].(2019-08-20).https://arxiv.org/abs/1901.09381.

[61]Zhang Shuailiang,Zhao Hai,Wu Yuwei,et al.DCMN+:dual co-matching network for multi-choice reading comprehension[EB/OL].(2020-01-16).https://arxiv.org/abs/1908.11511.

[62]Ran Qiu,Li Peng,Hu Weiwei,et al.Option comparison network for multiple-choice reading comprehension[EB/OL].(2019-03-07).https://arxiv.org/abs/1903.03033.

[63]Jiang Yufan,Wu Shuangzhi,Gong Jing,et al.Improving machine rea-ding comprehension with single-choice decision and transfer learning[EB/OL].(2020-11-17).https://arxiv.org/abs/2011.03292.

[64]Shen Yelong,Huang Posen,Gao Jianfeng,et al.ReasoNet:learning to stop reading in machine comprehension[C]//Proc of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2017:1047-1055.

[65]Xu Yichong,Liu Jingjing,Gao Jianfeng, et al.Dynamic fusion networks for machine reading comprehension[EB/OL].(2018-02-26).https://arxiv.org/abs/1711.04964.

[66]Weissenborn D,Kocˇisk T,Dyer C.Dynamic integration of background knowledge in neural nlu systems[EB/OL].(2018-08-21).https://arxiv.org/abs/1706.02596.

[67]Wang Liang,Sun Meng,Zhao Wei,et al.Yuanfudao at SemEval-2018 task 11:three-way attention and relational knowledge for commonsense machine comprehension[EB/OL].(2018-05-15).https://arxiv.org/abs/1803.00191.

[68]Chen Wuya,Quan Xiaojun,Chen Chengbo.Gated convolutional networks for commonsense machine comprehension[C]//Proc of the 25th International Conference on Neural Information Processing.Cham:Springer,2018:297-306.

[69]Pujari R,Goldwasser D.Using natural language relations between answer choices for machine comprehension[EB/OL].(2020-12-31).https://arxiv.org/abs/2012.15837.

[70]Zhong Wanjun,Tang Duyu,Duan Nan,et al.Improving question answering by commonsense-based pre-training[C]//Proc of CCF International Conference on Natural Language Processing and Chinese Computing.Cham:Springer,2019:16-28.

[71]Rajani N F,McCann B,Xiong Caiming,et al.Explain yourself! Leveraging language models for commonsense reasoning[EB/OL].(2019-06-06).https://arxiv.org/abs/1906.02361.

[72]Speer R,Chin J,Havasi C.ConceptNet 5.5:an open multilingual graph of general knowledge[C]//Proc of the 31st AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2017:4444-4451.

[73]Wang Bingning,Guo Shangmin,Liu Kang,et al.Employing external rich knowledge for machine comprehension[C]//Proc of the 25th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2016:2929-2925.

[74]Lin B Y,Chen Xinyue,Chen Jamin,et al.KagNet:knowledge-aware graph networks for commonsense reasoning[EB/OL].(2019-09-04).https://arxiv.org/abs/1909.02151.

[75]Mihaylov T,F(xiàn)rank A.Knowledgeable reader:enhancing cloze-style reading comprehension with external commonsense knowledge[EB/OL].(2018-05-21).https://arxiv.org/abs/1805.07858.

[76]Xia Jiangnan,Wu Chen,Yan Ming.Incorporating relation knowledge into commonsense reading comprehension with multi-task learning[C]//Proc of the 28th ACM International Conference on Information and Knowledge Management.New York:ACM Press,2019:2393-2396.

[77]Kembhavi A,Seo M,Schwenk D,et al.Are you smarter than a sixth grader? Textbook question answering for multimodal machine comprehension[C]//Proc of IEEE Conference on Computer Vision and Pattern recognition.Washington DC:IEEE Computer Society,2017:4999-5007.

[78]Welbl J,Liu N F,Gardner M.Crowdsourcing multiple choice science questions[EB/OL].(2017-07-19).https://arxiv.org/abs/1707.06209.

[79]Richardson K,Sabharwal A.What does my QA model know? Devising controlled probes using expert knowledge[J].Trans of the Association for Computational Linguistics,2020,8:572-588.

[80]Ostermann S,Modi A,Roth M,et al.MCScript:a novel dataset for assessing machine comprehension using script knowledge[EB/OL].(2018-03-14).https://arxiv.org/abs/1803.05223.

[81]Ostermann S,Roth M,Modi A,et al.SemEval-2018 task 11:machine comprehension using commonsense knowledge[C]//Proc of the 12th International Workshop on Semantic Evaluation.Stroudsburg,PA:Association for Computational Linguistics,2018:747-757.

[82]Clark P,Cowhey I,Etzioni O,et al.Think you have solved question answering? Try ARC,the AI2 reasoning challenge[EB/OL].(2018-03-14).https://arxiv.org/pdf/1803.05457.pdf.

[83]Sun Kai,Yu Dian,Chen Jianshu,et al.DREAM:a challenge data set and models for dialogue-based reading comprehension[J].Trans of the Association for Computational Linguistics,2019,7:217-231.

[84]Talmor A,Herzig J,Lourie N,et al.CommonsenseQA:a question answering challenge targeting commonsense knowledge[EB/OL].(2019-03-15).https://arxiv.org/abs/1811.00937.

[85]Sun Kai,Yu Dian,Yu Dong,et al.Investigating prior knowledge for challenging Chinese machine reading comprehension[J].Trans of the Association for Computational Linguistics,2020,8:141-155.

[86]Lin C Y.Looking for a few good metrics:automatic summarization evaluation——how many samples are enough?[C]//Proc of Evaluation of Information Access Technologies:Information Retrieval,Question Answering and Summarization.2004.

[87]Papineni K,Roukos S,Ward T,et al.BLEU:a method for automatic evaluation of machine translation[C]//Proc of the 40th Annual Mee-ting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2002:311-318.

[88]Amirkhani H,Jafari M A,Amirak A,et al.FarsTail:a Persian natural language inference dataset[EB/OL].(2021-07-08).https://arxiv.org/abs/2009.08820.

[89]Yuan Fei,Shou Linjun,Bai Xuanyu,et al.Enhancing answer boundary detection for multilingual machine reading comprehension[EB/OL].(2020-05-08).https://arxiv.org/abs/2004.14069.

[90]Gupta S,Khade N.BERT based multilingual machine comprehension in English and Hindi[EB/OL].(2020-06-02).https://arxiv.org/abs/2006.01432.

[91]Zhang Yiqing,Zhao Hai,Zhang Zhuosheng.Examination-style reading comprehension with neural augmented retrieval[C]//Proc of International Conference on Asian Language Processing.Piscataway,NJ:IEEE Press,2019:182-187.

[92]Yan Ming,Xia Jiangnan,Wu Chen,et al.A deep cascade model for multi-document reading comprehension[EB/OL].(2018-11-28).https://arxiv.org/pdf/1811.11374.pdf.

[93]Nishida K,Saito I,Nishida K,et al.Multi-style generative reading comprehension[EB/OL].(2019-05-27).https://arxiv.org/abs/1901.02262.

[94]Li Zuchao,Wang Rui,Chen Kehai,et al.Explicit sentence compression for neural machine translation[C]//Proc of the 34th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:8311-8318.

[95]Qiu Lin,Xiao Yunxuan,Qu Yanru,et al.Dynamically fused graph network for multi-hop reasoning[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2019:6140-6150.

[96]Chen Yu,Wu Lingfei,Zaki M J.GraphFlow:exploiting conversation flow with graph neural networks for conversational machine comprehension[EB/OL].(2020-07-15).https://arxiv.org/abs/1908.00059.

[97]Jiang Yichen,Joshi N,Chen Y C,et al.Explore,propose,and assemble:an interpretable model for multi-hop reading comprehension[EB/OL].(2019-06-12).https://arxiv.org/abs/1906.05210.

[98]Tu Ming,Huang K,Wang Guangtao,et al.Select,answer and explain:interpretable multi-hop reading comprehension over multiple documents[EB/OL].(2020-02-10).https://arxiv.org/abs/1911.00484.

[99]Tu Ming,Huang Jing,He Xiaodong,et al.Graph sequential network for reasoning over sequences[EB/OL].(2020-04-04).https://arxiv.org/abs/2004.02001.

主站蜘蛛池模板: 亚洲AV无码久久天堂| 国产精品视频导航| 亚洲欧洲日韩综合| 四虎永久在线精品影院| 亚洲有无码中文网| 亚洲三级a| 91色国产在线| 亚洲成人在线免费观看| 狠狠色丁婷婷综合久久| 国产黄色片在线看| 日本一区高清| 国产精品毛片在线直播完整版| 九色综合伊人久久富二代| 国产亚洲欧美日韩在线一区二区三区| 国产流白浆视频| 99久久精品美女高潮喷水| 欧美视频在线播放观看免费福利资源 | 精品欧美视频| 午夜天堂视频| 亚洲国产精品日韩欧美一区| 四虎综合网| 亚洲欧美成aⅴ人在线观看| 91亚洲免费视频| 成人福利在线免费观看| 日韩精品一区二区三区免费| 国产精品自在线天天看片| 国产亚洲欧美在线中文bt天堂| 免费一级毛片在线观看| 国产成人久久综合一区| 亚洲福利片无码最新在线播放| a免费毛片在线播放| 国产精品视频系列专区| 欲色天天综合网| 99热这里只有精品久久免费| 国产欧美视频在线| 欧美三级不卡在线观看视频| 久久久久人妻一区精品色奶水| 2021国产精品自拍| 中文字幕在线看视频一区二区三区| 精品在线免费播放| 亚洲天堂精品视频| 亚洲成人黄色网址| 国产超碰一区二区三区| YW尤物AV无码国产在线观看| 亚洲av无码牛牛影视在线二区| 91小视频在线观看免费版高清| 亚洲综合婷婷激情| 日本一区二区三区精品视频| 国产午夜看片| 日韩精品无码不卡无码| 亚洲精品黄| 午夜啪啪福利| 华人在线亚洲欧美精品| 国产91久久久久久| 免费Aⅴ片在线观看蜜芽Tⅴ| 免费精品一区二区h| 日韩天堂视频| 性欧美久久| 国产精品无码AⅤ在线观看播放| 中文字幕第4页| 欧美国产日产一区二区| 国产真实乱了在线播放| 中文无码影院| 88国产经典欧美一区二区三区| 国产精品林美惠子在线观看| 国产亚洲精品在天天在线麻豆| 亚洲精品麻豆| 无码AV动漫| 亚洲激情99| 国产原创第一页在线观看| 黄色国产在线| 国产在线自在拍91精品黑人| 国产精品真实对白精彩久久| 香蕉久久国产精品免| 欧美亚洲国产日韩电影在线| 亚洲人成人伊人成综合网无码| 98精品全国免费观看视频| 伊人久久婷婷| 久久青草热| 91精品国产麻豆国产自产在线| 国产aⅴ无码专区亚洲av综合网| 欧美人在线一区二区三区|