999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的機器閱讀理解研究綜述

2023-01-14 14:48:24杜永萍趙以梁閻婧雅郭文陽
智能系統學報 2022年6期
關鍵詞:文本模型

杜永萍,趙以梁,閻婧雅,郭文陽

(北京工業大學 信息學部,北京 100124)

認知智能是人工智能發展的最高階段,其目標是讓機器掌握人類的語言和知識體系,并真正理解其內在邏輯,這意味著機器開始具備分析和思考的能力。自然語言是認知科學的一項重要研究內容,用自然語言與計算機進行通信,意味著要使計算機能夠理解自然語言文本的意義,以自然語言理解為核心技術的自動問答、人機對話、聊天機器人已經成為產業界和學術界的關注熱點。

自動問答是語言理解的重要應用領域,特別是機器閱讀理解,賦予了計算機從文本數據中獲取知識和回答問題的能力,它是人工智能中一項挑戰性的任務,需要深度理解自然語言并具備一定推理能力。

近年來,機器閱讀理解領域的研究進入快速發展時期,一方面得益于大規模高質量數據集的發布:包括Facebook Children’s Books Test[1]、SQuAD[2]以及TriviaQA[3]等高質量數據集;另一方面,基于深度學習技術的模型在獲取上下文交互信息方面明顯優于傳統模型,例如基于雙向注意力機制的BiDAF 模型[4]、Transformer[5]和基于注意力機制的循環神經網絡R-Net[6]。中文問答任務上,基于注意力機制的模型如N-Reader[7]在中文數據集DuReader[8]上取得了較好的成績。

近期,預訓練模型[9-10]與知識推理技術[11-12]在復雜問答任務上取得了優異的表現,特別在多跳問答任務中,問題的答案需要從多個篇章中獲取,模型需要通過推理才能得出答案,圖神經網絡在該類任務上具有較好的適用性,Ding 等[11]使用認知圖譜與圖神經網絡解決復雜數據集的推理任務并取得當時SOTA 的結果。

1 機器閱讀理解任務

機器閱讀理解任務,從輸入信息的角度,可分為兩種類型:基于多模態的閱讀理解任務和基于文本的閱讀理解任務。

基于多模態的閱讀理解任務是指使機器能夠對文本、圖片以及視頻等多種來源的信息進行學習,該研究任務更貼近于人類對信息獲取的綜合感知的學習方式,它是新興的具有挑戰性的研究方向。目前已有一些基于多模態的閱讀理解任務的評測任務和數據集,如RecipeQA[13]和TQA[14]等。

本文主要針對基于文本的閱讀理解任務進行分析,主要分為四類:完形填空式任務、選擇式任務、片段抽取式任務和自由作答式任務。

1)完形填空式任務:對于給定的篇章P,從P中刪去詞語A。任務要求機器學習到函數F,從Q=P-{A} 中對P中缺少的詞語或實體進行補全,即A=F(Q)=F(P-{A})。

完形填空式任務的難點在于,機器需要從不完整的文本中學習上下文語義關系,并且不僅需要對篇章所表達的內容進行理解,還需要把握篇章的語言表達、詞語運用的習慣,從而正確地對被刪去的內容進行預測。該任務代表性數據集有CNN/DailyMail[15]、Facebook Children’sBooks Test[1]等。

2)選擇式任務:對于給定的篇章P和問題Q,以及問題Q的候選答案集合A={A1,A2,···,An},要求機器學習到函數F,根據P、Q、A從A中選擇對Q回答正確的一項,即Ai=F(P,Q,A)。

選擇式任務的特點在于要求數據集提供問題的候選答案集合。機器在完成選擇式任務時,需要對篇章、問題、候選答案之間的語義關系進行理解和分析,給出正確的判斷。該任務的代表性數據集有WikiHop[16]、CommonsenseQA[17]等。

3)片段抽取式任務:對于給定的篇章P={w1,w2,···,wn}和 問題Q,機器學習到函數F,根據對P和Q的理解,從P中選取連續片段A作為Q的答案,即A=F(P,Q),A={wi,wi+1,···,wj},A∈P。

片段抽取式任務的特點在于問題的答案可以在篇章中找到,且答案可以是詞語、實體或句子等形式。構建數據集時對問題的選取有一定要求,該任務的代表性數據集有SQuAD[2]、NewsQA[18]等。

4)自由作答式任務:對于給定的篇章P和問題Q,機器學習到函數F,根據對P和Q的理解得出答案A,且A不一定在P中出現,可以為任意形式,即A=F(P,Q)。

自由作答式任務在答案的選取上最為靈活,答案的形式也無限制,且答案范圍不局限于給定篇章。這類任務往往要求機器具有一定的分析、推理能力。該任務的代表性數據集有DuReader[8]、DROP[19]等。

2 機器閱讀理解技術

2.1 基于端到端神經網絡的機器閱讀理解技術

傳統的機器閱讀理解方法通常是基于規則或者統計學規律,但隨著該任務數據集的規模和質量的提升,深度學習方法表現出了良好的性能。如今機器閱讀理解模型的構建大多采用雙向循環神經網絡對問題和篇章進行編碼,并在問題-篇章交互層中使用注意力機制。

機器閱讀理解模型的輸入通常為問題和篇章,最終的輸出是問題的答案。常見的基于深度學習的機器閱讀理解模型主要包括4 個層次:詞嵌入層、編碼層、問題-篇章交互層以及答案預測層,如圖1 所示。

圖1 基于深度學習方法的機器閱讀理解通用模型結構Fig.1 Generic architecture of machine reading comprehension model based on deep learning

1)詞嵌入層:問題和篇章輸入模型后,將輸入的自然語言文字轉換為定長向量。可以通過獨熱編碼、分布式詞向量表示等多種方式分別得到問題和篇章的嵌入表示。采用大規模語料庫預訓練得到的詞表示會包含豐富的上下文信息。例如QANet[20]中使用預訓練詞表GloVe[21]作為詞的初始化表示,為后續模型正確預測答案提供支撐。

2)編碼層:詞嵌入層的輸出作為編碼層的輸入,分別對問題和篇章進行建模。一些典型的深度神經網絡,例如循環神經網絡,具有能夠處理時間序列預測問題的特性,它通常被應用在編碼層來挖掘問題和篇章的上下文信息。R-Net[6]采用多層的雙向循環神經網絡構建模型,并利用自注意力機制進一步捕獲更加豐富的上下文信息。循環神經網絡的優點是隱藏層的神經元之間可以進行交互,使得信息具有傳遞性。Attentive Reader[15]中的編碼層部分由雙向循環神經網絡正向和反向的輸出拼接得到篇章中第t個位置詞的表示,并計算該位置詞的權重。

3)問題-篇章交互層:問題和篇章之間的關聯對答案的預測有著重要的作用。注意力機制被廣泛應用于問題-篇章交互層中,包括單向注意力機制、雙向注意力機制以及自注意力機制,用于增強與問題相關的篇章部分的表示。如圖2 所示,將問題Q={x1,x2,x3,x4,x5} 融入到篇章C中,若要得到C中的詞y的表示,首先計算Q中每個詞的權重w1,w2,w3,w4,w5=softmax(QT,y),由y與Q中每個詞點乘并使用行向 softmax進行歸一化得到;然后對Q中每個詞進行加權求和得到融入問題信息的詞y的表示,即=w1x1+w2x2+w3x3+w4x4+w5x5。以此類推,計算得到篇章C中每個詞的新的表示,記作A(Q,C)。

圖2 注意力機制的原理示意Fig.2 Structure of attention mechanism

BiDAF[4]提出的雙向注意力機制不僅計算融入問題信息的篇章表示,也計算了融入篇章信息的問題表示,從而進一步提高了模型對問題和篇章的理解能力。注意力機制相比于循環神經網絡,其復雜度更小,參數量也更少,解決了循環神經網絡不能并行計算和短期記憶的問題。自注意力機制在機器閱讀理解任務中常被用來關注篇章自身的內容,即 Att(C,C),目的是計算篇章中各個詞的相似度,以學習到篇章自身詞與詞之間的關系,R-Net[6]、T-Reader[22]、HQACL[23]模型均采用自注意力機制提高了模型對篇章的理解能力。

4)答案預測層:答案預測層用于輸出問題的答案。機器閱讀理解的任務類型不同,答案形式也不同。完形填空式任務的輸出是篇章中的一個單詞或實體;選擇式任務的輸出是從候選答案中選出正確答案;片段抽取式任務需要從篇章中抽取連續子序列作為輸出;對于自由作答式的任務,文本生成技術通常被用于該層來生成問題的答案。

2.2 基于預訓練語言模型的機器閱讀理解技術

預訓練模型已經在自然語言處理的多項下游任務中取得了優秀的性能,包括OpenAI GPT[24]、BERT[9]、XLNet[10]等,可以有效獲取句法和語義信息,并進行文本表示。預訓練方法通常用于機器閱讀理解任務的詞嵌入層,將自然語言文本編碼成固定長度的向量。詞的表示方法中,獨熱編碼無法體現詞與詞之間的關系;分布式詞向量表示方法雖然可以在低維空間中編碼并通過距離度量詞與詞之間的相關性,但并沒有包含上下文信息,為了解決這個問題,基于預訓練的詞表示方法被提出并應用。

Transformer[5]是第一個完全基于注意力機制的序列生成模型,BERT[9]提出利用雙向Transformer 預訓練得到上下文級別的詞表示。XLNet[10]以自回歸語言模型為基礎融合自編碼語言模型的優點,克服了自回歸語言模型無法對雙向上下文信息進行建模的缺點。XLNet[10]引入雙流自注意力機制以解決目標位置信息融入的問題,同時使得模型能夠處理更長的輸出長度。但是,常規的預訓練方法無法對文本中的實體及關系建模,ERICA[25]框架被提出用于解決該問題,實現深度理解,它可以提升典型的預訓練模型BERT[9]與RoBERTa[26]在多個自然語言理解任務上的性能,包括機器閱讀理解。

此外,在面向中文的預訓練語言模型中,ChineseBERT[27]將具有中文特性的字形和拼音融入預訓練過程中,在機器閱讀理解等多項中文自然語言處理任務中達到了SOTA,該模型在訓練數據較少的情況下優于常規的預訓練模型。

盡管預訓練語言模型的上下文表示已經包含了句法、語義等知識,但挖掘上下文表示所蘊含的常識的工作較少,它對于機器閱讀理解是非常重要的。Zhou 等[28]在不同具有挑戰性的測試中檢驗GPT[24]、BERT[9]、XLNet[10]和RoBERTa[26]的常識獲取能力,發現模型在需要更多深入推理的任務上表現不佳,這也表明常識獲取依然是一個巨大挑戰。

2.3 基于知識推理的機器閱讀理解技術

如何提高系統的可解釋性是人工智能領域一項重要挑戰,對于機器閱讀理解等自動問答任務,特別是復雜問題回答,機器需要具備通過推理來獲取答案的能力,而目前的深度學習方法可解釋性較差是一個普遍現象,無法將推理過程進行顯示地表達。常見的基于知識推理的機器閱讀理解技術包括語義蘊含推理、知識圖譜推理以及基于檢索的多跳推理,如圖3 所示。

圖3 基于知識推理的機器閱讀理解技術Fig.3 Technologies of machine reading comprehension model based on knowledge inference

基于語義蘊涵推理的問答方法:問題回答可轉換為文本蘊涵任務,將問題和候選答案組成假設,系統決定候選知識庫是否能推出假設。Shi等[29]研究一種神經符號問答方法,將自然邏輯推理集成到深度學習體系結構中,建立推理路徑,計算中間假設和候選前提的蘊含分值,提升模型性能并具有可解釋性。Dalvi 等[30]以語義蘊涵樹的方式來生成解釋,并創建了首個包含多階蘊涵樹的數據集EntailmentBank,逐步從已知事實逼近由問題和答案構成的最終假設,為自動問答任務生成更加豐富的和系統的解釋,通過一系列的推理鏈來支撐正確答案的獲取。同時,也出現了無效蘊涵推理等問題,有待優化,但該方法在進一步提高模型的可解釋性方面進行了有效嘗試。

基于知識推理的問答方法:知識圖譜是一種以關系有向圖形式存儲人類知識的資源,與無結構的文本數據相比,結構化的知識圖譜以一種更加清晰準確的方式表示人類知識,從而為高質量問答系統的構建帶來了前所未有的發展機遇,有代表性的大規模知識圖譜包括ConceptNet[31]、DBpedia[32]、YAGO[33]等。常識問答數據集CommonsenseQA[17]是通過從ConceptNet[31]中抽取出具有相同語義關系的知識,構建問題和答案。

基于知識增強的常識類問題回答中,首先面臨的問題是,知識圖譜與自然語言文本表達的異構性。Bian 等[34]提出一種將知識轉化為文本的框架,用于為常識問答提供評測基準,在CommonsenseQA[17]上取得最優性能,同時也表明知識的潛力在常識問答任務上未得到充分利用,在上下文相關的高質量知識選擇、異構知識的利用等方面有待繼續深入。知識表達通常采用基于圖的方法,但該方法關注于拓撲結構,忽略了節點和邊所蘊含的文本信息。Yan 等[35]提出基于BERT[9]的關系學習任務,將自然語言文本與知識庫對齊進行推理,并證明了關系學習方法的有效性。

更進一步,針對生成式常識推理這一更具有挑戰性的任務,現有模型很難生成正確的句子,其中一個重要原因是沒有有效結合知識圖譜中常識知識之間的關系信息。Liu 等[36]研究知識圖譜增強的KG-BART 模型,結合知識圖譜生成更有邏輯性更自然的句子表達,通過圖注意力聚合概念語義,增強對新概念集的泛化能力。該方法的實驗結果證明,結合知識圖譜后,模型可以生成質量更高的語句。KG-BART 模型可以遷移到常識問答等以常識為中心的下游任務。

基于檢索與知識融合的多跳推理方法:多跳問答是一項需要多層推理的挑戰性任務,在實際應用中十分普遍。該任務需要從大規模語料庫中發現回答問題的支撐證據,分析分散的證據片段,進行多跳推理實現對問題的回答。多跳問答通常使用實體關系進行分步推理,已有方法通過預測序列關系路徑(較難優化)或匯聚隱藏的圖特征進行答案推理(可解釋性差)。Shi 等[37]提出了TransferNet,TransferNet 使用同一框架支持實體標簽和文本關系的表示,推理的每一環節關注問題的不同部分,傳遞實體信息,取得優秀性能表現。Li 等[38]提出新的檢索目標“hop”來發現維基百科中的隱藏證據,將hop 定義為含有超鏈接的文本和鏈接到的文檔,檢索維基百科回答復雜問題。

針對現有基于單跳的圖推理方法會遺漏部分重要的非連續依賴關系的難題,Jiang 等[39]定義高階動態切比雪夫近似圖卷積網絡,將直接依賴和長期依賴的信息融合到一個卷積層來增強多跳圖推理,在文本分類、多跳圖推理等多個任務上進行實驗,取得了最優性能。Feng 等[40]提出一種適合多跳關系推理的模型MHGRN,結合圖神經網絡和關系網絡,通過多跳信息傳遞,在長度最多為k的關系路徑上傳遞信息,賦予圖神經網絡直接建模路徑的能力。

3 數據集與評價指標

3.1 數據集

大規模高質量數據集的發布是推動機器閱讀理解快速發展的重要因素,根據不同任務類型,代表性數據集如表1 所示,發布時間軸如圖4 所示。其中,完形填空式問答任務數據集中Book-Test[14]的問題規模最大,在2015 年以后片段抽取式的數據集規模均在萬級以上。

圖4 機器閱讀理解數據集發布時間軸Fig.4 Time axis of machine reading comprehension datasets

表1 機器閱讀理解主要數據集統計Table 1 Statistics of machine reading comprehension datasets

續表 1

其中,規模較大的數據集如SQuAD 2.0[46]、BookTest[14]和NewsQA[18],推動了BiDAF[4]、RNet[6]等經典模型的發展。

在片段抽取式數據集中應用廣泛的數據集有SQuAD[2],模型QANet[20]與BERT[9]在該數據集上表現尚佳,且BERT[9]在兩個評測指標上首次超越了人類水平,在此基礎上預訓練語言模型與微調的方法成為主流。在自由式問答數據集DROP[19]中,仍然與人類F1值為0.964 2 的水平存在一定距離。在需要推理的任務中,在選擇式數據集CommonsenseQA[17]性能表現優異的模型中用到了知識圖譜和圖神經網絡,評測排名第一的DEKCOR[54]模型還引入了輔助的篇章信息,但與人類水平仍有差距。

3.2 評價指標

3.2.1 準確率

準確率是最常用的評價指標,它表示機器閱讀理解模型正確回答的問題占所有問題的百分比。設機器閱讀理解任務包含n個問題,其中模型正確回答了m個問題[55],則準確率a的計算為

準確率一般用于評價完形填空式和選擇式問答任務,例如Facebook Children’s Books Test[1]、CommonsenseQA[17]等。片段抽取式問答數據集中的SearchQA[45]和自由式問答數據集中的DROP[19]也使用了該指標。

EM(exact match)值與準確率的計算相同,EM 值要求式(1)中的m為所有問題中模型輸出答案與正確答案完全相同的個數,即模型輸出答案與正確答案中的每個單詞和位置都必須相同。在片段抽取式問答任務中,EM 值與準確度相同,且使用EM 值作為它們的評價指標,例如SQuAD[2]、TriviaQA[3]、HotpotQA[49]等。

3.2.2F1值

F1值評價指標,表示數據集中標準答案與模型預測的答案之間平均單詞的覆蓋率,將精確率P(precision)和召回率R(recall)折中。其中,精確率為預測正確的答案占所有預測答案的百分比,召回率則是預測正確的答案占所有標準答案的百分比,而F1值是將這兩個指標綜合在一起,即

F1值通常是片段抽取式問答任務采用的評價指標,例如SQuAD[2]、HotpotQA[49]等。自由式問答任務中的Natural Questions-Short[53]也使用了F1值。相比于EM,F1值允許模型預測答案和正確答案之間有一定范圍偏差,因此,數據的類別分布不平衡時,F1值更適用。

3.2.3 其他評價指標

ROUGE-L[56]相比于EM 值和F1值更靈活,其值用于評價預測答案和真實答案之間的相似度,但候選答案的長度會影響ROUGE-L 的值;BLEU[57]最初用于機器翻譯任務中,不僅可以評價預測答案和真實答案之間的相似度,還可以考察候選答案語言表達流暢性,但BLEU 對詞重復和短句現象不利。因此這兩個指標通常用于不受原語境限制的任務中。一般在自由式問答中使用ROUGE-L[56]和BLEU[57]作為評價指標,例如DuReader[8]、DROP[19]等。

4 機器閱讀理解領域的挑戰和發展趨勢

目前,在大規模高質量數據集的推動下,機器閱讀理解領域的研究取得了快速發展,甚至在部分評測任務上已經超過了人類的表現。但是,在一些新提出的任務或研究方向上,機器目前的性能遠未達到人類的理解水平。該領域目前的主要挑戰和發展趨勢概括如下。

知識驅動與推理技術提升可解釋性:將知識融入機器閱讀理解任務中來實現復雜的問題回答是基于人類的思考方式提出的一種策略[58]。知識驅動的閱讀理解模型通過引入外部知識,輔助理解篇章內容并回答問題。大規模知識庫的構建也需要考慮知識的獲取方式、多模態資源中知識的獲取、不同來源的知識的融合。同時,知識驅動與推理技術的運用可以較好地解決基于神經網絡模型可解釋性差的問題。

對話式問答任務中的語義理解:對話式問答同樣是根據人類獲取知識的習慣而提出的任務,讓機器根據已有的一系列問答序列,對當前問題進行回答。其中,問答序列具有時序性和前后關聯性,如何理解當前問題與歷史問答記錄的關系是該任務的一大難點。此外,指代消解技術在該任務中非常重要,機器需要根據歷史問答記錄,準確理解篇章、問題中的指代實體,進行補全。

機器閱讀理解模型的健壯性:目前的機器閱讀理解模型往往過于依賴文本表面的信息,而缺乏深入的理解。在篇章中引入干擾數據,生成對抗樣本,結果表明,多數現有模型性能明顯下降。如何生成有效的對抗樣本,通過對抗訓練提升模型的健壯性成為研究的重點。

5 結束語

機器閱讀理解是自然語言處理領域的難點問題,它是評價和度量機器理解自然語言程度的重要任務。近年來基于深度學習技術的機器閱讀理解模型研究發展迅速。本文介紹了機器閱讀理解任務劃分,對機器閱讀理解相關技術進行了分析,包括端到端的神經網絡模型、預訓練語言模型以及知識推理等方法,并選取了各個任務中有代表性的數據集進行統計分析,介紹了不同機器閱讀理解任務中常用的評價指標。目前機器的語言理解能力距離人類的理解水平還有較大差距,我們對該領域面臨的挑戰和發展趨勢進行了分析。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 成人福利在线看| 国产成人无码Av在线播放无广告 | 日韩色图区| 欧美亚洲日韩中文| 午夜福利网址| 香蕉伊思人视频| 日本一本在线视频| 欧美成人影院亚洲综合图| 欧美日韩va| 国产网友愉拍精品视频| 91在线视频福利| 久久综合丝袜日本网| 91在线视频福利| 欧美a级在线| 亚洲国产清纯| 亚洲一级毛片在线观播放| 日本免费一区视频| 激情無極限的亚洲一区免费| 国产国产人在线成免费视频狼人色| 成人免费一区二区三区| 强乱中文字幕在线播放不卡| 无码人中文字幕| 51国产偷自视频区视频手机观看 | 久久精品亚洲专区| 黄色成年视频| 热99精品视频| 亚欧乱色视频网站大全| 欧美中文字幕一区二区三区| 欧美一区二区三区欧美日韩亚洲| 91国内在线视频| 久久精品中文字幕免费| 9丨情侣偷在线精品国产| 亚洲熟妇AV日韩熟妇在线| 国产网站免费| 黄色网址手机国内免费在线观看 | 亚洲乱码视频| 无码丝袜人妻| 国产精品亚洲综合久久小说| 亚洲av中文无码乱人伦在线r| 色综合激情网| 精品久久综合1区2区3区激情| 国产国产人成免费视频77777 | 日韩av无码精品专区| 国产成人毛片| 国产亚洲精| 自拍亚洲欧美精品| 国产福利免费在线观看| 国产精品福利导航| 人妻精品久久久无码区色视| 先锋资源久久| 九九免费观看全部免费视频| 一级毛片在线直接观看| 色爽网免费视频| 欧美精品亚洲精品日韩专| 国产无人区一区二区三区| 亚洲av日韩综合一区尤物| 亚洲有码在线播放| 国产91麻豆免费观看| 国产原创自拍不卡第一页| 日韩视频精品在线| 四虎精品国产永久在线观看| 国产精品永久不卡免费视频| 国禁国产you女视频网站| 欧美亚洲香蕉| 老司机午夜精品视频你懂的| 精品国产三级在线观看| 亚洲精品在线观看91| 国产人人乐人人爱| 国产精品专区第1页| 国产精品自拍合集| 日本在线亚洲| 欧美综合成人| 亚洲国产中文欧美在线人成大黄瓜| 97青草最新免费精品视频| 亚洲91在线精品| 国产h视频免费观看| 日韩欧美中文字幕在线韩免费| 日韩精品亚洲精品第一页| 亚洲大尺度在线| 国外欧美一区另类中文字幕| 老司机午夜精品网站在线观看 | 国产乱肥老妇精品视频|