999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向魯棒性增強的多任務機器閱讀理解*

2023-02-20 03:03:00譚紅葉行覃杰
計算機工程與科學 2023年2期
關鍵詞:模型

譚紅葉,行覃杰

(山西大學計算機與信息技術學院,山西 太原 030006)

1 引言

機器閱讀理解MRC(Machine Reading Comprehension)是自然語言處理NLP(Natural Language Processing)的一個重要任務,目的是讓模型根據篇章,給出相關問題的答案。機器閱讀理解任務主要包括抽取式、生成式、完形填空和多項選擇等類型。

隨著大規模閱讀理解數據集的發布(如SQuAD[1]和DuReader[2])以及BERT[3]等預訓練模型的發展,閱讀理解模型在一些評測任務上已經超過了人類的表現。但是,這些模型的魯棒性還不太理想距,即在面對噪聲和干擾時,模型的性能會顯著下降。目前,閱讀理解模型的魯棒性主要表現在過敏感性、過穩定性和泛化能力3個方面[4]。本文只針對過敏感性和過穩定性2方面進行研究。

按照文獻[4],過敏感性指當問題語義未發生變化時,如復述問題,模型會預測不同的答案,表現出對復述問題和原問題微小差異的過度敏感。過穩定性是指模型過度依賴字面匹配,無法區分答案所在句和干擾句,從而預測出錯誤的答案。模型過敏感性和過穩定性的例子分別如表1和表2所示,表中示例的答案為RoBERTa-w-wm-ext-large[5]模型預測的結果。過敏感性樣例中,僅在原問題中添加“多少”一詞,問題語義并未發生變化,但模型預測錯誤;過穩定性樣例中,干擾句(下劃線所示句子)并不包含問題的焦點(總部在哪),但是包含與問題相同的片段 “中國光大銀行成立”,導致模型抽取了錯誤的答案。上述2個例子表明,模型無法對給定的篇章和問題進行充分的理解。

Table 1 Over-sensitivity example表1 過敏感性樣例

Table 2 Over-stability example表2 過穩定性樣例

為了解決上述問題,本文提出了一種面向魯棒性增強的多任務抽取式閱讀理解模型。該模型主要思想為:(1)將答案抽取任務作為主要任務,同時引入證據句判斷和問題分類作為輔助任務;(2)使用硬約束的多任務學習方法,在訓練階段,通過共享不同任務之間的編碼器,使模型在抽取答案的同時加深對問題和篇章的理解。在專門的魯棒性數據集上的實驗結果表明,本文所提模型獲得了比基線模型更好的結果,可以有效地緩解模型的過敏感性和過穩定性,提升模型的魯棒性。

2 相關工作

2.1 機器閱讀理解

閱讀理解數據集的發展極大推動了機器閱讀理解技術的進步。例如,斯坦福大學通過眾包方式推出了大規模抽取式閱讀理解數據集SQuAD(StanfordQuestionAnsweringDataset)1.0,其答案是原文中的一個連續片段。隨著各種模型性能的不斷提高,研究人員開始推出不同的數據集以增強模型的能力。Rajpurkar等人[6]提出了SQuAD2.0,在SQuAD1.0的基礎上,在數據中添加了不可回答問題,需要模型具有判斷問題是否可以回答的能力。MSMARCO(MicroSoftMAchineReadingCOmprehension)[7]和DuReader是2個來自搜索領域的數據集,其中每條數據的篇章包含多個段落,需要模型從多個段落中抽取出答案,并具有閱讀長文本的能力。在CoQA(ConversationalQuestionAnswering)[8]數據集中,數據是通過模仿人類的對話構建的,需要模型對人類的日常交流用語有深刻的理解。HotpotQA[9]數據集要求模型根據篇章中的多個部分經過多跳推理得到最終答案。DROP(DiscreteReasoningOverParagraphs)[10]數據要求對文本篇章進行數字推理后回答問題。常識問答數據集CommonsenseQA(CommonsenseQuestionAnswering)[11]需要模型利用常識或外部知識來回答問題。DuReader-robust數據集是在DuReader的基礎上構建的抽取式閱讀理解數據集,其中問題均來自搜索引擎中的用戶搜索,包括金融、教育、醫療等多個領域,用于測試模型的魯棒性。李燁秋等人[12]為了測試模型魯棒性的各個具體方面,在DuReader-robust和DuReader的基礎上分別針對敏感性、過穩定性和泛化能力構建了3個測試集。

早期的機器閱讀理解模型都是基于特征的。Hirschman等人[13]通過詞袋模型,對篇章和問題進行抽取,然后對篇章和問題進行匹配得到答案。Riloff等人[14]通過人工設計的一組規則對篇章和問題進行匹配打分,選取分數最高的句子作為答案。但是,這些方法只能解決簡單問題,當數據更加復雜,長度更長,篇章和問題的表達更加多樣時,性能會顯著下降。

隨著深度學習的蓬勃發展以及大規模數據集的不斷推出,機器閱讀理解技術開始向深度學習發展。Hermann等人[15]通過在LSTM(LongShort-TermMemory)中加入注意力機制,提出了AttentiveReader模型。Seo等人[16]首次提出了雙向注意力流網絡BIDAF(BI-DirectionalAttentionFlow),采用多階段、層次化處理,可以捕獲原文不同粒度的特征,在SQuAD等數據集上獲得了最優的性能。Wang等人[17]對機器閱讀理解任務進行分層建模,構建了R-net網絡,在一些數據集上的性能超過了人類的。深度學習技術不需要人工進行特征構建,且可以通過注意力機制自動關注篇章和問題中的重要部分,在一些數據集上取得了很好的性能。

近年來,各種大規模預訓練語言模型成功運用到了機器閱讀理解任務。如:ERNIE1.0(EnhancedRepresentationthroughkNowledgeIntEgration)[18]在BERT(BidirectionalEncoderRepresentationfromTransformers)的基礎上將隨機掩碼策略替換為實體和短語級掩碼來學習額外知識;RoBERTa(RobustlyoptimizedBERTpretrainingapproach)[19]主要通過動態的掩碼策略,并且使用了更大規模的數據,獲得了比BERT更好的性能;ALBERT(ALiteBERT)[20]將下一句預測任務替換為句子順序預測任務,降低了參數量,在保證模型性能的同時訓練速度更快;BERT-wwm(BERTwholewordmasking)[5]使用全詞掩碼,使模型可以學習到整個詞的語義信息。但研究表明,這些模型的魯棒性仍不太理想。

2.2 多任務學習

多任務學習是近年來訓練模型常用的一種學習方法,通過將模型在多個任務上進行訓練,挖掘任務之間的關系,使模型可以將其他相關任務的知識應用到目標任務,從而提升模型的泛化能力。多任務學習主要有硬約束和軟約束2種框架。硬約束是指模型在多個任務之間共享表示,在模型的輸出層針對不同的任務分別構建不同的輸出。軟約束中不同的任務使用不同的網絡,并且參數不同。在網絡之間,使用正則化的方法來約束參數之間的相似化。通過多任務學習可以降低模型的過擬合,提高模型的魯棒性。

Xia等人[21]設計了2個輔助的關系感知任務來預測2個單詞之間是否存在關系及其關系類型,通過多任務學習的方式提升了模型的理解能力,獲得了更好的性能。李燁秋等人[12]結合答案抽取和掩碼位置預測任務構建了多任務學習模型。Liu等人[22]提出了MT-DNN(Multi-TaskDeepNeuralNetworks)模型,通過使用大量不同任務的數據來學習任務之間的相關知識,以幫助模型適應新的領域和任務。錢錦等人[23]在生成式閱讀理解中,通過將答案抽取和問題分類作為輔助任務進行多任務學習,在多個數據集上獲得了最優的性能。本文通過多任務學習的方式,實現了信息共享,提高了模型的理解能力,提升了模型的泛化能力。

3 方法

3.1 任務定義

本文針對抽取式閱讀理解進行研究,本節給出了抽取式閱讀理解、證據句判斷和問題分類的形式化定義。

(1)抽取式閱讀理解。問題和篇章分別被表示為Q={q1,q2,…,qn}和D={d1,d2,…,dm},其中n和m分別表示問題和篇章的字數(包括標點符號)。目的是預測一個答案A={ai,…,aj},A為篇章中的一個片段,i和j分別表示該片段的起始位置和結束位置。答案計算如式(1)所示:

f1(Q,D)=argmaxP(A|Q,D)

(1)

(2)證據句判斷。證據句是指能夠為回答問題提供事實證據的句子。本文將答案所在句視為證據句。將篇章表示為句子集合S={s1,s2,…,sk},k表示篇章中的句子數。證據句判斷任務旨在判斷篇章中最有可能為證據句的句子,具體計算如式(2)所示:

f2(Q,S)=argmaxP(su|Q,S)

(2)

其中,su表示第u個句子。

(3)問題分類。定義為通過問題和篇章來預測問題的所屬類別,具體計算如式(3)所示:

f3(Q,D)=argmaxP(yc|Q,D)

(3)

其中,yc表示第c個類別標簽。

本文多任務學習模型的整體框架如圖1所示,主要包括4個部分:編碼器、答案抽取模塊、證據句判斷模塊及問題分類模塊。

Figure 1 Architecture diagram of machine reading comprehension model based on multi-task learning圖1 基于多任務學習的機器閱讀理解模型架構圖

3.2 編碼器

該部分的主要功能是對問題和篇章進行編碼,通過大規模預訓練語言模型編碼器得到問題和篇章之間的交互表示。

預處理中,對輸入的問題和篇章進行分詞,然后標記證據句所在位置。在標記證據句的過程中,本文將篇章進行分句處理,并刪去長度小于3的句子(視為噪聲)。將模型的輸入處理成“[CLS]+問題+[SEP]+篇章+[SEP]”的格式,其中,[CLS]和[SEP]為特殊分隔符;然后對字向量ET、文本向量ES和位置向量EP進行求和,得到預訓練模型的輸入。具體計算如式(4)所示:

Input=ET+ES+EP

(4)

在此基礎上,將Input經過預訓練語言模型后得到最后的表示H={h1,h2,…,hl},H∈Rl×D,其中,hk是每個字符的向量表示,l是整個輸入的長度,D是向量的維度,篇章表示部分記作Hp∈Rm×D。具體計算如式(5)所示:

H=Model(Input)

(5)

其中,Model為預訓練語言模型編碼器。具體使用RoBERTa-wwm-ext-large預訓練模型,因為它結合了RoBERTa和BERT-wwm的優點,在許多任務上都有著優異的表現。

3.3 模塊介紹

(1)答案抽取模塊。該模塊根據編碼器得到的篇章表示Hp來抽取答案。首先,篇章表示Hp通過2個不同參數的線性層后分別得到答案開始位置和結束位置未歸一化的概率,然后經過softmax進行歸一化,最終分別得到每個位置作為開始位置和結束位置的概率s_logit和e_logit,具體計算如式(6)和式(7)所示:

s_logit=softmax(f1(Hp))

(6)

e_logit=softmax(f2(Hp))

(7)

其中,f1和f2是有可訓練參數的線性層,s_logit∈Rm和e_logit∈Rm由2個不同的線性層得到。

(2)證據句判斷模塊。該模塊與答案抽取模塊共享編碼器,在經過預訓練模型后,得到表示H,取出[CLS]處的聚合表示h[CLS],首先通過線性層,再通過softmax函數進行歸一化,得到每個句子作為證據句的概率sentence_logit,如式(8)所示:

sentence_logit=softmax(f3(h[CLS]))

(8)

其中,f3是有可訓練參數的線性層,sentence_logit∈Rk,h[CLS]∈RD。

(3)問題分類模塊。問題分類任務旨在預測問題所屬的類別。使用整個文本的聚合表示h[CLS],通過一個獨立的線性層,得到問題屬于每個類別的概率,最后通過softmax函數進行歸一化,如式(9)所示:

qc_logit=softmax(f4(h[CLS]))

(9)

其中,f4是有可訓練參數的線性層,qc_logit∈R4。

3.4 優化函數

本文所提出的多任務模型共包括答案抽取、證據句判斷和問題分類3個子任務,均使用交叉熵損失函數,具體損失函數如式(10)~式(12)所示:

ye·log(e_logit)]

(10)

esp_loss=ysen·log(sentence_logit)

(11)

(12)

其中,ys和ye分別表示真實答案的起始位置和結束位置的概率向量,ysen為真實的證據句標簽向量,C=4表示問題的類別,yc表示真實的類別標簽,yqc表示模型的預測標簽類別。

本文采用多任務學習的方法,使用硬共享機制,多個任務之間共享輸入層和模型層,通過損失函數實現3個任務的結合,可以通過調整輔助任務的權重參數來控制輔助任務對模型總體性能的影響,從而獲得更好的性能。模型總的損失函數如式(13)所示:

total_loss=mrc_loss+

α*esp_loss+β*qc_loss

(13)

其中,α、β分別為證據句判斷和問題分類任務的損失權重,mrc_loss、esp_loss和qc_loss分別為答案抽取、證據句判斷任務和問題分類任務的損失。

4 實驗設置

4.1 數據集

本文實驗使用DuReader-robust作為訓練集,該數據集是Tang等人[4]在大規模中文閱讀理解數據集Dureader的基礎上針對魯棒性問題進行手工標注構建的,是一個抽取式閱讀理解數據集,其答案為篇章中的一個連續片段。本文在DuReader- robust的訓練集上進行訓練,共14 520條。由于該測試集未公開,使用李燁秋等人[12]在DuReader-robust基礎上構建的過敏感測試集和過穩定測試集,過敏感測試集共2 703條,過穩定測試集共490條。具體信息如表3所示。

Table 3 Dataset information表3 數據集信息

4.2 評價指標

本文實驗的評價指標使用F1值和EM值進行評估。F1值用來計算模型預測結果和標準答案之間的重合率,EM值用于檢測它們之間是否完全匹配。F1值和EM值的計算分別如式(14)和式(15)所示:

(14)

(15)

其中,a′i和a′j分別為預測答案的起始和結束位置,ai和aj分別為標準答案的起始和結束位置。

4.3 基線模型

(1)BERT[3]:基于多層Transformer編碼的深度雙向預訓練模型。該模型通過在大規模語料庫上進行預訓練,獲得了豐富的上下文信息;在預訓練中使用了掩碼語言模型和下一句預測2個無監督任務進行訓練。BERT在多個NLP任務中都有優異表現。

(2)ERNIE1.0[18]:與BERT相比,ERNIE1.0加入了實體級掩碼和短語級的掩碼策略,通過不同的掩蓋策略增強使模型獲得了更多的知識。

(3)ALBERT[20]:ALBERT是在BERT的基礎上,通過參數約簡和句子順序預測任務來改進的預訓練模型,在多個任務上超越了BERT的性能。

(4)RoBERTa-wwm-ext-large[5]:Cui等人[5]使用中文維基百科、新聞、問答等數據訓練了RoBERTa-wwm-ext-large預訓練模型。與BERT相比使用了更大規模的數據,還結合了RoBERTa和BERT-wwm的優點,在預訓練階段沒有采用下一句預測任務,并且使用了全詞掩碼(Whole Word Masking )策略。

4.4 實驗細節

在問題分類中,Dureader-robust數據集中的問題均為實體型問題。經過對數據集進行分析,對事實型問題又進行了進一步的劃分,將問題分為4大類:時間類、數字類(除時間以外)、地址人名類和其他。

主要參數設置:初始學習率為3e-5,字向量維度為 768,隱藏狀態大小為 768,隱藏維度為768,最大輸入長度為256,doc_stride為128。實驗訓練批次大小為32,一共訓練3輪,權重參數α、β均為0.1。

5 實驗結果與分析

5.1 實驗結果

本文模型和基線模型在過敏感測試集和過穩定測試集上的結果如表4所示。從實驗結果可以看出,本文模型對比基線模型在2個測試集上均有性能提升。在過敏感測試集上,F1指標比性能最好的基線模型RoBERTa-wwm-ext-large提高了4%,EM值提升了2.74%。在過穩定測試集上本文模型對比基線模型F1值提高了0.97%,EM值提高了1.63%。說明通過多任務學習,模型的理解能力得到了提升,模型的過敏感性和過穩定性得到了一定的緩解,具有更好的魯棒性。還可以看出,ERNIE1.0和ALBERT對比BERT模型在過敏感測試集和過穩定測試集上的F1值均有提高,原因是由于ERNIE1.0通過加入不同的掩碼策略,捕獲到了更多的詞匯和語義知識,ALBERT通過多個層間參數共享、Embedding分解以及使用句子順序預測替代下一句預測任務,不僅減少了參數,還使得模型性能更好。RoBERTa-wwm-ext-large預訓練模型不僅使用了更大的訓練數據,還結合了多個模型的優點,在3個基線模型中效果最好。

5.2 消融實驗

為了驗證每個輔助任務的有效性,本文進行了消融實驗,在過敏感測試集和過穩定測試集上的消融實驗結果如表5所示??梢钥闯?,本文模型中的2個輔助任務對于提升模型魯棒性均有幫助。除去證據句判斷任務后,模型在過敏感測試集和過穩定測試集上F1值分別下降了2.12%和0.74%,這是由于證據句判斷任務為模型提供了篇章理解,使模型更加關注答案所在句,可以減少魯棒性問題帶來的干擾,尤其是過敏感性問題。而去除問題分類任務,模型在過穩定測試集上的性能顯著下降,F1值下降了約2.45%,說明問題分類任務為模型提供了更多的問題信息,可以輔助模型選擇正確的答案類型,問題分類任務能更好地改善模型的過穩定性。

Table 5 Model ablation experiment results on test sets表5 模型在測試集上的消融實驗結果

5.3 樣例分析

表6給出了2個樣例。在樣例1中,本文模型可以正確識別問題類別并回答正確,而RoBERTa-wwm-ext-large模型回答錯誤。在樣例2中,由于問題與干擾句(下劃線所示句子)高度相似,導致模型從干擾句中抽取了錯誤答案,但本文模型并未受到干擾句的影響,表明本文所提模型具有更好的魯棒性。

Table 6 Comparison of model prediction results表6 模型預測結果對比

6 結束語

本文主要針對閱讀理解模型的過敏感性和過穩定性進行了研究。通過多任務學習的方法,將證據句判斷和問題分類融入到模型中,從問題和篇章2方面增強了模型的理解能力。實驗結果表明,本文模型有效地提高了魯棒性,在過敏感測試集和過穩定測試集上均獲得了比基線模型更好的性能。在未來的工作中,將對魯棒性問題進行更深層次的研究,探索提高魯棒性更有效的方法。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产成人成人一区二区| 性喷潮久久久久久久久| 久久综合色播五月男人的天堂| 亚洲视屏在线观看| 99re这里只有国产中文精品国产精品| 91www在线观看| 亚洲美女视频一区| 国产农村妇女精品一二区| 久久国产精品夜色| 久久综合婷婷| 欧洲欧美人成免费全部视频| 久久久久久久97| 久青草免费在线视频| 成年女人a毛片免费视频| 亚洲无码视频一区二区三区 | 亚洲国产成人自拍| 久久综合激情网| 欧美日韩国产精品综合| 无码日韩精品91超碰| 无码网站免费观看| 国产亚洲高清在线精品99| 91视频首页| 欧美色视频日本| 91精品免费久久久| 国产精品主播| 欧美国产视频| 网友自拍视频精品区| 亚洲欧美日韩高清综合678| 亚洲综合激情另类专区| 国产色爱av资源综合区| 日韩精品无码不卡无码| 午夜综合网| 国产91av在线| 成人一级免费视频| 亚洲 欧美 偷自乱 图片| 九九九国产| 中文字幕亚洲第一| 色综合热无码热国产| 久久6免费视频| 538精品在线观看| 欧美成人午夜在线全部免费| 伊人激情综合网| a级免费视频| 亚洲综合色婷婷| 久久国产高潮流白浆免费观看| 大香伊人久久| 欧美激情第一欧美在线| 人妻精品久久无码区| 国产一区二区三区在线观看免费| 国产精品吹潮在线观看中文| 在线看免费无码av天堂的| 亚洲九九视频| 成人国产精品2021| 亚洲无码高清免费视频亚洲 | 亚洲最猛黑人xxxx黑人猛交| 国产青榴视频在线观看网站| 国产91无毒不卡在线观看| 欧美日韩在线成人| 播五月综合| 爱色欧美亚洲综合图区| 国产极品粉嫩小泬免费看| 成人福利在线看| 在线人成精品免费视频| 免费 国产 无码久久久| 九九九九热精品视频| 国产在线八区| 久久精品丝袜| 亚欧成人无码AV在线播放| 亚洲成A人V欧美综合| 黄色一及毛片| 99久久精品久久久久久婷婷| 色婷婷狠狠干| 99久久精品免费看国产电影| 国产乱肥老妇精品视频| 自拍欧美亚洲| 九色综合视频网| 久久香蕉国产线看观看亚洲片| 伊人网址在线| 国产免费自拍视频| 多人乱p欧美在线观看| 国产噜噜噜| 四虎影视无码永久免费观看|