




















摘 要:基于閱讀理解的智能問答是指同人類一樣首先讓模型閱讀理解相關文本,然后根據模型獲取的文本信息來回答對應問題。預訓練模型RoBERTa-wwm-ext使用抽取原文片段作為問題的回答,但這種方法遇到原文中不存在的答案片段或需要對原文總結后回復這兩種情況時不能很好解決,而使用預訓練模型進行生成式模型訓練,這種生成式回復在一定程度上解決了需要總結原文才能回答的問題。因此,改進了只采用RoBERTa-wwm-ext模型進行抽取答案的方式,在此基礎上融合了基于RAG模型的生成式問答模型,用于回答RoBERTa-wwm-ext等抽取式模型無法處理的問題。同時,吸取了PGN模型的優點,對RAG模型進行改進得到RPGN子模型,可以更好地利用閱讀理解的文章生成合理的答案。由此,提出RPR(RAG、PGN、RoBERTa-wwm-ext)的融合模型,用于同時處理抽取式問題任務和生成式問答任務。
關鍵詞:閱讀理解;智能問答;RoBERTa-wwm-ext;指針生成網絡;RAG;RPGN;RPR
中圖分類號:TP391 文獻標志碼:A
文章編號:1001-3695(2022)03-014-0726-06
doi:10.19734/j.issn.1001-3695.2021.08.0386
作者簡介:王寰(1983-),女,山西聞喜人,高級工程師,博士研究生,主要研究方向為自然語言處理、信息檢索;孫雷(1993-),男,河北永清人,碩士研究生,主要研究方向為智能問答;吳斌(1977-),男,江蘇南京人,碩士,主要研究方向為自然語言處理、信息檢索;劉占亮(1983-),男,河北柏鄉人,高級工程師,碩士,主要研究方向為自然語言處理、信息檢索;張萬通(1997-),男,河南周口人,碩士研究生,主要研究方向為自然語言處理;張爍(1984-),男(通信作者),天津人,中級工程師,碩士,主要研究方向為人工智能(zhangshuo@quesoar.com).
Research on RPR fusion model based on reading comprehension intelligent question answering
Wang Huan1,Sun Lei2,3,Wu Bin2,Liu Zhanliang1,4,Zhang Wantong5,Zhang Shuo2?
(1.School of Information,Renmin University of China,Beijing 100872,China;2.Tianjin Quesoar Intelligent Technology Co.,Ltd.,Tianjin 300350,China;3.School of Information amp; Electrical Engineering,Hebei University of Engineering,Handan Hebei 056038,China;4.Beijing Academy of Artificial Intelligence,Beijing 100084,China;5.College of Intelligence amp; Computing,Tianjin University,Tianjin 300350,China)
Abstract:Intelligent question answering based on reading comprehension refers to letting computers read and comprehend texts like humans,extracts the text information and answers corresponding questions.The pre-training model RoBERTa-wwm-ext uses the extracted original fragments as the answers to the questions,but this method can’t solve the two situations that the answer fragments don’t exist in the original text or need to reply to the original text after summarizing.The pre-training model is used for generative model training,which can solve the problems that need to summarize the original text to a certain extent.Therefore,this paper improved the method of only using RoBERTa-wwm-ext model to extract answers.On this basis,it integrated the generative question answering model based on RAG model to answer questions that could not be handled by Roberta-wwm-ext and other extraction models.At the same time,this paper absorbed the advantages of PGN model,improved RAG model,and obtained RPGN sub model,which could make better use of reading and understanding articles to generate reasonable answers.Therefore,this paper proposed a fusion model of RPR (RAG,PGN,RoBERTa-wwm-ext),which could be used to deal with both extractive question task and generative question answering task at the same time.
Key words:reading comprehension;intelligent question answering;RoBERTa-wwm-ext;PGN;RAG;RPGN;RPR
0 引言
長久以來,智能問答就是自然語言處理中的熱點研究領域,也是一個極具探索性的任務。根據答案的類型,問答任務可以分為范圍預測式(span prediction)和自由回答式(free-form answer)。范圍預測式任務即抽取式問答,需要模型根據問題從給定原本文本中抽取一個合適的范圍的文本片段作為答案。自由回答式任務即生成式問答,該類任務是問答任務中較難的一種。在該類任務中,需要根據給定的問題和候選的文檔或者文檔集合挖掘深層次的上下文語義信息,進而生成問題的最佳答案。鑒于日常遇到的問題任務普遍是這兩類任務的結合,因此,本文的研究對象是包含這兩類任務的復雜數據。
本文受RAG模型啟發,針對基于閱讀理解的智能問答任務,根據RAG(retrieval-augmented generation)、 指針生成網絡(pointer generator network,PGN)和RoBERTa-wwm-ext模型(robustly optimized BERT pretraining approach),提出了一種面向閱讀理解智能問答的RPR(RAG、PGN、RoBERTa-wwm-ext)融合模型。該模型結合了抽取式問答模型和生成式問答模型兩種方案,能夠解決通過抽取式回答問題時不能處理答案不是原文片段的情況,尤其是僅通過原有數據不能回答的情況,提高了閱讀理解模型的適用性。本文處理的數據集來源于哈工大訊飛聯合實驗室(HFL),是一種基于篇章片段抽取的中文法律閱讀理解數據集CJRC。該數據集包含法律案件文章,以及文章相關的問答數據,問答數據中包含可以從文章中抽取答案的問題,也包含不可從文章中抽取答案的問題。本文RPR融合模型在處理數據集時首先利用RoBERTa-wwm-ext預訓練語言模型獲取問題和文檔的向量表示,然后通過構建的RoBERTa-wwm-ext分類器對問題進行分類,分成可抽取回答類問題、是否類問題和不可直接回答類問題。對于抽取回答類問題采用RoBERTa-wwm-ext模型從原文中抽取答案,是否類問題采用分類器,不可直接回答類問題采用RPGN子模型,最終得到各類問題的答案。本文主要貢獻有以下三點:
a)對RAG模型的generator部分進行改進,提出了在融合指針生成網絡的RPGN子模型,該模型較RAG模型生成的答案與原文相關度更高,結果的詞匯更多地來源于原文或相關文檔中,可以回答基于閱讀理解的問題中沒有答案標注的問題。同時,對RAG的encoder部分也進行了優化,使用RoBERTa-wwm-ext做編碼器。
b)抽取式閱讀理解模型僅能回答原文有答案標注的問題,但對于原文沒有答案標注的問題無法回答。生成式問答模型可以回答沒有答案標注的問題,但是對復雜問題的回答準確率不高。本文模型提出一種RPR融合模型框架,融合了抽取式模型和生成式模型兩種模型的優點,能夠同時對有答案標注的問題和沒有答案標注的問題進行回答,能夠全面回復各種問題,增強了問答模型的效果。
c)引用在機器翻譯中用于解決過翻譯和漏翻譯的courage機制,來減少RPGN子模型在生成答案時容易產生重復答案的問題,同時保留原模型生成新詞的能力。
1 相關工作
近年來,自然語言處理的不同子任務中,基于深度學習的模型不斷刷新相關任務的性能記錄[1]。子任務中,機器閱讀理解作為智能問答的關鍵技術則一直被認為是NLP的標志性臨界點,其目標是讓機器同人一樣,可以閱讀并理解文本,回答有關該文本的問題。近年來,基于抽取式問答的模型發展迅速,主要以Match-LSTM、BiDAF以及預訓練模型為代表。
Match-LSTM模型是Wang等人[2]提出的具有代表性的抽取式問答模型,該模型引入單詞級別的權重匹配和信息交互。同時,結合指針網絡預測答案的起始和結束位置。Match-LSTM是最早提出的端到端機器閱讀理解模型,它首先在編碼層采取單方向的長短期記憶網絡(long short-term memory,LSTM)對文章和問題分別進行編碼;然后在Match-LSTM層中計算文章對問題的注意力矩陣,并與原本的詞向量矩陣進行拼接后輸入到一個全新的LSTM層進行二次編碼;之后用一個反向LSTM重復以上操作得到反向的二次編碼向量,從而得到正反兩個方向的語義信息;最后將正反方向的編碼向量進行拼接并輸入到答案預測層中獲得合適的答案。
BiDAF(bi-directional attention flow)[3]是又一經典的抽取式閱讀理解問答模型。它奠定了機器閱讀理解模型的基本設計框架。與Match-LSTM相比,它主要的差異在于以下幾點:a)在詞向量層采用字向量與詞向量的拼接,使得輸入神經網絡的語義信息更加豐富;b)在編碼層使用雙向LSTM同時進行編碼,使文章中每個單詞表示可以包含上下文信息;c)在語義交互層同時使用了問題對文章以及文章對問題的雙向注意力,加深了問題與文章的交互程度,使得文章的二次編碼后的語義信息更加豐富。注意力機制最初在Mnih等人[4]的圖像分類工作中嶄露頭角,其后由Bahdanau等人[5]首先將注意力機制引入了NLP中,并且獲得了更好的效果。自此,注意力機制也成為了處理NLP任務的一種重要建模手段。
2018年,預訓練模型BERT[6]在問答數據集SQuAD1.1[7]和SQuAD2.0[8]上的表現也一舉超越了之前所發布的模型,其中BERTQA[9]模型便是BERT在閱讀理解任務中的一次成功應用。在BERT出現之后,針對BERT中的不同缺點進行改進,又陸續出現了新的預訓練模型。其中,Facebook 發布的RoBERTa(robustly optimized BERT approach)[10,11]預訓練模型最具代表性,它改進了BERT 模型預訓練的方式,使得模型效果進一步提升,在片段抽取式問答任務中效果顯著。此后,哈工大訊飛實驗室結合Whole Word Masking中文詞處理技術及RoBERTa模型發布中文RoBERTa-wwm-ext預訓練模型。
基于seq2seq[12,13]的生成式模型在自然語言處理方向也一直在不斷突破。2020年底,Facebook提出的檢索增強生成的RAG[14]模型讓生成式問答模型迎來了一次前進,它在自由回答式任務上取得了很好的結果。該模型是一種將信息檢索與 seq2seq 生成器結合在一起的端到端可微模型。其中的信息檢索系統是DPR(dense-passage retrieval system)[15],而seq2seq生成器則是使用 BART模型[16]。RAG模型與此前預訓練模型相比,很強的優勢在于其內部知識可以隨著數據的變化直接修改、添加,從而控制知識的取舍,無須浪費時間或算力重新訓練整個模型。
與此同時,基于seq2seq結構的生成式pointer-generator networks[17,18]模型,在無法處理詞匯不足(OOV)和單詞傾向于重復自己的問題上給出了有效的解決方案。對于前者,該模型通過pointer在使用生成模型生成新詞的同時,能夠復制源文章中的詞匯,更加準確;而coverage機制能夠獲取生成內容的信息,以達到減少重復的效果。
本文提出的RPR模型是融合了基于指針生成網絡改進的RPGN子生成模型,以及RPGN子生成模型與RoBERTa-wwm-ext模型融合的智能問答模型,是抽取結合生成式的問答模型,該模型可以很好地解決各種類型的問答任務。
2 任務定義
基于閱讀理解的問答任務可以包含有答案標注的問題、是否類問題以及沒有答案標注的問題,在使用現有的模型對這些問題進行回答時如果僅僅使用抽取式閱讀理解模型并不能回答是否類問題和不可回答問題。而生成式閱讀理解模型(如RAG模型)在包含知識庫的情況下,能夠很好地生成問題的答案,彌補了僅采用抽取式模型的缺點。抽取式模型優點是定位背景知識準確,缺點是回復生硬,缺乏流利性,對于復雜問題回復效果不好。而生成式模型善于生成流利、自然的回復。因此,本文采用抽取結合生成式智能問答模型。當前智能問答任務普遍采用無監督訓練海量語料而得到的強大通用預訓練語言模型,然后通過對模型微調即可應對各種NLP任務,但當數據改變時需要重新進行微調訓練,導致模型應用維護成本較高。本文模型采用融合外部知識庫的方式很好地解決了這一問題。
本文處理的數據集是一種基于篇章片段抽取的中文法律閱讀理解數據集CJRC,也是SMP2019“中國法研杯”中文法律閱讀理解比賽中所使用的數據集。該數據集包含約10 000篇文檔,數據來源于中國裁判文書網,主要包含民事和刑事案件的一審判決書。通過抽取裁判文書的事實描述內容(“經審理查明”或者“原告訴稱”部分),針對事實描述內容標注問題,最終形成約50 000個問答對。該數據集涉及多種問題類型,包括span-extraction(可片段抽取)類問題,即原文中有答案標注的問題、YES/NO類問題和unanswerable類問題即原文沒有答案標注的問題。該數據集文檔長度普遍不少于150個字,文檔具體可分為民事和刑事兩種數據類型,民事更偏向要素類問題,刑事更偏向描述類問題。例如一個農業承包合同糾紛案中,片段抽取型問題有“第三人丈夫曾經承包了多少畝土地?”,對應答案是原文提到的“140畝”;再如是否類問題“雙方協議原告需要承擔費用嗎”,對應答案是從原文中可以生成的答案“No”;而拒答類問題可以是是否類的,也可以是一般問題,比如“被告人洪某是否有投案行為?”“保險的受益人是誰”,這類問題原文中并沒有準確的答案。總體而言,片段抽取類問題和是否類問題的處理已經有較多研究,拒答類問題難度較大,本文模型處理時可以很好地體現生成式模型與抽取式模型融合的有效性,以及應用外部知識庫處理沒有答案標注的問題進行回答的可行性。
3 RPR模型設計
3.1 RPR模型總體結構
本文總體模型結構如圖1所示。
從圖1可以看出,RPR模型首先將問題、原文和外部知識庫進行RoBERTa-wwm-ext編碼表示,然后對問題進行四分類。對于span-extraction(可片段抽取)類問題進入抽取式RoBERTa-wwm-ext模型預測答案的起始位置,然后測試答案置信度。這里設置一個閾值,取答案區間計算時全連接層輸出logits值后進行softmax 的取值,本文根據多次實驗取先驗值0.7效果較好。當置信度達到閾值時,答案直接輸出;當置信度沒有達到閾值時,該問題將進入檢索器中檢索與外部知識庫中相關的文檔,進而通過生成器生成最終答案。對于已經分好的是否類問題直接通過RoBERTa-wwm-ext模型分類任務來生成答案。對于unanswerable類問題,將問題以及外部知識庫輸入到RPGN子模型生成最終答案。
3.2 RPR中的抽取式RoBERTa-wwm-ext子模型
將問題與對應文檔連接起來輸入到編碼層中。本模型編碼層使用RoBERTa-wwm-ext對問題、原文以及外部知識庫統一編碼。RoBERTa-wwm-ext是預訓練語言模型BERT 的改進模型。
語言模型是自然語言處理領域一個比較重要的概念,利用語言模型對客觀事實進行描述后,能夠得到可以利用計算機處理的語言表示。語言模型用來計算任意語言序列a1,a2,…,an出現的概率P(a1,a2,…,an),即
通過傳統的神經網絡語言模型獲取的詞向量是單一固定的,存在無法表示字的多義性等問題。預訓練語言模型很好地解決了這一問題,能夠結合字的上下文內容來表示字。RoBERTa-wwm-ext采用雙向transformer作為編碼器進行特征抽取,能夠獲取到更多的上下文信息,極大程度地提升了語言模型抽取特征的能力。transformer編碼單元包含自注意力機制和前饋神經網絡兩部分。自注意力機制的輸入部分是由來自同一個字的三個不同向量構成的,分別為query向量(Q)、key向量(K)和value向量(V)。通過query向量和key向量相乘來表示輸入部分字向量之間的相似度,記做[QK]T,并通過dk進行縮放,保證得到的結果大小適中。之后經過softmax歸一化操作得到概率分布,進而得到句子中所有詞向量的權重求和表示。這樣得到結合了上下文信息的詞向量,表示更準確。
RoBERTa-wwm-ext的模型基本結構沒有改變,與BERT主要的差異是模型的預訓練方法。具體的不同有以下幾點:
a)利用更多的硬件資源、更多的訓練數據、更大的batch size以及更長的訓練時長。
b)去除了NSP任務。Lample[19]、SpanBERT[20]以及XLNet[21]模型研究表示:下一句預測(next sentence prediction,NSP)任務在有些下游任務中顯得不是特別必要。RoBERTa-wwm-ext移除了NSP loss,改為使用full-sentences和doc-sentences的訓練方式。
c)改用動態掩碼機制。BERT模型在進行數據預處理期間的操作是:對每個序列隨機選15%的tokens進行掩碼,得到掩碼序列,然后進行多輪訓練,在此訓練過程中序列掩碼位置不發生變化;而RoBERTa-wwm-ext使用動態的掩碼規則,即每次需要向模型輸入序列進行訓練時,都會對該序列隨機mask不同的tokens,這樣,對于同一組序列,每次訓練會被mask不同的tokens。模型應用這種不同的掩碼策略,能夠學習更多的語言特征。
d)文本編碼。BPE(byte-pair encoding)方式的編碼可以表征到字符級和詞級別的特征,能夠處理常見片段如“0、1、2、3、…”的抽取和生成,更利于處理各類自然語言處理任務。BERT采用的是character級別的BPE,它首先利用分詞規則對輸入文本進行預處理之后學得,同時其詞匯表大小只有30 k左右;而RoBERTa-wwm-ext采用了更加精細的Byte級別BPE訓練模型,該詞匯表包含約50 k沒有對輸入作任何額外預處理或分詞的單元。本文利用RoBERTa-wwm-ext模型進行文本編碼時,將文檔和問題連接到一起,中間以特殊字符[SEP]隔開,然后輸入到模型中。然后,在文檔和問題的編碼表示輸入到RoBERTa-wwm-ext后得到每個token的編碼表示,之后經過全連接層獲取到每個token作為答案開始位置和終止位置logit值,在經過softmax層序列中每個位置作為開始位置或者結束位置的概率,進而經過數據處理得到最終答案。
3.3 RPR生成式RPGN子模型
3.3.1 RAG模型
原始的RAG模型結構如圖2所示。
從RAG模型的輸入和輸出看,與標準的seq2seq模型很相似。不同的是RAG存在一個中間環節,它在經過編碼器后利用輸入進一步檢索相關文檔,然后將相關文檔輸入到生成器中生成答案,原文中是使用Wikipedia作為檢索的文檔數據源,這里使用外部知識庫作為數據源。就一般模型來說,如果數據變化后就需要重新訓練模型,而RAG模型的一個優點是并不需要重新訓練,只需更改用來檢索的數據源即可。
RAG聯合預訓練的retriever(query encoder+document index)和預訓練的generator,能夠進行端到端的微調。給定輸入x,根據maximum inner product search(MIPS)尋得top K個最相關文檔z。預測最終輸出y的時候將z作為隱變量,給定不同文檔下計算對應的邊緣概率。
同時,RAG有兩個知識來源:
a)以參數形式存儲于seq2seq模型的知識(參數記憶)。
b)用檢索系統召回的語料庫中的知識(非參數記憶)。
由于中間步驟的存在,使得RAG的內部知識能夠被擴展甚至改動。參數記憶由預訓練的seq2seq transformer(具體到文章中是BART)提供,非參數記憶由預訓練的神經檢索器作用于Wikipedia的密集向量索引組成。這兩種知識來源相互補充。對于非參數記憶,RAG利用它來督促seq2seq模型生成準確的序列,這樣就將利用參數數據生成序列的靈活性與檢索模型的可靠性相結合起來。而非參數記憶的利用讓RAG成為擅長處理知識密集型任務的自然語言生成模型。RAG在后期使用融合的形式整合來自所有檢索文檔的知識,這意味著會對每個document-question對作出單獨的預測,進而獲得最后的預測結果。很重要的一點是,這種融合過程能夠讓輸出結果中的錯誤信息反饋給之前的檢索過程,進而提高seq2seq系統的性能。
如果RAG能夠訪問包含正確答案線索的文檔,把這些文檔進行encoder編碼后,在答案中可以生成原文中沒有提到的內容,這樣最終模型生成答案序列的準確度得到提升。另外,當模型檢索到的相關文檔不包含準確答案,也是能夠生成的。
3.3.2 PGN模型
指針生成網絡模型是在原始的sequence-to-sequence模型基礎上構建的,混合了seq2seq和pointer network[22]的模型。PGN模型擁有seq2seq的生成特性和指針網絡的復制特性。PGN結構如圖3所示。
PGN模型結合了基于注意力機制的序列到序列模型和指針網絡(pointer network,PN),它既可以利用指針直接指向生成的詞語,也可以從已有的詞匯表中抽取詞語。當詞wi傳入雙向長短時記憶神經網絡Bi-LSTM(bidirectional long short-trerm memory)編碼器后,生成隱層狀態序列hi。當t時刻,長短時記憶(long short-term memory,LSTM)神經網絡解碼器能夠接收到上一時刻生成的詞向量,獲得解碼序列st。
注意力分布at用來確定t時刻輸出序列字符時,輸入序列中需要關注的字符。計算公式如下:
其中:v、Wh、Ws、battn是通過訓練得到的參數。利用注意力分布對編碼器隱層狀態hi加權求和,得到上下文向量 h*t為
將上下文向量h*t與解碼狀態序列st串聯,通過兩個線性映射,生成當前預測序列在詞典上的分布Pvocab。
3.3.3 RPGN子模型
本文融合指針生成網絡PGN和RAG模型,同時使用基于RoBERTa-wwm-ext改進的PGN模型,最終構造出本文的RPGN子模型,如圖4所示。該模型可用于生成原文未標注答案問題的答案,也可以生成是否類問題的答案。
RPGN子模型修改了RAG模型的encoder部分,使用RoBERTa-wwm-ext模型做encoder;同時在generator階段,RPGN子模型中RoBERTa-PGN是基于指針生成網絡的結構改進。其編碼和解碼過程使用如圖5所示。
在retriever階段,本文將原文和問題同時作為輸入,對應的外部知識庫作為輸出,這樣只將問題作為輸入的方法,模型可以獲得更多有關問題的信息,有助于模型更加準確地找到對應的外部知識。
在generator階段,RoBERTa-PGN模型引入在機器翻譯任務中解決過翻譯和漏翻譯問題的courage機制,解決生成答案的重復問題。
courage機制是將先前時間步的注意力權重加到一起得到覆蓋向量ct,然后用注意力權重決策來影響當前注意力權重的決策,以此來避免在同一位置重復,從而生成文本序列。覆蓋向量 ct的計算公式如下:
其中:t表示時間步;ɑ表示注意力權重。
courage機制用在問答任務中,可以減少生成答案中詞匯重復出現問題,比如在問題“原告的經濟狀況如何”中,不使用courage機制生成的答案為“趙某經濟經濟困難”,而加入該機制之后生成的答案為“趙某經濟困難”。
4 數據描述
數據集來源于哈工大訊飛聯合實驗室(HFL),是一種基于篇章片段抽取的中文法律閱讀理解數據集CJRC。該數據集也是SMP2019“中國法研杯”中文法律閱讀理解比賽中所使用的數據集。該數據集的提出是為促進法律領域相關任務的技術研究,例如要素抽取、問答系統、推薦系統等。以要素抽取為例,傳統的要素抽取需要預定義大量標簽,而由于裁判文書種類以及涉及案由(罪名)的多樣性,使得標簽定義工作比較繁重,通過閱讀理解技術能夠一定程度上避免這個問題。
數據集包含約10 000篇文檔,主要涉及民事一審判決書和刑事一審判決書,數據來源于中國裁判文書網。通過抽取裁判文書的事實描述內容(“經審理查明”或者“原告訴稱”部分),針對事實描述內容標注問題,最終形成約50 000多個問答對。該數據集涉及多種問題類型,包括span-extraction(可片段抽取)類問題41 191條,YES/NO類問題4 409條,以及unanswerable類問題6 400條。表1給出了CJRC數據集示例。
與此同時,針對unanswerable類問題,人工標注的相關外部知識庫和對應答案共1 000條(由于人力資源有限),表2給出示例。
本文首先對數據集中文檔和問題進行了RoBERTa-wwm-ext預訓練模型的編碼表示。然后根據數據集中對應標簽將span-extraction類問題進行RoBERTa-wwm-ext模型微調訓練,使模型可以輸出該類問題答案在原文的初始位置和截止位置;對是否類問題進行RAG模型訓練;對unanswerable類問題進行改進的RPGN子模型訓練,通過從外部知識庫中獲取與問題相對應的資料進而得到僅通過原文本unanswerable類問題的答案。
5 實驗結果與分析
5.1 實驗評價指標
本文在實驗過程中使用了人工評測、F1以及Rouge三個評價指標。人工評測是在應用改進的RPGN子模型回答unanswerable類問題時用到的評價指標,具體是統計通過人工判斷模型所有生成答案的對錯,即計算這些答案的準確率Accartificial,即
Accartificial=ANSWERtrueANSWERall
F1是用于評價算法優劣常用的常用指標,它融合了precision和recall兩個傳統的指標,本文用于計算答案F1的計算方式如下:
對于每個生成的答案:
其中:gold代表標準的答案;pred代表模型預測的答案;InterSec表示重疊字符的個數;f1表示計算所得每個問題的f1值;N表示問題的數量;最終的F1為所有答案的f1取平均值所得。
Rouge評價指標是普遍用于評估摘要、機器翻譯以及閱讀理解模型的指標,主要通過計算和統計模型生成答案和標準答案的公共部分。本文主要用到Rouge-L。
5.2 實驗環境及參數設置
計算機硬件配置如表3所示。開發語言為Python 3.6.8,深度學習框架為PyTorch 1.7.1,系統為Ubuntu 20.04。
5.3 實驗結果
模型首先使用RoBERTa-wwm-ext對數據集問題進行分類,batch-size設定為6,epoch設定為2,學習率設定為3E-5,任務為將問題分成YES/NO類、span-extraction類和unanswerable類問題。首先將unanswerable和answerable類問題及原文輸入到模型中分類,然后對answerable類問題分類,分為YES/NO和span-extraction兩類,分類結果的recall、precision和F1結果如表4所示。
從表4中可以看出,通過使用RoBERTa-wwm-ext模型可以很好地對數據集問題進行分類,為后續抽取式結合生成式問答實驗提供可靠的中間數據。
在進行unanswerable類問題的實驗時,本文進行了RPGN子模型的實驗,把問題和對應的閱讀理解原文進行encoder,當處理YES/NO的問題時,使用MIPS方法取相關度top5的外部文檔,當處理unanswerable問題時,使用MIPS方法取相關度top1和top3外部文檔,同時這里將人工標注的1 000條數據分別取800條、100條、100條作為訓練集、驗證集、測試集和400條、50條、50條作為訓練集、驗證集、測試集兩組數據進行實驗,對應的模型名稱記為RPGN(1000)和RPGN(500),并對實驗結果進行了Rouge-L、F1以及人工測評(ACCartificial)三方面評價。實驗過程中encoder采用雙向LSTM,decoder采用單向LSTM,batch-size設定為10,學習率設定為0.001,實驗結果如表5所示。
可以看出,通過借助外部知識,RPGN子模型基本能回答一大部分unanswerable類問題,表中top1下RPGN(1000)較RPGN(500)的Rouge-L高,而正確率兩者相當。這里可以得到以下結論:a)在一定程度上,隨著數據量的增大,模型效果會更好;b)top3的結果較top1低很多。這是由于retriever階段已經能夠較好地找到相關知識,增加另外兩個不相關的文本,也增加了模型訓練的難度。具體回答例子如表6所示。
在進行YES/NO類問題實驗時,本文在RPGN子模型的retriever階段使用MIPS取top1和top3作為生成式答案輸出,對比實驗為基于RoBERTa-wwm-ext編碼的分類器的分類實驗,實驗結果如表7所示。
從表7可以看出,采用RoBERTa-wwm-ext預訓練模型直接對YES/NO類問題分類的正確率要高于本文生成模型,所以本文針對YES/NO類問題采用RoBERTa-wwm-ext編碼的預訓練下游分類任務來生成答案。在對span-extraction類問題進行智能問答時,本文進行了RoBERTa-wwm-ext預訓練模型抽取式智能問答訓練實驗及相關對比實驗。batch_size統一設置成6,這里設置學習率learning rate為2.5E-5和3.0E-5。具體實驗結果如表8所示。
從表8中數據可以看出,在當前的資源配置下,RoBERTa-wwm-ext模型F1值可以達到80左右,達到了對RoBERT-wwm-exta原論文的復現。另外當learning rate取2.5E-5時,F1較高,說明RoBERT-wwm-exta學習率取此數值時,學習速度適宜,在CJRC數據集上效果更好。
綜合以上實驗,這里統計本文RPR模型和本地實現的對比模型RoBERTa-wwm-ext在CJRC數據集上的表現。由于本文針對unanswerable類問題,而對比模型并沒有處理該類問題,所以這里對比模型在該類問題的準確率設定為0。具體如表9所示。
從表9可以看出,在只處理span-extraction類數據時,RoBERTa-wwm-ext模型的F1值可以達到88.456%,較之前的80.223%提高了8個點,由此可以得到該模型在處理span-extraction類問題時效果更好;另外,由表7實驗結果可知,RoBERTa-wwm-ext模型處理YES/NO類問題效果較RPGN模型要好,所以這里RPR模型也將之作為分類問題處理;與此同時,將RoBERTa-wwm-ext模型處理unanswerable類問題的F1值置0,而RPR模型的F1有25.633%,由之前表5實驗結果的50.12%準確率降到25.633%,主要是由于在進行問題分類時,unanswerable類問題的召回率只有43.944%,所以當分類準確后本模型實驗結果的F1值將能提高很多;最后在處理所有數據時,本文模型經過實驗后,最終的F1值達到了75.400%,F1值提高了近6個點。
最終,通過上述多個實驗可以看出,本文模型對于解決unanswerable類問題表現突出。RPGN模型在處理unanswerable類問題時,Rouge-L達到0.460 1,人工評測準確率達到51.02%,而以往其他模型只是將該類問題識別出即止,不能得到答案。而且,通過實驗也證明了本文的RPR融合模型在解決unanswerable類問題這一方向有所突破。
6 結束語
機器閱讀理解是自然語言處理中一項具有挑戰性的任務。本文針對閱讀理解中各種類型的問題,提出了一種融合抽取式和生成式的RPR融合問答模型。本文基于CJRC數據集進行分析,針對span-extraction類問題(原文有答案標注的問題)、YES/NO類問題(原文沒有答案標注的問題)和unanswerable類問題(原文沒有答案標注的問題),同時吸取了RoBERTa-wwm-ext、PGN、RAG 三種模型的優點,完成原文有答案標注的問題和原文沒有答案標注的問題,即兩類問答任務的處理。RPR融合模型,提供了一種抽取式問答模型與生成式問答模型融合的思路,可以同時完成各類問答任務。基于CJRC數據集上的實驗表明,本文提出的RPR融合模型能夠同時較好地完成抽取式和生成式的兩類問答任務。同時,當前業界并沒有比較好的方法處理閱讀理解中沒有標注答案的問題,多數是進行簡單的類別判斷,本文提出RPGN生成式問答子模型,結合了PGN與RAG模型的優點,對于閱讀理解中沒有標注答案的問題,可以進行一些生成式的回答,得到了有效的實驗效果。但是,由于CJRC數據集對于本文RPR融合模型存在數據不對稱和缺少,外部知識庫問題,并不能最大限度地發揮RPR融合模型的優勢,而且手動添加的外部知識庫缺乏權威性以及數據規模相對較小,也在一定程度上使模型結果受到影響。不過,本文的RPR融合模型設計,為應用于抽取式和生成式混合類問答提供一個很好的思路。同時中文知識庫構建尚不完善,在以后的工作中可以設計構建涉及范圍更加廣泛的知識庫。后續的工作可以在抽取式和生成式兩類問答模型的融合設計上,進一步深入優化模型結構,使自然語言問答模型的能力進一步加強。
參考文獻:
[1]Chen D.Neural reading comprehension and beyond[D].Palo Alto,CA:Stanford University,2018.
[2]Wang Shuohang,Jiang Jing.Machine comprehension using Match-LSTM and answer pointer[EB/OL].(2016-11-07).https://arxiv.org/pdf/160-8.07905.pdf.
[3]Seo M,Kembhavi A,Farhadi,et al.Bidirectional attention flow for machine comprehension[EB/OL].(2018-06-21).https://arxiv.org/pdf/1611.01603.pdf.
[4]Mnih V,Heess N,Graves A.Recurrent models of visual attention[C]//Advances in Neural Information Processing Systems.Cambridge,MA:MIT Press,2014:2204-2212.
[5]Bahdanau D,Cho K,Bengio Y.Neural machine translation by jointly learning to align and translate[EB/OL].(2016-05-19).https://arxiv.org/pdf/1409.0473.pdf.
[6]Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL].(2019-05-24).https://arxiv.org/pdf/1810.04805.pdf.
[7]Rajpurkar P,Zhang J,Lopyrev K,et al.SQuAD:100 000+questions for machine comprehension of text[EB/OL].[2019-12-06].https://arxiv.org/pdf/1606.05250.pdf.
[8]Rajpurkar P,Jia R,Liang P.Know what you don’t know:unanswerable questions for SQuAD[EB/OL].[2019-12-24].https://arxiv.org/pdf/1806.03822.pdf.
[9]Chadha A,Sood R.BERTQA-attention on steroids[EB/OL].(2019-12-14).https://arxiv.org/pdf/1912.10435.pdf.
[10]Kim Y.Convolutional neural networks for sentence classification[C]//Proc of the 19th Conference on Empirical Methods in Natural Language Processing.2014:1746-1751.
[11]Yao Liang,Mao Chengsheng,Luo Yuan.Graph convolutional networks for text classification[C]//Proc of the 33rd AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2019:7370-7377.
[12]Song Ge,Ye Yunming,Du Xiaolin,et al.Short text classification:a survey[J].Journal of Multimedia,2014,9(5):635-643.
[13]Sahami M,Heilman T D.A Web-based kernel function for measuring the similarity of short text snippets[C]//Proc of the 15th International Conference on Association for Computing Machinery.New York:ACM Press,2006:377-386.
[14]Bouaziz A,Dartigues C,Pereira C,et al.Short text classification using semantic random forest[C]//Proc of International Conference on Data Warehousing and Knowledge Discovery.Berlin:Springer,2014:288-299.
[15]Xuan H P,Nguyen M L,Horiguchi S.Learning to classify short and sparse text amp; Web with hidden topics from large-scale data collections[C]//Proc of the 17th International Conference on World Wide Web.New York:ACM Press,2008:91-100.
[16]張忠林,曹婷婷.基于重采樣與特征選擇的不均衡數據分類算法[J].小型微型計算機系統,2020,41(6):209-215.(Zhang Zhonglin,Cao Tingting.Unbalanced data classification algorithm based on resampling and feature selection[J].Journal of Chinese Computer Systems,2020,41(6):209-215.)
[17]Henderson K,Eliassi-Rad T.Applying latent Dirichlet allocation to group discovery in large graphs[C]//Proc of ACM Symposium on Applied Computing.New York:ACM Press,2009:1456-1461.
[18]Lin Zhouhan,Feng Minwei ,Santos C,et al.A structured self-attentive sentence embedding[C]//Proc of International Conference on Lear-ning Representations.2017:1-20.
[19]Bahdanau D,Cho K,Bengio Y.Neural machine translation by jointly learning to align and translate[EB/OL].(2016-05-19).https://arxiv.org/abs/1409.0473.
[20]楊丹浩,吳岳辛,范春曉.一種基于注意力機制的中文短文本關鍵詞提取模型[J].計算機科學,2020,47(1):199-204.(Yang Danhao,Wu Yuexin,Fan Chunxiao.A Chinese short text keyword extraction model based on attention mechanism[J].Computer Science,2020,47(1):199-204.)
[21]Kip F T N,Welling M.Semi-supervised classification with graph con-volutional networks[C]//Proc of International Conference on Learning Representations.2017:36-50.
[22]Mimno D,Wallach H M,Talley E,et al.Optimizing semantic cohe-rence in topic models[C]//Proc of Conference on Empirical Methods in Natural Language Processing,2011:262-272.