基于對比學習思想的多跳問題生成

2023-09-27 01:06:26王紅斌楊何禎旻王燦宇

吉林大學學報(理學版) 2023年5期

王紅斌, 楊何禎旻, 王燦宇

(1. 昆明理工大學信息工程與自動化學院, 昆明 650500;2. 昆明理工大學云南省人工智能重點實驗室, 昆明 650500;3. 昆明理工大學云南省計算機技術應用重點實驗室, 昆明 650500;4. 云南農業大學大數據學院, 昆明 650201)

問題生成(question generation, QG)是與機器閱讀理解(machine reading comprehension, MRC)相關的一個自然語言處理任務[1-2]. 問題生成任務定義為: 給定一個文本描述和答案, 通過文本描述和答案生成內容相關、語序通順的問題. 問題生成可分為單跳問題生成和多跳問題生成. 單跳問題的答案出現在單一文檔中, 且這類問題多數可通過對問題和單一文檔使用關鍵詞匹配的方式進行回答, 目前主流的閱讀理解數據集SQuAD所提供的問題都是單跳問題. 使用單跳問答數據集的訓練模型雖然在單文本閱讀理解任務上表現較好, 但其無法評估需要多步推理能力的多文本閱讀理解任務. 因此, 文獻[3]構建了面向自然語言和多步推理問題的數據集HotpotQA, 該數據集是一個多文檔、多跳推理、標注支持事實的同構數據集. 面向自然語言和多步推理問題的數據集HotpotQA提供了大量的多跳問答數據, 多跳問題的回答則需要定位多個信息來源并建模信息間的關系, 基于這些信息鏈進行多步推理和理解, 更接近于人類的思維. 因此, 本文主要考慮多跳問題生成研究.

現有的神經網絡模型在單跳和多跳問答數據集上都表現較好[4-24], 但這些方法嚴重依賴于大規模的人工標注. 盡管當前有監督學習技術表現較好, 但人工標注大規模的多跳問答訓練數據集成本過高. Pan等[4]提出的無監督多跳問題生成器MQA-QG作為第一個研究無監督多跳問題生成的模型, 初步實現了采用自動生成的多跳問題取代人工標注的多跳問題, 但其效果仍與人工標注的數據集有一定差距, 使用多跳問題生成器MQA-QG自動生成的數據訓練問答QA模型的結果與使用人工標注的數據相比, EM值和F1值分別相差14.5和14.2, 因此還有較大的提升空間. 同時, 多跳問題生成器MQA-QG將兩篇關聯的文本分別生成單跳問題, 再將單跳問題融合生成多個候選多跳問題, 該方法雖然無需標注支持句, 但其生成的候選多跳問題不靈活且質量參差不齊沒有進行有效篩選.

為解決該問題, 本文在生成任務中引入對比學習的思想, 提出基于對比學習思想的多跳問題生成方法, 通過將生成的候選問題與原文本進行對比, 并引入與參考問題的對比損失, 在一定程度上提高了生成問題的質量且無需標注支持句. 同時對生成的多跳問題集進行數據增強, 擴充后的訓練集放入QA模型訓練能得到更好的訓練效果. 將本文方法在多文本同構數據集HotpotQA上進行實驗, 實驗結果表明, 所提出的基于對比學習思想的多跳問題生成方法不需要對支持句進行標注, 只需要一定的參考問題和對應的文檔數據進行訓練, 成功生成并有效篩選了質量較高的多跳問題集, 擴充了原始訓練集, 極大減少了人工標注數據的需求, 在部分機器閱讀理解任務上取得了一定的性能提升.

1 相關工作

1.1 基于規則方法的問題生成

早期的問題生成研究主要采用規則方法, 基于規則的問題生成系統[5]需要人工設計將陳述句轉換為疑問句的復雜規則, 如句法樹轉換模板, 這些方法成功的關鍵取決于將陳述句轉換到疑問句的規則設計是否足夠好, 而轉化規則通常需要設計者具有深厚的語言知識. 為改進純基于規則的系統, Heilman等[6]提出可以使系統生成過量的問題, 然后采用基于監督學習的排序算法對問題質量進行排序, 選出排序最好的; 而監督算法又要求人工設計復雜的特征集, 即使設計出來, 系統所生成的問題也與文檔有較多重疊, 導致生成的問題容易回答. 早期基于規則的方法初步證明了自然語言處理技術可以幫助生成問題從而減少人工勞動. 但由于語言本身的復雜性, 人工發現和歸納出所有的問題規則幾乎是不可能的, 而且規則方法難以擴展, 為某個領域制定的規則通常很難在其他領域快速移植.

1.2 基于深度神經網絡的問題生成

隨著深度學習技術的發展, 基于深度學習的問題生成研究取得了許多成果. 第一種方法是采用序列到序列模型實現問題生成. Bahdanau等[7]提出了一個采用雙向循環神經網絡BiRNN的序列到序列模型, 首次將注意力機制引入到自然語言處理(NLP)領域. Gulcehre等[8]和Gu等[9]引入了復制機制, 將文本中的內容復制到輸出問題中, 強化了輸入與輸出之間的關聯. 融入了復制機制的序列到序列模型, 采用雙向長短時記憶網絡(BiLSTM)編碼器編碼段落, 采用融入復制機制的注意力雙向長短期記憶(LSTM)解碼器生成問題. Du等[10]改進了序列到序列的模型, 編碼端采用了句子級和篇章級的基于注意力機制的雙向LSTM編碼器, 解碼端采用了LSTM. Song等[11]通過在編碼端加入多視角匹配機制, 考慮了答案位置信息與所有文本詞的匹配信息, 豐富的匹配信息可以引導解碼器生成更準確的問題. 第二種方法是基于Transformer模型的問題生成研究, Transformer結構的提出使神經網絡機器翻譯任務取得了重大突破, 性能獲得很大提升. Scialom等[12]提出了使用Transformer模型進行答案無關的文本問題生成任務, 研究人員將Transformer結構同樣應用到了問題生成任務中, 仍可以與復制機制結合, 從而提高文本問題生成任務的性能. 第三種方法是基于預訓練技術的問題生成研究. 該技術從大量的語料中學習自然語言知識, 從而提高下游任務的表現. 其中較常用的是預訓練模型BERT[13], 該模型提出了掩碼訓練的方式訓練語言模型. 在下游任務中, 通過對語言模型的微調即可獲得較好的表現. 后續的研究工作探索了多種不同的預訓練模型, 并將其用于問題生成任務中, 使該任務的性能得到進一步提升. 這類方法的模式為“預訓練-微調”, 且一次預訓練就能利用大量的語料, 微調過程時間更短, 其在文本問題生成領域具有廣闊的應用前景.

1.3 多跳問題生成

近年來, 多跳問題生成研究成為問題生成領域的一個研究熱點. Pan等[4]提出了一個無監督的多跳問答框架MQA-QG, 是一個多跳問題生成器, 使用多跳問題生成器MQA-QG可以從同構或異構的數據集中生成接近人類思維的多跳問答訓練集, 再用生成的訓練集去訓練多跳QA模型可得到更好的結果, 并且極大減少了人工標注數據的需求. 同樣作為問答的數據源, 知識圖譜與無結構的純文本數據源相比, 其優勢主要體現在數據的結構化、精度、關聯度等方面, 結構化的知識圖譜以一種更清晰、更準確的方式表示人類知識, 對于生成更契合實際應用中復雜場景的復雜多跳問題效果更佳. Yu等[14]將知識圖譜和知識推理融入多跳問題生成研究中, 生成的多跳問題需要多個句子或段落的證據進行推理才能回答, 緩解了多跳數據短缺的問題, 并提升了多跳機器閱讀理解的性能. Fei等[15]提出了一個簡單有效的可控生成框架CQG, 保證了問題的復雜性和質量, 同時引入了一種新的基于Transformer的可控解碼器, 以保證關鍵實體出現在問題中. Su等[16]提出的QA4QG使用Transformer結構替代了圖結構, 同時考慮了問答任務對問題生成任務的幫助. Yu等[17]提出了相似的輸入文本表達結構, 其問題形式也相似, 即兩個樣本在文本上共享一個近似表達結構的觀點, 采用元學習提出了一個自適應的多跳問題生成框架. Su等[18]提出了一個問題生成的多跳編碼融合網絡MulQG, 其通過圖卷積網絡(GCN)在多跳中進行上下文編碼, 并通過編碼器推理門進行編碼融合. Gupta等[19]根據上下文中的支持事實生成相關問題, 采用了多任務學習的方式, 并輔以answer-aware支持性事實預測任務指導問題生成. Sachan等[20]使用強Transformer進行多跳問題生成, 同時采用基于圖網絡增強的方法與Transformer模型融合, 使問題生成效果進一步提升.

本文主要考慮多跳問題生成, 提出一個基于對比學習的多跳問題生成模型, 該模型是一個分為生成階段和對比學習打分階段的生成-評估兩階段模型, 生成階段通過執行推理圖生成候選多跳問題, 對比學習打分階段通過一個基于對比學習的無參考問題的候選問題打分模型對候選問題進行打分排序, 并選擇最優的候選問題.

2 方法設計

本文設計的模型是一個生成-評估兩階段模型. 生成階段提取和整合多個輸入源文本的信息生成多個候選多跳問題, 通過執行橋式推理圖和比較式推理圖生成橋式候選多跳問題和比較式候選多跳問題. 對比學習打分階段通過一個基于對比學習思想的無參考問題的候選問題打分模型對候選問題進行打分排序, 并選擇最優的候選問題. 模型如圖1所示.

多跳問題生成的定義為給定多個自然語言文本D={D1,D2,…,Dn}, 其中Di表示輸入的第i個自然語言文本, 目標是生成多跳自然語言問題Q.本文模型定義為給定兩篇原文本〈texti,textj〉和對應的參考問題答案對〈refQ,refA〉, 問題生成模型f的目標是生成候選多跳問題Q=f(texti,textj), 使得對比學習打分模型h給出的分數r=h(Q,refQ)盡可能高.在該過程中, 模型被分解成兩個階段: 生成模型g和對比學習打分模型h, 前者負責生成候選多跳問題集合, 后者負責打分并選擇最優候選多跳問題.

2.1 生成階段

生成階段模型分為兩個類型: 橋式多跳問題生成和比較式多跳問題生成.這兩種類型的問題生成方法基本上涵蓋了數據集HotpotQA的所有問題類型. 生成階段從輸入的兩個相關文本T={ti,tj}中提取、生成、融合相關信息得到候選的多跳問題集.

2.1.1 橋式多跳問題生成

橋式多跳問題生成階段模型g1的輸入為兩個具有共同實體的文本對T={ti,tj}, 生成的多個候選問題{Q1,Q2,…,Qn}=g1(T), 生成模型方案如圖2所示.多數多跳問題會通過橋實體整合信息[25].圖2中: FindBridge模塊表示提取兩個文本的共同橋實體e=f(ti)∩f(tj), 其中f(·)表示實體抽取過程, 使用stanza_nlp工具包識別并提取出兩篇文本共同的橋實體; QGwithAns模塊表示通過第一個文本的內容ti和答案a生成一個簡單的單跳問題q1=QG(ti,a); QGwithEnt模塊表示通過第二個文本tj和提取的橋實體e生成一個簡單的單跳問題q2=QG(tj,e), 其中QG(·)表示單跳問題生成的過程, 該過程使用谷歌的T5預訓練模型進行單跳問題生成[26]; QuesToSent模塊表示將其中一個單跳問題q1轉換為陳述句式s[27]; BridgeBlend模塊表示將轉化為陳述句式的句子s與另一個單跳問題q2融合生成一個復雜的多跳問題Q=BERT-Large(s,q2), 其中BERT-Large[28]表示融合兩個單跳問題的預訓練模型.

2.1.2 比較式多跳問題生成

比較式多跳問題生成階段模型g2的輸入為兩個具有比較屬性的文本對T={ti,tj}, 生成的多個候選問題{Q1,Q2,…,Qn}=g2(T), 生成模型方案如圖3所示.圖3中: FindComEnt模塊表示提取兩篇文本中可以作比較的屬性作為橋實體e1=f(ti)和e2=f(tj), 其中f(·)表示使用stanza_nlp工具包提取可能作為比較屬性的實體, 例如時間、地點、數字等; QGwithAns模塊表示通過第一個文本生成一個簡單的單跳問題q1=T5(ti), QGwithEnt模塊表示通過第二個文本生成一個簡單的單跳問題q2=T5(tj), QGwithAns和QGwithEnt模塊使用谷歌的T5預訓練模型進行單跳問題生成; CompareBlend模塊表示將兩個單跳問題q1和q2融合生成一個比較式多跳問題Q, 此處的兩個單跳問題是關于不同的實體e1和e2的問題.

2.2 對比學習階段

對比學習階段設計為一個基于對比損失的無參考問題的候選問題打分模型h, 模型方案如圖4所示.輸入為兩篇相關的原文本對T={ti,tj}和參考問題refQ以及上一階段生成的候選多跳問題集Qi, 輸出為最優的候選問題Q.針對原文本T={ti,tj}, 一個更好的候選多跳問題Q應該獲得更高的打分, 建立一個評價打分模型h, 其目標是為生成模型g生成的候選問題Qi打分ri, 可表示為

圖4 基于對比學習的無參考問題打分模型Fig.4 Scoring model without reference question based on contrastive learning

ri=h(Qi,T),

(1)

其中h表示打分模型.模型h初始化為預訓練模型RoBERTa[29], 該模型首先分別對候選問題集Qi和原文本T={ti,tj}編碼; 然后計算候選問題與文本內容的余弦相似度, 并將其作為候選問題Qi的無參考問題的打分ri; 最后模型輸出的多跳問題Q為獲得最高分的候選多跳問題, 即

Q=argmaxri,

(2)

其中ri表示第i個候選問題的無參考問題打分.選擇打分最高的問題Q作為最終候選多跳問題, 同時計算參考問題refQ與候選問題Qi的余弦相似度作為候選問題Qi的真實打分si, 期望候選問題Qi的無參考問題打分ri能更接近真實打分si.

不同于其他對比學習工作采用的明確構建正例和負例, 本文模型對比學習階段的對比性體現在參數化模型h(·)評估生成問題的不同質量.在對比學習階段的模型h中引入一個對比損失:

3 實驗

3.1 生成階段

本文實驗采用數據集HotpotQA[3], 其是一個多文檔、多跳推理、標注支持事實的同構數據集. 要回答多跳問題, 需要定位多個信息來源并從中找到最相關的部分, 同時基于這些信息進行多步推理和理解. 數據集HotpotQA包含78 909個橋式多跳問題和18 943個比較式多跳問題, 共97 852個多跳問題. 其中橋式問題分出72 991個問題作為訓練集和5 918個問題作為驗證集, 比較式問題分出17 456個問題作為訓練集和1 487個問題作為驗證集. 每個多跳問題都需要在兩篇標注了支持事實的維基文檔進行推理才能回答. 數據集HotpotQA標注了支持事實, 本文實驗使用無監督的生成方法, 所以只需提取出數據集中的文本內容及對應的問答集作為訓練數據, 無需標注支持句.

實驗采用精確匹配EM和F1值兩個評價指標. EM測量預測結果與基本事實之間精確字符串匹配的百分數,F1是精度和召回率的協調平均值, 即

3.2 實驗設置

實驗中模型分為兩個階段: 生成階段和對比學習打分階段. 在生成階段, 執行多跳問題生成器g(·)生成兩種類型的問題集Qbridge和Qcomparison,Qbridge只包含生成的候選橋式問題,Qcomparison只包含生成的候選比較式問題, 將Qbridge和Qcomparison合并起來作為數據集HotpotQA生成的候選問題集Qhotpot. 在對比學習打分階段, 對于3個候選問題集Qbridge,Qcomparison,Qhotpot, 通過對比學習打分模型h(·)分別挑選出得分最高的問題集并通過數據增強得到Qbge-select,Qcom-select,Qhotpot-select作為最終的訓練集, 實驗數據的信息如下:Qbridge有37 647個問題,Qcomparison有17 455個問題,Qhotpot有55 102個問題,Qbge-select有44 316個問題,Qcom-select有32 126個問題,Qhotpot-select有76 442個問題.

為驗證多跳問題生成能有效提高機器閱讀理解的能力, 對于數據集HotpotQA, 本文采用SpanBERT[30]作為QA模型驗證生成的問題集Qbge-select,Qcom-select,Qhotpot-select對機器閱讀理解任務的效果, 并采用精確匹配EM值和F1值評價效果.

將本文實驗模型分別與1個有監督基線和4個無監督基線模型進行對比. 1個有監督基線模型是將完整的原始數據集HotpotQA放入SpanBERT模型中訓練得到的結果[30]. 4個無監督基線模型分別是: 1) SQuAD-Transfer, 是用數據集SQuAD訓練SpanBERT模型, 然后將其轉換為多跳QA; 2) Bridge-Only, 是只用原始數據集HotpotQA中的橋式數據訓練SpanBERT模型; 3) Comparison-Only, 是只用原始數據集HotpotQA中的比較式數據訓練SpanBERT模型; 4) MQA-QG[4], 是使用多跳問題生成器MQA-QG在數據集HotpotQA上進行多跳問題生成, 然后將生成的數據訓練SpanBERT模型. 將原始數據集HotpotQA中的橋式數據、比較式數據以及全體數據分別與本文模型生成并篩選的數據Qbge-select,Qcom-select,Qhotpot-select相結合, 進行數據增強, 增強后的數據訓練SpanBERT模型與有監督基線模型進行對比. 將本文模型生成并篩選的數據Qbge-select,Qcom-select,Qhotpot-select分別進行數據增強后訓練SpanBERT模型, 并與無監督基線模型進行對比. 實驗的參數設置列于表1.

表1 參數設置Table 1 Parameter settings

實驗設置4個epoch, 每個epoch設為10個step, 圖5為數據集Bridge,Comparison,Total實驗過程的EM和F1值收斂曲線, 橫坐標的0～9表示為第一個epoch, 10～19表示為第二個epoch, 20～29表示為第三個epoch, 30～39表示為第四個epoch, 4個epoch后EM值和F1值趨于平緩.

圖5 實驗過程中EM和F1值的收斂過程Fig.5 Convergence process of EM and F1 values during experimental process

3.3 實驗結果分析

不同模型的實驗結果列于表2. 由表2可見, 對于有監督基線SpanBERT, 本文模型的生成數據和原始數據的組合數據集對于部分機器閱讀理解任務的效果有一定提升, 側面反映了模型擴充的數據集質量較好. 基于有監督的數據集Bridge和Comparison的實驗結果表明, 由于Bridge橋式數據的推理鏈是順序鏈, 需要找到共同的橋實體才能有效關聯兩個文本, 而Comparison對比式數據的推理鏈需要比較兩個實體的同一屬性, 因此二者對于訓練集的數據量有一定要求, 特別是Comparison對比式數據對訓練集的數據量更敏感.

表2 各模型的實驗結果Table 2 Experimental results of each model

對于無監督基線, 本文模型的生成數據Qhotpot-select在機器閱讀理解任務中F1值達到了69.0, 優于4個基線模型(SQuAD-Transfer,Bridge-Only,Comparison-Only,MQA-QG). 在沒有人工標注支持句的弱監督情況下,F1值與有監督基線的差距由14.2縮短到13.8, 證明了本文模型對于生成高質量多跳問題的有效性. Comparison和Total數據的F1值分別超出MQA-QG模型0.9和0.4, 而數據集Bridge的指標沒有超過MQA-QG模型, 說明將候選問題與文本進行對比學習的方式對于捕捉比較式數據集文檔的重要實體屬性語義信息更有效, 進而篩選出質量高的多跳問題.

綜上, 針對獲取大規模的多跳問答訓練數據集耗時耗力的問題, 本文提出了一個分為生成階段和對比學習打分階段的生成-評估兩階段模型, 生成最優候選問題的同時通過數據增強策略, 有效地通過擴充訓練集取得了機器閱讀理解任務上的性能提升. 在多文本同構數據集HotpotQA上的實驗結果表明, 基于對比學習思想的無監督多跳問題生成方法對比了候選問題和源文本, 生成了質量較高的無需人工標注的多跳問題集, 有效擴充并篩選了原始的訓練集, 極大減少了人工標注數據的需求, 同時在機器閱讀理解任務上性能提升較好.