摘 要:無監督常識問答是利用機器自動生成問答數據來對模型進行訓練的問答模型,目前方法生成的問答數據中存在噪聲數據和問題的難度隨機的問題。提出一種基于課程學習的無監督常識問答模型,首先根據知識生成問答數據集,再對問答數據集進行多樣化評估和流暢性評估,結合兩個評估結果進行數據過濾,去除噪聲數據;最后根據課程學習策略,使用干擾項與正確答案的相似度作為問題難度評估標準,使得模型根據難度等級來進行訓練。在測試任務上具有1.5%~3.5%的準確率提升,證明了該模型在無監督常識問答任務上的有效性。
關鍵詞:無監督常識問答;數據過濾;課程學習;噪聲數據
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2023)06-011-1674-05
doi: 10.19734/j.issn.1001-3695.2022.11.0516
Unsupervised commonsense question-answering model based on curriculum learning
Li Wei, Huang Xianying, Feng Yaru
(College of Computer Science amp; Engineering, Chongqing University of Technology, Chongqing 400054, China)
Abstract:
Unsupervised commonsense question answering is a question answering model that uses the machine to automatically generate question-answering data. There are some problems in the question-answering data generated by current methods, such as noise data and random difficulty of questions. This paper proposed an unsupervised commonsense question-answering model based on curriculum learning. Firstly, it generated a question-answering dataset according to knowledge, then evaluated the diversity and fluency of the question answering dataset, and filtered the data by combining the two evaluation results to remove noise data. Finally, according to the course learning strategy, it used the similarity between the interference item and the correct answer as the difficulty evaluation standard to train the model according to the difficulty level. The accuracy of the test tasks is improved by 1.5%~3.5%, which proves that the model is effective in unsupervised commonsense question-answering tasks.
Key words:unsupervised commonsense question answering; data filtering; curriculum learning; noise data
0 引言
常識是指日常生活中眾所周知的事實型知識。近年來,常識問答已成為自然語言處理中新的研究熱點。目前的常識問答模型主要分為有監督常識問答模型和無監督常識問答模型。其中,有監督常識問答模型使用的訓練數據集由人工生成,數據成本高昂,且會使得模型過于關注訓練數據集中的無意識標簽偏見,進而導致模型在遷移時可能出現嚴重的性能下降問題;無監督常識問答模型使用的訓練數據集全部由機器自動生成,不使用任何與測試任務相關的數據作為訓練數據。因此,機器自動生成的訓練數據集質量決定了無監督常識問答模型的性能。對于如何提高自動生成的數據集質量,研究人員提出了許多不同的方法。Lewis等人[1]首次提出無監督常識問答概念,通過從文檔數據庫中隨機抽取上下文句子來生成數據集。Banerjee等人[2]為使得模型能夠學習到知識三元組不同元素之間的所有關系,使用知識三元組中的不同元素來進行問題生成,其他元素則作為問題答案。為更好地挖掘預訓練模型中的隱藏知識,Dou等人[3]采用了四種不同的翻譯方法來將自然語言式問題轉換為完形填空式問題,并提出一個一致性優化算法來對模型進行優化;Ma等人[4]研究了不同知識庫、不同的問題生成策略以及不同的干擾項生成策略對模型性能的影響,提出了一種新的知識轉換框架來生成問題和候選項。如表1所示,通過遮蔽知識“Pure gold is very soft.”中的“very soft”部分來生成問題,將“very soft”作為正確答案,并為問題隨機生成“Bigger than moon.”和“Essential for human life.”兩個干擾項,正確答案與干擾項共同構成問題的候選項。
然而,使用知識庫來生成的問答數據集中包含大量相似的、不流暢的數據,這些數據對于模型來說都是噪聲數據,不利于模型學習;并且隨機為問題生成多個干擾項的方式會導致生成的問題難度難以有效控制,影響模型學習效果。因此,可以通過設置數據過濾器來過濾問答數據集中的噪聲數據,再使用一種模型學習策略,控制模型學習問題難度的順序,使得模型能夠從問答數據集中學習到更多有效的知識。本文提出一種基于課程學習的無監督常識問答模型(unsupervised commonsense question answering with curriculum learning, CL-UCQA),主要貢獻包括:a)提出一個迭代貪心的多樣性算法來對數據集進行多樣性評估,結合多樣性和流暢度來對生成的數據集進行過濾;b)提出一種根據干擾項與正確答案的相似度來量化問題難度的難度測量器,根據數據集的難度系數劃分難度等級;c)提出一種基于鞏固學習的訓練調度策略,使得模型反復學習難度等級更高的問題,加深了對高難度等級問題的學習效果,推動了模型性能的提升。
1 相關研究
隨著Winogrande[5]、PIQA[6]、CommonsenseQA[7]等不同類型的常識問答數據集的提出,極大地推進了常識問答任務的發展。傳統的有監督常識問答模型通過人工標注數據集來對問答模型進行訓練,然而這樣的數據獲取成本非常高昂。為了減少對人工標注數據的依賴,研究人員提出了無監督常識問答模型,它是一種通過機器自動生成問答數據集,再對RoBERTa[8]等預訓練模型進行微調的常識問答模型。由于機器自動生成的數據集中包含的知識全部來源于知識庫,學者們研究為其引入不同類型的知識庫。Ilievski等人[9]提出一個將ConceptNet[10]和WordNet[11]等七個知識庫融為一體的知識表示模型,得到了一個包含不同類型知識的知識庫CSKG。Ma等人[4]利用CSKG知識庫中的知識來進行數據集生成,實現了當時最先進的模型性能。
為了更好地將知識庫中的知識轉換為問答數據,一些學者采用端到端的神經網絡模型來進行問題生成,如譚紅葉等人[12]提出根據答案和上下文信息來確定與正確答案類型匹配的疑問詞和其他問題相關詞;武愷莉等人[13]結合問題類型來進行問題生成并對重復詞進行懲罰;石航等人[14]提出通過注意力機制將近答案句與問題句進行組合,為模型引入更豐富的語義信息。然而在無監督常識問答任務中,由于需要生成的數據數量較大,采用神經網絡模型會耗費大量時間。一些學者采用基于規則的方法來進行問題生成,如Lewis等人[1]從知識中隨機遮蔽實體或其他名詞短語來生成問題,并將遮蔽部分作為問題的答案;Shwartz等人[15]從原始上下文中選取一句話來生成定義型問題和答案,將其作為原始上下文補充。機器自動生成的數據集中必然存在許多噪聲數據,Pan等人[16]采用預訓練模型對每個數據的流暢性進行評估,過濾掉不流暢的數據,提高生成數據的質量。但這種方法只關注到了數據的流暢性問題,忽略了數據集中存在的知識多樣性問題,生成的數據集中存在大量相似的數據,降低了模型的學習效果。不僅如此,在這些方法中,機器為每個問題隨機生成的多個干擾項的難度不能很好控制,也沒有對模型的學習順序進行合理規劃,不利于模型學習。那么可以采用一種學習策略對模型的學習過程進行優化,使得模型能夠在相同的數據集中學習到更多的知識。
課程學習(curriculum learning, CL)[17]是一種模仿人類課程學習的培訓策略,其核心思想為使模型從簡單的數據開始學習,逐步提高數據難度,直到學習完所有數據。為了增強訓練效果,Spitkovsky等人[18]提出了嬰兒步驟調度策略,不斷將難度更高的數據合并到初始數據集中,促進模型的學習效果。課程學習策略廣泛應用于各類任務,Zhou等人[19]在機器翻譯任務中使用課程學習策略進行學習,提出采用數據的不確定性指標來作為數據的難度劃分;Yang等人[20]將課程學習策略應用于對話情感識別任務中,針對傳統方法不能很好地處理連續對話中情緒發生轉變的情況,提出使用對話中情緒轉變次數作為難度識別器。本文提出一個基于課程學習的無監督常識問答模型,綜合考慮多樣性與流暢性來對數據進行過濾,去除數據集中的噪聲數據,并使用正確答案與干擾項的相似度來劃分數據集的難度等級,基于鞏固學習的思想對不同難度等級的數據進行排列組合,進而對模型的學習過程進行優化。
2 CL-UCQA模型
CL-UCQA模型結構如圖1所示,其中包括問題生成模塊、數據過濾模塊和課程學習模塊。模型通過問題生成模塊生成問答數據集,再使用數據過濾模塊對生成的問答數據集進行過濾,去除其中的噪聲數據,最后通過課程學習模塊對問答數據集進行難度分級,按照一定順序放入模型進行訓練。
2.1 問題生成
2.2 數據過濾
2.3 課程學習
2.4 損失函數
3 實驗結果與分析
對本文模型在五個不同類型的測試任務上進行了大量實驗。實驗參照文獻[4]的流程,首先加載預訓練模型的初始權重,再利用模型生成的問答數據對預訓練模型進行微調,最后對微調后的模型進行測試,得到模型的準確率。實驗在CUDA 11.1和PyTorch 1.8.1的環境中實現了模型的最優性能。
3.1 實驗設置
3.2 評價指標
3.3 測試任務
為了測試CL-UCQA模型的有效性,本文選取了五個不同類型的任務進行測試,其中包括:
a)Abductive NLI(aNLI)[25]任務。該任務是一個自然語言推理任務,任務需要根據事件的開頭和結尾從兩個候選假設中選擇出更符合的假設。
b)CommonsenseQA(CSQA)[5]任務。該任務是一個常識問答任務,問題是基于ConceptNet中的一個子圖來進行生成,并為問題從知識庫中選擇四個其他節點作為問題的干擾項。
c)PhysicalIQA(PIQA)[6]任務。該任務是一個常識問答任務,主要側重于樸素物理常識,需要根據一定的物理常識才能從兩個候選項中選擇出正確的候選項。
d)SocialIQA(SIQA)[26]任務。該任務是一個關系推理任務,每條數據包含一段上下文、一個問題和三個候選項,上下文和問題來自ATOMIC知識庫。
e)WinoGrande(WG)[7]代詞識別任務。該任務是一個代詞識別任務,每條數據包含一段上下文、一個問題和兩個候選項,上下文主要突出代詞信息。
由于CL-UCQA模型是無監督的常識問答模型,模型在訓練過程中沒有使用任何與測試任務相關的數據,所以測試任務的驗證數據集可作為CL-UCQA模型的測試數據集使用,測試數據集的詳細信息如表3所示。
3.4 基線模型
本文選用以下五個無監督常識問答模型作為基線模型與CL-UCQA模型進行比較:
a)RoBERTa-large[8]。該模型采用原始RoBERTa-large模型進行問答測試,沒有使用任何訓練數據進行微調。
b)Self-talk[13]。該模型以GPT-XL模型為基礎,根據原始上下文生成定義型問答數據對模型微調,促使模型從上下文中學習到更多的背景知識。
c)SMLM[2]。該模型以RoBERTa-large為基礎,將非結構化知識轉換為結構化知識,再根據結構化知識生成三個不同的問題,讓模型學習到知識三元組之中可能包含的所有關系。
d)HyKAS-CSKG[4]。該模型以RoBERTa-large為基礎,同時利用五個不同的知識庫進行問題生成,并為每個問題生成兩個干擾項。
e)Zero_shot_cqa[3]。該模型以ALBERT為基礎,將測試任務中的問題轉換為四個不同的完形填空式問題,再使用一致性優化統一四個問題的結果,挖掘出預訓練模型中隱藏的信息。
3.5 實驗結果
經過實驗,各個基線模型的性能與CL-UCQA的性能對比如表4所示,表中的數據結果均為百分比數值。CL-UCQA在考慮了干擾項的信息性和公平性的基礎上,利用多樣性和流暢性對問答數據進行過濾,去除了其中的噪聲數據,再通過基于課程學習的訓練策略,使得模型能夠按照“從易到難”的順序從問答數據中學習,實現了目前最先進的模型效果。在aNLI任務中,CL-UCQA比文獻[4]性能提高了3.5%;在CSQA任務中,CL-UCQA比文獻[4]性能提高了2.5%,比文獻[3]提高了0.6%;在PIQA任務中,CL-UCQA比文獻[4]性能提高了1.5%;在SIQA任務中,CL-UCQA比文獻[4]性能高2.4%,比文獻[3]性能高6%;在WG任務中,CL-UCQA比文獻[4]性能提高了2.3%。為了表明無監督常識問答任務的性能上界,在實驗結果的末尾加入了有監督的RoBERTa-large性能和人類評估的結果。結果顯示,CL-UCQA與有監督的模型依然有較大的差距。
3.6 消融實驗
3.6.1 數據過濾
表5顯示了去除數據過濾策略的結果,結果表明刪除數據集中的噪聲數據可以提升數據集的數據質量,進而提升模型性能。多樣性策略可以在盡可能保留數據集的全部信息的情況下刪除大量相似的數據;流暢度策略根據問題流暢度進行排序,保留流暢度高的問題,刪除不流暢或不自然的問題。將兩種策略相結合,綜合考慮數據的多樣性和流暢性,在保證流暢度盡可能高的情況下保留數據集中更多的信息,有效提升了模型的性能。在aNLI測試任務中,實現了1.7%的性能提高,在五個測試任務中的提升最多,這可能是由于自然語言推理任務更需要高質量的數據,一些噪聲數據會干擾模型對問題的推理,所以去除這些噪聲數據后在aNLI任務中的提升效果最好。
3.6.2 課程學習
表6顯示了去除課程學習策略來對模型進行訓練的結果。實驗結果顯示,單獨使用難度測量器對問題難度進行劃分,而不使用訓練調度器來對數據進行統籌優化的模型在性能有一定的增長,但增長明顯低于使用了訓練調度器的模型,這可能是因為即使學習了簡單難度的問題,學到了一定的基礎知識,但對于難度較高問題的理解學習還是存在一定困難,需要對其進行反復學習才能從中汲取到足夠的知識。采用課程學習策略后,模型性能在五個測試任務中均有不同程度的提高。在aNLI任務中模型性能提升最大,達到了2.4%,說明對于自然語言推理任務而言更需要的是難度適度的問題,這樣模型才能更好地進行推理,并且對于難度較大的問題更需要反復學習,從中學習到推理高難度問題的方法。實驗結果表明,使模型完整地學習一遍問題,再對一些重點難點問題進行多次學習,鞏固學到的舊知識,挖掘隱藏的新知識,確實可以幫助模型從問題中學習到更多的知識,實現模型性能提升,證明了方法的有效性。
3.7 參數分析
通過以下兩組實驗分析參數對模型性能的影響:實驗1分析數據過濾模塊中的參數target_size對模型性能的影響;實驗2分析課程學習模塊中將數據集劃分為數據子集的個數T對模型性能的影響,實驗時參數只改動需要分析的參數,其他參數全部相同。
實驗1 參數target_size對模型性能的影響。將target_size參數分別設置為700 k、600 k、500 k、400 k、300 k,實驗結果如圖3所示。隨著target_size值減小,模型性能得到提高,到達一定峰值后,隨著target_size值繼續減小,模型性能反而降低。這是由于在數據過濾過程中,開始過濾的是噪聲數據,所以隨著噪聲數據的去除,數據質量提高;但當過濾的數據達到一定量以后,就會過濾掉一些不是噪聲的數據,這就會使數據集包含的有效信息減少,進而導致模型性能下降。
實驗2 參數T對模型性能的影響。將參數T分別設置為2、3、4、5,實驗結果如圖4所示。隨著T值的增加,模型性能不斷提升,達到一定閾值后,繼續增加T值,模型性能并不會繼續增加。這是由于經過一定次數的學習后,模型能夠從數據中學到的知識基本已經學習完畢了,單純增加T值,模型性能不會進一步提高。
3.8 案例分析
表7是CSQA測試任務中的一個問題案例,希望模型能夠從五個候選項中選擇出正確答案。由于候選項中存在比較相似的選項,基線模型很難區分,容易選擇到錯誤選項。CL-UCQA通過課程學習策略,對訓練數據集中難度較高的問題多次學習,能夠更好地選出正確答案,表明模型從訓練數據集中學習到了更多、更細微的知識。案例中只有CL-UCQA區分出了“Solitary”和“Solitude”之間的不同,根據問題中提到的“feel”選擇了形容詞“Solitary”當做問題答案。
4 "結束語
無監督常識問答模型是目前常識問答模型的研究熱點,其通過機器自動生成問答數據而不依賴于人工標注的特點,大大降低了常識問答模型的成本。然而現有的無監督常識問答模型存在生成的數據集中包含噪聲數據和問題難度隨機的問題,對此,本文提出的基于課程學習的無監督常識問答模型。首先在生成候選項時考慮干擾項的信息性和公平性;然后通過對生成的問答數據集進行多樣性和流暢性評估來對數據進行過濾;最后提出一種以干擾項與正確答案之間的相似度作為難度測量器的課程學習策略以增強模型對問答數據集的利用效率。多個測試任務上的實驗結果表明該模型能有效提升模型性能。
盡管CL-UCQA在無監督常識問答中取得了不錯的效果,但在課程學習的難度測量器方面對問題難度的測量還是不夠全面,如何更好、更全面地評估問題的難度將是以后繼續提升模型性能的一個研究方向。
參考文獻:
[1]Lewis P,Denoyer L,Riedel S. Unsupervised question answering by cloze translation [C]// Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2019: 4896-4910.
[2]Banerjee P,Baral C.Self-supervised knowledge triplet learning for zero-shot question answering [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2020: 151-162.
[3]Dou Ziyi,Peng Nanyun. Zero-shot commonsense question answering with cloze translation and Consistency Optimization [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press,2022: 10572-10580.
[4]Ma Kaixin,Ilievski F,Francis J,et al."Knowledge-driven data construction for zero-shot evaluation in commonsense question answering [J]. Proceedings of AAAI Conference on Artificial Intelligence,2021,35(15): 13507-13515.
[5]Sakaguchi K,Bras R L,Bhaga6vatula C,et al."WinoGrande: an adversarial winograd schema challenge at scale [J]. Communications of the ACM,2021,64(9): 99-106.
[6]Bisk Y,Zellers R,Le Bras R,et al."PIQA: reasoning about physical commonsense in natural language [J]. Proceedings of AAAI Conference on Artificial Intelligence,2020,34(5): 7432-7439.
[7]Talmor A,Herzig J,Lourie N,et al."CommonsenseQA: a question answering challenge targeting commonsense knowledge [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: Association for Computational Linguistics,2019: 4149-4158.
[8]Liu Yinhan,Ott M,Goyal N,et al."RoBERTa: a robustly optimized BERT pretraining approach [EB/OL]. (2019-07-26). https://arxiv.org/pdf/1907.11692.pdf.
[9]Ilievski F,Szekely P,Cheng Jingwei,et al."Consolidating commonsense knowledge [EB/OL]. (2020-06-22). https://arxiv.org/pdf/2006.06114.pdf.
[10]Speer R,Chin J,Havasi C. ConceptNet 5.5: an open multilingual graph of general knowledge [C]// Proc of AAAI Conference on Artificial Intelligence. 2017: 4444-4451.
[11]Miller G A. WordNet: a lexical database for English [J]. Communications of the ACM,1995,38(11): 39-41.
[12]譚紅葉,孫秀琴,閆真. 基于答案及其上下文信息的問題生成模型 [J]. 中文信息學報,2020,34(5): 74-81. (Tan Hongye,Sun Xiuqin,Yan Zhen. Question generation model based on the answer and its contexts [J]. Journal of Chinese Information Processing,2020,34(5): 74-81. )
[13]武愷莉,朱朦朦,朱鴻雨,等. 結合問題類型及懲罰機制的問題生成 [J]. 中文信息學報,2021,35(4): 110-119. (Wu Kaili,Zhu Mengmeng,Zhu Hongyu,et al. Joint question type and penalty mecha-nism for question generation [J]. Journal of Chinese Information Processing,2021,35(4): 110-119. )
[14]石航,劉瑞芳,劉欣瑜,等. 基于文章和近答案句信息的問題生成模型 [J]. 中文信息學報,2021,35(8): 127-134. (Shi Hang,Liu Ruifang,Liu Xinyu,et al. Question generation based on paragraph and close-answer context [J]. Journal of Chinese Information Processing,2021,35(8): 127-134. )
[15]Shwartz V,West P,Bras R L,et al. Unsupervised commonsense question answering with Self-Talk [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2020: 4615-4629.
[16]Pan Liangming,Chen Wenhu,Xiong Wenhan,et al. Unsupervised multi-hop question answering by question generation [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: Association for Computational Linguistics,2021: 5866-5880.
[17]Bengio Y,Louradour J,Collobert R,et al. Curriculum learning [C]// Proc of the 26th Annual International Conference on Machine Lear-ning,2009: 41-48.
[18]Spitkovsky V,Alshawi H,Jurafsky D. From baby steps to leapfrog: how “less is more” in unsupervised dependency parsing [C]// Proc of Annual Conference of the North American Chapter of the Association for Computational Linguistics,Human Language Technologies.Stroudsburg,PA:Association for Computational Linguistics,2010:751-759.
[19]Zhou Yikai,Yang Baosong,Wong D,et al. Uncertainty-aware curriculum learning for neural machine translation [C]// Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2020: 6934-6944.
[20]Yang Lin,Shen Yi,Mao Yue,et al. Hybrid curriculum learning for emotion recognition in conversation [C]// Proc of the AAAI Confe-rence on Artificial Intelligence. 2022:11595-11603.
[21]Vrandeic' D,Krtzsch M. Wikidata: a free collaborative knowledgebase [J]. Communications of the ACM,2014,57(10): 78-85.
[22]Sap M,Le Bras R,Allaway E,et al. ATOMIC: an atlas of machine commonsense for if-then reasoning [C]// Proc of the AAAI Confe-rence on Artificial Intelligence. 2019: 3027-3035.
[23]Krishna R,Zhu Yuke,Groth O,et al. Visual Genome: connecting language and version using crowdsourced dense image annotations [J]. International Journal of Computer Vision,2017,123(5):32-73.
[24]Robinson F P,Pleasant F. Effective study [M]. 4th ed. New York: Harper amp; Row Press,1970.
[25]Bhagavatula C,Le Bras R,Malaviya C,et al. Abductive commonsense reasoning [EB/OL]. (2020-02-14). https://arxiv.org/pdf/1908.05739.pdf.
[26]Sap M,Rashkin H,Chen D,et al. SocialIQa: commonsense reasoning about social interactions [C]// Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2020: 4463-4473.