基于高困惑樣本對比學習的隱式篇章關系識別

2023-01-18 03:37:50竇祖俊徐旻涵陸煜翔周國棟

中文信息學報 2022年11期

李曉，洪宇，竇祖俊，徐旻涵，陸煜翔，周國棟

(蘇州大學計算機科學與技術學院，江蘇蘇州 215006)

0 引言

篇章關系識別旨在判斷兩個語言單元(子句、從句及文本塊等，簡稱“論元”)之間的語義關系，其核心任務是形成可靠的論元表示和關系感知方法，對語義的深度表示和敏銳感知有著極高的要求。因此，篇章關系識別屬于自然語言處理(NLP)領域底層的關鍵基礎性研究。其對機器翻譯[1]、情感分析[2]、自動文摘[3]和問答系統[4]等NLP應用層研究，有著極高的借鑒甚至輔助作用。

篇章關系識別的處理對象是一個由論元和關系標記形成的三元組{Arg1；R；Arg2}。通常，語序上置前的論元為Arg1，置后的論元為Arg2，關系R為待解的關系標記。面向篇章關系識別研究，賓州篇章樹庫(Penn Discourse Treebank，PDTB)[5]提供了大規模權威的標記數據，其定義的論元關系體系共計包含三層，其中，層次最高的粗粒度關系類別涉及四項，分別為：對比關系(Comparison)、偶然性關系(Contingency)、擴展關系(Expansion)和時序關系(Temporal)。本文繼承前人的主要研究模式，面向四種粗粒度論元關系開展二元和多元分類的研究。

值得注意的是，PDTB根據是否存在連接詞，將篇章關系分為顯式篇章關系和隱式篇章關系。其中，顯式篇章關系在多元分類上的準確率已達到96.02%，而隱式篇章關系的識別的準確率則相去甚遠(1)截至2021年末，現有前沿技術的最優性能維持在70.17%的水平。。下文給出的例1即為一個隱式篇章關系的測試樣本，其可能的連接詞meanwhile(譯文：同時)在真實樣本中為缺省項，模型無法利用連接詞進行直觀的關系預判，僅能通過充分理解、表示和感知論元的語義，促進關系判別器做出正確預測。本文將集中在隱式篇章關系識別這一任務上開展研究。

例1[Arg1]:Valley Federal is currently being examined by regulators

(譯文：聯邦目前正在接受監管機構的審查)

[Arg2]:meanwhilenew loans continue to slow

(譯文：與此同時新貸款繼續放緩)

[篇章關系]：Temporal.Synchrony.

現有基于監督學習的論元關系分類方法，往往受限于訓練樣本數量不足的問題，無法充分發揮其在語義特征編碼和感知層面的優勢。前人[6-7]往往采用數據擴展的方法，彌補可觀測樣本總量的缺口。這類方法能夠引入知識面較寬、特征多樣性較高的外部數據，從而優化監督學習過程，且提升神經網絡模型的健壯性。然而，外部數據不僅包含符合關系分類的高質量樣本，也包含未經校驗且質量偏低的噪聲樣本。使得數據擴展帶來的性能優化存在一定的不確定性(高噪聲數據反而誤導監督學習)。

針對上述問題，本文嘗試將對比學習方法引入論元關系分類模型的訓練過程。對比學習可以在類別標記不可見的情況下，依據訓練樣本本身的屬性，對其在高維語義表示空間上的分布特點進行學習和應用。具體而言，對比學習方法能夠利用樣本間語義屬性的近似性度量，自動探尋相似于目標樣本的實例以及具有較高差異的其他實例，從而有利于監督在學習過程中調整神經網絡模型的內核(即參數矩陣)，使之善于在高維語義表示空間中聚攏相似實例，驅離非相似實例。也因此，對比學習不僅有助于數據稀疏情況下的模型優化，也可與數據擴展相互協作，在保證新增正例的額外監督作用下，降低噪聲的負面影響。基于這一優勢，本文將簡單對比學習(SimpleContrastiveLearning，SimCSE)[8]方法引入論元的語義編碼和關系分類過程。現有研究[8]已證實，SimCSE能夠優化文本的語義編碼，提升正負例樣本在語義表示空間上的劃分。

例2[Arg1]:UAL Corp. is a good example

(譯文： UAL公司就是一個很好的例子)

[Arg2]:becauseValued as a buy-out target, the airline stock was trading at nearly $280 a share

(譯文：因為被估值公司作為收購目標，該航空公司的股票交易價格接近每股280美元)

[篇章關系]:Contingency.Cause.Reason

例3 [Arg1]:Valued as a buy-out target, the airline stock was trading at nearly $280 a share

(譯文：被估值公司作為收購目標，該航空公司的股票交易價格接近每股280美元)

[Arg2]:ThenWhen the deal ran into trouble, the stock tumbled

(譯文：然后當交易陷入困境，該公司股價暴跌)

[篇章關系]： Temporal.Asynchronous.

盡管對比學習方法(如本文引入的SimCSE)具有上述優勢，使其在論元語義編碼的訓練過程中，有著較高的應用價值。但是，觀察發現對比學習在區分困惑負樣本的過程中仍存在不足。然而，PDTB篇章關系分類數據集卻蘊含著困惑度樣本，使得對比學習的直接應用面臨可預見的瓶頸。具體而言，PDTB語料中某些目標關系類的樣本，與非目標關系類的樣本存在較高的語用重疊現象(即用詞的一致性較高)，其構成了高困惑度樣本群。如上述例2和例3所示(假設例2中的論元對屬于目標關系類別，例3的論元對則是非目標關系類別)。觀測發現，例2中Arg2的文本和例3的Arg1有部分語用重疊，使得兩個論元對互為困惑樣本。其“困惑”的根源是: ①樣本之間存在語用重疊現象，兩者在語義上較為相似； ②兩個樣本的關系類別是不同的。在SimCSE中，目標樣本的對比實例來源于批次內的其他樣本，這些對比樣本中困惑樣本的比例較低，使得模型在困惑樣本上的區分度較低。

針對這一問題，本文進一步提出了面向PDTB中高困惑樣本的對比學習(Contrastive Learning with Confused Samples，CL-CFS)優化方法。該方法將有效利用條件變分自編碼器(Conditional Variational Auto Encoder，CVAE)[9]提升對比樣本中高困惑樣本的占比，其核心思想是借助CVAE生成困惑樣本的變種，并將該變種作為目標樣本在對比學習中的對比對象。在CL-CFS方法的訓練中，不斷拉開目標樣本和高困惑樣本在語義表示空間上的距離，從而提高模型對高困惑樣本的辨識能力。在此基礎上，本文采用三元組損失函數(Triplet loss)[10]作為對比學習的損失函數。該損失函數可通過間隔值的設置，過濾語義相似度差異較大的簡單負樣本，增加模型對困惑負樣本的關注度。

本文采用篇章關系分析的公開語料集PDTB進行實驗。實驗結果表明，SimCSE方法獲得優于基線模型的實驗性能，該方法在Comparison、Expansion以及Temporal關系上在F1值上分別取得2.0%、1.45%、4.62%的性能提升。特別地，本文提出的CL-CFS相較于SimCSE方法獲得了進一步的性能提升，其在Comparison、Contingency、Expansion以及Temporal關系上分別取得2.68%、3.77%、1.69%、8.15%的F1值性能提升。總體上，本文的主要貢獻包含如下兩個方面：

(1) 首次將對比學習機制引入面向論元關系分類的研究，并取得了顯著的性能提升。

(2) 根據對比學習的工作原理和PDTB數據的固有性質，開展了適應性研究，研究側重分析現有對比學習方法在高困惑樣本中的缺陷。特別地，提出了CL-CFS方法，充分利用CVAE的變種生成優勢，實現了對比學習對象的遷移。同時，結合對比學習的訓練過程，提高模型在表征高困惑樣本語義上的準確性。

本文組織結構如下: 第1節介紹隱式篇章關系識別的相關工作；第2節介紹基于高困惑樣本對比的學習方法；第3節介紹本文所用的數據集、實驗設置、實驗結果，以及對實驗結果的可解釋分析；第4節總結全文并展望未來工作。

1 相關工作

現有隱式篇章關系識別的研究主要從兩個方向出發：對現有數據集進行擴展和構建較為復雜的分類模型學習論元的表征。其中模型構建分為基于語義特征的傳統機器學習和基于神經網絡的論元表示模型。

1.1 基于數據集擴充的隱式篇章關系識別

語料資源規模小的問題一直是隱式篇章關系識別的研究難點之一，該問題使得模型無法獲得豐富的論元語義特征。研究者們嘗試使用數據擴充的方法來緩解這個問題。

很多研究者按照一定的規則挖掘外部數據資源，嘗試為模型提供更加豐富的語義特征。如Xu等[6]用連接詞匹配外部數據并將擴充數據里的連接詞去掉作為偽隱式語料，同時結合主動學習方法，從偽隱式語料中抽取出信息含量豐富的樣本加入訓練集，提升了模型的分類性能。朱珊珊等[7]以論元向量為線索，從外部數據資源中挖掘出“平行訓練樣本集”。該樣本集在語義和關系上與原始語料是一致的。Varia等[11]通過構建外部數據集擴展語料，并引入詞對卷積，捕獲顯式或隱式關系分類的論元之間的相互作用。

此外，一些研究者在數據擴充上提供了不一樣的思路。基于中英雙語語料中存在的“隱式/顯式不匹配”現象，Wu等[12]從大量中英雙語句子對齊的語料中提取出偽隱式樣本，緩解了隱式篇章關系語料規模較小的問題。Lan等[13]將注意力神經網絡模型集成到一個多任務學習框架中，利用大量未標記數據輔助隱式篇章關系識別。特別地，Dou等[14]在隱式篇章關系識別中使用自監督學習方法，該研究采用CVAE[9]進行數據增強，并聯合注意力機制學習獲得較好的性能提升。

1.2 基于論元表示學習的隱式篇章關系識別

由于外部語料擴展數據的方法面臨數據獲取困難和數據噪聲較多的問題，因此，一些研究采用了新的研究思路，從有限的數據集中學習深層的論元語義表征，為模型提供可靠的分類線索。

1.2.1 基于傳統機器學習獲得論元表征

早期研究工作主要側重于基于語義特征的傳統機器學習模型。如Pitler等[15]以詞對、動詞類型等為分類特征，首次在PDTB的四大關系上取得了不錯的性能。Lin等[16]將上下文、句法結構以及依存結構特征應用于隱式篇章關系識別中。

1.2.2 基于神經網絡的論元表示模型

大量研究表明，神經網絡能更好地挖掘句法和語義信息。如Zhang等[17]提出一種淺層卷積神經網絡，緩解了隱式篇章關系識別中的過擬合問題。Liu等[18]基于卷積神經網絡學習論元的表示，同時融合多任務學習思想，以隱式篇章關系分類為主任務，顯式篇章關系和連接詞分類任務為輔助任務來提升模型的性能。值得注意的是，Qin等[19]提出了一種基于特征模擬的新型連接詞開采方案，建立一個對抗網絡框架，得到近似擴展了連接詞的論元對表示。Bai和Zhao[20]結合不同粒度下的語義表征提高了論元對的表示能力。Dai和Huang[21]構建了段落級神經網絡模型，對篇章單元之間的相互依賴性以及篇章關系的連續性進行建模。Nguyen等[22]在Bai和Zhao[20]的基礎上，采用多任務學習框架同時預測了關系和連接詞，接著將篇章關系和連接詞同時嵌入到相同的空間，并通過映射在兩個預測任務中實現知識遷移。除此之外，Zhang等[23]提出了一種語義圖卷積網絡，首次使用圖形結構來建模論元對的語義交互，在兩個論元的表示上構建交互圖，然后通過圖卷積自動提取深度語義交互信息。Ruan等[24]使用雙通道網絡開發了一個傳播性注意力學習模型。Li等[25]針對注意力學習模型存在權值分布過于平滑的問題，提出基于懲罰注意力權重方差的方法。Liu等[26]使用多視角余弦相似度匹配論元，并融合多頭注意力和門控機制來深入理解論元。

2 基于高困惑樣本的對比學習方法

針對現有模型對論元的語義表征不準確以及對PDTB語料中困惑樣本區分能力較差的問題，本文提出CL-CFS方法，該方法首先構建正負例樣本。其采用CVAE[9]生成高困惑樣本作為目標實例的負樣本，同時基于SimCSE構建正負例樣本。接著，基于CL-CFS的對比損失，使得模型能夠學習到正樣本對之間的共同特征，并不斷區分正負樣本之間的差異。本文的研究結果表明，CL-CFS能夠使得模型在正負例樣本上獲得更加準確且在不同類別樣本上具有差異化的語義表示。

本節首先介紹模型的整體結構，然后對每個模塊的設計思路展開詳細描述，并給出整個模型的訓練方式。

2.1 總體結構

本文提出基于高困惑樣本對比學習的隱式篇章關系識別，圖1是總體模型框架圖。該模型主要分為以下四個部分： ①本文使用RoBERTa模型對輸入的論元對(Arg1和Arg2)進行編碼，獲得論元對融合上下文的編碼表示。②通過本文提出的CL-CFS方法提升模型表征論元語義的準確性，從而獲得更加接近論元真實語義的編碼表示。③將更新后的論元對表示輸入基礎篇章關系分類器，通過全連接層和softmax層進行關系分類。④在實驗中，本文采用損失聯合優化的訓練方式，將對比學習的損失和篇章關系分類的損失相加，進行聯合優化。

圖1 總體模型框架圖

2.2 編碼層

對于隱式篇章關系識別語料中的一個論元對Arg1和Arg2，本文首先通過Byte-PairEncoding將其切分為子詞序列，如式(1)、式(2)所示。

本文使用預訓練模型RoBERTa對論元對進行編碼，模型的輸入X如式(3)所示。輸入X經過RoBERTa模型編碼后輸出的隱狀態向量H如式(4)所示。

2.3 增強高困惑樣本的對比學習方法

對比學習的核心目標是，通過數據增廣方法構建正負樣本，同時訓練一個能較為準確地分辨正負樣本的模型。通過這個模型，使得正樣本對在語義表示空間上的距離更加接近，而正負例樣本之間的距離盡可能遠。基于上述目標，CL-CFS首先構建正負例樣本，樣本構建的過程如圖2所示。接著，利用對比學習的損失使得模型獲得能夠區分正負例樣本的差異化語義表示。

圖2 SimCSE和CL-CFS的樣本構建

2.3.1 SimCSE構建正負樣本

2.3.2 CVAE構建高困惑負樣本

從圖2可以看出，在現有模型的語義表示空間中，高困惑負樣本和對應的正樣本距離較近，使得模型難以分辨。SimCSE的負樣本選自批次內的其他樣本，這些樣本具有較強的隨機性，且高困惑負樣本的比例較低。其中，部分樣本與輸入樣本的標簽相同，強行作為負樣本使得模型難以收斂。此外，隨機選取的負樣本通常和原始樣本在語義上差別很大，使得模型僅能分辨相似度差異很大的樣本。從以上分析可得，基于SimCSE方法的模型在高困惑樣本上的辨別能力較低。

因此，本文提出采用CVAE生成高困惑樣本作為對比學習中目標樣本的負樣本。其中，高困惑樣本有以下兩個特性： ①與原始樣本的標簽不同； ②與原始樣本語義相似。

CVAE采用變分推斷的方式來構建樣本。與VAE不同，CVAE不再是直接從高斯分布p(Z)=N(0,1)中直接采樣，而是從p(Z|Y)中進行采樣，Y是標簽向量。同時，解碼器需要重構的是(Y|R)而不是R。本文將CVAE的編碼器表示為后驗分布qφ(Z|R,Y)，解碼器由生成分布pθ(R|Z)來表示。其中，R是輸入變量，Z是隱變量，φ和θ是學習參數。CVAE訓練中的損失函數如式(7)所示。

其中，第一項是樣本的重構損失，F是指均方誤差。第二項使用的是KL散度，用來度量隱藏向量與結合樣本標簽的單位高斯分布的差異。進一步地，為了優化KL散度，CVAE采用參數重構的技巧，不再產生一個隱藏向量，而是生成兩個向量，分別是均值和標準差向量。在訓練過程中，CVAE通過標簽向量的約束改變隱藏變量的均值，進而控制其采樣的位置，最后控制生成高困惑負樣本。

2.3.3 對比學習正負樣本的差異

在對比學習的訓練中，通過對比學習的損失函數，使得模型不斷學習正負例樣本之間的差異。SimCSE中使用的損失函數是噪聲對比估計(Noise Contrastive Estimation，NCE)[27]，如式(8)所示。

NCE的目標是縮小正樣本對之間的距離，拉大正樣本和負樣本之間的距離。從式(8)可以看出，NCE試圖通過溫度系數來關注困難負例，但其依賴于參數值的設置。因此，NCE并未真正緩解SimCSE方法構建的負樣本有大量噪聲的問題。

因此，本文提出使用Triplet loss[10]作為對比學習訓練中的損失函數，如式(9)～式(12)所示。

其中，δ是樣本之間的cosine相似度，δ1是正樣本對之間的相似度得分，δ2指正負樣本之間相似度得分。γ代表真實的標簽，這里采用無監督的學習方法，因此γ值為1。margin是超參數，其用來設置參與訓練的正負樣本之間的最大得分間隔。

分析式(9)可知，Triplet loss的計算過程是將正例對之間的相似度分數和增強的“高困惑的負樣本”相似度分數進行相減，并將差值與margin(本文設置為0.2)進行對比，當分數差值大于margin值時，損失值為0，大于0且小于margin值時，損失為分數差值。換言之，使用Triplet loss可以將與正樣本語義相似度得分差值很大的簡單負樣本從參與訓練的樣本中篩除。因此，Triplet loss緩解了NCE中出現的簡單負樣本過多導致的模型收斂過快的問題。進一步地，Triplet loss保留大量與正樣本相似度差值較小的困惑負樣本作為對比學習的訓練數據，提高模型對高困惑負樣本的辨識能力。

2.4 分類層

2.5 損失聯合優化

如圖1的模型框架圖所示，本文采用損失聯合優化的訓練方式，將隱式篇章關系分類的損失和基于高困惑樣本對比學習的損失進行聯合優化。通過對比學習獲得更準確的論元語義表征，在此基礎上，共同優化模型的分類損失，使得模型更好地感知論元之間的關系類型。

2.5.1 隱式篇章關系識別的分類損失

基于提升隱式篇章關系的分類能力的目標，我們首先微調RoBERTa模型，獲取輸入論元對的向量表示，接著將論元對的表示輸入全連接層和softmax層后得到輸出的預測概率。然后通過計算預測概率與真實類別標簽之間的交叉熵損失訓練分類模型。交叉熵損失如式(14)所示。

2.5.2 基于高困惑樣本對比學習的損失

為了緩解現有模型在高困惑樣本上語義表示的偏差，本文提出CL-CFS，使用CVAE生成高困惑負樣本，并結合SimCSE生成的正負例樣本，一起應用到對比學習的訓練過程中。

在模型訓練中，CL-CFS采用損失聯合優化的訓練方式，同時優化基于高困惑樣本對比學習中的損失Lt[如式(9)所示]和基于CVAE生成高困惑樣本的損失LC[如式(7)所示]。具體地，在優化CVAE生成高困惑負樣本以增強對比學習數據的迷惑性的同時，聯合優化對比學習的訓練損失，使得構建的正負樣本發揮更多的作用。因此，CL-CFS的損失函數如式(15)所示。

其中，α,β∈(0,1]表示權重參數，其值越大表明任務在訓練中的關注度越高。

2.5.3 損失函數聯合優化

基于高困惑對比學習的隱式篇章關系識別的研究目標是通過CL-CFS方法，使得現有模型獲得更準確的論元語義表示，并將優化后的論元表示輸入分類器，進而感知論元之間的關系。

基于上述訓練目標，本文采用損失聯合優化的訓練方式(如圖1所示)，共同優化隱式篇章關系分類的損失和基于困惑樣本對比學習的損失。因此，整個模型的損失函數如式(16)所示。

其中，LCL-CFS是CL-CFS方法的訓練損失，LClassification是隱式篇章關系分類的損失。在實驗中，通過調節權重參數和將兩者進行融合。

3 實驗

本節介紹實驗中的相關配置，包括使用的數據集、參數設置、實驗設置以及對實驗結果的可解釋性分析。

3.1 實驗數據

本文在PDTB[5]數據集上驗證基于CL-CFS的方法在隱式篇章關系識別中的有效性，為了與前人工作保持一致，本文將Sec 02-20作為訓練集，Sec 00-01作為開發集，Sec 21-22作為測試集，其中，所有樣本的關系類別可能是Comparison(COM.)，Contingency(CON.)，Expansion(EXP.)和Temporal(TEM.)四種關系其中的一種，每種關系在語料中的分布情況如表1所示。

表1 PDTB四大類隱式篇章關系數據分布

從表1中可以看出，PDTB的數據規模較小，同時在各關系類別上的數據分布上不均衡。例如，Expansion關系的樣本數量遠遠超過Temporal的樣本數量。因此，僅僅使用多元關系分類器對所有關系的樣本進行整體評測，會對數據量小的樣本缺少公平性。基于此，本文進一步對每種關系單獨訓練一個二元分類器，對測試樣本中的每個關系類型分別進行評估。本文針對每個關系類別的樣本，隨機抽樣其他關系類別的樣本作為負樣本，從而構建二元分類器的訓練數據。

3.2 實驗設置

為了驗證本文提出的基于高困惑樣本的對比學習方法可以輔助改善隱式篇章關系識別，本文分為五個部分進行對比實驗。

RoBERTa-base(基準系統)對輸入論元對Arg1和Arg2進行分詞，并將分詞結果與特殊分類字符[CLS]和特殊分隔字符[SEP]拼接，共同輸入RoBERTa預訓練模型中，獲得論元對的編碼表示，然后將論元對的表示輸入全連接層進行關系分類。

SimCSE將當前輸入樣本分兩次輸入RoBERTa模型中進行編碼，獲得原始論元對的向量表示以及增強的正樣本表示。接著將當前輸入論元對所在批次的其他樣本作為負樣本。然后，通過對比學習的損失函數NCE進行訓練。

CL-CFS首先，基于CVAE生成高困惑負樣本，然后采用SimCSE的樣本構建方法分別獲得正樣本和批次內的負樣本。進一步地，將構建的正樣本、批次內負樣本以及高困惑負樣本共同作為對比學習的數據。同時，本節實驗在對比學習中采用NCE作為訓練損失函數。

Triplet loss的作用本節實驗分別將SimCSE以及CL-CFS方法中的損失函數NCE替換為Triplet loss，并與使用NCE損失函數的實驗結果進行對比。

CVAE中的條件設置本節實驗為了驗證使用CVAE生成高困惑負樣本時，引入不同的標簽向量作為CVAE的限制條件對實驗結果的影響。該實驗分別設置3組對比實驗： ①無標簽向量(即相當于使用VAE)。②目標關系類別，即與原始樣本標簽相同的標簽向量。③非目標關系類別，即與原始樣本標簽不同的標簽向量。

3.3 參數設置

本文使用RoBERTa-base模型來獲得輸入樣本的向量表示。其中，設置RoBERTa的隱層向量維度d為768，單個論元的最大長度m設置為126。在模型的訓練中，本文的關系分類任務使用交叉熵作為損失函數，并采用基于Adam的批梯度下降法優化模型參數。此外，將批處理大小N(Batch size)設置為8，學習率為5e-6。為了緩解過擬合的問題，模型在每層之后使用了dropout，隨機丟棄的比率設置為0.2。在損失函數NCE損失函數Ls中，溫度系數τ的值是0.05。在Triplet loss損失函數Lt中，margin值設置為0.2。在CL-CFS的訓練過程中，本文聯合優化基于CVAE生成高困惑樣本的損失LC和引入高困惑樣本對比學習中的損失Lt。其中，Lt的損失權重α設置為8，LC的損失權重β設置為0.01。

3.4 實驗結果與分析

3.4.1 總體實驗結果與分析

根據第3.2節的實驗設置，本節將多組對比實驗在PDTB的四大關系類型中的每個二元分類任務上的表現進行驗證。其中，本文采用F1值(F1-score)作為二元分類的評價指標，具體的分類性能結果如表2所示。

表2 對照實驗的性能對比 (單位: %)

表2中的第一組對照實驗(第3～4行)顯示，與RoBERTa-base基準模型進行對比，隱式篇章關系識別聯合SimCSE，并采用NCE作為損失函數的方法，在Comparison、Expansion以及Temporal關系上分別獲得1.23%、0.53%、3.84%的F1值性能提升。但是，在Contingency關系相對基礎模型在F1值上卻下降了0.47%。實驗結果說明，SimCSE在一定程度上改善了現有模型在論元的語義表征能力上的瓶頸。但是，結合SimCSE進行訓練也會給基線模型帶來一定的干擾。進一步地，使用Triplet loss替換NCE損失函數。從實驗結果上看，Triplet loss在對比學習的訓練中的表現是優于NCE損失函數的。相對于NCE，Triplet loss在Comparison、Contingency、Expansion以及Temporal關系上分別獲得1.80%、1.72%、0.92%、1.14%的F1值性能提升。這側面說明了Triplet loss可以通過間隔值margin篩選出更有效的正負樣本對參與模型的訓練，從而提升模型性能。

表2中的第二組對照實驗(第5～6行)，使用本文提出的CL-CFS方法。相較于SimCSE方法，CL-CFS在Comparison、Contingency、Expansion以及Temporal關系上分別獲得1.59%、1.96%、1.53%、1.80%的F1值性能提升。實驗結果說明，基于SimCSE的模型在部分具有迷惑性的樣本上的語義表征能力存在不足。而CL-CFS使用CVAE為原始樣本構建高困惑負樣本，并加入對比學習的數據中，能夠在一定程度上提升現有模型對于論元的語義表征能力。與第一組對照實驗一致，本組實驗使用Triplet loss替換NCE。相較于使用NCE，CL-CFS在F1值上獲得了明顯的性能提升。尤其是Temporal和Contingency，在F1值上相對于基準模型分別提升了7.13%和3.14%。再次驗證了Triplet loss在對比學習中的有效性。

表2中的第三組對照實驗(第7～9行)，首先嘗試不使用限定條件的CVAE生成樣本，接著分別使用目標關系標簽以及非目標關系標簽向量作為CVAE的限定條件來生成高困惑負樣本。從實驗結果可以看出，相較于使用目標關系標簽，采用非目標關系標簽的CVAE在對比學習訓練中的性能表現更好。說明通過限定CVAE中的條件可以在一定程度上控制其生成樣本的類別。同時，與不使用標簽向量作為限制條件相比，使用目標關系標簽會為CL-CFS的訓練帶來負收益，尤其是時序關系，其性能指標相差3.16%。造成這個實驗結果的原因是，在對比學習中，采用與目標關系類別相同的樣本作為目標樣本的負樣本，通常會給模型帶來較大的干擾。

同時，第三組對照進一步說明SimCSE效果較差的原因。SimCSE在負樣本的選取中，使用目標樣本所在批次內的其他樣本作為負樣本。而批次內的樣本很可能存在與目標樣本類別相同的樣本，進而給對比學習的訓練帶來干擾。

3.4.2 與前人實驗結果的對比與分析

本節將CL-CFS與前人的先進模型進行對比，其中涵蓋了PDTB的四種主要關系的四元分類和單個二元分類任務的性能對比。這里采用宏平均F1值(Macro-averagedF1)和準確率(Accuracy)作為四元分類評價指標，具體如表3所示。

表3 CL-CFS與現有先進模型對比結果 (單位: %)

表3展示的實驗結果表明，相較于數據擴充方法的Varia等[11]以及Dou等[14]進行對比，CL-CFS獲得了具有可比性的性能。Varia等利用顯式篇章關系語料進行數據擴充。具體地，Varia等提出聯合學習隱式和顯式關系的詞對和N-gram, 并使用卷積神經網絡來改善隱式篇章關系識別。從表3可以看出，Varia等在Temporal關系上的性能最具優勢。然而，CL-CFS在Temporal上的F1值(表3中*號所示)比Varia等的方法高5.01%。這個對比結果表明，CL-CFS能夠在不依賴外部語料的前提下，從現有語料中挖掘更深層的語義特征。與Dou等提出的方法進行比較，CL-CFS在Comparison，Expansion以及Temporal關系上性能表現更具有優勢，分析可得，Dou等采用CVAE的方法對隱式篇章關系識別的任務進行改進。這樣的方法增強了現有訓練數據語義的豐富性，但是并沒有針對性地解決現有模型在高困惑樣本上辨別度較差的問題。特別地，在Expansion關系上，CL-CFS的性能低于Dou等。分析發現，Dou等的最終實驗在使用CVAE的基礎上，引入了顯式篇章關系語料進行遷移學習，而CL-CFS方法并不依賴于任何外部數據。

Liu等[26]基于論元表示學習的研究方向，取得較優的整體性能。其利用上下文感知多視角融合的方法來提升模型的分類能力。CL-CFS與Liu等在F1值上進行相比，在Contingency和Expansion上分別提升2.99%和1.38%。在Comparison和Temporal關系上，盡管CL-CFS方法低于Liu等的模型性能，但也獲得了非常具有可比性的性能。同時，Liu等的模型比CL-CFS的復雜程度更高。其采用多視角余弦相似度匹配論元，然后將論元對輸入到具有門控單元的多頭交互注意力機制中獲得論元表示，并且對獲得的論元表示使用了卷積操作。而本文通過數據增廣的方法構建正負樣本，并通過對比學習的損失函數進行訓練。模型的復雜度較低，可遷移能力較強。

從表3可以看出，本文也在四元分類任務上與前人先進模型的性能進行對比，其中，本文提出的CL-CFS方法在四元分類任務上獲得了目前最好的實驗性能，其中，Macro-F1值相對SOTA模型提升1.52%，Acc值提升2.1%。

3.5 聯合優化損失的權重設置

如2.4節所述，本文使用損失聯合優化的訓練方式進一步優化CL-CFS方法。一般地，損失聯合優化時，每個損失的權重參數設置會對聯合優化的結果造成影響。因此，本節描述實驗中調節損失權重的細節。同時，本節進一步分析不同的權重參數設置對實驗結果的影響情況。在2.5.2節中提到，本文聯合優化基于高困惑樣本對比學習中的損失Lt[如式(9)所示]和基于CVAE生成高困惑樣本的損失LC[如式(7)所示]。在聯合優化過程中，Lt的權重為α，LC的權重β。本文將LC權重β設置為0.01，Lt的權重為α設置為8。其原因是，Lt和LC的取值范圍在共同優化時應該處于相近的數量級。但是，Lt使用的Triplet loss的取值范圍是0到間隔值(本文設置為0.2)，其數量級遠小于使用均方誤差的LC。因此，基于高困惑樣本對比學習中的損失LC的權重β，其數量級應該遠低于α。同時，本文進一步對α設置了如下幾個數值(分別是1,2,5,8,10)進行對照實驗，具體實驗結果如圖3所示。

圖3 調節損失Lt的權重α

圖3展示了調節對比學習的損失Lt的權重α的過程，并反映了不同的權重α，為模型的性能帶來的變化。其中，橫坐標表示Lt的權重α，縱坐標表示模型的性能評估指標F1值(F1-score)。如圖3所示，權重值α從1開始逐漸增加，模型在隱式篇章關系任務的四大關系上的性能不斷提升，并在α為8時達到峰值。這說明在損失聯合優化中，增大模型在對比學習中關注度可以有效改善模型對論元的語義表征不準確的問題。但是，當α增大為10時，模型的效果開始退化，說明過度關注Lt，可能導致模型的其他任務失衡。

3.6 顯著性檢驗分析

為了檢驗CL-CFS在性能提升上的顯著性，同時排除實驗結果的偶然性。本節進行顯著性檢驗分析[28]。根據對SimCSE和CL-CFS重復進行多次實驗(每組實驗5次)的實驗結果，計算SimCSE和CL-CFS與基準模型RoBERTa在評價指標F1-score上的顯著性得分p值，如表4所示。

表4 顯著性得分(p值)

在顯著性檢驗中，當p值小于閾值時(本文將閾值設置為0.05)，說明兩個模型的實驗結果存在顯著差異，即選取的模型性能提升顯著。且p值越小，效果越優。從表4可以看出，SimCSE在PDTB的四大關系(Comparison、Contingency、Expansion以及Temporal)上計算的p值都小于0.05。同時，本文提出的CL-CFS在PDTB的四大關系數據集上計算的p值比SimCSE方法計算的p值更小。這說明CL-CFS方法相對于SimCSE方法在模型的性能提升上具有更加明顯的優勢。

4 結論

本文針對隱式篇章關系識別任務的研究瓶頸，提出了基于高困惑樣本對比學習的隱式篇章關系識別。在引入SimCSE方法的基礎上，本文提出使用CVAE構建高困惑負樣本，緩解現有模型在與原始樣本語義相似的負樣本上區分能力較差的問題，同時提升了現有模型表征論元對語義的準確性。實驗結果表明，本文提出的CL-CFS方法優于SimCSE。同時，對比目前主流的方法，CL-CFS在擴展關系上以及四元分類性能上優于目前的先進模型，在時序關系上也獲得了與先進模型具有可比的性能。

但是，隱式篇章關系識別的性能離實際應用的標準還有較大的差距，其根本原因是現有語料資源有限，導致微調預訓練模型的訓練方法中無法獲得豐富的語義特征。我們下一步的工作是利用prompt來激發目前應用的微調模型在預訓練模型中“遺忘”掉的知識，分別嘗試手動設計、自動學習的方法來構建prompt的輸入模板。