郭江華,苑迎春,2+,王克儉,2,何 晨
(1.河北農(nóng)業(yè)大學(xué) 信息科學(xué)與技術(shù)學(xué)院,河北 保定 071001;2.河北農(nóng)業(yè)大學(xué) 河北省農(nóng)業(yè)大數(shù)據(jù)重點實驗室,河北 保定 071001)
預(yù)訓(xùn)練語言模型BERT(bidirectional encoder representations from transformers)經(jīng)過有監(jiān)督微調(diào)(fine-tune)后展示出了強(qiáng)大的文本表征能力[1]。然而在沒有微調(diào)的情況下,BERT便失去了良好的句嵌入表征能力[2]。模型嵌入表征方面的現(xiàn)有研究表明,大多數(shù)語言模型學(xué)習(xí)到的嵌入在向量空間上的分布并不均勻[3,4]:計算句嵌入時,高頻詞的詞嵌入將會主導(dǎo)句嵌入,難以體現(xiàn)差異性[5];而低頻詞的詞嵌入分布較稀疏,存在表征語義能力較弱的“空洞”[6]。這些問題限制了模型的句嵌入表征能力。
最近的研究表明,對比學(xué)習(xí)(contrastive learning)可以有效提高句嵌入分布的均勻性[5,7]。SimCSE(simple contrastive learning of sentence embeddings)[7]就采用了對比學(xué)習(xí)方法,在無監(jiān)督情況下通過dropout[8]作為數(shù)據(jù)增強(qiáng)方式構(gòu)建正樣本,并采用批內(nèi)負(fù)樣本策略,有效提高了BERT在無監(jiān)督情況下的句嵌入表征能力。然而,無監(jiān)督SimCSE仍有不足之處:一方面它只基于dropout構(gòu)建正樣本,構(gòu)造方式有待豐富;另一方面由于dropout機(jī)制本身帶來的訓(xùn)練與測試的不一致性,模型參數(shù)自由度更高,影響模型的泛化能力[9]。
本文基于無監(jiān)督SimCSE提出無監(jiān)督句嵌入學(xué)習(xí)方法SimCSE-PSER(unsupervised SimCSE combining positive sample enhancement and R-Drop),采用dropout和位置嵌入擾動聯(lián)合作為數(shù)據(jù)增強(qiáng)方法,從而在相同語義下構(gòu)造具有更大差異性的正樣本;并引入R-Drop正則化方法[9],使用KL散度(Kullback-Leibler divergence)對模型生成的句嵌入分布進(jìn)行正則約束,降低模型在訓(xùn)練和預(yù)測時的不一致性。
近年來,無監(jiān)督句嵌入表征研究進(jìn)展迅速。Li等[6]提出BERT-flow模型,通過可逆映射將BERT的向量空間映射到各向同性的標(biāo)準(zhǔn)高斯分布空間;Huang等[10]提出BERT-whitening方法,采用線性變換校正BERT的句嵌入?yún)f(xié)方差矩陣并執(zhí)行降維操作,從而達(dá)到與BERT-flow相近的效果。此類后處理方法雖然提升了句嵌入的表征效果,但是無法對模型本身進(jìn)行調(diào)整,提升空間有限。Zhang等[11]提出IS-BERT模型,對各句的詞嵌入提取n-gram特征作為局部特征,句嵌入作為全局特征,把最大化局部特征與全局特征的互信息作為訓(xùn)練目標(biāo)。但是此方法沒有考慮句嵌入間的分布,影響訓(xùn)練效果。
在無監(jiān)督句子表征研究中,采用對比學(xué)習(xí)的方法表現(xiàn)優(yōu)異。Carlsson等[12]提出無監(jiān)督模型BERT-CT,此方法在訓(xùn)練時使用共享初始參數(shù)的兩個模型對句子對進(jìn)行編碼,將相同句子看作正樣本,不同句子看作負(fù)樣本。但是此方法負(fù)樣本利用率較低,并且在預(yù)測階段僅使用其中一個模型,訓(xùn)練效率不高。Yan等[5]提出ConSERT模型,在模型初始層進(jìn)行數(shù)據(jù)增強(qiáng),對每個句子通過指定數(shù)據(jù)增強(qiáng)方法生成正樣本,將同訓(xùn)練批次內(nèi)的其它樣本作為負(fù)樣本。但是此方法僅在模型單層進(jìn)行數(shù)據(jù)增強(qiáng),正樣本質(zhì)量有待提升。
相比以上方法,Gao等[7]提出的無監(jiān)督SimCSE模型使用預(yù)訓(xùn)練語言模型本身的dropout機(jī)制作為數(shù)據(jù)增強(qiáng)手段構(gòu)造對比學(xué)習(xí)所需正樣本,相對當(dāng)前同類方法性能獲得顯著提升。但是,無監(jiān)督SimCSE仍存在相同語義正樣本差異性不足、采用dropout進(jìn)行數(shù)據(jù)增強(qiáng)帶來訓(xùn)練與預(yù)測階段不一致性的問題。本文的工作將基于無監(jiān)督SimCSE的框架并針對其不足展開。
SimCSE是對比學(xué)習(xí)方法中的一種,在無監(jiān)督情況下采用批內(nèi)負(fù)樣本策略,即將一個樣本同訓(xùn)練批次內(nèi)的其它樣本作為負(fù)樣本;而對于正樣本的構(gòu)建,提出將同一文本兩次通過帶dropout的預(yù)訓(xùn)練語言模型生成正樣本。相比其它無監(jiān)督句嵌入方法,無監(jiān)督SimCSE生成的句嵌入可以在使正樣本彼此之間距離足夠近的同時保留更多的語義信息,從而提高句嵌入的表征質(zhì)量。無監(jiān)督SimCSE的對比學(xué)習(xí)目標(biāo)描述如下:
取句子集合 {xi}mi=1, 設(shè)hzi=fθ(xi,z), 其中z是dro-pout的隨機(jī)掩碼(random mask),hzi是xi在z下通過預(yù)訓(xùn)練語言模型h=fθ(x) 生成的向量表示,則無監(jiān)督SimCSE的損失函數(shù)為
li=-logesim(hzii,hz′ii)/r∑Nj=1esim(hzii,hz′jj)/r
(1)
其中,z和z′是同一樣本兩次通過模型時的不同dropout掩碼;sim(h1,h2) 是h1和h2的余弦相似度;N為訓(xùn)練批次內(nèi)的句子數(shù)。
由式(1)可知,無監(jiān)督SimCSE僅通過dropout構(gòu)造對比學(xué)習(xí)所需正樣本,因此相同語義正樣本的差異性有待提升;另外使用dropout本身會帶來模型在訓(xùn)練與測試階段訓(xùn)練目標(biāo)的不一致性,從而增大模型參數(shù)自由度、降低模型泛化能力。因此本文提出SimCSE-PSER方法,通過BERT模型的dropout機(jī)制和位置嵌入擾動模塊作為數(shù)據(jù)增強(qiáng)方式生成對比學(xué)習(xí)正樣本,并結(jié)合之前僅在有監(jiān)督領(lǐng)域應(yīng)用的R-Drop正則化方法,旨在改善無監(jiān)督SimCSE中以dropout機(jī)制作為數(shù)據(jù)增強(qiáng)方法的正則化效果并降低dropout本身帶來的負(fù)面影響,從而達(dá)到提高模型泛化能力、提高無監(jiān)督句嵌入表征質(zhì)量的目的。
SimCSE-PSER分為兩個主要部分:多擾動BERT句嵌入編碼層和正則化對比損失層。SimCSE-PSER的整體架構(gòu)如圖1所示。

圖1 SimCSE-PSER架構(gòu)
2.2.1 多擾動BERT句嵌入編碼層
在SimCSE-PSER中,同一句子文本將兩次通過多擾動BERT句嵌入編碼層:其中一次將直接輸入帶dropout的BERT模型,并在經(jīng)過平均池化層后轉(zhuǎn)換為對應(yīng)句嵌入;另外一次將首先通過位置嵌入擾動模塊再經(jīng)過相同流程。
在BERT內(nèi)部,句子文本的輸入表征在嵌入層產(chǎn)生,其內(nèi)容為詞嵌入(token embedding)、段嵌入(segment embedding)、位置嵌入(position embedding)相加,如圖2所示[1]。

圖2 BERT嵌入層
其中,詞嵌入為輸入句子文本中各個詞的向量表示;段嵌入表示詞所屬的句子;位置嵌入根據(jù)模型指定的位置標(biāo)識生成,包含每個詞的順序信息。三者相加后的句子輸入表征將通過BERT的編碼器部分,生成包含語義信息的詞嵌入矩陣。
由于BERT基于注意力機(jī)制(attention mechanism),對文本順序不敏感,所以在BERT中模型對于文本順序的感知全部依賴于位置嵌入。由此,SimCSE-PSER在構(gòu)建對比學(xué)習(xí)的正樣本時對兩次輸入BERT模型的句子文本中的其中一個句子進(jìn)行隨機(jī)亂序從而擾動位置嵌入,使BERT在另一文本順序下感知文本,進(jìn)而在盡量不損害文本語義的情況下提供額外的正樣本變化。此時,位置嵌入擾動模塊與BERT模型的dropout機(jī)制會聯(lián)合生成句嵌入。
句子文本經(jīng)過多擾動BERT句嵌入編碼層的流程如下:對于句子文本數(shù)據(jù)集D=(xi)mi=1中的句子文本xi,分別經(jīng)過帶dropout的BERT模型和帶dropout且加入位置嵌入擾動模塊的BERT模型生成詞嵌入矩陣ti、詞嵌入矩陣t+i, 即ti=BERT1(xi,z),t+i=BERT2(xi,z′)。 其中,ti,t+i∈L×D,z和z′分別代表BERT模型的dropout掩碼,L代表句子長度,D代表詞嵌入維數(shù)。之后,ti和t+i通過平均池化層生成句嵌入si、s+i。
2.2.2 正則化對比損失層
對于無監(jiān)督SimCSE,dropout是其核心內(nèi)容。作為一種正則化方法,dropout在模型訓(xùn)練時隨機(jī)丟棄一部分的神經(jīng)元以防止模型過擬合。然而,由于dropout丟棄神經(jīng)元的操作,每次丟棄后被訓(xùn)練的模型都可以看作不同的子模型,因此使用dropout訓(xùn)練的模型具有參數(shù)自由度大、訓(xùn)練和測試階段不一致等問題,影響dropout的正則化效果。為了避免無監(jiān)督SimCSE中dropout機(jī)制帶來的負(fù)面影響,本文在正則化對比損失層向損失函數(shù)引入R-Drop正則化方法,使si、s+i的分布盡量一致。
訓(xùn)練中,SimCSE-PSER每次迭代都會從句子文本數(shù)據(jù)集D中隨機(jī)抽取N個句子文本組成訓(xùn)練批次,生成2N個句嵌入。這樣,在一個訓(xùn)練批次中每個樣本有1個正樣本和N-1個負(fù)樣本。與SimCSE相同,SimCSE-PSER采用Chen等[13]提出的對比損失,即使用交叉熵(cross entropy)作為基礎(chǔ)損失函數(shù)[14]
L′i=-logexpsim(si,s+i)/r∑Nj=1expsim(si,s+j)/r
(2)
其中,sim為相似度函數(shù),此處為余弦相似度;r為溫度超參數(shù)。
對于每批訓(xùn)練樣本,R-Drop(regularized dropout)[9]最小化兩個dropout產(chǎn)生的不同子模型的輸出分布之間的雙向KL散度,使子模型之間輸出分布一致,從而減少了使用dropout時模型在訓(xùn)練與測試階段的不一致性。R-Drop之前僅在有監(jiān)督領(lǐng)域應(yīng)用,本文將其擴(kuò)展引入無監(jiān)督領(lǐng)域。R-Drop的描述如下:
給定訓(xùn)練數(shù)據(jù)集D=(xi,yi)ni=1, 訓(xùn)練目標(biāo)為學(xué)習(xí)一個模型Pw(y|x), 其中n為訓(xùn)練樣本數(shù),(xi,yi) 是標(biāo)記的數(shù)據(jù)對,xi是輸入數(shù)據(jù),yi是標(biāo)簽。假設(shè)學(xué)習(xí)目標(biāo)為最小化負(fù)對數(shù)似然(negative log-likelihood)損失函數(shù),則對每個輸入數(shù)據(jù)xi進(jìn)行兩次神經(jīng)網(wǎng)絡(luò)前向傳播,從而獲得模型預(yù)測的兩個輸出分布Pw1(yi|xi)、Pw2(yi|xi)。 此時負(fù)對數(shù)似然損失函數(shù)應(yīng)為
LiNLL=-logPw1(yi|xi)-logPw2(yi|xi)
(3)
之后,R-Drop最小化兩個輸出分布之間的雙向KL散度。設(shè)DKL(P1‖P2) 為P1、P2兩個分布之間的KL散度,則
LiKL=12[DKL(Pw1(yi|xi)‖Pw2(yi|xi))+
DKL(Pw2(yi|xi)‖Pw1(yi|xi))]
(4)
設(shè)α為控制LiKL的權(quán)重超參數(shù),則最終的損失函數(shù)為
Li=LiNLL+α·LiKL
(5)
在SimCSE-PSER中,R-Drop正則項應(yīng)為
L″i=12[DKL(si‖s+i)+DKL(s+i‖si)]
(6)
最后,將式(2)和式(6)加權(quán)求和,最終的損失函數(shù)為
Li=L′i+α·L″i
(7)
其中,α為權(quán)重超參數(shù)。

由于實驗采用無監(jiān)督方式,所以訓(xùn)練時僅使用各數(shù)據(jù)集的訓(xùn)練集部分的第一個句子文本。不使用第二句子文本的原因是:防止在采用批內(nèi)負(fù)樣本策略的對比學(xué)習(xí)方法上訓(xùn)練時抽取的同訓(xùn)練批次樣本中出現(xiàn)語義相同樣本,從而錯誤的在向量空間推開正樣本。
本文采用斯皮爾曼相關(guān)系數(shù)(Spearman’s rank correlation coefficient)作為語義文本相似度任務(wù)的評價指標(biāo),它將用于表示模型在數(shù)據(jù)集上對句子對的余弦相似度(cosine similarity)計算結(jié)果與數(shù)據(jù)集標(biāo)簽之間的相關(guān)性。對于數(shù)據(jù)集中一個句子對,模型生成對應(yīng)的句嵌入對為(A,B),則它們的余弦相似度為
cos(θ)=∑ni=1Ai×Bi∑ni=1(Ai)2×∑ni=1(Bi)2
(8)
其中,n為向量的維度。余弦相似度的值域為[-1,1]。
若X和Y分別為數(shù)據(jù)集文本對應(yīng)的句嵌入表示之間的余弦相似度數(shù)列和對應(yīng)標(biāo)簽的數(shù)列,則它們的斯皮爾曼相關(guān)系數(shù)為
ρs=1-6∑ni=1d2in(n2-1)
(9)
其中,di為Xi,Yi升序排序后的名次之差,即di=rg(Xi)-rg(Yi)。n為兩組數(shù)據(jù)的數(shù)據(jù)對個數(shù)。
斯皮爾曼相關(guān)系數(shù)的值域為(-1,1],等于0時代表兩組數(shù)據(jù)沒有相關(guān)性,越接近1代表兩組數(shù)據(jù)越正相關(guān),越接近-1代表兩組數(shù)據(jù)越負(fù)相關(guān)。
實驗中的所有無監(jiān)督句嵌入方法都將基于Google發(fā)布的中文BERT-Base模型,采用平均池化生成句嵌入。由于實驗在中文領(lǐng)域進(jìn)行,以下各無監(jiān)督句嵌入方法的參數(shù)經(jīng)過測試調(diào)整為在中文語義文本相似度任務(wù)中表現(xiàn)最佳的組合。本文實驗中各無監(jiān)督句嵌入方法參數(shù)設(shè)置見表1。

表1 各個無監(jiān)督句嵌入學(xué)習(xí)方法的參數(shù)設(shè)置
由于Chinese-STS-B數(shù)據(jù)集樣本數(shù)量偏少,訓(xùn)練輪數(shù)(epoch)將被設(shè)置為10,其它數(shù)據(jù)集的訓(xùn)練輪數(shù)設(shè)置為1。
本文表格中的數(shù)據(jù)皆為計算斯皮爾曼相關(guān)系數(shù)5次后取平均值。為了符合閱讀習(xí)慣,表格中的斯皮爾曼相關(guān)系數(shù)都將乘以100表示,并省略小數(shù)點后兩位的數(shù)字,最優(yōu)數(shù)據(jù)將加粗表示。表2為SimCSE-PSER與其它無監(jiān)督句嵌入學(xué)習(xí)方法的對比實驗結(jié)果。

表2 SimCSE-PSER與其它無監(jiān)督句嵌入學(xué)習(xí)方法的對比
根據(jù)實驗結(jié)果可以看到:
(1)采用對比學(xué)習(xí)策略的BERT-CT、ConSERT、SimCSE和SimCSE-PSER在幾個數(shù)據(jù)集上的表現(xiàn)都明顯優(yōu)于原始的無微調(diào)BERT和僅進(jìn)行后處理的BERT-whitening。
(2)在采用對比學(xué)習(xí)策略的無監(jiān)督句嵌入方法中,BERT-CT的表現(xiàn)略低于其它方法。這可能是因為其它對比學(xué)習(xí)方法采用的批內(nèi)負(fù)樣本策略比BERT-CT的負(fù)樣本策略能提供更強(qiáng)的訓(xùn)練信號;而且BERT-CT采用兩個獨(dú)立的編碼器,對于相同文本的表征可能造成較大的偏差。ConSERT、SimCSE和SimCSE-PSER都采用了單編碼器結(jié)構(gòu)和批內(nèi)負(fù)樣本策略,因此整體上結(jié)果優(yōu)于BERT-CT。
(3)作為曾經(jīng)在英文無監(jiān)督語義文本相似度任務(wù)上表現(xiàn)最好的方法,SimCSE在中文任務(wù)上同樣表現(xiàn)優(yōu)異。在對比實驗中,SimCSE取得了現(xiàn)有主流無監(jiān)督句嵌入學(xué)習(xí)方法中最高的平均斯皮爾曼相關(guān)系數(shù),驗證了此方法在中文領(lǐng)域的有效性和泛用性。
(4)不管是在通用領(lǐng)域的數(shù)據(jù)集LCQMC、Chinese-STS-B上還是特定領(lǐng)域的數(shù)據(jù)集The BQ Corpus、AFQMC上,SimCSE-PSER相對于SimCSE均有提升。其中,SimCSE-PSER在通用領(lǐng)域的數(shù)據(jù)集LCQMC、Chinese-STS-B上相對于SimCSE提升較大,平均提升1.335;在銀行金融領(lǐng)域的數(shù)據(jù)集The BQ Corpus、AFQMC上相對SimCSE提升較小,平均提升0.3。由于Google發(fā)布的中文BERT模型僅在中文維基語料上進(jìn)行訓(xùn)練,未學(xué)習(xí)到銀行金融領(lǐng)域的語義信息,所以可以推斷:在模型已學(xué)習(xí)到語義信息的情況下,SimCSE-PSER能更好提升模型的句嵌入表征效果。
(5)相比于其它的無監(jiān)督句嵌入方法,SimCSE-PSER在4個數(shù)據(jù)集上的斯皮爾曼相關(guān)系數(shù)均為最優(yōu),在Chinese-STS-B數(shù)據(jù)集上的結(jié)果最高達(dá)到了72.76。相比之前表現(xiàn)最好的方法SimCSE,SimCSE-PSER在單個數(shù)據(jù)集上最大提升了2.04,提升率約為2.9%;在4個數(shù)據(jù)集上平均提升了0.82,平均提升率約為1.5%,表明了改進(jìn)策略的有效性。
本節(jié)對所提方法進(jìn)行了消融實驗,以探究SimCSE-PSER各個組成部分的有效性。表3為對SimCSE-PSER中位置嵌入擾動和R-Drop兩個部分的消融實驗結(jié)果。

表3 SimCSE-PSER的消融實驗
從表中結(jié)果可以看出:
(1)即使SimCSE在已經(jīng)有dropout作為數(shù)據(jù)增強(qiáng)方法生成正樣本時,單獨(dú)加入位置嵌入擾動或R-Drop正則化方法后結(jié)果仍有提升。這表明SimCSE-PSER引入的位置嵌入擾動和R-Drop正則化方法可以有效彌補(bǔ)無監(jiān)督SimCSE使用dropout作為數(shù)據(jù)增強(qiáng)手段在正樣本構(gòu)造方面和dropout本身的不足,提升了正則化效果,從而提高BERT模型在無監(jiān)督情況下的句嵌入表征質(zhì)量。
(2)對比位置嵌入擾動和R-Drop正則化方法,加入位置嵌入擾動在3個數(shù)據(jù)集上的結(jié)果優(yōu)于僅加入R-Drop的情況。可見,加入位置嵌入擾動可以在不損害文本語義信息的情況下有效增強(qiáng)正樣本多樣性,進(jìn)而提升原方法正則化效果;并且dropout作為數(shù)據(jù)增強(qiáng)手段在構(gòu)造正樣本方面的提升空間相對較大。
(3)SimCSE-PSER在4個數(shù)據(jù)集上的平均斯皮爾曼相關(guān)系數(shù)達(dá)到最優(yōu),并在通用數(shù)據(jù)集LCQMC、Chinese-STS-B上取得了最好結(jié)果,說明位置嵌入擾動和R-Drop正則化方法的結(jié)合能夠更好地提升句嵌入的表征質(zhì)量。
本節(jié)主要對比采用批內(nèi)負(fù)樣本策略的對比學(xué)習(xí)方法,即SimCSE-PSER、SimCSE和ConSERT。圖3為3種對比學(xué)習(xí)方法在LCQMC、Chinese-STS-B、The BQ Corpus、AFQMC這4個數(shù)據(jù)集上訓(xùn)練時驗證集的評估曲線。

圖3 3種學(xué)習(xí)方法在4個數(shù)據(jù)集上的評估曲線
可以看到,在4個數(shù)據(jù)集的驗證集上采用批內(nèi)負(fù)樣本策略的3個對比學(xué)習(xí)方法都在較少的訓(xùn)練步數(shù)下達(dá)到最大斯皮爾曼相關(guān)系數(shù),其中在LCQMC、The BQ Corpus、AFQMC的驗證集上的SimCSE-PSER的最大斯皮爾曼相關(guān)系數(shù)大于其它兩個方法。此結(jié)果表明,采用批內(nèi)負(fù)樣本策略的對比學(xué)習(xí)方法具有優(yōu)秀的小樣本學(xué)習(xí)能力,且本文方法SimCSE-PSER的小樣本學(xué)習(xí)能力更強(qiáng)。因此對于實際生產(chǎn)環(huán)境中文本數(shù)據(jù)時常稀缺的情況,SimCSE-PSER具有更高的實際應(yīng)用價值。
值得一提的是,在Chinese-STS-B的驗證集上ConSERT的最大斯皮爾曼相關(guān)系數(shù)略微高于SimCSE-PSER和SimCSE,但是在測試集上的結(jié)果卻高于SimCSE且低于SimCSE-PSER。可見,SimCSE-PSER加入的改進(jìn)帶來了更好的正則化效果,因此相比其它兩種方法防過擬合能力更強(qiáng),擁有更強(qiáng)的泛化能力。
從圖中還可看出,采用批內(nèi)負(fù)樣本策略的對比學(xué)習(xí)方法過度訓(xùn)練后會使句嵌入表征效果下降。這可能是采用批內(nèi)負(fù)樣本策略的對比學(xué)習(xí)訓(xùn)練目標(biāo)造成的:在向量空間中拉近各樣本與正樣本之間的距離,推遠(yuǎn)與批內(nèi)負(fù)樣本之間的距離。這樣,過強(qiáng)的負(fù)樣本信號可能會使向量空間中樣本的分布變?yōu)槿洪g稀疏、群內(nèi)密集的集群,降低模型的句嵌入表征能力。因此,該類方法訓(xùn)練步數(shù)不宜過高,這也進(jìn)一步說明SimCSE-PSER方法可以在取得良好性能的同時,具有較高的訓(xùn)練效率。
本文針對無監(jiān)督SimCSE使用dropout作為數(shù)據(jù)增強(qiáng)方法的不足提出了一種基于改進(jìn)SimCSE的無監(jiān)督句嵌入方法SimCSE-PSER。該方法使用BERT模型的dropout機(jī)制與位置嵌入擾動模塊作為數(shù)據(jù)增強(qiáng)方法聯(lián)合構(gòu)造對比學(xué)習(xí)所需的正樣本,彌補(bǔ)相同語義正樣本差異性的不足;同時結(jié)合R-Drop正則化方法,降低無監(jiān)督SimCSE中dropout機(jī)制帶來的負(fù)面影響。實驗結(jié)果表明,SimCSE-PSER相比其它主流無監(jiān)督句嵌入方法在跨領(lǐng)域的多個數(shù)據(jù)集上都展現(xiàn)出更強(qiáng)的句嵌入表征能力。下一步的工作重點將放在提高對比學(xué)習(xí)中的負(fù)樣本質(zhì)量。