融合意圖信息的小樣本多意圖識(shí)別

2023-10-24 14:51:18羅順茺

中文信息學(xué)報(bào) 2023年7期

關(guān)鍵詞：信息

羅順茺,何軍

(四川大學(xué) 計(jì)算機(jī)學(xué)院,四川成都 610065)

0 引言

意圖識(shí)別是面向任務(wù)型對(duì)話系統(tǒng)的一個(gè)基本組成部分。近年來,隨著諸如智能客服、人機(jī)對(duì)話等面向任務(wù)型對(duì)話系統(tǒng)的廣泛使用,意圖識(shí)別方面的需求越來越大。一般將意圖對(duì)應(yīng)標(biāo)簽,采用多標(biāo)簽文本分類的方法去構(gòu)建解決方案。但目前普通的單意圖型對(duì)話已經(jīng)滿足不了人們的需求,因?yàn)樵谧匀粓?chǎng)景中,一句話往往包含多個(gè)用戶意圖,并且對(duì)話任務(wù)總是在不同的領(lǐng)域之間迅速變化,新領(lǐng)域一般只有少量數(shù)據(jù)樣本。因此多意圖識(shí)別通常面臨數(shù)據(jù)匱乏的問題。

近期小樣本學(xué)習(xí)在應(yīng)對(duì)數(shù)據(jù)稀缺挑戰(zhàn)上取得豐碩成果,引起了很多學(xué)者的關(guān)注[1]。Bao Y[2]等人將少量數(shù)據(jù)的分布式標(biāo)簽映射為注意力分?jǐn)?shù),再用該分?jǐn)?shù)對(duì)詞匯表示進(jìn)行加權(quán),使用元學(xué)習(xí)框架訓(xùn)練,最后得到數(shù)據(jù)樣本的原型表征。Ohashi S[3]等人結(jié)合標(biāo)簽表征之間的語(yǔ)義關(guān)聯(lián)性,生成嵌入每個(gè)標(biāo)簽特定信息的標(biāo)簽表示,提升了小樣本分類的性能;Luo Q[4]等人探索利用類標(biāo)簽信息從預(yù)訓(xùn)練語(yǔ)言模型中提取輸入文本的更多鑒別性特征表示,并在樣本稀少的情況下實(shí)現(xiàn)性能提升;Han C[5]等人提出一個(gè)新的與對(duì)抗性領(lǐng)域適應(yīng)網(wǎng)絡(luò)相結(jié)合的元學(xué)習(xí)框架,提升了模型適應(yīng)新任務(wù)數(shù)據(jù)的能力。然而上述方法都旨在從單標(biāo)簽樣本提煉標(biāo)簽的原型表征[6],更多地適應(yīng)小樣本單標(biāo)簽場(chǎng)景下的任務(wù)。在多標(biāo)簽場(chǎng)景下,支持集、查詢句中每一個(gè)標(biāo)簽類別所包含的句子是多種多樣的,并且包含不相關(guān)類別的噪聲。例如,在支持集中,A句子的標(biāo)簽是{a,c},B句子的標(biāo)簽是{d,e,a}。對(duì)于a標(biāo)簽類來說,標(biāo)簽{c,d,e}都是噪聲。上述方法忽略了包含多個(gè)標(biāo)簽樣本的標(biāo)簽原型構(gòu)建相互混淆的問題,因此很難在多標(biāo)簽任務(wù)中構(gòu)建標(biāo)簽原型。

基于上述問題,Simon C[7]等人改進(jìn)原型網(wǎng)絡(luò)、關(guān)系網(wǎng)絡(luò)等,使其適應(yīng)多標(biāo)簽分類問題,并通過關(guān)系推理估計(jì)給定樣本標(biāo)簽數(shù)量來間接預(yù)測(cè)樣本分類閾值;Hu M[8]等人利用兩個(gè)注意力機(jī)制來減小標(biāo)簽原型中不相關(guān)標(biāo)簽所帶來的噪聲,并通過策略網(wǎng)絡(luò)進(jìn)一步學(xué)習(xí)每個(gè)實(shí)例的動(dòng)態(tài)閾值;Hou Y[9]等人將標(biāo)簽名嵌入到原型表征中,從而細(xì)化了不同類別的表示,然后通過核回歸來校準(zhǔn)閾值。然而,大多數(shù)研究者通過估計(jì)標(biāo)簽實(shí)例相關(guān)性得分側(cè)重于研究閾值的動(dòng)態(tài)選擇策略,從輸入文本的信息中建立元學(xué)習(xí)器,但忽略了短句子中類別標(biāo)簽的豐富語(yǔ)義信息,并且沒有考慮到實(shí)例句很容易被與標(biāo)簽相關(guān)的語(yǔ)義信息混淆的問題,未能很好地在含有多個(gè)標(biāo)簽的實(shí)例句中提取分離式原型表征。

本文提出融合意圖信息的小樣本多意圖識(shí)別方法,設(shè)計(jì)了意圖融合特征提取機(jī)制,利用預(yù)訓(xùn)練語(yǔ)言模型將輸入樣本同標(biāo)簽信息一起建模,采用注意力機(jī)制捕獲標(biāo)簽信息分離式樣本表征;設(shè)計(jì)了原型意圖分離機(jī)制,通過多頭支持集注意力和查詢集注意力提取分離式原型表征;利用多任務(wù)聯(lián)合訓(xùn)練,動(dòng)態(tài)選擇閾值,實(shí)現(xiàn)了在區(qū)分標(biāo)簽相關(guān)語(yǔ)義信息的同時(shí)捕獲分離式原型表征,緩解了原型標(biāo)簽與實(shí)例的相關(guān)性分?jǐn)?shù)計(jì)算不準(zhǔn)確的問題。在驗(yàn)證的數(shù)據(jù)集中,F1指標(biāo)均有3%～10%的性能提升。

本文的主要貢獻(xiàn)包括:

(1) 針對(duì)意圖識(shí)別場(chǎng)景下短句話語(yǔ)容易與意圖相關(guān)的語(yǔ)義混淆的問題,設(shè)計(jì)意圖融合特征提取機(jī)制,通過嵌入意圖信息來捕獲更具鑒別性特征的語(yǔ)義表示。

(2) 針對(duì)多意圖場(chǎng)景下意圖原型表征容易受到不相關(guān)意圖信息干擾的問題,設(shè)計(jì)了原型意圖分離機(jī)制,通過兩個(gè)注意力機(jī)制來計(jì)算相關(guān)意圖的權(quán)重,凸顯相關(guān)意圖信息,弱化不相關(guān)意圖信息。

(3) 提出了融合意圖信息的小樣本多意圖識(shí)別方法,較現(xiàn)有的方法在F1指標(biāo)上有一定程度上的提升。

1 相關(guān)原理

1.1 小樣本學(xué)習(xí)

小樣本學(xué)習(xí)[10]能夠根據(jù)先前的知識(shí)經(jīng)驗(yàn),捕獲不同領(lǐng)域或任務(wù)的元知識(shí)構(gòu)建表征原型,例如,模型架構(gòu)、不同領(lǐng)域任務(wù)之間的關(guān)聯(lián)等,從而快速適應(yīng)新領(lǐng)域的任務(wù)[11]。

對(duì)于多意圖識(shí)別來說,支持集采取k=1(每個(gè)意圖包含一條話語(yǔ))來模擬極少意圖樣本的情況,k=5模擬樣本數(shù)較大的情況。查詢句x為一句話,包含一組詞x=(x1,x2,…,xj)。與普通小樣本學(xué)習(xí)不同的是,本文不再預(yù)測(cè)單一標(biāo)簽,而是預(yù)測(cè)一組意圖標(biāo)簽Y={y1,y2,…,ym}。

1.2 多標(biāo)簽文本分類

與單標(biāo)簽文本分類不同,多標(biāo)簽文本分類主要研究單一實(shí)例句同一組標(biāo)簽之間的聯(lián)系。假設(shè)χ表示實(shí)例句空間,γ={y1,y2,…,yn}∈{0,1}表示有n個(gè)可能標(biāo)簽的標(biāo)簽空間,每個(gè)標(biāo)簽有{1,0}屬性,分別代表相關(guān)與不相關(guān)。多標(biāo)簽文本分類的任務(wù)是學(xué)習(xí)一個(gè)函數(shù)H(·):χ→γ,從實(shí)例句空間到標(biāo)簽空間的一個(gè)映射。對(duì)于每個(gè)學(xué)習(xí)實(shí)例(xi,yi),xi∈χ是j維的輸入,yi∈γ是相應(yīng)的標(biāo)簽集,在測(cè)試階段,對(duì)于一個(gè)從未見過的實(shí)例x,函數(shù)H(x)={y|h(x,y)>t,y∈γ}通過一個(gè)閾值t來預(yù)測(cè)該實(shí)例句的標(biāo)簽。大多數(shù)情況下h(x,y)是一個(gè)實(shí)值函數(shù),評(píng)估標(biāo)簽與實(shí)例句相關(guān)性分?jǐn)?shù),它反映了y∈γ是x的真實(shí)標(biāo)簽的置信度。

2 融合意圖信息的小樣本多意圖識(shí)別

本文設(shè)計(jì)了一種融合意圖信息的小樣本多意圖識(shí)別方法,目標(biāo)是通過融合意圖標(biāo)簽所表示的豐富語(yǔ)義信息來提取構(gòu)建具有分離式標(biāo)簽的原型表征,解決實(shí)例句很容易被與標(biāo)簽相關(guān)的語(yǔ)義混淆、小樣本學(xué)習(xí)處理多標(biāo)簽問題時(shí)標(biāo)簽原型表征容易受到不相關(guān)標(biāo)簽影響等問題。

本文提出的模型主要分為三個(gè)模塊: 意圖融合特征提取機(jī)制(Intention Fusion Feature Extraction Mechanism, IFE)、原型意圖分離機(jī)制(Prototype Intent Separation Mechanism, PIS)和多任務(wù)聯(lián)合訓(xùn)練(Multitasking Training, MTT)(標(biāo)簽數(shù)量估計(jì)Hou Y[9])。模型總體框架如圖1所示。

圖1 模型總體框架

首先,在支持集和查詢句中,設(shè)計(jì)將話語(yǔ)和標(biāo)簽按照{(diào)句子+標(biāo)簽}的模式,利用預(yù)訓(xùn)練語(yǔ)言模型BERT得到句子和標(biāo)簽的詞向量,計(jì)算標(biāo)簽對(duì)每一個(gè)詞的權(quán)重,按照權(quán)重加和得到句子向量;其次,在支持集部分,設(shè)計(jì)多頭支持集注意力機(jī)制得到分離式標(biāo)簽原型表征。在查詢集部分,設(shè)計(jì)查詢集注意力機(jī)制計(jì)算多個(gè)特定的原型表征,其中相關(guān)方面被放大,不相關(guān)方面被縮小;最后通過預(yù)測(cè)查詢句標(biāo)簽數(shù)量來間接得到動(dòng)態(tài)閾值,并將其損失同模型損失一起聯(lián)合訓(xùn)練。

2.1 問題定義

在對(duì)話場(chǎng)景中,多意圖識(shí)別的目的是針對(duì)說話人的一句話來識(shí)別話語(yǔ)中體現(xiàn)出的意圖。在真實(shí)對(duì)話場(chǎng)景下,話語(yǔ)通常具有短句;涵蓋多個(gè)意圖信息;對(duì)話任務(wù)、話題、領(lǐng)域變化迅速;新任務(wù)、領(lǐng)域只包含少量數(shù)據(jù)等特點(diǎn)。小樣本學(xué)習(xí)通過利用先前的經(jīng)驗(yàn),僅從少數(shù)樣例中總結(jié)規(guī)律,獲得較好的性能。因此將多意圖識(shí)別任務(wù)抽象為小樣本多標(biāo)簽文本分類(Qin L[12]等)任務(wù),其中將意圖抽象為標(biāo)簽形式。

Y={y|H(E(x),E(y),S)>t,y∈γ}

(1)

其中,H(·)表示標(biāo)簽實(shí)例相關(guān)性分?jǐn)?shù)的計(jì)算,E(·)為實(shí)例句、標(biāo)簽特征提取操作,Y=(y1,y2,…,)∈{0,1}表示預(yù)測(cè)的標(biāo)簽集,t為閾值。γ表示標(biāo)簽空間。

2.2 意圖融合特征提取機(jī)制(IFE)

在低資源多意圖識(shí)別場(chǎng)景下,僅使用每個(gè)意圖類別的樣例會(huì)導(dǎo)致解釋類別定義時(shí)產(chǎn)生歧義。因此,意圖融合特征提取機(jī)制的目的是利用標(biāo)簽信息,從像BERT這樣的預(yù)訓(xùn)練語(yǔ)言模型中提取輸入文本的更多判別性特征。

標(biāo)簽信息對(duì)于人類準(zhǔn)確解釋有限的訓(xùn)練樣本中所傳達(dá)的意義是至關(guān)重要的。本文考慮將BERT的輸入進(jìn)行修改,在支持集中,每個(gè)句子在一個(gè)[SEP]標(biāo)記后附加相應(yīng)的真實(shí)標(biāo)簽,得到xs=(x1,…,xs,lright);在查詢句中,每個(gè)句子和一個(gè)[SEP]標(biāo)記后附加標(biāo)簽空間中的所有標(biāo)簽,得到xq=(x1,…,xq,l1,…,ln)。如圖2所示。

圖2 意圖融合特征提取機(jī)制

經(jīng)過像BERT這樣的預(yù)訓(xùn)練語(yǔ)言模型編碼后得到12層隱藏層輸出,考慮到基于[CLS]得到句向量表現(xiàn)性能不佳(Choi H[13]等),本文取第一層和最后一層的隱藏層輸出之和作為BERT的輸出得到支持集、查詢句和標(biāo)簽集的詞向量hBERT,如式(2)所示。

(2)

用標(biāo)簽附加到[SEP]之后,BERT能夠從輸入句子中提取與標(biāo)簽相關(guān)的信息,得到具有更多判別性特征的細(xì)粒度詞向量。

在查詢句中,將查詢句對(duì)應(yīng)的詞向量相加求平均得到查詢句的句向量。將查詢句中的標(biāo)簽詞向量分離得到標(biāo)簽集向量,如式(3)所示。

(3)

其中,ln表示標(biāo)簽向量,T(·)表示分離標(biāo)簽詞向量操作,即將標(biāo)簽對(duì)應(yīng)的詞向量取出來,作為單個(gè)標(biāo)簽的標(biāo)簽向量。

在支持集中,通過將每個(gè)支持集中的標(biāo)簽向量相加求平均,然后分別和對(duì)應(yīng)句子的詞向量計(jì)算相似性得分,得出每個(gè)詞對(duì)真實(shí)標(biāo)簽的貢獻(xiàn)程度。最后加權(quán)求和得到支持集中句子的句向量,如式(4)所示。

(4)

其中,MSA(·)表示的是多頭支持集注意力機(jī)制。

通過利用句子和意圖標(biāo)簽信息構(gòu)建意圖融合特征提取機(jī)制,得到具有判別特征的支持集、查詢句和標(biāo)簽集句向量,消除了類別定義時(shí)產(chǎn)生的歧義,使文本獲得了更多的判別性特征,緩解實(shí)例句很容易被與標(biāo)簽相關(guān)的語(yǔ)義混淆的問題。

2.3 原型意圖分離機(jī)制(PIS)

小樣本學(xué)習(xí)是通過先前經(jīng)驗(yàn)來捕捉標(biāo)簽原型表征,然后用查詢句計(jì)算相似度,相似度最高的標(biāo)簽作為查詢句的預(yù)測(cè)標(biāo)簽。單標(biāo)簽樣本中,{N-way,K-shot}的訓(xùn)練片段有n個(gè)標(biāo)簽類別,k個(gè)樣本存在標(biāo)簽與樣本一一對(duì)應(yīng)關(guān)系。因此,提取標(biāo)簽原型表征的時(shí)候不存在不相關(guān)標(biāo)簽信息干擾的問題。然而,在多標(biāo)簽樣本中,一個(gè)樣本對(duì)應(yīng)多個(gè)標(biāo)簽,訓(xùn)練片段中的標(biāo)簽樣本關(guān)系非常復(fù)雜,標(biāo)簽對(duì)應(yīng)的樣本往往含有其他不相關(guān)標(biāo)簽信息,如圖3(上部分)所示。直接構(gòu)建標(biāo)簽原型含有太多噪聲,沒有區(qū)分度。無獨(dú)有偶,查詢句也受到不相關(guān)信息的干擾。針對(duì)這個(gè)問題,通過設(shè)計(jì)多頭支持集注意力機(jī)制(Multi-head Support Attention mechanism,MSA)和查詢集注意力機(jī)制(Query Attention Mechanism,QAM)來構(gòu)建原型意圖分離機(jī)制,旨在捕獲分離式標(biāo)簽原型表征和具有互信息的查詢句表征。

圖3 多頭支持集注意力機(jī)制

2.3.1 多頭支持集注意力機(jī)制(MSA)

假設(shè)現(xiàn)在要提取標(biāo)簽a的原型表征,如圖3所示。給定標(biāo)簽a的標(biāo)簽向量li∈1×d,其中l(wèi)i∈el,d表示向量維度。給定訓(xùn)練片段支持集中所有含有標(biāo)簽a的樣本t∈n×d,其中t∈es,n表示樣本條數(shù)。

為了從不同視角了解標(biāo)簽向量,復(fù)制z次標(biāo)簽向量,再進(jìn)行線性變換,利用樣本t得到標(biāo)簽的注意力矩陣Watt∈n×d。如式(5)所示。

Watt=t·Ws(li?z)

(5)

其中,Ws∈d×z是權(quán)重矩陣。?為復(fù)制操作。

(6)

其中,conv表示卷積操作。

然后,利用標(biāo)簽向量和樣本同卷積注意力矩陣計(jì)算得到標(biāo)簽對(duì)樣本的相關(guān)性分?jǐn)?shù)socre∈1×n,如式(7)所示。

(7)

由于Softmax會(huì)將大部分概率錯(cuò)誤地分配給值大的一處,因此對(duì)乘積進(jìn)行縮放操作。

最后,將得到的相關(guān)性分?jǐn)?shù)分配到樣本中,得到最終的標(biāo)簽原型表征,如式(8)所示,其中LN表示層歸一化。

pm=LN(socre·t)

(8)

為了從多個(gè)方面把握標(biāo)簽和樣本的信息,采用多頭機(jī)制并行操作,最后取平均得到初始標(biāo)簽原型表征,如式(9)所示。

pi=mean(p1,..,pm)

(9)

由于注意力機(jī)制很難將不相關(guān)標(biāo)簽方面的相關(guān)性分?jǐn)?shù)置為0,因此此時(shí)獲得的初始標(biāo)簽原型表征p={pi,…,pn}仍然存在部分噪聲。采用動(dòng)態(tài)融合標(biāo)簽表征的方式進(jìn)一步加強(qiáng)相關(guān)方面,弱化不相關(guān)方面,如式(10)所示。

(10)

其中,動(dòng)態(tài)體現(xiàn)在參數(shù)α,β在訓(xùn)練過程中自動(dòng)調(diào)整,不需要人為干預(yù)。

最終得到具有分離式標(biāo)簽原型表征P∈n×d。

2.3.2 查詢集注意力機(jī)制(QAM)

對(duì)于查詢句來說,不僅可能存在多個(gè)標(biāo)簽,而且句向量中還存在不相關(guān)詞語(yǔ)向量的表征帶來的噪聲。直接使用查詢向量表征eq和標(biāo)簽原型P計(jì)算得到的相似度不準(zhǔn)確。

為了解決這個(gè)問題,本文計(jì)算查詢句向量對(duì)原型表征的貢獻(xiàn)度來凸顯重要特征,盡可能的排除不相關(guān)方面,如圖4所示。

圖4 查詢集注意力機(jī)制

(11)

其中,Wq∈d×d是權(quán)重矩陣。

再利用原型表征同卷積注意力矩陣計(jì)算相關(guān)性分?jǐn)?shù)s∈N×1,如式(12)所示。其中,d表示樣本的維度,P∈n×d為分離式標(biāo)簽原型表征。

(12)

最后,將相關(guān)性分?jǐn)?shù)分配到查詢句向量中去,得到最終的查詢句表征Q,如式(13)所示。

Q=mean(s·eq)

(13)

2.4 多任務(wù)聯(lián)合訓(xùn)練(MTT)

得到標(biāo)簽原型表征P和查詢句表征Q之后,采用點(diǎn)積相似度來計(jì)算它們之間的相似性,如式(14)所示。

H(x,yi,S)=SIM(P,Q)

(14)

其中,SIM表示點(diǎn)積相似度。

使用元校準(zhǔn)閾值(Meta Calibrated Threshold,MCT)通過間接估計(jì)標(biāo)簽數(shù)量得到動(dòng)態(tài)閾值。與Hou Y[9]不同的是因考慮到與標(biāo)簽數(shù)量相關(guān)的特征遠(yuǎn)遠(yuǎn)不止MCT中所提到的五種,因此本文將MCT的輸入修改為{句子長(zhǎng)度,連詞,標(biāo)點(diǎn)符號(hào),動(dòng)詞,代詞,副詞,名詞,數(shù)字}八種特征,并且將預(yù)測(cè)標(biāo)簽數(shù)量的過程與模型協(xié)同訓(xùn)練,構(gòu)建一個(gè)多任務(wù)聯(lián)合訓(xùn)練的模式。

2.5 損失函數(shù)

本文通過一系列的訓(xùn)練片段來訓(xùn)練模型,其中每一個(gè)訓(xùn)練片段都包含K-shot的支持集和一個(gè)查詢句。在數(shù)據(jù)豐富的領(lǐng)域上模擬低資源場(chǎng)景,并在不同的領(lǐng)域進(jìn)行交叉優(yōu)化,確保訓(xùn)練和低資源場(chǎng)景的一致性。

本文使用二元交叉熵?fù)p失(Binary Cross Entropy Loss,BCE)作為模型損失函數(shù),以最小化的方式來進(jìn)一步優(yōu)化模型,如式(15)所示。

(15)

其中,n為查詢句的數(shù)量,N為標(biāo)簽的數(shù)量,fij∈[0,1],yij∈{0,1}分別表示第i個(gè)實(shí)例的第j個(gè)標(biāo)簽的預(yù)測(cè)標(biāo)簽和真實(shí)標(biāo)簽。

標(biāo)簽數(shù)量預(yù)測(cè)任務(wù)使用均方誤差(Mean Square Error,MSE)作為損失函數(shù),如式(16)所示。

(16)

最后,利用線性插值來平衡兩個(gè)任務(wù),進(jìn)行聯(lián)合訓(xùn)練,如式(17)所示。

L=(1-λ)L1+λL2

(17)

其中,λ表示的是插值率,是一個(gè)超參數(shù)。

3 實(shí)驗(yàn)與分析

為了模擬低資源場(chǎng)景,設(shè)置了1-shot/5-shot多意圖識(shí)別任務(wù),實(shí)驗(yàn)將經(jīng)驗(yàn)知識(shí)從只包含1-shot/5-shot的源域(訓(xùn)練)轉(zhuǎn)移到未知標(biāo)簽的目標(biāo)域(測(cè)試)。

3.1 數(shù)據(jù)集

本文在兩個(gè)基準(zhǔn)多意圖識(shí)別數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn): TourSG、StanfordLU[14]。這兩個(gè)數(shù)據(jù)集都包含多個(gè)領(lǐng)域數(shù)據(jù),因此可以模擬未知領(lǐng)域上的低資源多意圖識(shí)別場(chǎng)景。其中,TourSG數(shù)據(jù)集包含25 751條話語(yǔ),帶有六個(gè)關(guān)于新加坡旅游信息的獨(dú)立領(lǐng)域: 行程(It)、住宿(Ac)、景點(diǎn)(At)、食物(Fo)、交通(Tr)、購(gòu)物(Sh)。StanfordLU是斯坦福對(duì)話數(shù)據(jù)集的重新注釋版本,包含來自三個(gè)領(lǐng)域的8 038條用戶話語(yǔ): 日程(Sc)、導(dǎo)航(Na)、天氣(We)。

3.2 小樣本數(shù)據(jù)構(gòu)建

為了模擬低資源多領(lǐng)域交互的多意圖識(shí)別場(chǎng)景,本文將數(shù)據(jù)集采樣為小樣本學(xué)習(xí)形式,其中每個(gè)訓(xùn)練片段是一個(gè)查詢實(shí)例(xq,yq)和相應(yīng)的K-shot支持集S的組合。

由于多意圖識(shí)別數(shù)據(jù)集中一條話語(yǔ)往往包含多個(gè)意圖,因此不能采用單標(biāo)簽小樣本數(shù)據(jù)抽樣方法。為了解決這個(gè)問題,本文采用最小包含算法近似構(gòu)造了K-shot支持集[15]。該算法構(gòu)造支持集遵循兩個(gè)標(biāo)準(zhǔn): ①領(lǐng)域中的所有標(biāo)簽在支持集中至少出現(xiàn)k次。②如果從其中刪除任何實(shí)例句,則至少有一個(gè)標(biāo)簽在支持集中出現(xiàn)的次數(shù)少于k次。

每個(gè)領(lǐng)域中,采樣Ns個(gè)不同的K-shot支持集,對(duì)于每個(gè)支持集,采樣Nq個(gè)實(shí)例作為查詢集(查詢集實(shí)例不包含在支持集中)。每個(gè){支持集,查詢集}構(gòu)成一個(gè)訓(xùn)練片段。最終,得到Ns個(gè)訓(xùn)練片段,每個(gè)領(lǐng)域Ns×Nq個(gè)實(shí)例。

具體來說,對(duì)于TourSG數(shù)據(jù)集,構(gòu)建了Ns=100個(gè)訓(xùn)練片段作為訓(xùn)練集,Nt=50個(gè)測(cè)試片段作為測(cè)試集,查詢集的大小為Nq=16。由于StanfordLU數(shù)據(jù)集中領(lǐng)域偏少,構(gòu)建了Ns=200個(gè)訓(xùn)練片段作為訓(xùn)練集,Nt=50個(gè)測(cè)試片段作為測(cè)試集,查詢集大小為Nq=32。

具體的數(shù)據(jù)集細(xì)節(jié),如表1所示。其中,P.ML表示多意圖句子的比例;Ave表示平均支持集大小。由表1可知,相較于數(shù)據(jù)集StanfordLU,TourSG平均支持集尺寸大、多意圖句子數(shù)多、多意圖句子比例更加均衡。數(shù)據(jù)集StanfordLU有三個(gè)領(lǐng)域,并且領(lǐng)域之間相互獨(dú)立,數(shù)據(jù)集TourSG有六個(gè)領(lǐng)域,領(lǐng)域之間相互交叉,有相似領(lǐng)域。

表1 實(shí)驗(yàn)數(shù)據(jù)集信息

3.3 實(shí)驗(yàn)環(huán)境及細(xì)節(jié)

本文的實(shí)驗(yàn)環(huán)境如表2所示。

表2 實(shí)驗(yàn)環(huán)境配置信息

實(shí)驗(yàn)過程中,本文遵循元學(xué)習(xí)訓(xùn)練模式,使用uncased BERT-Base[16]預(yù)訓(xùn)練模型;采用768維的詞向量;Dropout設(shè)置為0.1;訓(xùn)練時(shí)采用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為0.000 01;插值率λ為0.2。

為了提高測(cè)試結(jié)果的魯棒性,本文設(shè)置在不同的領(lǐng)域進(jìn)行交叉驗(yàn)證。其中,一個(gè)領(lǐng)域作為驗(yàn)證集,一個(gè)領(lǐng)域作為測(cè)試集,其余領(lǐng)域作為訓(xùn)練集。最后,報(bào)告三個(gè)隨機(jī)種子[17]4 000、4 001、4 002的平均值作為最終結(jié)果。

3.4 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

本文使用MicroF1分?jǐn)?shù)來評(píng)估所提出方法的預(yù)測(cè)表現(xiàn);使用準(zhǔn)確率(Accuracy)來評(píng)估預(yù)測(cè)標(biāo)簽數(shù)量的表現(xiàn)。首先將所有類別直接放到一起來計(jì)算精確率和召回率,如式(18)、式(19)所示。

其中,TP表示實(shí)際為正例且被分類器判定為正例的樣本數(shù);FP表示實(shí)際為負(fù)例且被分類器判定為正例的樣本數(shù);FN表示實(shí)際為正例但被分類器判定為負(fù)例的樣本數(shù);TN表示實(shí)際為負(fù)例且被分類器判定為負(fù)例的樣本數(shù)。L表示標(biāo)簽類別的數(shù)量。

然后,再計(jì)算MicroF1分?jǐn)?shù),如式(20)所示。

(20)

3.5 實(shí)驗(yàn)對(duì)照方法

為了驗(yàn)證方法的有效性,本文評(píng)估了3個(gè)方法:

(1) 多標(biāo)簽原型網(wǎng)絡(luò)(Multi-label Prototypical Network,MPN): 基于相似性的小樣本模型。通過原型網(wǎng)絡(luò)[18]計(jì)算實(shí)例與標(biāo)簽原型之間的相關(guān)性得分,使用固定的閾值在源域上訓(xùn)練,并直接在目標(biāo)域上測(cè)試。

(2) 多標(biāo)簽匹配網(wǎng)絡(luò)(Multi-label Matching Network,MMN): 基于相似性的小樣本模型。通過匹配網(wǎng)絡(luò)[19]計(jì)算實(shí)例與標(biāo)簽原型之間的相關(guān)性得分。

(3) 小樣本多意圖識(shí)別模型(Meta Calibrated Threshold-Anchored Label Representation,MCT-ALR)[9]: 基于相似性的小樣本模型。通過使用MCT預(yù)測(cè)標(biāo)簽數(shù)量來確定動(dòng)態(tài)閾值,使用ALR捕獲瞄點(diǎn)標(biāo)簽原型表示。采用點(diǎn)積相似度來計(jì)算實(shí)例與標(biāo)簽原型之間的相關(guān)性得分。

3.6 對(duì)比實(shí)驗(yàn)分析

對(duì)比實(shí)驗(yàn)主要分為兩個(gè)部分: 不同數(shù)據(jù)集中MicroF1指標(biāo)評(píng)分分析和時(shí)間復(fù)雜度分析。

3.6.1 指標(biāo)評(píng)價(jià)分析

實(shí)驗(yàn)結(jié)果如表3～表5所示。表中每列分別表示將該列中的領(lǐng)域作為測(cè)試集,其他領(lǐng)域作為驗(yàn)證集、訓(xùn)練集的MicroF1分?jǐn)?shù)(%)。其中Ave.表示均值。

表3 TourSG 1-shot數(shù)據(jù)集Micro F1分?jǐn)?shù)

對(duì)于數(shù)據(jù)集TourSG(表3: 1-shot設(shè)置,表4: 5-shot設(shè)置),MCT-ALR方法相比MPN和MMN方法F1指標(biāo)提升30%～40%左右,主要是因?yàn)镸PN和MMN方法是由單標(biāo)簽?zāi)Ｐ头椒ǜ倪M(jìn)而來,它們并沒有很好地處理實(shí)例句很容易被與標(biāo)簽相關(guān)的語(yǔ)義混淆和多標(biāo)簽話語(yǔ)帶來的不相關(guān)標(biāo)簽信息干擾的問題。而MCT-ALR方法采用瞄點(diǎn)標(biāo)簽構(gòu)造標(biāo)簽原型表征去除了部分不相關(guān)的標(biāo)簽信息,使得預(yù)測(cè)準(zhǔn)確度大幅提升。選擇MPN和MMN方法,一方面可以反映出在多標(biāo)簽小樣本意圖識(shí)別和單標(biāo)簽小樣本意圖識(shí)別之間的差距巨大;另一方面反映了多標(biāo)簽小樣本領(lǐng)域中實(shí)例句與標(biāo)簽相關(guān)的語(yǔ)義混淆和多標(biāo)簽話語(yǔ)帶來的不相關(guān)標(biāo)簽信息干擾問題的嚴(yán)重性。

表4 TourSG 5-shot數(shù)據(jù)集Micro F1分?jǐn)?shù)

不論在1-shot設(shè)置中,還是5-shot設(shè)置中,本文所提出的方法較MCT-ALR方法提升2.8%～3.5% 左右。原因主要有兩點(diǎn): 第一,TourSG數(shù)據(jù)集中領(lǐng)域之間差距比較小,不同領(lǐng)域的標(biāo)簽比較相似,標(biāo)簽原型中不相關(guān)標(biāo)簽信息帶來的噪聲非常復(fù)雜,難以區(qū)分,使得分離式標(biāo)簽原型表征的構(gòu)建難度極大。得益于所設(shè)計(jì)的原型意圖分離機(jī)制,采用注意力的方式融合標(biāo)簽信息進(jìn)一步去除不相關(guān)標(biāo)簽信息;第二,由于TourSG數(shù)據(jù)集是由自然場(chǎng)景下的對(duì)話組成,具有非正式話語(yǔ),且一句話包含較少的單詞(極端情況下有一兩個(gè)單詞構(gòu)成的話語(yǔ))。得益于所設(shè)計(jì)的意圖融合特征提取機(jī)制,緩解了實(shí)例句很容易被與標(biāo)簽相關(guān)的語(yǔ)義混淆的問題。

對(duì)于數(shù)據(jù)集StanfordLU(表5左: 1-shot設(shè)置,表5右: 5-shot設(shè)置),相較于數(shù)據(jù)集TourSG來說,涵蓋的領(lǐng)域只有三個(gè),模擬了在低領(lǐng)域場(chǎng)景下的低資源意圖識(shí)別任務(wù)。本文提出的方法較MCT-ALR方法提升7%～10%左右,尤其是在5-shot設(shè)置中。這是因?yàn)镾tanfordLU數(shù)據(jù)集領(lǐng)域較少,且領(lǐng)域之間不太相似,使得原型意圖分離機(jī)制可以更容易區(qū)分不同領(lǐng)域信息,從而更好地去除不相關(guān)標(biāo)簽信息。

表5 StanfordLU數(shù)據(jù)集Micro F1分?jǐn)?shù)

3.6.2 時(shí)間復(fù)雜度分析

表6是本文提出方法在TourSG、StanfordLU數(shù)據(jù)集1-shot/5-shot設(shè)置上訓(xùn)練到收斂所消耗的時(shí)間對(duì)比。

表6 本文提出方法StanfordLU、TourSG 訓(xùn)練時(shí)間對(duì)比

從表6可以看出,5-shot比1-shot設(shè)置所使用的時(shí)間更多,原因是樣本數(shù)增加(表1)特征提取IFE、原型意圖分離機(jī)制PIS所需的成本也增加。數(shù)據(jù)集TourSG比StanfordLU所使用的時(shí)間更多,一方面因?yàn)樵跀?shù)據(jù)集TourSG中多標(biāo)簽話語(yǔ)比StanfordLU多,給原型意圖分離機(jī)制PIS帶來了巨大的壓力;另一方面因?yàn)樵跀?shù)據(jù)集TourSG中支持集比StanfordLU普遍大,所需要的成本自然增加。

3.7 消融實(shí)驗(yàn)

本文提出的方法可以看作是由IFE、MSA、QAM、MTT組件構(gòu)成。為了更好地理解每個(gè)組件對(duì)所提出方法的貢獻(xiàn)程度,本文在1-shot設(shè)置上,通過移除組件的方式來構(gòu)建消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表7、圖5所示。其中,圖5折線圖顯示的是兩個(gè)數(shù)據(jù)集中指標(biāo)Ave.的可視化結(jié)果。

表7 消融實(shí)驗(yàn)1-shot Micro F1分?jǐn)?shù)

圖5 StanfordLU、TourSG移除組件的平均性能

從表7和圖5中可以看到,組件MSA對(duì)模型的貢獻(xiàn)最大,一方面可以說明采用注意力機(jī)制的MSA可以降低不相關(guān)意圖信息帶來的噪聲,另一方面也體現(xiàn)出了不相關(guān)意圖噪聲對(duì)構(gòu)建標(biāo)簽原型表征所帶來的嚴(yán)峻挑戰(zhàn)。其次是IFE,這是因?yàn)樗褂玫膬蓚€(gè)數(shù)據(jù)集中都含有大量短句,直接對(duì)短句提取表征不能很好體現(xiàn)出意圖。IFE結(jié)合意圖信息很好地捕獲具有判別性特征的語(yǔ)義表征。

組件QAM對(duì)模型的影響最小,這是因?yàn)镼AM組件主要是為了去除與意圖信息無關(guān)的噪聲,保留所有的意圖信息,而數(shù)據(jù)集中短句居多,與意圖不相關(guān)的信息本來就不多。

為了驗(yàn)證采用8個(gè)特征的MCT的輸入和聯(lián)合模型一起訓(xùn)練的方式更具表現(xiàn)力。本文分別在兩個(gè)數(shù)據(jù)集的1-shot中采用準(zhǔn)確率(Accuracy)的評(píng)估標(biāo)準(zhǔn)預(yù)測(cè)標(biāo)簽的數(shù)量。實(shí)驗(yàn)結(jié)果如表8所示。

表8 StanfordLU、TourSG 1-shot標(biāo)簽數(shù)量預(yù)測(cè)

由表8中可以發(fā)現(xiàn),采用8個(gè)特征聯(lián)合模型一起訓(xùn)練更容易預(yù)測(cè)句子標(biāo)簽數(shù)量。一方面是因?yàn)槭褂锰卣鲾?shù)多,信息量越大模型預(yù)測(cè)能力越好;另一方面連詞、副詞和代詞等詞是更具代表性的特征,可以使模型更具區(qū)分度。

4 總結(jié)

本文提出一種融合意圖信息的小樣本多意圖識(shí)別方法。首先,設(shè)計(jì)意圖融合特征提取機(jī)制,結(jié)合話語(yǔ)和意圖信息利用預(yù)訓(xùn)練語(yǔ)言模型提取支持集、查詢集和標(biāo)簽集表征, 緩解短話語(yǔ)往往遭遇標(biāo)簽相關(guān)信息的語(yǔ)義混淆的問題;其次,設(shè)計(jì)原型意圖分離機(jī)制,利用意圖信息作為基點(diǎn),計(jì)算所屬標(biāo)簽話語(yǔ)對(duì)該標(biāo)簽原型的相關(guān)程度,聯(lián)合標(biāo)簽權(quán)重得到分離式標(biāo)簽原型表征,進(jìn)一步細(xì)化標(biāo)簽原型特征,解決了多標(biāo)簽小樣本學(xué)習(xí)中標(biāo)簽原型表征容易受到不相關(guān)標(biāo)簽影響的問題。最后,采用模型訓(xùn)練和動(dòng)態(tài)閾值預(yù)測(cè)聯(lián)合訓(xùn)練的方式優(yōu)化模型。實(shí)驗(yàn)結(jié)果表明,本文提出的方法可有效提高低資源場(chǎng)景下意圖識(shí)別任務(wù)的效果。

未來將繼續(xù)進(jìn)行低資源場(chǎng)景下自然語(yǔ)言處理研究,例如,將融合標(biāo)簽信息的小樣本學(xué)習(xí)方法應(yīng)用到低資源場(chǎng)景下的語(yǔ)音識(shí)別等領(lǐng)域。