劉汀,蔡少填,陳小軍,章秦
(深圳大學(xué)計算機(jī)科學(xué)與技術(shù)系,廣東 深圳 518071)
大量研究表明,基于循環(huán)網(wǎng)絡(luò)和注意力模塊的模型對序列型數(shù)據(jù)可以學(xué)習(xí)到很好的表達(dá),且在基準(zhǔn)測試中能取得優(yōu)異的結(jié)果:艾山和曾蓉等使用LSTM進(jìn)行專有領(lǐng)域的情感分類任務(wù)[1]和交通流預(yù)測[2];譚勛和亞力青等在模型語義表達(dá)層面進(jìn)行下游語義相似度分析[3]和文本過濾[4];Raffel等提出超大數(shù)據(jù)量進(jìn)行預(yù)訓(xùn)練的T5模型[5].然而,現(xiàn)有的基于預(yù)訓(xùn)練語言模型的學(xué)習(xí)方法大多遵循先預(yù)訓(xùn)練再微調(diào)的范式,其中預(yù)訓(xùn)練和微調(diào)都需要使用大規(guī)模的標(biāo)注訓(xùn)練數(shù)據(jù)集,會消耗大量的人力和計算資源.因此,使用有限的訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)的少樣本學(xué)習(xí)已經(jīng)引起了越來越多的關(guān)注,如無監(jiān)督學(xué)習(xí)、少樣本學(xué)習(xí)和知識圖譜[6].
在少樣本學(xué)習(xí)設(shè)置下,提示學(xué)習(xí)將下游任務(wù)視為缺失詞語重組語言建模問題,通過預(yù)訓(xùn)練語言模型(PLMs)完成完形填空任務(wù)達(dá)到語言模型獲得語義知識的目的[7],引起了研究者的強(qiáng)烈興趣.例如,GPT-3就表現(xiàn)出令人印象深刻的少樣本學(xué)習(xí)能力,僅使用16個標(biāo)記樣本就實現(xiàn)了80%的SOTA結(jié)果[8].
“提示學(xué)習(xí)”的關(guān)鍵問題是如何構(gòu)建合適的提示語(prompt).早期的工作使用人工設(shè)定的提示來提取語言模型中的相關(guān)知識[9],然而想要寫出一個有效的提示是十分困難的.隨后,研究人員提出自動搜索提示的方法以提高提示設(shè)計的效率,并獲得了廣泛關(guān)注.一些研究通過將提示搜索問題重新定義為預(yù)測任務(wù)來搜索離散空間(詞匯表中的單詞)[10],主要分為梯度信息引導(dǎo)[11]和外部大模型知識融入[12],除此之外,還能進(jìn)一步將邏輯規(guī)則[13]或知識圖譜[14]納入學(xué)習(xí)過程.最近的研究也有轉(zhuǎn)向?qū)W習(xí)連續(xù)提示嵌入的趨勢[15],這是因為與在離散的詞庫中尋找提示相比,在連續(xù)的詞表達(dá)空間中學(xué)習(xí)提示更適合神經(jīng)網(wǎng)絡(luò)處理.
現(xiàn)有的提示學(xué)習(xí)方法通常對所有樣本應(yīng)用統(tǒng)一的提示,其中存在一個潛在的粗略一致性假設(shè),即所有樣本都偏向使用相同的提示.然而,這種假設(shè)是有風(fēng)險的.如圖1所示的例子中,很難找到適用于任務(wù)中的所有樣本的單一提示.雖然有研究人員提出集成來自多個提示的結(jié)果以獲得更好的預(yù)測結(jié)果[16],但在實際任務(wù)中如何選取基準(zhǔn)提示及如何集成都是需要考慮的復(fù)雜問題.

圖1 5個離散型提示在SST-2中隨機(jī)抽樣的10個樣本上的預(yù)測結(jié)果
基于上述發(fā)現(xiàn),本文提出了一種用于小樣本學(xué)習(xí)的個性化連續(xù)型提示調(diào)優(yōu)方法(PCP-tuning),其目的是根據(jù)數(shù)據(jù)集中每個樣本的語義來生成個性化的連續(xù)型提示.該方法通過考慮每個樣本的語義特征來訓(xùn)練一個叫提示生成器的網(wǎng)絡(luò)以生成個性化提示,采用分布校準(zhǔn)和多樣性校準(zhǔn)對生成的提示做進(jìn)一步調(diào)整.
本文的主要貢獻(xiàn)包括3個方面:1)針對任務(wù)中每個特定樣本的提示,提出了弱一致性假設(shè),減少了以往統(tǒng)一任務(wù)級提示的粗略一致性假設(shè);2)提出了兩種校準(zhǔn)技術(shù)來控制生成的樣本提示的分布,多樣性校準(zhǔn)迫使提示在單個樣本上是多樣化的,分布校準(zhǔn)迫使提示表達(dá)近似于高斯分布,以更好地模擬提示的弱一致性,這兩種技術(shù)都為快速校準(zhǔn)提供了一個有趣的研究方向;3)在10個公共benchmark上進(jìn)行的詳細(xì)實驗表明,新方法幾乎在所有任務(wù)上都優(yōu)于現(xiàn)有方法.
最近,GPT-3[8]等大規(guī)模PLMs的出現(xiàn)證明了通過任務(wù)級提示進(jìn)行少樣本學(xué)習(xí)的巨大潛力.LM-BFF[12]進(jìn)一步將GPT-3中的提示學(xué)習(xí)方法應(yīng)用于中等大小的語言模型,并在廣泛的NLP任務(wù)中實現(xiàn)了與大型GPT-3模型相當(dāng)?shù)男阅?
早期的提示學(xué)習(xí)工作通常使用人工設(shè)計提示來提取語言模型中的相關(guān)知識[10].為了提高提示設(shè)計的效率,自動搜索提示方法得到了廣泛的探索.Schick等將提示學(xué)習(xí)問題重新表述為解決完形填空式問題[9],進(jìn)一步將潛在的NLP任務(wù)重新表述為蘊(yùn)涵任務(wù)[10].Shin等建議將下游任務(wù)重新表述為預(yù)測任務(wù),這可以通過基于梯度搜索來獲得最優(yōu)解[11].Han等將邏輯規(guī)則納入提示學(xué)習(xí)[13],而Hu等將知識圖譜納入提示學(xué)習(xí)[14].Gao等利用T5模型自動生成提示[12].然而,上述方法都是在離散空間(詞匯表中的單詞)中搜索提示,由于提示表達(dá)空間的連續(xù)性,這樣只能搜索到次優(yōu)的提示.
為了克服上述限制,最近的研究開始學(xué)習(xí)連續(xù)型提示表達(dá),這更適合神經(jīng)網(wǎng)絡(luò).Liu等使用LSTM學(xué)習(xí)連續(xù)提示嵌入[16].Zhong等將提示調(diào)優(yōu)結(jié)合進(jìn)事實探測任務(wù)中[15].Liu等提出P-Tuning來自動搜索連續(xù)的提示嵌入,以彌補(bǔ)GPT在NLU任務(wù)中的缺陷[16].Li等提出了Prefix-tuning[17],可以應(yīng)用于NLG任務(wù).Lester等簡化了Prefixtuning方法[18],且證明了微調(diào)的性能隨著模型大小的增長而下降.Gu等在正式進(jìn)行提示微調(diào)前先對提示表達(dá)進(jìn)行預(yù)訓(xùn)練以獲得更好的初始提示[19].Zhong等提出將下游自然語言處理任務(wù)融合進(jìn)語言模型的預(yù)訓(xùn)練任務(wù)中,發(fā)現(xiàn)集成多個提示的預(yù)測結(jié)果可以獲得更好的性能[15].但是上述方法通常對所有樣本應(yīng)用同一個提示,這樣會忽略不同樣本之間存在的語義特征差別.雖然可以為一個數(shù)據(jù)集生成多個提示最終集成來自多個提示的結(jié)果以獲得更好的性能,但提示挑選和集成方法的選擇是一項復(fù)雜的工作.本文提出了一種資源節(jié)約又簡單高效的方法,根據(jù)樣本的語義特征生成特定于樣本的提示.
少樣本學(xué)習(xí)的主要目標(biāo)是使用少量的訓(xùn)練樣本來達(dá)到語言模型到下游任務(wù)的遷移.常用的少樣本學(xué)習(xí)方法包括:1)半監(jiān)督學(xué)習(xí),它利用了標(biāo)記[7]和未標(biāo)記的示例[20];2)元學(xué)習(xí),這是一種通用的學(xué)習(xí)范式,在訓(xùn)練中不斷為模型提供新的任務(wù)場景[21]、新的類別[22]或者新的數(shù)據(jù)分布[23]進(jìn)行訓(xùn)練.這些方法可以與提示學(xué)習(xí)結(jié)合使用,以獲得更好的性能.
給定一個已經(jīng)過預(yù)訓(xùn)練的語言模型LM,一個有標(biāo)簽且標(biāo)簽空間為Y的數(shù)據(jù)集Dtrain=,其中Ktotal=K×|Y|(K通常很?。?,即Dtrain中每個類包含K個訓(xùn)練樣本.小樣本學(xué)習(xí)目的是在數(shù)量少的訓(xùn)練集Dtrain上學(xué)習(xí)到能夠很好地推廣到測試集的模型參數(shù).同時需要一個與訓(xùn)練集大小相同的開發(fā)集Ddev來實現(xiàn)模型和超參數(shù)的選擇,即|Ddev|=|Dtrain|.
任務(wù)級樣本連續(xù)型提示學(xué)習(xí)是目前常用的學(xué)習(xí)范式.給定一個輸入xin={x1,x2,···,xL},其中:xi是輸入文本樣本的第i個詞元(token),L是詞元的總數(shù).首先,將xin轉(zhuǎn)換為詞元id序列?x,再使用語言模型LM將?x映射到詞元表達(dá)在任務(wù)級連續(xù)型提示學(xué)習(xí)中,會有一個統(tǒng)一應(yīng)用于所有樣本的提示T.用于將輸入xin轉(zhuǎn)化為xprompt,xprompt是帶有[MASK]標(biāo)記的輸入.然后將xprompt輸入到語言模型中對[MASK]進(jìn)行填空.xprompt通常定義為
在輸入為句子對的任務(wù)中,假設(shè)xin=(xi,xj)是輸入句子對,那么xprompt通常定義為
提示T 可以表示為T={v1:j,[MASK],vj+1:k},其中:vi是提示的第i個詞元,k是提示的長度.因為LM是采用遮蔽詞語重組進(jìn)行語言建模的語言模型(masked language modeling),所以提示中會包含一個[MASK]詞元.用V來表示LM的詞列表,并以M:Y →V成為從任務(wù)標(biāo)簽空間Y到語言模型單詞表空間V的映射.然后原任務(wù)可以看作語言模型對于輸入xprompt在y∈Y標(biāo)簽空間的分類問題,即
其中:wv表示詞表v∈V對應(yīng)的pre-softmax向量,h[MASK]對應(yīng)的是xprompt輸入[MASK]標(biāo)記處的隱藏向量.最后通過最小化交叉熵?fù)p失來對LM進(jìn)行微調(diào).
本文提出了一種新的學(xué)習(xí)范式,即個性化連續(xù)型提示學(xué)習(xí),它為每個樣本學(xué)習(xí)個性化的提示.如在單句類型任務(wù)中,將原輸入樣本xin通過加入提示重構(gòu)為新的輸入xprompt
其中T(xin)是給定輸入xin得到的個性化提示.
相應(yīng)的,在句子對類型任務(wù)中,將xin=(xi,xj)用以下格式重構(gòu)為xprompt
接著通過最小化公式(3)中的預(yù)測概率p(y|xin)與真實樣本之間的交叉熵?fù)p失來微調(diào)語言模型.
現(xiàn)有的提示學(xué)習(xí)方法通常對任務(wù)內(nèi)所有樣本應(yīng)用統(tǒng)一的提示,其中存在潛在的粗略一致性假設(shè):所有樣本可以共享相同的提示.然而,由圖1可知,這種假設(shè)是有風(fēng)險的.因此,本文嘗試根據(jù)每個樣本的語義信息來學(xué)習(xí)一個個性化的提示,提出了如圖2所示的個性化連續(xù)型提示學(xué)習(xí)框架來訓(xùn)練一個個性化連續(xù)型提示生成器.同時,本文進(jìn)一步提出了兩種校準(zhǔn)技術(shù)來調(diào)整提示生成器的輸出:1)多樣性校準(zhǔn)迫使提示在樣本之間多樣化;2)分布校準(zhǔn)強(qiáng)制提示的分布近似于特定分布,以便更好地模擬提示的一致性.接下來,將詳細(xì)介紹提示生成器和兩個校準(zhǔn)模塊.最后,將給出訓(xùn)練目標(biāo)的公式定義.

圖2 本文提出的PCP-tuning框架
個性化連續(xù)型提示學(xué)習(xí)的基本步驟在2.3節(jié)中已定義.本文設(shè)計了一個用θ參數(shù)化的個性化提示生成器網(wǎng)絡(luò)PG(.;θ),其將為每個輸入xin生成它對應(yīng)的個性化提示PG(xin;θ).則xprompt可表示為
對應(yīng)句子對類型的輸入xin=(xi,xj)則為
基于Liu等的研究[16],提示內(nèi)每個向量不應(yīng)該相互獨立,所以本文選擇雙向長短期記憶網(wǎng)絡(luò)(LSTM),結(jié)合使用了ReLU激活的兩層多層感知器(MLP)來作為提示生成器的架構(gòu).
受到對比學(xué)習(xí)的啟發(fā)[24-25],本文將對比學(xué)習(xí)應(yīng)用于多樣性校準(zhǔn)模塊中.與以往方法僅對模型輸出進(jìn)行對比損失計算不同[26],本文引入對比損失,旨在使不同樣本所對應(yīng)的提示之間呈現(xiàn)多樣性.具體而言,給定一個輸入xin,多樣性校準(zhǔn)的損失Ld(xin)定義為
其中:s(·)是余弦相似度函數(shù),用于計算兩個提示表達(dá)之間的相似度,τ是對比學(xué)習(xí)的溫度控制系數(shù).是通過往返翻譯(英文-中文-英文)xin得到的增強(qiáng)樣本.,B是訓(xùn)練中每批的訓(xùn)練樣本集合,B+則是B對應(yīng)的所有增強(qiáng)樣本.
為了防止提示分布過于無序,提出了分布校準(zhǔn)模塊,以強(qiáng)制提示分布近似于特定的分布,從而更好地對提示的一致性進(jìn)行建模.使用高斯分布作為目標(biāo)分布,也可以考慮其它分布,如長尾分布.分布校準(zhǔn)策略分為兩種:1)預(yù)校準(zhǔn)使用精心選擇的離散提示對提示生成器進(jìn)行預(yù)訓(xùn)練;2)后校準(zhǔn)對提示發(fā)生器輸出的提示進(jìn)行校準(zhǔn).兩種策略的詳細(xì)步驟如下.
預(yù)校準(zhǔn).此策略在開始正式訓(xùn)練前,先使用一個優(yōu)秀的離散提示Tt預(yù)訓(xùn)練提示生成器PG(.;θ).給定輸入樣本xin∈Dtrain,預(yù)訓(xùn)練通過最小化以下?lián)p失進(jìn)行θ的優(yōu)化
其中h(Tt)是離散提示Tt相應(yīng)的表達(dá)張量.預(yù)訓(xùn)練后的提示生成器將生成近似服從于高斯分布(h(Tt),σ2)的提示,方差σ2反映了生成提示的多樣性.
預(yù)校準(zhǔn)在整個少樣本學(xué)習(xí)過程正式開始之前進(jìn)行.因此,也可以將其視為提示生成器的熱身步驟.在此策略中,選擇合適的目標(biāo)提示Tt非常重要.本文使用的Tt來自于LM-BFF[17]中生成的提示.
后校準(zhǔn).該策略的做法是引入額外的離散提示來對提示生成器的輸出進(jìn)行后處理,讓輸出近似于高斯分布.假設(shè)有一個優(yōu)秀的離散提示Tt,便可以通過以下公式獲得校準(zhǔn)后的提示Tc=h(Tt)+λPG(x;θ),其中λ是控制離散提示表達(dá)張量和提示生成器輸出的提示之間的混合程度.Tc近似服從于高斯分布N(h(Tt),λσ2),高斯分布的方差項σ2由提示生成器的輸出來控制.
與預(yù)校準(zhǔn)類似,選擇合適的離散提示Tt在此策略中也很重要.本文提出了兩種簡單有效的方法來解決這個問題:1)精心設(shè)計好的離散提示;2)由簡單詞匯隨機(jī)組合成的離散提示.雖然選擇設(shè)計好的離散提示是合理的,并且還有性能保證,但對于全新的任務(wù),設(shè)計好的離散提示就沒那么容易獲得.所以本文提出了另一種簡單有效的方法,只需在多個常用單詞或符號(如“the”“a”“.”等)隨機(jī)排列組合成的序列中隨機(jī)位置插入[MASK]詞元便可作為離散提示使用,且可以在句子分類任務(wù)中獲得與精心設(shè)計好的離散提示相當(dāng)?shù)男阅?
給定一個輸入xin,提示生成器的損失函數(shù)為
其中CE為交叉熵?fù)p失.
結(jié)合了多樣性損失函數(shù)后,整個xin的損失函數(shù)為
其中β是超參數(shù).
最后,對語言模型LM(.;W)和PG(.;θ)進(jìn)行微調(diào)
場景任務(wù).本文對GLUE[27]的10個公共基準(zhǔn)任務(wù)進(jìn)行了全面評估,包括單句分類任務(wù):SST-2,MR,CR[28],Subj,TREC[29],MPQA[30];句子對類型分類任務(wù):MNLI,SNLI,QNLI,MRPC.這些任務(wù)都與對比算法P-Tuning V1[16]保持一致,以便可以對結(jié)果進(jìn)行公平合理的比較.
基線(baselines).分為三種類型:1)無提示,在少樣本或者全樣本的環(huán)境設(shè)置下,直接微調(diào)更新整個語言模型的所有參數(shù);2)人工提示,使用一個固定的人工提示來協(xié)助語言模型微調(diào),與GPT-3中的零樣本學(xué)習(xí)、上下文情景學(xué)習(xí)一致;3)可學(xué)習(xí)提示,LM-BFF[12]是一種經(jīng)典的離散提示學(xué)習(xí)方法.P-Tuning V1[16]和DART則是連續(xù)型提示學(xué)習(xí)的代表.
評估指標(biāo)(metrics).本文根據(jù)準(zhǔn)確性(Acc)和F1指數(shù)來評估模型的性能.
實現(xiàn)環(huán)境細(xì)節(jié).基于Intel(R)Xeon(R)Platinum 8255C CPU和Nvidia V100 GPU.代碼在PyTorch[31]上實現(xiàn).實驗的基本設(shè)置與LM-BFF[12]和DART相同.模型性能表現(xiàn)評估方面,對于每個任務(wù),使用了5個固定的隨機(jī)種子Sseed={13,21,42,87,100}分別進(jìn)行實驗,最終表現(xiàn)取5個精度的平均值.并使用RoBERTa-large作為基座語言模型.
表1展示了PCP-tuning的下游任務(wù)分類結(jié)果以及同任務(wù)下相關(guān)對比算法的實驗結(jié)果.PCP-tuning在除MPQA之外的所有任務(wù)上都優(yōu)于其它方法.與排名第二的結(jié)果相比,新方法在Subj和TREC任務(wù)上獲得了2.1%的性能提升,在QNLI任務(wù)上提升了6.1%,在MRPC任務(wù)上提升了3.1%.這證明了個性化提示學(xué)習(xí)針對少樣本學(xué)習(xí)問題的有效性.實驗發(fā)現(xiàn)新方法在MPQA任務(wù)上表現(xiàn)不佳,通過分析發(fā)現(xiàn)該任務(wù)中樣本輸入的句子非常短(每條輸入長度小于5個詞匯),這極大程度阻礙了需要從輸入中提取語義信息的提示生成器訓(xùn)練.然而,與使用T5模型作為提示生成器的LM-BFF相比,新方法引入的提示生成器是非常輕量級的,極大程度節(jié)省了計算成本.

表1 PCP-tuning在10個基準(zhǔn)任務(wù)上的結(jié)果
表2展示本方法的消融實驗結(jié)果.表中方法縮寫對照如下:D為多樣性校準(zhǔn)(Diversity calibration),WR為預(yù)校準(zhǔn)(Well-designed prompt for pRe-calibration,高質(zhì)量離散提示),WO為后校準(zhǔn)(Well-designed prompt for pOst-calibration,高質(zhì)量離散提示),SO為后校準(zhǔn)(Simple-words prompt for pOst-calibration,簡單詞匯隨機(jī)排列離散提示).可以看到,引入校準(zhǔn)模塊確實可以提高性能.在CR、QNLI和MRPC任務(wù)上使用D+WR的組合為最優(yōu)解,在SST-2和MR任務(wù)上D+WO表現(xiàn)最佳.由此推測,D+WR可能更適合單句類型任務(wù),而D+WO可能更適合句子對類型任務(wù).雖然D+SO沒有優(yōu)于其它策略,但它在大多數(shù)任務(wù)上都能產(chǎn)生相當(dāng)?shù)慕Y(jié)果.考慮到其簡單又節(jié)省計算成本的特性,它將是成本敏感型任務(wù)的不錯選擇.

表2 在SST-2、MR、CR、QNLI和MRPC任務(wù)上的消融實驗結(jié)果
本文進(jìn)行了一系列實驗來進(jìn)行超參數(shù)的選擇和生成提示分布的可視化.
提示長度.設(shè)置為pl={1,3,5,10},并在表3中展示不同長度的提示在兩個任務(wù)上的結(jié)果.由表3可知,提示太長會導(dǎo)致性能下降.SST-2任務(wù)使用長度為3的提示最佳,MR任務(wù)最佳則為1,這表明不同的任務(wù)提示長度設(shè)置需要額外考慮.

表3 不同提示長度的實驗結(jié)果
超參數(shù)λ和β靈敏度分析.新方法引入了超參數(shù)λ控制預(yù)校準(zhǔn)中離散提示和生成連續(xù)提示的混合程度,而超參數(shù)β則權(quán)衡下游任務(wù)的有監(jiān)督損失和多樣性校準(zhǔn)模塊損失.如圖3所示,過大或過小的λ和β都會導(dǎo)致模型性能的下降,最優(yōu)的超參數(shù)設(shè)置是λ=1、β=10.

圖3 超參數(shù)λ和β不同取值時在QNLI任務(wù)上對應(yīng)的精度曲線
類樣本個數(shù)K.表4展示了使用不同類樣本個數(shù)K的小樣本數(shù)據(jù)集對模型性能的影響.可知在所有方法上隨著K的增大,模型性能會提高,并且新方法在所有K設(shè)置下都優(yōu)于其它方法.

表4 K取值為8、16、32時在Subj、QNLI、MRPC任務(wù)上的結(jié)果
提示分布可視化.為了展示訓(xùn)練優(yōu)化不同階段PCP-tuning方法生成的連續(xù)提示分布的演變,本文使用提示生成器結(jié)合后校準(zhǔn)與多樣性校準(zhǔn),在QNLI數(shù)據(jù)集上進(jìn)行了提示微調(diào).圖4為訓(xùn)練步推進(jìn)生成的提示降維可視化分布.優(yōu)化前的提示分布呈U形,通過分析這是由BiLSTM網(wǎng)絡(luò)的特定結(jié)構(gòu)引起的.隨著訓(xùn)練的進(jìn)行,分布趨近于高斯分布.此外還形成了許多局部密集的簇,這也證明提示分布具有局部相似性.

圖4 生成的提示分布隨著訓(xùn)練推進(jìn)的變化
為了研究提示表達(dá)和輸入表達(dá)之間的一致性,本文設(shè)計了一致性指標(biāo)C
其中:SI(xiin,xjin)是兩個輸入xiin和xjin之間的余弦相似度(xiin是第i個輸入標(biāo)記),而SP(xiin,xjin)是提示生成器為樣本xiin和xjin生成的兩個提示表達(dá)之間的余弦相似度,如圖5所示,隨著下游任務(wù)的有監(jiān)督訓(xùn)練推進(jìn),一致性指標(biāo)C增加,且損失函數(shù)值相應(yīng)減小,這表明相似的樣本使用相似的提示將會獲得更好的性能.這將為未來提示學(xué)習(xí)工作提供重要的參考.

圖5 C和損失值變化曲線
本文提出了一種新穎的個性化連續(xù)型提示學(xué)習(xí)方法(PCP-tuning),用于少樣本學(xué)習(xí)任務(wù).PCP-tuning通過優(yōu)化一個輕量級提示生成器來學(xué)習(xí)生成適應(yīng)各個樣本的提示.為了更好地控制生成的提示分布,提出了兩種提示校準(zhǔn)策略:多樣性校準(zhǔn)使針對不同樣本的提示表達(dá)具有多樣化,分布校準(zhǔn)則讓提示表達(dá)近似服從于高斯分布以更好地模擬生成的提示之間的一致性.大量的實驗結(jié)果驗證了新方法的有效性.
本文提出的PCP-tuning方法在分布校準(zhǔn)模塊需要使用額外的離散提示來協(xié)助提示生成器的訓(xùn)練,未來將研究新的提示生成器,在不依賴離散提示的前提下直接生成個性化提示.