鮮于波 黃偉鑫
按照經典論辯理論,論辯是單個或多個主體之間通過單個命題或命題組合來證明自身觀點、表達自身立場、反駁他方觀點,以達到說服對方、消除爭議、謀求共識的理性行為。([24])
由于互聯網的高速發展,用戶在網上產生了海量的論辯性文本。隨著人工智能的發展,尤其是自然語言處理技術的迅速發展,越來越多的研究開始借助機器學習等方法對這些文本進行計算分析。在這些工作中,立場檢測旨在檢測論辯者針對特定話題所發表的觀點的立場傾向,研究如何從非結構化自然語言文本中識別其立場。無論是從其應用前景還是學術價值來看,立場檢測都是非常重要的內容,因此立場檢測已經成為一個新興的熱門研究領域。
從現有的研究來看,大部分的立場檢測都集中在法庭辯論([23])、或者在線論壇中的討論([26])和微博([32])上,相關研究也取得了一定的進展。但是在中文界,論辯挖掘的研究還沒有受到充分的重視,現有大部分立場檢測主要分析社交媒體。從研究的現狀來看,由于問題本身的挑戰性,立場識別的準確性和模型的通用性都還有較大的改進空間。
近幾年來,預訓練大模型的興起([12])標志自然語言處理范式發生了很大的變化。然而人們逐漸發現對大模型進行微調的要求也越來越高,復雜多樣的下游任務也使得預訓練和微調架構的設計變得十分困難繁瑣。因此,研究者們迫切希望能有一種更加高效、輕量級別的少樣本學習方法,而提示學習就代表了這方面的最新研究范式。
在中文自然語言處理領域,有關提示學習的研究方興未艾,但是使用提示模型進行論辯研究的很少,特別是關于論辯文本立場檢測的相關工作也不多。此外,作為論辯挖掘研究基礎的論辯語料庫的構建也是一件很耗費人工的工作。不過提示學習的少樣本學習的特點和優勢非常有利于論辯領域的研究,可以在一定程度上解決數據稀缺、模型微調難和泛化能力差等問題。因此,將提示方法應用到論辯文本立場檢測就有良好的理論和實踐意義。
本文通過開展論辯文本立場檢測的研究,在新構建的論辯數據庫上采用新的提示學習方法進行模型構建和小樣本實驗,表明提示學習的模型設計方法有助于文本論辯立場檢測任務,并在小樣本的條件下也依然能取得十分可觀的性能。
主要創新在于針對論辯文本立場檢測任務下實現了提示學習的方法。本文設計了兩種新型的適用于立場檢測任務方法:掩碼位置導向手工模板和語義相似度加權表達器,還實現了提示學習領域自動模板生成方法([13])在立場檢測上的設計,并與手工模板進行了實驗對比。實驗結果顯示本文基于提示學習的中文立場檢測模型P-RoBERTaMPOT+SSWV達到了較好的效果:通過使用少量數據訓練,該模型就能達到與主流大模型微調模型相近的效果,特別是在中文論辯數據集上實現了較大的性能改進。
本文的內容安排如下:首先分析論辯文本立場檢測的發展與現狀,并對基于提示學習的立場檢測模型的設計思路和方法進行介紹,然后在一般提示學習模型的主要框架上,引入了P-RoBERTaMPOT+SSWV中的模板工程和表達器工程,隨后進行模型的實驗評估與分析,最后是分析和展望。
文獻中關于立場檢測任務主要有三種主流定義:通用立場檢測([14]),謠言立場檢測([30])以及假新聞立場檢測([8])等。通用立場檢測又可以分為多目標立場檢測([19])和跨目標立場檢測([3])。目前文獻中數量最多、最常見的關于立場檢測的定義是單目標立場檢測。從關注的問題來看,論辯文本的立場檢測屬于一種特殊的立場檢測類型,但是由于論辯文本的特點,論辯立場的檢測也自有特殊之處。
立場檢測的早期工作中,一個典型的方法來自Somasundaran 等([20]),他們把重點放在了在線辯論上。其他的一些研究則增加了對討論線程之間互動性的研究,例如Stede 等([22])強調了反駁(rebuttals)在討論當中的重要性。Hasan 等([9])對意識形態論辯進行了研究。對于在線辯論,Sridhar 等([21])的研究將語言學特征與基于網絡結構的特征進行了結合。還有一些立場檢測研究分析了學生論文,如Faulkner 等([6,32])。
在現有文獻中,現有的立場檢測方法大致可以分為兩大類:基于特征的統計機器學習方法和深度學習方法。([33])
在現有的研究中,基于特征的傳統統計機器機器算法如支持向量機([9])、決策樹和隨機森林([1])、隱馬爾可夫模型HMM 和條件隨機場CRF([9]),K 近鄰算法([18]),對數線性模型([5]),最大熵([10])等方法都得到廣泛的應用。
近年來,隨著人工智能的發展,深度學習(如RNN 及其變體和CNN 等)被大量應用于立場檢測的研究中,如雙向LSTM([3])、卷積神經網絡CNN([36])和加入注意力機制Attention 的神經網絡方法([29,32])等。
深度學習雖然功能強大,但存在模型體積大、訓練時間長等特點,并且不同的下游任務需要訓練和保存不同的模型,這要消耗大量的資源空間。因此隨著預訓練和大規模語言模型尤其是GPT([16])的發展,提示學習成為自然語言處理領域的一種新范式。大模型如bert([25])、GPT-3([16])等帶來了一種新處理下游任務的方法:通過使用自然語言提示信息和任務示例作為上下文,因此只需少量樣本甚至零樣本。該方法能更好地利用預訓練模型中的知識,能獲得更好的性能和增強模型的泛化性能。
提示學習方法在許多自然語言處理任務上均可獲得不錯的效果。隨著這一新范式的提出,許多研究者開始針對不同任務手工設計提示模板([4,15,27])等。但是手工設計提示模板比較耗時耗力,因此最近也有一些針對自動化模板的方法研究。例如Hambardzumyan([7])等提出了一種自動提示生成方法,簡化了提示模板的設計。
在提示學習中,一項十分重要的工作是設計表達器或映射(verbalizer),如Schick 等([17])手工制作的表達器等。但手工設計受先驗知識影響較大,還需要足夠的數據集來進行優化調整。有鑒于此,一些研究提出了提示學習的自動表達器的構造方法,如Wei 等([28]),還有一些其他工作嘗試從外部知識庫中選擇相關詞等([11])。
總的來看,提示學習新范式具有很多的優勢。使用提示模板,使得模型可以在少樣本學習條件下也能達到較高性能。提示學習通過將下游任務融入提示,設計模板的工作量和資源耗費要大大小于微調預訓練模型。此外,提示學習中手工模板是由自然語言構成的,這意味著人們可以比較方便地借助自己對下游任務相關的領域知識來設計模板,提高模型的可解釋性。
從上面的分析也可以看到,現有研究在論辯文本立場的研究中采用提示學習方法的研究很少,尤其是中文世界在論辯挖掘方面的研究還處于一個起步階段。因此,在中文文本包括網絡文本分析領域,采用提示學習和少樣本學習的方法對論辯文本立場進行分析是非常有必要的和有意義的工作。
本文立場檢測模型基于提示學習,這里提示學習主要框架包括提示模板工程、預訓練模型以及表達器工程三個大模塊。([12])
3.1.1 提示模板工程
在提示學習方法中,第一步是提示模板工程。本文先給出提示學習在文本分類任務中的一般定義。給定一個輸出x={x1,...,xn},其真實標簽y ∈Y(Y表示所有類別的標簽集),標簽詞集Vy定義為{v1,...,vn},其中Vy ∈V(V表示模型的整個詞匯表)被映射到標簽為y的類別中。在預訓練語言模型M 中,Vy的每個詞vi被填充到掩碼([MASK])的概率可以表示為:P([MASK]=v ∈Vy|xp)
由此,立場檢測的任務可以轉換為標簽詞的概率計算問題,計算公式如公式(1):
3.1.2 預訓練模型
關于預訓練模型,翁沫豪([34])最近的研究對比了各類預訓練模型在論辯立場檢測任務上的性能,他的實驗證明RoBERTa([35])在立場分類任務上表現最好。RoBERTa在其他場合也得到廣泛的應用。因此本文將采用RoBERTabase進行實驗。
3.1.3 表達器工程
表達器是一類用來將標簽詞映射到類別詞的函數以緩解文本與標簽空間的差異。一種最常見的做法是用與標簽y相關的詞對Vy進行擴展,例如在話題識別任務中V={“體育”}可以通過知識圖譜、語義關聯等方法進行擴展,如:
在立場檢測任務下,必須注意的是,立場檢測任務的文本所涉及的領域并不是某一特定領域,標簽之間的領域存在交叉性,這在模型設計中應予以考慮。
模板工程的方法可以分為手工設計模板和自動模板生成兩大類。手工設計的模板采用自然語言的形式,由詞匯表中離散的詞或token 組成。由于手工模板是較為耗時費力的任務,因此開始學術界提出了自動化的模板生成方法。([13])
本文分別在手工與自動模板上進行了立場檢測模型的設計。在手工模板設計上使用掩碼位置導向的手工模板,在自動模板生成方法上使用P-tuning 方法實現立場檢測任務。
3.2.1 掩碼位置導向的手工模板
如采用手工方式設計一個立場檢測模板,首先一個問題是如何將立場檢測的任務特點與模型的架構結合起來。本文采用的RoBERTa是一種掩碼語言模型,那么我們需要設計的模板就應該是通過MASK 遮蔽某些詞,然后讓模型預測出它的值,然后將預測出的值映射到數據的真實標簽上。
一個做法是將立場檢測任務轉換成一個完形填空問題。但與一般的文本分類任務不同的是,立場檢測任務有兩個輸入,一個是話題,一個是該話題下的一段文本。上述兩個輸入關聯性很強,如何將這兩個輸入關聯起來,就是立場檢測任務進行手工模板設計的主要挑戰。
本文從MASK 出發,以MASK 在模板中的位置關系作為導向,設計了掩碼位置導向的手工模板-MPOT(Mask Position oriented Template)。為了盡可能的對比各類模板以體現方法的可靠性和一般性,本文從模板中出現的輸入和掩碼的位置關系出發,窮舉了所有可能并對每種可能的位置關系設計了一個手工模板。具體方法如下。用X 表示輸入的話題,T 表示輸入的文本,M 表示掩碼MASK。根據三者在模板中的位置關系,總共有XTM、TXM、XMT、TMX、MXT、MTX 六種情況,分別設計了如下六種手工模板。
P1=:X 話題中,觀點T 持M 態度
P2=:在X 話題中持M 態度
P3=:以下觀點在X 話題中持M 態度:T
P4=:觀點T,M 話題X
P5=:M 話題X:T
P6=:一個M 觀點:T,話題:X
根據掩碼M 所在的位置,模板可以分為三類:前置掩碼模板:P1,P2,中置掩碼模板:P3,P4,后置掩碼模板:P5,P6。同時,由于立場檢測任務的分類標簽是支持、反對以及中立,均為兩個字組成的詞。RoBERTa的中文分詞器是以字為單位進行分割的,因此我們的模板在實際實驗時需要添加兩個空位,如對模板P1來說,實際輸入時應該為“在X 話題中,觀點T 持MM 態度”。
3.2.2 自動提示模板
本文對立場檢測模板如何自動化構建進行了探究。自動模板設計的一項新方法來自Liu 等([13])提出的一種名為P-tuning 的方法,該方法的特點是可以自動搜索連續空間中的提示,使用梯度下降方法將模板的構建轉化成了連續參數優化問題。
據此,本文設計了立場檢測自動提示模板(Auto P-tuning for Stance Detection),其主要結構如下:
令V表示預訓練模型M的詞匯表,[Pi]表示模板P中的第i個token。X表示話題,T表示文本,Y表示標簽。P-tuning 將[Pi]視為偽token 并將模板Pauto映射為:
其中,hi ∈V(0≤i ≤m)是可學習的嵌入向量(Embedding vector),將其定義為新的輸入嵌入層作為模型編碼器Encoder 的一部分。在訓練的過程中,保持預訓練模型參數不變,僅更新構造的嵌入層參數,最后,根據本任務的目標函數L,對連續提示進行優化。
本文采用分類問題常用的交叉熵作為目標函數,可以通過最小化交叉熵來得到目標函數分布的近似分布,它的表達式為:
其中D為數據真實結果的概率分布,M為模型預測結果的概率分布。
與[13]提出的模式類似,圖1 是掩碼位置導向的手工模板MPOT 以及實現了自動模板生成方法Auto P-tuning 在立場檢測任務上的概念示意圖。
其中離散手工提示以手動模板作為例子。黃色框代表模板中固定的詞;藍色框中X代表輸入的話題,T代表輸入的文本;紅色框[MASK]代表掩碼的所在位置(模型需要預測的位置)。在圖1 左圖離散手工提示中,MPOT 模板生成器生成手工模板后,模板固定不再改變,通過預訓練模型和表達器來實現預測。在圖1 右圖連續自動提示中,通過偽提示詞和提示編碼器通過反向傳播機制可以不斷更新與優化。

圖1:離散手工提示和連續自動提示的示意圖
表達器的主要目的是構建標簽詞到類標簽的映射。本文經過標簽詞集的構建與擴展、表達器的使用兩個步驟構造了一個語義相似度加權表達器SSWV(Semantic Similarity Weighting Verbalizer)。
3.3.1 標簽詞集的構建與擴展
對于本文的立場檢測問題,真實類標簽集為Y={支持,反對,中立}。那么最簡單、直觀、基礎的標簽集可以構建為V支持={支持}、V反對={反對}以及V中立={中立}。
有了這個基礎標簽集后,如何對其進行擴展有不同的做法,而對于立場檢測任務,一般的方法比較難以適用。任何領域、任何話題下的文本都可能存在立場,立場可以用支持、反對、中立來被劃分,從這三類標簽不難看出,很難找到一個領域的知識能與支持或反對或中立相匹配,且不產生知識交叉。一種方法是通過外部知識融入的方法來擴展標簽詞集([11]),另外很多研究者采用了不同的分類標簽命名來完成立場檢測任務,例如Gorrell 等([11])使用了評論(comment),支持(support),疑惑(query),否認(deny)作為立場分類標簽。不難發現,這其中很多標簽所表達的含義和指向的數據是相同的,比如贊成、同意、支持等,都是表達正面一方的立場。因此本文采用尋找與標簽語義相近的方法對標簽詞集進行擴展,以支持、反對、中立三個標簽作為語義中心詞,尋找詞向量空間中與之距離相近的詞作為擴展詞。
本文選擇詞表容量最大的中文近義詞工具包Synonyms 來進行語義相似度計算。我們利用Synonyms 對三個標簽分別進行近義詞語義相似度搜索,只選擇其中長度為2 的詞,并從每個標簽的候選詞中選擇了相似度最高的10 個詞作為擴展詞。擴展后的標簽詞集見表1:

表1:立場檢測擴展標簽詞集
3.3.2 表達器的使用——基于加權平均算法
根據上小節,給定一個立場標簽,其對應的標簽詞集已經被擴展到包含10 個標簽詞的集合。下面對這些標簽詞在表達器中如何恰當使用進行設計。一些論文采用了平均法對標簽詞集的概率值進行計算,本文中,每個標簽詞的重要性明顯是不同的,因此采用加權平均算法,將各標簽詞集的相似度進行歸一化后作為加權權重,以區分個標簽詞的重要性。
具體計算公式如下:類標簽y ∈Y所對應的標簽詞集Vy={v1,...,vn},它所對應的語義相似度集為:SVy={SV1,...,SVn}。那么根據公式(4)可得權重向量WVy={wV1,...,wVn}
那么,模型的輸出標簽y~的計算公式如下:
即給定一個輸入xp,通過模板工程和預訓練模型后獲得某類標簽y 所對應的標簽詞集所有標簽詞的對數概率后,根據權重向量加權求和,得到該標簽的條件概率值,并由此輸出立場預測。
本文實驗的第一階段是模板篩選,對本文設計的6 個MPOT 手工模板和自動模板方法P-tuning 進行對比實驗,從而篩選出其中最佳的模板方式,得到本文的最佳模型。第二階段是少樣本學習實驗。目的是檢驗第一階段得到的RoBERTaMPOT+SSWV在少樣本場景下的性能。分別設置了0、32、64、128 四個數量級別的訓練樣本數,還對原始數據集的每個話題進行分層抽樣以提高樣本的代表性。
所有實驗在兩個中文數據集上進行,分別為NLPCC 2016 年共享任務中所發布的“中文微博立場檢測”數據集和中山大學網絡文本論辯語料庫,前者在中文立場檢測領域是最為常用的數據集。
“中文微博立場檢測數據集”共包括4000 條微博數據,被分成五個話題類,每個數據都有一個立場標簽,為代表支持的“FAVOR”、代表反對的“AGAINST”以及代表中立的“NONE”中的一個。
中山大學網絡文本論辯語料庫是2022 年由中山大學邏輯與認知研究所建立的一個中文論辯挖掘語料庫,文本來源于國內最大的問答社區知乎,包含的話題總計有26 個,涵蓋了經濟、社會等多個領域的爭議性話題。該數據庫也有三個標簽,分別為代表支持,反對和中立的的“pro”,“con”和“non”。

表2:數據集大小統計表
4.2.1 模板篩選實驗
對于兩個數據集均使用70%的數據作為訓練數據,15%的數據作為測試數據為驗證集數據,15%的數據作為測試數據。根據表2,數據的長度平均在與100 以內,最大的也僅為332,數量也很少,因此本文實驗的maxlen 統一設置為256 以盡可能的保留更多的文本信息,并對不足長度的數據進行填充。
對于微博數據集,在每個模板上均訓練了30 個輪次,對于中山大學網絡文本論辯數據集,由于數據集更大,對每個模板訓練了50 個輪次。優化后的實驗參數設置見表3。
4.2.2 少樣本學習實驗
該部分實驗設置了0、32、64、28 四個數量的樣本訓練集。由于數據量不同,模型最終收斂的輪次也不同,這里每個實驗均取過度擬合前最大的指標值。

表3:模板篩選實驗參數表
實驗對比的主要模型有:
微博數據集的對比模型:奠雨潔等([31])中文微博立場檢測模型以及趙姝穎([35])。另外國外相關研究也進行了參考[2]。論辯語料庫的對比模型:翁沫豪([34])對所構建的論辯語料庫進行了立場檢測任務,在RoBERTabase上達到了70.6%的準確率。
本文對RoBERTabase+Fine tuning 在少樣本實驗上保持翁([34])參數設置,學習率為2e-5,訓練批次3 輪。由于奠雨潔等([31])并沒有公開其模型的具體實驗代碼與參數,無法對其進行少樣本學習實驗。本文主要與其完整訓練的模型結果進行對比。
4.3.1 模板篩選實驗

表4:模板篩選實驗結果
在兩個數據集上的實驗結果都記錄在了表4 中,從實驗結果可以看出:
(1) 手工模板P6在兩個數據集上均取得了最高的F1-Score,分別為0.68 和0.8725,并且在論辯語料庫中取得了最高的準確率0.8918。雖然在微博數據集上P6的準確率低于P3,但只相差不到0.003。因此,根據實驗結果可得P6是當中最佳的立場檢測手工模板。
(2)前置掩碼的模板要比中置、后置掩碼的模板效果要好(前置掩碼模板:P1,P2,中置掩碼模板:P3,P4,后置掩碼模板:P5,P6)。其可能原因有以下兩點:一是前置的掩碼,其位置在長度不斷變化的數據加入后,掩碼的Mask 的位置比較固定。例如對比模板P5和模板P1,在文本數據輸入并生成模板后,P5中的MASK位置始終保持在首位(除模型固定的特殊符號[CLS]外);而對于P1模板,其位置則會隨著輸入的觀點和話題的長度大小而改變。相對固定的MASK 位置會給與模型一定的監督信號,并在不斷的訓練過程中疊加增強。另一個可能的原因是與模型學習的難度有關,可能數據前置位的規律更容易被識別,相對與后置位更容易學習。
(3)對比手工模板和自動模板方法,可看出P-tuning 在兩個數據集上的表現不盡人意,而且P-tuning 方法在收斂速度較慢。
(4)對比數據集之間的性能差別,中山大學網絡文本論辯語料庫(以下簡稱論辯語料庫)比中文微博立場檢測數據集性能高。這說明了論辯語料庫中的文本立場能更準確被模型所檢測,這體現了論辨性越高的文本,立場就越容易識別。
經過以上對第一階段實驗結果分析,本文通過掩碼位置導向的手工模板方法MPOT 選擇出的最佳模板為手工模板P6,結合所使用的RoBERTa預訓練模型和語義相似度加權表達器,得到提示學習的立場檢測模型:P-RoBERTaMPOT+SSWV。

表5:少樣本學習實驗結果
少樣本學習實驗結果如表5,模型P-RoBERTaMPOT+SSWV僅用128 個數據訓練的條件下在兩個數據集上分別達到了60.75%和68.35%的準確率。從實驗結果可見:
(1)P-RoBERTaMPOT+SSWV在零樣本學習下均取得了50%左右的準確率。如果直接使用RoBERTa的預訓練任務進行零樣本預測,其準確率在兩個數據集上均不到30%。這反映了本文設計的MPOT 和SSWV 確實能夠提高RoBERTa的預測能力。
(2)隨著實驗從0-shot 到128-shot 的變化,所有方法的性能都有所提升。這表明增加有標簽的數據數量可以一定程度上增加少樣本學習的效果。
(3)針對微博數據集而言,P-RoBERTaMPOT+SSWV在與使用128 個數據的少樣本學習條件下達到了60.75%,與使用預訓練模型RoBERTa在所有數據的條件下進行微調的結果64.83%只相差了4 個百分點,而兩者所使用的數據量相差大約23倍之多,訓練時間相差15 倍。由此可見,基于提示學習的P-RoBERTaMPOT+SSWV模型在少樣本學習下,幾乎可以媲美預訓練模型+微調的方法,這將節省大量的數據標注、模型訓練的人力和時間。
(4)針對論辯語料庫而言,P-RoBERTaMPOT+SSWV在少樣本學習下所達到的效果幾乎與方法持平(在128-shot 下僅相差2 個百分點)。而如使用所有數據,更是大幅超越了RoBERTa+FT 的方法,提升了18.58%。
總的來說,模型P-RoBERTaMPOT+SSWV在大多數情況下達到了較好的表現,尤其是在少樣本學習的場景下以及在論辯語料庫上實現了較大幅度的性能提升,并且模型在具有一定差異性的數據集上均實現了穩定的性能,這也表明了該模型具有較好的泛化性能。
為了更好地理解模型的內部結構以及模型對數據的處理,本文進行了三個補充實驗,以觀察所設計的SSWV 表達器對模型的影響。
補充實驗一:表達器vs.SSWV 表達器

表6:表達器對比實驗
本實驗保持其他模型架構不變,僅改變其中的表達器。以未進行任何知識擴展的表達器,只是將標簽類名作為標簽詞的作為對比表達器,結果顯示,本文設計的SSWV 在不同數據集上均使模型有較大幅度的提升(分別約為8%、11%)。這體現出使用語義相似度對進行標簽擴展的方法的有效性。
補充實驗二:立場檢測各類別的模型指標
本文的立場檢測有三個類別,分別是支持、中立和反對。本實驗對模型在這三個類別數據上的性能進行了統計,使用精確率、召回率和F1-Score 作為評價指標。實驗結果見表7:

表7:類別指標對比實驗
通過實驗結果,可以看到本文模型在支持和反對類別的數據上均有較好的性能表現,F1-Score 均超過0.9,而在中立類別的數據上表現較弱一些。這顯示了模型對立場鮮明的數據有更好的預測能力,而對立場不明確的文本表現稍弱。
補充實驗三:語料庫大小對自動模板生成方法P-tuning 的性能影響
由前面的結果可見,自動模板生成方法P-tuning 的性能表現欠佳,可能原因之一有數據樣本過少。本文在中山大學網絡文本論辯語料庫的基礎上,擴充該語料庫,觀察P-tuning 的性能。我們采用了增加現有的語料庫的方式。UKP Sentential Argument Mining Corpus 是一個英文文本論證語料庫,含8 個話題共25492 個句子的數據,每個論證采用“話題+論證句+立場”的形式。本文通過使用谷歌翻譯獲得了相應的中文文本。然后將其與原語料庫混合并隨機打亂進行實驗,結果顯示在表8:

表8:擴充語料庫對自動模板生成實驗
由此可見,擴充語料庫對自動模板生成確實有一定的準確率的提升(5%),但對比手工模板仍然有一定的差距,這說明了單純擴大語料庫規模的方法還是有一定的局限性。
本文結合自然語言處理領域最新的提示學習方法對立場檢測任務展開了研究,提出了一種新型的基于提示學習的立場檢測模型P-RoBERTaMPOT+SSWV,獲得了較好的效果,并在少樣本學習的場景下取得了與預訓練+微調的方法相近的性能。實驗顯示,在零樣本學習場景下,提示學習的方法確實能改進現有的結果,這顯示了提示學習的有效性和發展前景。實驗也表明論辯結構越明顯的文本,其立場檢測效果越高。這既體現出論辯文本的特點,也證明提示學習在論辯文本立場的分析上可以發揮更多的作用,值得我們進一步去探索。
本文也存在一些不足和有待改進之處,如在提示學習框架中,對不同體量和架構的預訓練模型的對比研究或采用更新的預訓練大模型也是十分有必要的。此外,如何更好地設計具體手工模板的語言是一個重要問題,如何改進自動模板生成方法以及提出更好的提示方法也有待將來進一步的研究。