



摘要:文本提出一種融合知識蒸餾(KD)和對比學習(CL)的協同訓練范式。這種范式憑借知識蒸餾機制,將多個教師模型所包含的豐富語義邏輯和泛化知識遷移到輕量級學生模型上;同時,它還會利用對比學習策略,在特征空間中顯著拉開諷刺和非諷刺樣本之間的語義距離,進而改善特征的聚類性和判別性。實驗表明,所提出的協同方案明顯提高了諷刺定位的準確度以及分類效果,提升了特征表現的魯棒性,還降低了復雜場景下的語義混淆概率。在SC10k和SC100k教育領域諷刺評論數據集上進行的一系列實驗顯示,模型達成率為90.1%,目標達成率為77.9%。這項研究既證實了大小模型協同和對比學習在識別諷刺方面的效果,也為社交媒體大規模文字情緒挖掘提供了一種精確且有效的方法,具有較好的實用價值和推廣意義。
關鍵詞:諷刺識別;目標定位;大小模型協同;知識蒸餾;對比學習;特征優化
中圖分類號:TP391.1" " " " 文獻標識碼:A
文章編號:1009-3044(2025)24-0020-03
開放科學(資源服務) 標識碼(OSID)
0 引言
現有諷刺識別方法面臨三大瓶頸:特征空間重疊削弱分類邊界,噪聲敏感導致魯棒性不足,目標實體關聯建模缺失。本文首次提出了一個知識蒸餾與對比學習相結合的框架。基本思路是:運用知識蒸餾的方法,將預先訓練好的大教師模型(如BERT大型模型) 所獲得的復雜的語言理解模式和決策邊界知識,高效地遷移到較小的學生模型(如DistilBERT) 中[1]。同時,加入對比學習部分,即精心挑選正負樣例對,例如用意思相同但表述不同的文字構建正樣本,并在同一批數據中挑選不同類別標簽的樣本作為負樣本,促使模型學習更具區分度的特征表示,從特征空間的角度出發,顯著增大諷刺和非諷刺樣本之間的類間距離,緩解特征混雜情況。這種協同作用為實現高精度識別、低延遲推理以及強泛化能力提供了理論和技術支持。該方案通過改善特征空間的表達效率和判別能力,或許會為構建高效、準確的社交媒體情感分析系統提供新的技術途徑和理論依據。
1 模型建立
1.1 模型總體架構設計
(1) 教師模型:采用預訓練語言模型“BERT-large”作為基礎架構,輸出諷刺概率預測分布[PT=softmax(zT/τ)]以及目標位置預測。
(2) 學生模型([MS]):采用“DistilBERT”作為基礎架構,輸出輕量化預測PS? = [softmax(zS/τ)。]
(3) 協同優化模塊:采用知識蒸餾(KD)通路,最小化教師與學生輸出的KL散度:
[LKD=τ2?iPiTlogPiTPiS (τ=5)] (1)
對比損失學習通路:基于InfoNCE損失優化特征空間:
[LCL=-logexp(sim(fa,f+)/τ)k=1NIk≠aexp(sim(fa,fk)/τ)] (2)
正樣本通過隨機掩碼或同義詞替換生成,負樣本選取批次內異標簽樣本[2]。
(4) 總目標函數:[L=0.7Ltask+0.2LKD+0.1LCL]
1.2 對比學習模塊實現
作品對比旨在學習具有高度風格內聚性和表現力判別性的藝術特征。其關鍵步驟包括:
(1) 參照樣本組構建:
基準作品(A):原始創作樣本。同質作品(A+):對A進行保持藝術核心不變的表現形式微調生成(如局部元素重構、表現媒介替換) 。
異質樣本(N):同教學單元中除A外所有其他作品,特別強調將不同藝術風格的樣本作為高價值參照范例[3]。
(2) 特征表示提取:素養發展評估模塊處理樣本后,提取其標準化的藝術特征向量,通常取深層特征層輸出。
(3) 表現差異計算:采用藝術判別損失作為優化目標。對于基準作品:
[LAD=-logexp(?(fA,fA+)/τ)k=1BIk≠Aexp(?(fA,fk)/τ)] (3)
其中:[fA]表示基準作品的標準化特征向量;[fA+]表示同質作品的特征向量;[τ]表示評價嚴格度系數(本文取5) ;B表示課堂單位規模;[Ik≠A]當[k≠A]時為1;[?](·)即作品表現相似度。該損失核心在于最大化基準作品與其同質作品的關聯強度與所有異質作品關聯強度之和的比值。
1.3 總體目標函數與優化策略
素養發展評估模塊的最終訓練目標是將美育素養識別任務損失、評價標準傳遞損失與藝術判別損失進行聯合優化:
[L=λAELAE+λESDLESD+λADLAD] (4)
其中:[λAE]為美育素養評價交叉熵損失;λ為損失權重系數。經實證分析確定最優權重組合為[λAE] =0.7,[λESD]=0.2,[λAD]=0.1。該配置確保以核心素養評價為主體,有效融入標準傳遞與藝術判別的優化信號。優化過程采用動態評價調整機制,結合階段性反饋策略,在多輪教學循環中最小化L[4]。通過該機制,評價體系能夠同步整合多維標準、構建判別性特征空間,精準實現素養發展評估與美育目標達成度檢測,最終達成評價效度、實施效率與適應性的協同進化。
2 實驗設置與分析
2.1 數據集與預處理
實驗采用教育領域公開的諷刺評論數據集SC10k(10 000條) 和SC100k(100 000條) 。數據集關鍵統計指標詳見表1。數據預處理包括:文本清洗(去除特殊符號、URL) 、分詞(使用BERTTokenizer) 、序列截斷/填充至統一長度。數據集按8:2比例劃分為訓練集和測試集。
2.2 基線模型與對比設定
為全面評估KDCOS框架性能,選取以下具有代表性的基線模型進行對比:
[TARGET-BERT[引用]]:專門針對諷刺目標識別設計的BERT變體,是諷刺目標定位任務的強基線。
[BERT-base:]標準[BERT]模型,僅使用交叉熵損失進行諷刺分類訓練,代表主流方法性能。
[DistilBERT-base:BERT]的輕量化蒸餾版本(基礎訓練,未加入本文[KD/CL]) ,評估基礎小模型性能[3]。
[BERT-base+KD]:在[BERT-base]上僅應用知識蒸餾(教師為[BERT-large]) ,評估純KD效果。
[BERT-base+CL]:在[BERT-base]上僅應用對比學習(同本文[CL]策略) ,評估純[CL]效果。
[KDCOS(Ours)]:本文提出的完整框架([DistilBERT]學生+[BERT-large]教師+[KD+CL+]雙任務) 。
2.3 實現細節與參數配置
所有實驗在NVIDIA V100 GPU上進行,用PyTorch、HuggingFace Transformers庫實現。KDCOS框架關鍵參數設置如下(經調優確定) :模型架構包含教師端和學生端,分別采用“bert - large”、“distilbert - base”。優化器為“AdamW”,其中“β? = 0.9,β? = 0.999,? = 1e - 8”,權重衰減率“0.01”。學習率設置為初始學習率“2×10??”,采用帶warmup的線性衰減策略。批次大小(BatchSize)固定為32。訓練輪次統一訓練50個“epoch”,早停策略“(patience = 3)”監控驗證集“F?”。損失權重“α、β、γ”設置為“α = 0.7”(任務損失) ,“β = 0.2”(KD損失) ,“γ = 0.1”(CL損失) 。溫度系數采用知識蒸餾溫度“T = 1”,對比學習溫度“τ = 5”。數據增強(CL)階段,正樣本生成采用隨機掩碼和同義詞替換。
2.4 評價指標
采用以下廣泛認可的評價指標衡量模型性能:
準確率(Accuracy, Acc):整體分類正確的樣本比例[Acc=TP+TNTP+TN+FP+FN。]
F1值([F1)]:諷刺類別的F1分數:
[F1=2×Precision×RecallPrecision+Recall]" " "(5)
其中:F1值([F1Score]):諷刺類別的[F1]分數(精確率[Precision]和召回率[Recall]的調和平均) 。
[F1=2×Precision×RecallPrecision+Recall]
其中,[Precision=TPTP+FP,] [Recall=TPTP+FN];目標精確率[(TP)=正確識別的諷刺目標實體數量預測的所有諷刺目標實體數量],主要用于衡量諷刺目標定位的準確性。定義為模型正確識別出的諷刺目標實體數量,占其預測的所有諷刺目標實體數量的比例[TP=CorrectlyTotal。]
2.5 實驗結果與深入分析
在SC100k測試集上進行了詳盡的性能評估,主要定量結果匯總于表2。
整體性能優勢:KDCOS模型在三個核心指標上均取得最佳性能:Accuracy達到90.1%,F1Score達到89.3%,TargetPrecision達到77.9%。相較于最強的諷刺識別基線TARGET - BERT,KDCOS在Acc、F1和TP上分別實現了顯著的2.6%、2.6%和2.6%的絕對提升。這充分證明了知識蒸餾與對比學習協同優化的有效性。消融實驗分析結果如下:
移除知識蒸餾([β=0]):導致TargetPrecision顯著下降4.4%(從77.9%降至73.5%) ,Accuracy和F1也分別下降約1.0%。這強力驗證了KD對遷移教師模型關于目標實體與諷刺語義關聯知識的關鍵作用,極大提升了定位精度。
移除對比學習([γ=0]):導致Accuracy和F1Score分別下降1.5%和1.6%(降至88.6%和87.7%) ,TP也略有下降。這表明CL通過優化特征空間,有效提升了諷刺/非諷刺樣本的類間可分性,是提升分類精度的主要驅動力。
僅使用學生模型(DistilBERT-base):性能最低(Acc 87.3%,F1 86.5%,TP 69.5%) ,凸顯了KD和CL協同引入的知識與特征優化信號的巨大價值[5]。
特征空間可視化分析如圖2所示。
圖2(a)展示了僅使用交叉熵訓練的BERT-base模型的特征分布。可見諷刺樣本(▲)與非諷刺樣本(●)存在大面積重疊區域(尤其中心部分) ,表明特征判別性不足,易導致分類混淆。圖2(b)展示了經過KDCOS框架優化后的特征分布。諷刺與非諷刺樣本形成了更為清晰的聚類簇,類間邊界顯著增大,重疊區域大幅減少。諷刺樣本簇內部結構更緊湊,非諷刺樣本分布也更集中。這直觀地證明了對比學習模塊在增大類間距離、優化特征可分性方面的卓越效果,為高精度分類提供了堅實的特征基礎。可視化結果與定量性能提升高度吻合[6]。
效率考量:KDCOS框架學生模型采用DistilBERT,參數量大約是BERT-base的60%,推理速度遠勝BERT-base、TARGET-BERT等大模型,保證了高精度的同時也滿足了低延遲、低資源消耗的落地需求。
3 結束語
本文提出并檢驗了KDCOS(知識蒸餾KD + 對比學習CL) 協作優化框架,該方法將大型模型的知識轉移能力與小型模型的高效率相結合,通過對比學習明確地優化諷刺特征。這種諷刺識別方法通過嚴格的雙任務學習框架、標準的損失函數構建、系統的實驗測試,充分證明了KDCOS在提高諷刺識別準確率Acc、分類穩定度F1、目標識別準確性TP等方面具有明顯的優越性,并且該方法解決了傳統方法特征混亂、易受噪聲干擾、無法很好表達高維語義空間中特征的表達效率和聚類結構的問題。本研究為社交媒體情感分析和大規模文本挖掘賦予了有效的技術手段,之后的研究可以探尋怎樣把多模態信息納入跨模態諷刺理解,也要思考怎樣借助模型量化。
參考文獻:
[1] 陶煥杰,周輝.一種基于多層級區域知識蒸餾和原型平衡對比學習的類增量煙分割方法:CN202411878363.5[P].2025-04-04.
[2] 楊晟,李巖.面向目標檢測的對比知識蒸餾方法[J].計算機應用,2025,45(2):354-361.
[3] 劉旭. 基于輕量化BERT的蒙古語機器翻譯模型研究:結合對比學習與知識蒸餾方法[D]. 呼和浩特: 內蒙古工業大學, 2024.
[4] 隋邦杰,彭金星.一種基于對比學習與知識蒸餾的文本分類方法: CN202211031398.6[P].2023-01-31.
[5] 沈弢,張杰,賈鑫康,等.聯邦相互學習:一種針對異構數據、模型和目標的協同機器學習方法[J].信息與電子工程前沿,2023,24(10):1390-1403.
[6] 葉峰,陳彪,賴乙宗.基于特征空間嵌入的對比知識蒸餾算法[J].華南理工大學學報(自然科學版),2023,51(5):13-23.
【通聯編輯:代影】