一種基于半監(jiān)督的句子情感分類(lèi)模型

2024-12-04 00:00:00蘇靜MurtadhaAhmed

重慶大學(xué)學(xué)報(bào) 2024年12期

摘要：句子情感分類(lèi)致力于挖掘文本中的情感語(yǔ)義，以基于BERT（bidirectional encoder representations from transformers）的深度網(wǎng)絡(luò)模型表現(xiàn)最佳。這類(lèi)模型的性能極度依賴(lài)大量高質(zhì)量標(biāo)注數(shù)據(jù)，而現(xiàn)實(shí)中標(biāo)注樣本往往比較稀缺，導(dǎo)致深度神經(jīng)網(wǎng)絡(luò)（deep neural network，DNN）容易在小規(guī)模樣本集上過(guò)擬合，難以準(zhǔn)確捕捉句子的隱含情感特征。盡管現(xiàn)有的半監(jiān)督模型有效利用了未標(biāo)注樣本特征，但對(duì)引入未標(biāo)注樣本可能導(dǎo)致錯(cuò)誤逐漸累積問(wèn)題沒(méi)有有效處理。半監(jiān)督模型在對(duì)測(cè)試數(shù)據(jù)集進(jìn)行預(yù)測(cè)后不會(huì)重新評(píng)估和修正上次的標(biāo)注結(jié)果，無(wú)法充分挖掘測(cè)試數(shù)據(jù)的特征信息。研究提出一種新型的半監(jiān)督句子情感分類(lèi)模型。該模型首先提出基于K-近鄰算法的權(quán)重機(jī)制，為置信度高的樣本分配較高權(quán)重，盡可能減少錯(cuò)誤信息在模型訓(xùn)練中的傳播。接著，采用兩階段訓(xùn)練策略，使模型能對(duì)測(cè)試數(shù)據(jù)中預(yù)測(cè)錯(cuò)誤的樣本進(jìn)行及時(shí)修正，通過(guò)多個(gè)數(shù)據(jù)集的測(cè)試，證明本模型在小規(guī)模樣本集上也能獲得良好性能。

關(guān)鍵詞：句子情感分類(lèi)；半監(jiān)督學(xué)習(xí)；K-近鄰；transformer

中圖分類(lèi)號(hào)：TP311 文獻(xiàn)標(biāo)志碼：A 文章編號(hào)：1000-582X（2024）12-100-14

基金項(xiàng)目：國(guó)家自然科學(xué)基金資助項(xiàng)目（62172335）。Supported by the National Natural Science Foundation of China （62172335）.

A semi-supervised model for sentence-level sentiment classification

SU Jing， MURTADHA Ahmed

（School of Computer Science， Northwestern Polytechnical University， Xi’an 710072， P. R. China）

Abstract： Sentence sentiment classification is an important task for extracting emotional semantics from text. Currently， the best tools for sentence sentiment classification leverage deep neural networks， particularly BERTbased models. However， these models require large， high-quality labeled datasets to perform effectively. In practice， labeled data is usually limited， leading to overfitting on small datasets and difficulties in capturing subtle sentiment features. Although existing semi-supervised models utilize features from large unlabeled datasets， they still face challenges from errors introduced by pseudo-labeled samples. Additionally， once test data is labeled， these models often do not adapt by incorporating feature information from test data. To address these issues， this paper proposes a semi-supervised sentence sentiment classification model. First， a K-nearest neighbors-based weighting mechanism is designed， assigning higher weights to high confidence samples to minimize error propagation during parameter learning. Second， a two-stage training mechanism is implemented， enabling the model to correct misclassified samples in the test data. Extensive experiments on multiple datasets show that this method achieves strong performance on small datasets.

Keywords： sentence-level sentiment classification； semi-supervised learning； K-nearest neighbors； transformer

句子級(jí)情感分類(lèi)任務(wù)主要對(duì)整個(gè)句子的情感趨向進(jìn)行分析，常見(jiàn)的如電商網(wǎng)站上對(duì)商品的評(píng)價(jià)、投資平臺(tái)上金融機(jī)構(gòu)對(duì)股市風(fēng)險(xiǎn)評(píng)論、社交媒體中對(duì)熱點(diǎn)事件和政策的評(píng)價(jià)等。對(duì)這些評(píng)價(jià)內(nèi)容挖掘情感信息蘊(yùn)含著巨大的商業(yè)價(jià)值，如企業(yè)可以利用這些信息來(lái)研發(fā)新產(chǎn)品或優(yōu)化服務(wù)；金融機(jī)構(gòu)可以據(jù)此進(jìn)行投資預(yù)警；政府可以根據(jù)這類(lèi)信息來(lái)制定或調(diào)整政策。然而，大規(guī)模高質(zhì)量帶標(biāo)簽的句子在實(shí)際應(yīng)用場(chǎng)景中很難獲取，因?yàn)橥枰馁M(fèi)巨大的人力和時(shí)間成本對(duì)其進(jìn)行標(biāo)注。因此，這篇文章主要針對(duì)在只有少量可用帶標(biāo)簽樣本的場(chǎng)景下進(jìn)行情感分類(lèi)學(xué)習(xí)。眾所周知，在句子情感分類(lèi)任務(wù)中，目前最好的模型是基于transformer架構(gòu)的深度神經(jīng)網(wǎng)絡(luò)模型（如BERT[1]，RoBERTa[2]，XLNet[3]等），通過(guò)在大規(guī)模wikipedia文檔數(shù)據(jù)集上進(jìn)行訓(xùn)練捕獲自然語(yǔ)言中的語(yǔ)義知識(shí)，生成1個(gè)預(yù)訓(xùn)練模型，很好地應(yīng)用于特定下游任務(wù)。但這些深度網(wǎng)絡(luò)模型依賴(lài)訓(xùn)練樣本集的大小和標(biāo)注質(zhì)量，當(dāng)訓(xùn)練集較小時(shí)，容易出現(xiàn)過(guò)擬合現(xiàn)象，難以捕捉文本中的隱含情感特征，無(wú)法學(xué)習(xí)到多樣化的情感特征。雖然標(biāo)注數(shù)據(jù)難以獲得，但未標(biāo)注數(shù)據(jù)非常豐富且易于獲取，不需要支付大量的人力和物力成本。本文旨在充分利用大量未標(biāo)注數(shù)據(jù)，提高小樣本的學(xué)習(xí)性能。雖然傳統(tǒng)的半監(jiān)督學(xué)習(xí)模型，如基于教師—學(xué)生模型的自訓(xùn)練和結(jié)合已標(biāo)注與未標(biāo)注數(shù)據(jù)的協(xié)同訓(xùn)練，嘗試?yán)梦礃?biāo)注數(shù)據(jù)解決小樣本問(wèn)題，這些方法都致力于挖掘未標(biāo)注數(shù)據(jù)的特征，同時(shí)減少未標(biāo)注數(shù)據(jù)訓(xùn)練引入的噪聲。盡管后續(xù)研究提出了一些優(yōu)化策略，如只選擇一部分高置信度的偽標(biāo)簽樣本參與訓(xùn)練，但這些方法通常基于深度神經(jīng)網(wǎng)絡(luò)（DNN）預(yù)測(cè)概率的信息熵來(lái)計(jì)算置信度，仍然存在累積錯(cuò)誤的風(fēng)險(xiǎn)，因?yàn)镈NN對(duì)預(yù)測(cè)錯(cuò)誤的樣本也可能給出高概率預(yù)測(cè)，不能準(zhǔn)確反映真實(shí)的預(yù)測(cè)置信度。因此，筆者提出了一種基于K-近鄰的損失加權(quán)機(jī)制。該機(jī)制在模型訓(xùn)練過(guò)程中，對(duì)每個(gè)樣本實(shí)例，找到其在同批次中距離最近的K個(gè)樣本。通過(guò)比較這些近鄰的預(yù)測(cè)標(biāo)簽與當(dāng)前樣本的預(yù)測(cè)標(biāo)簽，計(jì)算相同標(biāo)簽的數(shù)量比例，作為該樣本預(yù)測(cè)正確的權(quán)重。這個(gè)權(quán)重隨后用于加權(quán)散度損失，參與訓(xùn)練和模型參數(shù)的優(yōu)化。通過(guò)給予高置信度樣本較高權(quán)重，低置信度樣本較低權(quán)重，有效降低噪聲的影響，通過(guò)在損失函數(shù)中設(shè)置權(quán)重，直接影響模型的學(xué)習(xí)過(guò)程。此外，現(xiàn)有的半監(jiān)督學(xué)習(xí)模型主要關(guān)注如何充分學(xué)習(xí)和利用未標(biāo)注數(shù)據(jù)的特征，但在處理測(cè)試數(shù)據(jù)集時(shí)，一旦為測(cè)試數(shù)據(jù)分配了標(biāo)簽，就不再考慮對(duì)這些預(yù)測(cè)標(biāo)簽進(jìn)行修改。這些模型通常未能充分利用測(cè)試數(shù)據(jù)中的特征信息，僅將測(cè)試數(shù)據(jù)作為評(píng)估模型準(zhǔn)確率的工具。本文提出一種新方法，旨在通過(guò)學(xué)習(xí)測(cè)試數(shù)據(jù)集上的特征信息來(lái)修正測(cè)試數(shù)據(jù)上已有的標(biāo)注標(biāo)簽。不僅關(guān)注如何利用未標(biāo)注數(shù)據(jù)集的特征，還探索如何有效使用測(cè)試數(shù)據(jù)集中的特征。本文的方法允許模型在獲取測(cè)試數(shù)據(jù)上的預(yù)測(cè)標(biāo)簽后，繼續(xù)從測(cè)試數(shù)據(jù)中選擇一部分預(yù)測(cè)準(zhǔn)確度較高的數(shù)據(jù)，將這些數(shù)據(jù)加入訓(xùn)練集共同參與訓(xùn)練。這有助于修正測(cè)試數(shù)據(jù)集中的錯(cuò)誤標(biāo)簽，挑戰(zhàn)深度學(xué)習(xí)模型傳統(tǒng)上依賴(lài)的獨(dú)立同分布（i.i.d）假設(shè)。現(xiàn)實(shí)情況中，訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集的特征分布存在差異，特征分布不完全對(duì)齊[4]。如果僅使用訓(xùn)練集訓(xùn)練的模型參數(shù)直接預(yù)測(cè)測(cè)試數(shù)據(jù)集的標(biāo)簽，會(huì)導(dǎo)致預(yù)測(cè)偏差。為減少這種誤差，必須盡可能學(xué)習(xí)測(cè)試數(shù)據(jù)集上的特征，緩解訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集之間的數(shù)據(jù)不對(duì)齊問(wèn)題。通過(guò)優(yōu)化模型參數(shù)并修正先前的預(yù)測(cè)結(jié)果，可減少分布偏差導(dǎo)致的錯(cuò)誤標(biāo)注。因此，本文的方法不僅利用了未標(biāo)注數(shù)據(jù)的特征，還進(jìn)一步利用測(cè)試數(shù)據(jù)集的特征，提高模型的泛化能力和準(zhǔn)確率。

為進(jìn)一步闡釋本研究所提方法與現(xiàn)有相關(guān)方法之間的差異，提供以下說(shuō)明：

1）當(dāng)前的半監(jiān)督學(xué)習(xí)方法主要通過(guò)篩選出噪聲較少的部分未標(biāo)注數(shù)據(jù)參與訓(xùn)練過(guò)程，篩選基于深度神經(jīng)網(wǎng)絡(luò)（DNN）對(duì)樣本的預(yù)測(cè)概率的準(zhǔn)確性。然而，這些方法往往沒(méi)有充分考慮DNN對(duì)樣本預(yù)測(cè)的誤差。本文提出的方法通過(guò)將目標(biāo)樣本與其近鄰樣本的信息結(jié)合起來(lái)，計(jì)算目標(biāo)樣本的置信度，全面考慮DNN對(duì)樣本預(yù)測(cè)的準(zhǔn)確性。基于K-近鄰加權(quán)的損失機(jī)制從新的角度選擇高置信度樣本參與訓(xùn)練，展示了該方法的創(chuàng)新性。

2）現(xiàn)有的半監(jiān)督情感分類(lèi)研究未能進(jìn)一步探索和利用測(cè)試數(shù)據(jù)集的特征，僅限于挖掘未標(biāo)注數(shù)據(jù)的特征。本研究提出的2階段優(yōu)化模式，通過(guò)在模型訓(xùn)練的第1階段采用K-近鄰加權(quán)方式，對(duì)可能預(yù)測(cè)錯(cuò)誤的樣本賦予較小權(quán)重，對(duì)可能預(yù)測(cè)正確的樣本賦予較大權(quán)重，最大程度減少錯(cuò)誤累積。隨后，在第2階段的自訓(xùn)練過(guò)程中，通過(guò)Teacher模型和Student模型交替標(biāo)注測(cè)試集數(shù)據(jù)，利用已標(biāo)注測(cè)試數(shù)據(jù)集的特征作為訓(xùn)練集特征，參與下1輪的特征學(xué)習(xí)。

筆者提出2階段優(yōu)化模式如圖1所示，采用K-近鄰加權(quán)的方式在模型第1階段訓(xùn)練過(guò)程中給予最可能預(yù)測(cè)錯(cuò)誤的樣本較小權(quán)重，給予最可能預(yù)測(cè)正確的樣本較大權(quán)重，盡可能緩解錯(cuò)誤累積。接著通過(guò)第2階段的self-training，Teacher模型和Student模型交替標(biāo)注測(cè)試集數(shù)據(jù)，已標(biāo)注的測(cè)試數(shù)據(jù)集作為訓(xùn)練集用于下1輪特征學(xué)習(xí)過(guò)程。

綜上所述，本文的主要貢獻(xiàn)包括3個(gè)方面：

1）提出一種基于K-近鄰正則化樣本權(quán)重機(jī)制的損失機(jī)制，在模型訓(xùn)練過(guò)程中有效降低預(yù)測(cè)錯(cuò)誤樣本產(chǎn)生的誤差累積；

2）提出一種小樣本上基于2階段的半監(jiān)督情感分類(lèi)模型，學(xué)習(xí)測(cè)試數(shù)據(jù)集上的特征信息且對(duì)測(cè)試數(shù)據(jù)集已經(jīng)標(biāo)注的樣本標(biāo)簽進(jìn)行再修改；

3）進(jìn)行各種對(duì)比實(shí)驗(yàn)驗(yàn)證，且驗(yàn)證了該方案的有效性。

1 相關(guān)工作

文本情感分類(lèi)依據(jù)文本粒度大小分為文檔級(jí)情感分類(lèi)、句子級(jí)情感分類(lèi)和方面級(jí)情感分類(lèi)。本文聚焦于句子級(jí)情感分類(lèi)任務(wù)，該任務(wù)在情感分析領(lǐng)域占有重要地位。最有效的方法依賴(lài)于各種深度網(wǎng)絡(luò)模型，例如，S2SAN[5]， 3W-CNN[6]，SR-LSTM[7]，CHL-PRAE[8]。近期隨著B(niǎo)ERT系列模型的出現(xiàn)，自然語(yǔ)言處理領(lǐng)域出現(xiàn)了巨大發(fā)展。由于BERT通過(guò)預(yù)訓(xùn)練和微調(diào)（finetuning）的方法，不僅使自然語(yǔ)言理解任務(wù)變得更加規(guī)范，而且通過(guò)預(yù)訓(xùn)練過(guò)程得到的嵌入向量自然地融合了豐富的語(yǔ)義知識(shí)，使模型能靈活適應(yīng)各種上下文環(huán)境。只需對(duì)特定問(wèn)題領(lǐng)域的數(shù)據(jù)進(jìn)行微調(diào)，就能在目標(biāo)領(lǐng)域?qū)崿F(xiàn)最佳性能，簡(jiǎn)化了模型的使用和適應(yīng)過(guò)程。隨后，眾多研究致力于對(duì)BERT體系結(jié)構(gòu)進(jìn)行優(yōu)化，提升模型性能和效率。例如，ALBERT[9]模型通過(guò)減少參數(shù)量來(lái)加快訓(xùn)練速度并提高模型效果； DeBERTa[10] 改進(jìn)了注意力機(jī)制增強(qiáng)掩碼解碼器；RoBERTa[2]優(yōu)化了預(yù)訓(xùn)練語(yǔ)言模型（pre-trained language models，PLM），將靜態(tài)掩碼改為動(dòng)態(tài)掩碼，移除了下1句預(yù)測(cè)任務(wù)；XLNet引入了雙流自注意力機(jī)制。此外，還有研究通過(guò)將BERT模型與外部知識(shí)融合進(jìn)一步提升模型性能。例如文獻(xiàn)[11]提出如何將詞性信息融入DNN模型中，這要求在融合外部知識(shí)后重新進(jìn)行預(yù)訓(xùn)練，再進(jìn)行微調(diào)。SKEP[12]模型則是將情感詞融入預(yù)訓(xùn)練過(guò)程中。文獻(xiàn)[13-14]提出為了將語(yǔ)言知識(shí)集成到預(yù)訓(xùn)練模型中，設(shè)計(jì)了新的預(yù)訓(xùn)練任務(wù)，在給定句子級(jí)情感標(biāo)簽的情況下，預(yù)測(cè)單詞、詞性標(biāo)簽和掩碼位置的情感傾向。

上述研究主要集中于如何充分利用帶標(biāo)簽的訓(xùn)練數(shù)據(jù)。在現(xiàn)實(shí)應(yīng)用場(chǎng)景中，獲取大量帶標(biāo)簽數(shù)據(jù)往往是困難的。特別是在小樣本的情況下，這些深度學(xué)習(xí)模型的表現(xiàn)通常不佳，容易發(fā)生過(guò)擬合，對(duì)超參數(shù)（如迭代次數(shù)、批大小和學(xué)習(xí)率等）的選擇極為敏感。

為了處理目前DNN在有限標(biāo)簽下的預(yù)測(cè)性能，根據(jù)帶標(biāo)簽數(shù)據(jù)的分布特征與未帶標(biāo)簽數(shù)據(jù)的分布特征是不同的假設(shè)[15]，半監(jiān)督文本分類(lèi)嘗試?yán)梦礃?biāo)注數(shù)據(jù)來(lái)蒸餾多樣化知識(shí)[16]。目前半監(jiān)督情感分類(lèi)模型主要采用以下2種策略：

1）教師—學(xué)生（Teacher-Student）結(jié)構(gòu)的交替訓(xùn)練模式。Teacher-Student結(jié)構(gòu)的交替訓(xùn)練模式是構(gòu)建2個(gè)獨(dú)立的模型，（Teacher和Student）來(lái)捕獲未標(biāo)注數(shù)據(jù)的特征，逐步選取置信度高的偽標(biāo)注數(shù)據(jù)加入訓(xùn)練集。例如，CEST[17]利用提升的相似度圖在self-training過(guò)程中更有效地利用數(shù)據(jù)。SRIFT[18]將Teacher-Student作為Stackelberg游戲，應(yīng)用經(jīng)濟(jì)學(xué)中的Stackelberg策略?xún)?yōu)化整個(gè)過(guò)程。文獻(xiàn)[19]通過(guò)使用2個(gè)Teachers分別在labeled數(shù)據(jù)和有抖動(dòng)的labeled數(shù)據(jù)上提取特征。文獻(xiàn)[16]提出優(yōu)化選擇帶偽標(biāo)簽數(shù)據(jù)的過(guò)程。文獻(xiàn)[15]探索在半監(jiān)督關(guān)系抽取中不同模型的不一致性。文獻(xiàn)[20]提出ASTRA，使用弱規(guī)則聚合Student的偽標(biāo)簽。文獻(xiàn)[21]提出一種使用多個(gè)分類(lèi)器參與分類(lèi)預(yù)測(cè)，設(shè)置不同子分類(lèi)器的情感貢獻(xiàn)權(quán)重得到分類(lèi)的情感置信度，選出置信度高的樣本擴(kuò)大訓(xùn)練集。文獻(xiàn)[22]提出TS-Aug，能結(jié)合數(shù)據(jù)增強(qiáng)到交替訓(xùn)練過(guò)程中。

2）協(xié)同訓(xùn)練模式（Co-training）。協(xié)同訓(xùn)練模式主要通過(guò)把全部未標(biāo)注數(shù)據(jù)帶入訓(xùn)練過(guò)程中，根據(jù)已標(biāo)注數(shù)據(jù)和未標(biāo)注數(shù)據(jù)分別設(shè)計(jì)不同的損失函數(shù)用于營(yíng)造一種區(qū)分性的訓(xùn)練過(guò)程[23，17]。比如，文獻(xiàn)[24]提出COSINE，加入比較正則化和基于置信度的權(quán)重機(jī)制。文獻(xiàn)[25]提出了一種協(xié)同訓(xùn)練框架MixTex，采用TMix去增強(qiáng)訓(xùn)練樣本，同時(shí)計(jì)算有監(jiān)督的損失和一致性損失。

盡管現(xiàn)有的半監(jiān)督學(xué)習(xí)模型有效利用了未標(biāo)注數(shù)據(jù)，主要局限于這些數(shù)據(jù)的使用，并未解決訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集特征分布不對(duì)齊問(wèn)題。大都基于獨(dú)立同分布（i.i.d）的假設(shè)，忽略了訓(xùn)練集和測(cè)試集在特征分布上的不一致性。直接使用訓(xùn)練集和未標(biāo)注數(shù)據(jù)集來(lái)訓(xùn)練模型參數(shù)，并用其預(yù)測(cè)測(cè)試數(shù)據(jù)集時(shí)，并沒(méi)有采取措施來(lái)縮小訓(xùn)練集和測(cè)試集之間的特征偏差。此外，由于引入了帶偽標(biāo)簽的數(shù)據(jù)參與訓(xùn)練過(guò)程會(huì)帶來(lái)錯(cuò)誤累積問(wèn)題，雖然已經(jīng)嘗試了各種策略來(lái)減少錯(cuò)誤累積，如使用信息熵過(guò)濾掉可能預(yù)測(cè)錯(cuò)誤的樣本，但這些策略基本上都是在假設(shè)深度神經(jīng)網(wǎng)絡(luò)（DNN）能正確預(yù)測(cè)的前提下進(jìn)行。DNN在預(yù)測(cè)錯(cuò)誤的樣本上也給出了較高的置信度，這說(shuō)明需要更深入地解決這個(gè)問(wèn)題。筆者提出的方案提出一種新的方法，不僅能有效利用未標(biāo)注數(shù)據(jù)，而且能處理訓(xùn)練集和測(cè)試集之間的特征分布不一致性，減輕偽標(biāo)簽引入的錯(cuò)誤累積效應(yīng)，提高半監(jiān)督學(xué)習(xí)的整體性能。

2 句子級(jí)情感分析任務(wù)定義

研究考慮句子情感二分類(lèi)問(wèn)題，即分類(lèi)器只需要標(biāo)注每個(gè)句子是正情感還是負(fù)情感。定義如下：

考慮1個(gè)擁有大量評(píng)論的語(yǔ)料庫(kù){ r0，r1，…，rn}，每個(gè)評(píng)論數(shù)據(jù)集rj由一系列句子{ sj1，sj1，…，sjn}組成。句子級(jí)別情感分類(lèi)的目標(biāo)是為每個(gè)句子預(yù)測(cè)1個(gè)情感標(biāo)簽，這個(gè)標(biāo)簽指示該句子是表達(dá)正面情感（標(biāo)簽=1表示正面情感）還是負(fù)面標(biāo)簽（標(biāo)簽=0表示負(fù)面情感）。

3 基于K-近鄰的LOSS權(quán)重機(jī)制

盡管深度神經(jīng)網(wǎng)絡(luò)（DNN）的預(yù)測(cè)概率越極端通常意味著對(duì)該樣本的預(yù)測(cè)置信度越高，現(xiàn)實(shí)情況卻常常并非如此。DNN可能對(duì)其預(yù)測(cè)結(jié)果過(guò)于自信，導(dǎo)致對(duì)錯(cuò)誤標(biāo)注的樣本給出了過(guò)高的置信度，很難對(duì)這些錯(cuò)誤的預(yù)測(cè)進(jìn)行糾正。研究提出了一種基于K-近鄰的加權(quán)損失機(jī)制，促使DNN模型能根據(jù)鄰近樣本的預(yù)測(cè)標(biāo)簽重新評(píng)估和調(diào)整自己對(duì)當(dāng)前樣本的預(yù)測(cè)準(zhǔn)確性。現(xiàn)有研究通常通過(guò)計(jì)算DNN預(yù)測(cè)概率的信息熵過(guò)濾掉置信度低的未標(biāo)注數(shù)據(jù)，避免錯(cuò)誤地進(jìn)一步傳播。其他方法可能包括直接過(guò)濾出預(yù)測(cè)概率低于特定閾值的樣本，或者根據(jù)樣本在2個(gè)類(lèi)別上的概率差異進(jìn)行排序，選擇置信度較高的部分樣本進(jìn)行下1輪訓(xùn)練。然而，這些方法主要基于DNN對(duì)當(dāng)前樣本預(yù)測(cè)概率準(zhǔn)確的前提下進(jìn)行計(jì)算的，并沒(méi)有充分考慮當(dāng)前樣本的預(yù)測(cè)是否準(zhǔn)確。筆者通過(guò)將目標(biāo)樣本的鄰近樣本納入置信度計(jì)算過(guò)程中，提出一種新的方法，基于對(duì)當(dāng)前樣本預(yù)測(cè)準(zhǔn)確性的全面考量。因此，所提出的基于K-近鄰加權(quán)的損失機(jī)制能夠從1個(gè)新的角度選擇置信度較高的樣本參與訓(xùn)練，展示了方法的創(chuàng)新性。

具體來(lái)說(shuō)，該方法通過(guò)使用K-近鄰算法，基于樣本的嵌入向量（embedding）計(jì)算余弦距離（cosine）（或相似度），識(shí)別每個(gè)樣本在其所在batch內(nèi)的最近鄰居。接下來(lái)，統(tǒng)計(jì)這些近鄰中與目標(biāo)樣本預(yù)測(cè)標(biāo)簽相同樣本所占的比例。這一比例反映了在所有最接近的鄰居中，有多少比例的樣本與目標(biāo)樣本具有相同標(biāo)簽。可以用以下公式表示

4 半監(jiān)督訓(xùn)練過(guò)程

盡管大多數(shù)現(xiàn)有的半監(jiān)督情感分類(lèi)研究依賴(lài)于教師—學(xué)生（Teacher-Student）訓(xùn)練或協(xié)同訓(xùn)練來(lái)降低未標(biāo)注數(shù)據(jù)中的噪聲，往往沒(méi)有充分利用測(cè)試數(shù)據(jù)集中的特征，而僅集中挖掘未標(biāo)注數(shù)據(jù)的特征。筆者提出了一種2階段的優(yōu)化模式。在模型訓(xùn)練過(guò)程中，采用K-近鄰加權(quán)的方法，對(duì)可能預(yù)測(cè)錯(cuò)誤的樣本賦予較小權(quán)重，對(duì)可能預(yù)測(cè)正確的樣本賦予較大權(quán)重，最大限度減輕錯(cuò)誤累積的問(wèn)題。在優(yōu)化的第2階段，采用自訓(xùn)練（self-training）方法，其中Teacher模型和Student模型交替對(duì)測(cè)試集數(shù)據(jù)進(jìn)行標(biāo)注，利用已標(biāo)注的測(cè)試數(shù)據(jù)集特征作為訓(xùn)練數(shù)據(jù)，用于下1輪的特征學(xué)習(xí)。這種策略不僅增強(qiáng)了模型對(duì)未標(biāo)注數(shù)據(jù)的利用效率，還通過(guò)直接引入測(cè)試數(shù)據(jù)集進(jìn)一步提高模型的泛化能力和準(zhǔn)確性。

在本文提出的2階段優(yōu)化模式中，第1階段的自訓(xùn)練（self-training）主要依靠有限的帶標(biāo)簽數(shù)據(jù)和初始未標(biāo)注的數(shù)據(jù)共同參與訓(xùn)練，以學(xué)習(xí)未標(biāo)注數(shù)據(jù)的特征，最終為這些未標(biāo)注數(shù)據(jù)分配預(yù)測(cè)標(biāo)簽。第2階段的自訓(xùn)練（self-training）將訓(xùn)練集與第1階段標(biāo)注好的未標(biāo)注數(shù)據(jù)合并，形成新的擴(kuò)展訓(xùn)練集。隨后，在迭代過(guò)程中，每1輪都會(huì)從測(cè)試數(shù)據(jù)中選取部分預(yù)測(cè)準(zhǔn)確率較高的樣本，加入到訓(xùn)練集中，持續(xù)優(yōu)化模型。通過(guò)這種方式，模型能夠在迭代中不斷提升性能，最終對(duì)測(cè)試集中的所有樣本進(jìn)行1次性預(yù)測(cè)。這個(gè)過(guò)程不僅增強(qiáng)了模型對(duì)未標(biāo)注數(shù)據(jù)特征的學(xué)習(xí)能力，還通過(guò)逐步引入測(cè)試數(shù)據(jù)進(jìn)一步優(yōu)化模型，提高對(duì)新數(shù)據(jù)的適應(yīng)性和預(yù)測(cè)準(zhǔn)確性。

4.1 第1階段self-training

圖2表示所提半監(jiān)督方案的第1階段self-training，主要流程是使用帶標(biāo)簽據(jù)初始化RoBERTa模型，使用訓(xùn)練好的模型預(yù)測(cè)未標(biāo)注數(shù)據(jù)上的偽標(biāo)簽，合并未標(biāo)注數(shù)據(jù)和訓(xùn)練數(shù)據(jù)一起聯(lián)合訓(xùn)練RoBERTa模型，此時(shí)使用所提出的基于K-近鄰的損失權(quán)重機(jī)制最小化模型中的損失。

4.1.1 使用帶標(biāo)簽的數(shù)據(jù)初始訓(xùn)練模型

研究所使用的分類(lèi)器f=g◎RoBERTa包含2部分，RoBERTa是1個(gè)預(yù)訓(xùn)練的模型，輸出隱藏層向量表示，g是任務(wù)相關(guān)的分類(lèi)器頭，輸出2維的向量，每個(gè)維度相應(yīng)于指定類(lèi)的預(yù)測(cè)概率，◎表示連接符號(hào)。第1階段self-training框架如圖1所示，使用帶標(biāo)簽的數(shù)據(jù)初始化預(yù)訓(xùn)練模型。此外，類(lèi)似之前研究，采取early stopping方法在半監(jiān)督中比較廣泛，減輕模型對(duì)標(biāo)簽中噪聲的過(guò)擬合問(wèn)題。

4.1.2 聯(lián)合訓(xùn)練過(guò)程

聯(lián)合訓(xùn)練過(guò)程主要通過(guò)同時(shí)利用未標(biāo)注（unlabeled）數(shù)據(jù)集和已標(biāo)注（labeled）數(shù)據(jù)集進(jìn)行微調(diào)（finetuning），旨在減輕可能由于錯(cuò)誤標(biāo)注的數(shù)據(jù)在訓(xùn)練集中引起的誤差傳播問(wèn)題。首先，利用已標(biāo)注數(shù)據(jù)集對(duì)模型進(jìn)行初始訓(xùn)練，預(yù)測(cè)未標(biāo)注數(shù)據(jù)集的偽標(biāo)簽，將這些偽標(biāo)注的數(shù)據(jù)與已標(biāo)注數(shù)據(jù)集合并。為了緩解誤差傳播，采用了基于K-近鄰加權(quán)的損失函數(shù)及當(dāng)前被廣泛認(rèn)為有效的對(duì)比損失函數(shù)（contrastive loss，CL）。通過(guò)這種方法，模型能不斷更新偽標(biāo)簽和模型參數(shù)，提高整體訓(xùn)練過(guò)程的準(zhǔn)確性和魯棒性。所提方法還結(jié)合了比較損失[6]。比較損失是用于指導(dǎo)DNN學(xué)習(xí)更加清晰的分類(lèi)邊界，主要通過(guò)引導(dǎo)模型學(xué)習(xí)同1個(gè)類(lèi)別的數(shù)據(jù)具有相似的表示，不同類(lèi)別的數(shù)據(jù)具有不同表示，否則如果相同類(lèi)別具有較大距離，或不同類(lèi)別如果具有較小的距離值則通過(guò)在損失函數(shù)中加入距離值作為懲罰。

4.2 第2階段self-training

第2階段主要針對(duì)在Test數(shù)據(jù)上抽取部分準(zhǔn)確率較高的數(shù)據(jù)合并到訓(xùn)練集中訓(xùn)練模型，如圖3所示。該過(guò)程同樣在前1階段已經(jīng)fine-tuning好模型的基礎(chǔ)上再次訓(xùn)練該模型。training數(shù)據(jù)和test數(shù)據(jù)特征分布不對(duì)齊，通過(guò)接著學(xué)習(xí)test數(shù)據(jù)上所擁有的特征，能打破現(xiàn)有半監(jiān)督方法存在的獨(dú)立同分布特性（i.i.d假設(shè)）。

4.2.1 基于BALD的未標(biāo)注樣本選擇

所提方案采用BALD[16]從測(cè)試數(shù)據(jù)中選擇未標(biāo)注樣本。BALD（bayesian active learning by disagreement）方法的目標(biāo)是選擇最大化模型參數(shù)信息熵樣本，或最大化預(yù)測(cè)和模型后驗(yàn)之間的信息增益。利用模型對(duì)數(shù)據(jù)的不確定性指導(dǎo)數(shù)據(jù)選擇，從最有信息量的樣本中學(xué)習(xí)，提高學(xué)習(xí)效率和模型的性能。對(duì)具有較低信息增益的樣本，模型更加確定，由于具有較低信息增益，模型從樣本中學(xué)習(xí)到的信息較少，直接使用較低信息增益的樣本訓(xùn)練模型會(huì)導(dǎo)致過(guò)擬合，相反，具有較高信息增益的樣本對(duì)模型學(xué)習(xí)貢獻(xiàn)較多，但也容易受到錯(cuò)誤偽標(biāo)簽的破壞。為了權(quán)衡這2個(gè)場(chǎng)景，采用不同的權(quán)重抽取樣本，較低熵的樣本抽取得更多一些，較高熵的樣本抽取更少一些。具體計(jì)算過(guò)程如下所示公式，對(duì)于1個(gè)數(shù)據(jù)樣本xi

∈Test，

4.2.2 訓(xùn)練過(guò)程

首先，Teacher模型使用帶標(biāo)簽數(shù)據(jù)和第1階段獲取的帶偽標(biāo)簽的已標(biāo)注數(shù)據(jù)作為訓(xùn)練集參與訓(xùn)練，得到訓(xùn)練好的模型fW，W表示模型參數(shù)。接著采用基于BALD的方法從這些測(cè)試數(shù)據(jù)集上選擇部分?jǐn)?shù)據(jù)作為新增的訓(xùn)練集合并到原有的訓(xùn)練集中訓(xùn)練Student模型。Student模型訓(xùn)練好后copy模型參數(shù)給Teacher模型，Teacher模型再次預(yù)測(cè)測(cè)試數(shù)據(jù)集，得到最新預(yù)測(cè)概率，再次應(yīng)用BALD方法最新選擇部分測(cè)試數(shù)據(jù)添加到原始的訓(xùn)練數(shù)據(jù)集中訓(xùn)練Student模型。Teacher模型及其模型使用的基礎(chǔ)模型都是RoBERTa模型。因?yàn)镽oBERTa模型在文本分類(lèi)領(lǐng)域性能比較穩(wěn)定，且擅長(zhǎng)做語(yǔ)義理解類(lèi)相關(guān)任務(wù)[2]。

5 實(shí)驗(yàn)

為了實(shí)驗(yàn)評(píng)估，使用了4個(gè)句子情感分類(lèi)任務(wù)公開(kāi)使用的標(biāo)準(zhǔn)數(shù)據(jù)集，分別是MR，CR，Twitter2013和Twitter2016。其中：MR是電影評(píng)論集合；CR是電子商品評(píng)論集合；Twitter2013和Twitter2016是微博評(píng)論，內(nèi)容長(zhǎng)度上更加精簡(jiǎn)。表1列出所有數(shù)據(jù)集的統(tǒng)計(jì)信息。

5.1 對(duì)比實(shí)驗(yàn)

后續(xù)的實(shí)驗(yàn)不僅與目前最好的有監(jiān)督情感分類(lèi)模型做對(duì)比，且與目前最好的半監(jiān)督情感分類(lèi)模型做對(duì)比。由于研究主要是句子級(jí)情感二分類(lèi)問(wèn)題，使用的度量標(biāo)準(zhǔn)是準(zhǔn)確率和Macro F1（文章中簡(jiǎn)寫(xiě)為F1）。目前性能最好的有監(jiān)督情感分類(lèi)模型主要有以下：

1）RoBERTa模型[2]。文本分類(lèi)主要采用RoBERTa模型，性能比較穩(wěn)定，且擅長(zhǎng)執(zhí)行語(yǔ)義理解相關(guān)類(lèi)任務(wù)。

2）XLNet模型[3]。XLNet是對(duì)BERT模型的優(yōu)化改進(jìn)，是通用的自回歸預(yù)訓(xùn)練模型，能夠?qū)W習(xí)雙向文本語(yǔ)義。

3）EFL[12]。該模型通過(guò)把類(lèi)標(biāo)簽轉(zhuǎn)化為輔助句子，使更多的任務(wù)能夠統(tǒng)一轉(zhuǎn)化為文本蘊(yùn)含任務(wù)。

4）DualCL[26]。最近提出用于情感分類(lèi)的模型，能同時(shí)學(xué)習(xí)輸入句子的特征和分類(lèi)器的參數(shù)特征。

目前性能最好的基于半監(jiān)督的情感分類(lèi)任務(wù)模型主要有以下：

1）UST[16]。該模型是一種Teacher-Student半監(jiān)督方案，主要用于文本分類(lèi)，使用不確定度對(duì)unlabeled數(shù)據(jù)進(jìn)行采樣的方法選取置信度高的偽標(biāo)注數(shù)據(jù)。

2）COSINE[24]。也是一種文本分類(lèi)的半監(jiān)督方案，使用比較loss且結(jié)合了信息熵的置信度權(quán)重機(jī)制以減少錯(cuò)誤累積。

3）MTGT[19]。研究提出了一種半監(jiān)督文本分類(lèi)方案，采用2個(gè)Teacher訓(xùn)練，1個(gè)Teacher在Labeled數(shù)據(jù)上訓(xùn)練，另1個(gè)Teacher在增強(qiáng)后的數(shù)據(jù)中訓(xùn)練，然后加權(quán)這2種偽標(biāo)簽后得到新的unlabeled數(shù)據(jù)集上的偽標(biāo)簽作為Student模型使用的訓(xùn)練集。

4）DisCo[27]。采用一種新穎的協(xié)同訓(xùn)練技術(shù)，通過(guò)促進(jìn)不同視圖下的Student模型之間的知識(shí)共享來(lái)優(yōu)化多個(gè)Student模型。

5）RNT[28]。為了緩解噪聲，采用基于來(lái)自標(biāo)簽文本的證據(jù)支持度計(jì)算不確定性排序unlabeled文本，同時(shí)使用負(fù)訓(xùn)練方式訓(xùn)練RNT。

表2展示了在CR和Twitter2016數(shù)據(jù)集上，所提方法（Ours）與當(dāng)前流行的最佳方法之間的性能比較。可以看出提出的方法不僅優(yōu)于最佳的有監(jiān)督模型，也超過(guò)了最佳的半監(jiān)督模型。特別是在僅有0.25%訓(xùn)練數(shù)據(jù)的情況下，CR和Twitter2016數(shù)據(jù)集上，相比于有監(jiān)督模型，所提方案在準(zhǔn)確率上分別提高了10.34%和16.06%；與最佳的半監(jiān)督模型相比，分別提高了3.56%和3.12%。當(dāng)訓(xùn)練數(shù)據(jù)增至1%時(shí)，CR和Twitter2016數(shù)據(jù)集上，所提方法相比現(xiàn)有最佳半監(jiān)督模型分別提高了1.01%和0.96%。在訓(xùn)練數(shù)據(jù)為3%的情況下，提升分別為0.82%和1.54%。此外，還在MR和Twitter2013數(shù)據(jù)集上進(jìn)行了類(lèi)似的對(duì)比實(shí)驗(yàn)。表3展示了這2個(gè)數(shù)據(jù)集在不同訓(xùn)練數(shù)據(jù)比例下的性能表現(xiàn)，證明了方法在不同數(shù)據(jù)集和不同數(shù)據(jù)規(guī)模下的普適性和有效性。

從表3可以看出，在1%的MR和Twitter2013數(shù)據(jù)集上時(shí)，本文所提方法在準(zhǔn)確率上分別可以達(dá)到86.22%， 90.02%，macro-F1分別可以達(dá)到86.45%，92.93%，比目前最好的方法半監(jiān)督方法在準(zhǔn)確率上分別超出2.5%，1.18%，在macro-F1上分別超出2.75%，4.09%。在0.5%訓(xùn)練集的時(shí)候，MR和Twitter2013在準(zhǔn)確率上分別比最好的方法超出1.55%和1.11%。當(dāng)數(shù)據(jù)負(fù)載為3%的訓(xùn)練集的MR和Twitter2013時(shí)，所提方法在準(zhǔn)確率上可以超出目前最好模型0.33%和0.15%。綜上可以看出，半監(jiān)督模型普遍比有監(jiān)督模型性能好，因?yàn)榘氡O(jiān)督模型利用了unlabeled數(shù)據(jù)上的特征信息，所提方法也同樣利用了unlabeled數(shù)據(jù)上的特征，不僅止步于如何充分利用unlabeled數(shù)據(jù)上的特征，同時(shí)也利用了test數(shù)據(jù)上的特征，試圖縮減訓(xùn)練集和測(cè)試集之間特征分布差異。

5.2 敏感性測(cè)試

5.2.1 self-training

為了證明所提方法中第2階段self-training的重要性，接著展示了只執(zhí)行第1階段self-training 和同時(shí)執(zhí)行第1階段和第2階段self-training在CR 和twitter2016 2個(gè)數(shù)據(jù)集上的表現(xiàn)結(jié)果。從圖4和圖5中可以看出，在CR和Twitter2016 2個(gè)數(shù)據(jù)集上2階段self-training 比1階段self-training 性能明顯好一些。說(shuō)明了相比1階段self-training， 2階段的self-training可緩解訓(xùn)練集和測(cè)試集之間的特征分布偏差問(wèn)題。

5.2.2 加入K-近鄰權(quán)重的loss VS 不加入K-近鄰權(quán)重的loss

通過(guò)表4中加入K近鄰loss前后在CR和Twitter2016這2個(gè)數(shù)據(jù)集上的效果可看出，在沒(méi)有加入K-近鄰loss前，3%CR數(shù)據(jù)集和3%Twitter2016數(shù)據(jù)集的準(zhǔn)確率分別是0.896 7和0.841 3，加入K-近鄰loss后的準(zhǔn)確率分別是0.928 5，0.905 7，分別增加了3.18%和6.44%。說(shuō)明所提方法采用K-近鄰loss機(jī)制后在模型訓(xùn)練過(guò)程中提供不同視角檢查出有可能標(biāo)注錯(cuò)誤的偽標(biāo)簽，同時(shí)給予可能標(biāo)注錯(cuò)誤的偽標(biāo)簽較低的學(xué)習(xí)權(quán)重，這種方法從一定程度上降低錯(cuò)誤偽標(biāo)簽造成的影響。

6 結(jié) 論

1）研究在現(xiàn)有半監(jiān)督方案的基礎(chǔ)上提出一種基于K-近鄰正則化樣本權(quán)重機(jī)制的loss，有效降低預(yù)測(cè)錯(cuò)誤樣本產(chǎn)生的誤差累積問(wèn)題，通過(guò)敏感性實(shí)驗(yàn)觀測(cè)到該方法在一定程度上提升準(zhǔn)確率；

2）提出一種小樣本上基于2階段的半監(jiān)督情感分類(lèi)模型，學(xué)習(xí)Test數(shù)據(jù)上的特征信息且對(duì)Test數(shù)據(jù)上已經(jīng)標(biāo)注的樣本標(biāo)簽進(jìn)行再修改，結(jié)果顯示所提出方案的有效性。

參考文獻(xiàn)

[1] Devlin J， Chang M， Lee K，et al. BERT： pre-training of deep bidirectional transformers for language understanding[C]//2019 Conference of the North American Chapter of the Association for Computational Linguistics. Minnesota： Association for Computational Linguistics， 2019： 4171-4186.

[2] Liu Y， Ott M， Goyal N， et al. Roberta： A robustly optimized bert pretraining approach[EB/OL].（2019-7-27）[2024-11-6]. https：// arxiv.org/abs/1907.11692.

[3] Yang Z， Dai Z， Yang Y， et al. Xlnet generalized autoregressive pretraining for language understanding[C]//33rd International Conference on Neural Information Processing Systems. Red Hook， USA：Curran Associates Inc， 2019：5753-5763.

[4] Zhao Z， Zhou L， Duan Y， et al. DC-SSL： Addressing mismatched class distribution in semi-supervised learning[C]//2022 IEEE/ CVF Conference on Computer Vision and Pattern Recognition. New Orleans， USA： IEEE， 2022：9747-9755.

[5] Wang P， Li J， Hou J. S2SAN： A sentence-to-sentence attention network for sentiment analysis of online reviews[J]. Decision Support Systems， 2021，149：113603.

[6] Zhang Y， Zhang Z， Miao D， et al. Three-way enhanced convolutional neural networks for sentence-level sentiment classification[J].Information Sciences， 2019， 477：55-64.

[7] Rao G， Huang W， Feng Z， et al. LSTM with sentence representations for document-level sentiment classification[J]. Neurocomputing， 2018， 308（35）：49-57.

[8] Fu X， Liu W， Xu Y， et al.Combine HowNet lexicon to train phrase recursive autoencoder for sentence-level sentiment analysis[J].Neurocomputing， 2017， 241（7）：18-27.

[9] Lan Z， Chen M， Goodman S， et al. ALBERT： a Lite BERT for self-supervised learning of language representations[EB/OL].（2019-9-26）[2024-11-6]. https：//arxiv.org/abs/1909. 11942.

[10] He P， Liu X， Gao J， et al. DeBERTa： decoding-enhanced BERT with disentangled attention[J]. （2020-6-5）[2024-11-6].https：// arxiv.org/abs/2006.03654.

[11] Pasquier C， Da Costa Pereira C， Tettamanzi A G B. Extending a fuzzy polarity propagation method for multi-domain sentiment analysis with word embedding and pos tagging[C]//ECAI 2020-24th European Conference on Artificial Intelligence. Spain：IOS Press， 2020： 2140-2147.

[12] Tian H， Gao C， Xiao X， et al. SKEP： sentiment knowledge enhanced pre-training for sentiment analysis[C]//58th Annual Meeting of the Association for Computational Linguistics. Pennsylvania， United States： Association for Computational Linguistics， 2020：4067-4076.

[13] Zhao Q， Ma S， Ren S. KESA： a knowledge enhanced approach for sentiment analysis[C]// 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing. Pennsylvania，United States： Association for Computational Linguistics， 2022：766-776.

[14] Ke P ， Ji H， Liu S， et al. SentiLARE： sentiment-aware language representation learning with linguistic knowledge[C]// 2020 Conference on Empirical Methods in Natural Language Processing. Pennsylvania， United States： Association for Computational Linguistics， 2020：6975-6988.

[15] Li W L， Qian T Y. From consensus to disagreement： multi-teacher distillation for semi-supervised relation extraction[EB/OL].（2021-12-2）[2024-11-6]. https：//arxiv.org/abs/2112.01048.

[16] Mukherjee S， Awadallah A H. Uncertainty-aware self-training for few-shot text classification[C]//34th International Conference on Neural Information Processing Systems. Canada：Curran Associates Inc， 2020：21199-21212.

[17] Tsai A C Y， Lin S Y， Fu L C. Contrast-enhanced semi-supervised text classification with few labels[C]//AAAI Conference on Artificial Intelligence.Vancouver， Canada：AAAI Press， 2022：11394-11402.

[18] Zuo S， Yu Y， Liang C， et al. Self-training with differentiable teacher[C]//Findings of the Association for Computational Linguistics. Pennsylvania，United States： Association for Computational Linguistics， 2022：933-949.

[19] Lin Q， Ng H T. A semi-supervised learning approach with two teachers to improve breakdown identification in dialogues[C]//、AAAI Conference on Artificial Intelligence.Vancouver， Canada： AAAI Press， 2022：11011-11019.

[20] Karamanolakis G， Mukherjee S， Zheng G， et al. Self-training with weak supervision[C]//2021 Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. Pennsylvania， United States： Association for Computational Linguistics， 2021：845-863.

[21] 陳珂，黎樹(shù)俊，謝博. 基于半監(jiān)督學(xué)習(xí)的微博情感分析[D].茂名：廣東石油化工學(xué)院， 2018. Chen K， Li S J， Xie B. Sentiment analysis of Chinese micro-blog based on semi-supervised[D]. Maoming： University of Petrochemical Technology，2018.

[22] 郭卡，王芳. TS-Aug架構(gòu)的半監(jiān)督自訓(xùn)練情感分類(lèi)算法[D].合肥：安徽外國(guó)語(yǔ)學(xué)院，2024. Guo K， Wang F. Semi-supervised self-training sentiment classification algorithm based on TS-Aug architecture[D]. Hefei： Anhui University of Foreign Languages， 2024.

[23] Li C， Li X， Ouyang， J. Semi-supervised text classification with balanced deep representation distributions[C]//59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Pennsylvania，United States： Association for Computational Linguistics， 2021：5044-5053.

[24] Yu Y， Zuo S， Jiang H， et al. Fine-tuning pre-trained language model with weak supervision： a contrastive-regularized selftraining[C]//2021 Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. Pennsylvania，United States： Association for Computational Linguistics，2020：1063-1077.

[25] Chen J， Yang Z， Yang D. Mixtext： linguistically-informed interpolation of hidden space for semi-supervised text classification[C]//Association for Computational Linguistics. Pennsylvania，United States： Association for Computational Linguistics， 2020： 2147-2157.

[26] Chen Q， Zhang R， Zheng Y， et al. Dual contrastive learning： text classification via label-aware data augmentation[EB/OL].（2022-1-21）[2024-11-6]. https：//arxiv.org/abs/2201.08702.

[27] Jiang W， Mao Q， Lin C， et al. DisCo： distilled student models co-training for semi-supervised text mining[C]//2023 Conference on Empirical Methods in Natural Language Processing. Pennsylvania， United States： Association for Computational Linguistics， 2023：4015-4030.

[28] Murtadha A， Pan S， Wen B， et al. Rank-Aware negative training for semi-supervised text classification[J].Transactions of the Association for Computational Linguistics. 2023， 11：771-786.

（編輯侯湘）

重慶大學(xué)學(xué)報(bào)2024年12期

重慶大學(xué)學(xué)報(bào)的其它文章: TiO₂基光電化學(xué)傳感器在環(huán)境污染物痕量檢測(cè)中的應(yīng)用; 基于物理信息神經(jīng)網(wǎng)絡(luò)的非線(xiàn)性瞬態(tài)熱傳導(dǎo)正/反問(wèn)題研究; 雙發(fā)射無(wú)線(xiàn)電能傳輸系統(tǒng)的同步控制策略研究; 具有全向抗偏移能力及恒流輸出的電動(dòng)汽車(chē)無(wú)線(xiàn)充電系統(tǒng); 基于機(jī)器視覺(jué)的隧道裂縫檢測(cè)方法研究; 基于混合風(fēng)格遷移的智能合約漏洞檢測(cè)方法