基于分數階高斯噪聲的BERT 情感文本分類研究

2024-08-23 00:00:00龍雨欣蒲亦非張衛華

四川大學學報(自然科學版) 2024年4期

摘要：由于BERT 模型龐大的參數量和在預訓練階段的過擬合問題，本文針對性地提出了基于分數階高斯噪聲（fGn）的即插即用模塊FGnTune. 該模塊利用fGn 引入隨機性，用于提高BERT 預訓練模型在情感文本分類任務中的性能. fGn 是具有長程依賴和非平穩性的隨機信號，通過在BERT 微調階段為參數融入fGn 噪聲，進一步增強模型的魯棒性，降低過擬合的可能性. 通過對不同網絡模型及多種數據集進行實驗分析，在不需增加模型的額外參數或增加其結構復雜度的前提下，引入FGnTune 模塊可以使模型的準確率在原有基礎上提升約0. 3%～0. 9%.

關鍵詞：文本分類； BERT；情感文本；深度學習

中圖分類號： TP391. 4 文獻標志碼： A DOI： 10. 19907/j. 0490-6756. 2024. 042003

1 引言

情感文本分類是自然語言處理領域中一項重要的任務，旨在通過分析文本中蘊含的情感傾向，將文本劃分為不同的情感類別，如積極、消極或中性. 情感文本分類在社交媒體分析、產品評價、輿情監測和市場營銷等領域具有廣泛的應用價值.近年來隨著信息技術的快速發展，用戶通過網絡平臺表達和傳遞情緒，互聯網上產生了大量用戶參與的對于諸如人物、事件和產品等有價值的評論信息，且這些信息隨著科技的發展和時間的推移呈指數增長［1］.

在過去的幾十年中，情感文本分類一直是研究的熱點領域. 早期的研究主要基于傳統的機器學習方法，如樸素貝葉斯、支持向量機和決策樹等. 這些方法需要手工設計特征，并且在處理復雜的自然語言文本時存在一定的局限性. 隨著深度學習方法的興起，情感文本分類進入了新階段，取得了顯著的進展.

深度學習方法以其強大的表示學習能力和自動特征提取的優勢，在情感文本分類中得到了廣泛應用. 卷積神經網絡（CNN）［2］和循環神經網絡（RNN）［3］是最早被應用于情感文本分類的深度學習模型. CNN 通過卷積操作捕捉文本局部特征，而RNN 通過學習文本序列的上下文信息來提取語義特征. 然而，傳統的RNN 模型，如長短時記憶網絡（LSTM）［4］和門控循環單元（GRU）［5］，在處理長序列時存在梯度消失和梯度爆炸等問題［6］.

為了解決RNN 的問題，雙向長短時記憶網絡（BLSTM）［7］被引入情感文本分類任務中. BLSTM通過引入反向LSTM 來捕捉文本序列的上下文信息，從而更好地捕捉文本中的語義特征. BLSTM 模型在情感文本分類中得到了一定的性能提升，并成為了廣泛應用的基準模型之一. 然而，RNN 是一種逐步處理文本序列的模型，每個單詞的處理依賴于前面單詞的處理結果. 因此對于較長的句子，RNN 需要花費更多的計算資源來捕捉單詞之間的關系. CNN在處理文本時對順序的依賴性較小，但是同樣面臨著與RNN 類似的問題. 隨著句子長度的增加，CNN也需要更多的計算資源來捕捉單詞之間的關系. 為了解決這個問題，Transformer［8］模型被引入.Transformer 通過應用自注意力機制，可以并行計算每個單詞在句子或文檔中的“注意力分數”，從而模擬每個單詞對其他單詞的影響. 這種并行計算的特性使得Transformer 可以更有效地處理長句子，并且可以在GPU 上訓練大規模的模型和大量的數據. 此外，通過引入注意力機制，模型能夠更好地關注與情感有關的文本片段，提高分類的準確性.

近年來，預訓練模型的興起推動了情感文本分類的發展［9］. 在使用預訓練模型進行特征表示時，存在2 種常見策略：基于特征的方法和基于微調的方法.基于特征的方法的代表是ELMo［10］，它使用了RNN架構. 對于每個下游任務，ELMo 構建了與該任務相關的神經網絡，并將預訓練得到的表示（如詞嵌入）作為額外的特征，與輸入一起傳入到模型中. 這樣可以將學到的特征與輸入一起作為有效的特征表示.基于微調的方法，如GPT［11］和BERT［12］，使用了更先進的Transformer 架構. 在這種方法中，預訓練好的模型在下游任務中的應用不需要做太多改動，預訓練模型的參數在下游數據集上進行微調，根據新的數據進行權重更新. GPT 是單向語言模型，而BERT通過引入掩碼語言模型（MLM）克服此限制. MLM在輸入序列中隨機遮蓋一些標記，并要求模型預測這些被遮蓋的標記. 相比于標準的語言模型，帶有掩碼的語言模型可以看到上下文信息. 通過這種方式，BERT 訓練了深層的雙向Transformer 模型. 為了將BERT 模型應用于情感文本分類，通常需要對其進行微調［13，14］. 微調過程涉及在特定的情感文本分類數據集上對BERT 模型進行有監督的訓練，通過結合其他模型（如全連接層或支持向量機）作為分類器，利用微調后的BERT 模型對情感文本進行分類預測.這種結合預訓練的BERT 模型和微調方法在情感文本分類任務中取得了令人矚目的性能表現.

雖然BERT 在情感文本分類領域取得了令人矚目的效果，其龐大的參數量（BERT-base 的1. 1×108和BERT-large 的3. 4×108）無疑增加了研究者的計算資源和顯存上的負擔. 此外，BERT 在預訓練任務和數據上可能過度擬合. 這些任務和數據往往與特定的下游任務存在差異，進而影響其在特定任務上的表現.

為了解決上述問題，本文在BERT 預訓練模型的基礎上提出了基于分數階高斯噪聲的微調方法，稱為FGnTune. 通過融入分數階高斯噪聲，不但模型的魯棒性和泛化能力得到了增強，更為適應不同的模型配置，而且無需增加額外參數. 當配合不同的下游網絡應用于情感分類任務時，準確度均有明顯提升.

2 相關工作

2. 1 BERT 預訓練模型

BERT 采用了Transformer 架構，該架構是基于自注意力機制的深度神經網絡模型. Transformer由Encoder 和Decoder 組成，但在BERT 中只使用了Encoder 特征提取器. Encoder 由多個相同的層堆疊而成，有12 層（BERT-base 模型）或24層（BERT-large 模型）. 每個Encoder 都具有相同的結構，由自注意力機制和前饋神經網絡組成. 這種層疊的結構使得BERT 能夠從不同層次和不同粒度的語義信息中進行學習和抽取，并逐漸獲得更豐富的語義表示. 每個編碼器層的輸出都會傳遞到下一層作為輸入，形成層與層之間的信息流動. 這使得BERT 能夠學習到更復雜的語義結構和關系，從而提升了其在各種自然語言處理任務中的表現能力. 自注意力機制是Transformer 的核心組件之一，它允許模型在處理輸入序列時自動為每個單詞分配重要性權重. 通過計算每個單詞與其他單詞之間的相對重要性，自注意力機制能夠在不同層次上捕捉輸入序列中的上下文信息.

在BERT 中，輸入序列首先通過詞嵌入層將每個單詞轉換為對應的向量表示. 然后，輸入向量經過多個編碼器層進行處理. 在每個編碼器層中，自注意力機制可以同時考慮輸入序列中的所有單詞，并為每個單詞生成上下文相關的表示. 除了自注意力機制，BERT 的編碼器還包括前饋神經網絡. 前饋神經網絡由2 個全連接層組成，通過使用激活函數來引入非線性變換. 這有助于模型更好地捕捉輸入序列中的復雜關系和特征. 通過結合自注意力機制和前饋神經網絡，BERT 編碼器能夠更好地建模輸入序列中的上下文信息，在情感文本分類中，單詞的含義和情感傾向通常受到周圍單詞的影響，BERT 可以更好地理解句子的語義和情感含義，從而提供更準確的特征表示. BERT 模型框架如圖1 所示.

2. 2 分數階高斯噪聲

分數階高斯噪聲（fractional Gaussian noise， fGn）是隨機過程，它是高斯白噪聲的推廣，其中過程的增量不是獨立的，而是具有長程依賴結構，1968 年由Mandelbrot 等［15］首次提出. 它的分布可由延遲τ 的自協方差來描述［16］，如式（1）所示.

其中，H 為Hurst 指數，σ2是方差. Hurst 指數用于衡量時間序列的長程依賴性或持久性，取值范圍在0和1 之間. 當H=0. 5 時，時間序列表現為隨機游走或白噪聲，沒有長程依賴性. 當Hlt;0. 5 時，時間序列表現出負相關性，即過去的值對未來的值有反向影響. 當Hgt;0. 5 時，時間序列表現出正相關性，即過去的值對未來的值有同向影響. 當H=1時，時間序列表現為完全持久性或完全自相關性，具有最強的長程依賴性. 方差只是尺度參數，fGn的主要性質由Hurst 指數決定. 不同的H 值對fGn序列的影響如圖2 所示.

3 FGnTune

受Wu 等［17］的啟發，本文提出了基于分數階高斯噪聲的BERT 調整方法. 在BERT 的參數中添加fGn，增大BERT 內部參數振幅，然后再在下游任務上對其進行微調，以做一些參數空間中的“探索”，降低過度擬合預訓練任務和數據的風險. 圖3是本文的FGnTune 示意圖.

如圖3 所示，本文提出的FGnTune，指在微調之前，將噪聲通過算法1 加入BERT 的參數里面.算法1 中，h 是Hurst 指數，noise_lambda 代表相對噪聲強度. 算法1 首先獲取BERT 模型中的參數矩陣param；然后計算矩陣的形狀和參數的標準差，fGn 是根據式（1）生成和參數一樣形狀的分數階高斯噪聲；最后通過將參數與生成的噪聲相加，并乘以一些調整因子，將噪聲應用于參數，方差較高的參數將添加較強的噪聲.

4 實驗與結果

4. 1 數據集

本文使用開源情感文本數據集IMDB［18］、sentiment140和MR 電影評論數據集［19］來評估我們的模型. IMDB 數據集是常用的情感分析數據集，有正向和負向2 種情感傾向，用于對電影評論進行情感分類. 該數據集包含50 000 條已標記的電影評論，其中25 000 條用作訓練集，其余25 000 條用作測試集. sentiment140 數據集包含Twitter 上抓取的1 600 000 條推文，每條推文都有其對應的情感極性（0=負面，4=正面）. 從中隨機選取60 000 條數據，按照類別（標簽）進行分層抽樣，以8∶2 的比例來劃分訓練集和測試集. MR 電影評論數據集包括用于標記的電影評論文檔集合. 數據集包含10 662 條的評論，其中包括5331 條正面和5331 條負面評論. 為了保持評價標簽在訓練集和測試集中的分布一致，采用分層抽樣方法進行數據劃分.其中70% 的數據隨機選取為訓練集，剩余的30%作為測試集，確保2 個子集中正面和負面評論的比例與整個數據集保持一致.

4. 2 實驗設置

實驗程序在裝有NVIDIA RTX 3090 顯卡的服務器上運行，實驗模型均使用PyTorch 框架和Jupyter Notebook 編寫. 預訓練模型使用的是BERT-base 模型，輸入序列最大長度為512，輸出文本段特征維度為768，參數設置如表1 所示.

4. 3 實驗結果與分析

為了驗證FGnTune 的魯棒性和泛化能力，分別選取4、8 和12 層預訓練好的BERT 模型，用5 種不同配置的模型在IMDB 數據集上進行對比實驗，分別是BERT、BERT+LSTM、BERT+BLSTM、BERT+GRU 和BERT+BiGRU. 其中LSTM、BLSTM、GRU 和BiGRU 的隱藏層大小均為128.使用準確率Acc（Accuracy）對實驗結果進行評價，實驗結果對比如表2 所示. 表2 列出了經過FGn?Tune 處理后的不同模型配置的準確率. 可以發現，BERT 采用上述4 種下游網絡準確率提升0. 05%～0. 9%，而引入FGnTune 后，在不增加計算量的情況下，準確率提升0. 3%～0. 7%. 此外，FGnTune 可以作為一個即插即用的模塊，可以結合到任意模型配置中.

為了驗證FGnTune 對不同類型和規模數據集的適用性，接下來使用4 層的BERT 模型，并采用上述5 種配置，在Sentiment140 和MR 數據集上進行實驗，結果如表3 所示. 無論是基線BERT 模型還是結合LSTM、BLSTM、GRU 以及BiGRU 的模型，FGnTune 的應用都明顯提升了準確率. 其中，在Sentiment140 數據集上，準確率提升了0. 3%～0. 5%，而在MR 數據集上，提升幅度更為顯著，達到了0. 6%～0. 9%. 這些數據進一步證明，在微調BERT 前加入FGnTune 可以提升模型對情感文本分類任務的識別能力.

為了討論Hurst 指數和λ（noise lambda）對結果的影響，取4 層的BERT 模型，結合LSTM 和BLSTM 在IMDB 數據集上進行對比實驗. 如圖4所示，不同的λ 對實驗結果產生了不同的影響. 總體而言，隨著λ 的增加，模型的準確率呈現先增后減的趨勢. 當使用純BERT 模型，λ 為0. 15 時可以獲得最高的準確率；而在BERT+LSTM 和BERT+BLSTM 配置下，λ 為0. 2 時達到了最佳準確率. 基于圖4 中不同模型的最佳λ 值，調整Hurst指數以觀察其對模型性能的影響. 如圖5 所示，當Hurst 指數設置為0. 8 時，這3 種模型配置均實現了最佳的準確率表現.

5 結論

本文針對情感文本分類任務提出了基于分數階高斯噪聲的微調策略. 通過為BERT 模型的參數矩陣注入分數階高斯噪聲，使得模型能夠更好地遷移到下游任務，并對其數據進行更準確的擬合. 實驗數據顯示，在不增加額外參數的情況下，本文方法在多個情感文本數據集上明顯提升了分類準確率. 此外，實驗結果證明，本文方法在多種模型配置下具有出色的魯棒性和泛化性. 未來的研究工作將進一步探索該策略在其他自然語言處理任務乃至視覺領域的潛在應用和效果.

參考文獻：

［1］ Zhang X Y， Cai Z J. Text sentiment analysis based onBert-BiGRU-CNN ［J］. Comput Simulat， 2023， 40：519.［張鑫玉，才智杰. 基于Bert-BiGRU-CNN 的文本情感分析［J］. 計算機仿真， 2023， 40： 519.］

［2］ Kim Y. Convolutional neural networks for sentenceclassification［ EB/OL］.［2014-09-03］. https：//arxiv.org/abs/1408. 5882.。

［3］ Elman J L. Finding structure in time ［J］. CognitiveSci， 1990， 14：179.

［4］ Hochreiter S，Schmidhuber J. Long Short-TermMemory［ J］. Neural Comput， 1997， 9： 1735.

［5］ Cho K， Merrienboer B V， Gulcehre C， et al. Learningphrase representations using RNN encoderdecoderfor statistical machine translation ［C］//Proceedingsof the Conference on Empirical Methods inNatural Language Processing. Doha： ACL， 2014.

［6］ Cho K， Merrienboer B V， Gulcehre C， et al. Learningphrase representations using R Kamyab， M. ；Liu， G. ； Adjeisah， M. Attention-based CNN andBi-LSTM model based on TF-IDF and GloVe wordembedding for sentiment analysis ［J］. Appl Sci，2021， 11： 11255.

［7］ Graves A， Schmidhuber J. Framewise phoneme classificationwith bidirectional LSTM and other neuralnetwork architectures ［J］. Neural Networks， 2005，18： 602.

［8］ Vaswani A， Shazeer N， Parmar N， et al. Attentionis all you need ［C］//Proceedings of the 31st InternationalConference on Neural Information ProcessingSystems. Long Beach， CA： NIPS， 2017： 6000.

［9］ Dai A M， Le Q V. Semi-supervised sequence learning［C］//Proceedings of Advances in Neural InformationProcessing Systems.［S. l.］： MIT Press， 2015.

［10］ Peters M E， Neumann M， Iyyer M， et al. Deep contextualizedword representations ［C］//Proceedingsof NAACL-HLT. Los Angeles：Association forComputational Linguistics， 2018.

［11］ Radford A，Narasimhan K，Salimans T， et al. Improvinglanguage understanding by generative pretraining［EB/OL］. ［2023-11-13］. https：//s3-uswest-2. amazonaws. com/openai-assets/researchcovers/language-unsupervised/language_understand ?ing_paper. pdf.

［12］ Devlin J， Chang M W， Lee K， et al. Bert： Pre-trainingof deep bidirectional transformers for language understanding［ EB/OL］.［2019-05-24］. https：//arxiv. org/abs/1810. 04805.

［13］ Adhikari A，Ram A，Tang R， et al. Exploring thelimits of simple learners in knowledge distillation fordocument clas sification with docbert ［C］//Proceedingsof the 5th Workshop on Representation Learningfor NLP. Seattle： ACL， 2020.

［14］ Minaee S， Kalchbrenner N， Cambria E， et al. Deeplearning-based text classification： A comprehensivereview［ J］. ACM Comput Surv， 2021， 54： 62.

［15］ Mandelbrot B B， Van Ness J W. Fractional brownianmotions fractional noises and applications ［J］.SIAM Rev， 1968， 10： 422.

［16］ Beran J. Statistics for long-memory processes ［M］.New York： Chapman amp; Hall， 1994： 61.

［17］ Wu C H，Wu F Z，Qi T， et al. NoisyTune： A littlenoise can help you finetune pretrained language modelsbetter ［EB/OL］. ［2022-03-23］. https：//arxiv.org/abs/2202. 12024.

［18］ Maas A， Daly R E， Pham P T， et al. Learning wordvectors for sentiment analysis ［C］//Proceedings ofthe 49th Annual Meeting of the Association for Com ?putational Linguistics：Human Language Technologies.Portland，Oregon：Association for ComputationalLinguistics， 2011： 142.

［19］ Pang B， Lee L. Seeing stars： Exploiting class relationshipsfor sentiment categorization with respect torating scales ［C］//Proceedings of the 43rd AnnualMeeting of the ACL. Ann Arbor： Association forComputational Linguistics， 2005： 115.

（責任編輯：于白茹）

基金項目：國家自然科學基金面上項目（62171303）；分數階憶阻模擬實現的新標度電路結構及其電氣特性變化規律研究（62171303，2022―2025 年）