













摘要:目前關于中文評論文本的情感分類方法大都無法充分捕捉到句子的全局語義信息,同時也在長距離的語義連接或者情感轉折理解上具有局限性,因而導致情感分析的準確度不高。針對這個問題,本文提出一種融合Self-Attention和TextCNN-BiLSTM的文本情感分析方法。該方法首先采用文本卷積神經網絡(TextCNN)來提取局部特征,并利用雙向長短期記憶網絡(BiLSTM)來捕捉序列信息,從而綜合考慮了全局和局部信息,在特征融合階段,再采用自注意力機制來動態地融合不同層次的特征表示,對不同尺度特征進行加權,從而提高重要特征的響應。實驗結果表明,所提出的模型在家電商品中文評論語料和譚松波酒店評論語料數據集上的準確率分別達到 93.79%和 90.05%,相較于基準模型分別提高 0.69%~3.59%和4.44%~11.70%,優于傳統的基于卷積神經網絡(Convolutional Neural Networks, CNN)、BiLSTM或CNN-BiLSTM等的情感分析模型。
關鍵詞:自注意力機制;中文評論文本;深度學習;情感分析
中圖分類號:TP391.1中圖分類號文獻標志碼:A文獻標識碼
DOI:10.13880/j.cnki.65-1174/n.2025.23.003
文章編號:1007-7383(2025)01-0111-11
Sentiment analysis model of Chinese commentary text based on Self-Attention and TextCNN-BiLSTM
LONG" Yu1,2,LI" Qiusheng1,2*
(1 School of Physical and Electronics and Information, Gannan Normal University,Ganzhou,Jiangxi 341000, China;
2 Research Center of Intelligent Control Engineering Technology, Gannan Normal University,Ganzhou,Jiangxi 341000,China)
Abstract:" Most of the current sentiment classification methods on Chinese commentary texts cannot fully capture the global semantic information of sentences, and also have limitations in the understanding of long-distance semantic connections or emotional transitions, which leads to the low accuracy of sentiment analysis. To solve this problem, this paper proposes a text sentiment analysis method that integrates self-attention mechanism and TextCNN-BiLSTM. The method uses multi-scale convolutional neural network (TextCNN) to extract local features,and utilizes bidirectional long short-term memory network (BiLSTM) to capture sequence information, so that, global and local information is considered comprehensively,in the feature fusion stage, the self-attention mechanism is adopted to dynamically integrate the feature representations of different levels and weight the features of different scales, so as to improve the response of important features.The experimental outcomes demonstrate that the proposed model achieves an accuracy of 93.79% on the Chinese comment corpus, with a specific accuracy of 90.05% in certain subsets. This performance represents a significant improvement over traditional sentiment analysis models, outperforming them by 0.69% to 3.59% and an impressive 4.44% to 11.70%. The proposed method thus surpasses conventional models that are based on Convolutional neural networks (CNN), BiLSTM, or CNN-BiLSTM architectures.
Key words: Self-Attention;Chinese commentary text;deep learning;sentiment analysis
中文文本情感分析[1]是自然語言處理的關鍵任務之一,旨在識別和分析文本中的情感傾向。這一任務不僅對理解用戶情感和改進用戶體驗具有重要意義,還對社會輿情監測、市場分析和智能客服等領域產生了深遠影響。隨著社交媒體和在線評論的普及,大量用戶生成內容的出現,使得情感分析成為挖掘數據背后情感信息的核心技術。它不僅幫助企業優化產品和服務,還能為政府和研究機構提供公眾情緒的深入洞察,以制定更加有效的政策和策略。傳統的情感分析方法通常依賴情感詞典和機器學習技術,如支持向量機(Support Vector Machine,SVM)和樸素貝葉斯(Naive Bayes),盡管在某些特定應用場景中表現出了一定的效果,但在應對中文分詞的復雜性、語義的多樣性、數據標注的困難以及模型泛化能力等方面,仍然存在顯著的挑戰。
近年來,隨著深度學習的快速發展,基于神經網絡的情感分析研究取得了很大進展。杜昌順等[2]提出的分段卷積神經網絡(Convolutional Neural Network,CNN)通過分段池化和Dropout策略有效緩解了過擬合問題,但在處理長文本時局限于局部上下文,易導致信息丟失。針對這一問題,Xiao等[3]引入雙向長短期記憶網絡(Bidirectional Long Short-Term Memory, BiLSTM),利用雙向循環神經元更全面地捕捉文本的上下文語義,顯著提升了情感分類效果。曹宇等[4]進一步通過雙向門控循環網格(Bidirectional gate recurrentunit,BiGRU)簡化模型結構,在加速訓練的同時保持了出色的序列信息處理能力。Basarslan等[5]采用深度學習中的 CNN、循環神經網絡(Recurrent Neural Network,RNN)和 LSTM 技術以及機器學習中的 SVM 和NB 技術來對響應進行分類,BERT[6]、Glove、Word2Vec、TF-IDF 和BOW 是采用一些詞嵌入技術,使用 BERT和 LSTM 構建的模型被證明是所有測試模型中最有效的,在所有的文本表示和詞嵌入方法中,BERT被證明在模型中使用時是最有效的。然而,單一神經網絡在特征提取方面存在局限,難以準確捕捉不同詞匯對情感傾向的影響。為此,研究人員逐漸轉向多網絡混合模型,并引入注意力機制,以更精準地聚焦關鍵情感特征。王麗亞等[7]提出了一種融合注意力機制與CNN-BiGRU的模型,既能提取深層短語特征,又能有效學習序列化信息,顯著提升了模型性能。然而,注意力機制雖增強了對重要信息的關注,但依賴參數,難以捕捉文本內部的序列關系。為此,吳小華等[8]結合字向量、Self-Attention和BiLSTM,提升了對文本關鍵特征的學習能力。邱寧佳等[9]在混合模型中加入設計的語法規則提取出情感傾向更加明確的信息,以提高模型的分類準確率。周寧等[10]在一個通道利用粗糙數據推理將與文本有關的情感元素融入Word2Vec與FastText詞向量中,使用CNN提取文本局部特征;在另一個通道使用BERT進行詞嵌入補充,利用BiLSTM獲取文本全局特征,最后加入注意力計算模塊進行雙通道特征深層交互。多網絡混合模型與單一神經網絡模型相比,模型在準確率、性能等方面有所提高,但無法挖掘句子內部語義關聯結構,在長距離的語義連接或者情感轉折理解上具有局限性,也未能有效解決參數依賴、長距離依賴捕捉不足及復雜語義結構深度挖掘的問題。
之后,歐陽福蓮等[11]提出了CNN-BiLSTM-Attention模型,該模型能夠有效緩解參數依賴問題,并加強對長距離依賴和復雜語義結構的捕捉能力,在多個情感分析任務中表現出了更好的效果。Wang等[12]針對用信息丟失和忽略上下文等問題,用Transformer模型取代傳統的卷積神經網絡CNN和遞歸神經網絡(RNN,有效地提高了模型訓練速度,降低了模型訓練難度。Benarab等[13] 提出了一種 CNN 增強的Transformer 編碼器,利用卷積層產生更通用的表示,識別來自所有 BERT 層的表示之間的相似性,并采用多頭注意力方法計算平均值。在 Yelp數據集上,提出的方法獲得了 82.23% 的準確率,正如Bello等[14]所建議的,當BERT與BiLSTM、CNN和RNN而不是Word2vec結合使用時,可以獲得更好的結果。Word2vec 限制了我們理解單詞使用上下文的能力,而 BERT 則考慮了前面和后面的輸入。
除了單模態的情感文本分析,Peng等[15]提出了一種具有分層融合的跨模態互補網絡(CMCN),其中包含3個關鍵模塊,即特征提取模塊、特征注意力模塊和跨模態分層融合模塊,這種結構可以充分集成不同的模態特征,并有助于減少集成無關模態特征的風險。由于傳統的文本分類方法只能處理歐氏空間的數據,無法處理圖這種數據。張少軍等[16]采用詞典法和BERT雙向長短期記憶模型(BERT-BiLSTM)對在線財經新聞提取情感特征,構建了融合情感特征和股票交易特征的股指預測模型。
基于上述分析,當前大多數深度學習的文本情感分析研究正致力于不斷探索和改進,旨在解決情感分析領域中的復雜難題。最新的研究焦點主要集中于深度學習模型的優化、細粒度情感分析與多標簽分類,以及跨語言與跨領域情感分析等方面。本文主要研究深度學習模型的優化,提出了一種創新性的中文文本情感分析模型,該模型融合了Self-Attention和TextCNN-BiLSTM,旨在克服傳統模型在語義信息提取方面的不足。我們的模型具有以下3個貢獻:第一,自注意力機制能夠有效捕捉文本中的長距離依賴關系,并自主選擇對情感分析最有用的信息,增強了模型在全局情感線索的挖掘能力。第二,TextCNN通過多通道卷積提取多尺度的局部特征,進一步與BiLSTM捕捉到的上下文信息相結合,從而提升對情感信息的全面理解能力。第三,通過多層次的語義提取,模型在詞匯、短語以及全局層次上都能夠實現精準的情感分析,有效提升了模型的準確率。在兩個數據集上進行的實驗均證明本文的模型具有較高的準確率,分類性能較好。
1 資料與方法
1.1 數據處理
1.1.1 數據采集
數據采集是進行文本情感分析的第一步,通過收集和獲取用于情感分析的文本數據,來獲取蘊含其中的用戶的情感傾向。數據采集方法包括傳感器采集、爬蟲采集、錄入采集、導入采集和接口采集。本文采用爬蟲采集法,通過Scrapy框架編寫爬蟲程序采集某電商網站中某個商品的評論作為語料,將采集的數據(包括好評和差評)按順序存放到相應的CSV文件中,該文件命名為corpus.csv。
1.1.2 數據預處理
數據預處理主要由數據清洗、數據集成、數據規約以及數據變換這些基本步驟構成。本文中,首先從CSV文件中讀取了中文商品評論的數據;隨后,對評論進行處理,提取出其中的標簽和評價內容;然后,對評論內容進行了去停用詞處理,以去除對情感分析無關的常見詞匯,這一步驟類似于去除噪聲數據;接著,對評價內容進行分詞操作,將文本分割成單詞或詞語的序列;最后,將文本輸入詞嵌入層(Embedding Layer),Embedding 層使用 GloVe 預訓練的詞向量模型來將文本轉換為固定維度的向量表示。
1.2 TextCNN-BiLSTM-Att模型
TextCNN-BiLSTM-Att模型主要包括4層,分別為詞嵌入層、特征提取層、注意力層和輸出層,特征提取層又由全局特征提取網絡BiLSTM和局部特征提取網絡TextCNN組成,模型結構如圖1所示。從圖中可以看出,TextCNN-BiLSTM-Att模型的4層結構各不相同。第一層是根據中文文本的序列結構和語義信息特點設計Embedding層,主要應用于將詞語轉換為向量表示,保留詞語之間的語義關系。第二層引入TextCNN,利用卷積優勢,挖掘局部特征、語法特征,多個卷積核(通道)被用來提取不同長度的局部特征組合。
第三層引入多層BiLSTM來捕獲長距離依賴關系并建模文本的全局信息,以便實現對整個文本序列的建模與理解。第四層利用Self-Attention對不同時間步的信息進行加權匯總,關注重要部分,解決在長序列上的信息丟失和模型性能退化等問題。最后,將提取出來的特征通過Softmax函數進行訓練,并預測每個類別的概率分布,最終完成文本分類任務。
1.2.1 詞嵌入層(Embedding Layer)
處理情感分析任務時,第一步就是將原始文本轉化為向量,作為模型的輸入數據。在上述模型中,文本向量化是通過詞嵌入層(Embedding Layer)實現的。具體來說,模型的第一層(Embedding 層)使用了 GloVe 預訓練的詞向量作為初始化參數:
以包含n個詞的文本[word1, word2,…,wordn]為例,xi∈Rd表示詞wordi通過GloVe詞向量集R嵌入得到的d維詞向量xid,則輸入的文本矩陣S可以表示為
S=[x1,x2,x3,…xn]=x11x12…x1d
x21x22…x2d
xn1xn2…xnd,
將文本矩陣S作為文本向量表示輸入模型中。
在模型訓練過程中,這個Embedding層的參數會被不斷地優化,以使得模型在任務上學習到更好的詞向量表示。
1.2.2 特征提取層
文本情感分析中,理解文本中的特征對于正確分類情感非常重要,本文使用文本卷積神經網絡(TextCNN)來提取句子的局部特征,采用BiLSTM來提取句子的全局特征。
(1)局部特征提取。Kim等[17]在2014年發表的論文《Convolutional Neural Networks for Sentence Classification》中提出了在卷積神經網絡中使用卷積操作進行文本分類的方法,通過將不同大小的卷積核應用于句子的詞嵌入表示,捕獲不同長度的語言結構特征,然后通過池化操作將這些特征進行整合,最終得到句子的表示,充分展示了TextCNN在處理文本數據方面的有效性。TextCNN擁有高效特征提取與計算兩大特點,可以有效地提取出文本局部特征,所以本文選擇使用文本卷積神經網絡TextCNN,它通過在不同尺度上使用不同大小的卷積核,能夠更全面地捕獲不同尺度下的特征信息,提高模型的適應性和泛化性。
模型通過將文本向量輸入到卷積層和池化層來提取局部特征。
第一層卷積層:通過對詞嵌入矩陣進行卷積操作來提取特征信息。在模型中,使用了3個不同尺度的卷積核,分別是大小為3、4和5的卷積核。這些不同尺度的卷積核用于捕獲不同長度的局部特征信息,使得模型能夠更好地理解文本序列的結構和語義。
經過卷積操作后,得到的特征矩陣包含了從詞嵌入矩陣中提取到的特征信息。特征矩陣的計算方式如下:
假設有個N不同尺寸的卷積核,每個卷積核的大小分別為K1,K2…,KN。輸入文本序列的長度為L。在進行卷積操作時,在輸入的詞嵌入矩陣上應用這些卷積核,得到一系列的特征圖(也稱為特征向量),每個特征圖對應一個卷積核。
假設第i個卷積核的大小為Ki,那么在進行卷積操作時提取到的特征向量的計算方式可以表示為
fi=g(WiX+bi),(1)
其中,fi是在進行第i次卷積操作時提取到的特征向量,Wi是卷積核i的權重矩陣,X表示在進行第i次卷積操作時需要被卷積核提取特征的文本信息,g是激活函數(如ReLU),bi是偏置向量。
第二層池化層:在卷積操作后,通過最大池化操作對特征圖進行采樣,保留最重要的特征。最大池化操作的公式為
pij=max(m,n)∈pooling window(fijmn),(2)
其中,pij是池化窗口內的特征值,fijmn是在位置(i,j)處特征圖中的特征值,池化窗口內的(m,n)表示池化操作應用的區域,max表示取池化窗口內的特征值的最大值。
在文本向量經過卷積層和池化層后,需將不同尺度的特征圖通過Concatenate操作進行合并,使得模型可以同時考慮不同尺度的特征。
(2)全局特征提取。Kim等[17]提出的長短期記憶網絡(Long Short-Term Memory,LSTM)通過在循環神經網絡(Recurrent Neural Network,RNN)神經元內部設置輸入門、遺忘門和輸出門3個門控單元,解決了RNN的梯度相關問題。在文本情感分析中,LSTM能夠捕捉文本中的長距離依賴關系,從而提取全局特征。然而,相比于單向LSTM,雙向LSTM(BiLSTM)能夠更好地結合上下文信息,從而提高模型的準確性和魯棒性,所以本文選擇使用BiLSTM。
卷積層的輸出作為BiLSTM層的輸入。BiLSTM層由2個LSTM層組成分別處理從前向和后向的序列。每個LSTM單元包含輸入門、遺忘門和輸出門,具體計算過程如下:
前向LSTM計算公式如下所示
hft=LSTM(xt;hft-1).(3)
后向LSTM計算公式如下所示
hbt=LSTM(xt;hbt+1).(4)
其中,表示xt當前時間步的輸入,hft-1表示前向LSTM的前一個時間步的隱藏狀態,hbt+1表示后向LSTM的前一個時間步的隱藏狀態。BiLSTM的輸出包括前向和后向LSTM的隱藏狀態,即[hft,hbt]。
1.2.3 注意力層
為了解決遠距離依賴特征間的距離問題和充分捕獲句法語義特征,本文使用了自注意力機制。將經過TextCNN和BiLSTM提取的文本特征作為輸入,使用全連接自注意力機制對不同單詞在句子中的重要性進行建模,得到了句子的注意力文本。具體來說,自注意力機制的計算過程如下:
例如有一個中文文本數據“電視不僅可以追劇,還可以k歌,功能很多,我最喜歡的是它的畫質,推薦購買”,現在使用自注意力機制來分析這個句子。
第一步計算注意力權重。對于每個單詞,首先通過雙向LSTM得到其表示,然后經過全連接層和激活函數計算得到標量,表示其在情感分析中的重要性。這個計算可以表示為
ei=tanh(Wa·hi+ba),(5)
其中,Wa和ba是注意力權重計算的參數。
第二步應用注意力權重。計算得到的注意力權重ai,將被應用于雙向LSTM的輸出hi,以加權求和的方式獲得句子的注意力表示s,計算方式如下:
ai=exp(ei)∑nj=1exp(ej),(6)
s=∑ni=1ai·hi,(7)
其中,n是句子中單詞的數量。
第三步形成句子的注意力表示。通過自注意力機制,模型能夠更加集中地關注對情感分析任務有重要影響的表達情感的部分,從而提高模型的性能和效果。在本例中,模型可能會更加關注表達情感的詞,如“功能很多”“喜歡畫質”“推薦購買”這些詞,它們顯示了句子的積極情感。
1.2.4 輸出層
輸出層 Softmax激活函數的具體工作原理如下:
首先,模型將經過自注意力機制處理后的文本表示作為輸入,通過全連接層進行線性變換,得到一個大小為 label_size 的向量,即模型對每個類別的得分。這個線性變換可以表示為
Z=W·x+b,(8)
其中,W是權重矩陣,x是輸入向量,b是偏置向量,Z是線性變換后的結果。
接著,模型將線性變換的結果輸入到Softmax函數中進行分類。Softmax函數可以將模型對每個類別的得分轉化為概率分布,表示輸入文本屬于每個類別的概率。Softmax函數的計算公式為
σ(z)i=ezi∑label_sizej=1ezj,(9)
其中,σ(z)i表示第i個類別的概率,zi表示模型對第i個類別的得分,label_size是類別的數量。
最后,模型輸出一個表示輸入文本屬于每個類別的概率分布,通常選擇概率最大的類別作為模型的最終預測結果。
2 結果與分析
2.1 數據準備
本文實驗使用了2個中文評論文本情感分析數據集來驗證模型的有效性。其中,數據集1是從淘寶平臺中利用Scrapy框架爬取的有關家電商品中文評論語料,經過預處理操作后,選取4 310條評論作為數據集。在爬取的評論數據中存在好評和差評,顯示了顧客對購買產品的滿意度,在實驗中將文本的情感分為“積極”和“消極”兩類,不同類型的數據分布較均衡。數據集2來源于譚松波教授整理標注的酒店評論語料[21]10 000條,分為“積極”與“消極”2個情感極性,其中“積極”有3 000條,“消極”有7 000條,數據分布不太平衡。數據集的詳細統計信息如表1所示。已將數據集劃分為訓練集和測試集,比值為8∶2。
2.2 基準模型
為了更好驗證所提模型的有效性,將所提模型與以下模型進行對比。
(1) CNN[2]:使用傳統的Glove模型生成詞向量,通過CNN對文本數據提取特征,最后用分類器實現分類預測。
(2) BiLSTM[3]:使用傳統的Glove模型生成詞向量,通過BiLSTM對文本數據提取特征,最后用分類器實現分類預測。
(3) CNN-LSTM[18]:使用Glove模型生成詞向量,先通過卷積神經網絡提取文本的局部特征,然后將這些特征輸入LSTM網絡中進行進一步的序列特征提取,最終通過分類器進行情感分類。
(4) Caps-BiLSTM[19]:使用Glove模型生成詞向量,將其輸入膠囊網絡(Capsule Network)中提取復雜特征,隨后通過BiLSTM進行序列建模,最終通過分類器完成情感分類任務。
(5) ABCDM[20]:使用自適應雙向卷積神經網絡(ABCDM)對文本進行特征提取,該模型融合了卷積神經網絡和雙向循環神經網絡的優勢,能夠更全面地捕捉文本的局部和全局特征。
(6) ASP-BiGRU-CAPSULE[21]:使用帶有方面特征的詞向量,進入BiGRU層提取雙向序列特征,再通過N-gram卷積層捕捉局部特征,隨后由主膠囊層和卷積膠囊層對提取的特征進行進一步處理,最后通過全連接膠囊層實現情感分類。
(7) TextCNN-BiLSTM-Att:為本文提出的模型。
2.3 實驗環境與參數選取
本實驗的軟件環境為Python 3.11.7, NumPy 1.21.6,Pandas 0.23.3,Keras 2.2.4,Matplotlib 3.5.3。具體的實驗環境參數如表2所示。
在數據集1上進行模型測試,TextCNN-BiLSTM-Att模型的結構參數設置見表3。為方便比較,關于基線模型與本文模型中所使用的詞嵌入模塊,統一使用GloVe預訓練的詞向量。通過在不同的參數組合上進行對比實驗,來確定模型的最佳超參數配置,從而提高模型的準確率。
對于本文模型,訓練參數設置如下:在訓練數據集上固定進行15個輪次的訓練,初始學習率為0.006,丟棄率為0.1,正則化率為0.01,批處理大小為32,損失函數為交叉熵函數。每一輪實驗保存1個checkpoint,選用在驗證集上正確率最大的checkpoint在測試集上測試,將得到的結果作為最終值。最終,本文選取對比實驗得到的最優參數結果如表4所示。
在模型訓練結束后,為了直觀了解實驗結果,本文利用工具把訓練結果進行了可視化。圖2為本模型在數據集1上的準確率和損失率隨訓練次數迭代的變化圖。圖2中,實線表示訓練集結果,虛線表示測試集結果,橘色線表示準確率,藍色線表示損失率。隨著迭代次數增加,訓練集準確率逐漸上升,損失率逐漸下降;測試集準確率也大體上保持上升,損失率先波動后趨于穩定,未出現過擬合現象。當Epochs值大于15時,各曲線趨于平穩,訓練集和測試集準確率均穩定在0.93以上,損失率則低于0.30,表明模型擬合能力良好,預測誤差較小。
2.4 評價指標
本文所探討的中文文本情感分析問題,本質上屬于單標簽多分類任務[22],其核心目標是優化對正類樣本的識別精度。針對數據集1和數據集2的特性,使用準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1分數來評估模型性能,尤其應關注精確率和召回率。根據分類結果建立的混合矩陣如表5所示。
準確率是正確預測的樣本數與總樣本數之比,計算公式如下
Accuracy=TP+TNTotal.(10)
損失率是損失函數值(如交叉熵損失)的平均數,它衡量了預測值與真實值間的差異,表示如下
LossRate=1N∑Ni=1L(yi,y^i),(11)
其中N是樣本數量,yi是第i個樣本的真實標簽,y^i是模型對第i個樣本的預測值。
精確率是模型預測為正類別的樣本中真正的正類別數占比,體現了分類結果的準確度,計算公式如下
Precision=TPTP+FP.(12)
召回率是模型所有真正的正類別中被成功預測出的正類別占比,體現了分類結果的完備性,計算公式如下
Recall=TPTP+FN.(13)
F1分數是精確率和召回率的調和平均值,它提供了一個綜合的模型性能評估指標,其計算公式如下
F1=2×Precision×RecallPrecision+Recall.(14)
2.5 實驗結果
2.5.1 與基準模型的對比分析
采用淘寶家電數據集1和譚松波酒店評論數據集2對本文提出的TextCNN-BiLSTM-Att模型性能進行了測試,并與現有分類模型CNN、BiLSTM、CNN-LSTM、Caps-BiLSTM、ABCDM和ASP-BiGRU-CAPSULE進行了比較,所有模型均使用GloVe預處理后的詞向量作為輸入,表6、表7分別為在淘寶家電數據集和譚松波酒店評論數據集中,各方法在4個指標上獲得值的情況,其中加粗部分代表每種指標上的最佳值。
從表6和表7可以看出,在準確率上,BiLSTM模型優于CNN模型,但2個均不及CNN-LSTM模型,CNN-LSTM模型結合CNN的局部特征提取能力與LSTM的全局序列信息處理能力,進一步提升了整體性能,在數據集1和數據集2上準確率分別達到了91.82%和83.11%。相比于CNN-LSTM模型、Caps-BiLSTM模型和ABCDM模型,ASP-BiGRU-CAPSULE模型在各項性能指標上有所提升,但均不及本文提出的TextCNN-BiLSTM-Att模型。
在數據集1和數據集2上,本文提出的TextCNN-BiLSTM-Att模型表現最佳,準確率分別達到了93.79%和90.05%,相比于ASP-BiGRU-CAPSULE模型,提高0.69%和4.44%,尤其在譚松波酒店評論數據集2上精確率、召回率、F1分數顯著提高,在各項指標上均取得了最優結果。這主要歸功于TextCNN-BiLSTM-Att模型的神經網絡結構,多通道卷積神經網絡特征的TextCNN能同時學習多個不同尺度的特征,捕獲不同層次的信息,結合雙向長短期記憶網絡能提取更為豐富的文本全局特征,且BiLSTM層相比于LSTM具有更強的上下文語義理解能力,同時還通過了自注意力機制進行特征融合,使得模型更關注文本中的重要部分,具有更豐富的特征表示[23]。實驗結果證明了本文提出的模型效果優于對比模型,能獲得較高的準確性。
2.5.2 消融實驗
為探究模型各個組成部分的作用,在家電評論數據集上進行了消融實驗,使用3種降級版的模型與本文模型TextCNN-BiLSTM-Att進行了對比。
(1)TextCNN-Att:以預處理后的詞向量作為輸入,去除雙向LSTM網絡,采用多通道卷積神經網絡TextCNN提取局部特征,并借助注意力機制聚焦關鍵情感信息。最終,信息經過全連接層和Softmax操作,得出情感分類結果。
(2)BiLSTM-Att:以預處理后的詞向量作為輸入,去除TextCNN,保留雙向LSTM網絡和注意力機制。利用BiLSTM提取序列特征,特征通過注意力機制進行加權處理,最終通過全連接層和Softmax操作生成情感分類結果。
(3)TextCNN-BiLSTM:使用預處理后的詞向量作為輸入,去除了注意力機制,保留了TextCNN和BiLSTM。TextCNN提取的局部特征通過BiLSTM處理,以捕捉長距離依賴信息,最后通過全連接層和Softmax操作生成情感分類結果。
模型參數選擇如2.3節所述。由于F1能夠結合精確率、召回率這兩個評價指標,因此,本實驗主要用準確率和F1兩個評價指標對分類器進行評價。實驗結果如圖3和圖4所示。
觀察圖3和圖4,可以發現,在淘寶家電評論數據集2上,本文提出的TextCNN-BiLSTM-Att模型相較于BiLSTM-Att模型,準確率提升2.1%;與TextCNN-Att模型相比,則高出0.47%。這一優勢主要源于TextCNN-BiLSTM-Att模型同時結合TextCNN提取局部特征和BiLSTM處理長距離依賴的優勢。同時,相較于TextCNN-BiLSTM模型,TextCNN-BiLSTM-Att模型通過引入注意力機制,進一步提高了0.47%的準確率和0.45%的F1分數,有效解決長距離特征依賴問題,提升句法語義特征的捕獲能力[24]。
綜上所述,可見,在情感分析建模時,結合多通道卷積、雙向LSTM和注意力機制能提升分析結果的質量。
2.5.3 注意力可視化
為了直觀清晰地展示模型效果,本文在實驗中使用seaborn庫和matplotlib庫進行中文文本中詞語注意力權重分配的可視化展示,本文選取正面和負面評論各一段進行展示實驗。
文本1:客服態度好,電視還沒有開始用,還不知道效果,用了再評價。
文本2:因為掛架出了問題,他們不管,弄得心里不舒服,還沒用他家電視就在扯皮。
針對文本1和文本2,本文首先使用jieba分詞技術進行分詞,并去除文本的標點符號和停用詞,得到“客服/態度/好/電視/還/沒有/開始/用/還/不/知道/效果/用/了/再/評價”和“因為/掛架/出/了/問題/他們/不管/弄/得/心里/不/舒服/還/沒用/他家/電視/就/在/扯皮”這些單詞,隨后再分別為句子繪制詞語級別的注意力權重熱力圖,如圖5、圖6所示。
圖中柱狀圖高度代表單詞權重,權重值越高,意味著該單詞在后續的情感分類任務中占據的權重越大,對判斷結果的影響更為顯著。
文本1中經過jieba分詞和去除停用詞和標點之后包含16個詞語,從圖5中可以看出模型對“客服”“態度”“好”這幾個單詞分配了較高的權重,這些都是有關正面評論的詞語;文本2經過jieba分詞和去除停用詞之后包含19個詞語,從圖6可以看出模型對“掛架”“出”“不”“舒服”“扯皮”這幾個單詞"" 分配了較高的權重,這些都是有關負面評論的詞語。
通過在這2段正負評論文本上進行注意力權重可視化實驗,結果表明,本文使用注意力機制可以很好地找出句子中對情感分析結果影響較大的單詞,證明了注意力機制確實能夠關注句子中比較重要的情感詞語。
3 討論與結論
針對傳統的CNN與BiLSTM情感分類模型在處理文本情感分析時存在的局限性,本文提出了一種新的情感分析模型,即TextCNN-BiLSTM-Att。這一模型通過將TextCNN與BiLSTM結合,充分利用它們在獲取局部和全局特征方面的優勢。具體來說,TextCNN能夠在不同尺度上使用不同大小的卷積核,從而更全面地捕獲不同尺度下的文本特征信息,而Bi-LSTM則能夠進一步補充和改進這些特征,使得模型能夠更好地理解文本的上下文信息。同時,引入自注意力機制使得模型更關注文本中的重要部分,提高情感分類的準確性。最后,將提取出的特征進行融合,并輸入到分類器中進行情感分類[25]。在中文評論文本數據集上進行的一系列對比實驗,驗證了本文提出的TextCNN-BiLSTM-Att模型在情感分類任務上具有顯著的優勢和更高的準確率。
參考文獻(References)
[1] 李浩君, 王耀東, 汪旭輝. 中文短文本情感分類:融入位置感知強化的Transformer-TextCNN模型研究[J/OL].計算機工程與應用,(2024-08-15)[2024-11-16]. http://link.cnki.net/urlid/11.2127.TP.20240815.1153.006.
LI H J,WANG Y D,WANG X H.Chinese short text sentiment classification: research on Transformer-TextCNN model with location-aware enhancement[J/OL]. Computer Engineering and Applications, (2024-08-15)[2024-11-16]. http://kns.cnki.net/kcms/detail/11.2127.TP.20240815.1153.006.
[2] 杜昌順, 黃磊. 分段卷積神經網絡在文本情感分析中的應用[J]. 計算機工程與科學,2017, 39(1): 173-179.
DU C S, HUANG L. Sentiment analysis with piecewise convolution neural network[J]. Computer Engineering and Science, 2017, 39(1): 173-179.
[3] XIAO Z, LIANG P J. Chinese sentiment analysis using bidirectional LSTM with word embedding[C]// Proceedings of International Conference on Cloud Computing and Security, Nanjing: IEEE Press, 2016: 601-610.
[4] 曹宇, 李天瑞, 賈真, 等. BGRU:中文文本情感分析的新方法[J]. 計算機科學與探索, 2019, 13(6): 973-981.
CAO Y, LI T R, JIA Z, et al. BGRU: new method of Chinese text sentiment analysis[J]. Journal of Frontiers of Computer Science and Technology, 2019,13 (6): 973-981.
[5] BASARSLAN M S, KAYAALP F. Sentiment analysis on social media reviews datasets with deep learning approach[J]. Sakarya University Journal of Computer and Information Sciences, 2021, 4(1):1-15.
[6] DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[C]//2018 NAACL, New Orleans: ACL, 2018: 1-16.
[7] 王麗亞, 劉昌輝, 蔡敦波, 等. CNN-BiGRU網絡中引入注意力機制的中文文本情感分析[J]. 計算機應用, 2019, 39(10): 2841-2846.
WANG L Y, LIU C H, CAI D B, et al. Chinese text sentiment analysis based on CNN-BiGRU network with attention mechanism[J]. Journal of Computer Applications, 2019, 39 (10): 2841-2846.
[8] 吳小華, 陳莉, 魏甜甜, 等. 基于Self-Attention和Bi-LSTM的中文短文本情感分析[J]. 中文信息學報, 2019, 33(6): 100-107.
WU X H, CHEN L, WEI T T, et al. Sentiment analysis of Chinese short text based on self-attention and Bi-LSTM[J]. Journal of Chinese Information Processing, 2019,33 (6): 100-107.
[9] 邱寧佳, 王曉霞, 王鵬, 等. 融合語法規則的雙通道中文情感模型分析[J]. 計算機應用, 2021, 41(2): 318-323.
QIU N J, WANG X X, WANG P, et al. Analysis of double-channel Chinese sentiment model integrating grammar rules[J]. Journal of Computer Applications, 2021,41 (2): 318-323.
[10] 周寧, 鐘娜, 靳高雅, 等. 基于混合詞嵌入的雙通道注意力網絡中文文本情感分析[J]. 數據分析與知識發現, 2023, 7(3): 58-68.
ZHOU N, ZHONG N, JIN G Y, et al. Chinese text sentiment analysis based on dual channel attention network with hybrid word embedding[J]. Data Analysis and Knowledge Discovery, 2023,7 (3): 58-68.
[11] 歐陽福蓮, 王俊, 周杭霞. 基于改進遷移學習和多尺度CNN-BiLSTM-Attention的短期電力負荷預測方法[J]. 電力系統保護與控制, 2023, 51(2): 132-140.
OUYANG F L, WANG J, ZHOU H X. Short-term power load forecasting method based on improved hierarchical transfer learning and multi-scale CNN-BiLSTM-Attention[J]. Power System Protection and Control, 2023,51 (2): 132-140.
[12] WANG X Y, TONG Y X. Application of an emotional classification model in e-commerce text based on an improved transformer model[J]. PLoS ONE, 2021,16(3): e0247984.
[13] BENARAB C E, GUI S. CNN-Trans-Enc: a CNN-enhanced transformer-encoder on top of static bert representations for document classification[J]. arXiv e-prints, 2022.
[14] BELLO A,NG S C,LEUNG M F.A BERT framework to sentiment analysis of tweets[J].Sensors,2023,23(1):506.
[15] PENG C, ZHANG C X, XUE X J, et al. Cross-Modal Complementary Network with hierarchical fusion for multimodal sentiment classification[J]. Tsinghua Science and Technology, 2022, 27(4): 664-679.
[16] 張少軍, 蘇長利. 基于情緒詞典和BERT-BiLSTM的股指預測研究[J/OL]. 計算機工程與應用. (2024-08-26)[2024-11-16]. http://link.cnki.net/urlid/11.2127.TP.20240823.1531.005.
ZHANG S J, SU C L. Research on stock index prediction based on sentiment lexicon and BERT-BiLSTM[J]. Computer Engineering and Applications[J/OL]. (2024-08-26)[2024-11-16]. http://link.cnki.net/urlid/11.2127.TP.20240823.1531.005.
[17] KIM Y. Convolutional neural networks for sentence classification[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Doha: ACL, 2014: 1746-1751.
[18] DONAHUE J, HENDRICKS L A, ROHRBACH M, et al. Long-term recurrent convolutional networks for visual recognition and description[C]// Proceedings of the lEEE Conference on Computer Vision and Pattem Recognition, Boston: IEEE Press, 2015: 2625-2634.
[19] DONG Y F, FU Y, WANG L Q, et al. A sentiment analysis method of capsule network based on BiLSTM[J]. IEEE Access, 2020, 8: 37014-37020.
[20] BASIRI M E, NEMATI S, ABDAR M, et al. ABCDM: an attention-based bidirectional CNN-RNN deep model for sentiment analysis[J]. Future Generation Computer Systems, 2021,115: 279-294.
[21] 喬百友, 武彤, 楊璐, 等. 一種基于BiGRU和膠囊網絡的文本情感分析方法[J]. 吉林大學學報(工學版), 2024, 54(7): 2026-2037.
QIAO B Y, WU T, YANG L, et al. A text sentiment analysis method based on BiGRU and capsule network[J]. Journal of Jilin University (Engineering and Technology Edition), 2024,54 (7): 2026-2037.
[22] 鄧沁東.有效應用于中文電商評論的多標簽分類方法[D].成都:電子科技大學,2024.
[23] 卜韻陽,卜凡亮,張志江.多通道交互下全局語義信息增強的多模態情感分析[J/OL].計算機工程與應用,(2024-11-28)[2024-12-10].http://link.cnki.net/urlid/11.2127.tp.20241128.0916.004.
BU Y Y, BU F L,ZHANG ZHANG Z J.Multimodal Sentiment analysis of global semantic information enhancement under multi-channel interaction[J/OL].Computer Engineering and Applications,(2024-11-28)[2024-12-10].http://link.cnki.net/urlid/11.2127.tp.20241128.0916.004.
[24] WINCKEL E,ABEILLE A,HEMFORTH B,et al.Discourse-based constraints on long-distance dependencies generalize across constructions in English and French[J].Cognition,2025,25(4):105950.
[25] MUHAMMAD I Y ,SALIM N,ZAINAL A.Joint intent detection and slot filling with syntactic and semantic features using multichannel CNN-BiLSTM[J].PeerJ Computer Science,2024,10(1):23-46.
(責任編輯:編輯郭蕓婕)
基金項目:江西省教育廳科學技術研究項目(GJJ201408)
作者簡介:龍宇(2000—),女,碩士研究生,專業方向為智能信息處理、深度學習。
*通信作者:李秋生(1976—),男,教授,從事智能信息處理方向的研究,e-mail: liqiusheng@gnnu.edu.cn。