基于Self-Attention 的方面級情感分析方法研究

2023-10-22 16:01:36蔡陽

智能計算機與應用 2023年8期

蔡陽

（浙江理工大學計算機科學與技術學院（人工智能學院），杭州 310018）

0 引言

互聯網的迅速發展使各家電商和社交平臺擁有了龐大的用戶量，不同用戶在平臺中活動的同時產生了大量的評論信息。在這些評論信息中，蘊含著巨大的社會和商用價值，對其進行情感分析以把握用戶的情感傾向，可以有助于輿情處理，讓商業公司快速分析產品質量并做出改進，也能輔助其進行商業決策。傳統的情感分析方法中，循環神經網絡（Recurrent Neural Network，RNN）有著時序性的特點，無法并行計算，且不能直接提取句子的上下文語義特征；卷積神經網絡（ Convolutional Neural Network，CNN），在句子的全局特征表達上表現效果欠佳；而自注意力機制（Self-Attention）能很好地解決上述問題，不僅能夠做并行計算，在提取句子上下文特征上也展現出了強大的能力，因此本文將基于注意力機制搭建模型來展開研究，用來解決方面級文本評論情感分析問題。

方面級情感分析是判斷文本對于給定方面表現出的情感極性，2016 年，Wang 等學者［1］提出一種用于方面級情感分析的模型，通過將方面詞向量和輸入詞向量及LSTM 隱層向量拼接的方式加入方面詞的影響，當不同的方面被輸入時，該機制能集中在句子的不同部分，在SemEval 2014 數據集上的實驗結果達到當時最先進的性能。 2018 年，Huang 等學者［2］提出一種AOA（Attention-Over-Attention）網絡，對方面和句子進行聯合建模，并明確地捕捉方面和上下文句子之間的交互信息，在laptop 和restaurant 數據集上的實驗結果證明該網絡性能優于之前的基于LSTM 的模型。 2019 年，Liu 等學者［3］提出門控交替神經網絡（Gated Alternate Neural Network，GANN），該模型中有一個特殊模塊GTR（Gate Truncation RNN）被設計用于學習情感線索表示。 2019 年，Zhang 等學者［4］針對LSTM 網絡在一定程度上忽略了方面詞在句子中的句法依賴性問題，提出了一種鄰近加權卷積網絡，在SemEval 2014數據集上的實驗結果證明了該方法的有效性。 2020年，Xu 等學者［5］提出一種多注意力網絡（Multi-Attention Network， MAN），MAN 使用級內和級間注意機制來解決方面術語包含若干詞的問題，實驗證明MAN 性能優于基準模型。 2020 年，Liu 等學者［6］提出了一種新型記憶網絡ReMemNN（Recurrent Memory Neural Network），針對注意機制中弱交互的問題，設計了一種多元素注意機制，以產生強大的注意權重和更精確的方面依賴的情感表示，實驗結果表明ReMemNN 的優秀性能與語言無關，與數據集類型無關。 2020 年，Xu 等學者［7］提出了DomBERT（Domain-oriented BERT）模型，在方面情感分析任務中取得了較好的效果。 2020 年，冉祥映［8］將語義注意力機制和基于注意力機制的方面融合，提出了HAN（Hierarchical Attention Network）模型。 2020年，Cai 等學者［9］為了捕獲顯式和隱式方面術語的情感極性，提出了一種分層圖卷積模型Hier-GCN（Hierarchical Graph Convolutional Network），該模型在4 個基準測試中取得了當時的最佳結果。 2020年，Gan 等學者［10］提出SA-SDCCN（Sparse Attention based Separable Dilated Convolutional Neural Network）模型用于目標情感分析，在3 個基準數據集上進行實驗，結果表明其并行性更高的同時降低了計算成本，取得了較先進的性能。 2020 年，Zhou等學者［11］提出一種基于句法和知識的圖卷積網絡SK- GCN （Syntax - and Knowledge - based Graph Convolutional Network ），通過 GCN （ Graph Convolutional Network）利用句法依賴樹和常識知識。2021 年，Tian 等學者［12］提出了一種通過類型感知圖卷積網絡 T - GCN （ Type - aware Graph Convolutional Networks）來顯式利用方面情感分析依賴類型的方法，在6 個英語數據集上取得了當時最先進的性能。 2021 年，Yadav 等學者［13］提出了一種基于注意力機制的無位置嵌入模型用于方面級情感分析，在數據集restaurant 14、laptop 14、restaurant 15和restaurant 16 上進行實驗，最終準確率分別達到81.37%、75.39%、80.88%和89.30%。 2021 年，Dai等學者［14］首先在方面情感分析任務的幾種流行模型上比較了預訓練模型的誘導樹和依賴解析樹，然后通過實驗證明純基于RoBERTa （A Robustly Optimized BERT Pretraining Approach）的模型可以取得接近之前SOTA（State-Of-The-Art）性能的結果。

本文提出了用于方面級情感分析Light -Transformer-ALSC 模型，運用了交互注意力的思想，對方面詞和上下文使用不同的注意力模塊提取特征，細粒度地對文本進行情感分析，并在SemEval-2014 Task 4 數據集上進行實驗以證明其有效性。

1 網絡結構

1.1 Light-Transformer-ALSC 網絡結構

為了更好地捕獲方面詞對文本情感極性的影響，本文模型將方面詞向量和文本上下文向量分別用不同的注意力模塊建模，對建模后的特征向量求和平均作為計算下一輪注意力的查詢向量（Query，Q），具體來說，對上下文特征向量的注意力計算使用方面詞向量的Query，反之亦同。經過此輪注意力計算后將2 個向量作拼接，然后通過Softmax計算情感極性。為了加速模型的訓練并緩解訓練數據不足的問題，本文模型中使用Glove 預訓練詞向量，預訓練的詞向量已經一定程度上學習到了單詞之間的語義信息，可以加速模型的收斂過程，模型的整體結構如圖1 所示。

圖1 Light-Transformer-ALSC 網絡結構圖Fig. 1 Structure of Light-Transformer-ALSC network

模型主要包括Light-Transformer 特征提取器、交互注意力、以及特征拼接三大模塊。

1.2 Light-Transformer 特征提取器

經過詞嵌入處理的文本向量首先會經過特征提取模塊初步提取特征，方面詞向量和上下文向量由2 個獨立的 Light - Transformer 處理， Light -Transformer 基于Transformer 模型并對其進行改造，取消Decoder 模塊，減少Encoder 模塊至5 層，并對參數量做一定優化。其結構如圖2 所示。

圖2 Light-Transformer 結構Fig. 2 The structure of Light-Transformer

模型的特征提取能力主要來自于自注意力模塊，是由相同的5 層堆疊在一起組成。每一層又包括一個多頭自注意力子層和一個前饋神經網絡子層，每一子層都用殘差連接和層歸一化增強網絡的穩定性，自注意力子層由點積注意力機制（Scaled Dot-Product Attention）和多頭注意力機制（Multi-Head Attention）組成。首先，初始化查詢矩陣（Query，Q）、鍵矩陣（Key，K）和值矩陣（Value，V）。每一組Q、K、V被稱為一個頭（head），可以有多組，這也是多頭注意力名稱的來源。假設輸入矩陣為X，則上述矩陣可由式（1）進行計算：

點積注意力機制計算見式（2）：

多頭注意力機制計算見式（3）：

其中，headi的計算見式（4）：

前饋神經網絡子層由2 層全連接神經網絡組成，作用是將向量再投影到一個更高維度的空間，在高維空間里可以更方便地提取需要的信息，提取信息后再還原為原來的空間，計算公式具體如下：

經過注意力機制學習后的特征向量會再通過2個全連接層，以獲取情感極性。這一步的目的是將注意力機制學習到的特征向量逐步降維，如式（6）所示：

1.3 交互注意力

模型到目前為止，方面詞和上下文向量都還是相互獨立的，尚未對彼此產生影響。為了在建模上下文向量時考慮到方面詞的作用，同時在建模方面詞向量時引入上下文的作用，這里使用了一種交互注意力機制。上下文向量的交互注意力catt和方面詞向量的交互注意力aatt的計算分別見式（7）、式（8）：

其中，、分別是上下文詞向量和方面詞向量經由2 個Light-Transformer 結構提取的中間向量，αi、βi是注意力權重，αi的計算公式可寫為：

其中，Qaspect的計算可按式（10）來進行：

研究推得的γ（，Qaspect）的計算公式如下：

這里，βi的計算與αi相似。

1.4 特征拼接

將經過交互注意力計算后的上下文向量和方面詞向量作拼接，然后通過Softmax函數計算情感極性，拼接示意如圖3 所示。

圖3 特征拼接示意圖Fig. 3 Schematic diagram of feature splicing

2 實驗數據

模型在SemEval2014 Task4 數據集上做評估，該數據集是方面級情感分析領域最流行的數據集，其中包含Laptop 和Restaurant 兩個不同類型的數據，數據集中共標注有4 種情感類型，分別是：積極（positive）、消極（negative）、中立（neutral）以及沖突（conflict），對數據集中方面項的統計見表1。

表1 方面項統計信息Tab. 1 Statistical information on aspects

由表1 可以看出，情感極性為“沖突”的樣本占比很少，會導致樣本失衡，因此不考慮情感極性為“沖突”的樣本。接下來對數據集進行處理，處理完畢后的部分數據集如圖4 所示，其中polarity的值為1 表示積極，為- 1 表示消極，為0 表示中立。

圖4 部分Restaurant 訓練集Fig. 4 Part of the Restaurant training set

3 實驗與分析

3.1 實驗環境

本文的實驗環境見表2。

表2 實驗環境Tab. 2 Experimental environment

3.2 評價指標

本文使用準確率指標對實驗結果進行評估，首先給出三分類的混淆矩陣見表3。

表3 混淆矩陣Tab. 3 Confusion matrix

由表3 可以得出，準確率可由式（12）來計算求出：

其中，TOTAL為表3 中所有結果的累加。

3.3 實驗結果分析

為了驗證本文模型的有效性，將其在數據集上的實驗結果與其他研究者提出的模型和基線模型進行比較，見表4。本次研究中選擇的對比模型詳見如下。

表4 模型對比Tab. 4 Comparison of the models

（1）TD-LSTM 與TC-LSTM 模型［15］：TD-LSTM對目標詞的上下文分別建模，具體來說，使用2 個LSTM，一個LSTML 提取輸入文本第一個詞到目標詞的特征信息，一個LSTMR 提取目標詞到輸入文本最后一個詞的特征信息，將建模后的向量拼接再進行分類。 TC-LSTM 在TD-LSTM 的基礎上于輸入端加入了方面詞的信息，具體方式為將方面詞向量做平均，拼接到輸入文本中。

（2）AT-LSTM 模型［16］：將方面詞向量和LSTM的隱藏層做拼接，再使用注意力機制提取特征信息，將經過注意力提取的向量用作最終分類。

（3）ATAE-LSTM 模型［9］：基于LSTM 網絡，將方面詞向量和文本詞向量及LSTM 的隱藏層向量先后做拼接，然后通過注意力機制提取拼接后的向量信息，獲得輸出類別。

（4）BERT-LSTM 模型［17］：探索了BERT 中間層信息的作用，使用LSTM 連接［CLS］標識符的所有中間層標識，用最后一個LSTM 單元的輸出做分類。

（5）IAN 模型［18］：提出交互注意力網絡，對目標詞和上下文分別建模，最終得到的目標詞向量和上下文向量融合了二者的交互信息，在此基礎上將這2 個向量用于分類輸出類別。

從表4 的對比結果可以看出，本文模型的效果優于大部分僅基于LSTM 的模型。除基于BERT 的模型外，在Laptop 數據集上的準確率提高了1.3%～5.3%、在Restaurant 數據集上準確率提高了2.5%～5.5%；對比基于BERT 的模型，在準確率接近的情況下模型參數量大大減少，本文模型參數量約為4M（這里，1M ＝1 ×106），而BERT 約為110M（這里，BERT-base，12 層）。同時，實驗結果也表明了BERT 模型強大的特征提取能力，復雜模型如果能有效處理過擬合問題會具有更好的效果。

4 結束語

本文基于Self-Attention 機制搭建模型用于方面級情感分析任務，模型使用2 個不同的注意力模塊對方面詞和上下文分別建模，接著用建模后得到的向量計算交互注意力，再把計算后的向量拼接用作最終分類。通過在SemEval2014 Task4 數據集上做實驗并同其他研究者提出的模型進行對比，驗證了本文模型的有效性。