基于圖注意力網絡的方面級別文本情感分析

2022-02-24 05:06:16施榮華

計算機工程 2022年2期

施榮華，金鑫，胡超，2

（1.中南大學計算機學院，長沙 410083；2.中南大學大數據研究院，長沙 410083）

0 概述

快速發展的互聯網行業中涌現出大量的網絡評價，一條網絡評價可能包括對同一實體的多方面估量，為了給網絡用戶提供更全面、詳細的情感信息，需要對海量網絡評價中的多方面實體進行有針對性且更細粒度的情感類別分析。方面級別的文本情感分析［1］旨在分析文本中不同方面所對應的情感趨向，如SemEval-2014 Task 4 數據集［2］中的文本“All the money went into the interior decoration，none of it went to the chefs”，對于“decoration”的評價是積極的，而對于“chefs”的評價卻是消極的。

基于機器學習和基于情感詞典的分析方法主要以人工方式標注文本特征，然后構建機器學習分類器以獲取文本最終的情感趨向。KESHAVARZ 等［3］通過結合語料庫與詞典的方式構建自適應情感詞典，以增強文本情感極性的判斷能力。ZHENG 等［4］在中文評論中利用支持向量機與文本頻率相結合的方式，確定評論文本的情感趨向。上述方法雖然取得了較好的效果，但是情感分析性能高度依賴人工標注的文本特征，方法的適用性遠低于基于神經網絡的方法。

基于深度學習的神經網絡［5］通常利用詞向量模型將文本轉化為實體向量，構建神經網絡模型并加以訓練，從而得到文本的情感趨向。AL-SMADI等［6］利用循環神經網絡（Recurrent Neural Network，RNN）進行本文情感分析，在相同的數據集上與基于機器學習的方法相比，其情感分析性能更為突出。RNN 雖能有效地獲取文本上下文信息，但是隨著隱藏層的增加，會出現梯度爆炸或梯度消失的問題。TANG 等［7］以雙向長短期記憶模型拼接的形式編碼上下文信息，其考慮目標的位置信息，取得了較好的分類效果。MA 等［8］基于不同的注意力網絡設置上下文和目標，利用2 個注意力網絡交互檢測重要目標，并提出一種交互注意力機制網絡模型。ZHANG等［9］將兩部分注意力機制相結合，提出注意力機制融合神經網絡，該網絡能得到更好的上下文表示。自此之后，基于注意力機制的混合神經網絡模型在文本分析任務中得到了廣泛關注和應用。

基于圖卷積神經網絡（Graph Convolutional Network，GCN）的方法［10］在傳統神經網絡的基礎上利用句式結構來構建網絡模型。SUN 等［11］較早使用圖卷積神經網絡從依賴樹中獲取節點表示，并與其他特征一同用于情感分類。HUANG 等［12］提出圖注意力網絡（Graph Attention Network，GAT），將注意力機制引入GCN，建立單詞之間的依賴關系。ZHANG 等［13］提出基于特定方面的圖卷積網絡（Aspect-Specific Graph Convolutional Network，ASGCN），利用依賴樹捕獲長期的上下文語義信息，從而獲得較為精確的方面情感趨向。

引入注意力機制雖有助于模型獲取對目標方面影響較大的上下文信息，但也可能導致給定的方面錯誤地將句法不相關的詞語作為描述，不足以捕捉詞語和句子中方面之間的句法依賴關系，從而忽略了句子的句法信息。受文獻［13］的啟發，本文認為句法信息以及方面之間的信息交互至關重要，因此，提出一種融合句法信息的圖注意力網絡模型，該模型將文本句子作為輸入，利用雙向門控循環網絡以共享權重的方式進行訓練，將文本特征與上下文信息相結合，通過融合句法信息的圖注意力網絡進行處理，充分利用句法信息同時加強文本中不同節點信息之間的交互，從而提高文本情感分析的準確性。

1 相關工作

1.1 模型定義

對于長度為n的句子S=[w1，w2，…，wn]，預測句子S中目標方面所對應的情感趨向是本文的研究重點。結合句法依存圖和圖注意力網絡，本文提出一種融合句法信息的圖注意力網絡，其結構如圖1 所示，主要包括詞嵌入層、編碼層、圖注意力層、激活層、情感分類層：將文本句子作為輸入，詞嵌入層將句子轉化為初始詞向量序列；編碼層對單詞向量進行預編碼，提取文本上下文信息的深層特征；根據語法依賴關系搭建圖注意力層以加強目標方面節點之間的交互；激活層從最終的詞向量序列中獲取目標方面的情感趨向。

圖1 融合句法信息的圖注意力網絡結構Fig.1 Structure of graph attention network with syntactic information

1.2 詞嵌入層

由于計算機只能識別特定的數學符號，自然語言處理任務的第一步就是將文本句子序列轉化為詞向量的形式。基于Seq2Seq的語言理解模型BERT（Bidirectional Encoder Representations from Transformers）［14］采用雙向編碼結構，對輸入的文本用注意力機制進行建模，其具有更好的文本語義特征抓取能力。本文采用BERT-base版本，在模型訓練中對BERT進行微調以獲取更好的初始參數向量。

1.3 編碼層

在自然語言處理任務中，文本上下文之間具有關聯性，傳統神經網絡無法使文本具有上下文語義信息，RNN 循環神經網絡通過定向循環的方式處理文本數據，利用前后相連接的隱藏層傳遞信息，并將其視為當前節點輸入的一部分，以達到“記憶”序列前部分信息的目的。

門控循環單元（Gate Recurrent Unit，GRU）［15］為RNN 的變種網絡之一，其利用更新門（update gate）zt和復位門（reset gate）rt來控制信息傳遞，其中：zt決定上一時刻的細胞狀態對當前細胞狀態的影響程度；rt控制當前輸入信息對記憶神經元的影響程度。GRU 的單元結構如圖2 所示，其更新公式如下：

圖2 GRU 模型結構Fig.2 GRU model structure

其中：zt和rt一同決定t時刻細胞的更新狀態；σ為sigmoid 激活函數；W是連接權重矩陣；xt為t時刻的輸入向量；ht為GRU單元t時刻的細胞狀態；ht-1為t-1 時刻的細胞狀態；h～t為t時刻細胞的隱藏層輸出。

對于文本數據而言，文本單詞及其上下文都可能存在影響，單向GRU 僅能利用某一向量序列中當前時刻的語義信息，難以滿足本文研究的需求。為了充分利用文本的上下文語義信息，本文采用雙向GRU 來編碼上下文語義信息，以記錄當前節點的前序信息和后序信息，最終向量由前序GRU 和后序GRU 最后一個狀態的向量相連接而成，充分融合文本的正向與反向的上下文語義信息，從而對文本上下文信息的深層特征進行提取。具體計算公式如下：

1.4 圖注意力層

1.4.1 句法依存分析

句法分析［16］旨在揭示語言的內部依賴關系，其將一個句子轉化為圖形結構。句法分析大致可分為成分句法分析和依存分析2 種。本文的句法分析屬于后者，使用Biaffine 依賴解析器［17］將句子轉換為句法依存圖，句子中詞與詞之間的邏輯關系都能清晰地在句法依存圖中顯示。以句子“餐廳的服務態度很好。”為例，其依存句法示意圖如圖3 所示。

圖3 句法分析示例Fig.3 Example of syntactic analysis

詞與詞之間只要有修飾關系，就存在有向弧連接，有向弧上標注著依存關系。圖3 示例中的依存關系包括：核心關系（Head，HED），其代表整個句子的核心；定中關系（Attribute，ATT），如“服務”與“態度”、“服務”與“餐廳”；右附加關系（Right Adjunct，RAD），如“餐廳”與“的”；主謂關系（Subject-Verb，SBV），如“態度”與“好”；狀中結構（Adverbial，ADV），如“很”與“好”。一個詞語既可以是某個依存關系對中的從屬詞，也可以是另一個依存關系對中的支配詞。具體地，將有向弧視作有向邊，將詞視作對應的節點，句法依賴圖可以轉化成一個有向圖，得到圖的鄰接矩陣，進而將抽象的文本信息轉化為具體的文本信息。

1.4.2 圖注意力網絡層

圖注意力網絡GAT 可以看作圖卷積網絡GCN的變種之一。GAT 在GCN 的基礎上采用注意力機制取代固有的標準化函數，給每個節點分配不同的權重，在更新節點隱藏層時按照權重大小聚合節點和鄰域節點，具體計算方式如下：

其中：W為共享參數，用于特征增強；[·‖·]表示拼接頂點i、j變換后的特征向量；a(·)表示將特征映射到一個實數上；αij表示節點i到節點j的注意力系數。

單層注意力學習目標方面周圍節點的能力較弱，因此，本文引入多頭注意力（multi-head attention）機制［18］，利用多個注意力機制來計算周圍節點的注意力系數，使模型的學習過程更加穩定。隱藏狀態更新過程如圖4 所示。

圖4 隱藏狀態更新過程Fig.4 Hide status update process

對于K個獨立注意力機制下的計算結果，采用K平均來替代連接，計算公式如下：

本文以句法分析所得的句法信息有向圖為依據，建立圖注意力網絡GAT。將由給定句子構建的有向圖轉化為矩陣A∈?n×n，n為節點個數。將編碼層所得的融合文本上下文語義的詞向量作為對應節點的初始狀態，則可得i∈[1，n]。經過L層圖注意力網絡訓練后即可得到節點i對應的最終狀態計算公式如下：

1.5 激活層

將經過圖注意力網絡層訓練得到的方面節點的特征向量與經過編碼層訓練得到的特征向量進行聚合，得到最終的特征向量并將其送入激活層，從而獲得不同的情感分類結果，具體如下：

其中：HGRU為編碼層輸出的單詞特征向量；HGRT為圖注意力網絡層輸出的方面節點特征向量；為最終的特征向量；c表示標簽類別；p(·)為預測的情感類別標簽。

1.6 模型訓練

模型使用有監督的訓練方式，在嵌入層采用微調后的預訓練模型BERT 將單詞轉化為單詞向量，其內部Tranformer 架構需對數據集數據進行處理，即在句子頭部添加標簽“［CLS］”，在句子末端添加標簽“［SEP］”，并以正則化L2的方式最小化交叉熵損失函數然后進行模型訓練，計算公式如下：

2 實驗結果與分析

2.1 數據來源

本文實驗數據來自SemEval 數據集，選取SemEval-2014 Task 4 的數據來驗證所提方法的有效性。SemEval 數據集包含筆記本電腦評論（Laptop）和餐廳評論（Restaurant），使用1、0、-1 分別表示積極、中性、消極的評論。每條評論包含一個或多個方面，每個方面都有明確的情感極向，表1 所示為2 個數據集的統計信息。

表1 數據集中的樣本標簽分布Table 1 Sample label distribution in datasets

2.2 實驗環境

實驗操作系統為Ubuntu18.04.2 LTS，GPU 為NVIDIA GeForce RTX 2070。BERT 預訓練模型維度為300，以2e-5的學習率進行微調。實驗優化器選擇Adam，以Xavier 初始化相關參數，在訓練過程中，學習率為2e-5，dropout 系數設為0.2，訓練所用批大小為32，最大迭代次數為25，圖注意力網絡層數為2，L2正則項的系數為1e-3。

2.3 與基準方法的對比實驗

為了驗證本文模型的有效性，在Laptop和Restaurant這2 個數據集中分別將融合句法信息的圖注意力網絡與基準方法進行比較，并采用準確率（Accuracy，ACC）和平均F1 值（Mac-F1）作為評價指標。

2.3.1 與基于深度學習模型的比較

本次實驗中的對比模型具體如下：

1）SVM（Support Vector Machines），構造特征工程進行方面級別的情感分類。

2）LSTM（Long and Short Term Memory），利用標準LSTM 進行計算，將最后輸出向量視作句子的特征并用于情感極性預測。

3）ATAE-LSTM（Attention-based LSTM with Aspect Embedding）［19］，在引入注意力機制的情況下利用LSTM對句子建模，最后得到隱藏狀態的加權和。

4）TD-LSTM（Target-Dependent LSTM）［20］，利用2 個LSTM 在主題詞前后提取上下文信息。

5）MemNet（Deep Persistent Memory Network）［21］，利用多個注意力機制獲取上下文的重要性，上層輸出使得下層獲取到更精確的信息。

6）RAM（Recurrent Attenti on Network on Memory）［22］，利用雙向LSTM 并設計多輪注意力機制用于句子表示。

7）BERT Fine-Tune，在BERT-base 的基礎上進行參數微調優化。

實驗結果如圖5 所示，從圖5 可以看出，本文模型較LSTM 及其變種模型在Laptop 以及Restaurant 數據集上至少有3%的性能提升，原因主要為：LSTM 難以記住長距離語義信息，雙向LSTM 等模型在一定程度上緩解了該問題，但性能提升并不大；RAM 等模型引入注意力機制，但是注意力機制無法利用句法知識，即注意力權重可能分配給錯誤的方面節點，導致此類模型性能提升有限。在與BERT Fine-Tune 的對比中，本文模型均有1%的性能提升，說明雙向GRU和圖注意力網絡能克服上述問題，利用句法知識可以得到更為精準的文本情感分類結果。傳統機器學習SVM 模型取得了良好的效果，也從側面體現出句法知識的重要性。

圖5 基于深度學習模型性能比較結果Fig.5 Performance comparison results of models based on deep learning

2.3.2 與基于圖卷積網絡模型的比較

本次實驗中的對比模型具體如下：

1）AS-GCN，在GCN 的基礎上對目標方面進行編碼，在一定程度上屏蔽了非目標方面的影響。

2）GCAE（Aspect-Specific Graph Convolutional Network）［23］，通過2 個GCN 分別建模目標信息與情感信息，利用門控單元并依據目標的上下文給出情感趨向。

3）TD-GAT，在GCN 的基礎上引入注意力機制，關注對目標影響較大的節點，最后得到目標方面的情感趨向。

實驗結果如圖6 所示，從圖6 可以看出：在Laptop 數據集上，本文模型的精度相對除TD-GAT以外的模型約有2%的提升，但相較TD-GAT 有所下降，在反復驗證分析錯誤的標簽數據后得出，本文模型處理包含隱形關系數據的能力不高；在Restaurant數據集上，本文模型取得了最高的準確率（83.3%），驗證了該模型在情感分析任務中的較高性能。

圖6 基于圖卷積網絡模型性能比較結果Fig.6 Performance comparison results of models based on graph convolutional network

2.4 消融實驗分析

為進一步驗證模型性能，在Restaurant 數據集上對所提模型進行3 組消融實驗：實驗1 在詞嵌入層改用維度同為300 的GloVe；實驗2 在編碼層改用多頭注意力機制進行模型訓練；實驗3 在圖卷積層改用圖卷積網絡GCN。圖7 所示為消融實驗結果，從圖7可以看出：實驗1 中嵌入層采用相同維度的GloVe 模型進行詞嵌入，其精度與采用預訓練模型BERT 相差較大，相較于GloVe，微調后的BERT 更能有效抓取文本的上下文語義信息，即精準的上下文語義信息提取對模型性能提升具有重要作用；實驗2 中采用多頭注意力機制后效果并未得到提升，原因是句子包含多個方面目標時，注意力機制可能會將上下文關注到錯誤的方面目標上，進一步說明了語法信息在文本情感分析任務中的重要性；實驗3 中采用圖卷積網絡GCN 替代圖注意力網絡GAT，但前者效果不如后者，原因是GCN 以全圖計算的方式進行更新，所學參數與圖結構復雜程度相關，而GAT 采用注意力系數逐點計算的方式，不依賴于拉普拉斯矩陣，具有更強的適應性，其能在語法依賴的基礎上更好地利用注意力機制來提升模型性能。

圖7 消融實驗結果Fig.7 Results of ablation experiment

3 結束語

針對現有多數文本情感分析模型未能充分利用句法信息的問題，本文提出一種改進的圖注意力網絡模型。該模型通過雙向GRU 編碼上下文，確保上下文語義信息不丟失。利用句法信息構建圖注意力網絡以加強不同節點之間的交互，從而在文本情感分析任務中實現較高的準確率。實驗結果表明，該模型在Restaurant數據集中的準確率高達83.3%，優于AS-GCN、GCAE 等模型。通過研究發現，文本中可能出現上位詞、近義詞等關系詞，通過依存句法分析所得的句法信息圖沒有相對應的連線來展現詞語之間的關系，因此，后續將借助情感詞典等工具來引入常識信息，從而提高模型對文本語法信息的提取能力。