基于注意力機制和BGRU網絡的文本情感分析方法研究

2019-07-29 00:41:36尹良亮孫紅光王超賈慧婷索朗卓瑪

無線互聯科技 2019年9期

尹良亮孫紅光王超賈慧婷索朗卓瑪

摘? ?要：文本情感分類只考慮內容中的情感語義，不能有效表示上下文語義信息，忽略詞對句子含義的重要程度，基于此，文章提出一種基于注意力機制和雙向門循環單元網絡的情感分析方法，使用雙向門循環單元代替原有的簡單網絡，有效結合文本中的上下文語義信息。通過在公開數據集IMDB上進行驗證，對比MLP網絡、BRNN網絡和BGRU網絡得出，文章提出的方法達到最好分類效果。

關鍵詞：文本情感分析;注意力機制;雙向門循環單元;深度學習

隨著電子商務的普及和發展，互聯網上的產品評論信息呈指數增長。產品評論信息在一定程度上影響消費者的購買意愿，也會影響產品及其企業的形象。這些產品評論包含的信息量巨大，并且呈無結構化特點，通過人工閱讀的方式難以實現對它們的處理。本文提出一種基于注意力機制和雙向門循環單元（Bi Gated Recurrent Unit，BGRU）網絡（Att_BGRU）的文本情感分析方法，利用BGRU代替原有的簡單網絡，緩解長距離依賴問題和梯度消失問題，并且能夠更好地避免過擬合問題的出現。結合注意力機制，能突出目標詞的重要性，進而能夠獲取更多的隱藏信息[1]。

1? ? 基于注意力機制和BGRU網絡方法

基于注意力機制和BGRU網絡的文本情感分析方法，采用BGRU網絡，該網絡從正反兩個方向捕獲上下文語義特征信息，更加有效地結合文本中的上下文語義特征。同時，采用注意力機制，在獲取情感特征時，相關度較高的詞在句子語義特征中表示占據更大的權重。

該方法的整體流程為：首先，對輸入的文本句子利用詞向量進行編碼，轉換為詞向量表示后，將用詞向量表示的文本特征導入BGRU中，采用注意力機制計算注意力概率，對BGRU的輸入和輸出的相關性進行重要度分析，根據注意力概率獲取BGRU的輸出句子級別的語義特征。其次，對引入注意力機制后的BGRU的輸出特征進行最大池化處理，獲取文本整體特征。最后，將句子級別的特征導入分類器中進行分類，輸出分類效果[2]。

2? ? 模型求解

2.1? 任務定義

對于長度為n的句子s={w1，w2，…，ai，…，wn}，ai為目標詞，將句子以詞為單位形成一個詞序列，將每個詞映射為一個多維連續值的詞向量，得到詞向量矩陣E∈Rk×|V|，k為詞向量維度，即把每一個詞映射為k維向量xi∈Rk，|V|為詞典的大小，即數據集包含的所有詞的數量。本文通過句子詞向量集合{x1，x2，…，xn}和目標集合{ti}之間的特征信息來判斷目標集合{ti}中每一個目標的情感極性。

2.2? 門循環單元

為了解決這種長期依賴問題，可以運用Hochreiter等提出的長短期記憶網絡（Long Short-Term Memory，LSTM）來替代傳統的循環神經網絡模型。本文提出方法RNNs采用其中較流行的變體，稱作門控循環單元（Gated Recurrent Unit，GRU），結構如圖1所示。

圖1? 門控循環單元網絡結構

其中，rt表示重置門，它的值決定了過去的記憶與當前的輸入的組合方式;zt表示更新門，它控制著過去的記憶有多少能被保存，重置門單元rt、更新門單元zt和記憶單元st的計算公式如下所示：

其中，表示矩陣對應元素相乘，σ表示sigmoid函數，w表示GRU共享參數。

假設一個句子Si中有T個詞，每個詞為wit，t∈[0，T]，將句子Si看作一個序列，句子中的詞為句子序列的組成部分。那么，分別通過前向GRU和后向GRU模型就能得到句子的表達：

通過結合? 得到句子Si的語義表示：

2.3? 注意力機制的引入

在句子級別的文本語義特征表示中，假設Si表示通過Attention方法得到的句子語義特征，則：

其中，δij表示第j個詞的重要程度。定義δij的計算：

假設其中，e是計算詞wit的重要性程度的函數：

WH是參數矩陣，V是參數向量，VT是轉置向量。

2.4? 對輸出的特征進行池化

池化處理是對輸出結果進行統計，采用最大池化方法對整個句子引入注意力機制以后對對應的輸出特征d={s1，s2，s3，…，sm}進行池化：

池化后獲得文本特征d，無論句子長度是多少，池化后的特征維度都是固定的，這樣就解決了文本句子長度不一的問題。

2.5? 對最后得到的特征進行分類

上述得到池化后的特征可以直接作為文本分類器的特征輸入。首先，通過一個非線性層（tanh）將d映射到維度為C的空間，C是文本分類器中的類別的數目，計算公式：

采用softmax分類器，得到文本分類，公式如下：

pc是文本情感類別為c的預測概率。

2.6? 模型訓練

文本情感分析本質上是一個分類問題。為了獲取最優的模型，本文通過使用交叉熵損失函數作為模型訓練的優化目標，通過隨機梯度下降算法來計算損失函數梯度同時更新模型參數，計算公式如下：

其中，D是訓練數據集;是文本情感分類為c的0—1分布，即，如果文本情感分類為c，那么的值為1，否則的值為0。

3? ? 實驗與分析

采用公共數據集驗證本文方法在文本情感分類任務的有效性。英文詞向量采用Pennington等[2]提出的Glove詞向量，其中，每個詞向量為100維，詞典大小為331 MB。對于未登錄詞，采用隨機初始化。

3.1? 實驗數據

本文采用Kaggle提供互聯網電影數據庫（Internet Movie Database，IMDB）電影評論數據進行訓練和驗證。數據樣本中的情感極性為積極和消極。數據總共有25 000個樣本，其中，20 000個樣本作為訓練集，5 000個樣本作為測試集。為了平衡語料，積極和消極情感樣本各12 500個。

3.2? 實驗評價指標

本文采用準確率（accuracy）和平方根誤差（Root Mean Square Error，RMSE）兩個評價標準來評價分類結果。其中，準確率用來衡量分類器準確性。平方根誤差用來衡量預測情感標簽和真實情感標簽之間的差異。

其中，out_correct表示輸出的判斷正確的關系個數，out_output_all表示輸出的所有關系個數，gold表示當前評論文本的類別，predicted表示當前評價文本的預測類型。

3.3? 參數設置

模型的激活函數選用tanh函數，隱含層節點數取100，采用softmax作為分類器。為防止模型計算過程出現的過擬合現象，采用L2正則化方法對網絡參數進行約束，訓練過程引入丟碼策略，其丟碼率取0.5。另外，采用批量的rmsprop優化方法用于模型訓練，批處理大小取50，訓練輪數取100。所有模型參數都根據經驗選取。

3.4? 實驗對比

本文與傳統的深度學習方法：多層神經網絡（Multilayer Perceptron，MLP），雙向循環神經網絡（Bi-directional Circulatory Neural Network，BRNN），BGRU的方法在同一個語料庫上進行實驗對比。為統一比較標準，所有方法的輸入詞向量均采用Glove詞向量，所有網絡隱藏節點數均相同，池化和分類均采用2.4，2.5節方法進行處理。4組方法在相同數據集上的情感分類對比實驗如表1所示。

從表1結果可以看出，本文提出的方法在數據集上分類效果優于其他方法。Att_BGRU在IMDB數據集中的情感分類準確率達到80.46%。BGRU的分類效果也要比基本的深度學習網絡的多層感知機和BRNN要好。分析實驗結果可知，在遞歸神經網絡（Recurrent Neural Network，RNN）中，梯度消失導致無法保留前面較遠時間的記憶。

At_BGRU方法比BGRU方法分類準確率高，原因是在加上注意力機制后，突出了GRU中關鍵性輸入的影響，同時考慮到文本中句子與結果的相關性，從而更好地識別文本的情感極性，驗證了注意力機制在文本情感分類任務的有效性。

4? ? 結語

本文針對傳統深度學習方法，如MLP，BRNN，BGRU方法在產品文本情感分析時存在的忽略上下文語義信息等問題，提出了基于注意力機制和BGRU網絡的方法進行文本情感分析，在IMDB數據集上進行對比實驗，驗證了At_BGRU方法能夠更好地發現文本信息的情感傾向性。下一步將該方法結合多注意力機制，使方法在不需要外部知識的情況下，例如句法分析等，獲取更深層次的情感特征信息，有效地識別不同目標的情感極性。

[參考文獻]

[1]HOCHREITER S，SCHMIDHUBER J.Long short-Term memory[J].Neural Computation， 1997（8）：1735.

[2]JEFFREY P，RICHARD S.GloVe： global vectors for word representation[C].Doha：Empirical Methods in Natural Language Processing，2014.

Abstract：Text emotion classification only considers the emotional semantics in the content， can not effectively represent the contextual semantic information， and ignores the importance of words to the meaning of the sentence. In this paper， an emotional analysis method based on attention mechanism and bidirectional gate loop unit network is proposed. The bidirectional gate loop unit is used instead of the original simple network， which effectively combines the context semantic information in the text. Compared with MLP network， BRNN network and BGRU network， the method proposed in this paper achieves the best classification effect by validating on the open dataset IMDB.

Key words：text emotion analysis; attention mechanism; two-way door cycling unit; deep learning