基于Att-BiGRU-CRF模型的中文文本情感分析

2021-02-16 00:40:10張永成王懷彬

天津理工大學學報 2021年6期

張永成，王懷彬

（天津理工大學計算機科學與工程學院，天津 300384）

隨著互聯網技術的飛速發展，人們在社交網絡上的交流愈發活躍，愈來愈多的網絡用戶通過社交媒體發表自己的意見和評論。對網絡評論文本中的信息進行情感分析和信息挖掘，有助于更高效地作出決策[1]。文本情感分析又被稱為意見挖掘[2]，它運用自然語言處理、文本挖掘和計算機語言學等方法，遵循對需要處理的主觀信息加以識別和提取的原則。將具有主觀情緒的文本加以處理、分析和推理，進而提取出其中的感情傾向是文本情感分析的主要任務。因其在微博輿情分析、電商打分評價系統和新聞報道感情分析等任務中有著較為廣泛的應用，所以自面世以來就受到了研究領域內外的廣泛關注和認同。盡管在被關注前，就已有相關領域人員做過類似的深入研究，但限于互聯網等條件影響，無法進行大規模的研究。隨著時代的發展，大數據時代的到來，獲得信息的途徑不斷增加，如何在獲取的互聯網的海量文本中提取更有意義的信息，是當前需要解決的問題，也是相關領域中備受關注的熱門研究話題。

近年來，基于深度學習的方法在自然語言處理領域的情感分析子任務中有許多成功案例[3]。在情感分析任務中，現有的深度學習模型常常用softmax函數做最后的分類輸出，但softmax在輸出層面上并不會考慮上下文之間的關系，這會直接導致輸出結果可能產生錯誤。

針對上述問題，本文提出一種基于注意力機制（attention）結合雙向門控循環神經網絡（bidirectional gated recurrent unit neural network，BiGRU）和條件隨機場（conditional random field，CRF）的Att-BiGRU-CRF模型，該模型使用BiGRU捕捉文本的語義結構和特征信息，通過注意力機制調整偏重，同時使用CRF作為分類器，在輸出層也考慮了上下文之間的關系，有效地提高了輸出結果的準確率。

1 相關工作

目前，文本情感分析的方法主要包含以下3種：基于詞典的文本情感分析方法、基于機器學習的文本情感分析方法和基于深度學習的文本情感分析方法[4]。隨著計算機技術的飛速發展，數據大爆炸時代的到來，基于詞典的文本情感分析方法和基于機器學習的文本情感方法逐漸退出歷史的舞臺，基于深度學習的文本情感分析方法已經有了較為成熟的應用。

孫志遠等[5]提出了深度學習的概念，神經網絡等技術由此應運而生。起初，神經網絡應用于圖形圖像處理領域，但隨著科研人員的不斷研究與探索，深度學習的核心技術逐漸得以成熟，因此神經網絡技術在其他領域也得到了廣泛的應用。在自然語言處理領域，研究人員也開始嘗試將深度學習和神經網絡技術融入其中。LECUN等[6]將卷積神經網絡（convolutional neural networks，CNN）應用到文本情感極性研究領域。KIM[7]首次將CNNs應用到文本分類任務上。MIKOLOV等[8]提出將循環神經網絡（recurrent neural network，RNN）應用到文本分類任務，RNN能夠充分學習上下文文本之間的關系，但是存在著一系列梯度爆炸和信息丟失等問題[9]。為了解決RNN在情感分析任務中出現的問題，長短時記憶網絡（long short-term memory，LSTM）[10]、門控循環單元[11]、雙向長短時記憶網絡（bidirectional long short-term memory networks，BiLSTM）和BiGRU[12]等方法被接連提出。

注意力機制起初應用于計算機視覺圖像領域，為了解決模型訓練時間過長和文本特征提取不充分等問題，研究人員開始將融合注意力機制的神經網絡模型應用于自然語言處理領域。文獻[13]提出了基于注意力機制的C-GRU模型，該模型能夠更有效地捕捉文本信息，相比于傳統模型，其準確率和綜合評價值得到了提升。鄭雄風等[14]提出了BiGRU和注意力機制的用戶和產品文本分類模型，達到了提高模型的訓練速度和準確率的效果。趙勤魯等[15]提出了LSTM-注意力機制模型，該模型能夠更加充分地提取文本語義結構信息。朱星嘉等[16]提出了改進的基于注意力機制的LSTM特征選擇模型，有效地突出了文本的重點特征信息。白靜等[17]提出使用BiLSTM-CNN-注意力機制的混合神經網絡結構進行2種特征融合的分類。司念文等[18]提出的注意力機制和LSTM混合模型能有效地對中文詞性進行標注。

與現有的研究不同，本文使用BiGRU減少了模型的參數，解決了訓練時間長和梯度消失問題，并且融合了注意力機制，突出文本的重點信息，進一步提取文本的語義特征。本文還結合CRF分類器，輸出最優序列結果，避免了非法輸出問題，以期模型得到更高的綜合評價值，達到更好的情感分類效果。

2 Att-BiGRU-CRF模型

本文提出的Att-BiGRU-CRF模型框架如圖1所示。其主要由3個部分組成：BiGRU神經網絡、注意力機制和CRF分類器。

圖1 Att-BiGRU-CRF模型框架Fig.1 Att-BiGRU-CRF model framework

該模型在情感分析任務中的處理流程如下：

1）嵌入層：該層將預處理后的語料數據通過預訓練詞向量以詞嵌入的方式轉換成詞向量輸入到下一層。

2）BiGRU層：將嵌入層輸出的詞向量作為BiGRU語言模型的輸入，通過BiGRU提取文本的語義信息和特征結構。

3）注意力機制層：通過注意力計算學習每個詞語對句子情感傾向的權重，從而學習到對分類結果影響較大的重點詞語，突出詞向量的重點信息。

4）CRF層：將CRF作為分類器，獲取情感標簽，計算序列最優解，輸出最終結果。

2.1 雙向門控循環記憶網絡

門控循環記憶神經網絡[19]（gated recurrent unit neural network，GRU）是對LSTM的一種簡化與改進的神經網絡模型。在LSTM神經網絡模型中，一個LSTM模塊是由輸入門(it)、遺忘門(ft)和輸出門(ot)3種門控單元組成的。輸入門(it)確定哪些信息必須存儲在神經單元中，遺忘門(ft)確定哪些信息必須被丟棄，輸出門(ot)則顯示最終結果。而在GRU神經網絡中，LSTM中的3種門控單元被更新門(zt)和重置門(rt)所取代，通過這種方式減少模型的參數和張量，使得GRU比LSTM更簡潔、更高效，GRU單元如圖2所示。

圖2 GRU單元Fig.2 GRU unit

GRU通過一個當前輸入xt和上一個節點傳遞下來的隱狀態ht-1來獲取兩個門控的信息。

重置門rt：

更新門zt：

得到門控信息后，將當前輸入xt與重置后的數據進行拼接，再通過tanh激活函數激活得到當前隱藏節點的輸出：

最后進入“更新記憶”階段，更新表達式為：

式（1）、式（2）和式（3）中，Wr、Wz、W表示相對應的權重矩陣。

2.2 注意力機制

注意力機制[20]就是從大量信息中選擇相對重要的信息。注意力機制可以表征文本句子中單詞與輸出結果之間的關聯，并顯示句子中每個單詞的重要性，因此可以成功地應用于自然語言處理的各種任務。注意力機制的核心思想是將注意力權重α輸入到輸入序列當中，對相關信息的位置集進行優先考慮，以生成下一個輸出特征。在本文提出的模型中，注意力機制主要對輸入矩陣H進行注意力計算，使模型在進一步提取特征時，將注意力集中在與情感相關的詞語上，弱化與情感無關的干擾詞的權重，從而達到提高模型正確率的效果。首先將輸入矩陣H中的每個隱狀態與方面向量va,i相拼接，然后計算注意力值，最后，再通過加權平均的方法來確定有關特定方面的文本表示vc,i。具體計算公式為：

式中，i為第i個方面注意力模塊，Wa,i為注意力的權重矩陣，ba,i為注意力的偏置項。

2.3 條件隨機場

CRF模型是由LAFFERTY等[21]提出的一種無向圖模型，它結合了最大熵模型和隱馬爾科夫模型的特點，是典型的判別式模型，通常應用于序列標記的任務中。CRF的參數化表達式中定義了狀態特征函數、狀態轉移函數和預測序列的條件概率公式[22]。

定義矩陣Pm×n為Att-BiGRU層的輸出，n=[Max_length×0.8]，[]表示取數值的整數部分，Max_length表示語料數據的最大句子長度，m表示標簽類別的個數，Pij表示句中第i個字是第j個標簽的概率。定義狀態轉移矩陣A(m+2)×(m+2)，其中Aij表示在一個連續的時間段內，第i個標簽轉移到第j個標簽的概率。對于預測序列y，其概率可以表示為：然后通過softmax層計算出所有類別標簽的概率。

相比于逐幀softmax，CRF在輸入層顯著地考慮了上下文之間的聯系，應用在情感分析任務中可以避免一些非法的輸出。因此，本文采用CRF作為模型的分類器，以輸出情感分析任務的最優結果，提高輸出的正確率。

3 實驗及結果分析

3.1 數據集

實驗數據集使用的是譚松波老師的酒店評論語料，數據集內分為2個文件夾，分別為pos文件和neg文件，每個文件內有2 000個txt文件，共4 000條酒店評論文本。其中，pos文件夾內的數據帶有標簽1，表示好評；neg文件夾內的數據帶有標簽0，表示差評。將數據隨機打亂順序后，以9∶1的比例劃分，取其中3 600條數據作為訓練樣本，其余400條數據作為測試集。實驗數據劃分如表1所示。

表1 實驗數據劃分Tab.1 Statistics of experimental data

3.2 實驗設置

在實驗中，預訓練詞向量模型采用的是北京師范大學中文信息處理研究所與中國人民大學數據庫與智能信息檢索實驗室（database &intelligent information retrieval laboratory，DBIIR Lab.）的研究者開發的預訓練詞向量模型（Chinese-wordvectors），其中每個詞向量的維度為300維。在模型參數設置中，隱藏層維數設置為216，學習率設置為0.001，epoch設置為50，batch-size設置為20。同時在每層神經網絡中加入dropout層，dropout設置為0.5，已達到避免過擬合現象發生的目的。梯度更新規則使用的是Adam優化器。

評價標準使用深度學習中常用的3種評價標準，分別為準確率(Pacc)、召回率(Prec)和綜合評價值F1，計算公式為：

式（8）、式（9）和式（10）中，TP表示真陽性，即判斷正確且把正的標簽判斷為正的數量；TN表示真陰性，即判斷正確且把負的標簽判斷為負的數量；FP表示假陽性，即判斷錯誤且把負的標簽錯判為正的數量；FN表示假陰性，即判斷錯誤且把正的標簽錯判為負的數量。

3.3 對比實驗

為了驗證本文提出的模型的優越性，本文設置了3組對比模型：

1）BiGRU：它能夠捕捉詞語的前后時間關系，有效地提取詞語之間的依賴關系。

2）Att-BiLSTM：融合注意力機制的BiLSTM，能夠突出重點詞向量信息。

3）Att-BiGRU：融合注意力機制的BiGRU模型，能夠針對有效詞語提取特征，避免無意義詞語對情感的干擾。

3.4 實驗結果與分析

將本文提出的Att-BiGRU-CRF模型與3個對比模型在譚松波老師的酒店評論語料數據集上進行實驗對比，以準確率、召回率和F1為評價指標，驗證本文模型的有效性及優越性。每個模型訓練10次，實驗結果取平均值，不同模型在數據集上的分類結果如表2所示，實驗結果如圖3所示。

表2 不同模型在數據集上的分類結果Tab.2 Classification results of different models on the dataset

圖3 實驗結果Fig.3 Experimental result

由表2和圖3可知，Att-BiGRU模型對比于BiGRU模型，準確率提高了3.79%，召回率提高了0.57%，F1值提高了2.09%，這表示注意力機制的加入使得模型能夠進一步提取文本的語義信息，達到提高情感分類的效果；Att-BiGRU模型對比于Att-BiLSTM模型，準確率提高了0.65%，召回率提高了0.84%，F1提高了2.09%，這表示BiGRU神經網絡的性能要優于BiLSTM神經網絡，訓練速度更快，分類結果更好；Att-BiGRU-CRF模型對比于Att-BiGRU模型，準確率提高了4.54%，召回率提高了2.04%，F1值提高了3.27%，這驗證了CRF結合注意力機制在情感分析任務中的可行性及優越性，表明了本文提出的方法能夠有效地解決情感分析任務中文本特征提取不充分和分類結果準確率低的問題。

4 結論

本文提出了一種結合注意力機制與CRF分類器的Att-BiGRU-CRF模型，首先通過BiGRU充分提取文本語義信息，然后使用注意力機制學習每個詞語對句子情感傾向影響的權重，進一步提取重點詞語的特征結構，最后使用CRF分類器輸出最優分類結果。該模型能夠有效地解決現有情感分析任務中訓練時間長、特征提取不充分等問題，實驗結果驗證了本文提出的方法的有效性。未來工作中，將結合漢字拼寫自動糾錯知識，針對情感分析任務，進一步提高模型的準確率。