結合自注意力和殘差的BiLSTM_CNN文本分類模型

2022-02-24 12:34:10楊興銳趙壽為張如學楊興俊陶葉輝

計算機工程與應用 2022年3期

楊興銳，趙壽為，張如學，楊興俊，陶葉輝

1.上海工程技術大學數理與統計學院，上海 201620

2.重慶大學機械與運載工程學院，重慶 400044

3.上海工程技術大學管理學院，上海 201620

文本分類是自然語言處理中最基本的任務之一，模型通過大量的非結構化數據學習到某種規則，將其他文本按照此規則進行分類。文本分類在情感分析、輿情分析、垃圾郵件過濾等領域內有著廣泛的應用，怎樣從非結構化的文本中提取出有效的信息在學術界以及工業界受到越來越多學者的關注。

文本分類任務還可以應用到其他任務領域，例如輿情分析：有關政府單位可以依據網絡上人們對所在地區疫情情況的評論信息，動態地把握本地區居民的情緒，進而采取不同的措施進行疫情防護，高效率地戰勝疫情。當多分類任務變為二分類時，這樣的任務成為情感分析，電商網站運營人員可以依據相關產品的評論信息，對產品做出動態調整，同時還可以更好地把握店鋪整體的實力情況，有利于商家進行高效率地整改。

1 相關工作

文本分類問題常見的研究步驟是分詞、去停用詞、建模以及預測。常見的方法主要是使用統計機器學習模型，先利用TF-IDF[1]（term frequency-inverse document frequency，TF-IDF）方法將文本數據向量化并進行特征提取，然后使用支持向量機（support vector machine，SVM）、隨機森林以及邏輯回歸等機器學習模型建模。TF-IDF方法以“詞頻”來刻畫詞語之間的信息，各個詞語之間相互獨立，忽略了詞語的順序，同時該方法并沒有考慮到詞語的語義信息。因此，有學者提出用神經網絡模型對文本建模并將文本進行向量化。Bengio等人[2]提出了神經網絡語言模型（NNLM）用于求解二元語言模型，但是該模型隱藏層到輸出層之間的計算較為復雜。于是Mikolov等人[3]提出了Word2vec詞向量模型來獲得更加高效的詞向量，建立了CBOW（continuous bagof-words，CBOW）和Skip-Gram兩種方法，其中CBOW方法利用周圍詞建立概率語言模型預測中間詞，Skip-Gram利用中間詞建模預測周圍詞。這兩個模型方法與NNLM模型相比，最大的區別在于沒有隱藏層，使得計算更加高效。

Word2vec模型提出后，一系列結合深度學習模型的算法被運用到文本分類任務中。由于循環神經網絡（recurrent neural network，RNN）模型存在梯度消失以及梯度爆炸問題，為了改善這些問題，有學者在模型中使用Relu激活函數以及將輸入數據進行歸一化處理。其中，Hochreiter等人[4]提出了長短期記憶網絡（long short-term memory，LSTM），該模型主要通過遺忘門、輸入門以及輸出門控制信息的遺忘、輸入以及輸出，能夠很好地避免長期依賴以及梯度消失的問題。

為了更好地學習到詞語之間的雙向信息，Schuster等人[5]提出了雙向長短期記憶網絡（bi-directional long short-term memory，BiLSTM），該模型是前向LSTM和反向LSTM的組合，用于對文本建立上下文信息。在含有程度不同的褒義詞和貶義詞等詞語的情感分析任務中，則要求進行更加細粒度的文本分類，需要模型對情感詞、肯定詞以及程度副詞等之間建立較好的交互。因此，通過BiLSTM模型能更好地捕獲雙向語義信息。

卷積神經網絡（convolutional neural networks，CNN）在圖像處理領域取得了突破性的進展。因此，有學者將CNN引入自然語言處理領域。Kim[6]提出了TextCNN模型，該模型主要通過卷積運算與池化運算對文本進行建模，卷積運算可以很好地捕獲到文本之間的信息。TextCNN模型在情感分類任務中憑借其出色的準確率受到了學術界以及工業界的關注。何炎祥等人[7]提出了基于微博表情符號映射情感空間的深度學習模型EMCNN，有效增強了模型的情感分析效果，同時模型的訓練時間也得到了縮減。李云紅等人[8]提出了循環神經網絡變體與卷積神經網絡的混合模型（BGRU-CNN），在中文長文本分類任務中取得了較好的效果。還有學者將BiLSTM模型與CNN模型結合起來，Zhou等人[9]提出了BLSTM-2DPooling以及BLSTM-2DCNN模型，這兩個模型既考慮了時間步（time-step）上的維度，也考慮了文本特征向量上的維度，因此可以捕獲輸入文本中更加豐富的語義特征。李啟行等人[10]提出了基于注意力機制的雙通道文本分類模型（DAC-RNN），利用CNN通道提取文本的局部特征，利用BiLSTM通道提取文本上下關聯信息，各個通道內加入注意力機制分配權重。模型在公開數據集上測試效果良好。黃金杰等人[11]提出了一種基于CNN與BiLSTM的中文短文本分類模型，該模型能有重點地提取文本關鍵信息從而提高文本的準確率。徐緒堪等人[12]提出了多尺度BiLSTM-CNN情感分類模型，該模型可以對情感極性進行更為細致的分類。進一步，景楠等人[13]提出了結合CNN和LSTM神經網絡的期貨價格預測模型（CNN-LSTM）并在LSTM結構的末端引入注意力機制對模型進行優化，對比CNN、LSTM以及CNN-LSTM模型后發現，引入注意力機制的CNN-LSTM混合模型提高了預測的準確性。在混合模型BiLSTM-CNN中，輸入的文本信息經過BiLSTM模型解碼后進行卷積運算，該運算捕獲詞語間的語義信息并將此信息通過最大池化運算進一步降低特征維度，減少模型參數的同時提取出重要的特征，從而有效地降低了模型對數據的過擬合。但是，這樣很容易損失文本的位置信息以及特征的重要信息。因此，本文考慮使用自注意力機制[14]來獲取卷積運算后的特征信息權重，再將此信息進行最大池化降維運算，從而進一步提取了特征重要信息。

另一方面，除了提出自注意力機制外，Vaswani等人[14]還提出了Transformer模型，該模型由Encoder+Decoder構成，其中Encoder結構中，作者使用了數據歸一化的思想，防止輸入的數據進入激活函數的飽和區產生梯度消失或者梯度爆炸的問題。最后，將數據進行殘差運算，讓模型學習殘差，從而更好地學習到新的特征。借鑒以上思想，本文將最大池化運算后的特征信息進行數據歸一化處理以避免梯度消失以及梯度爆炸，接著通過添加殘差層讓模型更好地學習新的特征。最后，將本文構建的模型BiLSTM-CNN-self-attention-norm（BCSAN）應用到文本數據集上進行仿真實驗，并在準確率和F1值上與其他深度學習模型進行對比，結果表明了本文提出的模型具有較好的分類效果。

2 基于自注意力機制和殘差結構的BiLSTM-CNN模型的構建

模型主要由兩個Block塊構成，每個Block塊均由BiLSTM、TextCNN、自注意力機制、殘差層以及Layer-Normalization層構成，模型結構圖如圖1所示。

接下來，介紹模型中的每一層以及激活函數。

2.1 雙向長短期記憶網絡

RNN是按照時間序列展開的神經網絡結構模型，LSTM模型是RNN模型的變體，主要用于解決RNN網絡梯度消失以及梯度爆炸的問題。

LSTM模型的第一個計算是由遺忘門控制上一個時刻有多少信息可以參與到當前時刻，該步驟輸入為h t-1和x t，輸出為f t；下一步是由Sigmoid函數構成的輸入門控制信息狀態的更新，該步驟輸入為h t-1和xt，經過激活函數后輸出at、wt以及狀態信息；最后一步由輸出門控制狀態信息的輸出，以h t-1、xt和前一時刻的狀態信息為輸入，經過運算后得到輸出。該模型t時刻的計算過程如下：

在計算過程中，Sigmoid()表示的是激活函數，Out t表示t時刻的輸出，H t表示t時刻的隱藏狀態輸出，W*以及b*分別表示權重和偏置，cat運算表示向量之間的拼接。

LSTM模型可以更好地避免梯度消失以及梯度爆炸問題，計算效率更高，但是該模型并不能捕獲句子的雙向信息。對于更加細粒度的情感分析任務，如果加入句子的前向信息和后向信息則能更好地讓模型對句子的情感色彩進行預測。對于多分類任務中，BiLSTM模型在處理文本時可以學習到更多的語義信息，這有利于對文本進行更好的分類。

BiLSTM模型是由前向的LSTM和反向的LSTM模型構成，每層的LSTM網絡分別對應輸出一個隱藏狀態信息，模型的參數由反向傳播進行更新。BiLSTM模型的結構如圖2所示。

圖2 BiLSTM模型Fig.2 BiLSTM model

其中，x0、x1以及x2分別表示0、1和2時刻的輸入信息；h*和k*分別表示某時刻的不同隱藏狀態輸出；cat運算表示的是向量的拼接，即：

Ht-1表示的是t-1時刻的兩層LSTM模型隱藏狀態的輸出拼接。

2.2 卷積神經網絡

CNN主要應用在圖像識別領域，當CNN應用到自然語言處理任務中時，通常記為TextCNN。CNN模型由輸入層（input layer）、卷積層（convolution layer）、池化層（pooling layer）以及全連接層（fully connected layer）構成。在自然語言處理領域中，輸入層由詞語對應的詞向量構成，然后經過卷積層運算提取詞語的特征。CNN網絡還可以靈活設置多個卷積核（filters）來提取更加深層次的語義特征，接著將提取的特征信息進行池化運算，用于對特征進行降維，提取更為主要的特征信息，最后進行全連接層運算得到結果。

設輸入詞向量為X，卷積運算的目的是利用多個卷積核來提取句子中的n-gram信息，進而更好地提取詞語之間的相關性和語義信息，其運算過程為：

其中，?表示的是卷積運算，W和b表示的是權重和偏置，f(?)表示激活函數，例如Relu、Sigmoid以及Tanh函數。接著將提取的關鍵信息進行池化運算，進一步提取主要信息，其運算過程為：

最后將結果進行全連接運算。

2.3 自注意力機制

人們日常生活中都會產生數據，隨著數據量的增大，對這些數據進行清洗、分析、建模就顯得尤為重要。在建模過程中，加速模型的訓練可以節省大量的時間成本。因此，有學者依據人類大腦的關注機制提出了自注意力機制[14]，并成功地運用到了自然語言處理領域中。該模型的思想來源于注意力機制[15]，自注意力機制較注意力機制而言可以更容易實現并行化計算。其基本結構如圖3所示。

圖3 自注意力機制模型Fig.3 Self-Attention model

首先，對于輸入文本信息分別乘以相應的權重得到q1、k1以及v1，計算過程如下：

其中，W q、W k以及W v分別對應q、k以及v的權重矩陣；i∈[0,N]，N是詞庫的大小。將得到的q1與k1進行點積運算，接著將結果歸一化處理，最后分別乘以相應的權重v(i)得到輸出內容，即：

由b(i)的計算結果可以看出，每個b(i)的結果值與整個輸入序列有關，這也是自注意力機制可以并行加速計算的一個原因。將上述的計算過程用矩陣的方式表示為：

其中，Q、K和V是由上述各個q i、k i和v i分別拼接而成的矩陣。因此，計算速度加快的另一個原因是自注意力機制的本質是矩陣計算。

2.4 Layer Normalization結構與殘差網絡

隨著深度學習的不斷發展，網絡的深度越來越大，雖然模型準確率得到了提升，但是一系列的問題隨之產生，例如梯度爆炸和梯度消失。初始化權重參數顯得格外重要，合理的權重值可以避免參數進入激活函數飽和區，從而減少梯度消失和梯度爆炸問題，然而隨機初始化參數的方法效率低。鑒于上述不足，Bjorck等人[16]提出了Batch Normalization的方法，該方法主要通過將批數據進行歸一化來使得進入激活函數的批數據在0附近波動，這種歸一化的方法沒有將全部數據進行歸一化，僅僅將每個神經元的批數據進行歸一化，保證了數據的多樣性，讓模型每一層都能學到不同的特征信息。Batch Normalization方法主要用于機器視覺任務中，RNN模型中主要使用由Ba等人[17]提出的Layer Normalization，即在每一層中對單個樣本所對應的所有神經元進行歸一化處理。具體的做法是先對每一層的單個樣本對應的所有神經元求解其均值和方差。即：

其中，ati表示的是t時刻神經網絡模型的輸出，H表示的是神經網絡模型層的維度，然后為了保持數據的多樣性，更好地保持歸一化后的模型非線性能力，將歸一化后的數據進行非線性激活函數運算，即：

其中，g和b分別表示基尼參數（gain parameters）和偏置（bias），⊙表示向量之間的元素乘積。

隨著深度學習模型網絡深度的增大，模型非線性擬合能力會越來越強，準確率會越來越好。當深度達到一定程度時，模型的準確率又開始下降，擬合能力變差，這種現象并非欠擬合引起，這種現象稱為網絡退化問題（degradation problem）。因此，He等人[18]提出了深度殘差模型（residual network，ResNet），該模型不僅解決了深層的網絡帶來的梯度消失問題，還解決了網絡退化問題，同時模型的準確率得到了提升。其基本的殘差結構如圖4所示。

圖4 殘差網絡模型Fig.4 Residual network model

x為信息輸入，H(x)為特征的信息輸出，F(x)為殘差，其表達式為：

信息輸入x可以直接與后邊接入層相互連接，這樣使得后邊接入的層可以學習到殘差，因此這種連接也稱為捷徑連接（shortcut connection）。殘差結構通過恒等映射來增大模型的深度，其基本的運算為：

x L是第L層深度單元特征的信息表示，當殘差值為0時，殘差網絡相當于進行恒等映射，這樣保證模型的訓練精度不會下降。事實上，由于數據的復雜性與多樣性，殘差值不會為0，這樣就相當于模型在不斷地堆疊層，進而更好地學習新的特征。

2.5 模型激活函數

對輸入的文本數據向量化處理得到詞向量[x1,x2,…,x n]，接著進行BiLSTM運算得到最終的輸出單元向量[h1,h2,…,h n]，接著將此特征信息進行維度擴充，繼續進行TextCNN模型運算提取到更多的特征信息。在建模運算的過程中將特征信息進行激活函數非線性化處理。本文采用的激活函數是Mish函數，該函數由Diganta[19]提出，傳統的深度學習任務中，激活函數的選擇大多是Relu函數，這兩個激活函數的公式分別為：

對應的函數圖像如圖5所示。對比Relu函數，Mish函數的優點是：Relu函數存在零邊界，Mish函數沒有邊界的限制，從而不會出現梯度飽和現象，該函數允許較小的負梯度值流入，可以更好地保證特征信息的流動；從圖像可以看出，Mish函數的梯度較Relu更加得光滑，這樣就會導致更多有用的信息流入神經網絡中參與計算，得到更好的準確率和泛化能力。現有實驗表明了使用Mish激活函數在大多數深度學習任務中得到的準確率優于Relu、Sigmoid以及Tanh函數。

圖5 激活函數圖像Fig.5 Activation function

3 實驗分析

3.1 實驗環境及數據概述

深度學習實驗往往需要GPU的計算加速，為了保證實驗可以順利進行，本文的實驗環境如表1所示。

表1 實驗環境配置信息Table 1 Experimental environment configuration information

本文選取的數據集是清華大學THUCTC網站開源的一部分新聞文本數據20萬條，同時加入互聯網上搜集到的最新的新聞文本數據集10萬條一起訓練，總計30萬條文本數據，隨機選擇26萬條訓練集，2萬條測試集與2萬條驗證集進行實驗，共計10個新聞類別。具體的新聞名稱及類別如表2所示。

表2 新聞類別及其名稱Table 2 News category and its name

3.2 數據預處理

對于文本建模，常見的方法是先將文本進行分詞操作，接著去除和模型訓練無關的停用詞，將分詞結果進行向量化表示，常用的向量化方法是基于神經網絡的Word2vec，本文使用的是搜狗新聞語料庫中通過Word2vec模型的前饋神經網絡（Skip-Gram）方法訓練得到的詞向量，通過大量的新聞文本數據進行訓練以實現詞語的語義信息與詞語特征的分布式表示，最后得到詞向量的維度為25~300維。

神經網絡訓練往往需要大量的數據，對這些大量數據的收集是一件繁瑣的工作。因此，為了獲得較好的神經網絡模型，就需要使用數據增強技術，該方法最早來源于機器視覺任務中，常見的數據增強方法有圖像的反轉、平移以及旋轉等方法來對訓練數據進行擴充。在自然語言處理任務中，常見的數據增強方法有隨機刪除、打亂順序以及同義詞的替換等等。因此，本文對分詞后的結果進行數據增強，不僅可以提高數據的量，還可以在訓練過程中抑制模型的過擬合，提高模型的泛化能力，使得訓練出來的模型具有魯棒性。

3.3 評價指標

分類問題最常見的評價指標是精確率（Precision）、準確率（Accuracy）、F1（F-Measure）以及召回率（Recall）。其中，準確率描述的是所有分類樣本中，分類正確的樣本所占比重，精確率描述的是所有預測為正實例的樣本中，是正實例所占的比重，召回率描述的是所有正實例的樣本中，被分為正實例的樣本所占比重，F1值是精確率與召回率的加權平均，綜合度量了精確率與召回率的結果。精確率和召回率由混淆矩陣（confusion matrix）計算得出。混淆矩陣如表3所示。

表3 混淆矩陣Table 3 Confusion matrix

精確率（precision）和召回率（recall）由下式給出：

3.4 模型參數的設定

參數的設定決定了深度學習模型訓練結果的好壞。因此，本實驗所設定的參數如表4所示。

表4 模型參數設置Table 4 Model parameters

神經網絡在進行梯度反向傳播更新參數的過程中，本文使用的優化器是Adam，該優化算法是隨機梯度下降算法的優化版本，計算效率更高，收斂速度較快。因此，為了更好地發揮該優化算法的效率，本文對學習率進行調整，繪制了不同學習率下，模型在測試集上準確率和F1值的曲線圖，如圖6所示。

圖6 不同學習率下在測試集中的準確率與F1值曲線圖Fig.6 Accuracy and F1 in test set with different learning rates

由圖6可以看出，當Adam優化器對應的學習率為0.1時，模型在測試集上的準確率最小，當學習率為0.001時，模型在測試集上的表現最好。因此，本文實驗中，Adam優化器的學習率設定為0.001。

模型的訓練過程中，本實驗加入了Dropout[20]方法。Dropout的取值也是一個重要的參數，恰當的取值可以讓模型更好地收斂，同時能夠在保證精度的前提下抑制模型過擬合。因此，本文設定Dropout的取值分別為[0.1，0.2，0.3，0.4，0.5，0.6，0.7，0.8，0.9]并進行模型的訓練、測試以及驗證，通過模型在測試集上的表現來選擇最佳的Dropout值。最終繪制了測試集上準確率變化曲線如圖7所示。曲線圖中可以看到，當Dropout的取值為0.4時，模型在測試集上的表現最佳，當Dropout的取值開始逐漸增大時，模型在測試集上的表現開始逐漸下滑，因此，本文選擇Dropout取值為0.4進行實驗。

圖7 不同Dropout值下在測試集中的準確率與F1值曲線圖Fig.7 Accuracy and F1 in test set with different Dropouts

詞向量維度也是一種重要的參數，維度越大意味著模型能學習到越多的特征信息，同時模型產生過擬合的風險也越大。而詞向量維度越低，模型越容易產生欠擬合的風險。因此，選擇合適的詞向量維度在模型訓練過程中起到了關鍵的作用。本文在25~300維詞向量下使用Relu激活函數分別進行實驗來探索最佳的詞向量維度，將最終的結果繪制成曲線圖，如圖8所示。

圖8 不同詞向量維度下各模型準確率圖Fig.8 Accuracy of each model for different word vector dimensions

由該曲線圖可以看出，隨著詞向量維度的增加，準確率和F1值基本線性增加，其中，本文模型在300維的時候，模型可以學習到更多的語義信息，準確率和F1值達到最大。因此，本文選擇300維進行實驗。

3.5 實驗結果

為了驗證模型的有效性，本文選擇多個單一模型與多個在相同數據集上效果較好的先進模型進行對比，其對比的模型包括BiLSTM、TextCNN、BiLSTM-Attention、BiLSTM-CNN、BGRU-CNN、DAC-RNN、C-LSTM[21]以及模型。共做了兩組實驗，其中一組激活函數為Relu，另外一組激活函數為Mish。其對比結果如表5和表6所示。

表6 加入Mish激活函數的深度學習模型實驗結果對比Table 6 Comparison of experimental results of deep learning model with Mish activation function

由表中的數據結果可以看出，本文提出的方法較其他深度學習模型實驗結果均有所提高。在表5中，本文模型較BiLSTM、TextCNN、Bi LSTM-CNN、C-LSTM、Bi LSTM-Attention、DAC-RNN和BGRU-CNN模型準確率分別提高了2.8%、3.2%、2.1%、3.1%、2.2%、4.8%和2.3%、F1值分別提高了3.2%、3.7%、2.1%、2.3%、2.4%、5.1%和2.4%。對比以往模型BiLSTM、TextCNN、C-LSTM和BiLSTM-Attention，BiLSTM-CNN模型無論準確率還是F1值均有所提高，BiLSTM-CNN模型可以捕獲到更多的文本語義信息，其得到的精度高于其他模型。DAC-RNN和BGRU-CNN模型在清華大學THUCTC網站數據集上與其他模型對比取得了較高的準確率，但是在表5中，可以看出本文模型在測試集上準確率為87.57%，比這兩個最新的模型準確率高。由于BiLSTM模型可以學習到句子的前向與反向信息，本文實驗使用的文本句子平均長度為32，因此，BiLSTM可以很好地學習到這些短文本信息并避免長期依賴問題，其訓練的結果較TextCNN模型好。通過對比C-LSTM、BiLSTM與BiLSTM-Attention模型的準確率可知，加入自注意力機制使得模型的準確率得到了提升。因此，對比上述模型結果，本文通過使用殘差網絡與自注意力機制的方法，能充分發揮BiLSTM與CNN對文本特征信息的提取能力，模型結果均高于其他深度學習模型，證明了本文方法的有效性。

表5 加入Relu激活函數的深度學習模型實驗結果對比Table 5 Comparison of experimental results of deep learning model with Relu activation function

表6為各個深度學習模型將Relu激活函數替換為Mish后的結果，為了更好地對比加入Mish和Relu激活函數的結果，繪制了模型在測試集上的對比曲線圖如圖9所示。

圖9 Relu與Mish激活函數在各模型下的準確率Fig.9 Accuracy of Relu and Mish activation functions under each model

由該曲線圖看出，加入Mish激活函數后的結果均得到了提高。其中，本文模型較這些模型準確率分別提高了4.6%、2.8%、2.1%、3.1%、1.2%、3.5%以及3.4%。進一步證明了加入Mish激活函數后本文模型的可行性。

繼續對比本文模型BiLSTM-CNN-Self-Attention-Norm（BCSAN）在各個詞向量維度下準確率的關系如圖10所示。

圖10 不同詞向量維度下模型的準確率Fig.10 Accuracy of models under different word vector dimensions

隨著詞向量維度的增加，各個模型的精度成線性增加，其中，本文模型的準確率在300維度時達到最大，均高于其他主流深度學習模型。

4 結語

本文提出了一種基于深度學習方法的文本分類模型。將文本信息分詞之后進行文本數據增強，然后將文本信息輸入到BiLSTM模型中得到特征信息，接著輸入到TextCNN模型中，將卷積運算提取的信息使用自注意力機制自動地學習相應的權重信息，有效地把握句子中各個詞語的信息。隨后進行池化運算，進一步降低特征信息的維度，提取對分類結果有較大影響的特征信息。為了加速模型的訓練和保證文本信息的多樣性，對池化運算后的特征信息進行Layer Normalization處理，并讓模型學習殘差，保證模型沒有過擬合的前提下進一步提高模型的訓練精度。本文的方法為自然語言處理文本分類任務的研究提供了一定的幫助，在自然語言處理的發展中具有一定的參考價值。

本文提出的模型沒有分析模型復雜度與如何降低模型復雜度問題，這是進一步研究的方向。另外，在進一步的研究中，將會重點關注以數據，模型以及任務為驅動點來更好地選擇模型的參數、提高模型學習的效率，節省時間成本。