基于CNN和LSTM的多通道注意力機制文本分類模型

2021-12-12 02:51:12滕金保孔韋韋田喬鑫王照乾

計算機工程與應用 2021年23期

關鍵詞：語義分類文本

滕金保，孔韋韋，田喬鑫，王照乾，李龍

1.西安郵電大學，西安 710121

2.桂林電子科技大學，廣西桂林 541004

3.陜西省網絡數據分析與智能處理重點實驗室，西安 710121

4.廣西可信軟件重點實驗室，廣西桂林 541004

文本分類是自然語言處理中最經典、最重要的任務之一，主要任務是將給定的文本數據集按照已知的類別進行歸類。文本分類技術便于人們對文本數據處理，有助于提取文本中最有價值的信息，也是自然語言處理中一項最基本的任務，在情感分析[1]、垃圾郵件識別[2]、輿情分析[3]等任務中有重要的研究意義，受到了人們的高度重視。

傳統的文本分類算法主要是基于統計的分類算法，結合特征工程與機器學習模型實現對文本的分類[4]。Hindi等[5]提出了一種改進的KNN模型，該模型的距離函數利用詞頻和它們之間的順序關系進行距離計算，首先對文本數據進行預處理和特征提取，然后使用KNN算法對文本分類數據集的距離進行了評估。Ying等[6]提出了改進的貝葉斯算法來解決文本分類問題，首先使用貝葉斯算法進行文本分類并計算準確率，同時與其他方法進行比較，確定所用方法的有效性，然后通過修改設定的閾值來提高預測的準確率，使得模型能夠更有效地預測出具有特定意義的文本。文獻[7]提出用改進的樸素貝葉斯來解決文本分類問題，通過構造一個相關因子，該因子包含了不同類之間的總體相關性，有效地利用了自舉的思想，對于較小的訓練集數據仍然有不錯的效果。以上改進的機器學習模型雖然在一定程度上提高了文本分類的效果，但文本特征需要人工提取，且沒有考慮不同特征之間的相關性，忽略了特征之間的相互影響，同時文本存儲存在高維稀疏、表達能力弱的缺點[8]。

隨著研究的深入，Word2vec通過對大規模文本數據進行訓練，將文本表示成低維稠密的向量空間，大大降低了文本數據存儲的難度，且考慮了詞語之間的相關性，更好地表示了文本數據，這極大地推動深度學習在文本分類上的廣泛應用[9]。卷積神經網絡（Convolutional Neural Network，CNN）是近年來最流行的深度學習算法之一，卷積核通過設置不同的權重來提取多維特征，然后經過池化層獲取局部關鍵信息，通過其特有的網絡結構和權值共享策略使得降維速度更快且訓練的參數相對較少，網絡結構簡單高效且適應性強[10]。Fesseha等[11]提出基于卷積神經網絡和低資源語言詞匯嵌入的文本分類方法，構建了一個連續詞袋方法的CNN，一個跳字方法的CNN，以及是否包含Word2vec的CNN來評價新聞文章，實驗結果相較于傳統機器學習方法有很大的提升。Qiu等[12]提出一種基于奇異值分解算法（SVDCNN）的卷積神經網絡模型，首先采用奇異值分解算法代替池化層進行特征提取和降維，然后采用部分采樣梯度下降算法（PSGD）對模型參數進行優化，在保證模型訓練穩定的同時加快了模型的收斂速度?；诟倪M卷積神經網絡的短文本分類模型[13]用改進的CNN提取不同粒度的短文本特征，有效提取到關鍵信息且模型分類準確率較高。雖然CNN和其改進模型可以有效提取局部關鍵信息，且分類效果較好，但忽略了上下文語義信息[14]。循環神經網絡（Recurrent Neural Network，RNN）作為自然語言的標配，可以更好地處理文本上下文信息，高效地挖掘文本潛在的語義信息，但由于在處理長文本時會導致部分信息的丟失，因此目前多采用RNN的變體長短時記憶網絡（Long Short-Term Memory，LSTM）進行文本上下文語義信息的提取。Ibrahim等[15]提出一種用于多標簽生物醫學文本分類的混合神經網絡，首先利用CNN提取最具區分度的特征，同時用BiLSTM獲取上下文信息，然后將兩個網絡的輸出進行融合。該算法結合了CNN和LSTM提取文本特征的優點，大幅度提高了模型預測的效果，但沒有考慮到文本中最關鍵的信息，沒有將注意力集中在重要的詞語上[16]。CNN和LSTM在提取文本信息時都有各自的優勢，但都存在可解釋性弱的不足的缺點，為此，Bahdanau等[17]將注意力（Attention）機制引入RNN并在機器翻譯任務中取得了不錯的成績，開啟了Attention機制在自然語言的先河。Zhang等[18]提出基于注意力的雙向GRU情感分析模型，利用雙向門循環單元提取上下文語義信息，結合注意力機制進行情感分析，模型預測的準確率和訓練速度都有極大的提升。Li等[19]提出了一種基于門控注意力機制的雙向長短時記憶網絡和基于正則表達式分類器相結合的文本分類方法，利用了基于規則算法的可解釋性，并通過引入注意力機制將注意力集中在句子的關鍵部分，大幅度提高了文本分類的效果。以上模型雖然有效地提升了模型預測的效果，但大都采用遞進式網絡結構，提取到的信息向后傳遞時容易發生梯度消失和爆炸問題，同時遞進式網絡結構提取文本特征時只用到單一網絡的優勢，無法融合CNN和RNN提取文本特征的優勢，因此分類效果有待提升。

CNN提取特征時通過設置不同大小的卷積核可以有效地提取局部關鍵信息。LSTM相較于RNN可以更有效地處理長文本，緩解梯度問題，可以更好地提取上下文語義信息。Attention機制通過設置不同的權重可以將注意力放到對最終結果影響較大的單詞上。因此，為進一步提升文本分類的效果，充分利用文本信息中最關鍵最有價值的信息，本文提出一種基于CNN和LSTM的多通道注意力機制文本分類模型MCCL（Multi-Channel-CNNAtt-LSTMAtt），主要內容如下：

（1）利用詞嵌入技術訓練詞向量，將文本信息表示成低緯的稠密矩陣；

（2）用CNN和LSTM提取文本局部信息和上下文特征，將輸出信息作為多通道注意力的輸入提取注意力分值；

（3）將多通道注意力的輸出信息融合，得到最終的文本信息向量表示，根據這個向量進行文本分類。

本文提出的MCCL模型充分利用了CNN和LSTM提取文本特征的優點，在此基礎之上引入多通道注意力機制，根據不同單詞對分類結果影響的大小賦予不同的權重，使單詞在分類任務中起更不同的作用，達到提高分類效果的目的。

圖1 模型總體架構圖Fig.1 Overall architecture diagram of model

1 MCCL模型

本文提出MCCL模型，主要包含詞嵌入層、CNNAttention層、LSTM-Attention層，總體架構如圖1所示。

1.1 詞嵌入層

分類任務前需要將文本轉換成計算機可以識別的數字矩陣，并用固定長度的實數表示，這種表示方式稱為詞嵌入[20]。發展初期多采用獨熱編碼的方式進行轉換，根據詞匯表的大小將每個單詞表示成相應維度的數字矩陣，矩陣中對應詞匯表順序編號位置為1，其余位置為0，這種方式表示雖然可以唯一標識每個詞語但無法體現詞語之間的相關性，且向量維數與詞匯表大小正相關，容易導致維數災難問題的發生。

MCCL模型采用Word2vec模型訓練詞向量，該模型是通過對大規模文本數據進行訓練而得到的低緯且稠密的詞向量，可以更好地表示詞語之間的關系及信息。Word2vec模型有Skip-gram和CBOW兩種結構，如圖2所示。

圖2 Skip-gram結構和CBOW結構Fig.2 Skip-gram structure and CBOW structure

Skip-gram和CBOW都由輸入層、映射層、輸出層組成，Skip-gram使用中心詞預測周圍的詞，CBOW使用周圍的詞預測中心詞。CBOW的訓練速度比Skip-gram快，但Skip-gram比CBOW表達文本語義的效果更好[21]，因此本文選用Skip-gram訓練詞向量。Skip-gram在訓練時通過中間詞向量Wt的條件概率值來求解上下文詞向量，計算公式為：

假設輸入到模型中的一條文本的單詞數為N，用向量[W1,W2,…,Wn]來表示這條文本，在經過詞嵌入層后文本表示轉換成X=[x1,x2,…,xn]，xi∈Rd，其中d為詞向量維度。

1.2 CNN-Attention層

CNN由若干卷積層、Pooling層、全連接層組成，具有較強的特征提取能力，通過設置不同大小的卷積核可以有效地提取局部關鍵信息，然后通過Pooling層對輸入的特征圖進行壓縮，使特征圖變小，簡化網絡計算復雜度，最后由全連接層連接所有的特征，將輸出值送給分類器。MCCL模型采用TextCNN[19]結構提取特征，如圖3所示。

Attention機制的本質是為不同的特征賦予一組權重值，在文本分類任務中表示為權重越大的詞越重要，對最終的結果影響也就越大。將注意力放在對文本分類結果影響較大的詞上可以有效提升分類的效果。

CNN-Attention層進行特征處理時首先將文本表示成詞向量矩陣形式，然后使用多個不同大小的卷積核對矩陣進行卷積，將卷積后的結果進行最大池化操作得到一個新的特征向量Yi，然后作為多通道注意力的輸入，計算每個特征向量與整個特征向量匹配得分為：

圖3 Text-CNN模型Fig.3 Text-CNN model

公式中是比詞向量更高一級的文本表示形式，開始時初始化該向量，隨著模型訓練時更新，分數值越大表明對應注意力越大，該詞也越重要。特征向量得分占總體百分比為：

公式中j∈[0,L]，得到每個特征向量對應的百分比后再對所有特征向量進行求和再平均，得到最終向量V，計算公式為：

1.3 LSTM-Attention層

LSTM是一種改進的RNN，通過在神經元加入輸入門i、遺忘門f、輸出門o、內部記憶單元c使得在處理長序列文本時更加有優勢，緩解了梯度消失和爆炸的現象的發生，相較于RNN可以更有效地提取文本上下文信息。輸入門i控制當前時刻網絡的輸入Xt有多少保存到單元狀態Ct，遺忘門f決定上時刻的單元狀態Ct-1有多少保留到當前時刻Ct，輸出門o控制單元狀態Ct有多少輸出到LSTM的當前輸出值Ht。模型結構如圖4所示。

圖4 LSTM結構圖Fig.4 LSTM structure diagram

當輸入的文本詞向量矩陣為X=[x1,x2,…,xk]時，則LSTM的更新公式為：

公式中σ(·)為Sigmoid激活函數，tanh(·)為雙曲正切函數，W為對應的權重，b為偏置，Ht為最終的輸出。將LSTM提取文本上下文信息后的輸出Ht作為多通道注意力的輸入，模型結構如圖5所示。

圖5 LSTM-Attention結構圖Fig.5 LSTM-Attention structure diagram

Ht經過公式（2）～（4）計算后得到經過LSTM-Attention最終向量T，即包含了文本上下文信息，又將注意力放在了重要的詞語上，更好地表示了語義信息。

2 實驗結果及分析

2.1 實驗環境與數據集

實驗在Ubuntu 18.04系統上進行，CPU為Intel?Xeon?Gold 5218，深度學習框架為Tensorflow2.1.0，使用Python3.6編程語言，為更好地表示語義信息采用Skip-gram訓練詞向量，且采用CUDA10.1進行加速計算，具體實驗環境如表1所示。

表1 實驗環境Table 1 Experimental environment

數據集采用IMDB英文電影評論數據集、復旦大學中文數據集、THUCNews數據集。IMDB數據集為二分類數據集，分為消極評論和積極評論，數據集噪聲特征少，分類難度低。復旦大學中文數據集共有20個類別，文本多為文獻內容且篇幅較長，噪聲特征較多。THUCNews數據集共有14個類別，噪聲特征較少，由于數據全集樣本過多，本文隨機抽取了42 000條樣本進行實驗。各數據集均進行了預處理，去除特殊字符以及標點符號，并進行分詞處理，詳細信息如表2所示。

表2 數據集統計信息Table 2 Data set statistics

2.2 訓練參數設置

詞向量訓練時，為了更好地表示語義信息，采用Skip-gram結構進行訓練，同時為了避免不常用單詞對實驗結果造成影響，在訓練詞向量時選取詞頻前6 000的單詞進行訓練。為了防止過擬合現象的發生在CNN、LSTM網絡層中設置Drop_out值為0.5，隨機失活50%的神經單元，采用ReLu激活函數在加快收斂速度的同時也可以進一步防止過擬合現象的發生。采用多分類任務中常用的交叉熵損失函數，優化器為Adam，Batch_size為256，Epoch為10，具體參數如表3～5所示。

表3 Word2vec網絡參數Table 3 Word2vec network parameters

表4 CNN網絡參數Table 4 CNN network parameters

表5 LSTM網絡參數Table 5 LSTM network parameters

2.3 模型評估標準

采用分類任務常見的評估標準：準確率、精確率、召回率以及F1值對MCCL模型進行評估。準確率（Acc）表示預測正確的樣本占總樣本的比重，精確率（Pre）表示實際類別且預測類別都為正的樣本占所有預測類別為正的樣本比重，召回率（Rec）表示實際類別且預測類別都為正的樣本占所有實際類別為正的樣本比重，F1值為準確率和召回率的加權調和平均值。混淆矩陣如表6，指標計算如式（10）～（13）所示。

表6 混淆矩陣Table 6 Confusion matrix

2.4 對比實驗

為驗證提出的MCCL模型預測性能，在同等實驗環境下與以下基準模型進行對比：

（1）CNN-LSTM[22]：首先用CNN提取文本局部關鍵信息，然后用LSTM提取CNN輸出的上下文語義信息。

（2）CNN-RNN[23]：首先用CNN提取局部關鍵信息，然后用RNN提取CNN輸出的上下文語義信息。

（3）LSTM-CNN[24]：首先用LSTM提取文本上下文語義信息，然后用CNN提取LSTM輸出的局部關鍵信息系。

（4）CNN-Attention[25]：首先用CNN提取局部關鍵信息，然后用Attention計算CNN輸出信息的注意力分值。

（5）LSTM-Attention[26]：首先用LSTM提取上下文語義信息，然后用Attention計算LSTM輸出信息的注意力分值。

（6）CNN-LSTM-Attention（CLA）[27]：首先用CNN提取局部關鍵信息，然后用LSTM提取CNN輸出信息的上下文語義信息，最后用Attention計算注意力分值。

（7）LSTM-CNN-Attention（LCA）[28]：首先用LSTM提取上下文語義信息，然后用CNN提取LSTM輸出信息的局部關鍵信息，最后用Attention計算注意力分值。

（8）CNN+LSTM[29]：首先用CNN和LSTM提取文本局部關鍵信息和上下文語義信息，然后將輸出信息進行融合后分類。

MCCL和以上基準模型在3個公開數據集上的實驗結果如表7～9。

表7 IMDB實驗結果對比Table 7 Comparison of IMDB experimental results%

表8 復旦大學中文數據集實驗結果對比Table 8 Comparison of experimental results of Chinese data sets in Fudan University %

表9 THUCNews數據集實驗結果對比Table 9 Comparison of experimental results of THUCNews data set%

從表中可以看出MCCL模型在三個數據集上的表現最優，大幅度提升了文本分類的效果。相較于CNNLSTM模型效果分別提升了4.98個百分點、4.20個百分點、6.30個百分點，這是因為CNN-LSTM模型使用的是遞進結構，CNN提取特征時雖然可以有效提取局部關鍵信息，但會導致部分信息的丟失，經過CNN提取后的語義信息向后傳遞時是不完整的，而MCCL模型不僅提取到了局部關鍵信息，還有效地提取了上下文信息，信息向后傳遞時是完整的，因此分類效果會更好。相較于CNN-RNN模型效果分別提升了5.39個百分點、5.20個百分點、6.99個百分點。相較于LSTM-CNN模型效果提升了3.48個百分點、3.24個百分點、4.89個百分點，這是因為LSTM-CNN模型提取文本信息時雖然可以有效提取上下文信息，但進行分類時認為每個單詞對最終的結果影響相同，沒有將注意力集中在更重要的單詞上，而MCCL模型不僅可以有效提取特征，還將注意力集中在對分類結果影響大的單詞上。同時可以看出CNNLSTM模型的分類效果要優于CNN-RNN模型，這是因為處理同樣的信息LSTM可以有效地解決文本長依賴問題，且有效地緩解了梯度彌散和爆炸問題，而RNN無法處理長文本序列，更容易發生梯度彌散和爆炸問題，因此CNN-LSTM模型的性能優于CNN-RNN模型。對比LSTM-CNN模型和CNN-LSTM模型可以看出LSTM-CNN的性能要明顯優于CNN-LSTM模型，這是因為CNN提取的是局部關鍵信息，如果在LSTM之前提取文本關鍵信息會導致對文本原始信息提取不全問題的發生，提取的信息向后傳播時是不完整的，無法準確表示整個文本信息，而LSTM提取的是文本上下文信息，在提取信息層面可以更好地表示文本，向后傳播時仍然是完整的信息，因此LSTM-CNN模型的分類效果要優于CNN-LSTM。相較于CNN-Attention模型效果分別提升了5.69個百分點、4.50個百分點、5.60個百分點，相較于LSTM-Attention模型效果分別提升了3.29個百分點、3.13個百分點、4.16個百分點，這是因為MCCL不僅將注意力放到了對分類結果影響大的單詞上，更充分地提取了文本潛在的語義信息，而CNN-Attention模型在提取特征時只考慮了局部關鍵信息，LSTM-Attention模型提取特征時只考慮了上下文信息，因此MCCL模型性能更好。相較于CLA模型性能分別提升了3.28個百分點、3.33個百分點、3.60個百分點，相較于LCA模型性能分別提升了3.09個百分點、1.98個百分點、2.52個百分點，這是因為使用遞進式的結構更容易出現梯度消失和爆炸的問題，而MCCL模型采用并行結構提取特征，有效緩解了梯度的問題，進行特征提取時更是結合了CNN和LSTM的優勢，因此分類效果要明顯優于以上模型。相較于CNN+LSTM模型效果分別提升了2.29個百分點、1.58個百分點、1.40個百分點，CNN+LSTM模型雖然可以有效提取局部關鍵信息和上下文信息但進行分類認為每個詞對最終的結果起同等作用，而在文本分類任務中一些詞語相對于其他詞語起的作用可能更大，甚至決定了最終分類的結果，而MCCL模型在CNN+LSTM的基礎上引入了Attention機制，通過計算注意力分值賦予每個單詞不同權重，從而可以有效識別對分類結果影響較大的詞語，因而分類效果要優于CNN+LSTM。

從表7～9中可以看出MCCL模型不僅在準確率上有很大的提升，在精確率、召回率、F1值上的提升效果也比較明顯。在IMDB數據集上精確率、召回率、F1值分別提升了2.90個百分點、2.53個百分點、3.11個百分點，在復旦大學中文數據集上精確率、召回率、F1值分別提升了2.41個百分點、2.04個百分點、2.27個百分點，在THUCNews數據集上精確率、召回率、F1值分別提升了2.08個百分點、1.87個百分點、2.40個百分點，充分顯示了MCCL模型的優勢。

為進一步展示MCCL模型的優越性，本文對每個模型的訓練過程進行了進一步探究，得出了復旦大學中文數據集訓練過程的校驗集準確率，如圖6所示。

從圖中可以看出CNN-LSTM模型和LSTM-CNN模型曲線波動較大，在第8個Epoch才開始收斂，CLA模型和LCA模型曲線相對平滑，最終的準確率較高，但收斂速度相對較慢，提出的MCCL模型不僅收斂速度更快，且曲線整體相對平緩，訓練過程穩定且準確率高，且在后續的訓練過程中一直處于領先優勢，進一步體現了MCCL模型的優勢。

圖6 復旦大學中文數據集校驗集準確率Fig.6 Accuracy of Chinese data set check set in Fudan University

分類的準確率是評價模型效果的重要指標，但訓練過程中的消耗也是一個重要的指標。因此，在以上實驗的基礎上對比模型的訓練時間，如表10所示。

表10 訓練時間實驗結果Table 10 Experimental results of training time min

訓練時間實驗是在單機下進行的，系統為Ubuntu Server 18.04 LTS，CPU為Intel?Xeon?Gold 5218，GPU：Ampere A100 77 40 GB，采用CUDA10.1加速計算。從表中可以看出MCCL模型的訓練時間較短，接近所有對比實驗中最短訓練時間，這是因為多通道并行結構相較于串行結構不僅能有效提取文本語義特征，還可以充分地利用計算機性能進行加速運算。由此可見，MCCL模型在訓練階段具有較快的收斂速度，可以有效地減少訓練時間的消耗。

2.5 參數分析

超參數的設置對最終實驗結果有重要的影響，為進一步提升MCCL模型的性能，對卷積核大小、Embedding維度、LSTM隱藏層大小進行進一步探究。固定其他超參數，設置卷積核大小為1～10，實驗結果如圖7所示。

圖7 卷積核大小對實驗結果影響Fig.7 Influence of convolution kernel size on experimental results

設置Embedding維度為50、100、200、300，實驗結果如圖8所示。

圖8 Embedding維度大小對實驗結果影響Fig.8 Influence of Embedding dimension size on experimental results

設置LSTM隱藏層大小為64、128、256、512，實驗結果如圖9所示。

圖9 LSTM隱藏層大小對實驗結果影響Fig.9 Influence of LSTM hidden layer size on experimental results

從圖7中可以看出卷積核為3時分類準確率最高，其次是2和4，且分類接近，選取最優的卷積核大小結合分類結果相近的卷積核可以提升效果[19]，因此MCCL模型最佳的卷積核大小設置為2、3、4。從圖8中可以看出當Embedding維度為200時效果最好，維度為300時接近最佳分類效果，但考慮到模型復雜度及分類效率等問題，因此選擇Embedding維度為200。從圖9中可以看出FuDan數據集的分類效果隨著LSTM隱層數的增大而增大，當隱層數大于256時增長的速率減緩，且隱層數為512時的分類效果和隱層數為256時的分類效果接近，這是因為FuDan數據集文本中單詞數較多，增加隱藏層數可以更好地提取語義信息，當隱藏層數大于文本單詞數時，分類效果會隨著隱藏層數增大而遞減。而IMDB和THUCNews數據集在隱層數為256時分類效果最好，因此LSTM隱藏層應設置為256。

2.6 消融實驗

為驗證MCCL模型的有效性，進行消融實驗。將MCCL模型分解，設置CNN、LSTM、CNN+LSTM、CNNAttention、LSTM-Attention，實驗結果如表11～13所示。

表11 IMDB消融實驗結果Table 11 Experimental results of IMDB ablation%

表12 復旦大學中文數據集消融實驗結果Table 12 Experimental results of Chinese data set ablation in Fudan University %

表13 THUCNews數據集消融實驗結果Table 13 Experimental results of ablation on THUCNews data set %

從表中可以看出CNN和LSTM分類效果接近，CNN+LSTM分類效果要明顯優于CNN和LSTM，這是因為CNN+LSTM結合了CNN和LSTM提取特征的優勢，因此分類效果要優于單一的提取器。CNN-Attention分類效果明顯優于CNN，這是因為CNN-Attention在CNN提取文本特征基礎上引入Attention可以將注意力放在重要的特征上，而LSTM-Attention效果優于CNNAttention，這是因為LSTM相較于CNN可以有效提取到文本上下文語義信息，經過Attention后這種在提取文本信息上的差異在最終結果上被放大，因此LSTM結合Attention的效果要優于CNN結合Attention。MCCL分類效果最好，這是因為MCCL在提取文本信息時結合了CNN和LSTM的優勢，有效提取了局部關鍵信息和上下文信息，在此基礎上引入多通道注意力將注意力集中在對最終結果影響較大的單詞上，提高了模型分類的效果。

3 總結

針對文本分類問題提出一種基于CNN和LSTM的多通道注意力機制文本分類模型MCCL，模型首先通過詞嵌入將文本表示成低緯稠密詞向量矩陣，然后利用CNN和LSTM提取局部關鍵信息和上下文語義信息，并用多通道注意力機制提取CNN和LSTM輸出信息的注意力分值，最后將多通道注意力機制的輸出信息進行融合，實現了有效提取文本特征的基礎上將注意力集中在重要的詞語上，提升了文本分類的效果。通過與其他模型對比實驗進一步證明了MCCL模型的優勢。下一階段的研究工作是分析MCCL模型的各個參數對分類結果的影響，從而使模型分類效果更好，進一步提高文本分類的準確率。