基于改進BiGRU-CNN 的中文文本分類方法

2022-05-14 03:27:58陳可嘉

計算機工程 2022年5期

陳可嘉，劉惠

（福州大學經濟與管理學院，福州 350116）

0 概述

PC 互聯和移動互聯的深入發展使得互聯網文本數據呈現指數級增長的態勢。文本分類作為高效的自然語言處理技術，在用戶個性化新聞推薦［1］、文本內容檢索［2］、在線評論情感分析［3］中發揮著重要作用，為進一步處理和挖掘文本信息奠定了基礎。傳統基于機器學習的文本分類算法，如K 近鄰、支持向量機、樸素貝葉斯、決策樹等，不僅需要依靠人工對文本特征進行標注，而且容易出現維度過高或者局部最優等問題，同時參數的變化對分類結果的影響較大，算法魯棒性較差，文本分類效果有待提升。隨著深度學習技術在圖像處理和語音識別領域的發展應用中取得顯著效果，近年來以深度學習為基礎的文本分類算法層出不窮［4］。基于深度學習的神經網絡模型，如卷積神經網絡（Convolutional Neural Network，CNN）、循環神經網絡（Recurrent Neural Network，RNN）等，通過多層次網絡的學習和訓練，能夠實現對文本深層次特征的自動提取，并提供了一種端到端的解決方案。深度學習模型如CNN 在文本分類任務中不僅能夠自動學習和提取文本的關鍵特征，而且在多層次網絡的訓練過程中涉及的參數相對較少，可以避免出現過擬合的現象。因此，基于深度學習的文本分類方法相較于基于機器學習的分類方法，在多種自然語言處理任務中取得較好表現，具有高效和準確的特點。CNN 和雙向門控循環單元（BiGRU）是目前在文本分類領域應用較為廣泛的兩種神經網絡模型，但這兩種模型在文本分類任務中都存在著缺陷，CNN 對上下文語義信息關注較少，忽視句子間的長期依賴關系，而BiGRU 在文本特征提取方面能力不足，不能考慮到文本間存在的局部依賴關系。

注意力機制是一種提高特定區域觀測精度的機制，可以有選擇性地聚焦于觀察區域的某些部分，能夠對稀疏數據的關鍵特征進行快速提取。自注意力機制是注意力機制的一種特殊變體，更擅長獲取數據內部的相關性，在文本局部關鍵信息的提取上表現良好，能夠彌補BiGRU 在特征提取方面的不足，然而傳統的自注意力機制在訓練過程中不能有效對文本特征向量進行權重調整，存在權重分配局限的問題。

針對上述問題，本文結合CNN、BiGRU 和自注意力機制三者的優點，提出一種基于改進自注意力機制的BiGRU 和多通道CNN 文本分類模型SAttBiGRU-MCNN。引入位置權重參數對自注意力機制進行改進，降低信息量較低的文本向量權重值，對權重值進行重新分配，以增強文本特征的表達能力，提升文本分類的準確性。

1 相關工作

近年來，針對CNN 在文本分類任務中的應用和改進得到了廣泛關注。文獻［5］首先通過構建層次模型識別文本的主題句，再將主題句引入CNN 中對文本的句子向量表示分配權重，進一步提高CNN 在文本分類中的監督學習能力；文獻［6］提出基于語句層面的CNN 分類方法，通過結合改進的TF-IDF 算法和Word2vec 技術，采用CNN 實現文本的分類；文獻［7］采用奇異值分解方法對CNN 的池化層進行特征降維，避免傳統CNN 池化過程中語義損失的問題，進而獲取更多的特征信息；文獻［8］通過采用多個CNN 構建多通道CNN 對中文微博進行情感分類，從多方面對文本特征進行提取，捕捉更多隱藏的文本信息；文獻［9］提出基于CNN 的文本分類模型，將CNN 應用于微博文本的多標簽分類任務中，取得較好效果；文獻［10］通過評價輸出特征的識別能力對卷積濾波器性能進行評估，以此進行特征修剪，提高CNN 的文本分類效果；文獻［11］提出一種基于范圍的卷積神經網絡模型（LSS-CNN）實現大規模文本的分類，與基于窗口的CNN 相比，能夠實現更深層的文本信息表示。基于CNN 的文本分類模型雖然能夠實現文本特征的自動抽取，但沒有考慮到句子間存在的長距離依賴關系。

RNN 是一種具有記憶性的神經網絡，可以捕捉句子間的上下文語義信息，但容易出現梯度彌散的問題。GRU 和LSTM 雖然在RNN 的基礎上加入了門機制，彌補了RNN 的缺陷，但未能識別文本的上下文語義關系。而BiGRU 和BiLSTM 模型則在GRU 和LSTM 的基礎上充分利用了過去和未來的相關信息，不僅能夠考慮到句子間的長距離依賴關系，而且能夠避免梯度彌散現象發生，在文本分類任務中表現良好。文獻［12］將BiGRU 應用于文本情感分類任務中，采用BiGRU 神經網絡層捕捉文本特征依賴，提出基于BiGRU 的文本分類模型完成文本的情感分析；文獻［13］通過引入密集連接卷積網絡對雙向門控循環單元進行改進，提出DC-BiGRU-CNN模型對文本進行分類，提高文本分類效果；文獻［14］采用長短時記憶網絡（Long Short-Term Memory，LSTM）、門控循環單元（Gated Recurrent Unit，GRU）、BiGRU 和雙向長短時記憶（Bidirectional Long Short-Term Memory，BiLSTM）網絡方法對用戶在線評論進行特征提取分析，有效實現了文本的情感分類；文獻［15］提出一種CNN 和RNN 相結合的分類模型，將其應用于文本特征的提取中，得到較好的效果；文獻［16］將雙向門控循環單元和CNN 相結合，提出一種字符級的文本分類模型，實現對文本全局和局部語義的提取。由于BiGRU 模型相比BiLSTM 模型具有更簡單的結構和更好的收斂效果，因此選取BiGRU 模型應用于文本分類任務中。基于BiGRU 的文本分類模型雖然能夠識別句子的長距離依賴關系，但是在文本的局部特征提取方面卻能力不足。

近年來，自注意力機制在文本分類任務中受到廣泛關注。文獻［17］將注意力機制應用于比較句識別中，提出端到端的層次多注意力網絡模型進行文本的分類；文獻［18］在文本分類任務中引入注意力機制，并結合CNN 和BiGRU 各自在文本信息提取上的優點，提出基于注意力機制的多通道CNN 和BiGRU 模型（MC-AttCNN-AttBiGRU）完成文本分類；文獻［19］將注意力機制應用于文本的情感特征提取任務上，與多通道CNN 以及BiGRU 相結合，完成文本的情感分類任務；文獻［20］將注意力機制應用于詞語級別中，以此實現文本的多角度特征提取，并采用CNN 和BiGRU 對文本深層次語義進行挖掘，在此基礎上實現文本分類；文獻［21］提出一種基于詞性的自注意力機制網絡模型對文本進行分類，采用自注意力機制學習文本的特征表達并結合詞性信息實現文本分類；文獻［22］通過在雙向RNN 中引入自注意力機制，提出用于句子分類任務的基于自注意力機制的雙向RNN 模型架構，進一步提高文本分類效果；文獻［23］結合BiLSTM 和自注意力機制，提出基于自注意力機制的BiLSTM 模型進行文本分類；文獻［24］采用基于自注意力機制和多通道特征的BiLSTM 模型用于文檔級的文本分類任務中，通過自注意力機制增強文本特征的表達能力。

自注意力機制雖然在文本分類任務中表現優異，然而由于在傳統自注意力機制訓練過程中，輸入的文本向量訓練位置不同，導致位置靠前的文本向量在訓練過程中存在初始觀察窗口較小及信息量較低的問題。因此，直接順序地對輸入的文本向量進行注意力得分計算存在一定的局限性。

基于此，本文提出基于改進自注意力機制的雙向門控循環單元（BiGRU）和多通道CNN 的文本分類模型。引入位置權重參數對自注意力機制進行改進，對文本深層次序列重新分配權重，改善傳統自注意力機制存在的權重分配局限問題，通過對多通道CNN 進行優化，采用不同大小、個數的卷積核進行不同粒度的文本特征提取，得到更豐富、更準確的文本特征，同時引入批標準化處理對經過卷積運算的特征向量進行調節，提升模型的學習能力。最后將改進的自注意力機制、BiGRU 和優化的多通道CNN相結合應用于文本分類任務，避免傳統RNN 梯度彌散或梯度爆炸的現象發生，同時捕捉文本的長期依賴關系，加強文本的局部特征提取能力，進一步提高分類模型的總體性能。

2 SAttBiGRU-MCNN 文本分類模型

2.1 整體模型架構

SAttBiGRU-MCNN 文本分類模型主要由兩個部分組成，包括改進的自注意力機制和BiGRU 構成的神經網絡通道，以及由3 個CNN 拼接組成的并行通道。BiGRU 通道主要用于獲取文本信息中的長距離依賴關系，而CNN 通道主要對文本的局部特征信息進行抽取。模型整體結構如圖1 所示。

圖1 SAttBiGRU-MCNN 模型整體結構Fig.1 Overall structure of SAttBiGRU-MCNN model

2.2 嵌入層

通過嵌入層可以實現文本的向量化轉換，提取文本基礎語義信息，將文本表示為向量形式進行存儲。假設輸入樣本L由l個句子組成，其中l個句子由n個詞構成，則輸入樣本表示為L={s1,s2,…,sl}，輸入樣本中的第i個句子表示為si={wi1,wi2,…,win}，對輸入樣本進行文本向量化轉換，得到詞向量w∈wL。這一過程中包括對輸入樣本的數據預處理、數據轉換等操作，輸入樣本經過文本向量化后，生成相應的詞向量矩陣。將樣本中第i個句子中的第j個詞向量表示為Wij，則第i個句子的詞向量矩陣可以表示為：

其中：Wi1：iN指第i個長度為N的句子對應的詞向量矩陣，表示Wi1,Wi2,…,WiN；⊕為級聯操作符，表示詞向量之間的連接關系。通過文本向量轉化，每一條文本數據都被轉化為長度相同的索引向量，以此生成對應的詞向量矩陣。

2.3 BiGRU 層

這一層的輸入為經過嵌入層處理后輸出的文本向量。BiGRU 層的主要作用是對句子間的長距離依賴關系進行識別和提取，進一步提取文本的深層次特征。BiGRU 模型由兩個獨立的GRU 模型構成，GRU 的模型結構如圖2 所示。

圖2 GRU 模型結構Fig.2 GRU model structure

GRU 相比LSTM 模型在結構上更為簡單，模型參數更少，可以降低訓練過程中的過擬合風險，同時模型訓練需要的時間更短，其計算公式如式（2）～式（5）所示：

其中：Wz、Wr、W、Uz、Ur、U為GRU 的權值矩陣；ht為模型當前的隱藏狀態；ht-1為上一狀態的輸入；⊙代表元素相乘表示候選狀態；zt和rt分別表示更新門和重置門；xt為在t時刻模型的輸入狀態；σ和tanh分別表示sigmoid 激活函數和tanh 激活函數。

在BiGRU 模型中，兩個GRU 使用同一個詞向量列表，但兩者的參數相互獨立。可以將輸入樣本轉換的文本向量理解為輸入序列，輸入序列以正向和反向的順序分別通過前向GRU 和后向GRU，每一時刻得到的文本特征信息都包括上文與下文之間的相關性。BiGRU 的模型結構如圖3 所示。

圖3 BiGRU 模型結構Fig.3 BiGRU model structure

在某一時刻t，BiGRU 的隱藏輸出由兩個相互獨立的GRU 共同決定，計算公式如式（6）～式（8）所示：

2.4 改進的自注意力機制層

在文本分類任務中，每個詞對分類結果的影響程度是不同的，為了區別每個詞的重要程度，引入自注意力機制層對經過BiGRU 處理后的輸出向量進行權重分配。自注意力機制是注意力機制的一種特殊變體，為了更好地理解自注意力機制的原理，首先對注意力機制的計算過程進行分析。注意力機制可以理解為由多個Query 和Key-Value 構成的映射函數，計算公式如式（9）～式（11）所示：

其中：Q表示查詢；V為對應的鍵值；K-V為向量鍵值對；ai表示經過softmax 函數歸一化處理后得到的權重值。

自注意力機制的加入可以在保留原始特征的基礎上突出文本的關鍵特征，得到更準確的文本特征向量表示。傳統的注意力機制在訓練過程中需要參考部分外部元素，而自注意力機制的計算只需依靠自身內部的元素。考慮輸入序列中不同位置的文本向量對輸出結果的貢獻度有所不同，例如位置靠前訓練的文本向量，由于觀測窗口較小，在訓練過程中獲取的信息相對有限，因此訓練得到的自注意力權重值總體上會偏大。為了避免這一現象，引入位置權重參數Weight 對自注意力機制進行改進，根據文本向量訓練的位置，對計算得到的自注意力權重概率值進行重新分配，降低訓練位置靠前的文本向量權重，適當提高訓練位置靠后的文本向量權重值，以此進一步優化文本特征向量的表示，增強文本特征的表達能力。Weight 是一個parameter 迭代器，其為Tensor 的一個子類，初始值為1，在訓練過程中會不斷進行優化，從而實現訓練時降低靠近開頭特征的自注意力整體權重，靠后的特征獲取更高的權重。具體計算公式如式（12）～式（14）所示：

其中：m為文本詞長度；X∈Rn為BiGRU 層輸出的n維向量；為函數的調節因子，通常表示輸入向量的維度，調節因子可以對X·XT的內積進行調節，避免函數得到的值差距過大導致結果分布不均勻。

2.5 多通道CNN

CNN 通道的輸入是經過嵌入層映射得到的文本向量。模型采用3 個并行的CNN 通道分別進行文本的局部特征提取操作，3 個CNN 通道的參數相互獨立。為了進一步提高多通道CNN 的特征提取能力，獲取文本的多元特征，分別在3 個CNN 通道中再加入一層卷積對CNN 進行優化，增強文本的局部特征表達能力，同時引入批標準化層進一步加強模型的學習能力。

2.5.1 卷積層

卷積層使用卷積核對輸入的文本向量進行卷積運算，通過固定尺寸的窗口完成向量的特征映射，得到文本的局部特征信息。在CNN 中，通常采用h×n維大小的過濾器進行卷積運算，其中h表示設定的卷積核尺寸，n表示選取的詞向量維度。本文設置h分別為3、4、5，同時在第一個卷積層中將過濾器個數設置為256，第二個卷積層的過濾器個數設置為128。將輸入的文本向量表示為矩陣H∈Rk×n，其中k表示句子的詞向量個數，n為詞向量維度，將卷積核定義為S∈Rh×n，則卷積層的運算過程可以表示為：

其中：ci表示通過卷積運算輸出的文本的第i個特征值；f為非線性激活函數，本文采用Relu 函數；·表示兩個矩陣點乘；Hi：j表示從第i個詞到第j個詞的詞向量矩陣；b為偏置項。對文檔中各個窗口的特征矩陣進行卷積運算，能夠得到相應的特征圖c，將其表示為：

2.5.2 批標準化層

為了提高模型的自適應能力和表達能力，加入批標準化層對上層輸出向量進行處理，標準化處理不僅可以提高神經網絡的訓練速度，加快收斂速度，同時能夠對輸出的特征分布進行調整使其更加穩定，有助于增強模型的學習能力，進一步提高分類效果。

2.5.3 池化層

池化層通過設置固定的步長stride 對文本特征進行采樣。池化操作主要包括最大池化層和平均池化層兩種策略，本文采用最大池化策略進行池化處理。這一過程主要是將不重要的文本特征進行丟棄，保留最關鍵的文本特征信息，池化操作不僅能夠實現特征向量的降維，同時能夠避免訓練過程中發生過擬合現象。經過池化操作，輸出固定長度向量：

2.6 全連接層

全連接層的作用是把經過池化操作得到的多個特征向量進行重新組裝擬合，并將其作為全連接層的輸入，并通過激活函數實現文本的分類。這一過程可以有效降低文本特征信息的損失。

2.7 輸出層

模型采用激活函數softmax 實現文本的分類。使用softmax 對上層輸出的特征向量進行計算，以此得到文本分類結果，具體計算過程如式（18）所示：

其中：P指的是輸入文本x被分到類別y的概率值；θ表示模型訓練的參數。

3 實驗

3.1 實驗環境

實驗平臺為Windows10 20H2 版本以及Ubuntu 18.04 操作系統，硬件為Intel i7-10750、8×2.6 GHz 處理器、16 GB 內存、GTX1650Ti 顯卡，模型采用Python編程語言實現，Python 版本為3.7，使用的深度學習庫包括 tensorflow2.3.0、keras2.4.3、gensim3.8.3、numpy1.18.5，編碼工作通過Pycharm 開發工具完成。

3.2 實驗數據集

實驗選取搜狗語料庫和THUCNews 兩個數據集作為實驗數據集。SogouCS 是由搜狗實驗室提供的新聞數據集，下載地址為：http：//www.sogou.com/labs/resource/cs.php；THUCNews 是由新浪新聞RSS訂閱頻道的歷史數據整理生成，下載地址為：http：//thuctc.thunlp.org/。分別將兩個數據集劃分為訓練集和測試集，其中80%用于模型訓練，20%用于模型測試，實驗數據集統計信息如表1 所示。

表1 實驗數據集統計信息Table 1 Statistics of experimental datasets

3.3 實驗預處理與模型超參數設置

模型具體超參數設置如表2 所示。

表2 超參數設置Table 2 Hyperparameter settings

首先采用Jieba 分詞工具對輸入的兩個數據集分別進行中文分詞操作，刪除標點符號后，再進行停用詞的過濾處理，這一過程采用哈爾濱工業大學停用詞表，然后將輸出文本中無實際含義的單個字進行去除，得到詞向量的訓練語料。實驗中設置兩個數據集文本句子的最大長度分別為300 和40，當句子過長時采取截斷操作，當句子過短時則進行補零操作。詞向量的訓練采用GloVe 模型。

3.4 評價標準

本文采用準確率（A）、精確率（P）、召回率（R）以及F1 值作為實驗的評價標準。相關的混淆矩陣結構如表3 所示。

表3 混淆矩陣Table 3 Confusion matrix

在表3 中，矩陣的行為樣本的真實類別，矩陣的列為樣本的預測結果。

準確率（A）是分類正確的樣本占總樣本的比重，計算公式為：

精確率（P）是被正確預測的樣本占所有預測類別正確的樣本的比重，計算公式為：

召回率（R）是被正確預測的樣本占所有真實類別正確的樣本的比重，計算公式為：

F1 值是基于精確率和召回率的調和平均值，計算公式為：

3.5 實驗對比

為了驗證提出的文本分類模型的合理性和有效性，分別在兩個實驗數據集下進行不同分類模型的對比測試。將提出的模型和以下11 種文本分類模型進行對比評估：

1）CNN［25］。基于單層CNN 的文本分類模型，將經過數據預處理得到的詞向量作為CNN 的輸入，將卷積核時域窗長度設置為3，詞向量維度設置為300，經過一層卷積后是池化操作，然后是全連接層和輸出層。

2）FastText［26］。由Facebook 在2016 年發表的一種簡單快速實現文本分類的模型。將詞向量作為輸入，經過一個平均池化層作為隱藏層，最后通過softmax 輸出分類結果。

3）MCNN（Multi-channel CNN）。即多通道CNN，將經過嵌入層處理得到的300 維詞向量分別輸入到卷積核時域窗長度為3、4、5 的卷積層中，然后將這3 個CNN 通道得到的詞向量拼接在一起，經過全連接層后再通過激活函數輸出分類結果。

4）RCNN［27］。由RNN 和CNN 相結合的文本分類模型。首先采用BiLSTM 對文本的特征向量進行提取，再將其與嵌入層輸出的詞向量進行拼接，然后經過一層卷積后實現對文本的分類。

5）Self-Attention-CNN。使用自注意力機制和卷積神經網絡結合的方法實現文本分類，將模型的嵌入層輸出使用自注意力機制進行特征加權，然后使用單層CNN 進行特征提取，再通過輸出層輸出文本分類結果。

6）BiGRU。采用BiGRU 模型對文本進行分類。BiGRU 模型中前后向GRU 的隱藏層神經元個數均設置為128 層，Dropout 設置為0.2。

7）SAttBiGRU。通過BiGRU 模型獲取文本的全局特征向量，再利用自注意力機制對BiGRU 輸出的特征向量進行加權，增強文本特征的表達能力，在此基礎上進行文本分類。

8）BiGRU-MCNN。分別使用BiGRU 模型和多通道CNN 模型對嵌入層的輸出向量進行文本語義特征提取，得到對應的特征向量表達并將其進行拼接操作，經過全連接層后使用激活函數進行分類。

9）MC-AttCNN-AttBiGRU［18］。首先采用注意力機制分別對多通道CNN 和BiGRU 進行加權，再將得到的文本特征向量進行拼接后輸入全連接層，最后采用softmax 實現文本分類。

10）BiGRU-SAtt-MC-CNN。首先使用BiGRU訓練得到文本的語義特征表示，然后引入自注意力機制對BiGRU 的參數進行加權后，再與經過多通道CNN 得到的文本特征向量進行拼接，作為全連接層的輸入，最后實現文本分類。

11）BiGRU-SAtt-MCNN。這一模型和上述BiGRU-SAtt-MC-CNN 模型流程一致，不同的是采用本文提出的優化的多通道CNN 對文本局部特征進行提取。優化的多通道CNN 由3 個CNN 通道構成，每個通道由兩層卷積組成，卷積核的個數分別設置為256 和128，并引入Batch Normalization 函數進行批標準化處理。

3.6 結果分析

本文將提出的SAttBiGRU-MCNN 文本分類模型與上述11 種模型分別在SogouCS 和THUCNews 數據集進行對比實驗，實驗結果如表4、表5所示。結合表4、表5 的對比實驗結果，可以看出提出的基于改進自注意力機制的BiGRU 和多通道CNN 的文本分類模型相比其他11 種分類模型，在兩個實驗數據集上都取得較好的分類效果，準確率分別達到98.95%和88.1%，相比其他分類模型分別最高提升了8.99 和7.31 個百分點，同時精確率、召回率和F1 值都取得較好表現，表明所提出的文本分類模型的優越性。

表4 SogouCS 數據集對比實驗Table 4 Comparison experiment of SogouCS dataset %

表5 THUCNews 數據集對比實驗Table 5 Comparison experiment of THUCNews dataset %

對實驗結果進行分析，可以發現在兩個數據集的對比實驗中，MC-CNN 的分類準確率都比單層的CNN 更高，表明MC-CNN 能夠有效提高文本分類效果，這是因為在多個CNN 通道中可以進行不同粒度的文本特征信息提取，能夠有效識別文本間的序列關系，在文本特征的提取上優于單層CNN。此外，對比CNN 模型和RCNN 模型的實驗結果，發現在CNN 中加入RNN 同樣可以提升分類準確率，這是因為RNN 可以彌補單層CNN 在文本特征提取任務中忽視上下文語義信息的缺陷，能夠捕捉句子間的長期依賴關系，可以得到更為準確的語義表示。對Self-Attention-CNN 模型的文本分類結果進行分析，發現其分類性能優于CNN、FastText、多通道CNN 和RCNN 模型，驗證了自注意力機制在文本分類任務中的優良性能。對比BiGRU-SAtt-MC-CNN 和MCCNN、BiGRU、Self-Attention-CNN 分類模型，可以發現三者相結合的文本分類方法總體評價上都優于單個模型，表明將多通道CNN、BiGRU 和Self-Attention 相結合應用于文本分類中能夠有效發揮各自模型的優勢，彌補模型的不足，驗證了本文將3 種方法相結合用于文本分類的準確性。

為了驗證本文提出的改進的自注意力機制以及優化的多通道CNN 能夠有效提高文本分類的有效性和準確性，對BiGRU-SAtt-MC-CNN、BiGRUSAtt-MCNN 以及本文提出的SAttBiGRU-MCNN 文本分類模型的實驗結果進行對比分析。通過對BiGRU-SAtt-MC-CNN 和 BiGRU-SAtt-MCNN 在SogouCS 和THUCNews 數據集上的實驗結果進行分析可以看出，加入優化的多通道CNN 的模型分類效果都優于采用普通的多通道CNN 的分類模型，驗證了優化的多通道CNN 可以提高文本分類的準確率。這是因為優化的多通道CNN 在原有的多通道CNN模型上，分別在各個通道中加入了一層不同卷積核數的卷積層，可以進一步提高模型的特征提取能力，得到文本的多元語義特征，增強CNN 對文本局部特征信息的捕捉能力，同時引入的批標準化處理層可以對卷積層輸出的特征分布進行調整，增強模型的學習能力。對BiGRU-SAtt-MCNN 和SAttBiGRUMCNN 的實驗結果進行分析，發現采用改進的自注意力機制的分類模型在準確率、精確率、召回率和F1值上都比采用傳統自注意力機制的模型表現更好，因此說明本文提出的引入位置權重參數的自注意力機制可以有效提高文本分類性能，這主要是因為改進后的自注意力機制能對特征向量的權重值進行重新分配，有效降低信息量較少的向量權重值，以此提高文本特征的表達能力，進一步提升文本分類的準確性。

4 結束語

本文結合改進的自注意力機制、BiGRU 以及多通道CNN，提出一種SAttBiGRU-MCNN 文本分類模型。該模型通過BiGRU 對文本序列信息進行捕捉學習，給出文本的上下文語義信息，利用改進的自注意力機制對文本深層次序列權重進行重新分配，可獲得更加準確的文本關鍵語義信息，同時采用多通道CNN 可以獲取多特征的文本局部語義信息，得到更豐富的文本語義表示。將本文提出的文本分類模型應用于兩個公開數據集上，并與其他11 種文本分類模型進行對比分析，實驗結果驗證了該模型的準確性和有效性，表明了該模型能夠得到更準確的文本分類結果。考慮文本分類任務中詞語的語義擴展對文本的特征表示存在重要影響，下一步將結合語義擴展和深度學習網絡對文本分類模型進行優化，并在此基礎上開展文本的細粒度分類研究。