上下文感知與層級注意力網絡的文檔分類方法

2021-02-05 18:10:54任建華孟祥福

計算機與生活 2021年2期

任建華，李靜，孟祥福

遼寧工程技術大學電子與信息工程學院,遼寧葫蘆島 125105

文本分類是機器學習領域最經典，最重要的任務之一。文檔分類屬于文本分類問題。文本分類的主要任務是將給定的文本集合劃分到已知的一個或者多個類別集合中。文檔分類是組織文檔進行檢索、分析和整理所必需的，目的是為文檔分配標簽。近年來，由于深度學習的有效性，分層結構在自然語言處理（natural language processing，NLP）領域得到廣泛的應用。它們被用于各種各樣的任務中，例如語言建模[1]、情感分析[2]和主題分類[3]。從詞匯角度來看，單詞內部的深層結構為更深層次地處理和更好地理解整個句子提供了額外的信息[4]。所有的分層結構都有一個共同點：分別在單詞級和句子級兩個層次上使用編碼器，按照自底向上的方式學習對輸入文本的表示。

最近NLP 的一個趨勢是使用注意機制來建模信息依賴關系，而不考慮輸入序列中單詞之間的距離。深度學習中的注意機制具有選擇特性，它通過降低數據維度，讓任務處理系統更專注于找到輸入數據中與當前輸出顯著相關的有用信息，從而提高輸出的質量[5]。例如，Yang 等人[3]提出了分層注意力網絡，用分層結構反映文本結構，在單詞和句子級分別使用注意力機制，捕捉不同層次的重要信息，提升了文本分類的性能和準確度。Zhou 等人[6]提出混合注意力網絡來解決短文本分類問題。Pappas等人[7]基于多語言層次注意力網絡研究文本分類問題。Tarnpradab 等人[8]基于層次注意力網絡來研究在線論壇的摘要提交問題。這些模型背后的根據是，并非文本的所有部分都同等重要。此外，確定相關部分涉及到建模單詞之間的交互和重要性，而不僅僅是它們在文本中的存在。

然而，在大多數用于文檔分類的NLP 任務中，所提出的模型并沒有有效地將文檔結構知識整合到體系結構中，文檔中的每個句子被獨立編碼，并沒有充分考慮上下文信息。也就是說，當處理一篇文檔中給定的一個句子時，忽略了其他的句子，沒有充分考慮句子與句子之間的信息。這種缺乏聯系的選擇顯然不是最好的。例如，經典的分層注意網絡（hierarchical attention networks，HAN）在處理一篇包含很多條句子的文檔時，其中每個句子的開頭都重復了相同的高度負面的特征（如，“terrible weather”），因為它獨立地對每個句子進行編碼，沒有充分考慮句子與句子之間的信息，所以HAN 每次都把大部分的注意力預算花在最突出的地方，即對于文檔中的每條句子都會捕獲高度負面的特征“terrible weather”，結果重復捕獲了文檔中很多相同的信息，而忽略了文檔的其他方面。事實上，在HAN 中，位于第二級的句子編碼器通過為句子分配重要性得分，已經捕獲了一些上下文的概念。但是，由于第二級的句子向量早已經形成，再對它們修改已經太晚。因此，句子編碼器僅能對句子表示進行排序，不能解決類似高冗余的問題。在這種情況下，無論句子得分怎么樣，都不會發現文檔中重要的子主題或細節。

受以上研究啟發，本文提出了一種用于文檔分類的新方法，上下文感知與層級注意力網絡的文檔分類方法（document classification method based on context awareness and hierarchical attention network，CAHAN）。該方法通過在單詞級注意機制中引入上下文向量使單詞級編碼器基于上下文信息做出注意決策，從而所生成的句子向量全面捕獲了句子之間的上下文信息，而不僅僅依賴于雙向的句子編碼器，采用門控機制來明確地決定應該考慮多少上下文信息，使用GRU 解決了傳統循環神經網絡（recurrent neural network，RNN）在對序列數據進行編碼時經常會遇到的長距離依賴消失的問題，同時采用單詞-句子層次的注意機制有選擇地將注意集中于文本句子的關鍵部分來提高模型的性能。本文對所提出的方法進行了評估，并將其結果與經典的模型進行了比較，在對比實驗結果上展示出本文提出模型的有效性。

1 相關工作

1.1 門控遞歸單元

近年來隨著深度學習在計算機視覺[9]和語音識別[10]等領域的成功應用，基于深度學習的模型越來越成為NLP 領域中的文本分類的主流方法。卷積神經網絡（convolutional neural networks，CNN）能夠通過不同窗口大小的濾波器從局部文本中提取深層特征。Kim[11]提出了TextCNN 模型，利用CNN 來提取句子中類似N-grams 的關鍵信息。盡管它們在很多NLP任務里都有不錯的表現，但是CNN的局限在于卷積尺寸是固定的，對定長句子的處理是非常有幫助的，而對變長句子處理不夠理想。RNN通過使用帶自反饋的神經元，能夠處理任意長度的序列。長短時記憶網絡（long short-term memory，LSTM）是一種特殊的RNN，能夠根據全局上下文記憶或忽略特征[12]。門控遞歸單元（gate recurrent unit，GRU）[13]是LSTM的一種變體，能夠很好地處理遠距離依賴問題。在NLP 領域中，文本往往具有時序信息，在獲取文本語義特征時結合了時序特征通常會在一定程度上促進分類性能的提升。為了克服遞歸單元不能很好地處理遠距離依賴問題，本文引入如圖1 所示的GRU[14]。

Fig.1 Gate recurrent unit圖1 門控遞歸單元

GRU 是循環神經網絡的一種。它是為了解決長期記憶和反向傳播中的梯度等問題而提出來的。GRU 的輸入輸出結構與普通的RNN 相似，其中的內部思想與LSTM 相似。不同于LSTM 的是GRU 內部少了一個門控，參數比LSTM 少，結構上GRU 比LSTM 簡單，但是也能夠達到與LSTM 相當的功能。考慮到硬件的計算能力和時間成本，實驗中選擇GRU，并且相比之下更容易進行訓練，訓練速度更快，更容易收斂，能夠在很大程度上提升訓練效率。

如圖1 所示的GRU 使用一個門控機制跟蹤序列狀態。通過使用重置門控rt和更新門控zt共同控制如何將信息更新到狀態。在時刻t，GRU 計算得到的新狀態為：

式中，⊙表示對應元素相乘，通過之前單元狀態ht-1和當前單元狀態之間的線性插值，計算得到新的序列信息ht。更新門控zt不僅決定了可以保留多少過去的信息，還決定了可以添加多少新的信息。更新門控zt的計算式為：

其中，σ為sigmoid 函數，通過此函數可以將數據變換為[0,1]范圍內的數值，從而來充當門控信號。當輸出值為0 時表示沒有信息通過，當輸出值為1 時表示所有信息都通過。xt是時刻t的序列向量。當前單元狀態的計算方式類似于傳統的遞歸神經網絡：

其中，重置門控rt用于控制忽略前一個單元狀態信息的程度。重置門控的值越小，先前的單元信息越容易被忽略。如果rt為0，那么它將忘記之前的所有狀態。重置門控的計算式為：

1.2 注意力機制

深度學習中的注意力機制具有選擇性。注意力機制的研究動機來源于人類的注意力機制，最初是應用在圖像處理領域，目的是為了讓神經網絡在處理數據時能將重點集中于某些信息。在圖像和NLP問題中，可以看成圖像或者文本中不同部分的重要性體現。

注意力機制首次在機器翻譯模型中被引入，采用編碼器譯碼器框架和注意機制，對外文單詞進行翻譯前的原語言參考詞的選擇，之后注意力機制在NLP 領域得到廣泛的應用。胡朝舉等人[15]將注意力機制和LSTM 結合解決特定主題的情感分析任務。Wang 等人[16]基于分層注意力網絡來研究視頻的行為識別。Wang 等人[17]提出了實體增強層次注意力神經網絡，從生物醫學文本中挖掘出蛋白質的相互作用。Gao 等人[18]基于分層注意力網絡，改善了非結構化癌癥病理報告中的多信息提取任務的效果。Yan等人[19]提出了分層多尺度注意力網絡，解決了計算機視覺領域的動作識別問題。由此可見，注意力機制能夠有效地突出重點，改善了傳統模型對于輸入數據同等看待的弊端，加入注意力機制的模型只保留對于當前任務有用的關鍵信息同時舍棄無用的信息，能夠更加深入挖掘文本深層語義，有效地優化了文本特征向量。

2 CAHAN 模型

本文提出模型的體系結構如圖2 所示。該模型由多個層次組成：輸入層、單詞級編碼器、單詞級注意機制、句子級編碼器、句子級注意機制和輸出層。接下來的部分將對各個不同的層次進行詳細闡釋。

Fig.2 Architecture of CAHAN model圖2 CAHAN 模型的體系結構

2.1 輸入層

假設一篇文檔中有L條句子si，每個句子中包含Ti個單詞，wit表示第i個句子中的第t(t∈[1,T])個單詞。即有：定義文檔X∈RL×Ti×d為L個句子(s1,s2,…,sL)的序列，每個句子si是一個Ti×d維的單詞向量(xi1,xi2,…,xiTi∈RTi×d)序列。

為了得到模型可以識別的輸入，需要對輸入文檔進行向量化。因此，首先對文檔進行分詞處理，然后使用Word2Vec 預訓練的模型嵌入詞向量，得到低維稠密的詞向量。這樣，可以得到每個單詞的輸入向量。給出一個有單詞wit的句子，通過一個嵌入矩陣We將單詞嵌入到低維向量中，得到每個單詞的嵌入向量：

2.2 單詞級編碼器

基于單詞級的Bi-GRU 層的任務是實現單詞的序列化表示。為了融合序列的上下文信息，模型采用Bi-GRU 獲取單詞的高層語義表示。Bi-GRU 能夠很好地處理遠距離依賴。例如，冀文光[20]利用Bi-GRU 解決了傳統RNN 在對序列數據進行編碼時常常會面臨長距離依賴消失的問題，GRU 能夠有效地處理文本序列數據，Bi-GRU 則充分地兼顧了文本的上下文信息。將GRU 作為序列編碼器的基本構建模塊，通過單詞的嵌入向量xit和之前的隱狀態ht-1可以得到當前的狀態ht，如式（6）所示。通過將xit輸入到Bi-GRU 網絡獲得每個單詞的隱藏狀態構造單詞級編碼器，最后第i個句子中的第t個單詞的表示為兩個方向輸出的連接，如式（7）。此時的hit總結了以單詞wit為中心的整個句子的信息：

其中，GRU(,,)函數為編碼過程的縮寫，θ表示GRU的所有參數。

單詞級雙向GRU 對輸入句子si進行處理，返回隱藏狀態序列(hi1,hi2,…,hiTi)。

2.3 單詞級注意機制

基于單詞級的注意力層使用注意力機制得到每個單詞與任務的相關程度，以得到相應的句子表示。具體來說：該模型將單詞的重要性作為對齊向量eit與單詞級上下文向量uw∈R2ds的相似性進行度量，并通過softmax 函數學習歸一化的重要性權重αit，如式（8）和式（9）所示。之后，通過對基于權重的單詞表示加權求和得到句子向量si，如式（10）所示。

其中，tanh 函數將值域壓縮到[-1,1]中，softmax 函數對eit進行數值轉化，通過歸一化，將原始計算數值整理成所有元素權重之和為1 的概率分布，同時也通過softmax 的內在機制更加突出重要元素的權重，uw是一個隨機初始化的單詞級上下文向量，模型利用它計算出對應每個單詞的任務權重αit，以此來體現單詞與任務的相關程度。

正如前面所闡述的，文檔中的每個句子被獨立編碼，沒有考慮任何上下文信息。雙向編碼器雖然能考慮到所編碼句子的相鄰句子，但它仍然集中于當前所編碼的句子，并沒有有效地將文檔結構知識整合到體系結構中。為了解決這一問題，在單詞級注意機制中引入一個上下文向量ci，將其整合進eit的求解中，即在計算單詞對齊系數時引導模型：

這里，采用遞歸法（CAHAN-RNN）和求和法（CAHAN-SUM）兩種方式來求解上下文向量ci，接下來的2.3.1 節和2.3.2 節將分別闡述這兩種求解方法。

2.3.1 CAHAN-RNN 求解ci

遞歸求解法就是在時間步長上簡單地使用句子級編碼器的表示作為上下文向量。例如，在生成第i條句子的表示時，將前面的i-1 條句子的信息考慮進來。

通過合理的設計，hi-1概括了句子向量(s1,s2,…,si-1)的所有信息，特別是最近時間步長上的信息。如果句子足夠長，那么最終GRU 也將忘記開始句子向量的信息。然而，在實驗中，使用的都是相對較短的文檔，因此可以假設句子級編碼器生成的表示能夠成功地對整個序列進行表示。

2.3.2 CAHAN-SUM 求解ci

從信息論的角度來看，求和可以跟蹤所有的信息。為了獲取更為完整的上下文信息，采用求和法求解上下文向量ci。求和法求解上下文向量ci就是在求解當前句子si的向量表示時，將前面生成句子向量(s1,s2,…,si-1)的表示考慮進來，并對它們進行求和作為當前句子的上下文向量，即：

2.4 門控機制

門控給了注意力機制更多的表現力。事實上，上下文信息并不總是同等重要的，需要視具體的情況而定。為了讓模型在做出對齊決策時能夠明確地決定應該考慮多少上下文信息，進一步對式（11）進行了修改：

其中，λ是由以單詞的表示和上下文向量為輸入的可訓練機制生成的，sigmoid 激活函數起到過濾作用，確保將其所有實體壓入[0,1]區間內。

從優化的角度來看，λ防止它將tanh 推到非常小的梯度區域，也有調節上下文向量大小的理想效果。因為上下文向量ci在文檔的開頭或末尾會變大，所以這對于CAHAN-SUM 特別有用。

2.5 句子級編碼器

基于句子級的Bi-GRU 層的任務是通過GRU 實現句子的序列化表示。Bi-GRU 神經網絡實現從兩個相反的方向獲取信息，有利于從整體上捕捉句子的長依賴關系以及文本的深層語義表達。類似于單詞級編碼器，在句子級，將單詞級編碼器的輸出（L為文檔中句子的數量）輸入Bi-GRU，并連接i∈[1,L]）得到第i個句子的表示hi，即：

2.6 句子級注意機制

由于不同的句子對一份文檔的組成有不同的貢獻，因此有必要為它們分配不同重要性。為了達到這個目標，再一次使用注意機制，得到每個句子與任務的相關程度，進而以對應的文檔表示，即文檔向量：

其中，該模型將句子的重要性作為對齊向量eit與句子級上下文向量us的相似性進行度量，并通過softmax 函數學習歸一化的任務權重αi，如式（17）和式（18）所示。式（19）表明，文檔向量v是通過基于注意力機制的加權求和得到的，它總結了文檔中所有句子的信息。

2.7 輸出層

通過式（19）得到的文檔向量v可以看作文檔的高級表示，它可以作為最終文檔特征向量用于文檔分類。通過softmax 函數對這些向量進行文檔分類，得到分類標簽的概率分布。softmax 分類器的前向傳播和訓練損失函數分別如式（20）和式（21）所示：

訓練過程中，使用交叉熵損失函數作為優化目標函數：

其中，N表示分類的類標簽數目，yj表示第j個位置上的真實文檔類別概率分布,lb表示以2 為底的對數函數，Pj表示第j個位置上模型預測的文檔類別概率分布。

3 實驗

本文實驗環境為Ubuntu 16.04 LTS 操作系統，Intel?Corei7-6800K@3.40 GHz CPU，16 GB 內存，顯卡GIGABYTE GeForceGTX1080Ti。實驗基于深度學習框架Tensorflow1.12.0 實現，實驗所用開發語言為Python3.6。為了驗證本文所提出模型的分類性能，實驗中使用IMDB 和Yelp2013 的公開數據集進行了測試。在本章中，首先介紹模型使用的數據集，然后介紹對數據集的預處理以及參數的設置，最后介紹本文提出的模型與現有一些模型的對比，并對結果進行分析。

3.1 數據集

本文使用兩個來自不同領域的公開數據集驗證CAHAN 模型的性能。各個數據集的統計信息如表1所示。本文將80%的數據用作訓練集，10%的數據用作驗證集，剩余10%的數據用作測試集。

Table 1 Statistical information of data sets表1 數據集統計信息

IMDB（Internet Movie Data Base）是英文影評數據集：來自Diao 等人[21]使用的數據集，由英文電影評論構成，總共包含5 萬條評論，分為積極和消極兩類，屬于二分類的情感分類問題。IMDB 情感分類的任務就是給定一條文本，預測它的情感是積極的還是消極的。

Yelp2013：評論文本來自2013 年Yelp 評論挑戰賽，與Tang 等人[2]使用的Yelp2013 數據集信息一致，其中評論級別總共有5 個：1～5，級別越高越好。數據集統計信息如表1 所示。

3.2 數據集的預處理

在實驗中，本文對數據集進行了預處理操作。由于在文檔分類中，停用詞的作用非常小，幾乎不會影響整個句子的含義。因此，將類似the、a、an、of 等的停用詞刪除。本文在讀取文檔時，將每一篇文檔切分成句子集合，并使用斯坦福的CoreNLP[22]工具標記每個句子。在構建詞匯表時，只保留出現次數超過5 次的單詞，將低于5 次的單詞采用一個特殊的字符“UNK”替換。通過在訓練集和驗證集上訓練一個無監督的word2vec 模型得到詞嵌入，然后使用詞嵌入來初始化向量空間We。

3.3 評價指標

為了驗證本文所提算法的有效性，使用精準率Precision、召回率Recall、F1-score 和Accuracy 作為評價指標，來衡量分類的整體效果。用r表示預測為正例，實際為正例；s表示預測為負例，實際為正例；t表示預測為正例，實際為負例；z表示預測為負例，實際為負例。如表2 所示。

Table 2 Confusion matrix of classification results表2 分類結果混淆矩陣

根據表2，可以得到如下計算式：

3.4 參數設置

實驗過程中模型的超參數在驗證集上進行微調，而最終的算法性能比較在測試集中進行。本文中，GRU 網絡的單元個數設置為50，那么Bi-GRU 網絡生成的向量維數為100。隨機初始化的單詞上下文向量uw和句子上下文向量us的維度設置為100。對于模型的訓練，將詞嵌入的維度設置為100，采用大小為64 的批處理，采用動量為0.9 的隨機梯度下降法（stochastic gradient descent，SGD）來訓練所有的模型，并且在驗證集上使用網格搜索來選擇最佳學習率。此外，為了防止網絡神經元出現共同適應性，本文還使用大小為0.5 的dropout 來隨機丟棄網絡中的神經元。經過多次調整，選取一組最優模型參數，如表3 所示。

Table 3 Model parameter setting表3 模型參數設置

3.5 對比實驗

將提出的模型與以下多種基線模型進行對比：

（1）TextFeatures：基于傳統方法的模型，人工設計文本情感特征，輸入到分類器SVM（support vector machine）中[23]。

（2）TextCNN-word：基于單詞的CNN 模型，該模型采用不同大小的卷積內核來處理文檔，模型的濾波器數目和濾波器大小是固定的[11]。

（3）LSTM：將整個文檔作為一個單獨的序列，所有單詞隱藏狀態的平均值作為分類的特征。

（4）Attention-based LSTM：基于注意力機制的LSTM。

（5）Attention-based Bi-LSTM：基于注意力機制的雙向LSTM。

（6）HAN：分層注意神經網絡模型，分別基于注意力機制和GRU 構建句子水平和文檔水平的層次特征向量表示[3]。

（7）MHAN：用于多語言文檔分類的層次注意網絡[3]。

（8）HAN*：表示根據HAN 所提出的方法，通過層次注意網絡對在線論壇討論進行提取總結[3]。

3.6 實驗結果及分析

本文的模型和現有的模型在所有數據集上的實驗結果在表4 和表5 中給出。從實驗數據可以看出，本文設計的CAHAN-RNN 和CAHAN-SUM 模型可以有效地提高文檔分類的效果。CAHAN-RNN 和CAHAN-SUM 采用的分別是遞歸法和求和法求解上下文向量的上下文感知與層級注意力網絡方法。這些結果表明，本文方法在所有的數據集上給出了最好的性能。

Table 4 Classification results of data set IMDB表4 數據集IMDB 的分類結果%

Table 5 Classification results of data set Yelp2013表5 數據集Yelp2013 的分類結果%

下面對表4 和表5 中的實驗結果做具體分析。

在兩個數據集上，本文提出的模型都顯示出了相當大的改進。對于比較小的數據集IMDB，本文所提出模型的精度比基線模型TextFeatures、CNN、LSTM、Attention-based Bi-LSTM 和MHAN 至少高出了8.2 個百分點、5.4 個百分點、7.1 個百分點、4.9 個百分點和2.6 個百分點。基線模型HAN*的效果最好，但本文所提出模型效果至少超過了它1.4 個百分點。對于大數據集Yelp2013，本文提出的模型的精度比基線模型TextFeatures、CNN、LSTM、Attention-based Bi-LSTM 和HAN*至少高出了8.3 個百分點、4.9 個百分點、7.5 個百分點、3.8 個百分點和1.4 個百分點，比基線模型中表現最好的MHAN 高出了1.0 個百分點。同時，本文所提出模型的精準率Precision、召回率Recall和F1-score也有很大的提高。

從表4 實驗數據可以看出，與傳統機器學習模型TextFeatures相比，基于淺層神經網絡的模型TextCNNword、TextCNN-char、LSTM 所占優勢并不那么明顯，它們的Accuracy值相差并不大，尤其是在大文本分類方面體現更為明顯。例如，TextCNN-word、TextCNNchar 與LSTM 在IMDB 數據集上的Accuracy 值分別為82.2%、81.1%、80.5%，在Yelp2013 數據集上的Accuracy 值分別為83.6%、82.3%、81.0%。而Text-Features 方法在兩個數據集上的Accuracy 值分別為79.4%和80.2%。

通過表4、表5 觀察到，分層表示模型對于模型性能改善起到非常大的作用。例如，TextCNN-word、TextCNN-char 與LSTM 三個沒有應用分層表示特征的模型與應用分層表示網絡的模型HAN*進行對比，Accuracy 值得到明顯提升。具體來說，HAN*較TextCNN-word 在IMDB 數據集和Yelp2013 數據集上的Accuracy 值分別提升了4.0 個百分點和3.5 個百分點。這表明利用詞語-句層次結構，更有效地利用了文檔的組織結構。對于時序特征以及層級注意力機制的性能改善也可以通過表4、表5 中對應模型對比發現，這同時也表明模型采用詞語級注意力機制和句子級注意力機制有效地提取了強相關關系，提升了文檔分類的準確度。

在兩個數據集中，本文提出的上下文感知與層級注意力網絡的方法CAHAN-RNN 和CAHAN-SUM較層級注意力網絡HAN、MHAN 和HAN*都顯示出了相當大的改進。例如，模型CAHAN-RNN 在IMDB數據集和Yelp2013 數據集上的Accuracy 值分別為87.6%和88.5%，CAHAN-SUM 在兩個數據集上的Accuracy 值分別為91.9%和93.2%。而在IMDB 數據集上，分層注意網絡中表現最好的模型HAN*的Accuracy 值為86.2%。在Yelp2013 數據集上，分層注意網絡中表現最好的模型MHAN 的Accuracy 值為87.5%。可以看出，在兩個數據集上，引入上下文感知層級注意力網絡的方法較傳統的分層注意力網絡模型MHAN 和HAN*至少提高了1.0 個百分點和1.4個百分點。這些積極的結果提供了一個線索，即引入上下文向量ci并調節其大小確實是有益的。在單詞級注意力機制中引入上下文向量ci使得在求解當前句子的表示時更全面地捕獲了文檔的上下文信息，門控使得注意力機制準確地決定應該考慮多少上下文信息，給模型提供了更多的表現力，也很有幫助。

針對本文提出的模型CAHAN-RNN 和CAHANSUM，可以看到模型CAHAN-RNN 的表現相對較差，CAHAN-SUM 取得了最佳的性能。例如，在IMDB數據集和Yelp2013 數據集上模型CAHAN-SUM 比CAHAN-RNN 分別高出了4.3 個百分點和4.7 個百分點。在此之前，相同的方法曾被用于對話行為分類，并獲得了很好的結果。這可能是因為：與語音轉錄中的話語不同，文檔中的句子不是按時間順序排列的。換句話說，距離當前句子很遠的句子并不一定比距離較近的句子更不相關。因此，平均考慮每個句子比通過RNN 強加一個隱式時間衰減要好。因此，CAHAN-SUM 的性能要更好。

分類的準確度是評價模型效果最重要的指標，但是訓練過程中的消耗也是一個重要的指標。因此，實驗過程中還比較了幾種具有較高分類精度的模型的訓練時間，如表6 所示。

Fig.6 Training time of model表6 模型的訓練時間h

訓練時間實驗是在單機下操作的，系統為Ubuntu 16.04 LTS，Intel?Corei7-6800K@3.40 GHz CPU，顯卡GIGABYTE GeForceGTX1080Ti。由表6 可知，對于IMDB 數據集，基線模型至少需要訓練2.00 h 才能實現模型收斂，而本文提出的模型CAHAN-RNN 和CAHAN-SUM 分別需要1.00 h 和1.25 h。類似地，對于Yelp2013 數據集，本文所采用的基線模型至少需要訓練3.45 h 才能實現模型收斂，而本文提出的模型CAHAN-RNN 和CAHAN-SUM 分別需要2.00 h和3.00 h。由此可見，本文提出的模型在訓練階段具有較快的收斂速度，可以有效地減少訓練時間的消耗。

4 結束語

本文針對文檔分類問題，提出了一個新的上下文感知與層級注意力網絡的文檔分類方法（CAHAN），通過在單詞級注意力機制中引入句子上下文向量全面地捕獲了句子之間的信息，并利用門控機制來準確地決定上下文信息的多少，提高了文檔分類的準確度。采用Bi-GRU 表示文檔中上下文和單詞序列的語義信息，同時利用注意力機制考慮文本中不同單詞和句子的重要性。實驗結果表明，該模型在現有的公開可用的數據集中均優于所比較的模型。此外，訓練時間大大減少。CAHAN 模型性能有待繼續提升，后續的研究工作將進一步在此基礎上對網絡結構進行優化。