張甜 陳輝


摘? 要:為了避免池化層重要特征信息的丟失以及改善CNN和RNN無法全面提取特征的局限性,文章提出一種基于BiGRU和膠囊網絡的神經網絡模型—BGCapNet模型,該模型使用兩個不同尺寸的BiGRU進行特征提取,實現文本長距離相互依賴的特性,膠囊網絡獲取更豐富的特征信息并通過膠囊預測進行情感分類。為了評估模型的有效性,在電影評論IMDB和SST-2這兩個數據集上進行了實驗。實驗結果表明,BGCapNet模型在影評數據集上的準確率和F1值優于其他傳統方法,有效提高了文本情感分類的效果。
關鍵詞:文本情感分類;BGCapNet;BiGRU;膠囊網絡;深度學習
中圖分類號: TP391.1? ? ? ? ? 文獻標識碼:A 文章標號:2096-4706(2022)04-0031-04
Study on Text Sentiment Classification Based on BiGRU and Capsule Networks
ZHANG Tian, CHEN Hui
(College of Computer Science and Engineering, Anhui University of Science and Technology, Huainan? 232001, China)
Abstract: In order to avoid the loss of important feature information in the pool layer and improve the limitation that CNN and RNN can not fully extract features, this paper proposes a neural network model based on BiGRU and capsule network—BGCapNet model. The model uses two BiGRU with different sizes for feature extraction to realize the characteristics of long-distance interdependence of text. The capsule network obtains richer feature information and classifies emotion through capsule prediction. In order to evaluate the effectiveness of the model, experiments are carried out on two data sets of film review IMDB and SST-2. The experimental results show that the accuracy and F1 value of BGCapNet model in film review data set are better than other traditional methods, and the effect of text emotion classification is effectively improved.
Keywords: text sentiment classification; BGCapNet; BiGRU; capsule network; deep learning
0? 引? 言
文本情感分析是自然語言處理、文本挖掘和計算機語言學的一個重要研究領域,主要是對網絡平臺上存在的帶有情感傾向的主觀性評論文本進行抽取、整理和分類,對文本中包含的情感詞進行情感判斷,以便政府機關、社會團體和個人等隨時掌控社會情緒動態,適時做出相應干預,促進社會和諧。
早期的情感分類任務主要基于人為規則制定。傳統的文本情感分析方法主要包括基于情感詞典的方法和基于機器學習的方法?;谇楦性~典的方法在分類時嚴重依賴于情感詞典,通過將目標詞與詞典中的情感詞進行比對的方式實現分類。該方法適用性差,無法廣泛應用于多個領域,構造詞典時過于依賴人力物力,靈活度不高,難以應對不斷變化的詞形詞意,不能適時地將網絡新詞囊括其中[1,2]。而基于機器學習的方法雖然取得了良好的效果,但過于依賴訓練集,需要耗費大量的人力和時間進行語料標注,成本較高,效率低下,又容易忽視句子的上下文聯系和語義關聯,計算復雜度大,泛化能力不強[3]。為了解決手工特征提取這一問題,學者們提出了深度學習算法。
近年來,越來越多的研究者傾向于采用深度學習(Deep Learning, DL)算法來研究情感分類問題。李慧[4]采用統計學方法抽取屬性特征詞,結合互信息和信息熵等方法提高了分詞的準確性;李洋等[5]為避免忽略詞的上下文含義,提出將CNN和BiLSTM進行特征融合,提高了特征提取能力;孫玉霞[6]為解決主流模型訓練時間長且無法充分提取文本特征的問題,提出了在BiGRU層提取特征的基礎上,通過添加注意力(Attention)機制來提取更重要的特征,提高了特征提取的能力,證明了該模型的有效性。2011年,Hinton等[7]提出膠囊是一小群神經元,神經元的活動用于表示一個實體的各種屬性;Sabour等[8]率先將這一概念應用到神經網絡中,采用一種新的動態路由算法來選擇主動膠囊,CapsNet的實驗表明,在圖像分類領域,膠囊的魯棒性明顯優于CNN;Zhao等[9]首次在情感分類任務中采用膠囊網絡進行研究,連續兩個卷積層采用動態路由替代池化操作,減少了CNN在池化層上特征信息丟失的概率,分類精度更高??傊?,膠囊網絡在情感分類任務中的應用,改善了CNN和RNN提取特征的局限性,提高了特征提取的準確率。E8783FAC-404F-4C25-BD25-730475807DD4
為了解決CNN最大池化特征信息丟失以及RNN無法全面提取特征的問題,本文提出一種基于BiGRU和膠囊網絡的神經網絡模型。首先使用兩個不同尺寸的BiGRU作為特征提取器,實現文本長距離相互依賴的特性,其次膠囊網絡作為頂層分類器獲取更豐富的特征信息,同時對向量特征進行情感預測,最后通過非線性壓縮函數對特征向量的長度進行壓縮,以表示實體的分類概率。
1? 網絡模型設計
BGCapNet網絡模型經過基本的預處理步驟后,由3個模塊組成:基于Word2Vec的詞嵌入層、基于BiGRU的特征提取層、膠囊網絡層,網絡模型整體結構如圖1所示。下面將對各模塊進行詳細闡述。
1.1? 詞嵌入層
利用預先訓練好的Word2Vec[3]方法將每個單詞表示為多維分布向量,將含有單詞的句子輸入到嵌入層中,將每個單詞轉換為多維單詞向量,最終得到矩陣M=[x1,x2 ,…,xi,…,xL]∈RL×d,其中xi=[wi1,wi2,…,wij,…,wid],對應句子中的單詞向量。每個句子都可作為單詞的序列,通過詞嵌入層的映射,既保留了句子的語序,又可將句子表示為矩陣形式,最終得到向量表示。
1.2? BiGRU特征提取層
循環神經網絡(RNN)是一種能夠獲取方向上時間信息的網絡。與基礎神經網絡相比,它在同一層的神經元之間也建立了權連接,能夠傳輸當前時間的信息。GRU是一種特殊的RNN結構,相較于LSTM結構,GRU結構簡單,參數少,更容易進行訓練,在需要少量樣本的情況下,研究者更傾向于使用GRU。GRU單元結構如圖2所示。
GRU有兩個門,分別是重置門和更新門,它們能夠捕捉時間序列中的長短期依賴關系。在圖2中,ht和ht-1分別表示當前狀態和前一時刻狀態的輸出,xt表示當前時刻的輸入,[ht-1,xt]表示ht-1與ht進行拼接,重置門rt和更新門zt是分別通過點乘Wr & [ht-1,xt]和Wz & [ht-1,xt]得到的,σ和tanh分別為sigmoid層和tanh層。通過rt和zt,我們能夠計算出t時刻的狀態輸出ht。計算公式為:
BiGRU是一個基于窗口的特征提取器,比BiLSTM更簡單,訓練速度更快。本文采用BiGRU層進行特征提取,由兩個方向相反的GRU單元構成。BiGRU在t時刻的隱層狀態是通過t-1時刻的正向隱層狀態輸和反向隱層狀態輸加權求和得到的,計算公式為:
1.3? 膠囊網絡層
膠囊網絡使用膠囊作為網絡的基本單元,膠囊能夠表示部分實體的屬性,能夠使用特征向量而不是標量來表示可視實體,在語義表達方面有較大的發展空間。本文所提出的膠囊網絡的輸入和輸出都是向量,不僅可以在BiGRU層提取到大量豐富的特征信息,而且能對語義、方位等信息進行編碼,大大提升了獲取深層特征信息的能力。
在膠囊網絡中,最外層是主膠囊層,用膠囊輸出向量取代BiGRU層的標量輸出,保留了單詞的局部順序和語義表示;接下來進入連接層,采用路由協議生成下一層膠囊,這一過程代替了池化操作,減少了重要信息(如位置、語義等)的丟失;在整個過程中通過動態路由算法來自動更新耦合系數c的權值,通過計算特征向量的模長得出不同的分類概率,從而進行文本情感分類。如圖3所示,u是上一層膠囊的輸入向量,c稱為耦合系數,是通過動態路由更新迭代得到的,u和c進行線性組合就得到向量s,s為膠囊j的輸入,計算公式為:
為了使特征向量的模長能夠表示實體的分類概率,使用非線性壓縮函數將特征向量長度限制在0~1之間。在公式(11)中,若s非常大趨于1,vj趨于1,反之vj趨于0。
2? 實驗結果與分析
本文選取的數據集為已整理并標注好的IMDB和SST-2電影評論語料,對其進行數據劃分,數據集分布情況如表1所示。在提出的模型上進行實驗,并與其他算法模型進行實驗結果對比,證明該模型的有效性和適用性。
2.1? 實驗環境及參數設置
本實驗在Windows10系統上進行,以pycharm作為開發環境,編程語言為Python3.8,深度學習框架為keras和Tensorflow,處理器為Intel(R) Core(TM)i5-6200U CPU @ 2.40 GHz,運行內存為4 G。實驗過程中,Word2Vec預訓練模型將每一個單詞映射為300維的向量,BiGRU1和BiGRU2的尺寸分別為256和200,dropout的值設為0.2,學習率為0.001,批次大小設為100。
2.2? 評價指標
為了更好地評估BGCapNet網絡模型在文本情感分類任務中的性能,本文使用準確率、F1值作為本次實驗的評價指標,具體公式為:
2.3? 實驗結果分析
本文選取準確率和F1值作為評價指標,對比實驗選擇了目前情感分析任務中常用的幾種深度學習網絡模型,不同分類模型在數據集上的實驗結果如表2所示。從表2中可以看出,相較于其他傳統深度學習模型,本文提出的模型取得了較明顯的效果,CNN-rand模型在兩種數據集上的準確率和F1值的分類效果欠佳,這是因為在訓練過程中沒有考慮到詞與詞之間的順序問題和上下文聯系,Capsule模型相較于CNN有較高的分類效果,表示比起CNN,Capsule具有更好的特征提取能力。
通過數據結果對比可以得出,在IMDB數據集上進行情感分類時,相較于CNN-static、BiLSTM、Capsule等傳統的深度神經網絡,本文提出的模型具有較好的分類效果,準確率和F1值分別達到82.5%和87.3%,與其他模型最高準確率相比分別提高了0.2%和1.2%;在SST-2數據集上進行情感分類時,CNN-multichannel模型的分類效果最高,這是因為它將static與non-static聯合作為兩通道的詞向量,提取到了更深層次的特征信息。除此之外,本文提出模型的分類效果分別達到87.6%和90.0%,相較于其他六種網絡模型,準確率和F1值均有不同程度的提高。因此,本文提出的基于BiGRU和膠囊網絡的模型在解決文本情感分類問題上,較之傳統深度學習算法性能得到了提升。由此可見,本文提出的模型是有效的。E8783FAC-404F-4C25-BD25-730475807DD4
3? 結? 論
本文提出一種基于BiGRU和膠囊網絡、用于文本情感分類任務的模型,該模型不僅能提取到大量豐富的特征信息,而且能對語義、方位等信息進行編碼,從而提高了獲取深層特征的能力。通過與目前情感分析中常用的幾種深度學習網絡模型對比得出,本文提出的模型在準確率和F1值上有了明顯的提升,證明了模型在情感分類任務中的適用性。盡管該模型在情感分類任務中有較好的分類效果,但由于膠囊網絡結構復雜、參數較多、計算量大,故容易造成模型訓練的時間較長。因此在以后的研究中,加強對模型的訓練,優化參數,減少計算量,力求在取得較好分類效果的同時縮短訓練時間;也可以將該模型應用于其他情感分析任務中,以驗證模型在不同領域的性能,并對模型加以改進,以取得更好的效果。
參考文獻:
[1] 洪巍,李敏.文本情感分析方法研究綜述 [J].計算機工程與科學,2019,41(4):180-187.
[2] 李然,林政,林海倫,等.文本情緒分析綜述 [J].計算機研究與發展,2018,55(1):30-52.
[3] 彭曉彬.基于word2vec的文本情感分析方法研究 [J].網絡安全技術與應用,2016(7):58-59.
[4] 李慧,柴亞青.基于卷積神經網絡的細粒度情感分析方法 [J].現代圖書情報技術,2019,3(1):95-103.
[5] 李洋,董紅斌.基于CNN和BiLSTM網絡特征融合的文本情感分析 [J].計算機應用,2018,38(11):3075-3080.
[6] 孫玉霞.基于BiGRU-Attention模型的文本情感分析研究 [D].阜新:遼寧工程技術大學,2019.
[7] HINTON G E,KRIZHEVSKY A,WANG S D. Transforming Auto-Encoders [C]// Artificial Neural Networks and Machine Learning - ICANN 2011. Espoo:Proceedings,2011:14-17.
[8] MALLIS G I,SCHMIDT D H,LINDENBAUM J. Superior bioavailability of digoxin solution in capsules[J]. Clinical Pharmacology & Therapeutics,1975,18(6):761-768.
[9] ZHAO W,YE J,YANG M,et al. Investigating Capsule Networks with Dynamic Routing for Text Classification [C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels,Association for Computational Linguistics,2018:3110-3119.
作者簡介:張甜(1997—),女,漢族,山東菏澤人,碩士研究生在讀,主要研究方向:自然語言處理、文本情感分析;陳輝(1973—),男,漢族,安徽廬江人,副教授,碩士生導師,博士,主要研究方向:無線傳感器網絡、機器學習、物聯網技術及應用。E8783FAC-404F-4C25-BD25-730475807DD4