一種基于混合詞向量的膠囊網絡文本分類方法

2020-01-08 01:37:04王弘中劉漳輝

小型微型計算機系統 2020年1期

王弘中，劉漳輝,2,3，郭昆,2,3

1(福州大學數學與計算機科學學院，福州 350116)2(福建省網絡計算與智能信息處理重點實驗室，福州 350116)3(空間數據挖掘與信息共享教育部重點實驗室，福州 350116)

1 引言

文本分類是自然語言處理中一項基本任務，在信息檢索、搜索引擎、問答系統、主題分類與情感分析等領域發揮著十分重要的作用.

近年來，利用深度學習來建立語言模型的研究思路逐漸走向成熟，大大提升了文本的特征質量.2003年，Bengio[1]等人總結出了一套用神經網絡建立統計語言模型的框架，首次提出了詞向量的概念，隨后不斷有學者對該理論進一步實現：Mikolov[2]提出的 word2vec詞向量模型，是一種構建上下文與目標詞之間關系的神經網絡語言模型，根據訓練方式的不同，word2vec又分為 CBOW 和Skip-gram兩種模型，其中，CBOW 模型通過將一個詞所在的上下文中的詞作為輸入，而該詞本身作為輸出的方式訓練神經網絡； Skip-gram則相反，以一個詞作為輸入，該詞的上下文詞作為輸出來訓練神經網絡.通過在大規模語料上訓練模型，得到了每個詞到網絡隱含層的每個維度的權重，也就是每個詞的向量；Pennington[3]等人分析了 Skip-gram 模型能夠挖掘出詞與詞之間線性關系的背后成因，然后通過在共現矩陣上構造相似的條件，得到基于全局信息的 GloVe 詞向量模型.除此之外，Facebook公司提出的Fasttext詞向量[4]當下也被廣泛使用在自然語言處理的眾多領域.這些詞向量模型得到的向量不僅維度低，而且相似語義的詞之間的相對距離較小，即詞的語義分布在向量的各個維度上適合機器理解計算，因此使得詞向量被廣泛地應用在各種基于深度學習模型的文本任務中.

在詞向量作為深度學習輸入的基礎上，傳統的向量空間模型表示的文本向量存在稀疏性和高維度的缺點，同時還忽略了詞與詞之間的語義關系難以去衡量兩個向量的語義相關度.如何將神經網絡結構與文本的詞向量進行結合，構建深度神經網絡模型，從文本中挖掘更多的語義信息，提升模型的學習能力，成為當前深度學習在文本分類乃至自然語言處理中一項重要挑戰.

本文提出了一種混合詞向量的方法，首先，將兩種差異性大的詞向量進行向量拼接，對于缺失詞部分通過利用Fasttext詞向量模型有對子詞進行訓練的特點去計算缺失詞與Fasttext子詞詞典詞匯的相似度，將具有最大相似度的詞典詞匯作為缺失詞的近義詞，對缺失詞進行替換，并且為了防止Fasttext模型對于缺失詞計算時出現“過匹配”的現象，通過引入外部詞典對于字節小于8的缺失詞使用詞形還原的策略來降低其“過匹配”現象的出現，并且采用實驗自適應調整相似度閾值的策略篩除相似度過低的缺失詞，防止給詞向量帶來過多噪聲數據從而得到少噪聲高信息量的混合詞向量.并且設計了一種融合膠囊網絡與循環神經網絡的混合神經網絡模型，利用膠囊網絡獲得局部特征與整體之間的關聯特征信息，并利用循環神經網絡GRU經過最大池化層在提取上下文顯著特征信息的同時加快收斂防止梯度消失現象的出現，最終將兩者特征進行拼接融合得到含有豐富文本信息的高階特征從而更好地完成文本分類任務.

本文主要貢獻如下：

1)設計了一種基于膠囊網絡和循環神經網絡的混合深度網絡模型，利用膠囊網絡學習文本局部和整體的關聯信息，以及利用循環神經網絡經過最大池化層去提取顯著的上下文信息，融合兩個神經模型的優點從而更好地提高文本分類效果.

2)在嵌入層中提出一種混合詞向量的方法.對于兩種差異性大的詞向量進行拼接，利用Fasttext詞向量模型單詞訓練的特點對于缺失詞部分進行補全，并且針對缺詞補全過程中可能出現的“過匹配”和“帶入過多噪聲詞向量”的問題，采取兩種策略進行解決從而獲得高信息量低噪聲的混合詞向量.

2 相關工作

2.1 基于經典深度神經網絡的文本分類

近年來，在基于深度學習的文本分類任務中，最為常用的兩種深度神經網絡為卷積神經網絡(Convolutional NeuralNetwork， CNN)與循環神經網絡(Recurrent Neural Network，RNN).卷積神經網絡的應用方面， Kim[5]等人較早將卷積神經網絡用于句子分類，提出了一種經典的網絡模型結構，模型以文本的詞向量矩陣作為輸入，在卷積層中，通過多個不同尺度的卷積核在詞向量矩陣上的滑動，計算出輸入文本的特征圖，然后對這些特征圖進行池化操作提取主要特征.最后，在全連接層中，利用池化得到的特征及softmax 分類器，計算出輸入文本在各類別上的概率.Wang[6]等人提出了一種改進雙通道CNN模型利用卷積神經網絡雙通道來獲取更多特征信息從而提高文本分類的準確度.

對于循環神經網絡，目前多采用如長短期記憶網絡以及門控神經網絡[7]等優化的循環神經網絡模型用來解決標準的循環神經網絡存在梯度消失及梯度爆炸等問題.在網絡中，文本中的詞按照其在文中的順序，被處理為一個有序序列，網絡中前一個輸入的詞信息會被傳遞到下一個輸入詞的計算中，循環層輸出經過全連接層后計算文本屬于各類別的概率.Tang[8]等人提出一種層次神經網絡用于長文本分類，將文檔按照詞，句，文檔三個層次依次建模，每個層次通過門控循環單元編碼； Zhang[9]等人提出一種結合長短期記憶網絡和卷積神經網絡的模型，該模型先將文本輸入至長短期記憶網絡初步提取語義特征，然后將長短期記憶網絡的輸出作為卷積層的輸入，進一步提取出高階特征，從而提高文本分類效果.

2.2 基于膠囊網絡的文本分類

由于CNN是通過不同的卷積窗口將底層的特征進行加權求和來表示上層的特征信息，而這樣抽取出來的高階特征雖然考慮到了主要特征的影響，卻缺少了對于局部特征之間的層次關系，丟失了信息當中大量的空間關聯特征信息，從而導致對象被錯誤分類.

在CNN網絡中，神經元是獨立運行調整的，彼此之間并不存在著相互的聯系，Sabour等人[10]提出了基于動態路由的膠囊網絡模型，將子層膠囊層的輸出向量通過轉換矩陣轉換來預測父層膠囊向量，并且提出了動態路由算法的概念，其本質上是一種聚類算法摒棄了反向傳播，取而代之的是通過多次的路由迭代調整權重，最后通過使用壓縮函數得到最終的父層膠囊向量表征.因為父層膠囊向量是由子層膠囊向量通過迭代路由調整權重通過壓縮函數計算得來，由多個神經元一同決定與整體之間的關系，使得膠囊網絡能夠學習得到文本局部和整體之間的關聯信息.

因為膠囊網絡擁有學習局部與整體空間位置關系信息的能力，使其在圖像處理方面得到了廣泛地應用，然而在于自然語言方面目前來說算是一個比較新的領域，可以應用在文本分類領域之中用來提取文本段落與全文之間關聯特征信息，本文采用膠囊網絡作為混合模型的一部分用于提取局部與整體之間的關系作為整體高階特征組成的一部分，從而獲得信息更加豐富的高階特征來更好地預測地對文本進行分類.

3 基于混合膠囊網絡模型的文本分類

3.1 基本思路

本文設計了一種新型的混合膠囊網絡模型并在嵌入層中提出了一種詞向量混合方法來提高詞向量質量.首先在嵌入層中將輸入的文本通過詞向量映射成為分布式向量表示形式，并且在其中采用兩種不同的詞向量進行映射，然后將映射完的詞向量進行混合拼接，對于其中出現的缺失詞部分利用Fasttext模型有對子詞進行訓練的特性根據向量間余弦相似度進行缺失詞補全，在其中采用兩種策略來防止“過匹配”現象的產生以及過濾噪聲缺失詞從而獲得高信息量低噪聲的混合詞向量.然后將混合后的詞向量輸入GRU循環神經網絡層之中用于抽取文本特征信息，通過最大池化層將GRU層所獲得的特征向量抽取最為顯著的上下文特征作為高階特征的一部分.與此同時，將GRU層所獲得的特征向量作為低階膠囊投入膠囊層之中，根據膠囊網絡的特性去學習獲得文本局部與整體之間的關聯特征信息即高階膠囊特征向量，最后將通過最大池化層所獲得的顯著高階上下文特征與高階膠囊特征信息進行拼接獲得文本整體高階特征，將輸出經過全連接后計算得到最終的文本分類結果，該基于混合詞向量的膠囊網絡模型簡稱為CGMM(Capsule GRU Maxpool Mixed)模型，如圖1所示.

圖1 基于混合詞向量的膠囊網絡模型Fig.1 CGMM model

3.2 嵌入層

在嵌入層中提出一種混合詞向量方法，將兩種詞向量進行混合并且采用兩種策略來減少噪聲詞向量的產生從而獲得語義豐富且少噪聲的高質量詞向量.CGMM模型采用Glove詞向量[3]同Fasttext詞向量[4]進行詞向量拼接，來增強詞向量的健壯性并且在拼接的過程之中利用Fasttext模型對缺失詞進行處理，通過計算詞典中詞匯與缺失詞的相似度，找到字典之中同缺失詞相似度最大的詞即缺失詞的近義詞進行替換，在Fasttext缺失詞補全方法中采用兩種策略來減少噪聲詞向量從而將缺失的語義進行補充，豐富了詞向量的語義信息，更好地去理解文本語義，從而獲得高信息量的混合詞向量用來提升文本分類效果.

3.2.1 Fasttext計算缺失詞相似度

Fasttext詞向量模型對于每個單詞通過使用不同的向量來進行表示，由于其詞向量預訓練過程中使用到skipgram模型將單詞進行拆分，忽略了單詞的內部結構使得每個詞可以由多種不同的分詞組合而成.Bojanowski[4]等人在論文中提出了一個不同的評分函數，如公式(1)所示，以便考慮到子詞信息考慮在內，每個單詞w都是由多個n字節片段序列所組成的詞袋，在單詞的開頭和結尾添加了特殊的邊界符號，以便將前綴和后綴與其他字符序列區分開來并且學習前后綴中的單詞信息.

假設有一本n字節片段字典，其分詞總數量為g，給定一個詞w，用Gw?{1，…g}來代表在詞w中出現的n字節片段序列的集合.對于每一個n字節片段序列獲得其的向量表示，記為Zp，最后將單詞w的所有的n字節片段序列Zp進行相加求和最后進行求平均得到單詞w的詞向量表示，見公式(2).

(1)

(2)

根據公式(2)可得知Fasttext詞向量的每個單詞表示中含有子詞、前綴以及后綴的信息.由于Fasttext獨特的詞向量表示方法，一個單詞由它在單詞字典中的索引和它所包含的一組的n字節片段序列子詞表示，其中也包括了前后綴以及單詞子詞的信息，使得其可以根據單詞子詞信息通過余弦相似度計算得到與缺失詞之間相對可靠的表示，這便是CGMM模型利用Fasttext詞向量模型進行缺失詞補全的理論依據.

3.2.2 過匹配現象以及簡單詞糾錯策略

根據Fasttext詞向量中包含的子詞信息對于缺失詞進行相似度計算，能夠為缺失詞找到詞典中詞形相近的單詞并且在一定程度上有拼寫糾錯的能力，但是在實驗當中發現其糾錯能力是有限的.由于使用到的Fasttext詞向量模型[4]是在維基百科數據集中訓練出來的300維的詞向量，子詞信息結構豐富，對于字節長的單詞由于詞向量其中包含著前后綴信息可以較為準確地找到近義詞，然而由于子詞信息過于豐富會造成對于一些簡單詞匯的拼寫錯誤出現“過匹配”問題，如圖2所示.

圖2 Fasttext相似度過匹配問題
Fig.2 Fasttext similarity overmatch problem

由圖2可以看出，因為簡單詞的字節數較短難以通過分詞去學習其中的有用信息，對于一些簡單詞的拼寫錯誤Fasttext模型的糾錯能力有限，容易過匹配成為一些詞形類似的分詞，如果將這些分詞進行表示為詞向量形式則容易帶入噪聲數據，這顯然會對模型分類預測產生影響，所以CGMM模型對于簡單詞匯首先采用單詞糾錯的策略對于詞匯進行處理，然后再使用Fasttext模型進行相似度預測能夠在一定程度上減少過匹配現象的產生.

arg maxc∈candidatesp(c|w)

(3)

(4)

arg maxc∈candidatesP(c)

(5)

其中P(w)表示外部字典中單詞總數，P(c)表示經過簡單詞形還原的詞匯在外部詞典中該詞匯出現的概率，P(w|c)表示在詞典中該單詞正確的概率，由于沒辦法合理評估P(w|c)大小，所以實驗默認值設置為1，又因為是在同一本字典中進行查詢所以P(w)相同，因此可以得到公式(5)的結論即選擇在外部詞典中出現率最高的的單詞作為詞形還原的單詞將不完整的簡單詞匯進行替換.

3.2.3 基于缺詞補全的混合詞向量方法

基于缺詞補全的混合詞向量方法步驟：

步驟1.是否遍歷完所有唯一單詞？是則進入步驟6，否則進入步驟2；

步驟2.該單詞是否存在于Fasttext詞向量中，是則將詞向量前300維填入Fasttext詞向量然后進入步驟3，否則，進入步驟2.1；

步驟2.1.判斷是否該單詞字節大于8個字節，如果大于8字節則進入步驟2.2.如果不大于則使用單詞還原策略，并把詞的字節數設置為9防止重復進入單詞還原決策，將經過單詞還原之后的詞進入步驟2.

步驟2.2.根據公式(2)Fasttext子詞訓練特性計算得到與其相似度較高的詞，通過實驗去噪優化閾值，提取其中相似度最大詞作為近義詞替換缺失詞，將詞向量前300維補入Fasttext詞向量然后進入步驟3，如果單詞相似度低于優化閾值則進入步驟2.3.

步驟2.3.將詞向量600維全部補零返回步驟1.

步驟3.單詞是否存在于Glove詞向量中，是則進入步驟4，否則進入步驟3.1；

步驟3.1.詞向量后300維補零，進入步驟5；

步驟4.詞向量后300維補Glove詞向量，進入步驟5；

步驟5.返回步驟1；

步驟6.詞向量混合部分完成輸出經過缺詞補全的混合詞向量.

混合詞向量生成流程圖如圖3所示.

圖3 混合詞向量生成流程圖Fig.3 Mixed word vector generation flow chart

綜上所述，Fasttext模型是根據子詞訓練得到的，其中子詞豐富，因此對簡單拼寫錯誤詞容易出現過度匹配成子詞從而帶來噪聲，故采用簡單詞糾錯策略對于簡單詞先進行還原，來減少“過匹配”現象的出現；并且采取實驗的方式自適應調整優化閾值的策略，將Fasttext模型計算得到缺失詞的最大相似度值進行提取，引入閾值對相似度低于閾值的缺失詞進行過濾從而最終獲得高質量低噪聲的詞向量表示.

3.3 GRU層

RNN模型在許多的自然語言任務中表現出了很強的學習能力，它能夠對序列數據進行很好建模，充分利用到序列前后的信息，然而傳統的RNN模型在處理長期依賴的問題上在訓練過程中會面臨梯度爆炸或者梯度消失的現象，因此許多的優化結構被提出，而LSTM(長短期記憶網絡)和GRU門限模型被作為其中兩個經典的改進模型被廣泛使用，它們的優勢在于在訓練的過程之中，可以對之前的信息通過設置一些門限來決定接受或是遺忘多少信息，并且向后傳遞信息.

zt=σ(Wzxt+Uzht-1)

(6)

rt=σ(Wrxt+Urht-1)

(7)

hc=tanh(Wxt+rtUht-1)

(8)

ht=(1-zt)·ht-1+zt·hc

(9)

圖4 GRU模型Fig.4 GRU model

3.4 膠囊網絡層

膠囊網絡當中的膠囊向量是一組神經元，而不是單獨的神經元節點.膠囊層輸入輸出向量表示為特定實體類別的屬性，使用動態路由算法在訓練過程之中通過不斷迭代來調整子層膠囊向量與父層膠囊向量的關系強度即權重cij，子層膠囊向量根據多次迭代調整后的權重通過壓縮函數共同來決定某父層膠囊向量表示，最后將通過動態路由得到的所有父層膠囊向量進行拼接來得到最終的高階膠囊向量表示.

(10)

(11)

(12)

(13)

(14)

bij=bij+aij

(15)

將由GRU層所提取得到的特征作為子階膠囊向量輸入到膠囊網絡層中進行處理.假設有ns個父層膠囊向量，首先，每一個父層膠囊向量通過上述的動態路由過程來增加或者減少與低階膠囊向量之間的連接強度，然后將修正之后的耦合系數通過公式(13)計算得到父層膠囊向量vj，最后將所有父層膠囊向量進行拼接從而得到最終高階膠囊向量表示vc=.因為膠囊網絡是由子層膠囊向量通過動態路由去預測父階膠囊向量并且共同決定最后拼接組成的高階膠囊向量特征，所以使得膠囊網絡能夠學習得到文本之間的局部與整體之間的關聯信息，克服了卷積神經網絡抓取局部特征卻不考慮整體信息的缺點，從而能夠更好地提取文本空間特征信息.

(16)

最后將總體高階向量特征vf輸入全連接層，二分類問題使用sigmoid函數，多分類問題使用softmax函數作為激活函數進行歸一化處理，最終計算出最后的文本分類結果.

4 實驗

分別通過在4個常規文本分類數據集中對提出的CGMM模型進行評估，使用準確度作為各模型的評價指標，指在通過二分類以及多分類數據集當中進行實驗，來驗證該模型和方法的有效性.

4.1 數據集

IMDB(Maas et al.,2011)[11]是爛番茄影評的數據集，一共有50000條數據，標簽設置共有兩類，正面情感和負面情感，其中訓練集和測試集都為25000條.

MR(2005)(Pang and Lee,2005)[12]是一個電影評論二分類數據集，其中包括5331條積極評論，5331條消極評論.

Subj(Pang and Lee,2004)[13]，主觀性二分類評論數據集.

AG′s(Conneau et al.,2017)[14]新聞種類分類數據集，其中有127600條數據，一共將新聞文本數據分成World、Sport、Business以及Science四類.

表1 各數據集詳細情況表Table 1 Details of each dataset

這些數據集包含情感分類、觀點分類以及新聞分類等經典的文本分類數據集，覆蓋了文本二分類以及文本多分類方面的自然語言處理任務.主要數據集主要細節見表1.

4.2 評價指標

模型實驗采用準確率作為度量標準，見公式(17).

(17)

其中predict_correct表示模型預測正確的文本數量，test_correct表示模型預測的文本總數.

4.3 實驗設置

表2中的gru_len表示GRU層的隱藏層節點數量，Routing膠囊網絡路由迭代次數，Num_capsule膠囊個數，Dim_capsule膠囊維度.

CGMM模型是在Keras平臺上進行實驗，在預訓練詞向量方面，使用從各網站爬取語料庫中進行預訓練得到的包含220萬詞匯的Glove詞向量[3]，以及維基百科中預訓練得到的300維Fasttext詞向量[4]通過提出的混合詞向量方法得到高質量的600維詞嵌入表示.采用Adam優化方法，學習率設置為0.01，輟學率設置為0.25，batch_size為100，以真實類別與預測類別的交叉熵作為損失函數，以最小化損失函數來訓練整個模型，其余模型超參設置見表2.

表2 膠囊網絡中的超參數設置Table 2 Hyperparameter settings in the capsule network

將CGMM模型同14個文本分類目前為止相對先進的模型及它們在4個數據集上表現最優的方法進行比較，采用準確率作為評價指標，來驗證CGMM模型的有效性.

CNN-rand/CNN-static/CNN-non-static(Kim,2014)來自Kim[15]等人提出采用卷積神經網絡進行語義分類，包含論文中涉及的三種改進算法,DSCNN(2015)為Zhang[16]等人提出的一種結合了CNN和LSTM的混合模型，CL-CNN(2015)Zhang[17]等人提出的基于字符嵌入的卷積神經網絡模型，VDCNN(2017)為Conneau[18]等人提出的一種深層卷積網絡模型，LSTM/bi-LSTM(2014)是由Cho[19]等人提出的長短期記憶神經網絡，Tree-LSTM(2015)為Tai[20]等人提出的樹形長短期記憶網絡模型，LR-LSTM(2016)為Qian[21]等人提出的通過知識回歸進行正則化處理的模型，capsule-A/capsule-B(2018)為Zhao[22]等人提出的結合卷積神經網絡與膠囊網絡的兩種混合膠囊網絡模型，dynamic/static-routing(2018)為Kim[23]等人提出的膠囊網絡基于動態路由和靜態路由的兩種膠囊網絡模型.

5 實驗結果與分析

5.1 模型準確度實驗

表3以準確度作為評價指標，其中CGMM-A模型是指不使用詞向量混合方法的CGMM模型，將兩種模型與14種不同的對比模型在各數據集上最優的方法進行比較，其中最佳實驗結果用粗體標出.從表3中可以看出CGMM模型在4個常規文本分類數據集中與對比算法相比表現出很好的準確度，尤其在IMDB數據集中比最優模型提升了2.14%，AG′s數據集中提升了0.93%.

表3 不同模型在各數據集上的準確度結果對比表Table 3 Comparison of accuracy results of different models on each dataset

由此證明提出的CGMM模型在文本分類任務上的能有效地提高文本分類的準確度，并且同傳統的循環神經網絡和2018年提出的4個膠囊網絡模型相對比，CGMM模型在4個數據集上均有一定的提高，這說明了該混合模型在一定程度上可以更好地彌補單一神經模型所缺失的學習能力.

5.2 混合詞向量方法的有效性實驗

表4表示基于Fasttext詞向量在4個文本分類數據集中缺失詞的個數統計，各個數據集中經過詞去重之后單詞總數稱為唯一詞總數，缺失率是指缺失詞在唯一詞總數中的占比.

表4 各個數據集缺失詞數量表Table 4 Number of missing words in each dataset

在4個數據集中，使用CGMM-A模型在5種情況之下進行實驗，實驗結果是通過5次5折檢驗取平均計算得出，通過比較在5種處理情況下的實驗結果，從而驗證缺失詞補全方法的有效性.表5中Glove_300d_840表示僅使用Glove詞向量作為詞向量映射的情況，Wiki_fasttext表示僅使用Fasttext詞向量作為詞向量映射的情況，Wooovmix表示將Glove詞向量同Fasttext詞向量進行混合,Mix_norestore在混合詞向量過程中采用缺失詞補全方法中沒有對于簡單詞進行還原的情況，Mix表示在混合詞向量過程中采用缺失詞補全方法使用優化策略的情況，最佳實驗結果用粗體標出.

表5 詞向量在5種處理情況下準確度對比表Table 5 Comparison of accuracy results of the word vector in 5 cases

對于表5進行分析可以得出，在IMDB數據集中經過缺失詞補全方法后的詞向量相較于其他情況中的最好結果提升了0.27%；在MR數據集中，盡管Fasttext詞向量在該數據集中表現不佳，然而混合之后的詞向量相較于Fasttext詞向量提升了1.8%，與僅用Glove詞向量的結果相近，可以看出混合詞向量不因單個詞向量訓練效果不佳從而帶來不好的效果，體現了混合詞向量的健壯性；在Subj數據集中經過詞向量混合之后的實驗結果相較于單獨使用一個詞向量提升了0.4%證明了通過詞向量混合使得詞向量擁有更加豐富的語義信息能更好地理解語義，并通過表4可得知Subj數據集中的缺失率僅為1.65%，缺失詞補全方法在該數據集當中進行使用大致提升了0.1%,可以看出在缺失率不大的數據集中使用該補全方法所能帶來的提升有限；在AG′s數據集中，詞向量混合帶來了0.12%的提升，引入缺失詞補全方法再次提升了0.36%，這是由于AG′s數據集的缺失率高達55.8%說明該數據集中缺失詞的數量比較大，缺失詞補全方法對于該數據集的缺失詞向量進行近義詞詞向量補全的數量相對比較多，該方法對于缺失詞進行語義補全豐富了原本語義，所以帶來了相較于其他數據集更多的提升，相較于不使用缺詞補全方法提升了0.48%，證明了基于缺失詞補全的混合詞向量方法的有效性，并且在缺失詞數量比較大的數據集中該方法會提升會更加明顯.

5.3 閾值自適應調整策略的有效性實驗

使用CGMM模型在AG′s數據集中進行文本分類實驗，在其中對于CGMM模型的閾值進行自適應優化，將閾值范圍設置為[0.7-0.9]之間，閾值初始化設為0.7，以0.05作為一個跨度，通過5折交叉驗證對模型進行多次試驗，根據實驗準確度結果反饋來調整閾值，并將實驗準確度最高的閾值作為優化閾值，最佳實驗結果用粗體標出，如表6所示，其中閾值為0表示不采用閾值調整策略，閾值為1表示對于缺失詞全部過濾.

表6 基于閾值優化的噪聲缺失詞過濾對比表Table 6 Noise-missing word filtering based on threshold optimization

由表6可以看出，當閾值設置為0.7時準確度為93.43%其中缺詞填補率為75.20%，而當閾值設為0.8時相較于閾值設置為0.7準確率提升0.1%其中缺詞填補率降低到30.17%，可以看出并不是補充越多的缺失詞向量越好，在數據集中的缺失詞并不是全部都是有必要的，其中可能是因為數據采集時出現的特殊符號也可能是由于分詞處理之后出現的片段字母串，這些缺失詞本身就無意義，如果對于所有的缺失詞進行引入顯然是不合理的.

圖5 基于閾值優化的噪聲缺失詞過濾方法Fig.5 Noise-missing word filtering method based on threshold optimization

引入閾值過大會導致絕大部分的缺失詞的詞向量得不到補充從而無法學習缺失詞中的語義信息，閾值過小會導致部分Fasttext模型也無法很好分辨的缺失詞被引入，給文本分類判別帶來過多的噪聲詞向量從而影響分類效果.通過閾值自適應調整選擇適當閾值的策略將Fasttext模型所預測出的缺失詞最大相似度進行提取，將低于閾值的缺失詞進行剔除采用統一詞向量進行表示，由圖5可知當閾值設置為0.8時文本分類的準確度最高，所以以0.8作為優化閾值進行過濾能達到引入缺失詞近似向量的同時減少噪聲詞向量的效果.通過實驗可得知，采用自適應調整閾值的策略與未使用閾值自適應調整策略相比提升了0.3%的文本分類準確度，與將缺失詞全部過濾的情況相比提升了0.36%，證明了該策略方法能有效地對噪聲詞向量進行過濾，獲得高質量詞向量從而更好地進行文本分類任務.

6 結束語

本文提出了一種基于混合詞向量的膠囊網絡模型應用在文本分類任務之中，并在包含文本二分類以及多分類任務的數據集中對模型進行評估.通過與目前為止相較流行多種模型的最優方法進行對比實驗，表明了提出的混合膠囊網絡模型在考慮到了上下文的語義信息的同時通過膠囊網絡去學習到了局部與整體之間的關系深入理解文本的位置信息，從而更加地豐富了語義信息，優化了特征提取過程之中信息大量丟失的問題，并且提出了一種基于Fasttext詞向量模型缺失詞補全的混合詞向量方法，采用兩種策略防止“過匹配”現象的產生、降低了噪聲詞向量的引入從而得到高質量的單詞表示向量，并通過實驗證明了其的有效性.

在未來的研究工作中，針對上述詞向量混合方法進行改進，本實驗缺失詞的補全過于依賴Fasttext詞向量的訓練質量，在今后的研究中會對于混合方法進行優化改進，并且研究更多關于膠囊網絡的模型，使本文中的混合膠囊網絡模型能夠在文本分類中獲得更好的表現，并且考慮將其應用在不同的場景之中，擴展其應用范圍.