999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于靜態(tài)路由分組膠囊網(wǎng)絡(luò)的文本分類模型

2021-12-29 07:19:28朱海景盛鐘松陳貴強
關(guān)鍵詞:分類文本模型

朱海景, 余 諒, 盛鐘松, 陳貴強, 王 爭

(四川大學(xué)計算機學(xué)院, 成都 610065)

1 引 言

文本分類是自然語言處理中至關(guān)重要的一步,其目的是利用非結(jié)構(gòu)化的文本數(shù)據(jù)來歸納信息[1].早期的文本分類方法是通過人工設(shè)計特征,然后用機器學(xué)習(xí)方法進行分類.但隨著深度學(xué)習(xí)的深入研究,神經(jīng)網(wǎng)絡(luò)等被大量用于文本分類,并且能夠自動獲取文本特征,分類效果更好.

膠囊網(wǎng)絡(luò)是一種新興的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)的特點是能在小數(shù)據(jù)集中提升分類準確率.膠囊網(wǎng)絡(luò)模型是2017年由Sabour等[2]在NIPS上首次提出的神經(jīng)網(wǎng)絡(luò)模型,類似于卷積神經(jīng)網(wǎng)絡(luò),在圖像領(lǐng)域獲得了很好的效果.Ding等[3]采用分組反饋膠囊網(wǎng)絡(luò),利用分組膠囊獲取局部信息并共享權(quán)重矩陣以減少參數(shù),用反饋方式的網(wǎng)絡(luò)模型預(yù)測膠囊來提高應(yīng)對復(fù)雜數(shù)據(jù)環(huán)境的適應(yīng)能力.Zhao等[4]將膠囊網(wǎng)絡(luò)引入到文本分類領(lǐng)域,也取得了不錯的性能.近年來,隨著對膠囊網(wǎng)絡(luò)研究的不斷深入,其改進方法也越來越多,但主要集中在兩個方面:(1) 是提升膠囊質(zhì)量;(2) 是改進路由規(guī)則減少網(wǎng)絡(luò)參數(shù)[5].本文通過對膠囊進行分組,以提取更有價值的文本信息,減少冗余信息,達到提高膠囊質(zhì)量的目的;同時,利用靜態(tài)路由機制[6],去除動態(tài)路由中的耦合系數(shù)[2];采用膠囊壓縮[7]操作,減少了網(wǎng)絡(luò)參數(shù).為此我們提出了CapsNet-GSR文本分類模型.

本文的主要貢獻有三個方面:(1) 將分組膠囊網(wǎng)絡(luò)應(yīng)用到文本分類中,驗證了該方法在文本分類領(lǐng)域的有效性;(2) 采用膠囊壓縮和靜態(tài)路由機制減少網(wǎng)絡(luò)模型的參數(shù);(3) 通過對比實驗,突出本文方法在模型參數(shù)和訓(xùn)練時間上具有明顯優(yōu)勢.

2 相關(guān)研究

文本分類是指用計算機對文本數(shù)據(jù)集(或其他實體)按照一定的分類標準或體系進行自動分類標記的過程[8-9].文本分類始于20世紀50年代,利用的是專家規(guī)則,但該方法需要對相關(guān)領(lǐng)域有深入研究才能寫出合適的規(guī)則,因此發(fā)展受限.80年代出現(xiàn)了專家系統(tǒng),即利用專家掌握的知識構(gòu)造分類系統(tǒng)[10],比如CONSTRUE系統(tǒng)[11].90年代有了支持向量機,便產(chǎn)生了基于機器學(xué)習(xí)的文本分類模型.2010年后隨著深度學(xué)習(xí)的廣泛運用,基于神經(jīng)網(wǎng)絡(luò)的文本分類模型表現(xiàn)突出,并廣泛應(yīng)用于學(xué)術(shù)界和工業(yè)界.

2.1 文本分類模型

從文本分類的發(fā)展來看,文本分類模型可分為傳統(tǒng)的機器學(xué)習(xí)模型和深度學(xué)習(xí)模型.

傳統(tǒng)的機器學(xué)習(xí)模型有樸素貝葉斯(NB)[12]、k-最近鄰(KNN)[13]、決策樹(DT)[14]、支持向量機(SVM)[15]等.與早期基于規(guī)則的方法相比,此類模型在準確性和穩(wěn)定性上更甚一籌,但此類模型仍需進行特征選擇與提取的過程,且容易丟失文本內(nèi)的前后位置關(guān)系或語境,導(dǎo)致單詞語義理解不準確.

深度學(xué)習(xí)模型是基于神經(jīng)網(wǎng)絡(luò)的模型,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)[16-17]、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[18]、長短期記憶網(wǎng)絡(luò)(LSTM)[19]和膠囊網(wǎng)絡(luò)(CapsNet)[4,6-7,20-21]等.與傳統(tǒng)的機器學(xué)習(xí)模型相比,深度學(xué)習(xí)模型不需要人為選擇和提取特征,即可自動獲取有用的語義信息.由此可見,文本分類采用深度神經(jīng)網(wǎng)絡(luò)更智能,而且利用深度神經(jīng)網(wǎng)絡(luò),可以挖掘出更多更深層次的文本數(shù)據(jù)信息,以提高算法的分類準確度、魯棒性和泛化能力.

2.2 基于膠囊網(wǎng)絡(luò)的文本分類方法

膠囊網(wǎng)絡(luò)主要由卷積層、初級膠囊層、數(shù)字膠囊層、全連接層等組成.膠囊層又由許多膠囊組成,其中每個膠囊又包含多個神經(jīng)元.每個神經(jīng)元表示圖像中特定實例的屬性,如姿態(tài)、大小、位置、方向、紋理等.每個膠囊即為一個向量,向量的長度表示實體存在的概率,長度越長,則存在的概率越大.因此膠囊層的膠囊輸入是向量,輸出也是向量.

膠囊網(wǎng)絡(luò)中的膠囊包含豐富的空間位置等信息,相鄰節(jié)點之間具有強相關(guān)性,而且能夠保留原始數(shù)據(jù)中的底層細節(jié)信息,這些特性正好契合了文本數(shù)據(jù)中上下文之間存在的聯(lián)系性和自然順序性,能夠很好地提取單詞的語義信息,有利于文本的正確分類.另一方面,膠囊網(wǎng)絡(luò)的結(jié)構(gòu)較淺,對小數(shù)據(jù)樣本集友好.但膠囊網(wǎng)絡(luò)自2017年被提出動態(tài)路由機制后才得到廣泛關(guān)注,因此將膠囊網(wǎng)絡(luò)運用在文本分類領(lǐng)域的研究并不多.

Zhao等[4]在動態(tài)路由膠囊網(wǎng)絡(luò)的基礎(chǔ)上,提出了一個用于文本分類的膠囊網(wǎng)絡(luò).通過在膠囊層中增加共享矩陣和非共享矩陣,提高了膠囊內(nèi)局部信息的多樣性;通過引入孤立類別、修正連接強度等方法減少噪聲.Zhao等[20]針對多標簽輸出數(shù)據(jù)集,通過引入自適應(yīng)優(yōu)化器、膠囊壓縮和部分路由來提高膠囊網(wǎng)絡(luò)的可靠性可拓展性,提出了可靠可擴展的膠囊網(wǎng)絡(luò)模型.Kim等[6]提出運用一種簡單的靜態(tài)路由方法來降低動態(tài)路由的計算復(fù)雜度.Ren等[21]利用組合編碼膠囊構(gòu)造詞嵌入來減少詞嵌入?yún)?shù),并采用K均值路由算法來提高網(wǎng)絡(luò)模型的穩(wěn)定性和魯棒性.

3 本文模型

本文模型框架如圖1所示.模型由卷積層、分組膠囊層、壓縮膠囊層、文本膠囊層等組成.其中壓縮膠囊層到文本膠囊層之間采用靜態(tài)路由方法進行傳遞.

3.1 卷積層

首先,我們在嵌入文本上采用卷積過濾器進行卷積操作來提取特征.模型的輸入為X∈RL×V的文本句子.其中,L為句子的長度;V為詞嵌入大小(詞向量維度).Xi∈RV為一個輸入句子中第i個詞的詞向量.Wa∈Rk×V為卷積過濾器.其中,k為過濾器的寬度,本文采用3種過濾器Wa以提取不同的特征,其寬度分別為(3,4,5).然后將該過濾器與句子局部區(qū)域Xi:i+k-1∈Rk×V進行卷積以生成一個特征.

mi=f(Wa°Xi:i+k-1+b0)

(1)

其中,“°”表示為對應(yīng)元素乘運算;b0為偏置項;f(·)為ReLU激活函數(shù).利用過濾器以步長為1滑過整個句子文檔后得到所有的mi組成一個特征圖m(m1,…,mL-k+1).因此,當有A個過濾器Wa(a=1,…,A)就可以得到A個特征圖:

M=[m1,m2…,mA]∈R(L-k+1)×A

(2)

圖1 本文模型示意圖Fig.1 Schematic diagram of model

3.2 分組膠囊層

分組膠囊層采用Ding等[3]提出的膠囊分組方法.每個膠囊組包含若干個d維膠囊,而每個膠囊是由特征圖上不同通道相同位置的元素組成,同一通道的不同位置表示不同的膠囊.該膠囊示意圖如圖2所示.我們將膠囊均勻地分為若干個組,具體分組情況將在第4.2節(jié)中討論.

圖2 四維膠囊示意圖

膠囊只有與其相關(guān)的膠囊之間才有利用價值,因此可以利用余弦相似度來衡量一對膠囊之間的相似度.我們希望不同組膠囊間的相似度盡可能小,同一組的相似度盡可能大,并通過最小化分組損失[3]來達到分組的目的,具體實現(xiàn)方法如下.

設(shè){Gt}t=1~T,t表示膠囊組,每組有M個膠囊{vj}j=1~M,各組膠囊Gt的平均值可定義為

(3)

一對膠囊的相似度定義如下.

(4)

其中,(v1-μt)·(v2-μt)表示向量(v1-μt)和向量(v2-μt)的內(nèi)積,然后可以得到所有膠囊類內(nèi)相似度為

(5)

所有膠囊類間相似度為

(6)

其中,μt1表示第t1個膠囊組的平均值,可用式(3)計算得出,μ表示所有膠囊的平均值.最后,分組損失可定義為

LGroup=Sb/Sω

(7)

通過最小化分組損失,確保膠囊能夠被正確地分成若干個組,即將同一組的膠囊拉近,將不同組的膠囊推開.

(8)

(9)

圖3 一個分組膠囊的轉(zhuǎn)化過程Fig.3 The transformation process of a grouped capsule

3.3 壓縮膠囊層

由于膠囊的數(shù)量與輸入文檔的大小成比例的增大,當輸入的文檔或句子較長時,對GPU內(nèi)存有很大的要求.因此在轉(zhuǎn)化膠囊傳遞至壓縮膠囊層時,我們對轉(zhuǎn)化膠囊進行一個壓縮操作,以合并相似膠囊,去除噪聲膠囊.每個壓縮膠囊uq通過使用每組所有轉(zhuǎn)化膠囊vtj的加權(quán)求和來計算[7].

(10)

其中,參數(shù)bjq可通過監(jiān)督學(xué)習(xí)得到,其利用均勻分布U(-0.01,0.01)采樣進行初始化;J為每組轉(zhuǎn)化膠囊數(shù)量;Q為壓縮膠囊數(shù)量;j、q分別為轉(zhuǎn)化膠囊、壓縮膠囊索引.

3.4 文本膠囊層

對于圖像分類領(lǐng)域,低層實體的空間位置等信息對分類結(jié)果有很大的影響,因此動態(tài)路由機制表現(xiàn)出很好的效果.然而在自然語言處理中,文本和情感的表達方式有很大的自由,句子中單詞的前后順序有時對分類結(jié)果影響較小.例如,“This movie is rubbish, I don't like it!”與“I don't like this movie , it is rubbish!”,雖然單詞的位置發(fā)生變化,但其表達的意思是一樣的.因此從這個角度來看,運用靜態(tài)路由機制對分類結(jié)果影響不大,而且能夠降低計算復(fù)雜度,其具體實現(xiàn)方法如式(11)和式(12)所示.

(11)

(12)

其中,sr為文本膠囊層膠囊r的所有輸入向量;Wqr=[R×Q]為由壓縮膠囊層到文本膠囊層的權(quán)重矩陣,可通過學(xué)習(xí)得到;R為文本膠囊的數(shù)量.vr為文本膠囊層中膠囊r的輸出向量,式(12)即采用非線性擠壓函數(shù)[2]得到膠囊r的輸出向量.由此可見,靜態(tài)路由取消了動態(tài)路由中的耦合系數(shù),而是直接由壓縮膠囊經(jīng)權(quán)重矩陣,利用非線性擠壓函數(shù)得到文本膠囊,此過程大幅縮短訓(xùn)練時間,減少了計算開銷.

(13)

4 實驗結(jié)果與分析

4.1 實驗環(huán)境與評價指標

本文在5個文本分類數(shù)據(jù)集上進行了對比實驗,囊括了新聞分類、評論分類、問題分類、觀點分類等文本分類任務(wù),其簡要介紹如表1所示.表中“Tr”為訓(xùn)練集樣本數(shù),“Ts”為測試集樣本數(shù),“Cls”為數(shù)據(jù)集類別數(shù),“Lavg”為句子平均長度.

本實驗均由PyTorch實現(xiàn),在Ubuntu 16.04 LTS操作系統(tǒng)上,Python3.6環(huán)境下,使用NVIDIA GeForce RTX 2070顯卡,CPU為AMD Ryzen5 2600X處理器,運行內(nèi)存16 G.采用預(yù)訓(xùn)練好的300維Word2vec[22]詞向量初始化嵌入向量,批量大小除AG’s news為50外其他均為25. 為了能將膠囊平均地分成若干個組,且兼顧文本數(shù)據(jù)集的最大句子平均長度,我們將輸入文本長度L調(diào)整為387. 使用Adam優(yōu)化器,初始學(xué)習(xí)率為0.001.過濾器Wa的寬度分別為3、4、5,步長為1,填充為0,各128個.過濾器Wb的寬度為3,步長、填充各為1,每個膠囊組有64個.

表1 文本數(shù)據(jù)集簡介

本文采用準確率作為評價指標,準確率越高,模型效果越好.對于模型參數(shù)和模型訓(xùn)練時間,參數(shù)越少,訓(xùn)練時間越少,模型越好越穩(wěn)定.

4.2 膠囊分組實驗

本文將膠囊平均地分為若干組,每個組可以被視為具有相似語義信息的膠囊的集合.我們根據(jù)20 news文本數(shù)據(jù)集的分類準確率的高低來衡量膠囊組分組效果的好壞.如表2所示,我們將膠囊手動地分為D=1、2、4、8、16、32、64組時,對應(yīng)的參數(shù)數(shù)量分別為0.69 M、0.76 M、0.91 M、1.20 M、1.79 M、2.97 M、5.33 M,準確率分別為79.01%、82.58%、84.66%、85.93%、86.85%、87.21%、85.07%,由此可知,隨著分組的增加,參數(shù)數(shù)量也隨之增加,這是因為有更多的權(quán)重在各組中進行共享.通過實驗,在分組D=32時,文本分類準確率達到最高的87.21%,可見膠囊的分組對準確率有很大貢獻.而當分組達到64時,由于參數(shù)的增加,網(wǎng)絡(luò)訓(xùn)練較為困難,且過多的特征信息會導(dǎo)致網(wǎng)絡(luò)過擬合,降低分類準確率(由87.21%降低為85.07%),因此我們將分組數(shù)量選為32組進行訓(xùn)練.

表2 在20 news文本數(shù)據(jù)集上的膠囊分組結(jié)果

4.3 實驗結(jié)果與分析

本文與其他方法在模型參數(shù)數(shù)量,訓(xùn)練時間和準確率上進行了對比實驗,實驗結(jié)果如表3和表4所示.

表3 參數(shù)數(shù)量、訓(xùn)練時間對比結(jié)果

表3為本方法與其他方法在20 news數(shù)據(jù)集上的參數(shù)數(shù)量和訓(xùn)練時間的對比結(jié)果.批量大小均設(shè)置為8,運行時間為訓(xùn)練中每個epoch的運行時間.從表3中可以看出,我們的模型比其他膠囊網(wǎng)絡(luò)模型有著更少的參數(shù)數(shù)量,同時每個epoch所消耗的時間也是最少的,在20 news數(shù)據(jù)集的分類準確率更達到了最高的86.89%. Capsule-A[4]采用了動態(tài)路由策略,與文獻[2]的網(wǎng)絡(luò)結(jié)構(gòu)類似,且采用共享權(quán)重矩陣與非共享權(quán)重矩陣相結(jié)合,增加了網(wǎng)絡(luò)的參數(shù).CapsNet-GSR與Capsule-A相比,參數(shù)明顯減少了很多,因此訓(xùn)練時間也大大縮短.而CapsNet-static-routing[6]雖然采用的是靜態(tài)路由,但與CapsNet-GSR采用“膠囊壓縮+靜態(tài)路由”的組合策略相比,模型參數(shù)仍然更多.文獻[21]中的模型通過組合編碼膠囊構(gòu)造詞嵌入來減少詞嵌入的參數(shù),并采用K均值路由算法代替動態(tài)路由算法,因此在參數(shù)數(shù)量和訓(xùn)練時間上與本文模型相差不大,但在準確率上比本文模型要低2.95%.

表4 模型準確率對比結(jié)果

表4顯示了本方法與其他方法在5個文本數(shù)據(jù)集上的準確率實驗結(jié)果.從表4可知,本文方法在5個數(shù)據(jù)集中有3個獲得了最高的準確率.

CapsNet-GSR與傳統(tǒng)的CNN模型CNN-non-static[16]相比,在5個數(shù)據(jù)集上分別提高了0.33%、0.69%、1.37%、0.56%和0.61%.與傳統(tǒng)的LSTM模型BiLSTM[19]相比,在前3個數(shù)據(jù)集上分別提高了4.43%、2.89%和5.37%.容易發(fā)現(xiàn),本文模型在TREC數(shù)據(jù)集上提高較明顯.究其原有以下兩點:(1) 膠囊網(wǎng)絡(luò)對小樣本數(shù)據(jù)集較為友好;(2) CapsNet-GSR利用膠囊建立起局部-整體對應(yīng)關(guān)系,并在靜態(tài)路由過程中找到哪個局部屬于哪個整體對象,從而保留了文檔和類別的實例化參數(shù),提高了文本的分類準確率.

與膠囊網(wǎng)絡(luò)模型Capsule-B相比,本文模型在AG’s news、TREC、MPQA 和20 news數(shù)據(jù)集上分別有0.03%、2.17%、1.68%、7.18%的提高.實驗表明,CapsNet-GSR利用分組,共享局部轉(zhuǎn)換矩陣,減少了參數(shù),經(jīng)過膠囊的整形轉(zhuǎn)化,局部特征被進一步得到提取與保留;通過膠囊壓縮合并了相似膠囊,剔除噪聲膠囊,提高了膠囊的質(zhì)量;利用靜態(tài)路由,進一步降低參數(shù)數(shù)量,防止過擬合,降低計算復(fù)雜度,提高了分類準確率.

與膠囊網(wǎng)絡(luò)模型CapsNet-static-routing[6]相比,CapsNet-GSR在MR(2005)、TREC和20 news數(shù)據(jù)集上分別提高了1.21%、0.17%和0.47%.由此可見,采用膠囊分組與膠囊壓縮操作對提高分類性能有促進作用.通過利用CapsNet-static-routing和CapsNet-GSR與其他模型比較,可見靜態(tài)路由策略對提高文本分類準確率有較好效果,而且結(jié)合膠囊分組能使膠囊提取的特征更加利于預(yù)測分類.膠囊的壓縮可能會丟失部分細節(jié)信息,但壓縮的僅僅是相似膠囊或噪聲膠囊,對分類結(jié)果影響較小.

5 結(jié) 論

本文基于膠囊網(wǎng)絡(luò)提出了CapsNet-GSR文本分類模型.該模型采用膠囊分組策略提取文本局部信息,提高了膠囊相關(guān)性,減少了模型參數(shù),利于膠囊的預(yù)測分類;再利用膠囊壓縮操作合并相似膠囊,去除噪聲膠囊;最后通過靜態(tài)路由機制降低參數(shù)數(shù)量,減少模型訓(xùn)練時間.實驗證明,CapsNet-GSR在參數(shù)數(shù)量和訓(xùn)練時間上均有大幅降低,在分類準確率上也有相應(yīng)地提升.下一步研究中,我們將考慮在多標簽分類領(lǐng)域中使用該模型來檢驗其分類性能.

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 日韩AV无码免费一二三区| 在线观看91精品国产剧情免费| a级毛片免费播放| 国产成人综合亚洲网址| 91精品最新国内在线播放| 亚洲高清中文字幕| 再看日本中文字幕在线观看| 免费无码在线观看| 国产欧美综合在线观看第七页| 国产乱人激情H在线观看| 秘书高跟黑色丝袜国产91在线| 亚洲一区毛片| 欧美一级专区免费大片| 亚洲丝袜第一页| 成人无码一区二区三区视频在线观看| 精品夜恋影院亚洲欧洲| 理论片一区| www亚洲精品| 国产免费a级片| 四虎永久在线视频| 亚洲天堂网在线观看视频| 国产极品美女在线观看| 中文成人在线视频| 在线免费a视频| 激情综合图区| 国产成人综合欧美精品久久| 亚洲有码在线播放| 亚洲人成网18禁| 18禁不卡免费网站| 精品国产www| 国产理论最新国产精品视频| 国产手机在线小视频免费观看| a免费毛片在线播放| 99性视频| 亚洲AⅤ永久无码精品毛片| 国产精品原创不卡在线| 91年精品国产福利线观看久久| 极品性荡少妇一区二区色欲| 亚洲免费福利视频| 国产本道久久一区二区三区| 国产精品55夜色66夜色| 欧美成人免费午夜全| 亚洲色图欧美激情| 亚洲色无码专线精品观看| 日韩欧美亚洲国产成人综合| 亚洲黄色成人| 欧洲日本亚洲中文字幕| 男女精品视频| 国产精品久线在线观看| 欧美成人精品欧美一级乱黄| 久久亚洲日本不卡一区二区| 国产一区二区色淫影院| 久久婷婷六月| 久久不卡国产精品无码| 色窝窝免费一区二区三区| 国产福利影院在线观看| 国产婬乱a一级毛片多女| 国产一级视频在线观看网站| 亚洲视频无码| 日韩精品无码一级毛片免费| 毛片免费试看| 国产免费a级片| 国产在线观看一区精品| 中文国产成人精品久久| 亚洲人成网站观看在线观看| 国产成人夜色91| 日韩精品免费在线视频| 国产浮力第一页永久地址 | 国产亚洲欧美在线中文bt天堂| 久久99久久无码毛片一区二区| 18禁不卡免费网站| 波多野结衣久久高清免费| 最新国产麻豆aⅴ精品无| 萌白酱国产一区二区| 中文字幕伦视频| 日韩A∨精品日韩精品无码| 四虎国产在线观看| 色悠久久综合| 国产丝袜啪啪| 中文字幕亚洲精品2页| 国产成人区在线观看视频| 九九热这里只有国产精品|