999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

RA-GCN:抑制過平滑現象的文本分類算法

2022-12-31 00:00:00蘇凡軍馬明旭佟國香
計算機應用研究 2022年8期

摘要:現有大多數利用圖神經網絡的算法進行文本分類時,忽略了圖神經網絡的過度平滑問題和由于文本圖拓撲差異引入的誤差,導致文本分類的性能不佳。針對這一問題,提出了衡量多個文本圖表示的平滑度方法WACD以及抑制過平滑現象的正則項RWACD。隨后提出了基于注意力和殘差的網絡結構ARS,用于彌補由于圖拓撲差異引起的文本信息的損失。最后,提出了圖卷積神經網絡文本分類算法RA-GCN。RA-GCN在圖表示學習層使用ARS融合文本表示,在讀出層使用RWACD抑制過平滑現象。在六個中英文數據集上進行實驗,實驗結果證明了RA-GCN的分類性能,并通過多個對比實驗驗證了RWACD和ARS的作用。

關鍵詞:文本分類;圖卷積神經網絡;過平滑;注意力機制

中圖分類號:TP391文獻標志碼:A

文章編號:1001-3695(2022)08-027-2403-06

doi:10.19734/j.issn.1001-3695.2022.02.0037

RA-GCN: text classification algorithm suppressing over-smoothing phenomenon

Su Fanjun, Ma Mingxu, Tong Guoxiang

(School of Optical-Electrical amp; Computer Engineering, University of Shanghai for Science amp; Technology, Shanghai 200093, China)

Abstract:Most existing text classification algorithms based on graph neural network ignore the problem of over-smoothing, and ignore the problem of information loss due to graph topology, resulting in poor classification performance. To solve this problem, this paper proposed a method to measure the smoothness of multiple text graph representations WACD and a regularization term RWACD to suppress over-smoothing. Subsequently, this paper proposed an attention and residual-based network structure ARS to compensate for the loss of textual information due to graph topology differences. Finally, this paper proposed a graph convolutional neural network text classification algorithm RA-GCN. RA-GCN used ARS to fuse text representations in the graph representation learning layer, and used RWACD in the readout layer to suppress over-smoothing. This paper conducted experiments on 6 Chinese and English datasets. The experimental results demonstrate the classification performance of RA-GCN, and the effects of RWACD and ARS are verified through multiple comparative experiments.

Key words:text classification; graph convolutional network; over-smoothing; attention mechanism

0引言

文本分類作為自然語言處理領域的基礎問題,已被應用于許多現實場景,例如垃圾郵件檢測、新聞分類、情感識別等。文本分類模型的性能很大程度上取決于文本表示的質量。基于深度學習的方法避免了人工設計規則和特征,自動學習語義上有意義的表示[1]。基于CNN和RNN的深度學習方法可以很好地捕獲局部連續序列中的語義和句法特征,但對非連續詞和長距離語義信息的提取仍然存在限制[2~4]。

近年來,圖神經網絡緩解了上述現象。Yao等人[5]構建整個語料庫的單張文本—單詞異構圖,使用GCN[6]學習詞共現信息,更新文本、單詞表示,進行文本分類。Wu等人[7]通過去除非線性激活函數和折疊連續層之間的權重矩陣,將GCN簡化為SGC,并且在基于單張語料庫異構圖的數據上取得了不錯的文本分類效果。但是,基于單張異構圖的方法不利于測試新的文本,消耗了大量的內存空間,為此,Huang等人[8]構建每個文本的圖數據,共享全局單詞表示和邊的權值,更好地捕捉局部特征和減少內存消耗。Zhang等人[9]為提高圖方法的歸納學習能力,構建每個文本獨特的圖數據,使用GGNN[10]更新單詞特征,獲取文本表示及類別。但是,上述方法忽略了圖神經網絡的過度平滑問題,本文關注基于每個文本圖表示的圖分類[8,9,11]方向,緩解過度平滑現象,提升文本分類性能。

在GNN發展過程中,Li等人[12]首次引起對過度平滑的關注[13],證明了圖卷積是一種特殊的拉普拉斯平滑,并且得出結論:對節點進行平滑操作是GCN工作的關鍵機制,但是執行多次拉普拉斯平滑后,節點特征會收斂至相似值,這個現象被稱為過度平滑現象,也稱為過平滑,過平滑會導致節點之間無法區分,從而損害網絡性能。Chen等人[14]驗證了平滑是GNN的本質,給出了衡量平滑度的方法MAD(mean average distance),從圖拓撲角度分析了過度平滑的原因,認為信息和噪聲的過度混合是影響過度平滑的一個關鍵因素,提出了抑制過平滑的正則項MADreg和迭代訓練算法AdaGraph。同時有研究者提出通過模型優化人為構造的圖拓撲提升模型性能,抑制過度平滑現象。Wang等人[15]通過多跳注意力機制擴大節點的感受野,使不直接連接但相聚多跳的節點之間進行遠程交互,過濾高頻噪聲信息。Yang等人[16]利用指針網絡[17]尋找多階鄰域中的相關節點,使用一維卷積提取高級特征,過濾噪聲信息,減輕過度平滑問題。在網絡結構方向,文獻[18]借助殘差、密集連接和擴張卷積堆疊深層GCN,顯著提高了GCN在點云語義分割任務中的性能,緩解了過平滑現象。在數據方向,Rong等人[19]在每個訓練期間隨機丟棄圖中一定比例的邊,以充當數據增強器和消息傳遞減速器,降低過平滑的收斂速度。

根據文獻[12,14]及本文的實驗現象可以發現,使用GCN進行文本圖表示學習時,平滑使得單詞特征收斂至相似值,單詞表示不可避免地變得相似,損害了文本分類的性能。為此,本文針對文本分類問題,為了更好地衡量及分析單詞節點的平滑度,提出了衡量多個文本圖表示的平滑度的方法加權平均余弦距離WACD(weighted average cosine distance)。WACD與MAD[14]不同,MAD適用于單張圖,WACD則作用于多個圖,更適用于本文關注的圖分類方向。本文借鑒節點分類中抑制過平滑的方法,在WACD的基礎上提出了抑制過平滑的正則項RWACD(regularization based on weighted average cosine distance)。隨后提出了基于注意力和殘差的網絡結構ARS(attention-based residual network structure),彌補由于圖拓撲差異引起的文本信息損失。與文獻[14~16]不同,ARS無須迭代訓練和尋找重要相關節點,僅使用注意力機制和殘差結構,加快訓練速度。最后,提出了圖卷積神經網絡文本分類算法RA-GCN(RWACD-ARS based graph convolutional neural network text classification algorithm)。RA-GCN在圖表示學習層使用ARS融合文本表示,在讀出層使用RWACD抑制過平滑現象。實驗在六個中英文數據集上進行,實驗結果證明了RA-GCN的性能,并通過多個對比實驗驗證了RWACD和ARS的作用。

1相關研究

本文算法針對文本圖分類中的過平滑問題,是對文獻[14]算法的改進和完善,因此本章重點介紹文獻[14]。文獻[14]主要針對節點分類領域的過平滑現象,提出了衡量圖表示的平滑度的MAD方法,抑制過平滑的正則項MADreg和迭代訓練算法AdaGraph。

1.1MAD與MADreg

MAD是基于余弦距離衡量圖表示的平滑度的方法。給定圖表示矩陣H∈Euclid ExtraaBpn×d,其中n為節點數,d為特征維度。通過余弦距離計算距離矩陣D,每個節點對之間的距離計算為

Dik=1-Hi,:·Hk,:|Hi,:|·|Hk,:| i,k∈[1,2,…,n]

(1)

其中:Hi,:為圖表示H的第i行。使用余弦距離的原因是余弦距離不受節點向量絕對值的影響,從而能更好地反映圖表示的平滑性[14]。

為了得到目標節點對之間的余弦距離,構造目標掩碼矩陣Mtgt,得到目標節點對的距離矩陣,計算為

Dtgt=DMtgt(2)

其中:表示逐元素乘法;Mtgt∈{0,1}n×n,當(i,k)是目標節點對時,Mtgtik=1。然后計算每行非零值的平均值:

Dtgti=∑nk=1Dtgtik∑nk=11(Dtgtik)(3)

1(x)=10 xgt;0x=0(4)

通過計算Dtgti中非零值的平均值,得到給定目標節點的MADtgt,計算為

MADtgt=∑ni=1Dtgti∑ni=11(Dtgti)(5)

文獻[14]觀察到在節點分類中,拓撲距離小的兩個節點更有可能屬于同一類別,因此提出了利用圖拓撲來近似節點類別,并計算遠程和鄰居節點的MAD差值來估計圖表示的過平滑度MADGap,計算為

MADGap=MADrmt-MADneb(6)

其中:MADrmt是圖拓撲中遠程節點的MAD值;MADneb是鄰居節點的MAD值。將MADGap引入系數λ后得到抑制過平滑的正則項MADreg,計算為

MADreg=-λ×MADGap(7)

1.2Adagraph

文獻[14]觀察到在利用真實標簽優化圖拓撲時,緩解了過平滑現象,提升了節點分類的性能,因此提出了優化圖拓撲的迭代訓練算法AdaGraph。首先訓練GNN,然后根據預測結果刪除類間邊和添加類內邊優化圖拓撲,多次執行該過程后,降低了圖拓撲差異,抑制了過平滑現象,提升了節點分類的性能。

2本文研究的算法

MAD、MADreg與AdaGraph適用于基于單張圖表示學習的工作,然而本文關注的是基于多個文本圖表示的圖分類方向,因此文獻[14]并不能直接用于本文關注的方向,并且MADreg需要尋找最優階數計算MADGap,AdaGraph需要迭代訓練優化圖拓撲,增加了訓練時間,與本文關注的方向有較大差異。

為此,提出了衡量多個文本圖表示的平滑度的方法加權平均余弦距離WACD及抑制過平滑的正則項RWACD;提出了基于注意力和殘差的網絡結構ARS,彌補由于文本圖拓撲差異引起的信息損失,同時抑制過平滑現象;最后,提出了圖卷積神經網絡文本分類算法RA-GCN。

2.1WACD與RWACD

WACD衡量多個文本圖的平滑度,值越高表示平滑度越低,過平滑概率越低,反之平滑度越高,過平滑概率越大。

首先,對于單個文本圖表示HT∈Euclid ExtraaBpm×d,其中m為單詞節點數,d為詞嵌入維度。將所有單詞對視為目標節點,利用式(1)~(5)計算文本圖的平均余弦距離ACD(average cosine distance)。利用每個文本的長度計算ACD的加權系數μi,可以更好地估計多個文本圖表示的平滑度WACD,計算過程為

l=1b∑bi=1li(8)

μi=lil(9)

WACD=1b∑bi=1μi×ACDi(10)

其中:b表示文本數量;li為第i個文本的長度。正則項RWACD計算為

RWACD=1-WACD(11)

基于文本長度加權平均ACD得到WACD,更好地衡量多個文本圖的平滑程度;RWACD通過降低文本圖表示的平滑度降低過平滑的概率。與MADreg[14]相比,RWACD無須尋找最優階數,更適用于本文關注的文本圖分類方向。

2.2ARS

參考節點分類領域對圖拓撲方向的探討[14~16],本文認為人為構造的文本圖拓撲與潛在真實文本拓撲存在偏差,造成了圖表示學習中的文本信息損失。因此本文提出對于每個網絡層,利用注意力機制和殘差的網絡結構ARS緩解上述現象,同時抑制過平滑問題。與文獻[14~16]不同的是,ARS無須迭代訓練和尋找重要相關節點,僅使用注意力和殘差,加快訓練速度,更適合本文關注的方向。ARS將在2.3.2節中詳細介紹。

2.3RA-GCN

圖1為RA-GCN算法的框架圖。為了使框架更加清晰,部分框架使用了紅、藍、綠三種顏色突出計算流程,其中紅色表示GCN的前向計算流程;藍色表示ARS的前向計算流程;綠色表示RWACD的前向計算流程(見電子版)。總的來說,RA-GCN可分為文本處理層、圖表示學習層和讀出層三個部分。文本處理層主要對文本進行處理,轉換為圖表示學習層的輸入。圖表示學習層學習文本表示,主要由GCN和ARS兩部分構成,GCN學習圖級別的文本表示,ARS彌補由于文本圖拓撲差異引入的信息損失。讀出層獲取文本類別,使用交叉熵函數計算損失,使用RWACD抑制過平滑。下面詳細介紹算法的各個部分以及流程。

2.3.1文本處理層

如圖1所示,對于文本T={w1,w2,…,wn},wi為單詞,文本圖數據表示為G=(V,E,X),V={v1,v2,…,vm}為唯一出現的單詞節點集,|V|=m為單詞個數,m≤n,E為邊集,X為初始單詞特征矩陣。使用滑動窗口構建單詞節點集V和邊集E,邊集E通過鄰接矩陣A展現,A=[aik]∈Euclid ExtraaBpm×m,其中aik=1表示單詞節點vi和vk相連,0表示不相連。構建鄰接矩陣A的度矩陣DT=diag(d1,d2,…,dm),其中di是節點vi的度。歸一化的鄰接矩陣定義為A=D-1/2TAD-1/2T。初始單詞特征矩陣X∈Euclid ExtraaBpm×d使用預訓練詞嵌入構建,其中d是詞嵌入維度。

2.3.2圖表示學習層

如圖1所示,圖表示學習層分為GCN和ARS兩個部分,GCN學習單詞共現信息,獲取文本圖表示;ARS使用注意力機制和殘差結構得到當前圖表示學習層的文本表示輸出。

1)GCN對于第l+1層的文本圖表示,計算為

Hl+1gcn=ρ(AHlWl+1)(12)

其中:Hl∈Euclid ExtraaBpm×d為第l層的文本表示輸出;H0=X;Wl+1為可學習的參數矩陣;ρ為Leaky_ReLU激活函數。

2)ARS首先對前l+1層的所有文本表示輸出與當前層的文本圖表示分配注意力分數,計算為

Hl+1total=[H0,H1,…,Hl,Hl+1gcn](13)

Hl+1mean=mean(Hl+1total)(14)

Ll+1=σ(WlHl+1mean+b)(15)

其中:Hl+1total∈Euclid ExtraaBp(l+2)×m×d、Hl+1mean∈Euclid ExtraaBp(l+2)×d為不同維度的文本表示;Ll+1=[λ0,λ1,…,λl,λl+1gcn]為各文本表示的注意力分數;Wl與b為可學習的參數矩陣;σ為sigmoid函數。

隨后,使用注意力分數和殘差結構得到當前層的文本表示輸出Hl+1,計算為

Hl+1=λ0H0+λ1H1+…+λlHl+λl+1gcnHl+1gcn(16)

2.3.3讀出層

如圖1所示,讀出層利用注意力機制聚合單詞特征,得到最終文本表示,并預測文本類別。最終文本表示hG計算為

hi=σ(hl+1iWs+bs)⊙ψ(hl+1iWt+bt)(17)

hG=1|V|∑mi=0hi+maxpooling (h1,…,hm)(18)

其中:σ為sigmoid函數;σ(·)表示對單詞分配重要性系數;ψ為tanh函數;ψ(·)表示對單詞特征進一步轉換;W與b為可學習的參數矩陣。除此之外,為了發揮每個詞和重要詞的作用,提取平均特征和重要特征,得到最終文本表示hG。

最后,使用softmax函數預測文本類別,目標函數為交叉熵損失函數,并使用正則項RWACD,計算過程為

G=softmax(WyhG+by)(19)

L=-∑iyGlog(G)+ξ×RWACD(20)

其中:G為預測的文本類別;Wy與by為可學習的參數矩陣;yG為真實的文本類別;ξ為RWACD的系數。

3實驗部分

3.1實驗環境

文本算法的實驗環境如表1所示。

3.2數據集

本文考慮使用以下六個數據集測試RA-GCN的性能,表2展示了數據集的統計數據,其中*表示該數據集未給出驗證集。

a)MR數據集。含有正負面極性的二分類英文情感數據集。

b)Tnews[20]數據集。15個類別的中文新聞分類數據集。

c)Ohsumed數據集。23個類別的英文心血管疾病醫學摘要分類數據集。

d)R8數據集。8個類別的路透社英文新聞分類數據集。

e)SST-2、SST-5數據集。分別為二分類、五分類英文情感分類數據集。

3.3基線

由于文獻[14]適用于節點分類,與本文關注的文本圖分類方向不符合,所以本文僅考慮與以下基線進行比較:

a)傳統的深度學習文本分類方法,包括TextCNN[21]和TextRNN[22];

b)基于單張文本—單詞異構圖的文本分類方法,包括TextGCN[5]和TextSGC[7];

c)基于每個文本圖表示的圖分類方法,包括文獻[8]方法和RA-GCN,不含RWACD和ARS的P-GCN,P-SGC。

3.4參數設置

對于未給驗證集的數據集,將訓練集隨機分成9∶1的比例用于實際訓練和驗證。對于初始單詞特征,英文使用200維的預訓練GloVe[23]詞向量,中文采用文獻[24]通過搜狗新聞訓練的300維詞向量。詞匯外(out of vocabulary,OOV)單詞從均勻分布[-0.01, 0.01]中隨機采樣得到。算法使用Adam[25]優化器,學習率設置為0.001,其余參數根據不同數據集調整。模型性能使用準確度(accuracy)進行衡量。

3.5實驗結果

表3為各模型在六個數據集上的準確度表現,實驗結果為各模型訓練五次的平均值。可以看出,RA-GCN均取得了最好的結果。

對比傳統方法,CNN和RNN在大部分數據集上的性能均不如基于圖的方法,證明了圖模型有利于文本分類。對比基于每個文本圖分類的模型文獻[8]、P-GCN、P-SGC、RA-GCN和基于單張異構圖分類的模型TextGCN、TextSGC,前者在大多數情況下均優于后者,特別是在MR、SST-2等短文本數據集上,驗證了基于每個文本圖表示的圖分類方法的有效性。

在六個數據集上的結果證明了所提文本分類算法RA-GCN的性能。RA-GCN在MR、SST-2、SST-5和Tnews短文本數據集上提升較大,在長文本數據集上提升較小。這是因為構造的實際文本圖拓撲并非真實潛在的文本拓撲結構,然而由于短文本的圖規模較小,在GCN消息傳遞機制的作用下,單詞信息傳播廣泛且迅速,RWACD和ARS能夠抑制過度平滑現象和彌補由于圖拓撲差異引起的文本信息損失,所以RA-GCN能學習到更準確的文本表示。但是長文本的圖規模較大,拓撲差異導致信息的傳播速度不像小規模圖一樣流暢,造成了模型學習不到準確的文本表示,RWACD及ARS發揮的作用較小,因此RA-GCN在長文本數據集上的文本分類性能提升不顯著。

3.6對比實驗及過平滑現象分析

本節以GCN、SGC為基礎,驗證RWACD、ARS對提升模型性能和抑制過平滑現象的作用,分析過平滑現象。實驗均在MR、SST-5數據上進行,并抽取了四條MR測試集中的樣本用于部分實驗結果的可視化和分析,樣本描述如表4所示。

構造分別含有RWACD或ARS的模型RW-GCN、RW-SGC、ARS-GCN、ARS-SGC,不含及含有RWACD和ARS的模型P-GCN、P-SGC、RA-GCN、RA-SGC。觀察各模型在MR和SST-5數據集上的性能表現,探討RWACD和ARS對模型性能的影響和在樣本上的表現。最后分析了本文關注的文本圖分類方向的過平滑現象。為了更好地區分各模型的表現,使用不同符號表示不同模型,模型說明如表5所示。

3.6.1RWACD與ARS的作用

1)RWACD、ARS對模型分類性能的影響

表6為八個模型在MR、SST-5測試集上的文本分類準確度表現,實驗結果為訓練三次的平均值。

從文本圖構造方式的角度看,基于GCN和SGC提出的八個模型分類性能均優于TextGCN和TextSGC模型,這突出了基于文本圖數據的文本圖分類方法的優點。從是否含有RWACD和ARS的角度看,在MR和SST-5的實驗結果中,不含RWACD和ARS的P-模型分類性能最差,含有RWACD的RW-模型較P-模型有略微提升,證明了RWACD能夠提升模型分類性能。含有ARS的ARS-模型性能在MR和SST-5數據集上表現優異,取得了比P-模型和RW-模型更突出的分類性能,這凸顯了從圖拓撲角度優化模型性能決策的正確。含有ARS和RWACD的RA-模型分類性能最優,在MR和SST-5上取得了最好的分類效果,證明了RWACD和ARS能夠同時提升模型的分類性能。

2)RWACD、ARS對不同層數模型性能的影響

圖2為各模型在MR測試集上的準確度和WACD隨層數的變化曲線。可以看出,P-模型在分類性能和WACD上的表現均為最差。在圖2中,隨著層數增加,P-模型的WACD逐漸下降,分類性能先增加后持續下降,說明一定程度的平滑可以提升模型性能,但是執行多次平滑后,會對模型性能帶來影響。對比P-模型、RW-模型的分類性能和WACD略微提升,說明RWACD能夠降低圖數據的過度平滑,提升模型性能。ARS-模型的分類性能和WACD較P-模型和RW-模型提升明顯,說明從圖拓撲角度彌補文本信息損失能夠顯著提升模型性能和抑制過平滑現象。RA-模型的分類性能和WACD取得最佳,這說明RWACD和ARS能同時提升模型分類性能和抑制過平滑現象。

3)ARS的作用分析

在上述兩個實驗中,ARS-模型性能表現突出,這是因為ARS從圖拓撲角度出發,彌補了由于圖拓撲差異帶來的文本信息損失。為了進一步證明ARS的作用,本節設計了針對ARS的對比實驗,探討在破損的文本圖數據上,模型是否能達到或接近在未破損圖數據下模型的性能。

為了突出ARS的作用,以兩層P-GCN、ARS-GCN為基線,去除讀出層的注意力機制,隨機刪除文本圖的邊以破壞圖拓撲,并逐漸提高刪除比例。與文獻[19]不同,對包括測試集的所有文本執行上述操作,并在訓練過程中保持拓撲結構不變。為了突出實驗結果,P-GCN實驗的刪除比例最高為20%,ARS-GCN為50%,兩個模型在MR測試集上的實驗結果如圖3所示。

從圖3中看出,在未破損的文本圖數據上,ARS-GCN模型性能明顯優于P-GCN,說明人為構造的文本圖拓撲與真實潛在的文本圖拓撲存在偏差,這驗證了2.2節中ARS提出的初衷。隨著刪除比例的提高,不含ARS的P-GCN模型的性能急劇下降,然而對于ARS-GCN模型,盡管刪除比例達到30%左右,模型性能依舊能達到或超越P-GCN模型的性能,說明了ARS能夠彌補由于圖拓撲差異帶來的文本信息的損失,這再一次驗證了從圖拓撲角度出發優化模型性能決策的正確。

單從ARS-GCN曲線可以看出,刪除比例超過20%后,模型性能急劇下降,這是因為高的刪除比例會產生一些與其他節點無邊連接的孤立節點,這種節點與其他節點無信息交互,造成了圖模型捕捉不到詞共現信息,學習不到準確的文本表示,所以造成了模型性能急劇下降;然而在0%~20%的刪除比例下,孤立節點的產生概率小,但是依舊對模型性能產生了影響,然而ARS彌補了由于圖拓撲差異帶來的文本信息損失,模型性能依舊可以達到或接近在原始數據下ARS-GCN模型的性能。

為了更清晰地觀察ARS的表現,本節探討了兩個模型在表4樣本上的分類表現。ARS-GCN的數據刪除比例為30%,P-GCN不設置刪除比例,分類結果如表7所示,其中√表示預測正確,×表示預測錯誤,結果為模型訓練三次的平均值。

從表7中看出,ARS-GCN對前三條樣本的類別概率預測結果接近未設置刪除比例的P-GCN結果;然而在第四條數據上,ARS-GCN預測正確,P-GCN預測錯誤,ARS-GCN的預測結果要優于P-GCN。這說明了在ARS的作用下,刪除比例在30%條件下的ARS-GCN的性能表現接近甚至超越了原始數據下P-GCN的性能,這從真實樣本角度驗證了圖3中的實驗結果。

綜上所述,人為構造的文本圖拓撲與潛在文本真實圖拓撲之間存在差異,ARS結構能夠彌補由于這種差異帶來的文本信息的損失,提升模型性能。

4)案例分析

在表4樣本的基礎上,本節在兩層P-GCN和RA-GCN條件下,可視化了第1、2條樣本內單詞與其他單詞的平均距離(圖4);可視化了第1、2條樣本ACD值隨層數的變化曲線(圖5);可視化了不同層數的P-GCN和RA-GCN對第3、4條樣本的預測結果(表8),其中√表示模型預測正確,×表示預測錯誤。

從圖4中看出,RA-GCN模型顯著提升了單詞間的平均距離,例如單詞worth與其他單詞的平均距離從P-GCN的0.12上升為RA-GCN的0.61。在圖5的P-GCN結果中,樣本的ACD值在第三層接近于0,單詞之間變得相似,符合文獻[12]中所描述的過平滑現象;然而在RA-GCN的結果中,樣本的ACD值提升明顯,說明RWACD和ARS抑制了過平滑現象。在表8樣本3、4的結果中,P-GCN預測正確三次,RA-GCN全部預測正確,說明RWACD和ARS提升了模型對樣本的分類性能。

3.6.2過平滑現象分析

從3.6.1節案例分析中的圖5觀察到,三層的P-GCN就已經使樣本的ACD趨近于0,兩個樣本均出現了文獻[12]描述的過平滑現象;并且在圖2中觀察到,隨著層數的堆疊,P-模型的WACD逐漸下降,分類性能先上升后持續下降,說明一定程度的平滑有利于提升文本分類性能,但執行多次平滑后會損害模型分類性能。為此,假設本文所關注的基于每個文本圖表示的文本圖分類領域,隨著網絡層數的堆疊,數據集內部分樣本出現過平滑現象,且隨著層數的堆疊,出現過平滑現象的文本越來越多,影響了模型的分類性能。

為了驗證上述假設,借助構造的八個模型,分析在MR和SST-5測試集中文本圖ACD小于某閾值時的文本數隨網絡層數的變化。實驗結果如圖6所示,為了突出部分模型的性能,模型之間的閾值取值不同,閾值取值已在圖中標注,其中圖(a)(b)為GCN、SGC在MR測試集上的結果,圖(c)(d)為GCN、SGC在SST-5測試集上的結果。

結合圖2和6中P-模型的實驗結果看出,符合閾值的文本數隨網絡層數的上升逐漸增多,WACD隨層數的上升逐漸下降,分類性能先上升后下降。結合圖4、5中P-GCN的可視化結果說明,本文所關注的基于每個文本圖表示的圖分類領域,過平滑現象體現在以文本圖為單位的文本表示中,這種過平滑現象在淺層網絡就已出現,并且隨著網絡層數的堆疊,出現過平滑現象的文本逐漸增多,過平滑現象愈加明顯,但是模型性能在2~3層時才開始出現下降。

從RW-模型、ARS-模型的曲線看出,RWACD和ARS均能減少出現過平滑的文本數,抑制過平滑現象,提升模型性能。

RA-模型的結果均取得最佳,說明RWACD和ARS同時減少了出現過平滑的樣本數,抑制了過度平滑現象,提升了模型分類性能。

綜上所述,以P-模型為基準,本文關注方向的過平滑現象以文本圖為單位,在淺層網絡就已出現,且過平滑文本數隨著網絡堆疊而逐漸增加,損害了模型性能;RWACD和ARS均能減少過平滑樣本數,抑制過平滑現象,提升模型分類性能。

4結束語

本文提出了適用于多個文本圖表示的平滑度衡量指標加權平均余弦距離WACD,提出了抑制過度平滑的正則項RWACD;提出了注意力和殘差的網絡結構ARS,彌補由于文本圖拓撲差異引起的圖表示學習帶來的文本信息的損失,同時抑制過度平滑現象;提出了基于RWACD和ARS的圖卷積神經網絡文本分類算法RA-GCN。在六個數據集上證明了RA-GCN的性能,并且通過多個對比實驗驗證了RWACD和ARS的作用。

參考文獻:

[1]Li Qian, Peng Hao, Li Jianxin, et al. A survey on text classification: from shallow to deep learning [EB/OL]. (2021-12-22). https://arxiv.org/pdf/ 2008.00364.pdf.

[2]Kowsari K, Jafari M K, Heidarysafa M, et al. Text classification algorithms: a survey[J]. Information, 2019, 10(4): article No. 150.

[3]Chiu B, Sahu S K, Sengupta N, et al. Attending to inter-sentential features in neural text classification[C]// Proc of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2020: 1685-1688.

[4]何力, 鄭灶賢, 項鳳濤, 等. 基于深度學習的文本分類技術研究進展[J]. 計算機工程, 2021, 47(2): 1-11. (He Li, Zheng Zao-xian, Xiang Fengtao, et al. Research progress of text classification technology based on deep learning[J]. Computer Engineering, 2021, 47(2): 1-11.)

[5]Yao Liang, Mao Chengsheng, Luo Yuan. Graph convolutional networks for text classification[C]// Proc of the 33rd AAAI Conference on Artificial Intelligence and the 31st Innovative Applications of Artificial Intelligence Conference and the 9th AAAI Symposium on Educational Advances in Artificial Intelligence. 2019: 7370-7377.

[6]Kipf T N, Welling M. Semi-supervised classification with graph con-volutional networks [EB/OL]. (2017-02-22). https://arxiv.org/abs/1609.02907.

[7]Wu F, Zhang Tianyi, Souza A, et al. Simplifying graph convolutional networks[C]// Proc of the 36th International Conference on Machine Learning. 2019: 6861-6871.

[8]Huang Lianzhe, Ma Dehong, Li Sujian, et al. Text level graph neural network for text classification[C]// Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. 2019: 3442-3448.

[9]Zhang Yufeng, Yu Xueli, Cui Zeyu, et al. Every document owns its structure: inductive text classification via graph neural networks[C]// Proc of the 58th Annual Meeting of the Association for Computational Linguistics. 2020: 334-339.

[10]Li Yujia, Tarlow D, Brockschmidt M, et al. Gated graph sequence neural networks [EB/OL]. (2017-09-22). https://arxiv. org/pdf/1511.05493.pdf.

[11]范國鳳, 劉瞡, 姚紹文, 等. 基于語義依存分析的圖網絡文本分類模型[J]. 計算機應用研究, 2020, 37(12): 3594-3598. (Fan Guofeng, Liu Gui, Yao Shaowen, et al. Text classification model with graph network based on semantic dependency parsing[J]. Application Research of Computers, 2020, 37(12): 3594-3598.)

[12]Li Qimai, Han Zhichao, Wu Xiaoming. Deeper insights into graph convolutional networks for semi-supervised learning[C]// Proc of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 3538-3545.

[13]Cai Chen, Wang Yusu. A note on over-smoothing for graph neural networks[EB/OL]. (2020-06-23) [2021-12-11]. https://arxiv.org/pdf/ 2006.13318.pdf.

[14]Chen Deli, Lin Yankai, Li Wei, et al. Measuring and relieving the over-smoothing problem for graph neural networks from the topological view [C]// Proc of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 3438-3445.

[15]Wang Guangtao, Ying R, Huang Jing, et al. Multi-hop attention graph neural network [EB/OL]. (2021-08-25). https://arxiv.org/abs/2009.14332.

[16]Yang Tianmeng, Wang Yujing, Yue Zhihan, et al. Graph pointer neural networks[EB/OL]. (2021) [2022-01-05]. https://arxiv. org/pdf/2110. 00973.pdf.

[17]Vinyals O, Fortunato M, Jaitly N. Pointer networks[EB/OL]. (2015-07-09). https://arxiv.org/abs/1506.03134.

[18]Li Guohao, Muller M, Thabet A, et al. DeepGCNs: can GCNs go as deep as CNNs?[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 9266-9275.

[19]Rong Yu, Huang Wenbing, Xu Tingyang, et al. DropEdge: towards deep graph convolutional networks on node classification [EB/OL]. (2020-03-12). https://arxiv. org/pdf/1907.10903.pdf.

[20]Xu Liang, Hu Hai, Zhang Xuanwei, et al. CLUE: a Chinese language understanding evaluation benchmark [C] //Proc of the 28th International Conference on Computational Linguistics. [S.l.]:International Committee on Computational Linguistics, 2020:4762-4772.

[21]Kim Y. Convolutional neural networks for sentence classification [EB/OL]. (2014-09-03). https://arxiv.org/abs/1408.5882.

[22]Liu Pengfei, Qiu Xipeng, Huang Xuanjing. Recurrent neural network for text classification with multi-task learning [EB/OL]. (2016-05-17). https://arxiv.org/abs/1605.05101.

[23]Pennington J, Socher R, Manning C D. GloVe: global vectors for word representation [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2014: 1532-1543.

[24]Li Shen, Zhao Zhe, Hu Renfen, et al. Analogical reasoning on Chinese morphological and semantic relations[C]// Proc of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2018: 138-143.

[25]Kingma D P, Ba J. Adam: a method for stochastic optimization [EB/OL]. (2017-01-30). https://arxiv.org/abs/1412.6980.

收稿日期:2022-02-09;修回日期:2022-03-22基金項目:國家重點研發計劃資助項目(2018YFB1700902)

作者簡介:蘇凡軍(1976-),男,山東泰安人,講師,博士,主要研究方向為推薦算法、圖神經網絡、計算機網絡;馬明旭(1997-),男(通信作者),山東泰安人,碩士研究生,主要研究方向為自然語言處理(mingxuma@126.com);佟國香(1968-),女,四川成都人,副教授,碩導,博士,主要研究方向為嵌入式系統開發、圖像處理、數據挖掘.

主站蜘蛛池模板: 五月婷婷欧美| 91亚洲视频下载| 制服丝袜亚洲| 91精品在线视频观看| 亚洲成aⅴ人片在线影院八| 亚洲色大成网站www国产| 永久免费av网站可以直接看的 | 国内精品小视频福利网址| 成年看免费观看视频拍拍| 亚洲精品无码日韩国产不卡| 毛片视频网址| 99热亚洲精品6码| 亚洲精品卡2卡3卡4卡5卡区| 久久不卡国产精品无码| 亚洲大尺码专区影院| 国产精品免费电影| 又爽又大又光又色的午夜视频| 亚洲视频在线观看免费视频| 国产网友愉拍精品视频| 亚洲欧美日韩成人高清在线一区| 国产日本欧美在线观看| 免费精品一区二区h| 中文字幕在线一区二区在线| 亚洲中文字幕在线观看| 欧美在线综合视频| 亚洲啪啪网| 国产在线精彩视频论坛| 欧美日韩理论| 国产高清无码第一十页在线观看| 精品伊人久久久大香线蕉欧美| 91人人妻人人做人人爽男同| 亚洲精品欧美日本中文字幕| 欧美在线精品怡红院 | 亚洲中文在线看视频一区| 日本在线亚洲| 玖玖免费视频在线观看| 天天干天天色综合网| 一本视频精品中文字幕| 国产美女无遮挡免费视频网站| 国产免费福利网站| 一区二区无码在线视频| 毛片最新网址| 在线精品自拍| 99免费视频观看| 在线精品自拍| 这里只有精品国产| a毛片免费观看| 中文无码精品a∨在线观看| 婷婷午夜影院| 国产免费羞羞视频| 日本在线免费网站| 狼友视频国产精品首页| 亚洲床戏一区| 伊人色在线视频| 国产av无码日韩av无码网站| 亚洲精品天堂在线观看| 无码在线激情片| 久久综合亚洲色一区二区三区| 亚洲天堂免费观看| 亚洲国产无码有码| 欲色天天综合网| 欧美午夜网站| 天天躁夜夜躁狠狠躁图片| 成年网址网站在线观看| 黄网站欧美内射| 在线欧美日韩| 永久免费无码日韩视频| 免费视频在线2021入口| 欧美日在线观看| 国产v精品成人免费视频71pao| 美女扒开下面流白浆在线试听 | 国产剧情一区二区| 亚洲人成人伊人成综合网无码| 国产成人91精品免费网址在线| 人妻出轨无码中文一区二区| 欧美一级色视频| 亚洲无码日韩一区| 在线观看精品自拍视频| 91av国产在线| 亚洲天堂网2014| 人妻91无码色偷偷色噜噜噜| 九九九久久国产精品|