999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GNN的文本分類算法研究

2023-05-19 07:55:18于舒娟姚成杰黃麗亞
計算機技術與發(fā)展 2023年5期
關鍵詞:分類文本模型

高 貴,趙 陽,于舒娟,姚成杰,黃麗亞

(南京郵電大學 電子與光學工程學院,江蘇 南京 210046)

0 引 言

在信息數(shù)字化的21世紀,自然語言處理(Natural Language Processing,NLP)在人工智能研究中的地位越來越重要。作為NLP領域的重要分支之一,文本分類技術常被用于處理復雜多樣的文本信息,其主要工作是根據(jù)特征對文本進行分類,并為其分配不同的標簽。基于文本分類技術,用戶可以通過搜索關鍵詞或查找相應標簽,快速準確地找到所需信息。

在基于深度學習的文本分類技術中,圖神經(jīng)網(wǎng)絡(Graph Neural Networks,GNN)對非歐幾里德數(shù)據(jù)的獨特建模方式吸引了學者們的廣泛研究。2004年,Mihalcea等人[1]首次將圖模型應用于文本分類任務,TextRank通過圖論將自然語言中的文本重新定義表示,包括單詞、短語、完整句子等。Defferrard等人[2]提出了基于圖的卷積神經(jīng)網(wǎng)絡模型Graph-CNN,首次將文本轉化為一組詞的圖的集合,利用圖卷積對每個子圖進行卷積運算。Yao等人[3]構建了一個簡單高效的圖卷積網(wǎng)絡TextGCN,模型基于詞的共現(xiàn)性和詞與詞之間的相互關系,將待分類的整個文本數(shù)據(jù)集構建成文本圖。該方法考慮了節(jié)點的高階鄰域信息,有效提高了文本分類性能。

然而,雖然這些圖神經(jīng)網(wǎng)絡和注意力機制方法在文本分類任務上取得了成功,但是在圖神經(jīng)網(wǎng)絡的數(shù)據(jù)增強以及關鍵信息的權重計算方面還應用較少。在研究中發(fā)現(xiàn),由于GNN的特殊圖文轉換特征,其在訓練數(shù)據(jù)集較少時容易出現(xiàn)過擬合的問題。此外,由于傳統(tǒng)GNN模型的詞嵌入方式對高階領域信息捕捉能力不足,當訓練數(shù)據(jù)稀疏時會對模型性能帶來負面影響。

基于以上GNN模型在文本分類任務中所遇到的問題,該文提出了Att-DASA-ReGNN模型。該模型主要有如下三點創(chuàng)新改進:

(1)針對模型訓練中容易出現(xiàn)的過擬合問題,在模型的數(shù)據(jù)特征提取階段應用了EDA技術和Self-Attention技術。該技術在擴充數(shù)據(jù)集的同時加強了單詞級別的相互聯(lián)系,改善了過擬合問題。

(2)針對原模型詞嵌入方式對維度很高且稀疏情況下的高階鄰域信息捕捉能力不足的問題,在模型中引入了區(qū)域詞嵌入技術。該技術進一步加強了詞級之間的關系,使得模型更容易捕捉高階鄰域信息,從而減輕數(shù)據(jù)稀疏帶來的影響。

(3)為了進一步提升模型的文本分類準確率,在模型的圖詞特征交互階段改進了注意力權重提取方式。通過引入三種不同的注意力機制驗證模型性能的提升效果,最終確定為Soft-Attention作為該階段的注意力權重提取方式。

1 相關工作

前饋神經(jīng)網(wǎng)絡是最早用于文本分類的深度學習模型。它們使用詞嵌入模型來學習文檔中文本表示,將文本中的詞向量相加的和或平均值作為輸出將其送入前饋神經(jīng)網(wǎng)絡中[7]。2015年,Zhou等人結合CNN和RNN兩者的優(yōu)勢,提出了一個C-LSTM模型[8]。該模型首先利用CNN提取高層次的特征,然后將特征送入LSTM以獲得句子表示。2017年,王俊麗等人提出了一個ResLCNN模型[9]。該模型不僅將LSTM與CNN結合起來提取更復雜的抽象特征,而且還使用殘差來緩解LSTM梯度消失的問題。2018年,譚詠梅等人利用卷積神經(jīng)網(wǎng)絡結合雙向LSTM從文本中提取特征[10]。該模型將得到的特征輸入全連接層,然后利用語義規(guī)則進一步處理分類結果,最終提高了中文文本的分類性能。

圖神經(jīng)網(wǎng)絡以其在分類精度的優(yōu)越性,被廣大研究學者應用于文本分類領域。Bruna等人將歐幾里德空間卷積轉移到圖網(wǎng)絡中,并為譜域和空間域提出了相應的圖卷積方法[11]。Henaff等人將圖卷積應用于神經(jīng)網(wǎng)絡,對有和無輸入標簽的大型數(shù)據(jù)集都進行分類[12]。Defferrard等人[2]在圖譜域定義并應用卷積,解決了Bruna等人的計算高復雜性和濾波器的非局部問題。Li等人提出了一種能夠處理任何圖結構的圖網(wǎng)絡,以解決以前的圖卷積神經(jīng)網(wǎng)絡面臨的固定濾波器和圖結構的問題[13]。Huang等人重新改進了圖神經(jīng)網(wǎng)絡的結構,將單個文本視作圖,用詞共現(xiàn)方法構建詞之間的關系,最后用圖卷積神經(jīng)網(wǎng)絡提取特征,在提升模型性能的同時還減少了不必要的內存消耗[14]。Zhang等人使用門控圖神經(jīng)網(wǎng)絡提出了一種基于GNN的歸納式文本分類方法,同時提出了不同的構建文本圖的方法[15]。該方法通過訓練樣本獲得詞之間的相互關系,該模型對于有較多新詞的文本分類數(shù)據(jù)集效果更好。

數(shù)據(jù)采樣部分如圖1所示,簡單數(shù)據(jù)增強技術EDA是Wei等人提出來的一種數(shù)據(jù)增強方法,包含了四種類型,分別是:

(1)同義詞替換:在一個句子中隨機抽取其中的詞,用這些詞的近似詞進行同義替換,形成新的句子。

(2)隨機插入:在一個句子中隨機選擇一個詞,之后用該詞的同義詞隨機插入該句子中的任意位置。

(3)隨機交換:將一個句子中任意選定的兩個單詞進行互換位置。

(4)隨機刪除:將一個句子中的任意單詞以概率p進行概率性隨機刪除。

使用EDA對文本進行數(shù)據(jù)增強后,可以得到數(shù)倍于原數(shù)據(jù)的有效數(shù)據(jù)。

接著,Att-DASA-ReGNN模型在EDA數(shù)據(jù)增強后引入了自注意力機制Self-attention。這樣做的目的是將增強后的數(shù)據(jù)集通過兩個神經(jīng)網(wǎng)絡層和一個歸一化層組成的模塊,讓提取到的特征擁有更多的細節(jié)。自注意力的計算公式可以表示為:

圖1 Att-DASA-ReGNN模型

Att(Q,K,V)=ω(QKT)V

(1)

其中,Q是查詢向量矩陣,K是鍵向量矩陣,V是值向量矩陣。

如圖2所示,Xi為詞嵌入產生的詞向量。接著詞向量Xi分別與三個矩陣W(q)、W(k)、W(v)相乘得到三個矩陣向量Q、K、V。每一個Qi與所有的Ki進行矩陣乘法得到αij,其中Qi與Ki進行相乘之后需要除一個d,d是Qi與Ki的維度。最后,每一個αij經(jīng)過SoftMax層之后得到了βij,之后將所有的βij相加即可得到輸出b1,即詞Xi的自注意力機制得分。

圖2 自注意力機制流程示意圖

區(qū)域詞嵌入是專注于學習文本區(qū)域特征的詞嵌入方法。該方法在進行區(qū)域特征表示的同時保留了原本數(shù)據(jù)集的內部結構信息。其中,區(qū)域可以理解為文本中固定長度的連續(xù)子序列,用wi表示句子中的第i個詞,用region(i,c)表示當前第i個詞與該詞前后一共2c+1個詞組成的短語。Att-DASA-ReGNN模型中,區(qū)域詞嵌入方式用ew表示第w個詞的嵌入,該嵌入可以用矩陣E∈Rh×v表示,其中v表示詞匯的大小,h表示嵌入的大小。區(qū)域詞嵌入的具體流程如圖3所示。

為了利用單詞的相對位置和本地語境的信息,除了學習單詞嵌入外,還為每個單詞學習了一個局部的語境單元,表示為矩陣Kwi∈Rh×(2c+1),Kwi中的每一列都可以用來與相應的wi進行相對位置上的上下文詞的交互。

(2)

2 Att-DASA-ReGNN模型

Att-DASA-ReGNN主要由四個部分組成:第一部分是自注意力機制Self attention和EDA結合生成的數(shù)據(jù)增強數(shù)據(jù)采樣部分;第二部分是利用滑動窗口進行圖形構建;第三部分為基于門控圖神經(jīng)網(wǎng)絡(Gated Graph Neural Network,GGNN)的詞特征交互;最后將提取到的特征送入兩個多層感知機(Multi-Layer Perceptron,MLP)完成文本的預測分類。圖1為DASA-GNN模型的結構框圖。

2.1 圖形構建和詞特征交互

如圖1所示,首先將句子中選中的單詞表示為節(jié)點,接著用單詞之間的共現(xiàn)形式表示為邊來進行圖形構建,圖可以用G=(V,E)表示,其V表示圖形的節(jié)點,E表示圖形的邊。共現(xiàn)指的是在滑動窗口中單詞的相關性,其中滑動窗口大小一般默認設定為3,其中的邊都為無向邊。Nikolentzos等人[16]將滑動窗口的大小定義為2。他們將圖視為密集連接的圖,其模型中圖消息的傳遞機制主要是用一個特定的基本節(jié)點與其他每一個節(jié)點相連,因此在該圖中只能得到模糊的結構消息。而門控圖神經(jīng)網(wǎng)絡GGNN中為避免圖的密集連接導致的單詞特征信息模糊,會首先初始化文本數(shù)據(jù)的詞特征來進行節(jié)點的嵌入表示,接著將任意一個文檔都進行了單獨子圖表示,因此在模型中詞交互階段部分,單詞特征信息能夠清晰地傳播到上下文中[17]。

圖3 區(qū)域詞嵌入流程

2.2 特征交互的注意力權重提取方式

為了進一步提升Att-DASA-ReGNN模型的準確率,從模型的圖詞特征交互的角度出發(fā),在特征交互的注意力權重提取中分別引入了硬注意力、軟注意力和多頭注意力機制。

p(st,i=1|sj

(3)

(4)

在分類問題中,經(jīng)常被提到的就是軟注意力機制。其主要思想是,首先將Source中的構成元素想象成是由一系列的數(shù)據(jù)對構成,此時給定Target中的某個元素Query,通過計算Query和各個Key的相似性或者相關性,得到每個Key對應Value的權重系數(shù),然后對Value進行加權求和,得到了最終需要的注意力數(shù)值。所以,本質上軟注意力機制是對Source中元素的ValueValue值進行加權求和,而Query和KeyKey用來計算對應Value的權重系數(shù)。即可以將其本質思想表示為式(5)。

Attention(Query,Source)=

(5)

多頭注意力機制是對注意力機制的每個頭進行運算,是對于輸入Query、Key、Value進行的運算,然后把每個頭的輸出拼起來乘以一個矩陣進行線性變換,得到最終的輸出,其表達式為式(6)。

(6)

3 實 驗

本節(jié)將在多個不同的數(shù)據(jù)集上進行一系列實驗,驗證所提模型的文本分類性能,而且為更精確地展現(xiàn)Att-DASA-ReGNN模型的分類性能,選取了文本分類方面的幾種經(jīng)典算法模型以及最新的研究成果模型作為實驗的對照組。

3.1 實驗數(shù)據(jù)集

為了驗證模型的性能及其穩(wěn)定性,挑選5種不同的英文數(shù)據(jù)集來比較模型的分類效果。這些數(shù)據(jù)集是:

(1)MR:MR數(shù)據(jù)集屬于電影評論領域。它是一個二分類數(shù)據(jù)集,其中每個評論僅包含一句話,分為正面評論和負面評論。

(2)R8:R8數(shù)據(jù)集屬于新聞領域。它是從路透社的新聞專線中收集分類得到的,總共分為8類。

(3)SST1:SST1數(shù)據(jù)集屬于社會領域。它來自于斯坦福情感樹庫,包括非常消極、消極、中性、積極、非常積極五種類型的數(shù)據(jù)。

(4)SST2數(shù)據(jù)集與SST1數(shù)據(jù)集相同,但去掉了中性評論和二進制標簽,只保留了兩類標簽。

(5)SUBJ數(shù)據(jù)集是主觀性數(shù)據(jù)集,該數(shù)據(jù)集用主客觀的指標將句子進行二分類。

(6)TREC數(shù)據(jù)集為問句類型的數(shù)據(jù)集。

這些實驗數(shù)據(jù)集的詳細信息如表1所示。

表1 實驗數(shù)據(jù)集詳細信息

3.2 對比模型

為更精確地展現(xiàn)DASA-GNN模型的分類性能,本章選取了文本分類方面的幾種經(jīng)典算法模型以及最新的研究成果模型作為實驗的對照組。所選模型按照原理大致可以分為深層神經(jīng)網(wǎng)絡模型和基于圖的網(wǎng)絡模型,具體介紹如下:

(1)CNN(non-static):該模型將卷積神經(jīng)網(wǎng)絡應用于文本分類,并使用了隨機初始化單詞嵌入來提取句子的關鍵信息。

(2)CNN(rand):該模型同樣基于卷積神經(jīng)網(wǎng)絡,與CNN(non-static)不同的是,它使用了預訓練單詞嵌入來提取句子關鍵信息。

(3)BiLSTM(RNN):該模型使用雙向LSTM結構進行文本分類,并使用了預訓練單詞嵌入提取信息。

(4)Texting(GNN):Texting為每個文檔構成單獨的圖,并利用GGNN進行文本分類。

(5)TextGCN(GCN):TextGCN將整個語料庫構成一個圖,并應用GCN進行文本分類。

3.3 評價指標

為評價文中改進模型對文本分類的有效性,采用準確率作為評價指標。其公式可以表示為:

(7)

其中,TP表示真正例,TN表示真反例,FP表示假正例,FN表示假反例。

3.4 實驗結果

為了對DASA-GNN模型進行全面分析,本節(jié)設計了多組實驗。實驗1:基于自注意力機制的EDA的數(shù)據(jù)增強效果驗證實驗;實驗2:基于Dropedge技術的區(qū)域詞嵌入對模型性能提升效果驗證實驗;實驗3:三種不同的注意力權重提取方式對模型性能提升效果驗證實驗;實驗4:模型超參數(shù)設置對模型分類性能的影響實驗。具體分析如下:

(1)為了更好地了解EDA數(shù)據(jù)增強的作用及其對DASA-GNN模型的性能影響,實驗1選擇了Texting作為對照模型,并選擇了不同百分比訓練數(shù)據(jù)下的準確率作為對比結果考量。實驗結果如表2所示,對于MR、SST2和SUBJ數(shù)據(jù)集上的實驗結果而言,DASA-GNN模型的最佳性能對比Texting模型有2.93百分點、1.52百分點和 0.15百分點的提升,且最佳性能都在30%數(shù)據(jù)量時出現(xiàn)。對于R8和SST1數(shù)據(jù)集而言,服務器上得出的最佳結果盡管略微不如Texting模型,但是符合實驗預期的結果。由此可見,在模型的數(shù)據(jù)增強部分加入自注意力層后可以進一步改善數(shù)據(jù)質量,提升模型性能。

(2)將引入?yún)^(qū)域詞嵌入的DASA-ReGNN模型與七個深度學習領域的算法進行對比,最終對比結果見表3。表中模型在不同數(shù)據(jù)集上的最佳準確率用加粗字體表示,次優(yōu)準確率用下劃線表示。從表3中可以看出,DASA-ReGNN模型在多個數(shù)據(jù)集上都表現(xiàn)出了優(yōu)異的性能。其中,在R8、SUBJ數(shù)據(jù)集上顯示圖神經(jīng)網(wǎng)絡具有良好的分類性能,而DASA-ReGNN通過引入?yún)^(qū)域詞嵌入表現(xiàn)得更為優(yōu)異;與其余六個深度學習領域的經(jīng)典以及最新的算法的最佳性能相比,DASA-ReGNN還提升了0.36百分點和0.24百分點的分類精度。在除SST1以外的其余五個數(shù)據(jù)集上DASA-ReGNN都提升了一定的分類精度,表現(xiàn)出了良好的模型性能。

表2 引入自注意力機制的模型性能比較

表3 引入?yún)^(qū)域詞嵌入的GNN與其他網(wǎng)絡模型的準確率比較

(3)實驗中采用了三種不同的注意力權重提取方式對模型性能提升效果進行驗證,其結果如表4所示。從四個模型在不同數(shù)據(jù)集上的分類結果對比可以得出,在Att-DASA-GNN模型中引入不同的注意力機制可以有效提升文本分類的性能。例如在MR數(shù)據(jù)集上,DASA-ReGNN的分類準確率為0.829 4,而引入硬注意力機制的Att-DASA-ReGNN模型的準確率可達0.830 0,引入軟注意力機制和多頭注意力機制的模型準確率提升效果更好,分別為0.841 0和0.832 4。在其他數(shù)據(jù)集上的提升效果也較明顯。

表4 不同注意力權重提取方式效果對比

表5為三種不同注意力機制的Att-DASA-ReGNN模型與傳統(tǒng)文本分類模型的性能比較實驗結果。由表5可以得出,相對于一些傳統(tǒng)模型,三種Att-DASA-ReGNN模型的文本分類準確率均有不同程度的提高,其中以軟注意力機制模型Att-DASA-ReGNN+Soft的分類準確率最佳。例如,在MR數(shù)據(jù)中,性能表現(xiàn)最好的傳統(tǒng)模型CNN(non-static)的分類準確率為0.815 0,而三種Att-DASA-ReGNN模型的分類準確率分別為0.830 0、0.841 0和0.832 4,均超過其他對照模型。此外,軟注意力機制模型Att-DASA-ReGNN+Soft的分類性能在4個數(shù)據(jù)集上的分類準確率最高。由此可見,在模型圖詞特征交互中加入注意力機制的方法可以有效提升文本分類準確率,并且軟注意力機制的提升效果最為有效。

表5 Att-DASA-ReGNN模型與其他的

(4)最后,為探究兩個重要超參數(shù)learning rate和hidden size對模型性能的影響,選擇了在R8、SST2、SUBJ和SST1數(shù)據(jù)集上進行模型訓練做進一步測試。實驗結果如圖4所示。

當hidden size參數(shù)不變時,DASA-GNN模型的準確率在learning rate參數(shù)數(shù)值為0.005時達到最大;當learning rate參數(shù)不變時,hidden size參數(shù)為 96模型準確率達到最高。例如在SUBJ數(shù)據(jù)集上,從圖4(c)中可以看到,hidden size參數(shù)為96的柱形圖為模型準確率的最高值,并且其隨著learning rate參數(shù)的提升而不斷升高。由此可見,DASA-ReGNN模型訓練中的超參數(shù)learning rate和hidden size最優(yōu)值依舊為0.005和96,模型性能穩(wěn)定可靠。

圖4 Att-DASA-ReGNN模型在不同learning rate和hidden size下的準確性比較

4 結束語

針對現(xiàn)有的基于圖神經(jīng)網(wǎng)絡的文本分類方法存在的過擬合、特征稀疏和特征多樣性不足等問題,提出了Att-DASA-ReGNN。Att-DASA-ReGNN模型在保留圖神經(jīng)網(wǎng)絡中圖形編碼特性的同時,使用了基于自注意力機制的EDA數(shù)據(jù)增強技術,同時在圖詞特征交互階段引入了區(qū)域詞嵌入技術改善了高階領域信息的捕捉問題,最后在圖詞特征交互階段改進了注意力權重提取方式。實驗表明,相較于其他現(xiàn)有模型,Att-DASA-ReGNN模型在多個不同種類數(shù)據(jù)集上的分類準確率均有不同程度的提升,性能優(yōu)越性顯著。

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 丰满的少妇人妻无码区| 99精品在线看| 欧美日韩动态图| www.亚洲国产| 青青青国产免费线在| 国产成人亚洲综合a∨婷婷| 亚洲色大成网站www国产| 欧美中文字幕一区二区三区| 亚洲a免费| 成人在线天堂| 91无码人妻精品一区| 欧美一级特黄aaaaaa在线看片| 国产精品午夜福利麻豆| 国产精品永久在线| 色国产视频| 91精品国产福利| 国产va视频| 久久这里只有精品23| 高清视频一区| 一级毛片基地| 99精品影院| 色吊丝av中文字幕| 国产综合另类小说色区色噜噜| 国产日韩欧美精品区性色| 九九热视频在线免费观看| 色一情一乱一伦一区二区三区小说 | 夜夜操国产| 国产91麻豆免费观看| 亚洲丝袜中文字幕| 最新国产成人剧情在线播放| 亚洲天堂成人| 国产成年无码AⅤ片在线| 欧美不卡二区| 日韩无码视频播放| 免费国产黄线在线观看| 欧美三级视频网站| 亚洲一区二区精品无码久久久| 狼友av永久网站免费观看| 亚洲Aⅴ无码专区在线观看q| 伊人久久久久久久| 激情综合激情| 四虎AV麻豆| 久久婷婷人人澡人人爱91| 亚洲视频一区在线| 永久免费无码日韩视频| 在线欧美日韩国产| 国产一区二区三区在线观看免费| 日韩欧美综合在线制服| 日韩区欧美国产区在线观看| 婷婷六月天激情| AV网站中文| 72种姿势欧美久久久大黄蕉| 色哟哟国产精品一区二区| 熟妇丰满人妻| 日本欧美成人免费| 女同久久精品国产99国| 99激情网| 欧美精品伊人久久| 免费jizz在线播放| 综合网天天| 中文字幕 91| 色综合国产| 国产毛片片精品天天看视频| 无码中文AⅤ在线观看| 全部免费特黄特色大片视频| 91在线国内在线播放老师 | 97se亚洲| 日韩福利视频导航| 97超碰精品成人国产| 国产亚洲精品在天天在线麻豆| 日本三级欧美三级| 国产亚洲精品在天天在线麻豆| 1769国产精品视频免费观看| 国产精品中文免费福利| 国产乱人免费视频| 最新加勒比隔壁人妻| 伊人狠狠丁香婷婷综合色| 99re经典视频在线| 亚洲最大看欧美片网站地址| 毛片最新网址| 亚洲欧美日本国产综合在线 | a级毛片免费看|