999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多頭注意力門控卷積網絡的特定目標情感分析

2022-04-18 12:36:00樊建聰
關鍵詞:特征文本情感

李 浩,樊建聰,2

(1.山東科技大學 計算機科學與工程學院,山東 青島 266590; 2.山東省智慧礦山信息技術重點實驗室,山東 青島 266590)

近年來,隨著互聯網的快速發展,越來越多帶有情感的信息發布在社交媒體上,如對商品的評論、熱門事件的觀點、政治事件等。情感分析是從給定的主觀性文本中挖掘有用信息的過程,這些信息能夠反映人們對于商品的態度、熱點事件的思考、政策的傾向等。文本情感分析[1]是自然語言處理領域中的一個重要研究方向,在輿情分析、意見挖掘[2]等應用領域中發揮著重要作用。

傳統的情感分析方法主要包括基于詞典的方法[3]和基于機器學習的方法?;谠~典的方法主要依靠情感詞典[4],分類效果取決于構建的情感詞典的質量和輸入規則?;跈C器學習的方法包括有監督學習和無監督學習方法,有監督學習方法必須有大量標注的數據,耗費人工成本;無監督學習方法以聚類方法和隱含狄利克雷分配(latent dirichlet allocation,LDA)為主,不需要人工標注數據,但在處理復雜問題時準確率不如前者好。近幾年隨著神經網絡技術的快速發展,循環神經網絡(recurrent neural network,RNN)和卷積神經網絡(convolutional neural network,CNN)在自然語言處理領域得到廣泛應用。Kim等[5]利用CNN解決了文本分類問題;Cho等[6]使用RNN構建Encoder-Decoder模型,更好地學習到序列的語義信息和語法信息。早期基于RNN模型的特定目標情感分析主要是利用RNN來獲得句子的上下文語義信息,如Tang等[7]提出的目標依賴的長短期記憶網絡(target dependent long short-term memory,TD-LSTM)模型,Wang等[8]提出的帶有目標嵌入的注意力長短期記憶網絡(attention-based LSTM with aspect embedding,ATAE-LSTM)模型等,但LSTM模型存在模型復雜、不能并行計算等問題,在訓練時需要大量的時間。盡管LSTM模型可以提取長距離的上下文語義信息,但是對于含有多個目標的文本目標情感分析任務,局部特征對特定目標分類結果的影響相對于全局特征更加重要。CNN通過不同的卷積核運算獲取不同粒度的特征,在獲取句子的局部特征任務上具有獨特優勢。

特定目標情感分析[7](aspect-based sentiment analysis,ABSA)是對文本中特定目標實體的情感極性進行分類,是一項更細粒度的情感分析任務。例如,“這家酒店的服務很好,但是地理位置不容易找到,太偏了?!痹撐谋居小胺铡焙汀暗乩砦恢谩眱蓚€目標實體,目標實體“服務”對應的情感極性是積極的,而“地理位置”對應的情感極性是消極的。因此,一個文本中多個不同的目標實體可能存在相反的情感極性。在特定目標情感分析中,如何獲取目標實體與上下文的關系也是熱門研究內容。注意力機制通過一個注意力矩陣計算出句子相應的注意力特征,在訓練時重點關注某些信息,在實體識別、文本分類、機器翻譯等文本領域得到廣泛使用。梁斌等[9]利用多注意力的卷積神經網絡獲取深層次的情感特征信息,有效識別目標的情感極性。李明揚等[10]融入自注意力機制對社交媒體命名實體識別任務做了改進,通過不同子空間捕獲上下文信息來提高實體識別性能。然而,簡單的注意力模型不善于捕獲上下文詞對目標詞的影響程度。

本研究針對RNN對句子建模耗費大量時間和無法獲取局部特征的問題,采用帶有門控機制[11]的卷積神經網絡獲取句子語義特征,摒棄RNN結構,使用門控機制控制通過神經網絡節點的信息,增強目標特征的表達;為了更好地獲取上下文信息,本研究利用注意力機制構建多頭注意力層,通過對文本信息特征進一步表達,提取更多的信息,通過帶有門控操作的卷積神經網絡,再經過隱藏層處理,獲得目標文本的情感極性判斷;為了彌補CNN在獲取文本序列信息方面的劣勢,在輸入層加入文本與目標實體的相對位置編碼信息,增加文本的額外信息,提升特定目標情感分析性能。

1 帶有位置嵌入的多頭注意力門控卷積網絡

1.1 問題定義與模型架構

首先,模型通過輸入層獲得文本嵌入矩陣、位置嵌入矩陣和目標嵌入矩陣;然后,利用多頭注意力層對文本嵌入矩陣進行深層次特征表達,在拼接位置信息后輸入到卷積層進行局部特征提取,將提取到的特征與目標信息融合,利用tanh門和relu門進行對位相乘操作,控制信息傳遞;最后使用平均池化得到最終特征,輸出到Softmax分類器,完成目標情感極性識別。

圖1 PE-MAGCN模型架構

1.2 輸入層

輸入層包括文本嵌入(word embedding)、目標嵌入(target embedding)和位置嵌入(position embedding),目的在于獲得文本的表示矩陣。

文本嵌入是使用自然語言處理中的詞嵌入方法,將高維度one-hot編碼轉換為低維度的連續值向量來表達詞的語義信息。用文本嵌入矩陣S={w1,…,wi,…,wn}表示Sc經過詞嵌入得到的實數矩陣,wi∈Rdw是第i個詞的實數值向量,其中dw是每個詞用向量表示的維度。

目標嵌入是將目標實體用連續值向量來表示,向量的維度與文本嵌入向量一致。目標嵌入矩陣用T={wi,wi-1,…,wi+m-1}表示語料中標注的實體。

(1)

1.3 多頭注意力層

受Transformer[12]結構的啟發,本研究在輸入層和卷積層之間額外加入注意力層,運用多頭自注意力機制來更好地表示目標和句子的特征,通過使用縮放點積操作(scaled dot product attention,SDA)計算句子中上下文單詞的權重,得出每個單詞的注意力分數,如式(2)~(4)所示。

(2)

Q,K,V=fx(X),

(3)

(4)

其中:X為輸入層的詞嵌入矩陣;Q、K、V分別表示Query、Key、Value由X乘以權重矩陣Wq∈Rdw×dq、Wk∈Rdw×dk、Wv∈Rdw×dv;dq、dk、dv表示權重矩陣的維度,均為dw/h;h為注意力頭的個數。

將所有頭學習到的注意力表示拼接后進行矩陣轉換,多頭自注意力(multi-head self-attention,MHSA)矩陣

Xatt=MHSA(X)=tanh(H1:…:Hh}·W)。

(5)

其中:Xatt∈Rn×dw表示經過注意力層后的詞向量矩陣;H1,…,Hh表示h個頭學習到的注意力表示;“:”表示所有向量拼接;W∈Rhdq×dw表示多頭注意力的權重矩陣;tanh(·)為非線性函數,作為激活函數加入,以增強網絡學習能力。

1.4 卷積層

本研究使用卷積層的窗口卷積來提取句子中的局部特征。窗口卷積使用單詞本身和上下文大小為窗口來進行卷積操作,在超出邊界的句首或者句尾位置利用padding操作補齊,對上層得到的多頭自注意力矩陣Xatt進行卷積運算[13],如式(6)所示。

ci=conv(w·xi+b),

(6)

其中:ci∈Rdc為第i個卷積核運算得出的結果;dc為模型結構超參數,表示卷積層的輸出維度;conv(·)表示卷積運算;w為卷積核權重;xi表示多頭自注意力矩陣Xatt的第i個向量,0≤i≤n;b為偏置向量。

1.5 門控層

門控層由帶有目標嵌入的門控單元[14](gated tanh-relu unit,GTRU)組成,每個門控單元與兩個卷積神經節點連接,其輸入為卷積層的輸出和特定目標特征向量,如式(7)~(9)所示。

gi=si×αi,

(7)

αi=relu(Wα·ci+Vα·vα+bα),

(8)

si=tanh(Ws·ci+bs)。

(9)

其中:vα表示經過卷積操作后的目標特征向量,Vα表示目標特征向量的權重矩陣,向量αi的元素∈(0,1)表示經過relu門后接收的目標信息比例,Ws、Wα分別表示tanh門和relu門的權重矩陣,bs、bα分別表示tanh門和relu門的偏置向量,αi、si、gi與ci的大小一致,0≤i≤n。

1.6 輸出層

輸出層包含平均池化層和分類器,門控層得到的向量ci按順序拼接為矩陣C,先經過平均池化操作得出主要特征向量r,降低模型的參數和運行時間,再經過Softmax分類器得到特定目標的情感極性。

r=Avg{C},

(10)

y=Softmax(W·r+b)。

(11)

其中:Avg函數表示平均池化操作;Softmax輸出最終特征,得到不同類別的概率;y為一個3維的向量,分別表示3個類別的概率。

1.7 模型訓練

為了預測目標極性,需要在預測前對模型進行訓練。使用交叉熵和L2正則化作為模型的損失函數,使用梯度下降法來最小化損失函數

(12)

PE-MAGCN模型的訓練過程如算法1所示。輸入包括使用Glove得到的文本嵌入矩陣X和目標嵌入矩陣T,使用建模方法得到的位置嵌入矩陣L。首先,使用(0,1)范圍內的隨機數對模型中的權重矩陣進行初始化(第1行),設置模型超參數和劃分數據集。然后,多次迭代學習直到模型擬合(第2~7行)。具體是使用前向傳播計算模型的損失函數,依據梯度下降法更新模型中的權重變量。最后,輸出測試集的結果。

算法1 PE-MAGCN模型的訓練算法Input:文本嵌入矩陣X,目標嵌入矩陣T,位置嵌入矩陣LOutput:測試數據集結果1) 隨機初始化模型參數,設置超參數,劃分數據集;2) while i <= epoch do:3) 使用公式(2)~(11)計算輸出值ypre;4) err←ypre-y;5) 計算神經元總誤差loss;6) if loss≤delta:break;7) 計算梯度誤差,使用梯度下降算法反向更新參數;8)end while9)輸出測試集結果;10) 計算準確率和F1值。

模型訓練主要的計算成本是前向傳播,評估模型的函數和計算梯度誤差,使用梯度下降算法更新參數。句子、特定目標以及目標情感極性為一條數據,在前向傳播過程中,一條數據分別經過輸入層、多頭注意力層、卷積層、門控層,最終達到輸出層,時間復雜度為O(1),語料中共有N條數據,故前向傳播的時間復雜度為O(N)。評估模型loss函數需要用到所有的樣本標簽和預測標簽,時間復雜度為O(N)。計算梯度誤差是對網絡中的參數求梯度,然后使用梯度下降法更新參數,時間復雜度為O(N)。因此,模型訓練一次迭代的時間復雜度為O(N)。

本模型針對RNN存在的問題,采用了卷積網絡結構獲取文本局部特征,引入多頭注意力機制對文本嵌入特征進行處理,增強網絡特征表達能力;增加位置嵌入矩陣,考慮了文本和目標的相對位置信息,通過對位置建模和訓練,反映不同單詞對目標實體的貢獻程度,在卷積網絡層后加入門控層,控制信息在網絡中的傳遞,獲取與目標實體更相關的特征。

2 實驗與結果分析

為了驗證本模型的文本情感分類性能,在2個不同領域的數據集上進行實驗,并與8個模型進行對比。實驗環境:操作系統為Windows 10 64位,處理器為AMD Ryzen5 2600,內存16 GB,顯存為GTX2060 6 GB,開發語言是Python 3.6,采用的深度學習框架為Pytorch 1.50。

2.1 實驗數據集

選取英文SemEval 2014數據集(http:∥alt. qcri. org/semeval2014/),數據集包括restaurant領域和laptop領域的評論數據。每個評論樣本分為positive、neural和negative 3類情感傾向。數據集的統計情況如表1所示。

表1 SemEval 2014數據集

2.2 實驗參數設置

使用多種窗口卷積核對輸入矩陣進行卷積操作,訓練過程中使用Adadelta[15]更新規則,其他參數如表2所示。

2.3 對比實驗

為了驗證本模型性能,在上述數據集上設置多個基準模型進行對比實驗,具體基準模型如下。

1) 目標依賴的長短期記憶網絡[7](TD-LSTM):利用兩層目標依賴的LSTM來預測情感極性。

2) 帶有目標嵌入的注意力長短期記憶網絡[8](AEAT-LSTM):使用LSTM模型來獲取全文序列信息,融合了注意力機制和實體嵌入,通過學習上下文和目標之間的信息來提高分類效果。

表2 實驗參數設置

3) 文本卷積神經網絡(text comvolutional neural network,TextCNN):Kim等[5]提出的一種針對NLP任務的卷積神經網絡模型。

4) 帶有目標嵌入的門控卷積網絡[14](gated convolutional network with aspect embedding,GCAE):通過卷積層構建目標和情感信息,并且使用門控單元控制信息的傳遞,經過最大池化層后預測情感極性。

5) 交互注意力網絡[16](interactive attention network,IAN):利用注意力機制對實體和上下文之間關系進行建模,關注目標和上下文之間的表示,融合后再作為最終表示。

6) 記憶網絡[17](memory network,MemNet):包含多層權重共享的計算層,每層包含一個注意力層和全連接層,通過多層計算后輸出到分類層。

7) 注意力編碼網絡(attention encoder network,AEN):利用注意力機制來對上下文和特定目標進行編碼,放棄循環神經網絡模型結構來提取句子特征,交互式學習上下文和目標的表示。

8) 包含句法依存信息的記憶網絡[18](MenNet with syntactic dependency information,MNSI):在原始MemNet的基礎上,利用卷積神經網絡和多頭注意力機制融合句法依存信息。

2.4 實驗結果及分析

為了驗證模型的性能,本模型與其他基準模型在相同環境下運行,各個模型的準確率和F1值的結果如表3所示。

表3 各個模型的準確率和F1值對比

從表3看出,與基準模型相比,本研究模型在兩個數據集中有一定效果的提升。從模型的類型來看,使用循環神經網絡的模型效果并不夠理想,效果最差的模型是TD-LSTM模型,原因在于TD-LSTM模型只是簡單地處理目標詞,無法準確地識別文本信息的特征,因此模型的準確率和F1值較低。ATAE-LSTM模型在循環神經網絡后加入注意力機制和目標實體嵌入信息,在效果上優于TD-LSTM模型。基于LSTM的兩個模型結構效果都不理想,原因在于雖然LSTM網絡能夠得到文本的序列信息,但是容易丟失信息,忽略目標與上下文之間的相關性信息。

由于CNN可以獲取文本的局部信息特征,準確率和F1值好于基礎的TD-LSTM模型。然而Text-CNN模型表現卻不好,因為TextCNN模型不是專門針對特定目標的模型,沒有融合目標信息,導致輸出的特征多為文本本身的特征,而并非目標相關的特征。GCAE模型由于存在門控機制,可以控制信息的傳遞,并且將目標嵌入到網絡模型中,增強了模型的信息獲取能力,表現優于TextCNN模型,且比循環神經網絡結構模型的效果好,說明門控機制的存在能夠一定程度改善目標特征選擇的問題。MNSI模型利用圖卷積結構,在訓練中通過節點的距離改變節點狀態,控制層與層之間的信息傳遞,增加了句法依存分析樹,轉換句子句法依存信息,消除目標詞多義產生的錯誤結果,結果上優于TextCNN和GCAE模型。

在注意力機制的模型中,IAN模型表現一般,在獲取目標詞與上下文單詞之間關系時,只是簡單地交互學習注意力信息。MenNet模型通過多個計算層獲取語義信息得到最后的文本表示,而且文本表示本質上為文本嵌入的非線性表示,模型效果優于IAN模型。AEN模型在三個注意力機制模型中表現最優,說明多頭注意力交互的有效性,避免了網絡遞歸計算,但整體性能相對于本研究模型還存在一定差距。

2.5 消融實驗分析

為了進一步分析模型各部分對性能的影響程度,使用Laptop數據集進行消融實驗,各個模型的參數值相同,結果如表4所示。

表4 消融實驗結果

表4給出的實驗結果中,從acc和F1值兩個指標可以看到,消融后的模型在準確率和F1值兩方面效果均不如提出的模型,表明模型改善的部分在提高分類性能發揮著積極的作用。通過對比無門控機制模型(PE-MACN)和本研究模型(PE-MAGCN)結果,能夠發現存在門控機制的模型準確率提高了0.37%,F1值提高了0.9%,表明門控機制在控制信息傳遞方面發揮出積極作用。通過與無位置嵌入信息模型(MAGCN)對比,PE-MAGCN在Laptop數據集上的準確率和F1值分別提升了0.24%和0.97%,表明位置嵌入信息能夠反映目標和文本的相對位置,在訓練過程中一定程度反映局部特征對目標的貢獻程度。從表中可以看出,不添加注意力層的模型(PE-GCN)準確率和F1值均小于無門控機制的模型和無位置嵌入信息的模型,本研究模型(PE-MAGCN)與之相比,準確率提高了1.68%,F1值提高了1.3%,提高幅度最大,表明注意力機制能夠有效增強模型的特征表達能力。

2.6 模型復雜性分析

為了測試本研究模型與其他模型的復雜性,在Laptop數據集進行實驗,迭代次數設置為20,學習率為0.01,batchsize設置為64,記錄每次epoch所需時間、模型達到收斂所消耗的時間以及模型的參數數量。實驗結果如表5所示。

由表5可以看出,PE-MAGCN模型的可訓練參數數量為1.08×106個,少于由多層全連接層和注意力層構成的MemNet模型和MNSI模型,這是由于模型結構較為復雜,導致模型偏大。在迭代一次所需時間方面,模型要優于ATAE-LSTM、MNSI、MenNet和IAN模型,次于TD-LSTM、TextCNN、GCAE、AEN。雖然上述模型的時間復雜度均為O(N),但是由于模型內部的結構不同,實例消耗的時間也不同。

與注意力網絡MemNet和IAN模型相比,收斂時間降低了44.38和58.5 s,因為模型摒棄了循環網絡結構,模型訓練時不會因為計算目標與上下文之間的注意力矩陣消耗較多時間。與循環網絡相比,參數數量高于TD-LSTM和ATAE-LSTM模型,迭代一次所消耗的時間為3.7 s,高于TD-LSTM迭代一次所需時間,原因在于TD-LSTM模型的結構較為簡單,訓練一次所計算的參數較少。ATAE-LSTM模型在LSTM模型上加入全局注意力層,獲得隱藏層特征后再進行注意力矩陣計算,消耗較多時間。而PE-MAGCN模型不使用LSTM結構獲取特征,使用卷積單元獲取句子局部特征,因此時間少于ATAE-LSTM模型。與TextCNN、GCAE模型相比,PE-MAGCN模型的迭代一次所需時間分別增加了0.7和0.44 s,收斂時間增加了2.69和6.76 s,說明加入多頭注意力層會增加訓練時間,但與提高的分類準確率相比,增加的時間代價可以接受。與MemNet、IAN模型相比,PE-MAGCN模型迭代一次的時間分別降低了3.74和5.58 s,收斂

表5 模型參數數量和模型訓練時間對比

時間分別降低了44.38和58.5 s,說明交互式注意力機制和LSTM模型的結構會消耗較多的時間,時間復雜性較高。與AEN模型相比,PE-MAGCN模型迭代時間增加了0.2 s,收斂時間降低了7.27 s,這是因為AEN模型使用注意編碼層替代了LSTM層,獲取輸入嵌入的隱藏狀態;使用點卷積獲取目標語義相關,與本研究模型結構相似,因此時間代價相差不大。與MNSI模型相比,PE-MAGCN模型的迭代時間降低了4.02 s,收斂時間降低了47.71 s,這是由于MNSI模型是在MenNet模型的基礎上又引入了句法依存關系并使用spacy工具包將句子轉換為句法依存樹。雖然轉換句法依存樹的時間復雜度也為O(N),但是仍然消耗額外的轉換時間,在所有的對比模型中訓練消耗的時間最高。PE-MAGCN模型使用多頭注意力機制獲取特征表達,利用門控卷積層控制信息的傳遞,能夠有效地表示目標相關特征,收斂速度較快,獲得了較高的準確率。

3 總結

針對循環神經網絡在獲取句子特征時,容易造成信息丟失和較長的訓練時間,以及傳統卷積神經網絡不能很好獲取上下文信息的問題,提出一種帶有位置嵌入的多頭注意力門控卷積網絡,完成特定目標情感識別任務。本研究模型首先利用多頭注意力層獲取目標和文本詞之間的語義交互信息,通過卷積神經網絡結構獲取文本局部特征,利用門控機制控制信息傳遞,將與目標相關的信息輸入到分類層。另外,為了獲取不同詞與目標特征之間的距離信息,模型額外加入位置嵌入矩陣,增加了模型的信息獲取能力。通過對SemEval 2014數據集進行實驗,驗證了模型的有效性和實用性,準確率和F1值在兩個數據集上都有提高。與其他基準模型比較發現,本模型相較于循環網絡和注意力機制網絡,具有較快的收斂速度,可為特定目標情感分析提供新的模型,但仍存在一些不足,如實驗所用的數據集規模有限且模型參數數量較多,一定程度增加了模型的訓練時間。后續將研究如何將現有的額外知識融入到神經網絡中,在精簡網絡模型結構的同時增強模型的情感分析結果。

猜你喜歡
特征文本情感
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 依依成人精品无v国产| 亚洲中文字幕久久无码精品A| 另类重口100页在线播放| 露脸真实国语乱在线观看| 中文字幕 欧美日韩| 欧美激情伊人| 国产三级精品三级在线观看| 欧美午夜在线观看| 99伊人精品| 亚洲精品第五页| 婷婷六月综合| V一区无码内射国产| 青青草国产一区二区三区| 在线国产毛片手机小视频| 91成人在线观看| 最近最新中文字幕在线第一页| 夜夜爽免费视频| 不卡无码h在线观看| 国产手机在线ΑⅤ片无码观看| 新SSS无码手机在线观看| 中文字幕丝袜一区二区| 农村乱人伦一区二区| 亚洲一本大道在线| 成人年鲁鲁在线观看视频| 亚洲伦理一区二区| 日本成人不卡视频| 欧美一级99在线观看国产| 午夜一级做a爰片久久毛片| 久久99久久无码毛片一区二区| 亚洲成a人片7777| 国产免费人成视频网| 在线无码九区| 国产亚洲美日韩AV中文字幕无码成人| 九一九色国产| 国产亚洲欧美日韩在线观看一区二区| jizz亚洲高清在线观看| 久久国产精品娇妻素人| 亚洲精品在线91| 又黄又爽视频好爽视频| 色婷婷成人| 69av在线| 无码人妻热线精品视频| 91视频首页| 日韩在线第三页| 亚洲精品第五页| 成年免费在线观看| 五月激激激综合网色播免费| 国产欧美精品专区一区二区| 一级毛片免费不卡在线视频| 黄色片中文字幕| 亚洲美女AV免费一区| 成年人国产网站| 精品久久高清| 19国产精品麻豆免费观看| 亚洲妓女综合网995久久| 天天综合天天综合| 在线播放91| 四虎综合网| 亚洲无码在线午夜电影| 精品三级在线| 亚洲第一成年免费网站| 国产在线观看人成激情视频| 亚洲女同欧美在线| 成人在线亚洲| 在线亚洲精品福利网址导航| 国产午夜福利片在线观看| 热这里只有精品国产热门精品| 国产日产欧美精品| 亚洲精品图区| 麻豆精选在线| 久热精品免费| 热久久综合这里只有精品电影| 2021最新国产精品网站| 日韩一区二区在线电影| 久久精品午夜视频| 狠狠亚洲五月天| 99久久成人国产精品免费| 九九久久精品国产av片囯产区| 亚洲国产欧洲精品路线久久| 日韩国产一区二区三区无码| 国产在线小视频| 波多野结衣一二三|