999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖注意力神經網絡的中文隱式情感分析

2021-12-21 13:48:00楊善良
計算機工程與應用 2021年24期
關鍵詞:文本情感模型

楊善良,常 征

山東理工大學 計算機科學與技術學院,山東 淄博255000

情感分析是自然語言處理領域的關鍵技術之一,分析文本中包含的情感、態度、觀點、情緒等因素,識別文本表達的情感類別。隨著網絡社交媒體的快速發展,網絡輿情、網民情緒、危機事件等對社會、經濟和政治產生越來越大的影響,情感分析技術成為網絡輿情分析和預測的核心技術,受到學術界和業界的廣泛關注和研究。近年來,很多情感分析方法被提出,特別是在深度學習和神經網絡技術得到應用之后,文本情感分析的準確率得到提升。但是情感分析技術仍然面臨很大的挑戰,例如在隱式情感分析方面的效果還不太好。

情感分析包含顯式情感分析和隱式情感分析,在以前的研究中沒有嚴格的區分,但是兩者存在明顯差異。顯式情感中包含了情感詞、情感轉折詞、副詞等明確表達情感信息的詞語,可以使用規則方法和機器學習方法進行識別。隱式情感中不包含情感詞語,很難直接判斷其情感類別,語義表達更加含蓄。表1給出了隱式情感語句的例子,三個例句分別表達了正面、負面和中性的情感,雖然在語句中找不出明確表達情感的詞語,但是仍然能夠表達出正面和負面的情緒。例如“滿滿的回憶,很多那個時代的元素。”表達了正面情緒,帶有正面的情感色彩。

表1 隱式情感語句實例表Table 1 Instance table of implicit sentiment sentences

隱式情感分析的研究已經受到關注,隱式情感分析模型多采用神經網絡模型和注意力機制。文獻使用BiLSTM循環神經網絡和GCN圖卷積神經網絡研究中文文本隱式情感分析[1-2]。隱式情感分析的困難主要在于以下三個方面:不包含情感詞語,情感特征提取更加困難;語句中的詞語屬于客觀詞或中性詞,通過上下文語義產生不同情感,語義特征提取困難;對主觀情感傾向的表達比較委婉,與認知背景相關,沒有標準定義。

根據以上困難,可以提出兩個假設:第一,語言環境中的詞語之間會有影響,相互作用產生不同情感;句子中詞語對情感表達的重要性不同。為了表示詞語之間的相互影響和詞語情感表達的差異,本文提出基于圖注意力神經網絡的情感分析模型ISA-GACNN,用圖模型表示詞語之間、詞語和句子之間的關聯關系,用注意力機制計算詞語對情感表達的重要性。對注意力機制進行改進,由于多頭注意力的存儲信息存在重復疊加的情況,借鑒文獻中的正交注意力模型[1],使用注意力正交約束多頭注意力存儲不同的情感信息,保證注意力之間的差異性;語句中一般存在部分詞語對情感表達非常重要,借鑒文獻中限制刪除詞語和保留詞語數量的約束[3],使用分值約束使注意力權重關注若干個重要詞語。

1 相關工作

近年來情感分析成為自然語言處理領域的熱點研究方向,情感分析方法可以分為基于規則的方法、基于機器學習的方法、基于深度學習的方法。隨著情感分析研究的深入,隱式情感分析得到越來越多的關注。從隱式情感分析和圖神經網絡兩個方面分析隱式情感分析的相關研究工作,并在前人的研究基礎上闡述本文的研究動機。

1.1 隱式情感分析

隱式情感分析在沒有顯式情感詞語的情況下,識別文本的情感類別,比顯式情感分析任務更加困難。詞語語義表示和隱式情感表示是隱式情感分析研究的基礎問題。文獻使用基于特征的方法分析隱式情感,通過挖掘潛在的情感模型,識別方面級情感和觀點級情感[4]。文獻提出基于知識的詞語歧義消解方法,從而減輕詞語歧義對隱式情感分析的影響[5]。

詞語語義表示在隱式情感分析任務中起到關鍵作用,在詞語語義表示的基礎上使用注意力機制分析文本中蘊含的情感信息,能夠有效提高隱式情感分析的準確率。文獻提出基于上下文的異構圖卷積神經網絡模型,使用Bi-GRU、GCN編碼目標信息和上下文信息,最后使用注意力機制融合上下文語義信息[2]。文獻提出基于混合神經網絡的中文隱式情感分析模型,使用CNN網絡提取文本特征,使用LSTM網絡提取上下文信息,設計了單詞級和句子級注意力關注對情感貢獻大的特征[6]。文獻提出帶有多極性注意力的BiLSTM模型,使用多極性注意力識別詞語的情感屬性[1]。

1.2 圖神經網絡

圖神經網絡具有表達關聯信息的能力,捕捉數據中的結構關系,在社交分析、生物信息和計算機視覺等任務上表現出突出的效果,綜述文獻對圖神經網絡模型做了系統總結[7-8]。近年來,新的圖神經網絡模型不斷被提出,例如GCN(Graph Convolutional Network)、GAT(Graph Attention Network)、GaAN(Gated Attention Network)、HetGNN(Heterogeneous Graph Neural Network)、HAN(Heterogeneity Attention Network)等。文獻提出圖注意力神經網絡模型GAT,使用自注意力機制解決了圖卷積相關模型的缺陷,賦予鄰居節點不同權重,使模型能夠解決歸納問題和傳導問題[9]。文獻在大規模時空圖上使用門控注意力機制,提出門控注意力圖模型GaAN,使用卷積子圖控制每個注意力的重要性[10]。文獻提出異構圖神經網絡HetGNN,同時考慮異構結構信息和異構內容信息[11]。文獻提出異構圖注意力神經網絡模型HAN,考慮了包含不同類型節點和邊的異構圖,使用節點層和語義層注意力學習重要的節點和重要的元路徑[12]。

在文本分類任務上使用圖神經網絡,利用文本數據的結構關系構建圖神經網絡,例如詞語共現、句法關系、上下文關系等[13-14]。文獻提出圖卷積神經網絡文本分類模型,首先使用詞語共現關系和詞語文本關聯關系構建文本圖譜,然后訓練GCN網絡[13]。文獻構建文本圖張量,用來描述語義、語法、上下文等信息,并使用圖內傳播和圖間傳播兩種算法傳播信息[14]。

在情感分類任務上也出現一些使用圖神經網絡模型的研究成果。文獻使用圖卷積神經網絡和注意力機制解決基于方面的情感分類任務[15]。文獻提出基于注意力的圖卷積神經網絡模型AEGCN來解決目標情感分類任務[16]。文獻使用圖卷積神經網絡捕捉多個方面之間語義依賴關系,在模型中使用注意力機制編碼多方面和上下文[17]。文獻研究了情感表示學習,使用圖神經網絡對文本語義關系建模,訓練模型得到包含語義信息和句法信息的情感詞向量[18-19]。

注意力機制在神經網絡模型中發揮著關鍵作用[20]。上述文獻中采用自注意力、多頭注意力等常用注意力模型,缺少對注意力機制的深入研究。本文提出自約束注意力機制,在圖注意力神經網絡模型的基礎上使用正交約束和注意力分值約束,提高注意力機制的有效性和可解釋性。

2 模型方法

該部分研究圖卷積網絡GCN和圖注意力網絡GAT,在此基礎上提出基于圖注意力神經網絡的隱式情感分析模型ISA-GACNN。

2.1 GCN網絡

GCN是一種多層的圖神經網絡,使用鄰居節點特征不斷更新節點向量,最終得到含有上下文語義的節點表示。假設G(V,E)表示圖,包含節點集合V和邊集合E。用X∈Rn×m表示節點特征,n是節點的數量,m是特征向量的維度。A(Aij)∈Rn×n表示圖G的鄰接矩陣,A的對角線元素設置為1,表示節點自連接。D(Dij)∈Rn×n表示圖G的度矩陣,用于計算拉普拉斯矩陣。公式(1)是GCN單層圖卷積網絡的計算公式:

2.2 GAT網絡

Velickovi和Bengio等人[9]提出圖注意力神經網絡GAT,在卷積計算的過程中使用自注意力機制,增強了圖神經網絡的信息傳播和表示能力[9]。假設有圖的輸入h={h1,h2,…,hn},hi∈Rm,其中n表示圖中節點的數量,m表示節點特征向量的維度。GAT網絡的輸出為,其中m′是輸出節點特征向量的維度。公式(3)是注意力機制的權重αij的計算公式,表示第i節點的第j個鄰居節點的權重,其中Ni表示節點i的鄰居節點集合,W∈Rm′×m是節點特征向量的權重矩陣,||是運算符表示兩個向量之間拼接,aT∈R2m′是注意力機制的權重,LeakyReLU是非線性激活函數。

圖注意力機制只計算節點i的鄰居節點上的權重,并融合其鄰居節點上的信息。GAT的輸出層計算方法如公式(4),其中σ是非線性激活函數。

GAT模型中使用多頭注意力機制使模型學習過程更加穩定,多頭注意力計算方法如公式(5):

單層GAT計算,網絡節點只融合其鄰居節點的信息,如果要融合距離更遠處的節點信息,則要使用多層GAT網絡層。

2.3 隱式情感分析模型

本文提出基于圖注意力卷積神經網絡的情感分析模型ISA-GACNN,使用圖卷積神經網絡對隱式情感語句建模,并采用注意力機制提取對情感分析重要的語句特征。情感分析的流程圖如圖1所示,首先對情感語料進行預處理,使用哈爾濱工業大學分詞工具HTP進行分詞;然后計算詞語的點互信息PMI和TF-IDF值,建立包含句子節點和詞語節點的異構圖譜;最后將異構圖輸入ISAGACNN網絡,得到句子節點的特征向量,使用softmax計算文本節點在各個情感類別上的概率分布,最終得到文本情感分類標簽。該小節詳細介紹模型結構和使用模型進行隱式情感分類的原理。

圖1 模型流程圖Fig.1 Flow chart of model

2.3.1 輸入數據

假設輸入隱式情感文本集合表示為D(d1,d2,…,dn),經過分詞處理之后使用詞語集合表示文本。單個文本使用di表示,di∈Rl表示文本特征向量。文本包含若干個詞語{wi1,wi2,…,wim},其中wij∈Rl表示詞語特征向量,l是特征向量維度。

異構圖譜由詞語節點和句子節點共同組成,表示為G(V,E),V是圖的節點,V?{D,W},vi∈V,D是隱式情感語句節點集合,W是詞語節點集合;E是節點之間的邊集合,eij∈E,詞語與詞語之間的邊權重根據點互信息PMI值確定,句子節點和詞語之間的邊權重根據詞頻逆文檔頻率TF-IDF值確定。異構圖譜的結構如圖2所示,圖中di表示句子節點,wij表示詞語節點,分別在詞語和詞語、句子和詞語之間建立連接。節點vi和節點vj之間的邊權重eij的計算如式(6)所示:

圖2 異構圖譜G的結構示意圖Fig.2 Structural diagram of heterogeneity graph G

點互信息PMI用來衡量兩個詞語之間的語義關系,當PMI(i,j)的值大于零時,說明詞語i和詞語j之間存在緊密的語義關系;當PMI(i,j)的值小于零時,說明詞語i和詞語j之間語義關系不密切或者不存在語義關系。所以在構建圖G的時候只在PMI值大于零的兩個詞語之間建立關聯關系。PMI的計算如式(7),其中p(i,j)是詞語i和詞語j在統計窗口內同時出現的概率,p(i)和p(j)分別是詞語i和詞語j在統計窗口中出現的概率。

詞頻逆文檔頻率TF-IDF用來衡量詞語對于文本的重要程度,詞語的重要程度和詞語在文本中出現的頻率呈正比增加,同時和詞語在語料集合中出現的頻率呈反比降低。詞語i在語句j中的TF-IDF值計算如式(8)所示。其中,nij表示詞語i在文檔j中出現的頻率,|D|表示語料庫中所有文檔的數量,{j:ti∈dj}表示包含詞語i的所有文檔。

2.3.3 ISA-GACNN網絡

ISA-GACNN網絡結構如圖3所示,首先將構建的異構圖輸入GCN圖卷積神經網絡,經過卷積操作捕捉詞語間的語義關系;然后使用注意力機制計算詞語權重,更新語句節點的特征向量;最后使用全連接層和softmax計算情感標簽的概率分布。在注意力機制中使用正交約束和權重分值約束,正交約束保證了多頭注意力存儲信息的差異性;權重分值約束保證了注意力機制關注部分重要詞語。

圖3 ISA-GACNN網絡結構圖Fig.3 Network structure of ISA-GACNN

圖譜G中保存了詞語節點wi和句子節點di的特征向量矩陣X(xi),xi∈Rm,m是節點特征向量的維度;節點之間的鄰接矩陣A(aij),aij表示節點i和j之間的連接邊權重。

災情就是命令,地震發生后,武定供電局局長立即組織相關應急辦人員召開地震緊急會,根據縣政府工作要求和楚雄供電局蔡局長工作指示要求,隨即啟動武定供電局地震災害Ⅳ級應急響應,把抗震救災保供電作為首要工作來抓,統一思想,統一認識,統一行動,集中所有人力、物力、財力全力以赴開展抗震救災保供電工作,提出10條應急工作要求。

圖卷積神經網絡能夠在節點之間傳播語義信息,經過卷積計算節點的特征向量包含了語義信息和詞語間的關聯信息,這里使用圖卷積神經網絡層更新節點特征向量。圖卷積神經網絡層的計算如式(9)所示,其中A?是鄰接矩陣的正則化拉普拉斯矩陣,鄰接矩陣A的矩陣元素是節點之間的權重eij,W′∈Rl×o是卷積權重,o是卷積操作的輸出節點特征向量維度。

在GCN層之后,使用注意力機制計算鄰居節點對中心節點的重要程度,也就是詞語對語句節點情感表達的貢獻程度。節點vi的注意力計算示意圖如圖4所示,vi是中心節點,vij(j=1,2,…)是鄰居節點,αij(j=1,2,…)是節點之間的權重,就是鄰居節點對中間節點的重要程度。

圖4 注意力機制結構圖Fig.4 Structure of attention mechanism

注意力的計算如式(10)所示,其中Ni表示節點i的鄰居節點,Q∈Ro×m′是注意力的查詢權重,K∈Ro×m′是注意力的關鍵字權重,aT∈R2m′是注意力權重向量。

得到注意力權重之后,使用注意力權重更新節點特征向量,更新公式如式(11)所示,σ是非線性激活函數。W″∈Ro×l是注意力機制輸出的權重向量,l是輸出節點的特征向量維度。鄰居節點的注意力權重越大,對中心節點的特征向量貢獻就越多。

在注意力機制計算的過程中,可以使用多頭注意力計算權重,節點特征向量的更新公式如式(12)所示:

這里在使用注意力機制的時候考慮兩個問題,第一,多頭注意力機制計算出的權重存在重疊的情況,會降低模型表示信息的能力,所以需要保證多頭注意力之間差異性;第二,通常情況下,語句中部分重要詞語對情感表達起到關鍵作用,所以注意力權重應該集中在部分重要詞語上。這里提出正交注意力約束和權重分值約束。

通過多頭注意力得到權重向量[α1,α2,…,αn],αi是第i個注意力權重向量,為了注意力權重向量之間保留差異,減少重疊信息,使用正交約束。公式(13)是注意力正交約束的計算公式,通過最小化L1保證多頭注意力之間的差異性。

句子節點的鄰居節點是組成語句的詞語集合,鄰居節點集合的注意力權重表示為αi[α11,α12,…,α1m]。注意力權重不能只集中在一個詞語上,否則會丟失大量語義信息;也不能分散在所有詞語上,否則起不到關注重要詞語的作用。注意力分值約束首先計算權重向量的方差,然后使用單峰函數f(x)=x+1/x約束方差取值,當方差為1的時候取到最小值2,從而實現權重集中在部分詞語上的目的。分值約束的計算方法如公式(14)所示。其中ρi是第i個句子權重矩陣的方差,N是句子數量。通過最小化L2控制句子注意力集中在部分重要詞語上。

更新句子節點的特征向量之后,使用句子特征向量計算情感類別的概率分布,預測文本的情感類別。使用全連接層和softmax函數計算。全連接層的計算如式(15),使用句子節點vi∈D的特征向量,其中W1∈Rl×c,c是情感分類類別數量,σ是非線性激活函數。

Softmax是歸一化函數,計算句子節點的類別概率分布,計算公式如公式(16),zi表示屬于第i個情感類別的概率。

使用交叉熵損失函數作為分類結果的損失函數,計算公式如式(17)所示,其中D是文本集合,tdk是文本的標注標簽,zdk是預測文本情感概率。

公式(18)是模型的損失函數,使用隨機梯度下降算法優化模型參數,使得損失函數逐步下降,最終得到最優的隱式情感分析模型。

3 實驗

3.1 數據集

2019年,第八屆全國社會媒體處理大會SMP組織了中文隱式情感評測SMP-ECISA,發布了中文隱式情感分析評測數據集。該數據集由山西大學提供,數據來源主要包括微博、旅游網站、產品論壇,主要領域包括春晚、霧霾、樂視、國考、旅游、端午節等。數據集已經使用大規模情感詞典過濾掉包含顯示情感詞的文本。數據標注為褒義隱式情感(標簽1)、貶義隱式情感(標簽2)以及不含情感傾向的句子(標簽3)。訓練數據集、驗證數據集和測試數據集的情況如表2所示。表中總數是指標注的語句數量,褒義句數表示標注為褒義隱式情感句的數量,貶義句數表示標注為貶義隱式情感句的數量,中性句數是標注為不包含情感句的數量。訓練集和驗證集具有公開標簽,這里使用已標注的數據按照9∶1的比例進行訓練和測試,已標注的語句總數為19 917句。

表2 數據集信息表Table 2 Information of datasets

3.2 評價指標

評價指標采用準確率P、召回率R和F值,計算公式如式(19)~(21)所示。其中TP是將正類預測為正類的數量,FP是將負類預測為正類的數量,FN是將正類預測為負類的數量。F值是綜合考慮準確率和召回率的調和值,反映了模型的整體效果。

3.3 結果分析

對所提模型ISA-GACNN進行實驗分析,首先介紹模型所采用的參數,然后使用評價指標分析模型和添加兩種約束機制之后的結果,最后和文獻中的基準模型進行對比分析。所提出模型的準確率和F值均高于基準模型,驗證了所提模型的有效性和先進性。

3.3.1 模型參數

模型參數如表3所示,參數值根據實驗經驗設置。初始化節點特征向量的時候使用正態分布,使得模型更容易得到最優解。輸入特征向量的維度為100,在進行圖卷積操作之后,輸出特征向量的維度為100,經過注意力機制更新的特征向量維度為100,本文模型采用的注意力機制頭數為3,權重向量為[a1,a2,a3]。

表3 模型參數表Table 3 Parameters of proposed model

3.3.2 實驗結果

模型實驗結果如表4所示,表中OC表示在圖注意力模型上添加正交約束OC(Orthogonal Constraint),SC表示在圖注意力模型上添加分值約束SC(Score Constraint)。從實驗結果可以看出,基礎模型ISA-GCNN的F值為88.8%,添加注意力正交約束和分值約束之后均提升了模型準確率,F值達到90%以上,說明兩種約束對情感分類都有作用。同時添加兩種約束得到最好結果的F值達到91.7%。

表4 模型實驗結果表Table 4 Result of experiments %

3.3.3 對比分析

比較文獻中的基準模型和本文所提模型,文獻基準模型包括GRU、LSTM、BiLSTM、文獻[1]的模型、文獻[2]的CsHGCN模型和文獻[6]所提模型,GRU、LSTM和BiLSTM的F值采用文獻[1]的結果值。模型對比實驗的結果如表5所示,表中“—”表示文獻中沒有該指標的結果;文獻[2]的指標采用三種情感類別的平均值。從實驗結果表可以看出,本文提出的模型的F值為91.7%,遠高于其他基準模型,比文獻[6]的模型F值高11.7%。

表5 模型對比實驗結果表Table 5 Result of contrast test %

4 總結

本文研究了基于圖注意力神經網絡的隱式情感分析,提出ISA-GACNN模型。闡述了模型研究的動機、原理和結構,在SMP2019中文隱式情感分析評測數據集上驗證了模型的有效性和先進性。隱式情感分析最大的特點是不包含顯式情感詞,表達情感更加含蓄,情感特征提取更加困難。本文提出圖注意力卷積神經網絡模型,對注意力機制進行約束,保證多頭注意力之間的差異性和注意力關注部分重要詞語。通過實驗分析驗證了圖注意力神經網絡模型和注意力機制對情感分析的作用。本文的研究還沒有考慮外部知識對隱式情感分析的影響,在后續的研究中將探索詞語詞性、依存關系等語義信息在圖神經網絡情感分析模型中的應用。

猜你喜歡
文本情感模型
一半模型
如何在情感中自我成長,保持獨立
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
3D打印中的模型分割與打包
主站蜘蛛池模板: 人人看人人鲁狠狠高清| 99爱视频精品免视看| 国产精彩视频在线观看| 亚洲福利网址| 欧美精品成人| 亚洲自拍另类| 国产精品爽爽va在线无码观看| 欧美精品成人一区二区在线观看| 国产一区二区三区视频| 国产精品真实对白精彩久久| 国产女人在线视频| 伊人精品成人久久综合| 五月天丁香婷婷综合久久| 国产精品亚洲专区一区| 中文字幕有乳无码| 漂亮人妻被中出中文字幕久久| 国产女人水多毛片18| 99久久亚洲精品影院| 91无码网站| 久久精品一品道久久精品| 国产jizzjizz视频| 香蕉精品在线| 国产精品原创不卡在线| 国产丝袜91| 国产 在线视频无码| 国产迷奸在线看| 亚洲日韩Av中文字幕无码| 亚洲一欧洲中文字幕在线| 精品国产免费人成在线观看| 26uuu国产精品视频| 91探花国产综合在线精品| 精品一区二区三区自慰喷水| 69精品在线观看| 五月天婷婷网亚洲综合在线| 色综合久久综合网| 亚洲成人播放| 欧美在线免费| 一级一级特黄女人精品毛片| 日韩精品欧美国产在线| 国产精品亚洲片在线va| 国产99在线| 国产日韩欧美视频| 日本一区二区三区精品国产| 成人免费一区二区三区| 污污网站在线观看| 亚洲日韩AV无码一区二区三区人| 国产福利在线免费| 精品一区国产精品| 亚洲视频一区| 国产麻豆精品在线观看| 中文字幕 91| 午夜精品区| 亚洲AV电影不卡在线观看| 国产精品手机视频| 免费无码AV片在线观看中文| 日本www在线视频| 国产真实二区一区在线亚洲| 成年看免费观看视频拍拍| 午夜毛片福利| 91 九色视频丝袜| 国产精品网址你懂的| 久久久精品国产SM调教网站| 国产成人精品男人的天堂下载 | 亚洲AV人人澡人人双人| 亚洲中字无码AV电影在线观看| 国内精品九九久久久精品| 亚洲欧美自拍视频| 国产在线精品99一区不卡| 欧美天堂在线| 妇女自拍偷自拍亚洲精品| 91丝袜美腿高跟国产极品老师| 成人看片欧美一区二区| 蜜桃视频一区| 午夜啪啪网| 亚洲一区国色天香| 青青草综合网| 一本色道久久88综合日韩精品| 青青极品在线| 日韩无码真实干出血视频| 亚洲国产精品VA在线看黑人| 国产免费久久精品44| 亚洲乱亚洲乱妇24p|