999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

用于方面級(jí)情感分析的圖指導(dǎo)的差異化注意力網(wǎng)絡(luò)

2023-10-24 14:16:22張文軒殷雁君
中文信息學(xué)報(bào) 2023年7期
關(guān)鍵詞:機(jī)制情感模型

張文軒,殷雁君

(內(nèi)蒙古師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,內(nèi)蒙古 呼和浩特 010022)

0 引言

隨著社交網(wǎng)絡(luò)和電子商務(wù)的發(fā)展,情感分析已經(jīng)成為自然語言處理(Natural Language Processing, NLP)的一個(gè)熱門研究課題[1]。方面級(jí)情感分析(Aspect-Level Sentiment Analysis, ALSA)是一項(xiàng)面向?qū)嶓w的細(xì)粒度情感分析任務(wù),旨在確定句子中方面項(xiàng)的情感極性,即積極、消極或中性。以語句“Great food but the service was dreadful !”為例,其對(duì)于給定的兩個(gè)方面項(xiàng)“food”和“service”的情感極性分別為積極和消極。ALSA可以準(zhǔn)確地識(shí)別用戶對(duì)某個(gè)具體方面的態(tài)度,而不是簡(jiǎn)單地為一個(gè)句子指定情感極性,因而在市場(chǎng)調(diào)研、輿情監(jiān)測(cè)等領(lǐng)域具有寶貴的應(yīng)用價(jià)值。

為幫助神經(jīng)網(wǎng)絡(luò)模型聚焦于方面項(xiàng),過去的研究通常采用注意力機(jī)制(Attention Mechanism)[2]對(duì)句子中詞語間的語義關(guān)聯(lián)進(jìn)行建模。但由于文本的復(fù)雜性,單純的注意力機(jī)制往往不能準(zhǔn)確捕獲方面和上下文詞之間的依賴關(guān)系。同時(shí),基于注意力機(jī)制生成的權(quán)重通常分布較為密集,因此不可避免會(huì)引入噪聲信息[3-4]。

近年來,圖卷積網(wǎng)絡(luò)(Graph Convolution Network, GCN)[5]在依存樹上的應(yīng)用在ALSA領(lǐng)域引起了廣泛關(guān)注。這類模型根據(jù)句子的句法結(jié)構(gòu)建立依存樹,并利用GCN操作在基于依存樹生成的圖結(jié)構(gòu)上進(jìn)行表示學(xué)習(xí),使得方面項(xiàng)與距離較遠(yuǎn)的意見項(xiàng)能夠更加高效、準(zhǔn)確地進(jìn)行信息交互。然而,此類方法利用依存樹構(gòu)建的鄰接矩陣中僅采用“1”或“0”兩種情況,表示兩個(gè)節(jié)點(diǎn)間是否存在通路,這種簡(jiǎn)單、固定的邊權(quán)重?zé)o法為方面項(xiàng)與相應(yīng)的意見項(xiàng)提供相較于其他詞語更多的關(guān)注度。以句子“I think the meatball parm is good”為例,其依存樹及鄰接矩陣如圖1所示,方面項(xiàng)“meatball parm”和意見項(xiàng)“good”具有和“the”等無關(guān)詞相同的邊權(quán)重,這顯然會(huì)為ALSA任務(wù)帶來干擾。

為克服注意力機(jī)制和GCN各自的缺陷,最近的研究嘗試在依存樹生成的圖結(jié)構(gòu)上應(yīng)用注意力機(jī)制[6-8]或建立基于圖結(jié)構(gòu)和注意力機(jī)制的雙通道模型[9-11],幫助模型有針對(duì)性地提取對(duì)ALSA任務(wù)有益的信息。然而,以上方法存在模型性能高度依賴依存樹解析質(zhì)量的缺陷,當(dāng)句子結(jié)構(gòu)較為復(fù)雜或?qū)φZ法不敏感導(dǎo)致依存樹解析質(zhì)量較差時(shí),模型將難以維持原有性能[12]。

為解決以上問題,本文提出一種圖指導(dǎo)的差異化注意力網(wǎng)絡(luò)(Graph-Guided Differentiated Attention Network, GGDAN)用于ALSA任務(wù)。針對(duì)當(dāng)前結(jié)合注意力機(jī)制與圖結(jié)構(gòu)的模型高度依賴依存樹解析質(zhì)量的問題,提出一種圖指導(dǎo)機(jī)制,利用依存樹生成的圖結(jié)構(gòu)指導(dǎo)注意力權(quán)重矩陣的生成,在幫助模型更為準(zhǔn)確、高效地捕捉詞語間依賴關(guān)系的同時(shí),降低了模型對(duì)依存樹的依賴程度。針對(duì)注意力權(quán)重分布密集的問題,提出一種注意力差異化,幫助模型學(xué)習(xí)更加離散化的注意力權(quán)重,能夠在一定程度上減少噪聲引入。在3個(gè)公開數(shù)據(jù)集上的多方面實(shí)驗(yàn)證明了本文模型的先進(jìn)性和可解釋性。

1 相關(guān)研究

與傳統(tǒng)的句子級(jí)或文檔級(jí)的情感分析任務(wù)不同,方面級(jí)情感分析是一種面向?qū)嶓w的細(xì)粒度情感分析任務(wù)。早期的ALSA方法主要基于情感詞典和機(jī)器學(xué)習(xí)[13],這類方法主要依靠手工提取特征,雖然在特定領(lǐng)域有良好表現(xiàn),但需要耗費(fèi)大量人工成本,并且無法對(duì)方面項(xiàng)及其上下文之間的依賴關(guān)系進(jìn)行建模。

神經(jīng)網(wǎng)絡(luò)模型不依靠人工定義特征,能夠進(jìn)行端到端的表示學(xué)習(xí)。近年來,由于注意力機(jī)制在上下文語義建模中的良好表現(xiàn),大量工作嘗試將基于注意力的神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于ALSA任務(wù),其主要目的在于利用注意力機(jī)制捕捉和建立方面項(xiàng)及其意見項(xiàng)之間的聯(lián)系。Wang等[14]提出的ATAE-LSTM將方面詞向量和上下文詞向量組合作為L(zhǎng)STM的輸入,利用注意力機(jī)制為上下文賦予不同的權(quán)重以提取有利于ALSA任務(wù)的語義特征。IAN[15]、MGAN[16]和AOA[17]則分別對(duì)方面項(xiàng)和上下文進(jìn)行建模,并利用二者間的交互注意力機(jī)制為上下文分配權(quán)重。盡管上述方法已經(jīng)在ALSA任務(wù)中取得了良好的性能,但由于缺乏對(duì)語法知識(shí)的利用,當(dāng)句子成分較為復(fù)雜或句中存在多個(gè)方面時(shí),將難以對(duì)方面項(xiàng)的情感極性做出準(zhǔn)確判斷。同時(shí),注意力機(jī)制存在權(quán)重分布過于密集的現(xiàn)象,導(dǎo)致模型不可避免地受到不相關(guān)詞語的干擾。

考慮到語法知識(shí)在ALSA任務(wù)中的重要性,基于依存樹建立的GCN模型逐漸成為ALSA領(lǐng)域的研究熱點(diǎn)。依存句法分析通過對(duì)句子中詞與詞之間的語法關(guān)系進(jìn)行抽取和篩選以構(gòu)建依存樹,能夠有效縮短方面項(xiàng)和觀點(diǎn)詞之間的距離[18]。以句子“The falafel was over cooked and dried but the chicken was fine”為例,其依存樹如圖2所示,其中方面項(xiàng)“chicken”和意見項(xiàng)“fine”之間存在直接相連路徑,表示二者具有語法關(guān)聯(lián),而方面項(xiàng)“falafel”和“fine”間則不存在直接相連的路徑。因此,依存樹在一定程度上能夠規(guī)避無關(guān)上下文信息對(duì)ALSA任務(wù)的影響。文獻(xiàn)[19]根據(jù)依存樹建立無向圖,利用GCN學(xué)習(xí)包含語法知識(shí)的上下文表示,在ALSA任務(wù)中達(dá)到了當(dāng)時(shí)最先進(jìn)的水準(zhǔn)。文獻(xiàn)[20]則分別利用依存樹和詞共現(xiàn)關(guān)系構(gòu)建基于語法圖和詞匯圖的雙通道GCN模型,學(xué)習(xí)同時(shí)包含語法和語義關(guān)系的特征表示。然而,GCN模型邊權(quán)重固定的特點(diǎn)導(dǎo)致其信息交互過程缺乏區(qū)分性,為表示學(xué)習(xí)帶來困難。

最近的研究者采用將依存樹與注意力機(jī)制相結(jié)合的方法解決這一問題,研究思路主要包括:

(1) 直接在圖結(jié)構(gòu)上應(yīng)用注意力機(jī)制以學(xué)習(xí)具有動(dòng)態(tài)權(quán)重的圖。例如,Huang等[6]提出的TD-GAT基于依存樹構(gòu)建圖注意力網(wǎng)絡(luò),并采用LSTM單元結(jié)構(gòu)對(duì)節(jié)點(diǎn)進(jìn)行更新。Wang等[7]引入依賴關(guān)系類型信息,并以目標(biāo)方面為根節(jié)點(diǎn)對(duì)依存樹進(jìn)行修剪,構(gòu)建關(guān)系圖注意力網(wǎng)絡(luò)(Relational Graph Attention Network, R-GAT)。

(2) 基于圖結(jié)構(gòu)和注意力機(jī)制建立雙通道模型以進(jìn)行不同層面的表示學(xué)習(xí)。例如,Xu等[9]提出的AEGCN采用多頭自注意力和GCN雙通道的方式分別提取特征,并通過通道間的交互注意力機(jī)制使得注意力機(jī)制和GCN相互增強(qiáng)。Tang等[11]提出的依存樹增強(qiáng)的雙Transformer模型(Dependency Graph Enhanced Dual-Transformer, DGEDT)則分別基于多頭自注意力和GCN建立雙通道Transformer模型,并引入一個(gè)交互雙仿射模塊以方便通道間的信息交流。此外,Hou等[21]提出基于選擇性注意力的圖卷積網(wǎng)絡(luò)(Selective Attention based Graph Convolutional Networks, SA-GCN),通過對(duì)注意力機(jī)制生成的權(quán)重值應(yīng)用Top-k操作,丟棄權(quán)重較低的詞語,以去除不相關(guān)詞語對(duì)ALSA任務(wù)的影響。然而,這些方法的模型性能高度取決于依存樹的解析質(zhì)量的缺陷,魯棒性較差。

基于以上思考,本文提出圖指導(dǎo)的差異化注意力網(wǎng)絡(luò)GGDAN。模型以注意力機(jī)制為基礎(chǔ),通過圖指導(dǎo)機(jī)制利用依存樹包含的語法知識(shí)對(duì)其進(jìn)行增強(qiáng),以有效結(jié)合二者優(yōu)勢(shì)。針對(duì)注意力權(quán)重分布過于密集的問題,模型引入注意力差異化操作,幫助模型學(xué)習(xí)更具差異性的注意力權(quán)重,減少噪聲信息引入。在3個(gè)公開數(shù)據(jù)集上進(jìn)行廣泛實(shí)驗(yàn),顯示本文提出的GGDAN網(wǎng)絡(luò)實(shí)現(xiàn)了較為先進(jìn)和穩(wěn)定的性能。

2 圖指導(dǎo)的差異化注意力網(wǎng)絡(luò)

本節(jié)將詳細(xì)介紹本文提出的用于方面級(jí)情感分析的圖指導(dǎo)的差異化注意力網(wǎng)絡(luò)GGDAN,其流程如圖3所示。

圖3 GGDAN整體流程

模型由Bi-LSTM編碼層、自注意力模塊、圖卷積層、特征交互模塊和分類層等結(jié)構(gòu)組成。模型以句子方面對(duì)(s,a)為輸入,其包含一個(gè)長(zhǎng)度為n的句子s={w1,w2,…,wτ+1,…,wτ+m,…,wn},以及從該句第τ+1個(gè)詞開始的長(zhǎng)度為m的方面a={wτ+1,wτ+2,…,wτ+m}。利用Bi-LSTM對(duì)句子s經(jīng)嵌入得到的詞向量序列表示進(jìn)行編碼,并將編碼后的隱藏向量與預(yù)處理步驟得到的位置向量和詞性(Part of speech, POS)向量進(jìn)行拼接,輸入自注意力模塊中計(jì)算注意力權(quán)重矩陣,同時(shí)利用依存樹生成的圖結(jié)構(gòu)對(duì)注意力權(quán)重矩陣進(jìn)行指導(dǎo)。隨后將注意力權(quán)重矩陣作為具有邊權(quán)重的圖結(jié)構(gòu),對(duì)Bi-LSTM層得到的隱藏向量進(jìn)行圖卷積操作。利用特征交互模塊對(duì)圖卷積得到的特征進(jìn)行聚合,生成用于預(yù)測(cè)的情感向量。最后將情感向量送入分類器得到情感預(yù)測(cè)結(jié)果。

2.1 預(yù)處理

預(yù)處理旨在對(duì)輸入句子s進(jìn)行依存分析(Dependency Parsing),并根據(jù)依存樹建立鄰接矩陣G∈Rn×n。具體來說,對(duì)于圖G中的任意元素gij,若詞wi和詞wj在依存樹中存在語法關(guān)系,則令gij=gji=1,否則令gij=gji=0。同時(shí)為G中所有節(jié)點(diǎn)添加自連接,即gii=1。此外, 參考Sun等[22]

的研究,根據(jù)句中詞語同方面項(xiàng)間的相對(duì)位置關(guān)系及依存解析結(jié)果為每個(gè)詞語分配位置標(biāo)簽和詞性標(biāo)簽,并基于位置標(biāo)簽和詞性標(biāo)簽對(duì)句子進(jìn)行嵌入表示,生成可學(xué)習(xí)的位置向量Xpost∈Rn×dpt和詞性向量XPOS∈Rn×dps,其中,dpt和dps分別表示位置向量和詞性向量的維度。

2.2 Bi-LSTM編碼層

對(duì)于句子方面對(duì)(s,a),利用嵌入矩陣E∈R|V|×de獲取句子s的詞向量表示X={x1,x2,…,xn},其中|V|是詞表大小,de是詞向量維度。將X送入Bi-LSTM進(jìn)行編碼以獲得包含上下文信息的隱藏狀態(tài)向量H={h1,h2,…,hn},其中,hi∈R2dhid是Bi-LSTM在時(shí)間步i處的隱藏向量,dhid是隱藏狀態(tài)向量維度。Bi-LSTM編碼層的形式化定義如式(1)~式(3)所示。

其中,LSTMforward和LSTMbackward分別表示前向和后向LSTM編碼操作,[;]表示拼接操作。

2.3 自注意力模塊

自注意力模塊以包含語法知識(shí)的鄰接矩陣G為輔助監(jiān)督,基于自注意力機(jī)制生成差異化注意力矩陣A∈Rn×n作為加權(quán)圖。具體來說,首先將經(jīng)過BiLSTM編碼得到的隱藏向量H∈Rn×dhid與位置向量Xpost、詞性向量XPOS進(jìn)行拼接作為輸入特征H′∈Rn×(dhid+dpt+dps),形式上如式(4)所示。

H′=[H;Xpost;XPOS]

(4)

輸入特征H′經(jīng)過線性映射分別生成查詢向量Q∈Rn×dk和鍵向量K∈Rn×dk,并用于計(jì)算注意力權(quán)重矩陣A,其中,dk是查詢向量和鍵向量的維度。具體定義如式(5)~式(8)所示。

其中,WQ∈R2dhid×dk和WK∈R2dhid×dk是可學(xué)習(xí)的權(quán)重矩陣,bQ∈Rdk和bK∈Rdk是可學(xué)習(xí)的偏置,An∈Rn×n表示未經(jīng)歸一化注意力權(quán)重矩陣。

2.3.1 圖指導(dǎo)機(jī)制

為充分發(fā)揮注意力機(jī)制與語法知識(shí)各自的優(yōu)勢(shì)并減輕模型對(duì)依存樹的依賴程度,本文提出了圖指導(dǎo)機(jī)制,幫助模型自發(fā)地學(xué)習(xí)接近于圖結(jié)構(gòu)的注意力權(quán)重,而不是直接基于圖結(jié)構(gòu)進(jìn)行表示學(xué)習(xí)。

(9)

其中,inf表示無窮大。

利用maskG(·)對(duì)An進(jìn)行過濾得到基于圖G的注意力權(quán)重矩陣AG∈Rn×n,如式(10)所示。

AG=Softmax(maskG(An))

(10)

為防止單純的自注意力機(jī)制引入過多語法上無關(guān)的噪聲信息,本文設(shè)計(jì)了對(duì)比損失Lcon,利用AG對(duì)A進(jìn)行監(jiān)督,如式(11)所示。

(11)

直觀上,對(duì)比損失Lcon通過計(jì)算A和AG間的均方誤差,使得A和AG相互接近,以實(shí)現(xiàn)利用圖G包含的語法知識(shí)指導(dǎo)注意力權(quán)重的目的,其本質(zhì)在于鼓勵(lì)句中詞語更多關(guān)注與自身在語法上直接關(guān)聯(lián)的詞語,反之則給予懲罰。

2.3.2 注意力差異化操作

如前文所述,過于密集的注意力權(quán)重分布可能引入大量無關(guān)的上下文信息,為表示學(xué)習(xí)帶來負(fù)面影響。文獻(xiàn)[3-4]表明,更稀疏的注意力權(quán)重能使得每個(gè)節(jié)點(diǎn)關(guān)注的信息更具針對(duì)性,以減少不相干節(jié)點(diǎn)的干擾。因此,為使得A中注意力權(quán)重值趨于稀疏,即權(quán)重分布趨于離散,本文提出了注意力差異化操作。

(12)

差異化損失Ldiff的本質(zhì)在于最大化注意力權(quán)重矩陣的方差,促進(jìn)A中權(quán)重分布的離散程度增大,這使得每個(gè)詞語更容易為與其高度相關(guān)的上下文提供較高的權(quán)重,從而減少無關(guān)節(jié)點(diǎn)的干擾。

2.4 圖卷積層

與以往基于依存樹的GCN模型[19-20, 22]不同,本文模型的圖卷積層將自注意力模塊生成的注意力權(quán)重矩陣A作為圖結(jié)構(gòu)并用于節(jié)點(diǎn)的表示學(xué)習(xí),其優(yōu)勢(shì)在于: 一是注意力權(quán)重矩陣作為全連通圖能夠有效縮短依存樹結(jié)構(gòu)中多跳相關(guān)節(jié)點(diǎn)間的路徑距離,二是可以減輕模型對(duì)依存樹的依賴程度。

參考Kipf和Welling等[5]的研究,本文GCN層的形式化定義如式(13)所示。

Hl=σ(AHl-1Wl+bl)

(13)

其中,Hl∈Rn×dg表示第l個(gè)GCN層的輸出,且H0=H,Wl和bl∈Rdg分別表示第l個(gè)GCN層中可學(xué)習(xí)的權(quán)重和偏置,且除W1∈R2dhid×dg外,對(duì)任意l>1都有Wl∈Rdg×dg,dg為圖卷積層的輸出維度,σ表示ReLU激活函數(shù)。通過堆疊L個(gè)GCN層使得節(jié)點(diǎn)間的信息充分交互。

2.5 特征交互模塊

特征交互模塊利用低層特征和高層特征之間的交互注意力機(jī)制對(duì)方面項(xiàng)和其上下文間的依賴關(guān)系進(jìn)行建模,生成用于情感分類的方面和上下文表示。

首先,通過平均池化操作對(duì)隱藏狀態(tài)向量H中的方面向量進(jìn)行聚合,并通過一個(gè)線性層將其映射到與圖卷積層的輸出HL∈Rn×dg相同維度的向量空間,以捕獲低層方面特征h′a∈Rdg,如式(14)、式(15)所示。

其中,Wa∈R2dhid×dg為可學(xué)習(xí)的權(quán)重。

其中,h′Ta表示h′a的轉(zhuǎn)置。

考慮句子“It takes a long time to boot up”和“The battery life is long”,盡管兩個(gè)句子具有相同的意見詞“l(fā)ong”,但方面項(xiàng)“boot up”和“battery life”的情感極性完全相反。這表明對(duì)于不同的方面項(xiàng),情感極性的判斷準(zhǔn)則也不盡相同,因此在判斷方面項(xiàng)情感極性的過程中有必要將方面自身信息納入考慮[24]。基于以上考慮,本文通過平均池化操作對(duì)HL中的方面向量進(jìn)行聚合,生成高層方面特征ra∈Rdg,如式(19)所示。

(19)

最后,將高層上下文特征rc和高層方面特征ra進(jìn)行拼接以獲得用于分類的情感向量r∈R2dg,如式(20)所示。

r=[rc;ra]

(20)

2.6 分類器

將特征交互模塊得到的情感向量r送入一個(gè)線性層,并利用Softmax函數(shù)生成關(guān)于方面項(xiàng)情感極性的概率分布,如式(21)所示。

(21)

其中,Wp∈R2dg×c和bp∈Rc分別表示可學(xué)習(xí)的權(quán)重和偏置,c為情感極性類別數(shù)。

2.7 模型訓(xùn)練

模型利用交叉熵?fù)p失對(duì)情感分類任務(wù)進(jìn)行監(jiān)督,如式(22)所示。

(22)

本文模型的最終損失如式(23)所示。

L=Lsc+λLcon+μLdiff+ε‖θ‖2

(23)

其中,λ和μ是調(diào)節(jié)損失平衡性的超參數(shù),ε是正則化系數(shù),θ是本文模型所有參數(shù)的集合。

3 實(shí)驗(yàn)

本文在3個(gè)公開數(shù)據(jù)集上對(duì)提出的GGDAN模型進(jìn)行了一系列實(shí)驗(yàn),以驗(yàn)證其在性能上的先進(jìn)性和可解釋性。

3.1 數(shù)據(jù)集

本文在3個(gè)公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),包括SemEval-2014任務(wù)[25]的餐廳評(píng)論數(shù)據(jù)集Rest14和筆記本電腦評(píng)論數(shù)據(jù)集Lap14,以及由Dong等[26]整理的Twitter推文數(shù)據(jù)集。數(shù)據(jù)集中的每條樣本均由真實(shí)的評(píng)論語句、評(píng)論中出現(xiàn)的方面詞和其對(duì)應(yīng)的情感類別組成,并且標(biāo)簽只包含積極、消極和中性。數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)如表1所示。

表1 各數(shù)據(jù)集統(tǒng)計(jì)數(shù)據(jù)

3.2 實(shí)驗(yàn)設(shè)置

本文使用Stanford解析器(1)https://stanfordnlp.github.io/ CoreNLP/獲取所有文本數(shù)據(jù)的依存句法關(guān)系。使用Pennington等[27]提供的300維GloVe詞向量作為本文模型和全部對(duì)比模型的初始化詞嵌入,位置向量維度設(shè)置為30,詞性向量維度設(shè)置為30,BiLSTM輸出的隱藏狀態(tài)維度設(shè)置為50,查詢向量和鍵向量的維度設(shè)置為50,GCN層數(shù)設(shè)置為2且所有GCN層的輸出維度均設(shè)置為50。本文對(duì)BiLSTM編碼層的輸入應(yīng)用丟棄率為0.6的Dropout操作,對(duì)每個(gè)GCN層的輸入應(yīng)用丟棄率為0.5的Dropout操作,對(duì)自注意力模塊生成的注意力權(quán)重矩陣A應(yīng)用丟棄率為0.2的Dropout操作。設(shè)置對(duì)比損失系數(shù)λ=0.5,差異化損失系數(shù)μ=0.1,正則化系數(shù)ε=10-5。模型訓(xùn)練采用學(xué)習(xí)率為0.001的Adam優(yōu)化器,設(shè)置Batch大小為32,在每個(gè)數(shù)據(jù)集上進(jìn)行50輪訓(xùn)練。

實(shí)驗(yàn)結(jié)果取隨機(jī)初始化5次運(yùn)行的最好結(jié)果的平均值,并采用分類準(zhǔn)確率和Macro-F1值作為評(píng)價(jià)指標(biāo)。

3.3 對(duì)比模型

為了全面評(píng)估和分析本文提出的GGDAN模型在ALSA任務(wù)上的性能,本文選取了一系列基于不同方法類型的代表性模型與GGDAN進(jìn)行比較,包括:

ATAE-LSTM[14]: 利用LSTM對(duì)句子進(jìn)行建模,基于上下文與方面項(xiàng)的相關(guān)性對(duì)上下文進(jìn)行加權(quán)聚合。

MemNet[28]: 將上下文句子視為外部記憶,在上下文的詞向量表示上應(yīng)用多跳注意力機(jī)制,并將最后一跳的輸出作為方面的最終表示。

IAN[15]: 使用兩個(gè)LSTM分別對(duì)方面和上下文進(jìn)行編碼,并利用交互注意力機(jī)制對(duì)方面和上下文間的關(guān)系進(jìn)行建模。

TNet[29]: 將Bi-LSTM編碼后的句子特征表示經(jīng)過連續(xù)的面向方面的上下文編碼和注意力機(jī)制進(jìn)行特征融合與提取,并使用CNN提取最終的特征表示。

ASGCN[19]: 使用Bi-LSTM獲取句子的特征表示,通過基于依存樹的GCN學(xué)習(xí)特定于方面的上下文表示,并利用注意力機(jī)制聚合上下文表示用于分類。

CDT[22]: 使用Bi-LSTM獲取句子的特征表示,并通過基于依存樹的GCN學(xué)習(xí)包含情感極性的方面表示。

BiGCN[20]: 基于依存樹和詞共現(xiàn)關(guān)系構(gòu)建句法圖和詞匯圖,歸納區(qū)分不同類型的語法依賴關(guān)系和詞共現(xiàn)關(guān)系,設(shè)計(jì)了雙層次交互式圖卷積網(wǎng)絡(luò)以充分學(xué)習(xí)節(jié)點(diǎn)表示。

TD-GAT[6]: 提出基于依存樹的圖注意力網(wǎng)絡(luò),并采用LSTM單元逐層更新節(jié)點(diǎn)表示。

AEGCN[9]: 以雙通道的形式分別利用多頭注意力和引入注意力機(jī)制的基于依賴樹的GCN對(duì)文本表示進(jìn)行編碼,并利用通道間的交互注意力進(jìn)一步增強(qiáng)表示。

kumaGCN[10]: 利用HardKuma分布對(duì)句子的語義信息進(jìn)行采樣,歸納生成方面特定的潛在圖結(jié)構(gòu),并引入門控機(jī)制將潛在圖與依存樹相結(jié)合。

DGEDT[11]: 提出了一種雙通道Transformer結(jié)構(gòu),分別基于多頭自注意力和依存樹上的GCN學(xué)習(xí)句子的平面表示和圖表示,并利用交互雙仿射變換進(jìn)行通道間信息交互。

3.4 實(shí)驗(yàn)結(jié)果

本節(jié)在全部3個(gè)數(shù)據(jù)集上比較了GGDAN和對(duì)比模型的ALSA任務(wù)性能,其中各對(duì)比模型的實(shí)驗(yàn)結(jié)果分別來自原文獻(xiàn)。實(shí)驗(yàn)結(jié)果如表2所示,其中字體加粗的表示當(dāng)前指標(biāo)中的最優(yōu)結(jié)果,加下劃線的表示次優(yōu)結(jié)果。

表2 實(shí)驗(yàn)結(jié)果 (單位: %)

如表2所示,ASGCN、CDT等基于依存樹的GCN模型在大多數(shù)數(shù)據(jù)集上的性能都明顯優(yōu)于ATAE-LSTM、MemNet等基于注意力機(jī)制的模型,說明相較于注意力機(jī)制,語法知識(shí)的引入能幫助模型更為準(zhǔn)確地提取與方面項(xiàng)相關(guān)的上下文信息。同時(shí),除DGEDT外,TD-GAT、AEGCN等將注意力機(jī)制與語法知識(shí)相結(jié)合的模型并未表現(xiàn)出明顯優(yōu)于基于依存樹的GCN模型的性能,尤其是在大多數(shù)數(shù)據(jù)集上都沒能達(dá)到與CDT相近的水平,說明當(dāng)前研究中依然缺乏將注意力機(jī)制與語法知識(shí)有效結(jié)合的方法。

從表2還可以看出,本文提出的GGDAN在3個(gè)數(shù)據(jù)集上都實(shí)現(xiàn)了較為優(yōu)秀的分類性能,證明了本文模型在ALSA任務(wù)中的有效性。GGDAN在Rest14數(shù)據(jù)集上的準(zhǔn)確率和F1值分別取得了次優(yōu)和最優(yōu)結(jié)果,在Lap14數(shù)據(jù)集上的準(zhǔn)確率和F1值均取得了最優(yōu)結(jié)果,在Twitter數(shù)據(jù)集上則取得了準(zhǔn)確率的最優(yōu)結(jié)果。

同時(shí)可以觀察到,大多數(shù)結(jié)合語法知識(shí)的模型在Rest14、Lap14數(shù)據(jù)集上性能優(yōu)于基于注意力機(jī)制的模型,而在Twitter數(shù)據(jù)集上的性能則遜于基于注意力機(jī)制的TNet模型。這種現(xiàn)象的可能原因是Twitter數(shù)據(jù)集對(duì)語法知識(shí)不敏感,依存樹解析質(zhì)量相對(duì)較差,因此注意力機(jī)制對(duì)于文本間依賴關(guān)系建模的作用更大。本文提出的圖指導(dǎo)機(jī)制通過幫助GGDAN模型自發(fā)地學(xué)習(xí)接近于圖結(jié)構(gòu)的注意力權(quán)重,對(duì)依存樹的依賴較小,因此相比其他結(jié)合語法知識(shí)的模型,能夠在Twitter數(shù)據(jù)集上保持較為先進(jìn)的情感分類性能,與TNet模型的性能相仿。

3.5 消融實(shí)驗(yàn)

為進(jìn)一步驗(yàn)證GGDAN中各模塊的有效性,本文設(shè)計(jì)了7組對(duì)比模型,包括:

(1)Ours-GCN: 移除GGDAN模型中的自注意力模塊,直接利用基于依存樹生成的圖G進(jìn)行圖卷積操作。

(2)Ours-GAT: 去除自注意力模塊中的對(duì)比損失和差異化損失,將經(jīng)過圖結(jié)構(gòu)過濾的注意力權(quán)重矩陣AG作為自注意力模塊的輸出,并應(yīng)用于后續(xù)的GCN層。

(3)Ours-w/o-con&diff: 去除自注意力模塊中的對(duì)比損失Lcon和差異化損失Ldiff,即不使用圖指導(dǎo)機(jī)制和注意力差異化操作。

(4)Ours-w/o-con: 只去除對(duì)比損失Lcon,即不使用圖G對(duì)注意力權(quán)重矩陣A進(jìn)行指導(dǎo)。

(5)Ours-w/o-diff: 只去除差異化損失Ldiff,即不對(duì)注意力權(quán)重矩陣A做離散化要求。

(6)Ours-w/o-rc: 去除了特征交互模塊中對(duì)高層方面特征的聚合步驟,只使用高層上下文特征rc進(jìn)行分類。

(7)Ours-w/o-ra: 去除了特征交互模塊中的交互注意力機(jī)制,只使用高層方面特征ra進(jìn)行分類。

運(yùn)用以上對(duì)比模型在全部3個(gè)數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。

表3 消融實(shí)驗(yàn)結(jié)果 (單位: %)

由表3可知,相比使用圖指導(dǎo)機(jī)制的Ours-w/o-diff和完整的GGDAN模型,Ours-GCN、Ours-GAT、Ours-w/o-con&diff和Ours-w/o-con等不使用圖指導(dǎo)機(jī)制的對(duì)比模型在Rest14和Lap14數(shù)據(jù)集上均表現(xiàn)出不同程度的性能下降,證明本文提出的圖指導(dǎo)機(jī)制在ALSA任務(wù)中的有效性,即圖指導(dǎo)機(jī)制能夠有效地對(duì)方面項(xiàng)及其上下文間的依賴關(guān)系進(jìn)行捕獲與建模。Twitter數(shù)據(jù)集上的最佳準(zhǔn)確率由Ours-w/o-con和Ours-w/o-con&diff取得,這可能是由于Twitter數(shù)據(jù)集對(duì)語法不敏感,圖指導(dǎo)機(jī)制可能相比單純的注意力機(jī)制為表示學(xué)習(xí)帶來一定干擾。值得注意的是,完整的GGDAN模型在Twitter數(shù)據(jù)集上依然取得了準(zhǔn)確率和F1值的次優(yōu)結(jié)果,并明顯優(yōu)于Ours-GCN、Ours-GAT等嚴(yán)格依賴于依存樹的模型,表明本文提出的圖指導(dǎo)機(jī)制能夠通過減輕模型對(duì)依存樹依賴程度,幫助模型在語料對(duì)語法不敏感的情況下保持較為魯棒的性能。

此外,觀察完全基于自注意力機(jī)制的Ours-w/o-con&diff,其表現(xiàn)依然明顯優(yōu)于具有圖結(jié)構(gòu)的Ours-GCN和Ours-GAT,甚至在Twitter上取得了最高準(zhǔn)確率。這說明相較于語法知識(shí),自注意力機(jī)制為本文模型性能帶來的增益更大,尤其是在語料對(duì)語法不敏感的情況下。

從表3可以看出,在全部3個(gè)數(shù)據(jù)集上,完整的GGDAN模型的表現(xiàn)均明顯優(yōu)于Ours-w/o-diff,Ours-w/o-con的表現(xiàn),也都略微優(yōu)于Ours-w/o-con&diff。以上現(xiàn)象表明,通過學(xué)習(xí)分布更為離散的注意力權(quán)重,本文提出的注意力差異化操作能夠有效減少無關(guān)信息對(duì)ALSA任務(wù)的影響。

最后,對(duì)比Ours-w/o-rc、Ours-w/o-ra和GGDAN模型的性能可知,特征交互模塊包含的高低層特征間的交互注意力以及將方面和上下文信息相結(jié)合的方法對(duì)ALSA任務(wù)是有益的。

總體上,完整的GGDAN模型實(shí)現(xiàn)了最佳的情感分類性能,證明了GGDAN中各模塊的有效性。值得注意的是,GGDAN模型相比Ours-GAT、Ours-w/o-con&diff、Ours-w/o-con和Ours-w/o-diff等對(duì)比模型并沒有參數(shù)上的增加,表明本文提出的圖指導(dǎo)機(jī)制和注意力差異化操作能夠在不引入額外參數(shù)的情況下提高模型的表示學(xué)習(xí)能力,具有一定的高效性。

3.6 參數(shù)研究

3.6.1 對(duì)比損失系數(shù)λ的影響

為探究對(duì)比損失系數(shù)λ對(duì)模型性能的影響,固定差異化損失系數(shù)μ=0.1,并設(shè)置不同的λ取值作為對(duì)比模型進(jìn)行實(shí)驗(yàn),結(jié)果如表4所示,其中λ=0.0的情況等價(jià)于3.5節(jié)的Ours-w/o-con。

表4 對(duì)比損失系數(shù)λ的影響 (單位: %)

如表4所示,當(dāng)λ=0.0時(shí),模型完全去除了圖指導(dǎo)機(jī)制,其性能在Rest14和Lap14數(shù)據(jù)集上都明顯弱于其他幾組對(duì)比模型,再次證明本文提出的圖指導(dǎo)機(jī)制的有效性。對(duì)于Rest14和Lap14數(shù)據(jù)集,當(dāng)λ=0.5時(shí)模型取得最佳性能,這表明本文的參數(shù)設(shè)置具有一定合理性。在Twitter數(shù)據(jù)集上,模型在λ=0.0時(shí)取得最佳性能,這可能是由于Twitter數(shù)據(jù)集對(duì)語法不敏感,依存樹解析質(zhì)量相對(duì)較差,單純的注意力機(jī)制更有利于捕捉文本間的依賴關(guān)系。

3.6.2 差異化損失系數(shù)μ的影響

為探究差異化損失系數(shù)μ對(duì)模型性能的影響,固定對(duì)比損失系數(shù)λ=0.5,并設(shè)置不同的μ值作為對(duì)比模型,結(jié)果如表5所示,其中μ=0.0的情況等價(jià)于3.5節(jié)的Ours-w/o-diff。

如表5所示,當(dāng)μ=0.0時(shí),模型在3個(gè)數(shù)據(jù)集上的分類性能均不同程度弱于μ取0.05或0.1時(shí)的性能,證明本文提出的注意力差異化操作的有效性。當(dāng)μ=0.1時(shí),本文模型在3個(gè)數(shù)據(jù)集上均取得了最佳性能,說明本文的參數(shù)設(shè)置具有一定合理性。此外,當(dāng)μ>0.1時(shí),隨著μ值的增大,模型性能迅速衰減。本文認(rèn)為這種現(xiàn)象的可能原因: 一是差異化損失過大導(dǎo)致模型難以專注于分類任務(wù),二是過于稀疏的注意力權(quán)重矩陣可能導(dǎo)致重要信息的丟失。

4 總結(jié)

本文提出了一種用于ALSA任務(wù)的圖指導(dǎo)的差異化注意力網(wǎng)絡(luò)GGDAN。模型通過圖指導(dǎo)機(jī)制將注意力機(jī)制和語法知識(shí)相結(jié)合,利用依存樹生成的圖結(jié)構(gòu)指導(dǎo)注意力權(quán)重矩陣的生成,在幫助模型更為準(zhǔn)確、高效地捕捉詞語間依賴關(guān)系的同時(shí),減輕了模型對(duì)依存樹解析質(zhì)量的依賴程度。同時(shí),提出了一種注意力差異化操作,通過幫助模型學(xué)習(xí)分布更加離散的注意力權(quán)重,在一定程度上減少了噪聲信息對(duì)任務(wù)的干擾。在3個(gè)公開數(shù)據(jù)集上的一系列實(shí)驗(yàn)證明,本文模型在性能上的先進(jìn)性和模型成分的可解釋性。

未來工作中,我們將從以下方向?qū)Ρ疚难芯窟M(jìn)行擴(kuò)展: 一是本文模型的自注意力模塊需要使用依存分析生成的詞性知識(shí),對(duì)解析性能仍然具有較強(qiáng)的依賴性,應(yīng)當(dāng)繼續(xù)尋找更加準(zhǔn)確、高效地對(duì)語義關(guān)系和語法關(guān)系進(jìn)行建模的方法。二是探討本文模型在其他情感分析任務(wù)中的有效性,如方面三元組抽取[30]等。

猜你喜歡
機(jī)制情感模型
一半模型
如何在情感中自我成長(zhǎng),保持獨(dú)立
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
自制力是一種很好的篩選機(jī)制
文苑(2018年21期)2018-11-09 01:23:06
如何在情感中自我成長(zhǎng),保持獨(dú)立
3D打印中的模型分割與打包
破除舊機(jī)制要分步推進(jìn)
主站蜘蛛池模板: 亚洲AV一二三区无码AV蜜桃| 国产成人盗摄精品| 日韩欧美中文字幕在线韩免费 | 亚洲男人在线| 亚洲午夜综合网| 国产产在线精品亚洲aavv| 亚洲国产系列| 精品黑人一区二区三区| 四虎综合网| 一级毛片无毒不卡直接观看 | 久久99国产精品成人欧美| 40岁成熟女人牲交片免费| 97超级碰碰碰碰精品| 天堂在线www网亚洲| 国产传媒一区二区三区四区五区| 精品自窥自偷在线看| 亚洲人成网站在线观看播放不卡| 久久精品亚洲专区| 亚洲人成网站在线观看播放不卡| 欧美亚洲一区二区三区在线| 欧美精品啪啪一区二区三区| 国产成人综合久久精品尤物| aaa国产一级毛片| 亚洲人成影视在线观看| 日韩精品专区免费无码aⅴ| 九九这里只有精品视频| 免费看av在线网站网址| 色妞永久免费视频| 91在线一9|永久视频在线| 黄色网址免费在线| 日韩中文精品亚洲第三区| 免费A级毛片无码免费视频| 99精品视频播放| 人妻一区二区三区无码精品一区 | 青青草国产免费国产| 色综合天天综合| 中文成人在线视频| 国产女人综合久久精品视| 亚洲永久色| 99国产精品免费观看视频| 国产精品无码作爱| 深夜福利视频一区二区| 国产精品无码一二三视频| 好吊色妇女免费视频免费| 波多野结衣中文字幕久久| 国产午夜无码专区喷水| 亚洲国产91人成在线| 性欧美久久| 日韩精品高清自在线| 波多野结衣一区二区三区四区视频| 成人av专区精品无码国产| 99re精彩视频| 91丝袜乱伦| 午夜福利无码一区二区| 亚洲AV色香蕉一区二区| 日韩中文精品亚洲第三区| 伊人久综合| 日韩欧美91| 99精品免费在线| 中文字幕人成人乱码亚洲电影| 欧美黄网在线| 亚洲色欲色欲www网| 久久性视频| 亚洲精品另类| AV熟女乱| 91www在线观看| 99尹人香蕉国产免费天天拍| 曰AV在线无码| 国产无人区一区二区三区| 国产一在线观看| 亚洲午夜天堂| 日韩一区二区在线电影| 久久综合AV免费观看| 免费Aⅴ片在线观看蜜芽Tⅴ | 一级成人欧美一区在线观看| 亚洲一级无毛片无码在线免费视频| 亚洲一区网站| 成年免费在线观看| 美女啪啪无遮挡| 青青草a国产免费观看| 五月激情婷婷综合| 亚洲一区毛片|