收稿日期:2021-12-16;修回日期:2022-01-11" 基金項目:內蒙古自治區自然科學基金資助項目(2021LHMS06009)
作者簡介:張文軒(1996-),男(通信作者),安徽馬鞍山人,碩士研究生,主要研究方向為文本分類、文本情感分析(949423069@qq.com);殷雁君(1972-),女,內蒙古呼和浩特人,教授,碩士,主要研究方向為文本分類、圖像文本處理.
摘 要:近年來的方面級情感分析研究嘗試利用注意力機制與基于依存樹的圖卷積模型對上下文詞和方面之間的依賴關系進行建模,然而,基于注意力機制的模型具有容易引入噪聲信息的缺點,基于依存樹的圖模型則具有高度依賴于依存樹解析質量、魯棒性較差的缺點。為解決以上問題,探索一種將注意力機制與語法知識相結合的新方法,利用依存樹和位置信息分別對注意力機制進行監督,設計并提出了一種用于方面級情感分析的依存樹增強的注意力模型,能夠更合理地利用語義和句法信息的同時減輕對依存樹的依賴程度。在三個基準數據集上進行的實驗驗證了所提方法的有效性和可解釋性。
關鍵詞:自然語言處理;方面級情感分析;依存樹;注意力機制
中圖分類號:TP391"" 文獻標志碼:A
文章編號:1001-3695(2022)06-009-1656-07
doi:10.19734/j.issn.1001-3695.2021.12.0629
Aspect level sentiment analysis with dependency tree enhanced attention model
Zhang Wenxuan,Yin Yanjun
(College of Computer Science amp; Technology,Inner Mongolia Normal University,Huhhot 010022,China)
Abstract:In recent years,the research of aspect level sentiment analysis attempts to model the dependency between context words and aspects by using attention mechanism and graph convolution model based on dependency tree.However,the accuracy of these methods is limited by noise information and lack of differentiated message passing mechanism.In order to solve the above problems,this paper explored a new method combining attention mechanism with syntactic knowledge,used dependency tree and location information to supervise the attention mechanism respectively,and designed and proposed a dependency tree enhanced attention model for aspect level sentiment analysis.The model could make more rational use of semantic and syntactic information and reduce the dependence on dependency tree.Experiments on three benchmark datasets verify the effectiveness and interpretability of the proposed method.
Key words:natural language processing;aspect level sentiment analysis;dependency tree;attention mechanism
方面級情感分析(aspect level sentiment analysis,ALSA)[1]是自然語言處理(natural language processing,NLP)領域的一項基本任務,旨在確定文本針對不同方面的情感極性,即積極、消極或中性。以“Great food but the service was dreadful!”為例,該句對給定的兩個方面術語“food”和“service”分別表現出積極和消極的情感極性。ALSA較強的針對性使得其具有寶貴的應用價值,如幫助廣大企業、商家進行市場調研,幫助消費者制定購買決策等。目前,ALSA已經成為NLP的熱門領域之一。
隨著深度學習的興起,卷積神經網絡(convolutional neural network,CNN)[2,3]和遞歸神經網絡(recurrent neural network,RNN)[4]等深度學習的研究成果陸續在ALSA任務中得到應用。然而上述模型具有難以適應ALSA任務需要的聚焦于目標方面的特點,因此一些研究通過引入注意力機制[5]對目標方面和上下文詞之間的依賴關系進行建模。但由于文本的復雜性,單純的注意力機制往往不能準確地捕捉方面和上下文詞之間的關系。
近年來,圖卷積(graph convolution network,GCN)[6]在依存樹上的應用在ALSA領域引起了廣泛關注,這類模型利用方面與上下文詞在句法上的依賴關系進行表示學習,能夠從距離較遠的上下文詞中提取對ALSA有益的信息。然而,基于依存樹的GCN模型,其圖結構中只存在連通和不連通兩種情況,依賴關系間缺乏區分度,無法根據與ALSA任務的相關程度為不同的詞語分配權重,從而為表示學習帶來困難。為克服注意力機制和GCN各自的缺陷,最近的研究嘗試在依存樹生成的圖結構上應用注意力機制[7~9]或建立基于圖結構和注意力機制的雙通道模型[10~12],以幫助模型在句法知識的指導下針對性地提取方面相關信息。然而以上方法依然存在模型性能高度依賴于依存樹解析質量的缺陷,當句子結構較為復雜或句子對句法不敏感導致依存樹解析質量下降時,模型將難以準確地建立方面與意見詞之間的依賴關系,導致其性能下降。
為改善以上問題,本文設計并提出了一種依存樹增強的注意力模型(dependency tree enhanced attention model,DTEAM)。DTEAM通過面向方面和全局的兩種注意力機制對目標方面的上下文信息進行建模,并根據依存句法關系和位置關系建立的面向方面的依存樹對注意力權重進行監督;利用句法信息增強注意力機制的設計方法,規避了基于注意力機制的模型難以準確捕捉方面和上下文詞之間關系以及基于依存樹的模型高度依賴于依存樹解析質量的缺點,使得模型更加健壯。
1 相關研究
1.1 基于傳統神經網絡的方面級情感分析
傳統的方面級情感分析研究主要基于情感詞典和機器學習方法,如Kiritchenko等人[13]利用情感詞典和特征工程提取情感信息,利用支持向量機(support vector machine,SVM)建立情感分類模型,在筆記本電腦和餐廳評論等ALSA數據集上取得了當時最好的效果。這類傳統方法雖然在特定領域有良好的表現,但是往往需要耗費大量的人工成本。
神經網絡模型則不依靠人工定義特征,可以進行端到端的表示學習。在NLP領域的大量研究表明,利用神經網絡模型對文本進行建模的方法能夠有效地捕獲詞語間的依賴關系,因此CNN和RNN在ALSA任務中得到了廣泛應用。Xue等人[3]提出的GCAE模型將CNN與門控機制相結合,能夠基于目標方面選擇性地輸出特征;Tang等人[4]提出的TD-LSTM則分別利用兩個LSTM模型對目標方面之前和之后的上下文進行建模以提取與目標方面相關的情感信息。
近年來,由于注意力機制在上下文關系建模中的良好表現,越來越多的工作嘗試將注意力機制引入ALSA。注意力機制的核心思想是從眾多信息中選擇對當前任務目標更為關鍵的信息。利用注意力機制對方面及其上下文進行建模,有助于提取與目標方面更為相關的特征,與ALSA任務的目標較為契合。Wang等人[14]提出的ATAE-LSTM模型將方面詞向量和上下文詞向量組合作為LSTM的輸入,利用注意力機制為上下文詞賦予不同的權重,相比基于LSTM的ALSA模型,其性能顯著提升。IAN[15]、MGAN[16]和AOA[17]則分別對目標方面和上下文進行建模,利用兩者間的交互注意力機制為上下文詞分配權重,以提取有利于ALSA任務的特征。盡管上述方法已經在ALSA任務中取得了良好的性能,但由于缺乏對句法信息的利用,當句子成分較為復雜或句中存在多個方面時,將難以對目標方面的情感極性作出準確判斷。
1.2 基于依存樹的方面級情感分析
為解決以上問題,基于依存樹建立的GCN模型逐漸成為ALSA領域的研究熱點。這類模型通過依存句法分析為句子生成依存樹,能夠有效反映句中詞與詞之間的依存句法關系,縮短句中方面和觀點詞之間的距離,以便信息通過樹結構進行傳播[18]。以句子“Great food but the service was dreadful!”為例,依存樹能夠為目標方面“food”和“great”建立一條基于它們的句法依賴關系的路徑,而“food”和“dreadful”間則不存在直接連通的路徑,一定程度上規避了無關上下文信息對ALSA任務的影響。Zhang等人[19]基于依存樹建立GCN模型,并將其與自注意力機制相結合,有效利用句法依賴關系對文本進行建模,達到了當時最先進的分類水準。文獻[20]則分別利用依存樹和詞共現關系構建基于語法圖和詞匯圖的雙通道GCN模型,學習同時包含語法和語義關系的特征表示。巫浩盛等人[21]基于依存樹中上下文詞語與方面詞間語法距離為每個詞語設置權重,并通過GCN操作學習節點表示,能夠更加高效地提取與目標方面在語法上聯系緊密的信息。然而,GCN模型邊權重固定的特點將為特征提取帶來困難。
最近,研究人員嘗試將依存樹與注意力機制相結合以解決這一問題,研究思路主要包括:
a)直接在圖結構上應用注意力機制以學習具有動態權重的圖。例如,Huang等人[7]提出基于依存樹的圖注意力網絡(target-dependent graph attention net,TD-GAT),并采用LSTM單元結構對節點進行更新;韓虎等人[8]提出的IGAT模型同樣基于依存樹構建圖注意力網絡(graph attention net,GAT)[22]以捕獲句法依存信息,并通過交互注意力機制融合低層與高層特征,對方面與上下文間的語義關系進行建模;Wang等人[9]引入依賴關系類型信息,并以目標方面為根節點對依存樹進行修剪,構建關系圖注意力網絡(relational graph attention network,R-GAT)。
b)基于圖結構和注意力機制建立雙通道模型以進行不同層面的表示學習。例如,Xu等人[10]提出的AEGCN采用多頭自注意力和GCN雙通道的方式分別提取特征,并通過通道間的交互注意力機制使得注意力機制和GCN相互增強;Chen等人[11]則基于注意力機制和HardKuma分布對句子的語義信息進行采樣,以生成方面特定的潛在圖結構,并與依存樹一起構建雙通道模型;王光等人[12]提出的圖卷積記憶網絡MemGCN則分別利用基于位置信息的記憶網絡(memory network)[23]和基于語法知識的GCN學習不同層面的節點表示,并利用注意力機制進行特征融合。
然而,以上兩類方法依然具有模型性能高度取決于依存樹的解析質量的缺陷,魯棒性較差。為解決以上問題,本文提出了用于ALSA任務的依存樹增強的注意力模型DTEAM。與以上研究思路不同,DTEAM以注意力機制為基礎,利用依存樹包含的句法信息對其進行增強,能夠有效結合兩者優勢,實現了較為先進的性能。
2 數據預處理
在正式構建DTEAM模型之前,需要對文本進行預處理以獲取模型所需的數據形式,即構建面向方面的依存樹與位置向量。
2.1 面向方面的依存樹
Wang等人[9]的研究指出,與目標方面之間存在直接聯系的依賴關系可能有助于模型更加關注與目標方面相關的意見詞;雖然依存樹能捕捉句中詞語在句法上的關聯性,但其通常不以目標方面為根。然而,ALSA任務的重心在于目標方面而不是依存樹的根節點,因此,參考Wang等人[9]提出的以目標方面為根節點對依存樹進行修剪和重塑的方法,本文提出了一種面向方面的依存樹,通過重塑原始依存樹使其只聚焦于目標方面而丟棄與目標方面沒有直接關聯的依存句法關系。以句子“The wine list is interesting and has many good values.”為例,當目標方面為“wine list”時,其原始依存樹如圖1所示,本文提出的面向方面的依存樹如圖2所示。本文提出的面向方面的依存樹以目標方面為根節點,同時不保留目標方面內部的路徑而將目標方面視做一個整體。一方面,對于原始依存樹中上下文詞與目標方面之間的依賴關系,只保留與目標方面中任意詞直接相連的路徑,并令其指向目標方面;另一方面,根據每個上下文詞語與目標方面的相對距離判斷是否為其與目標方面建立路徑,具體來說,若句中某個上下文詞與目標方面中任意詞的相對距離在3以內,則為其與目標方面建立一條虛擬路徑。建立基于相對距離依賴路徑的動機如下:a)只保留與目標方面直接相連的依賴關系會造成過多可能對任務有益的依賴關系的丟失;b)過去的廣泛研究表明[23,24],與目標方面距離越近的詞,其與目標方面間存在關聯性的可能性就越大,引入基于相對距離的路徑可以使樹結構更加健壯。
形式上,令s={w1,w2,…,wt,wt+1,…,wt+m,…,wn}表示一個由n個詞組成的句子,a={wt+1,wt+2,…,wt+m}表示從s中第t+1個詞開始的由m個詞組成的目標方面,本文構建的依存樹A∈Euclid Math TwoRAp1×n的形式化定義如下:
Ai=1if ∑mk=1(wi,wt+k)≥1
0else (1)
其中:(wi,wj)=1表示詞wi與wj之間存在直接相連的句法依賴路徑或相對距離依賴路徑;(wi,wj)=0則表示不存在依賴路徑。
本文提出的面向方面的依存樹構建方法與之前的研究[25~ 27]相契合,即只需關注句法關系上接近目標方面的一小部分上下文詞就足夠完成ALSA任務。同時,面向方面的依存樹結構不僅能夠更加關注目標方面和觀點詞之間的聯系,還使得上下文信息能夠快速且單向地流向目標方面,而無須經過額外的信息傳遞和聚合操作。
2.2 位置向量
由于大部分文本中都存在方面詞與相應意見詞距離十分接近的情況,位置權重函數被廣泛應用于ALSA任務的相關模型[26~28]中。簡言之,位置權重函數根據每個上下文詞與目標方面的距離為其分配一個固定權重,距離越近,權重越高。然而這種方法導致目標方面的前后文缺乏區分性。為此本文提出建立基于方面的相對位置關系,并為每種相對位置關系設置了一個可學習的位置向量,以學習不同的相對位置關系對ALSA任務的重要性。如圖3所示,以句子“I think I’ve had some the best meals of my life at minnow.”和目標方面“meals”為例,本文設置目標方面所需關注的上下文窗口半徑u=3,并進一步將上下文詞與目標方面間的位置關系分為八類,分別是“lt;-3”“-3”“-2”“-1”“1”“2”“3”和“gt;3”,其中“lt;-3”表示與方面詞間最小距離大于3且位于方面詞前方,“-1”“-2”“-3”分別表示與方面詞間最小距離為1、2、3且位于方面詞前方,“1”“2”“3”分別表示與方面詞間最小距離為1、2、3且位于方面詞后方,“gt;3”則表示與方面詞間最小距離大于3且位于方面詞后方。值得注意的是,本文選取3作為窗口半徑以保證與面向方面的依存樹在結構上的一致性。
3 依存樹增強的注意力模型
本文提出的用于方面級情感分析的依存樹增強的注意力模型DTEAM流程如圖4所示。它由嵌入層、Bi-LSTM編碼層、方面注意力層、全局注意力層和分類層等結構組成。DTEAM模型使用Bi-LSTM對由嵌入層得到的詞向量序列進行編碼以捕捉上下文信息;隨后一方面將方面向量和上下文向量輸入到方面注意力層中以得到與方面相關的上下文向量,另一方面則將上下文向量和其對應的位置向量輸入到全局注意力層中以得到語義上最具代表性的上下文向量,并利用面向方面的依存樹分別對方面注意力層和全局注意力層進行監督。最后,將方面注意力層和全局注意力層的輸出進行拼接,作為情感預測的特征向量送入分類器以得到情感預測結果。
3.1 嵌入層和Bi-LSTM編碼層
對于語料庫D中的句子—方面對(s,a)∈D,其中包含一個由n個詞組成的句子s={w1,w2,…,wt+1,…,wt+m,…,wn},以及從該句第t+1個詞開始的由m個詞組成的方面a={wt+1,wt+2,…,wt+m}。嵌入層利用嵌入矩陣E∈Euclid Math TwoRAp|V|×de,將每個詞嵌入到低維實值向量空間,以獲得相應的詞向量序列X={x1,x2,…,xn},其中|V|為詞表大小,de為詞嵌入維度。
LSTM作為一種序列模型,能夠在一定程度上學習到數據的潛在長期依賴關系。本文將句子的詞向量序列X輸入到一個Bi-LSTM中進行編碼,以生成包含上下文信息的隱藏向量H={h1,h2,…,hn},其中hi∈Euclid Math TwoRApde表示來自Bi-LSTM的時間步長i處的隱藏狀態向量。Bi-LSTM編碼層的形式化定義如下:
=LSTMforward({x1,x2,…,xn})(2)
=LSTMbackward({x1,x2,…,xn})(3)
H=concat(,)(4)
3.2 方面注意力層
在ALSA任務中,模型應當專注于句中那些與方面詞之間存在語義關聯的詞語。以句子“Delicious food but terrible environment.”為例,“terrible”一詞在語義上既可以用來形容“environment”也可以用來形容“food”,而“delicious”顯然只能用來形容“food”。因此在判斷方面“food”在該句中的情感極性時,“delicious”應當得到比“terrible”更高的關注度。方面注意力層的作用就是獲取方面詞和其上下文間的依賴關系,強調與方面詞相關的特征。此外,本文認為在ALSA 任務中,文本針對方面的情感極性全部來自于方面的上下文信息,而與方面詞自身無關。因此在計算注意力權重的過程中需要將方面與上下文進行分離,為此本文設置了maskC(·)和maskA(·)兩種掩碼機制。其中,maskC(·)用于遮蔽方面信息、保留上下文信息,maskA(·)則用于遮蔽上下文信息、保留方面信息。其形式化定義如下:
rci=11≤ilt;t+1
0t+1≤i≤t+m
1t+mlt;i≤n(5)
maskC(hi)=rci×hi(6)
rai=01≤ilt;t+1
1t+1≤i≤t+m
0t+mlt;i≤n(7)
maskA(hi)=rai×hi(8)
方面注意力層的流程如圖5所示。該架構基于的思想是同目標方面相關程度越高的上下文詞語對該方面的情感極性的語義貢獻度也越大。
對于經Bi-LSTM編碼得到的詞向量序列H,利用掩碼操作maskC(·)保留上下文以得到查詢向量q∈Euclid Math TwoRApn×de,利用掩碼操作maskA(·)和平均池化操作保留方面信息以得到鍵向量k∈Euclid Math TwoRAp1×de,并通過對H進行線性映射和掩碼操作maskC(·)生成值向量v∈Euclid Math TwoRApn×dhid:
q=maskC(H)(9)
k=meanpooling(maskA(H))(10)
v=maskC(HWV+bV)(11)
其中:WV∈Euclid Math TwoRApde×dhid和bV∈Euclid Math TwoRApdhid分別是可學習的權重矩陣和偏置,dhid是中間層維度。計算q和k間的點積自注意力為v中每個向量分配權重,記為atta∈Euclid Math TwoRApn×1。利用atta對v進行聚合,以生成面向方面的情感向量Ha∈Euclid Math TwoRAp1×dhid:
atta=soft max(qkT)(12)
Ha=attTav(13)
在基于圖注意力網絡[22]的模型中,為使得圖結構數據中的每個節點只與其各自的鄰居節點間產生信息交互,在傳統的自注意力機制中引入基于圖的過濾機制。簡言之,當節點間存在通路時則保留注意力權重,不存在時則丟棄。類似地,本文采用基于樹的過濾機制maskT(·),其形式化定義如下:
rti=1Ai=1
-infAi=0 (14)
maskT(atti)=rti·atti(15)
利用前文構建的面向方面的依存樹A對q、k間的點積自注意力進行過濾,得到基于樹的方面注意力權重att′a,其形式化定義如下:
att′a=softmax(maskT(qkT))(16)
值得注意的是,為防止方面注意力層引入過多噪聲,本文設計了一個對比損失L1:
L1=MSE(atta,att′a)(17)
L1通過計算atta與att′a之間的均方誤差作為監督,使得atta與att′a相互接近,迫使模型學習到真正與方面相關的特征。本文不直接使用att′a作為注意力權重的理由是,在構建依存樹的過程中存在解析性能不穩定的情況,直接使用att′a將會存在模型丟棄任務相關信息而引入噪聲的情況。此外,現有的方面級情感分類任務的訓練樣本集較小,使用att′a也將導致語料庫中大量詞語無法參與到表示學習中,對模型魯棒性造成不利影響。本文通過利用對比損失L1對atta和att′a進行監督的方式,一方面能夠一定程度規避依存樹解析性能對任務的影響,另一方面也使得樣本集中的所有詞語都能夠參與到任務中。由于對比損失L1的存在,文本中與方面無關的詞語將以負樣本的形式督促模型主動學習方面詞與上下文間潛在的語義關聯,而非通過依存樹對注意力權重進行過濾的方式被動學習,有利于模型在訓練樣本較少時的魯棒性。
3.3 全局注意力層
在給予句中與目標方面更為貼近的詞語更多關注的同時,也需要關注對ALSA任務幫助較大的意見詞,即具有較強情感極性的詞語。以“Great food but the service was dreadful!”為例,“great”和“dreadful”相比其他詞顯然包含更多的情感極性,應當獲得更高的權重。但對于該句包含的方面“food”,判斷其極性時應當關注意見詞“great”而非“dreadful”,對于“service”則正相反,因此只根據詞語的情感極性分配權重將難以處理這種情況。由于與目標方面距離更接近的意見詞往往與目標方面存在關聯的可能性更大,本文在全局注意力層將句子的表示序列與其對應的位置向量進行拼接,為相對于方面詞不同距離的意見詞提供區分性,幫助模型更容易關注與方面詞距離相近的意見詞。全局注意力層流程如圖6所示。首先按照2.2節的描述為句中每個詞構建位置向量P={p1,p2,…,pn},并將Bi-LSTM編碼層輸出的隱藏表示H與位置向量進行拼接,通過maskC(·)操作得到H′。對H′進行連續兩層的線性映射并通過softmax函數生成全局注意力權重attg∈Euclid Math TwoRApn×1,同時將H′線性映射為Hc∈Euclid Math TwoRApn×dhid。基于attg為Hc分配權重,將其聚合為面向全局的情感向量Hg∈Euclid Math TwoRAp1×dhid。全局注意力層的形式化定義如下:
H′=maskC(concat(H,P))(18)
=σ(H′W1+b1)W2+b2(19)
attg=softmax()(20)
Hc=H′Wc+bc(21)
Hg=attTgHc(22)
其中:W1∈Euclid Math TwoRApde×dhid,W2∈Euclid Math TwoRApdhid×1和Wc∈Euclid Math TwoRApde×dhid是可學習的權重矩陣;b1∈Euclid Math TwoRApdhid,b2∈Euclid Math TwoRAp1和bc∈Euclid Math TwoRApdhid是可學習的偏置;σ為ReLU激活函數。
與方面注意力層類似,利用面向方面的依存樹對attg進行過濾,得到基于樹的全局注意力權重att′g,并計算對比損失L2。
att′g=softmax(maskT())(23)
L2=MSE(attg,att′g)(24)
3.4 分類層
將面向方面的情感向量Ha與面向全局的情感向量Hg進行拼接,作為用于預測方面情感極性的向量表示Hp∈Euclid Math TwoRAp2dhid。隨后通過線性變換將Hp映射到分類空間,并利用softmax函數得到預測的情感類別概率。分類層的形式化定義如下:
Hp=concat(Ha,Hg)(25)
=softmax(HpWp+bp)(26)
其中:Wp∈Euclid Math TwoRApdhid×dc和bp∈Euclid Math TwoRApdc分別為可學習的權重矩陣和偏置,dc為情感類別數。
3.5 模型訓練
模型利用交叉熵損失Lsc對分類任務進行監督:
Lsc=-∑(s,a)∈Dy(s,a)log((s,a))(27)
其中:(s,a)為模型對句子—方面對(s,a)的預測標簽;y(s,a)為(s,a)的真實標簽。
為利用面向方面的樹結構對模型的注意力機制對進行監督,本文將L1與L2相加作為最終的對比損失Lcontra:
Lcontra=L1+L2(28)
本文模型最終的訓練損失L如下:
L=Lsc+αLcontra+λ‖θ‖2(29)
其中:α是調節損失平衡性的超參數;λ是L2正則化參數;θ是本文模型中所有參數的集合。
4 實驗及分析
4.1 數據集
本文在三個公開數據集上進行實驗,分別為SemEval-2014任務[29]的餐廳評論數據集Rest14和筆記本電腦評論數據集Lap14,以及由Dong等人[30]整理的Twitter推文數據集。數據集中的每條樣本都是由評價者真實生成的句子、句子中出現的方面詞和方面詞對應的情感類別所組成,并且標簽只包含積極、中性和消極情感。各數據集的統計數據如表1所示。
4.2 實驗設置
本文使用Pennington等人[31]提供的300維GloVe詞向量作為本文模型和全部對比模型的初始化詞嵌入,位置向量維度設置為60;模型中間層隱藏維度設置為60;此外,使用spaCy工具包(https://spacy.io/)獲取依存句法關系。本文對方面注意力層和全局注意力層的輸入應用丟棄率為0.6的dropout操作,設置對比損失系數α=0.5,L2調節系數λ=10-5。使用Adam作為優化器,設置學習率為0.001,batch大小為32,每個數據集上的訓練輪數為100。
實驗結果取隨機初始化10次運行的最好結果的平均值,并采用分類準確率和macro-F1值作為評價指標。
4.3 對比模型
為了全面評估和分析本文提出的DTEAM的ALSA任務性能,選取了一系列具有代表性的、基于不同方法類型的基線模型與DTEAM進行比較,包括:a)GCAE[3],提出了一種基于CNN和門控機制的模型,能夠基于給定的方面選擇性地輸出特征;b)TD-LSTM[4],使用兩個LSTM模型對目標方面之前和之后的上下文分別進行建模,并將最后一個隱藏狀態作為句子表示用于情感分類;c)ATAE-LSTM[14],將句中所有詞的向量表示與方面向量進行拼接作為輸入,通過基于注意力的LSTM來探索方面與句子內容之間的聯系;d)IAN[15],設計了一個方面和上下文的交互建模模型,利用BiRNN和注意力機制交互學習方面和上下文表示;e)MGAN[16],提出結合粗粒度和細粒度注意力來捕捉方面和上下文在詞級別上的交互并提出方面對齊損失以描述擁有共同上下文的不同方面之間的相互影響;f)AEN[32],提出利用多頭注意力機制分別對方面和上下文進行編碼,利用兩者間的交互注意力機制提取情感特征;g)TNet[28],將Bi-LSTM編碼后的句子的特征表示經過連續的面向方面的上下文編碼和注意力機制進行特征融合與提取,并使用CNN模型提取最終的特征表示;h)LSTM+SynATT[25],利用Bi-LSTM對句子進行編碼,并將句法信息作為權重集成到注意力機制中;i)ASGCN[19],使用Bi-LSTM獲取句子的特征表示,通過基于依存樹的GCN學習特定方面的特征表示,并將其應用于自注意力機制中以提取方面情感極性; j)BiGCN[20],基于依存樹和詞共現關系構建句法圖和詞匯圖,歸納區分不同類型的語法依賴關系和詞共現關系,設計了雙層次交互式圖卷積網絡以充分學習節點表示;k)TD-GAT[7],提出基于依存樹的圖注意力網絡,并利用LSTM單元更新下一層的文本表示;l)AEGCN[10],以雙通道的形式分別利用多頭注意力和基于依賴樹注意力改進的GCN對文本表示進行編碼,并利用通道間的交互注意力進一步增強表示;m)kumaGCN[11],利用HardKuma分布對句子的語義信息進行采樣,歸納生成方面特定的潛在圖結構,引入門控機制將潛在圖與依存樹相結合。
4.4 實驗結果
本節比較了DTEAM和對比模型在三個數據集上的ALSA任務性能,其中各對比模型的實驗結果分別來自其原文獻。實驗結果如表2所示,其中加粗字體的是當前指標中的最優結果,加下畫線的則是次優結果。
從表2中可以看出,相較于GCAE、TD-LSTM等基于CNN、RNN等傳統神經網絡的ALSA模型,基于注意力機制的ATAE-LSTM、IAN和MGAN等模型在各數據集上的性能均有顯著提升,說明注意力機制可以通過對方面和上下文間的依賴關系進行建模的方式為ALSA任務提供幫助。此外,以ASGCN和BiGCN為代表的基于依存樹建立的GCN模型則取得了比基于注意力機制模型更好的結果,說明利用句法信息能夠更為準確地對方面和上下文間的關系進行建模,為ALSA任務帶來增益。同時,以TD-GAT和AEGCN為代表的將注意力機制與依存樹相結合的模型,其性能相較于注意力模型和GCN模型提升并不明顯,說明在當前的研究中仍然缺乏將注意力機制與依存樹的各自優點有效結合的方法。這也正是本文期望改善的問題之一。
從表2中不難看出,本文提出的DTEAM在各數據集上都實現了優秀的分類效果,尤其是在Lap14和Rest14數據集上的準確率和macro-F1值都取得了當前最優結果。此外,DTEAM在Twitter數據集上的表現稍遜,本文認為可能的原因是Twitter數據集對句法信息不敏感[19],導致基于依存樹的模型難以達到更為準確的結果。總體上,DTEAM在ALSA任務中達到了較為先進的水平,證明了本文提出的利用句法信息增強注意力機制方法的有效性。
4.5 消融實驗
4.5.1 方面注意力層與全局注意力層的有效性
本節設計了DTEAM-w/o-a、DTEAM-w/o-g和DTEAM-w/o-P三個對比模型用于論證方面注意力層、全局注意力層在ALSA任務中的有效性,其中DTEAM-w/o-a和DTEAM-w/o-g分別表示去除了方面注意力層或全局注意力層的DTEAM,DTEAM-w/o-P則表示在DTEAM的全局注意力層中去除了位置向量P,直接將隱藏向量H作為全局注意力層的輸入。在全部三個數據集上進行消融實驗,結果如表3所示。由表3可知,在三個數據集上,DTEAM-w/o-a相比DTEAM都出現了明顯的性能下降,而在Twitter、Lap14和Rest14數據集上,DTEAM-w/o-g的表現也略遜于DTEAM,證明了方面注意力層和全局注意力層的有效性。此外,在三個數據集上,DTEAM-w/o-P的性能相比DTEAM也出現了大幅下降,證明位置信息能夠幫助模型更好地提取方面相關信息。同時DTEAM-w/o-P在Twitter和Rest14數據集上的表現也遜于不包含全局注意力層的DTEAM-w/o-g,這說明只基于語義信息而不考慮位置信息的全局注意力反而會對方面相關信息的提取產生干擾。
4.5.2 依存樹增強方法的有效性
本節設計了DTEAM-GAT和DTEAM-Att兩個對比模型,用于論證本文提出的利用面向方面的依存樹對注意力進行增強的方法在ALSA任務中的有效性,其中DTEAM-GAT在方面注意力層和全局注意力層中分別使用依存樹過濾后的注意力權重att′a和att′g生成情感向量H′a和H′g用于分類,其形式為
H′a=att′Tav(30)
H′g=att′TaHc(31)
DTEAM-Att則仍使用atta和attg生成情感向量,但不使用依存樹對其進行增強。相應地,以上兩種對比模型在訓練過程中都去除了原DTEAM的對比損失,在全部三個數據集上進行消融實驗,結果如表4所示。由表4可知,盡管DTEAM-GAT結合了注意力機制和句法信息,但不包含句法信息的DTEAM-Att的性能依然普遍優于DTEAM-GAT,該現象的可能原因是DTEAM-GAT由于基于依存樹的過濾機制maskT(·)丟失了訓練樣本中的大量上下文信息,使得實際參與訓練的樣本數量較少,導致模型的魯棒性較差,對性能造成不利影響,而DTEAM-Att采用的注意力機制雖然會由于缺乏句法信息輔助而不可避免地引入噪聲,但能夠接觸到更多的訓練樣本,使得模型更加健壯。
從表4中還可以觀察到,在大多數數據集上,DTEAM-GAT和DTEAM-Att相比DTEAM都出現了性能下降的情況,證明本文提出的利用依存樹對注意力機制進行增強的方法能夠有效結合兩者的優勢,在保證訓練樣本充足的同時利用句法信息降低了噪聲對任務的影響。根據DTEAM-Att相比DTEAM-GAT性能下降更小可知,注意力機制對本文模型性能的增益效果更大。此外,DTEAM-Att在Twitter數據集上取得了最佳準確率,可能的原因是Twitter數據集對句法信息不敏感。正如表2所示,Twitter數據集上的最佳結果同樣是由基于注意力機制的TNet模型取得。
4.6 參數研究
4.6.1 關于窗口半徑u的討論
如第2章所述,本文在構建面向方面的依存樹和位置向量的過程中只關注以目標方面為中心、半徑u=3以內的上下文。然而,固定的窗口半徑可能不足以適應文本的多樣性和復雜性,若u取值過小,模型將忽略部分與方面相關的上下文信息;若u取值過大,則將引入過多噪聲,而這兩種情況均不利于ALSA任務。因此,為探究窗口半徑u對模型性能的具體影響,設置不同u的取值并在三個數據集上進行了實驗,結果如表5所示。由表5可以看出,對于不同的數據集,模型達到最優性能時u的取值差別較大,這可能是由于語句間的長度和結構差異較大,所以難以選取最合適的取值。應當注意到,本文目前采用的固定窗口半徑的方法具有難以適應不同尺寸和復雜程度句子的缺陷,未來可以考慮根據句子長度或句法信息動態地裁定窗口。
4.6.2 關于對比損失系數α的討論
為利用依存樹具有的句法信息對注意力機制進行增強,本文設置對比損失Lcontra對注意力權重進行監督,以促使模型主動學習句法信息。為進一步探究Lcontra對模型分類性能的影響,本文設置不同的對比損失系數α并在三個數據集上進行了實驗,結果如表6所示。值得注意的是,當α=0.0時,模型等價于4.5.2節中的DTEAM-Att。從表6中可以觀察到,當α取非零值時,模型在除Twitter數據集外的數據集上的表現普遍優于α=0.0時的結果,證明通過對比損失Lcontra對注意力權重進行監督以增強注意力機制的方法是有效的。此外,在Lap14數據集上,模型在α=1.0時達到最優性能;在Rest14數據集上,模型在α=1.5時達到最優性能;而在對句法信息不敏感的Twitter數據集上,模型在沒有對比損失Lcontra監督的情況下達到最高的準確率。這說明對于來自不同領域和具有不同復雜程度的句子,最合適的α取值也是不同的。
5 結束語
為解決當前ALSA領域研究中存在的難以將注意力機制和句法信息有效結合的問題,本文設計并提出了一種依存樹增強的注意力模型DTEAM,旨在利用依存樹包含的句法信息對注意力機制進行增強。DTEAM提出基于依存句法關系和位置關系為每個句子建立面向方面的依存樹,在通過兩種注意力機制對目標方面的上下文信息進行聚合的同時,利用面向方面的依存樹對注意力權重進行監督,以繼承注意力機制和依存句法信息在ALSA領域中的優勢。在三個ALSA任務的公開數據集上的一系列實驗證明了本文模型性能上的先進性和模型成分的可解釋性。
最近的ALSA相關研究[9,33]引入詞性(part of speech,POS)和依存句法關系類型等句法信息參與學習,并取得了先進性能。本文提出的DTEAM目前只采用了簡單的依存句法關系和位置關系作為注意力機制的輔助,在今后將進一步探索如何將其他句法信息與注意力機制相結合,以完善本文研究。
參考文獻:
[1]Hu Minqing,Liu Bing.Mining and summarizing customer reviews[C]//Proc of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2004:168-177.
[2]Huang Binxuan,Carley K M.Parameterized convolutional neural networks for aspect level sentiment classification[C]//Proc of Confe-rence on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2018:1091-1096.
[3]Xue Wei,Li Tao.Aspect based sentiment analysis with gated convolutional networks[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2018:2514-2523.
[4]Tang Duyu,Qin Bing,Feng Xiaocheng,et al.Effective LSTMs for target-dependent sentiment classification[C]//Proc of the 26th International Conference on Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2016:3298-3307.
[5]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing.Red Hook,NY:Curran Associates Inc.,2017:5998-6008.
[6]Kipf T N,Welling M.Semi-supervised classification with graph convolutional networks[C]//Proc of the 5th International Conference on Learning Representations.2017.
[7]Huang Binxuan,Carley K M.Syntax-aware aspect level sentiment classification with graph attention networks[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2019:5469-5477.
[8]韓虎,吳淵航,秦曉雅.面向方面級情感分析的交互圖注意力網絡模型[J].電子與信息學報,2021,43(11):3282-3290.(Han Hu,Wu Yuanhang,Qin Xiaoya.An interactive graph attention networks model for aspect-level sentiment analysis[J].Journal of Electronics amp; Information Technology,2021,43(11):3282-3290.)
[9]Wang Kai,Shen Weizhou,Yan Yunyi,et al.Relational graph attention network for aspect-based sentiment analysis[EB/OL].(2020-04-26).https://arxiv.org/pdf/1609.02907.pdf.
[10]Xu Guangtao,Liu Peiyu,Zhu Zhenfang,et al.Attention-enhanced graph convolutional networks for aspect-based sentiment classification with multi-head attention[J].Applied Sciences,2021,11(8):3640.
[11]Chen Chenhua,Teng Zhiyang,Zhang Yue.Inducing target-specific latent structures for aspect sentiment classification[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2020:5596-5607.
[12]王光,李鴻宇,邱云飛,等.基于圖卷積記憶網絡的方面級情感分類[J].中文信息學報,2021,35(8):98-106.(Wang Guang,Li Hongyu,Qiu Yunfei,et al.Aspect-based sentiment classification via memory graph convolutional network[J].Journal of Chinese Information Processing,2021,35(8):98-106.)
[13]Kiritchenko S,Zhu Xiaodan,Cherry C,et al.NRC-Canada-2014:detecting aspects and sentiment in customer reviews[C]//Proc of the 8th International Workshop on Semantic Evaluation.Stroudsburg,PA:Association for Computational Linguistics,2014:437-442.
[14]Wang Yequan,Huang Minlie,Zhu Xiaoyan,et al.Attention-based LSTM for aspect-level sentiment classification[C]//Proc of Confe-rence on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2016:606-615.
[15]Ma Dehong,Li Sujian,Zha Xiaodong,et al.Interactive attention networks for aspect-level sentiment classification[C]//Proc of the 26th International Joint Conference on Artificial Intelligence.2017:4068-4074.
[16]Fan Feifan,Feng Yansong,Zhao Dongyan.Multi-grained attention network for aspect-level sentiment classification[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2018:3433-3442.
[17]Huang Binxuan,Ou Yanglan,Carley K M.Aspect level sentiment classification with attention-over-attention neural networks[C]//Proc of International Conference on Social Computing,Behavioral-Cultural Modeling and Prediction and Behavior Representation in Modeling and Simulation.Cham:Springer,2018:197-206.
[18]Chen Danqi,Manning C D.A fast and accurate dependency parser using neural networks[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2014:740-750.
[19]Zhang Chen,Li Qiuchi,Song Dawei.Aspect-based sentiment classification with aspect-specific graph convolutional networks[C]//Proc of Conference on Emprical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Proces-sing.Stroudsburg,PA:Association for Computational Linguistics,2019:4568-4578.
[20]Zhang Mi,Qian Tieyun.Convolution over hierarchical syntactic and lexical graphs for aspect level sentiment analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2020:3540-3549.
[21]巫浩盛,繆裕青,張萬楨,等.基于距離與圖卷積網絡的方面級情感分析[J].計算機應用研究,2021,38(11):3274-3278,3321.(Wu Haosheng,Miao Yuqing,Zhang Wanzhen,et al.Aspect level sentiment analysis based on distance and graph convolution network[J].Application Research of Computers,2021,38(11):3274-3278,3321.)
[22]Velicˇkovicˇ P,Cucurull G,Casanova A,et al.Graph attention networks[EB/OL].(2018-02-04).https://arxiv.org/abs/1710.10903.
[23]Tang Duyu,Qin Bing,Liu Ting.Aspect level sentiment classification with deep memory network[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2016:214-224.
[24]Chen Peng,Sun Zhongqian,Bing Lidong,et al.Recurrent attention network on memory for aspect sentiment analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2017:452-461.
[25]He Ruidan,Lee W S,Ng H T,et al.Effective attention modeling for aspect-level sentiment classification[C]//Proc of the 27th International Conference on Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2018:1121-1131.
[26]He Shexia,Li Zuchao,Zhao Hai,et al.Syntax for semantic role labeling,to be,or not to be[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2018:2061-2071.
[27]Zhang Yuhao,Qi Peng,Manning C D.Graph convolution over pruned dependency trees improves relation extraction[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2018:2205-2215.
[28]Li Xin,Bing Lidong,Lam W,et al.Transformation networks for target-oriented sentiment classification[C]//Proc of the 56th Annual Mee-ting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2018:946-956.
[29]Pontiki M,Galanis D,Pavlopoulos J,et al.SemEval-2014 task 4:aspect based sentiment analysis[C]//Proc of the 8th International Workshop on Semantic Evaluation.Stroudsburg,PA:Association for Computational Linguistics,2014:27-35.
[30]Dong Li,Wei Furu,Tan Chuanqi,et al.Adaptive recursive neural network for target-dependent Twitter sentiment classification[C]//Proc of the 52nd Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2014:49-54.
[31]Pennington J,Socher R,Manning C D.GloVe:global vectors for word representation[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2014:1532-1543.
[32]Song Youwei,Wang Jiahai,Jiang Tao,et al.Targeted sentiment classification with attentional encoder network[C]//Proc of International Confe-rence on Artificial Neural Networks.Cham:Springer,2019:93-103.
[33]Bai Xuefeng,Liu Pengbo,Zhang Yue.Investigating typed syntactic dependencies for targeted sentiment classification using graph attention neural network[J].IEEE/ACM Trans on Audio,Speech,and Language Processing,2021,29:503-514.