999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多注意力卷積神經網絡的特定目標情感分析

2017-08-31 19:49:08全,2,3
計算機研究與發展 2017年8期
關鍵詞:機制情感模型

梁 斌 劉 全,2,3 徐 進 周 倩 章 鵬

1(蘇州大學計算機科學與技術學院 江蘇蘇州 215000) 2(軟件新技術與產業化協同創新中心 南京 210000) 3 (符號計算與知識工程教育部重點實驗室(吉林大學) 長春 130012) (bliang@stu.suda.edu.cn)

基于多注意力卷積神經網絡的特定目標情感分析

梁 斌1劉 全1,2,3徐 進1周 倩1章 鵬1

1(蘇州大學計算機科學與技術學院 江蘇蘇州 215000)2(軟件新技術與產業化協同創新中心 南京 210000)3(符號計算與知識工程教育部重點實驗室(吉林大學) 長春 130012) (bliang@stu.suda.edu.cn)

特定目標情感分析作為情感分析一個重要的子任務,近年來得到越來越多研究人員的關注.針對在特定目標情感分析中,將注意力機制和LSTM等序列性輸入網絡相結合的網絡模型訓練時間長、且無法對文本進行平行化輸入等問題,提出一種基于多注意力卷積神經網絡(multi-attention convolution neural networks, MATT-CNN)的特定目標情感分析方法.相比基于注意力機制的LSTM網絡,該方法可以接收平行化輸入的文本信息,大大降低了網絡模型的訓練時間.同時,該方法通過結合多種注意力機制有效彌補了僅僅依賴內容層面注意力機制的不足,使模型在不需要例如依存句法分析等外部知識的情況下,獲取更深層次的情感特征信息,有效識別不同目標的情感極性.最后在SemEval2014數據集和汽車領域數據集(automotive-domain data, ADD)進行實驗,取得了比普通卷積神經網絡、基于單注意力機制的卷積神經網絡和基于注意力機制的LSTM網絡更好的效果.

注意力機制;卷積神經網絡;特定目標情感分析;深度學習;自然語言處理

隨著社交網絡的興起,越來越多的人在網絡上發表意見和表達情感,通過對這些數據的提取和分析可以幫助我們了解不同人對不同事物所發表的觀點和情感.如何利用自然語言處理技術來分析社交網絡短文本的情感傾向,已經成為研究人員關注的熱點領域之一[1-2].

近年來,隨著深度學習在情感分析領域的研究和應用,越來越多的研究人員使用深度學習來對社交網絡短文本進行情感分析.例如Kalchbrenner等人用卷積神經網絡(convolution neural networks, CNN)解決Twitter的極性判斷問題[3];Zhou等人使用LSTM(long short-term memory)網絡解決跨語言情感分析任務[4];Yu等人使用多種深度神經網絡解決跨領域的情感分析任務[5].這些使用深度神經網絡的方法在情感分析任務中取得了比以往研究更好的分類效果.

特定目標情感分析(aspect-based sentiment analysis, ABSA)作為情感分析一個重要的子任務,是更深層次的情感分析[6].和普通情感分析不同,特定目標情感極性的判別不僅依賴文本的上下文信息,同時還依賴特定目標的特征信息[7].例如句子“The food was very good,but the service at that restaurant was dreadful”對于目標“food”是積極情感,而對于目標“service”則是消極情感.所以,就算是同一個句子,針對不同的目標可能會出現完全相反的情感極性.

注意力機制(attention mechanism)能很好解決同一句子中不同目標的情感極性判別問題.注意力機制最早是用在圖像處理領域,目的是為了讓神經網絡在處理數據時重點關注某些信息.Mnih等人在2014年提出將注意力機制用在圖像分類任務中[8],驗證了注意力機制在圖像處理領域的有效性,同時也使結合注意力機制的神經網絡成為研究的熱點.隨后,Bahdanau等人將注意力機制和循環神經網絡(recurrent neural network, RNN)結合解決機器翻譯任務[9],使注意力機制成功融入自然語言處理領域.隨著研究的推進,Yin等人在2015年提出一種基于注意力機制的卷積神經網絡,并將該網絡用在句子對建模任務中[10];Wang等人利用基于多層注意力機制的卷積神經網絡進行句子關系分類[11]、這些方法的提出證明了注意力機制和CNN結合的有效性.

基于注意力機制的卷積神經網絡可以通過一個注意力矩陣計算出句子相應的注意力特征,在模型訓練時讓神經網絡高度關注某些信息.例如在特定目標情感分析任務中,注意力機制可以通過注意力特征圖讓模型在訓練過程中關注目標詞的特征信息,正確識別不同目標的情感極性.相比LSTM等序列性神經網絡,卷積神經網絡可以獲取平行輸入的信息,同時可以解決傳統LSTM網絡不能準確表示每個詞在句子中的重要程度的缺點.為了更好地學習不同目標的情感信息和識別不同目標的情感極性,本文提出一種結合多注意力機制的卷積神經網絡應用到特定目標的情感分析方法.該方法基于卷積神經網絡,使模型能接收平行輸入的文本信息.同時,該方法在以前研究的基礎上提出了加入詞性注意力機制,使模型能從多種特征信息關注句子的目標詞和其他詞語之間的聯系,準確表示出每一個詞在句子中的重要程度,獲取更多的隱藏信息.

本文結合3種注意力機制來構造多注意力卷積神經網絡(multi-attention convolution neural networks, MATT-CNN)模型:1)詞向量注意力機制.將目標詞的詞向量和文本其他詞的詞向量進行運算,突出目標詞的重要性;2)詞性注意力機制.將文本中的情感詞和目標詞重新進行詞性標注,使網絡充分利用文本的情感信息;3)位置注意力機制.以目標詞為中心,計算其他詞和目標詞的位置關系,有效表示每個詞在句子中的重要程度和對目標詞的影響程度.最后,將本文提出的方法在SemEval2014和ADD兩個數據集上進行實驗,取得了比普通卷積神經網絡、基于單注意力機制的卷積神經網絡和基于注意力機制的LSTM網絡更好的情感分類效果,驗證了本文提出方法的有效性.

本文的主要貢獻如下:

1) 提出一種多注意力卷積神經網絡(MATT-CNN)用在特定目標情感分類任務中,和基于注意力機制的LSTM網絡相比,MATT-CNN可以接收句子的平行化輸入,大大降低了模型的訓練時間;

2) 本文提出的詞性注意力機制可以讓模型充分利用和學習輸入文本的情感信息,同時可以彌補僅僅依賴內容層面注意力機制的不足;

3) 提出一個雙向掃描算法,能有效標識不同詞語在句子中的重要程度,使卷積神經網可以充分利用文本每個詞語的位置信息;

4) 多注意力卷積神經網絡模型結構簡單,無需使用例如依存句法分析和語義依存分析等外部知識,同時也不需要對特定目標進行額外的向量化;

5) 在不同語言和不同領域的數據集上的實驗結果表明,本文提出的基于多注意力卷積神經網絡能有效識別不同目標的情感極性.

1 相關工作

1.1特定目標情感分析

特定目標情感分析是通過學習文本上下文的信息來判別文本中特定目標的情感極性,是更深層次的情感分析,也是細粒度的文本分類任務,一直以來都得到很多學者的關注和研究.2004年,Hu和Liu提出了基于不同商品的用戶評論情感分析[12-13];Qiu等人使用目標提取和情感詞典擴充方法判別特定目標的情感極性[14];Kiritchenko等人使用機器學習方法進一步研究特定商品的用戶評論進行情感分析[15].這些使用傳統機器學習的方法通過構造情感特征,能很好地利用文本的情感特征信息,有效判別特定目標的情感極性.

近年來,深度學習技術在文本分類任務中取得了重大的突破,也有很多學者利用深度學習技術來解決特定目標情感分析問題.Nguyen和Shirai基于RNN和依存樹提出一種特定目標情感分析模型[16];Dong等人提出一種自適應的RNN用在特定目標的Twitter文本情感分類任務中[17].這些方法使用深度學習技術來解決特定目標情感分析問題,可以在不需要情感詞典的情況下通過深度神經網絡更好地學習文本的情感特征信息,取得了比傳統機器學習方法更好的分類效果.但是這些方法需要使用依存樹、句法關系等外部知識,網絡模型結構較為復雜.Ruder等人提出一種分層的雙向LSTM網絡進行特定目標情感分析[18],該方法利用一個雙向的LSTM網絡在不同層次對輸入文本進行特征提取和學習,可以有效學習句子內部關系和句子之間的關系,從而可以判別特定目標的情感極性.但該方法更多的是針對句子中只包含一個特定目標的情況,對包含多個目標的句子情感極性判別較為困難.為了解決不同目標的情感極性判別問題,Wang等人提出了一種結合注意力機制的LSTM網絡[19],通過對特定目標進行特定的向量化處理,將特定目標作為注意力機制輸入LSTM網絡,使網絡模型在訓練過程中可以高度關注特定的目標,從而可以有效識別不同目標的情感極性.從這些研究工作可以看出,基于LSTM網絡的網絡模型已經在特定目標情感分析任務中取得了很多的成功,但是將卷積神經網絡應用到特定目標情感分析任務中的研究還很少.此外,基于LSTM等序列性輸入網絡在特定目標情感分析任務中無法接收平行化輸入的文本,所以在訓練過程中難以準確表示每一個詞在句子中的重要程度.

本文提出的基于多注意力卷積神經網絡的特定目標情感分析方法可以接收平行化輸入的文本信息,通過不同的注意力機制可以準確表示出每一個詞在句子中的重要程度.同時,該方法提出了一種可以充分利用文本情感特征信息的多注意力機制,使網絡在訓練過程中更好地學習不同目標的情感特征信息,有效識別不同目標的情感極性.

1.2卷積神經網絡

在自然語言處理任務中,卷積神經網絡(CNN)無需對文本進行大量的預處理工作,有效緩解了特征工程的工作量.如圖1所示,CNN主要由輸入層、卷積層、池化層和全連接層組成.輸入層是對輸入數據的向量表示,對于給定的長度為n的句子,輸入層矩陣可表示為

e∈n×k,

(1)

Fig. 1 The overall framework of convolution neural networks圖1 卷積神經網絡模型結構圖

其中k為詞向量維度.卷積層使用不同的卷積核對輸入矩陣進行卷積操作,提取輸入的局部特征,得到卷積核特征向量圖:

c=f(W·x+b),

(2)

其中,x為卷積核窗口詞向量矩陣,W為權重矩陣,b為偏置,f為激活函數.池化層是卷積神經網絡的重要網絡層,對于卷積層得到的特征向量圖,可以通過池化層來對特征向量圖進行下采樣操作,提取重要的特征信息.同時,池化層可以輸出一個固定大小的矩陣.不同長度的句子輸入和不同大小的卷積核可以通過池化層得到一個相同維度的輸出,并將輸出傳給全連接層對輸入進行分類,得到分類結果.

2 多注意力卷積神經網絡

本文通過3種作用在卷積神經網絡輸入層的注意力機制介紹如何更加充分地學習文本的情感特征信息,從而有效識別不同目標的情感極性.如圖2所示,本文提出的多注意力卷積神經網絡主要由6部分組成:

Fig. 2 The overall framework of multi-attention CNN圖2 多注意力卷積神經網絡框架圖

1) 注意力輸入矩陣.存儲不同注意力機制的注意力特征向量信息;

2) Operation層.對于3種不同的注意力機制,本文使用不同的運算操作來獲取輸入文本的不同表示作為卷積神經網絡的輸入,從而使模型在訓練過程中從多方面信息來關注特定的目標;

3) 卷積層.為了使網絡模型簡單化,本文使用一層卷積層對不同的注意力機制輸入信息進行特征提取,通過多窗口多注意力機制的結合,可以獲取輸入文本豐富的局部特征;

4) 池化層.對于從不同注意力機制輸入信息提取得到的局部特征,分別進行池化操作,可以獲取不同注意力機制運算的最重要的情感特征信息;

5) 合并層.本文將從池化層提取得到的不同注意力機制的最重要信息通過合并層操作,形成輸入文本的特征表示,并將特征表示作為全連接層的輸入;

6) 輸出層.本文將通過softmax函數輸出最終的分類結果.

2.1任務定義

對于長度為n的句子s={w1,w2,…,ai,…,aj,…,wn},其中ai和aj為2個不同的目標詞,本文的任務是針對不同的目標分析其情感極性.例如句子“The food was very good, but the service at that restaurant was dreadful”,對于目標“food”來說,是積極情感極性,而對于目標“service”則是消極的情感.本文將句子以詞為單位形成一個詞序列,然后將每一個詞映射為一個多維的連續值詞向量,得到一個詞向量矩陣E∈k×|V|,其中k為詞向量維度,即把每一個詞映射為k維向量xi∈k,|V|為詞典的大小,即數據集包含的所有詞的數量.對于長度為n的句子可以表示為式(3)所示的矩陣.其中,⊕為拼接操作.本文要通過句子中的詞向量集合{x1,x2,…,xn}和目標集合{ti,tj}之間的特征信息來判斷目標集合{ti,tj}中每一個目標的情感極性.

x1:n=x1⊕x2⊕…⊕ti⊕…⊕tj⊕…⊕xn.

(3)

2.2方法概述

為了更好地學習不同目標的特征信息以及識別不同目標的情感極性,本文使用3種不同的注意力機制讓模型以不同的方式注重學習某些需要關注的信息.對于包含t個目標詞的句子,本文針對不同的目標將句子表示為t個分句,并用一個特殊標識“〈〉”標記目標詞的位置,對句子重新表示,使得每一個分句只有一個目標詞.該方法能使模型在訓練過程中獲取目標詞的位置,同時也保留了標志的目標詞和其他目標詞之間的聯系和相互影響.

如圖3所示,對于句子“The food was very good,but the service at that restaurant was dreadful”,本文將特殊標識“〈〉”標注為特殊的詞性,并映射為一個多維的向量,可以在訓練過程進行調整和學習.

Fig. 3 Example of sentence representation圖3 句子表示方法

對于長度為n的句子s={w1,w2,…,ai,…,wn},本文將句子中的目標詞ai的詞性重新標注為“tar”,特殊標識“〈〉”的詞性重新標注為“tag”,積極情感詞的詞性重新標注為“pos”,消極情感詞的詞性重新標注為“neg”.本文通過詞向量矩陣將每一個詞表示為k維的向量,提取出目標詞ai的詞向量、詞性和ai在句子中的位置這3個特征來構造神經網絡輸入層的3種注意力機制:

1) 詞向量注意力機制.提取目標詞的詞向量作為目標詞向量注意力矩陣,將注意力矩陣和詞向量矩陣進行運算操作獲取注意力特征矩陣,是關聯文本內容的注意力機制.

2) 詞性注意力機制.是詞向量注意力機制的補充,是關聯句子中詞語的詞性的注意力機制,可以讓模型用另一種方式關注句子的目標詞,從而學習到更多的隱藏信息.

3) 位置注意力機制.本文使用的位置注意力有2種形式,一種形式是作為參數加入詞向量注意力機制和詞性注意力機制的運算;另一種形式是作為獨立的注意力機制輸入到網絡中.將位置注意力機制和其他注意力機制結合,可以充分表示每一個詞在句子中的重要程度.

通過結合這3種注意力機制作為卷積神經網絡的輸入,可以讓模型以多種形式學習目標詞的特征信息,達到更好的分類效果.

2.3詞向量注意力機制

注意力機制的目的是在訓練過程中,讓模型知道輸入數據中哪一部分信息是重要的,從而使模型高度關注這些信息.對于特定目標的情感分析,內容層面的信息是最重要的,可以通過分析文本的內容得出哪些詞對句子中目標詞的影響較大.例如句子“The food was very good, but the service at that restaurant was dreadful”,詞語“good”是用來形容目標詞“food”的,而詞語“dreadful”是用來形容目標詞“service”的,所以在該句子中情感詞“good”比情感詞“dreadful”對目標“food”的影響大得多.同理,情感詞“dreadful”比情感詞“good”對目標“service”的影響也大得多.

對于句子s={w1,w2,…,ai,…,wn},提取出目標詞ai的詞向量作為注意力矩陣,將注意力矩陣和句子s的詞向量矩陣進行運算操作,可以得到注意力特征矩陣Ac,如圖4所示,其中Ac為對角矩陣:

Ai,i=innerproduct(ti,xi),

(4)

(5)

此外,矩陣Ac也可由

(6)

得出,其中,α為可調參數,用來控制不同詞向量對目標詞的影響程度,表示出每一個詞的重要程度.α可以人工設定,也可以由位置注意力機制計算給出,通過α可以表示出每一個詞的重要程度.

Fig. 4 The operation of attention mechanism圖4 注意力機制運算操作

利用計算得到的注意力特征矩陣Ac和原來的詞向量做運算可分別得到卷積神經網絡的輸入矩陣:

(7)

(8)

這2種方法都可以用作輸入矩陣的計算,本文實驗中使用式(7)計算輸入矩陣,即簡單的向量拼接.

2.4詞性注意力機制

文本的內容信息是文本情感分析的關鍵,然而在分詞錯誤以及情感詞典中的情感詞在數據集中的覆蓋率較低的情況下,這種僅僅依賴文本內容信息對文本情感進行分類的準確率將會大大降低.針對該問題,本文提出一種基于詞性的注意力機制,結合詞向量注意力機制作為網絡的輸入.本文通過對特殊詞的詞性重新標注,可以讓模型學習到目標詞和情感詞之間的聯系信息.以句子“The food was very good, but the service at that restaurant was dreadful”為例,對句子中的特殊詞詞性重新標注如圖5所示:

Fig. 5 Part of speech re-tagging圖5 詞性重新標注

和詞向量一樣,本文將每一個詞性映射為一個多維的連續值向量,稱為詞性向量,即tagi∈l,其中l為詞性向量維度.對于長度為n的句子,可以將詞性向量表示為如式(9)所示的向量矩陣,其中tar表示目標詞的詞性向量.

tag1:n=tag1⊕tag2⊕…⊕tar⊕…⊕tagn.

(9)

本文提取目標詞的詞性向量作為詞性注意力特征矩陣,即At=tar,然后計算網絡的輸入矩陣:

(10)

其中β為權重系數.通過調整β的取值,可以充分利用句子的情感特征信息,本文在實驗中對情感詞取1.2,其他詞取1.0.

2.5位置注意力機制

在特定目標情感分析任務中,詞語和目標詞之間的位置往往也隱含著很重要的信息,一種簡單的距離計算方式如圖6所示:

Fig. 6 Example of location calculation圖6 位置計算方式舉例

我們普遍認為距離目標詞更近的詞對目標詞的影響更大,例如句子中的情感詞“good”比情感詞“dreadful”距離目標詞“food”更近,同時“good”也是目標詞“food”的正確情感表達.但是對于目標詞“service”來說,和情感詞“good”的距離更近,但是情感詞“dreadful”才是目標詞“service”的正確情感表達.針對這個問題,本文提出一種雙向掃描算法來確定詞語和目標之間的位置取值,如算法1所示.

算法1. 雙向掃描算法.

輸入: 分詞后的句子s;

輸出: 每個詞和目標詞之間的位置取值集合l.

1) 將目標詞的位置取值置為0,其他詞的位置取值置為n,其中n為句子的長度;

2) 以目標詞為中心,設定2個工作指針分別往左右兩邊掃描(以下步驟以某一個指針為例子);

3) 記錄工作指針和目標相對位置i的值li,如果該位置的詞為標點符號,執行步驟4);如果該位置的詞為目標詞集合中的詞,則執行步驟5);否則,執行步驟6);

4) 利用下式更新li的值,將位置取值li加入集合,繼續掃描;

5) 利用式li=1更新li的值,將位置取值i加入集合,繼續掃描;

6) 將位置取值li加入集合,繼續掃描;

7) 當2個指針分別到達句子的起始和終止位置時,將位置取值li加入集合,停止掃描.

本文用矩陣P來存儲數據集所有句子的位置取值,然后計算α的取值:

(11)

將矩陣P中存儲的所有位置取值映射為一個多維向量,即Pi∈k,然后計算網絡的輸入矩陣:

(12)

2.6多注意力卷積神經網絡模型

卷積神經網絡可以通過多注意力機制使模型在訓練過程中以不同的特征信息來關注目標,可以提取和學習到目標更多的隱藏信息,從而能更好地識別不同目標的情感極性.本文將針對多注意力機制介紹3種構造輸入矩陣的方法:

1) AATT-CNN.以詞的內容為基礎,把詞向量注意力、詞性注意力和位置注意力作運算,如式(13)所示.該方法以文本最重要的內容信息為基礎,結合文本的其他特征信息,使網絡更好地識別不同目標的情感信息.在式(13)中λc,λt和λp可以為系數,也可以為系數矩陣.

z=λczc+λtzt+λpzp.

(13)

2) CATT-CNN.將不同的注意力輸入矩陣通過矩陣變換拼接形成新的輸入矩陣,式(14)給出一種拼接方式.其中G,R,U為權重矩陣,可以在訓練過程中學習和調整.

z=zcG⊕ztR⊕zpU.

(14)

3) SATT-CNN.將不同的注意力輸入堆疊形成3維的張量作為網絡的輸入.該方法的優點是可以形成不同的輸入通道對輸入矩陣進行卷積操作,缺點是在輸入層忽略了不同注意力矩陣的聯系.

卷積神經網絡可以通過卷積核同時對文本中的多個詞進行卷積操作,保留了詞之間的聯系.對于長度為h的卷積窗口,對輸入矩陣的卷積操作為

ci=f(w·xi:i+h-1+b),

(15)

其中,w∈h×k為卷積核權重,b∈為偏置,f為激活函數,xi:i+h-1為一個卷積窗口的文本局部特征矩陣.對于長度為n的句子,通過卷積操作可得到所示的特征圖:

c=[c1,c2,…,cn-h+1],

(16)

即c∈n-h+1.本文在池化層采用max-over-time pooling方法[20]對特征圖進行下采樣,提取最重要的特征}.對于有m個卷積核的窗口采樣得到的特征信息如式(17)所示.下采樣層輸出的特征向量作為全連接層的輸入,本文通過一個softmax函數輸出分類結果,如式(18)所示.

(17)

y=softmax(WfXp+Bf),

(18)

其中,Xp為下采樣層輸出,Wf∈C×|X|為全連接層權重矩陣,Bf∈C為全連接層偏置.本文使用反向傳播算法來訓練模型,通過最小化交叉熵來優化模型,交叉熵代價函數為

(19)

3 實 驗

將本文提出的方法在3個不同領域數據的數據集上進行實驗,解決特定目標情感分析任務.通過和對比實驗相比,驗證本文提出的方法在不同領域的數據集上都能取得較好的情感分類性能.在本文的實驗中,英文詞向量采用Pennington等人[21]提出的Glove詞向量*http://nlp.stanford.edu/projects/glove/,其中每個詞向量為300維,詞典大小為1.9 MB.中文詞向量采用從汽車之家爬取的用戶評論,利用word2vec的skip-gram訓練得到[22],每個詞向量為300維.對于未登錄詞,采用均勻分布U(-0.01,0.01)來隨機初始化詞向量.本文采用ICTCLAS分詞工具*http://ictclas.nlpir.org/對中文數據集進行分詞和詞性標注.對于單個詞的目標,本文使用詞向量作為目標的向量表示,例如“food”,“menu”,“staff”等.對于由多個詞組成的目標,本文使用多個詞的詞向量平均值作為目標的向量表示,例如“dim sum”,“battery life”等.

3.1實驗數據

本文采用英文的SemEval2014數據集*http://alt.qcri.org/semeval2014/和中文的汽車領域數據集*http://www.wid.org.cn/data/science/player/competition/detail/description/237/(automotive-domain data, ADD)進行實驗.其中汽車領域數據集為2016年CCF大數據與計算智能大賽(BDCI)中“基于視角的領域情感分析”賽題數據,SemEval2014是語義評測比賽任務4的數據集,包含laptop和restaurant兩個領域的用戶評論.數據樣本的情感極性分為積極、消極和中性,表1給出本文實驗使用數據的統計.本文在Laptop領域數據集使用較少的訓練數據,用來分析不同模型在數據樣本缺乏的數據集上情感分類性能.

Table 1 Statistic of The Datasets表1 實驗使用數據統計

3.2超參數

本文使用3種不同的注意力矩陣輸入方法完成實驗,實驗當中使用多種窗口卷積核對輸入矩陣進行卷積操作.卷積核函數為rectified linear units,訓練過程采用Zeiler[23]提出的Adadelta更新規則.其他參數如表2所示:

Table 2 Hyper Parameters of Experiment表2 實驗參數設置

3.3對比實驗

將本文提出的3種方法AATT-CNN,CATT-CNN,SATT-CNN和以下的8種方法在3個不同領域的數據集上進行實驗:

1) CNN.基于Kim[24]提出的卷積神經網絡模型,是最基礎的卷積神經網絡.

2) SVM.文獻[15]提出的基于特征的SVM分類模型,該模型取得了比以往研究更好的分類效果.

3) ATT-CNN.基于文獻[11]提出的多層注意力機制卷積神經網絡,將詞向量作為注意力機制構建網絡的輸入矩陣,形成單注意力機制.

4) ATT-LSTM.文獻[19]提出的基于注意力機制的LSTM網絡,該模型在5種特定目標的情感分類中取得了比傳統LSTM網絡更好的分類效果.

5) AATT-CNN-1.本文提出的將多種注意力矩陣作運算作為卷積神經網絡的輸入模型,實驗中λc,λt和λp系數分別取0.6,0.3和0.1.

6) AATT-CNN-2.本文提出的將多種注意力矩陣作運算作為卷積神經網絡的輸入模型,實驗中隨機初始化λc,λt和λp系數矩陣,并在實驗中可調整.

7) CATT-CNN.本文提出的將多種注意力機制拼接作為卷積神經網絡的輸入模型,實驗中G,R,U權重矩陣隨機初始化,并在實驗中可調整.

8) SATT-CNN.本文提出的將多種注意力機制堆疊形成3維張量作為卷積神經網絡的輸入模型.

3.4實驗結果與分析

本文將8組實驗在SemEval2014和ADD數據集上進行實驗,分析特定目標的情感極性.表3給出8組實驗在3個不同領域的情感分類正確率.

Table 3 Accuracy on Aspect-based Sentiment Classificationof Different Models

從表3結果可以看出,本文提出的4種方法在3個領域的數據集上都取得不錯的情感分類效果,其中AATT-CNN-2,CATT-CNN和SATT-CNN在3個領域的數據集中的情感分類效果都比使用傳統的基于特征的SVM分類模型好.沒加入任何特征的CNN模型對特定目標的情感分析性能不是很理想,在最好的汽車領域數據集的分類正確率也只有72.09%.分析實驗結果可知,CNN模型將很多句子中的不同目標判別為同樣的情感極性,普通的CNN模型沒有針對特定的目標提取更多的特征信息,所以模型無法準確識別同一個句子不同目標的情感極性.基于注意力機制的ATT-CNN模型相比CNN模型分類正確率有明顯的提高,在最高的Restaurant領域數據集提升了9.56%,這說明注意力機制能使模型在訓練過程高度關注特定的目標的特征信息,從而更好地識別特定目標的情感極性,驗證了注意力機制在特定目標情感分類任務中的有效性.

對比本文提出的4種模型和使用單一的注意力機制的ATT-CNN模型可以看出,本文提出的4種模型在3個數據集的分類正確率都明顯高于單一注意力機制的ATT-CNN模型,其中Laptop數據集提升最高為2.62%,Restaurant數據集提升最高為3.28%,汽車領域數據集提升最高為4.5%.實驗結果表明對比單一注意力機制的ATT-CNN模型,結合多種注意力機制的卷積神經網絡模型可以使網絡在訓練過程通過不同的注意力機制來關注和學習特定目標的情感信息,以及通過不同注意力機制之間的相互聯系來提取挖掘更多的隱藏信息,有效彌補了單一注意力機制的不足,從而取得更好的分類效果.

對比本文提出的4種模型和文獻[19]提出的ATT-LSTM模型可以看出,ATT-LSTM模型在Laptop領域數據集取得了最好的分類效果(正確率為68.22%),而本文提出的CATT-CNN和SATT-CNN模型在2個訓練數據較多的Restaurant領域數據集和汽車領域數據集的情感分類正確率均高于ATT-LSTM網絡模型,其中表現最好的CATT-CNN模型在2個訓練數據領域數據集上的分類正確率分別提升了1.28%和1.54%.說明和結合注意力機制的LSTM網絡相比,基于多注意力機制的卷積神經網絡雖然在數據量較少的數據集上因為訓練樣本的不足容易出現過擬合現象,從而導致情感分類正確率較低,但是在訓練集數據量較為充足的數據集中可以通過不同的注意力機制來關注輸入的文本,使模型能提取到更多的隱藏信息,從而有更好的情感分類效果.

對比AATT-CNN-1和AATT-CNN-2兩組實驗可以看出,AATT-CNN-2模型在3個領域的數據集都好于AATT-CNN-1模型,其中分類正確率提升最高的是Laptop數據集,為1.69%.這說明結合系數矩陣的注意力輸入比單純的固定系數注意力輸入的情感分類效果更好.通過系數矩陣可以使網絡在訓練過程更細地調整特征向量的每一個分量,從而讓網絡在更低維度的調整中學習更多的隱藏信息.

對比AATT-CNN-2,CATT-CNN和SATT-CNN這3組實驗可以看出,采用通過矩陣變換的拼接方法雖然在訓練數據較少的Laptop領域數據集的分類正確率最低,只有67.10%,但是在Restaurant領域數據集和汽車領域數據集的情感分類正確率都明顯高于其他2組實驗.結合變換矩陣的CATT-CNN模型和SATT-CNN模型相比,CATT-CNN模型可以在訓練過程中通過調整變換矩陣使不同注意力機制在輸入層就能很好地互相結合,而SATT-CNN模型只有在卷積層以后才會有不同注意力機制的信息交互.采用拼接操作的CATT-CNN模型和AATT-CNN-2模型相比,CATT-CNN模型保留了不同注意力機制的原始輸入信息,模型可以更好地調整注意力機制輸入向量.

為了進一步比較本文提出的AATT-CNN-2,CATT-CNN,SATT-CNN這3個模型和ATT-LSTM模型在特定目標情感分析任務中的分類效果,本文只保留數據集中的積極和消極樣本對4個模型進行對比實驗.實驗結果如表4所示:

Table 4 Accuracy on Aspect-based Sentiment Classificationof Different Models Ignoring All Neutral Instances

從表4可以看出在去除中性極性數據之后,4組實驗的分類正確率都有了明顯的提升,其中ATT-LSTM模型在Laptop領域數據的分類正確率最高,為86.57%.說明ATT-LSTM模型在數據量較小的數據集中仍然可以取得比其他模型更好的分類效果.CATT-CNN和SATT-CNN模型在Restaurant和汽車領域數據集的分類正確率都高于ATT-LSTM模型,說明在數據集數量較為充裕時,基于多注意力機制的卷積神經網絡的情感分類效果要好于基于注意力機制的LSTM網絡.AATT-CNN-2模型在3個數據集的分類效果都是最差的,說明在輸入層將注意力機制矩陣做運算會失去注意力機制原有的輸入信息,在訓練過程中網絡只能通過調整系數矩陣和運算后的注意力矩陣來學習特征信息,導致不同的注意力機制沒有得到充分的利用,降低了分類性能.

對比CATT-CNN模型和SATT-CNN模型可以看出,在Laptop領域和Restaurant領域數據集SATT-CNN模型的分類正確率高于CATT-CNN模型,分別提升0.25%和0.53%,但是在汽車領域數據集中CATT-CNN模型要明顯優于SATT-CNN模型,分類正確率提升了1.64%.

Fig. 7 Classification accuracy of different data size 圖7 不同大小數據集的分類正確率比較

為了進一步分析CATT-CNN模型和SATT-CNN模型在不同大小數據集中的分類效果,本文提取Restaurant領域3 000條數據和汽車領域4 500條數據進行5倍交叉驗證實驗,實驗結果如圖7所示.從圖7結果可以看出隨著數據集的樣本數增加,CATT-CNN模型和SATT-CNN模型都呈現出越來越好的分類效果.在數據集樣本數較少的實驗中,SATT-CNN模型要好于CATT-CNN模型,而在數據集樣本數較多的實驗中,CATT-CNN模型的分類效果要明顯優于SATT-CNN模型.因為CATT-CNN模型在訓練過程中可以調整變換矩陣和注意力機制矩陣2個信息的變量,可以更好地擬合訓練數據,所以在數據量較少的數據集中會出現過擬合的情況,而SATT-CNN模型只通過調整不同通道的注意力機制輸入信息,過擬合現象遠低于CATT-CNN模型,如圖7(a)所示.相反,隨著數據集的樣本數量的增加,CATT-CNN模型能通過調整變換矩陣和注意力機制輸入矩陣,使不同注意力機制更好地互相學習,達到更好的數據擬合效果,隨著數據量的增加也可以減輕過擬合的現象,所以隨著數據量的增加,CATT-CNN模型的分類效果要比SATT-CNN模型更好,如圖7(b)所示.

Fig. 8 Classification accuracy of different tag embedding dimension圖8 不同維度詞性向量的分類正確率比較

本文在以前研究的基礎上提出了加入詞性注意力機制的方法,為了驗證詞性注意力機制的有效性,本文從Restaurant領域和汽車領域分別抽取3 000條數據在AATT-CNN-2,CATT-CNN和SATT-CNN這3個模型上使用不同維度的詞性向量構造詞性注意力機制進行5倍交叉驗證實驗,實驗結果如圖8所示,其中詞性向量維度為0表示不使用詞性注意力機制.從圖8結果可以看出,加入詞性注意力機制后,3個模型在2個領域數據集上的分類效果都有顯著提升.其中,Restaurant領域分類正確率提升最高為4.5%,汽車領域分類正確率提升最高為3.83%.說明加入詞性注意力機制可以讓模型更加充分地學習文本的情感信息,達到更好的情感分類效果.此外,當詞性向量維度大于100維時,AATT-CNN-2模型和CATT-CNN模型在2個領域數據集上的分類正確率都出現了波動.分析實驗結果可以看出,由于本文實驗中使用的詞向量維度為300維,AATT-CNN-2模型和CATT-CNN模型的輸入矩陣是注意力機制有聯系的輸入,所以詞向量注意力機制作為模型訓練的主要特征,當詞性向量的維度超過一定閾值時會影響模型對詞向量注意力機制的參數調整,降低了模型在內容層面特征信息的學習效果.以獨立注意力機制矩陣作為網絡輸入的SATT-CNN模型在訓練過程中可以獨立完成不同注意力的參數調整,所以當詞性向量維度大于100時SATT-CNN模型的分類正確率仍有提升,但提升幅度已經不明顯.此外,隨著向量維度的增加,模型的訓練時間代價也會增加,所以本文在實驗中選取100作為詞性向量的維度.

3.5訓練時間分析

為了分析不同網絡模型在相同條件下的時間性能,本文在相同的CPU,GPU和網絡框架下完成所有神經網絡實驗,同時,所有實驗使用相同的詞向量矩陣和相同的數據集.表5給出不同網絡模型在Restaurant領域數據集上完成一次迭代的訓練時間對比結果.

Table 5 Runtime of Each Training Epoch

從表5結果可以看出LSTM網絡的訓練時間代價是非常高的,這主要因為LSTM網絡訓練的是序列性數據,每一個單元都需要相當復雜的運算操作.ATT-LSTM模型完成一次迭代的訓練時間超過500 s,是本文提出方法的20多倍.此外,不加任何特征的CNN模型是最快的,完成一次迭代的訓練時間只需要4 s,加入注意力機制的ATT-CNN模型訓練時間也只需12 s,說明卷積神經網絡模型訓練的時間性能要遠遠好于LSTM網絡.此外,本文提出的4種多注意力機制卷積神經網絡模型的運行時間雖然高于CNN和ATT-CNN模型,但是遠低于ATT-LSTM網絡模型.這說明基于注意力機制的卷積神經網絡可以接收句子的平行化輸入,可以有效降低模型的訓練時間.

4 總 結

在特定目標情感分析任務中,如今大部分研究都是將注意力機制和LSTM網絡相結合的方法,這類方法基于循環網絡模型,訓練過程需要很高的時間代價.本文基于注意力機制和卷積神經網絡結合的研究,提出結合多種注意力機制和卷積神經網絡的特定目標情感分類方法,該模型大大降低了基于注意力機制網絡模型的訓練時間.同時,過去的研究主要是結合詞向量注意力機制和普通的位置注意力機制,本文在以前的研究基礎上提出了加入詞性注意力機制的方法,并通過對比實驗驗證了加入詞性注意力機制能有效提高特定目標情感分析的分類正確率.此外,本文使用一種雙向掃描算法來計算句子的位置特征,使目標詞的位置信息得到充分的利用.實驗結果表明,本文提出的方法對比傳統的卷積神經網絡方法有很明顯的提升,同時對比基于注意力機制的LSTM網絡模型也有較好的分類效果.

從實驗結果可以看出,本文提出的多注意力卷積神經網絡方法在訓練樣本缺乏的數據集上容易出現過擬合現象,導致分類效果不理想.所以本文接下來將針對這個問題對多注意力卷積神經網絡進行改進.

[1] Nasukawa T, Yi J. Sentiment analysis: Capturing favorability using natural language processing[C] //Proc of the 2nd Int Conf on Knowledge capture. New York: ACM, 2003: 70-77

[2] Wang Zhongyuan, Cheng Jianpeng, Wang Haixun, et al. Short text understanding: A survey[J]. Journal of Computer Research and Development, 2016, 53(2): 262-269(王仲遠, 程健鵬, 王海勛, 等. 短文本理解研究[J]. 計算機研究與發展, 2016, 53(2): 262-269)

[3] KalchbrennerK N, Grefenstette E, Blunsom P. A convolutional neural network for modelling sentences[C] //Proc of the 52nd Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2014: 655-665

[4] Zhou Xinjie, Wan Xiaojun, Xiao Jianguo. Attention-based LSTM network for cross-lingual sentiment classification[C] //Proc of the 2016 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2016: 247-256

[5] Yu Jianfei, Jiang Jing. Learning sentence embeddings with auxiliary tasks for cross-domain sentiment classification[C] //Proc of the 2016 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2016: 236-246

[6] Pang B, Lee L. Opinion mining and sentiment analysis[J]. Foundations and Trends in Information Retrieval, 2008, 2(1/2): 1-135

[7] Pontiki M, Galanis D, Pavlopoulos J, et al. Semeval-2014 task 4: Aspect based sentiment analysis[C] //Proc of the 8th Int Workshop on Semantic Evaluation. Stroudsburg, PA: ACL, 2014: 27-35

[8] Mnih V, Heess N, Graves A. Recurrent models of visual attention[C] //Proc of Advances in Neural Information Processing Systems 27 (NIPS 2014). Cambridge, MA: MIT Press, 2014: 2204-2212

[9] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[C/OL] //Proc of ICLR 2015. [2017-03-15]. https://arxiv.org/pdf/1409.0473.pdf

[10] Yin Wenpeng, Schütze H, Xiang Bing, et al. Abcnn: Attention-based convolutional neural network for modeling sentence pairs[J/OL]. arXiv preprint arXiv: 1212.05193, 2015. [2017-03-15]. https://arxiv.org/pdf/1512.05193.pdf

[11] Wang Linlin, Cao Zhu, de Melo G, et al. Relation classification via multi-level attention cnns[C] //Proc of the 54th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics. Stroudsburg, PA: ACL, 2016: 1298-1307

[12] Hu Minqing, Liu Bing. Mining and summarizing customer reviews[C] //Proc of the 10th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2004: 168-177

[13] Hu Minqing, Liu Bing. Mining opinion features in customer reviews[C] //Proc of AAAI 2004. Menlo Park: AAAI, 2004, 4(4): 755-760

[14] Qiu Guang, Liu Bing, Bu Jiajun, et al. Opinion word expansion and target extraction through double propagation[J]. Computational Linguistics, 2011, 37(1): 9-27

[15] Kiritchenko S, Zhu Xiaodan, Cherry C, et al. NRC-Canada-2014: Detecting aspects and sentiment in customer reviews[C] //Proc of the 8th Int Workshop on Semantic Evaluation (SemEval 2014). Stroudsburg, PA: ACL, 2014: 437-442

[16] Nguyen T H, Shirai K. PhraseRNN: Phrase recursive neural network for aspect-based sentiment analysis[C] //Proc of the 2015 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2015: 2509-2514

[17] Dong Li, Wei Furu, Tan Chuangqi, et al. Adaptive recursive neural network for target-dependent twitter sentiment classification[C] //Proc of the 52nd Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2014: 49-54

[18] Ruder S, Ghaffari P, Breslin J G. A hierarchical model of reviews for aspect-based sentiment analysis[C] //Proc of the 2016 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2016: 999-1005

[19] Wang Yequan, Huang Minlie, Zhao Li, et al. Attention-based LSTM for aspect-level sentiment classification[C] //Proc of the 2016 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2016: 606-615

[20] Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research, 2011, 12(8): 2493-2537

[21] Pennington J, Socher R, Manning C D. Glove: Global vectors for word representation[C] //Proc of the 2014 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2014: 1532-1543

[22] Mikolov T, Chen Kai, Corrado G, et al. Efficient estimation of word representations in vector space[C/OL] //Proc of Workshop at ICLR 2013. [2017-03-15]. https://arxiv.org/pdf/1301.3781.pdf

[23] Zeiler M D. ADADELTA: An adaptive learning rate method[J/OL]. arXiv preprint arXiv: 1212. 5701, 2012. [2017-03-15]. https://arxiv.org/pdf/1212.5701.pdf

[24] Kim Y. Convolutional neural networks for sentence classification[C] //Proc of the 2014 Conf on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA: ACL, 2014: 1746-1751

Aspect-BasedSentimentAnalysisBasedonMulti-AttentionCNN

Liang Bin1, Liu Quan1,2,3, Xu Jin1, Zhou Qian1, and Zhang Peng1

1(CollegeofComputerScienceandTechnology,SoochowUniversity,Suzhou,Jiangsu215000)2(CollaborativeInnovationCenterofNovelSoftwareTechnologyandIndustrialization,Nanjing210000)3(KeyLaboratoryofSymbolicComputationandKnowledgeEngineering(JilinUniversity),MinistryofEducation,Changchun130012)

Unlike general sentiment analysis, aspect-based sentiment classification aims to infer the sentiment polarity of a sentence depending not only on the context but also on the aspect. For example, in sentence “The food was very good, but the service at that restaurant was dreadful”, for aspect “food”, the sentiment polarity is positive while the sentiment polarity of aspect “service” is negative. Even in the same sentence, sentiment polarity could be absolutely opposite when focusing on different aspects, so we need to infer the sentiment polarities of different aspects correctly. The attention mechanism is a good way for aspect-based sentiment classification. In current research, however, the attention mechanism is more combined with RNN or LSTM networks. Such neural network-based architectures generally rely on complex structures and cannot parallelize over the words of a sentence. To address the above problems, this paper proposes a multi-attention convolutional neural networks (MATT-CNN) for aspect-based sentiment classification. This approach can capture deeper level sentiment information and distinguish sentiment polarity of different aspects explicitly through a multi-attention mechanism without using any external parsing results. Experiments on the SemEval2014 and Automotive-domain datasets show that, our approach achieves better performance than traditional CNN, attention-based CNN and attention-based LSTM.

attention mechanism; convolutional neural networks; aspect-based sentiment analysis; deep learning; natural language processing

Liang Bin, born in 1993. Master candidate. His main research interests include sentiment analysis, natural language processing, and deep learning.

Liu Quan, born in 1969. PhD, professor and PhD supervisor. His main research interests include intelligence information processing, automated reasoning and machine learning.

Xu Jin, born in 1992. Master candidate. His main research interests include reinforcement learning, deep learning and deep reinforcement learning.

Zhou Qian, born in 1992. Master candidate. Her main research interest is reinforcement learning.

Zhang Peng, born in 1992. Master candidate. His main research interest is continuous space reinforcement learning.

2017-03-20;

:2017-05-18

國家自然科學基金項目(61272005,61303108,61373094,61472262,61502323,61502329);江蘇省自然科學基金項目(BK2012616);江蘇省高校自然科學研究項目(13KJB520020);吉林大學符號計算與知識工程教育部重點實驗室基金項目(93K172014K04) This work was supported by the National Natural Science Foundation of China (61272005, 61303108, 61373094, 61472262, 61502323,61502329), the Natural Science Foundation of Jiangsu Province (BK2012616), the High School Natural Science Foundation of Jiangsu Province (13KJB520020), and the Foundation of the Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education (Jilin University) (93K172014K04).

劉全(quanliu@suda.edu.cn)

TP391

猜你喜歡
機制情感模型
一半模型
如何在情感中自我成長,保持獨立
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
如何在情感中自我成長,保持獨立
3D打印中的模型分割與打包
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
主站蜘蛛池模板: 国产三区二区| 久久久久久国产精品mv| 在线看国产精品| 国产乱人伦精品一区二区| 亚洲综合片| 国产一级毛片yw| 日韩国产另类| 538国产在线| 日本午夜影院| 日韩无码视频播放| 中文字幕伦视频| 国产玖玖玖精品视频| 97se亚洲综合| 亚洲av日韩av制服丝袜| 色婷婷成人| 欧美在线网| 欧美日韩精品在线播放| 亚洲精品成人片在线播放| 国产人成乱码视频免费观看| 成人噜噜噜视频在线观看| 又粗又硬又大又爽免费视频播放| 毛片免费在线视频| 国产精品亚洲综合久久小说| 亚洲精品国产综合99久久夜夜嗨| 亚洲区一区| 麻豆AV网站免费进入| 欧美人与性动交a欧美精品| 天天综合天天综合| 日韩天堂网| 国产成本人片免费a∨短片| 亚洲综合极品香蕉久久网| 亚洲成人动漫在线观看| 久久天天躁夜夜躁狠狠| 无码一区二区三区视频在线播放| 无码中文字幕乱码免费2| www.精品视频| 午夜精品久久久久久久2023| 欧美区一区| 香蕉久久国产超碰青草| 美女被狂躁www在线观看| 国产高清国内精品福利| 国产综合色在线视频播放线视| 91精品国产一区自在线拍| 国产精品.com| 亚洲人成网站在线播放2019| 天堂中文在线资源| 日韩A∨精品日韩精品无码| 久久人人97超碰人人澡爱香蕉| 久久国产拍爱| 欧美亚洲另类在线观看| 国产在线观看91精品亚瑟| 91国语视频| 毛片在线看网站| AV色爱天堂网| 久久福利网| 天堂成人在线| 亚洲成人高清无码| 重口调教一区二区视频| 国产在线拍偷自揄观看视频网站| 久久99国产视频| 久久99精品久久久久纯品| 91黄视频在线观看| 99精品福利视频| 亚洲成年人网| 婷五月综合| 久久久久久久蜜桃| 亚洲综合色在线| 久久久久国色AV免费观看性色| 日韩AV无码一区| 国产无遮挡裸体免费视频| 日本欧美一二三区色视频| 日韩成人在线视频| 久久精品电影| 国产精品区视频中文字幕| 日韩成人在线视频| 精品日韩亚洲欧美高清a| 在线观看av永久| a级毛片免费网站| 狠狠综合久久| 91极品美女高潮叫床在线观看| 亚洲首页国产精品丝袜| 性做久久久久久久免费看|