999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合注意力機制和情感詞位置的情感分析

2023-01-31 08:55:54周曉雯王曉曄孫嘉琪
計算機應用與軟件 2022年12期
關鍵詞:分類機制文本

周曉雯 王曉曄 孫嘉琪 于 青

(天津理工大學天津市智能計算及軟件新技術重點實驗室 天津 300384)

0 引 言

隨著電子商務的快速發展,越來越多的用戶將電商平臺的評論信息作為消費選擇的重要參考標準。據統計,評論信息的數量每天正以千萬級的速率在增長,這為人們從評論中獲取有用信息增加了難度。

屬性級情感分析(Aspect-Based Sentiment Analysis,ABSA)旨在對句子中出現的情感目標和對應的情感詞進行分類。例如,“餐廳里面的環境還不錯,但是菜品真的是很難吃”,對于情感目標“餐廳環境”來說,情感分類是積極的,而對情感目標“菜品”來說,情感分類則是消極的。在真正的分類任務中,容易對二者的情感極性混淆,因此很難得到正確的情感極性判斷。屬性級情感分析任務主要包括兩個方面:(1) 出于情感目標的提取要求;(2) 需要對情感目標對應的情感詞進行提取和分類。情感目標可能是一個實體,也可能是實體的一個屬性,本文統稱為情感目標(aspect)。

近年來,深度學習在自然語言處理任務中得到了廣泛應用,并在問答系統、機器翻譯等方面都取得了令人矚目的成績。目前,結合卷積神經網絡(Convolutional Neural Network,CNN)和循環神經網絡(Recurrent Neural Network,RNN)的模型在情感分析任務中也取得了很好的效果。Kim[1]利用卷積神經網絡(CNN)提取文本中的語義關系,實現高效的情感分類。Zhu等[2]提出使用長短時記憶網絡(Long Short-Term Memory Network,LSTM)構建句子的長期記憶,再利用卷積神經網絡(CNN)從隱層狀態中獲得更具體的句子表示,獲得了更好的分類效果。但此類模型無法獲取長文本句子中所有單詞的依賴關系,而且在處理長序列文本時,網絡容易產生梯度消失問題。由于注意力機制在建模全局依賴關系上表現出的良好性能,因此有的學者將注意力機制應用到屬性級情感分析任務中。例如,AEN-BERT[3]和IAN[4]利用注意力機制學習情感目標與上下文中的目標詞之間的關聯性,但仍無法捕獲上下文中的情感目標信息,而且額外參數的消耗也加大了情感目標和上下文文本之間的建模難度。

對于情感詞的提取,最常用的是基于情感詞典的方法。例如,Perera等[5]利用SentiWordNet詞典和句法分析器對情感詞進行提取和分類。彭云等[6]提出基于情感詞典和LDA的方式對情感目標和情感詞進行建模?,F已整理好的中文情感詞典主要包括:中國臺灣大學的NTUSD、知網HowNet和大連理工信息檢索實驗室的情感詞庫。上述情感詞典中都存在一定的問題:(1) 情感詞典中不能實時更新最新的網絡用語,使得情感詞分類不準確;(2) 在分類時不能考慮情感詞在不同領域上的差異,容易造成歧義的問題;(3) 在情感詞提取的方法中,往往都忽略了情感詞在文本中的位置信息。研究發現,在大量的口語化文本中,情感目標與情感詞之間的位置存在一定的相關性,因此有必要對情感詞的位置信息進行提取。

為了解決上述問題,本文提出一種基于注意力編碼機制和情感詞位置的交互感知網絡(Attentional Encoder and Position of Sentiment Polarity,AEPSP),主要貢獻如下:

(1) 本文提出一種注意力編碼機制對全局的語義關系進行建模,擬解決無法捕獲上下文中的情感目標的問題。該模型將給定情感目標類別的信息與上下文的隱藏狀態相結合,來捕獲情感目標的特定表示。此外,還利用預訓練的BERT模型訓練動態詞向量作為模型的初始輸入。

(2) 本文利用短語結構文法(Context-Free Grammars,CFGs)對實驗文本進行分析,提取特定領域的情感詞來擴充現有的情感詞典,用來解決現有情感詞典不能及時包含現有的網絡用語的問題。此外,在提取情感詞時,本文也提取了情感詞的位置信息,將情感目標和情感詞的位置信息相結合,形成<情感目標,情感詞>二元組用于情感分類。

1 相關工作

1.1 情感目標提取

在以往的研究中,屬性級情感分析主要基于情感字典和機器學習等傳統方法。研究人員大都利用語法語義的關聯性和情感目標的出現頻率來檢測情感目標。Hu等[7]利用關聯規則的方法檢測情感目標,將單個復合詞和復合名詞作為情感目標。文獻[8-9]等基于依賴分析器的方法都使用句法分析器提取情感目標。上述方法需要從大量預處理文本中獲得先驗知識,還依賴依存關系樹的外部知識,不僅耗費大量人力,而且準確率不高。

近年來,諸多深度學習模型被應用于屬性級情感分析任務中。Wang等[10]將主題建模與支持向量機(SVM)結合,識別情感目標信息。Wang等[11]提出了基于注意力機制的ATAE-LSTM模型,將注意力機制和LSTM結合對情感目標與上下文內容進行學習,然后使用注意力機制對隱層信息分配權重。Ma等[4]提出了IAN網絡,設計兩個注意力機制網絡分別對情感目標和上下文的文本信息進行學習,同時關注句子中的重要部分和情感目標。Chauhan等[12]結合上下文信息與領域的特定信息來識別情感目標。上述方法雖然對提取情感目標有一定的作用,但是難以提取復雜文本中相對較遠的情感詞與情感目標之間的潛在關系。

Devlin等[13]提出BERT模型引發熱烈討論,利用transformer機制解決了自然語言處理中長文本中依賴的問題,還能夠捕捉文本語句的雙向關系。Liu等[14]將預訓練的BERT模型和多任務文本結合進行學習。Sun等[15]通過對輸入文本進行改進,將單文本改成BERT模型最擅長的雙句文本進行處理。Song等[3]提出了AEN-BERT模型,利用多頭注意力機制和特殊的卷積層進行結合,對情感目標的信息進行有效的提取。然而上述的模型沒有更深層次挖掘給定的情感目標與上下文語句之間的關系,因此難以獲得全局信息。

1.2 情感詞抽取及分類

利用情感詞典進行情感分類是一種無監督學習的方法。由于各個領域對情感詞的傾向不同,而情感詞典也沒有對特定領域進行分類,因此會造成情感分類的錯誤。

基于詞典的情感分析方法[16-18]中,利用情感詞典對情感詞進行提取,均取得了不錯的效果。Kamal等[16]基于語義分析設計相關規則以實現<情感目標,情感詞>的抽取。Desai等[17]將情感詞典和淺層分析句法的方法相結合,提取語料中的情感詞。顧正甲等[18]使用句法分析對情感詞進行提取,從語法分析、詞義理解等多角度分析語義間的關系。而上述方法未將情感詞與情感目標之間的關系進行建模,因此無法有效地提取情感詞。

Perera等[5]結合POS標記、SentiWordNet詞典和依賴分析器,通過對情感詞與情感目標建模來提取情感詞信息。Qian等[19]在句子級的LSTM情感分類模型中加入情感詞典的相關特征信息,有效利用語言規則,并通過改變模型的損失函數更好地理解句子與情感極性的關系。Mauro等[20]為情感詞極性建立了模糊的邏輯模型,結合SentiWordNet和WordNet兩種英文詞典,解決了情感詞在不同領域中情感極性的不確定性問題。劉亞橋等[21]指出在同一個領域的不同文本中,情感詞可能會有不同的情感傾向,如手機領域,“長”在描述相機聚焦時間和電池續航時間上的情感極性是相反的。Appel等[22]對情感目標和情感詞同時進行擴展,使用句法依存分析抽取情感詞與情感目標之間的關系,擴展情感詞庫和情感目標庫進行情感分類。上述的利用情感詞典的知識對情感詞進行抽取并分類,但未考慮情感詞適用的領域,容易造成情感分類錯誤,而且也沒有提取相關的位置信息,容易引起情感目標匹配不當的問題。

1.3 相關工作總結

本文提出AEPSP模型,通過對注意力編碼機制進行改進,使情感目標與上下文信息進行更好的語義交互,對情感目標提取準確度的提升有很好的成效。在情感詞的查找過程中,結合短語結構文法對現有語料進行分析,并對現有的情感詞典進行擴充,在情感詞的提取上取得了很好的效果。在進行情感分類時,本文基于位置信息將情感目標與情感詞進行結合,解決文本歧義的問題,利用<情感目標,情感詞>二元組對情感詞進行分類,使得分類效果更準確。

2 AEPSP模型

圖1給出了所提出的AEPSP模型的總體框架,主要由詞嵌入層、特征提取層、位置融合層、輸出層等方面組成。

圖1 AEPSP網絡整體框架

2.1 詞嵌入

為了便于BERT模型的訓練和微調,我們將給定的上下文文本和aspect轉化為“[CLS]+context+[SEP]+aspect+[SEP]”格式。假設一個句子包含了n個單詞,表示為Wc={w1,w2,…,wn},一個情感目標包含m個單詞,表示成Wt={wt1,wt2,…,wtm}。

2.2 MHA機制

在情感目標提取方面,Song等[3]提出兩種基于多頭注意力機制的方法,其中:Intra-MHA目的是為上下文的文本進行建模;Inter-MHA是結合情感目標與上下文文本建模。本文將這兩種方式進行結合,利用上下文與情感目標結合進行建模,解決了之前兩種方式不能準確提取情感目標的問題。

(1) 多頭注意力機制。在注意力機制中,將詞向量矩陣L通過與權重矩陣結合形成了三種詞向量權重矩陣Q、K、V。通過Q、K矩陣的映射學習新的映射結果。再把更高維的映射結果與V矩陣進行一次拼接,得到最后的輸出結果。在更高維的映射結果中,詞向量權重矩陣結合上下文的信息對權重進行重新分配。

(1)

式中:dk是輸入向量的維度。

MHA可以學習n次同等運算中的不同結果,將n_heads次輸出連接起來并投影到指定的隱藏維數dhid中,如式(2)和式(3)所示。

MultiHead(Q,K,V)=Concat(head1,head2,…,headn_heads)W0

(2)

Oh=Attentionh(Q,K,V)

(3)

式中:Concat是連接函數;headi是第i次計算的結果;W0是學習參數;h∈[1,n_heads]是映射的次數。

Tc=InAtt(Ec)

(4)

Ta=InAtt(Ec,Ea)

(5)

Hc([Tc;Ta])=tanh(Wc[Tc,Ta]+bc)

(6)

式中:InAtt表示交互注意力機制。

2.3 情感詞提取

本文先將評論語料輸入到句法分析器中進行短語結構文法分析。然后通過分詞、句法的分析及情感詞的提取等步驟,完成對情感詞的提取工作。

(1) 擴充情感詞典步驟。第一步分詞,將標點符號、連詞和停用詞等進行處理。

第二步句法分析,抽取句子中的形容詞性短語(VA)。具體的句法分析樹如圖2所示。本文將句法分析中為VA的詞語認定為情感詞。對于VA中可能存在的程度副詞、否定詞,例如“很”、“就是”、“不”和“不怎么”等,本文會進行保留。

圖2 句法分析樹

第三步情感詞提取,對VA短語進行提取,按照圖3的流程對情感詞典進行擴充。

圖3 擴充情感詞典流程

(2) 情感詞提取。本文利用擴充的情感詞典對情感詞進行提取。基本思想是對文本中的每個詞語進行遍歷,利用情感詞典提取情感詞。最終,形成一個情感詞矩陣P={p1,p2,…,pm}∈Rdp×|D|,其中:dp是情感詞矩陣的維度,|D|是情感詞表的大小。在構建情感詞矩陣的同時,本文對情感詞的位置信息進行提取。情感詞位置嵌入Wpi∈Rdps與2.1節中情感目標Wci∈Rdpc的位置矩陣維度相同。

Hp([Pi])=tanh(Wp[Pi]+bp)

(7)

2.4 卷積融合

卷積融合是將位置信息與提取的信息詞進行融合,能夠將詞的信息和位置的信息進行串聯得到總體的表示,如式(8)所示。

CT(h)=σ(h*W)+b

(8)

式中:σ是ReLU激活函數;h是隱層的信息;*是卷積的操作;W∈Rdhid×hid和b∈Rdhid是學習的參數。

(9)

(10)

式中:Wci是前面第i個情感目標對應的位置信息;Wpi是第i個情感詞相對的位置信息。

2.5 位置融合層

在同一條評論中,情感目標的位置向量與情感詞的位置向量維度是相同的,其區別在于彼此的權重信息不同,因此本文將二者的隱層信息進行結合,學習二者的位置信息。最終,產生了情感目標和情感詞對的最終表示Xi={x1,x2,…,xn,},如式(11)所示。

(11)

2.6 輸出層

使用完整的全連接層將向量映射到目標C的空間,如式(12)所示。

(12)

式中:y∈RC是預測情感極性的分布;C是情感分類的類別數。

2.7 損失函數

本文使用交叉熵和L2-正則化作為損失函數,如式(13)定義。

(13)

3 實驗與結果分析

3.1 數據集

本實驗中使用的是2018年AI Challenge細粒度情感分析的中文數據集[24]。數據集被分為四種情感極性,分別是Positive、Neutral、Negative和Not mentioned。數據集中各個標簽數量分布如表1所示。

表1 實驗數據集分布

2018年AI Challenge數據集[23]按照評價對象的粗粒度屬性以及各個粗粒度屬性所包含的細粒度屬性進行分類,共分為20個類別的情感目標。例如“位置”這一粗粒度情感中包含四個細粒度情感目標,分別是“交通是否便利”“距離商圈遠近”“是否容易尋找”和“排隊等候時間”。除此之外,還包含該數據對應各個情感目標的情感傾向值,每個情感目標的情感傾向被標記為四種,分別1(Positive)、0(Neutral)、-1(Negative)和-2(Not mentioned)。具體數據格式如表2所示。

表2 實驗數據集體格式

3.2 數據預處理和參數設置

本實驗中,使用預訓練BERT模型進行詞嵌入的訓練,在訓練時模型會進行fine-tune。設置詞向量的維度demb是768,隱藏層的維度dhid設置為300。按照中文文本的行文規則,本文將位置矩陣dpc、dps的維度設置為64。在實驗過程中,batch size設置為64,學習率設置5E-5,將L2正則化項的系數λ設置為10-5。將AI Challenge 2018數據集中與訓練集和測試集不相交的2 000個樣本作為驗證集驗證模型的有效性。本文使用Accuracy和Macro-F1指標來評估模型。

3.3 數據增廣

在表1中,發現各個極性的數據標簽不均衡,因此我們采用EDA數據增廣的模型,對標簽較少的數據進行數據增廣。本文對數據標簽較少的語料,以同義詞替換、隨機替換等方式對文本進行擴增。增廣后的標簽如圖4所示。

圖4 數據增廣前后標簽數量對比

3.4 比較方法

為了全面評估AEPSP模型的性能,對以下10種基準模型進行實驗對比。

(1) FastText[24]:主要是通過將整篇文檔的詞及n-gram向量疊加平均得到文檔向量,然后使用文檔向量做Softmax多分類。

(2) AE-LSTM[11]:將情感目標映射到詞向量嵌入,然后將其作用于訓練的一部分。

(3) ATAE-LSTM[11]:為了增強目標嵌入的效果,將情感目標嵌入和每個文本的詞嵌入結合,使用LSTM結合注意力機制得到最終的分類標述。

(4) IAN[4]:通過兩個注意力編碼機制的交互,學習情感目標與上下文的信息,從而生成情感目標與上下文的最終表示。

(5) AEN-Glove[3]:使用Glove轉換詞向量,提出注意力編碼網絡,將情感目標與上下文文本結合,進行情感目標提取和情感詞的分類。

(6) AEN-BERT[3]:使用pre-trained BERT轉換詞向量并進行微調,結合注意力編碼網絡,將情感目標與上下文文本結合,進行情感目標提取和情感詞的分類。

(7) BERT[13]:使用的是原BERT分類模型直接進行分類。

(8) BERT-SPC[15]:將序列轉換成“[CLS]+context+[SEP]+target+[SEP]”的格式,利用原始的BERT模型訓練。

(9) LCF-ATEPC[25]:是基于MHA注意力機制,融合了預訓練的BERT和局部上下文注意力機制。該方法提出了SRD的概念,利用情感目標與情感詞之間的距離提取<情感目標,情感詞>二元組。

(10) AEPSP:使用BERT轉換詞向量,使用注意力機制抽取情感目標,利用情感詞典提取情感詞,計算二者的位置信息,生成<情感目標,情感詞>二元組,然后進行分類。

3.5 情感分類結果分析

表3給出了AEPSP與其他模型性能的比較結果。分別從兩個方面,(1) 基于注意力機制的模型;(2) 基于BERT模型。表3中的實驗結果顯示,BERT、BERT-SPC和AEN-BERT等模型在準確度上有明顯提升,充分說明BERT預處理模型在詞嵌入處理方面確實對情感分類任務存在明顯的改善。

表3 情感分類的實驗結果(%)

基于注意力機制的模型相較與傳統多分類模型FastText來說,分類結果有較高的提升。由于基于注意力機制的模型對于長文本信息挖掘不足,因此難以提取情感目標與情感詞之間的潛在關系。BERT模型對比基于注意力機制的模型分別在Accuracy和F1值都有所提升,但是BERT并沒有針對某一個特定的領域進行調整,需要將先驗知識加入網絡中,對網絡進行一定的微調,才能夠對模型有整體的提升。

通過表3中實驗結果的比較,AEPSP模型在特征提取方面,對情感目標和情感詞的位置信息進行了考慮,對于情感目標和情感詞的匹配效果更佳,分類結果也更加準確。通過對實驗結果的比較,我們發現AEPSP模型在Accuracy和Macro-F1的結果上都有了提升,相較于AEN-BERT模型在Accuracy和Macro-F1分別提升了0.35百分點和1.05百分點。整體來說本文的模型較其他模型對情感目標的提取有了提升,以及集合<情感目標,情感詞>二元組的情感分類能力也有了較大的提升。

3.6 結果分析

為了觀察位置融合對模型性能的影響,將一條中文評論的實驗數據進行提取,具體示例如圖5所示。注意力編碼機制結合上下文文本和情感目標的信息對文本中的情感目標進行提取,主要的權重分配如圖5(a)所示。我們可以發現針對“裝修環境”這個方面,在文本中提取出來的情感目標是“環境布局”,權重分配比重合理,能夠合理地提取出情感目標。利用情感詞典對情感詞提取的效果如圖5(b)所示。模型對情感詞的權重合理分配,能把情感詞精準提取,如“不錯”“外松脆嫩”和“一般”。利用位置信息將情感目標和對應的情感詞進行結合如圖5(c)所示,我們發現模型能夠提取出較為準確的<情感目標,情感詞>二元組,如<環境布局,不錯>。我們結合“裝修情況”“環境布局”和“不錯”,三者共同決定情感詞的極性。由此我們可以看出AEPSP模型確實能夠有效地對屬性級情感分析進行情感分類。

(a) 情感目標權重分配

(b) 情感詞權重分配

(c) 位置融合后權重分析圖5 實驗示例

4 結 語

本文針對多屬性情感分類的任務提出一種將注意力編碼機制與情感詞典相結合的AEPSP網絡。模型中使用注意力編碼機制進行情感目標提取,并使用情感詞典提取情感詞,根據計算二者的位置信息提取<情感目標,情感詞>二元組,進而進行情感分類。本文解決了由于多個情感目標和多個情感詞易造成混淆的問題,使多屬性的情感分類取得了更準確的效果。我們還將BERT預處理模型用于模型的詞向量轉換,并獲得了最新的實驗結果。實驗結果充分證明了模型的準確性和有效性。在未來的工作中,我們將對情感詞典進行一定的擴充,使得應用領域更加廣泛。

猜你喜歡
分類機制文本
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
數據分析中的分類討論
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
主站蜘蛛池模板: 欧美在线视频a| 欧美午夜在线视频| 91麻豆精品视频| 日韩av电影一区二区三区四区| 国产色伊人| 国产成人亚洲精品无码电影| 亚洲色图另类| 手机精品福利在线观看| 一级爆乳无码av| 国产探花在线视频| 青青青国产视频手机| 久久综合色天堂av| 国产激情第一页| 国产交换配偶在线视频| 少妇精品网站| 激情爆乳一区二区| 综合成人国产| 亚洲第一成年人网站| 91精品国产一区自在线拍| 亚洲高清无码精品| 2021国产乱人伦在线播放| 成人福利在线视频| 国产香蕉在线视频| 国模视频一区二区| 丁香五月亚洲综合在线| 免费人成视频在线观看网站| 欧美激情视频一区二区三区免费| 精品夜恋影院亚洲欧洲| 中国毛片网| 国产凹凸视频在线观看| 国产精品亚洲αv天堂无码| 亚洲天堂视频在线观看| 高清欧美性猛交XXXX黑人猛交 | 91麻豆精品国产高清在线| 国产福利拍拍拍| 亚洲综合色婷婷中文字幕| 午夜啪啪网| 欧美激情第一区| 色偷偷男人的天堂亚洲av| 日本精品视频一区二区| 亚洲性影院| 国产精品久久久久久影院| 91日本在线观看亚洲精品| 国产免费黄| 国产精品专区第1页| 欧美亚洲激情| 国产一区三区二区中文在线| 中文字幕第4页| 在线观看无码av五月花| 成人无码区免费视频网站蜜臀| 亚洲人成成无码网WWW| 国产v精品成人免费视频71pao| 国产亚洲精品自在久久不卡| 美女毛片在线| 女人18毛片一级毛片在线 | 一级毛片基地| 九色综合视频网| 97色婷婷成人综合在线观看| 亚洲欧美日韩动漫| 女高中生自慰污污网站| 国产毛片一区| 成人免费一区二区三区| 国产激情无码一区二区免费| 欧美成人怡春院在线激情| 日本欧美中文字幕精品亚洲| 99久久精彩视频| 伊人久久大香线蕉影院| 欧美日本激情| 伊在人亚洲香蕉精品播放| 免费一级成人毛片| 国产真实乱子伦精品视手机观看| 中文字幕调教一区二区视频| 中文一区二区视频| 欧美国产精品不卡在线观看| 欧美精品亚洲二区| 欧美亚洲激情| 色综合天天操| 九色综合伊人久久富二代| 青青草原国产| 国内精品自在欧美一区| 91精品最新国内在线播放| 88国产经典欧美一区二区三区|