999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多粒度用戶偏好的文檔級情感分析

2023-10-24 14:16:22王思雨張燕平余靜瑩
中文信息學報 2023年7期
關鍵詞:單詞分類情感

陳 潔,王思雨,趙 姝,張燕平,余靜瑩

(1. 計算智能與信號處理教育部重點實驗室,安徽 合肥 230601;2. 安徽大學 計算機科學與技術學院,安徽 合肥 230601;3. 信息材料與智能感知安徽省實驗室,安徽 合肥 230601)

0 引言

近些年,Yelp、IMDB等評論網(wǎng)站的迅速發(fā)展,使得情感分析逐漸成為研究人員和各工業(yè)的關注熱點。文檔級評論的情感分類是情感分析和觀點挖掘領域的一項子任務[1],其目的是了解用戶的態(tài)度,推斷出用戶為產(chǎn)品撰寫的評論文本的整體情感極性。這個任務逐步發(fā)展成為自然語言處理中最為活躍的研究方向之一,并在許多現(xiàn)實應用中扮演著重要的角色,如錯誤檢測[2]、推薦系統(tǒng)[3]、社交媒體分析[4-5]等。

通常來講,文檔級情感分析可以看作是傳統(tǒng)的文本分類的一項特例,可以使用機器學習算法來提取文本特征用于訓練情感分類器,研究者們開始致力于從文本評論中提取出有效的特征[6-7]或額外的帶有情感的詞匯[8]來改善分類性能。基于深度學習在計算機視覺[9]、語音識別[10]及自然語言處理[11]等領域取得的卓越成果,越來越多的基于神經(jīng)網(wǎng)絡的情感模型[12-15]也被提出來用于情感分類。這些模型往往將用戶發(fā)表的評論作為輸入,利用神經(jīng)網(wǎng)絡生成連續(xù)的語義表示,并根據(jù)其語義表示對評論進行最終的分類。

現(xiàn)有模型在情感分類中已取得了良好性能,但大都只側重于評論文本的內容本身,忽略了發(fā)表這些評論的用戶信息。事實上,用戶是決定這些評論情感類別的重要因素。不同的用戶往往用不同的用詞習慣來表達自己的態(tài)度和觀點。例如,較為寬容的用戶往往用“好”這個單詞來表達對產(chǎn)品的一個積極態(tài)度,而其他更為挑剔的用戶來說則可能使用“好”這個詞來表達一種諷刺的消極情感;同一個用戶在撰寫產(chǎn)品評論文檔時,對不同的句子也會賦予不同的情感強度;最后,不同的用戶往往也會有不同的評分習慣,更寬容的用戶往往會以較高的評分發(fā)表評論,而挑剔的用戶總是發(fā)表低評分的評論,例如,用戶A對看過的電影發(fā)表了評論,均給出較高(低)的評分,那么對于即將要發(fā)表的關于電影的評論,也往往傾向于給出較高(低)的評分。

為了將用戶的多粒度偏好有效地整合到情感分類中,以便于更好地處理文檔級情感分析,本文提出了一種融合多粒度用戶偏好的情感分析模型。首先,在單詞粒度上,將用戶信息融合到注意機制中來獲取基于用戶單詞偏好的每個句子的句子表示;然后,在句子粒度上,基于自注意力獲取基于用戶句子偏好的整體的文檔表示;最后,在文檔粒度上,將得到的文檔表示與用戶信息直接進行融合來獲取基于用戶文檔偏好的文本特征表示。

本文的主要貢獻如下:

(1) 提出了一種融合多粒度用戶偏好的情感分析模型(MGUP),在不同的粒度上將用戶偏好完全整合到文檔級情感分類中,即考慮了詞級用戶偏好、句子級用戶偏好和文檔級用戶偏好;

(2) 對于詞級用戶偏好,將用戶信息以額外偏差的形式加入到注意層計算注意權重,獲取特定于用戶偏好的單詞;對于句子級用戶偏好,同樣將用戶信息以偏差的形式融入句子表示中,結合自注意力機制賦予每個句子不同的權重;而對于文檔級用戶偏好,直接將用戶信息與文檔表示進行連接獲取最終的文本特征表示;

(3) 在IMDB、Yelp13、Yelp14三個文檔級數(shù)據(jù)集上進行實驗以驗證MGUP的有效性,實驗結果表明,MGUP模型優(yōu)于基準方法。

1 相關工作

近年來,隨著深度學習在各領域不斷取得巨大進展,利用深度神經(jīng)網(wǎng)絡的方法來處理情感分類問題也已經(jīng)逐漸成為這一領域的研究熱點。它們可以自動提取特征來學習文本的表示,在很大程度上推進了文本情感分類的發(fā)展。

Yang等人[16]通過結合文檔的結構特征(文檔可以劃分為句子,句子可以劃分為單詞),將神經(jīng)網(wǎng)絡模型與注意機制相結合,提出了一種分層的注意網(wǎng)絡(HAN),該網(wǎng)絡利用注意機制來提取文檔中重要的句子和句子中重要的單詞。Socher等人[17]引入遞歸神經(jīng)張量網(wǎng)絡,利用樹結構以更準確地捕獲否定以及不同樹層次上積極和消極短語的影響。Rao等人[18]提出了具有兩個隱藏層的神經(jīng)網(wǎng)絡模型(SR-LSTM)以解決在對長文本建模時無法從相對較長的時間步中捕獲足夠多的情感信息的問題。Kong等人[19]通過分層融合多種特征(字符、單詞、詞性標簽、表情符號)來學習文本的表示以增強情感分類的性能。Liu等人[20]利用動態(tài)詞嵌入方法(ELMo)考慮多義詞的表示,充分挖掘文檔的深層語義信息。Rhanoui等人[21]將CNN與BiLSTM組合,并嵌入Doc2Vec以應用于長文本的意見分析。Liu等人[22]提出了新的情感分析模型AttDR-2DCNN來解決長文本難以建模以及句子和特征之間復雜的依賴關系等問題。然而,這些方法大都只側重于評論文本的內容本身,實際上,用戶也是影響文檔本身情感極性的重要因素。

最近,一些模型開始將用戶屬性納入情感分類中以改善性能,并都取得了不錯的效果。Gao等人[23]通過參考測試期間計算的用戶的寬容度和產(chǎn)品的流行度來預測文本的情感極性。Tang等人[24]以矩陣和向量的形式來表示用戶,并利用卷積神經(jīng)網(wǎng)絡對評論進行最終的評級預測。Dou等人[25]提出了一種用于文檔分類的深度記憶網(wǎng)絡和長短時記憶的方法來解決用戶信息有限而難以訓練的問題。Li等人[26]將用戶與評論及其整體評級相結合,并采用多任務框架對不同的方面區(qū)別對待,以預測評論中不同方面的情感極性。Chen等人[27]通過計算同一用戶發(fā)表的目標評論與歷史評論之間的相似性來預測目標評論的情感類別。Chen等人[28]認為評論的時間關系對于學習用戶和產(chǎn)品的嵌入有潛在作用,采用序列模型將時間關系嵌入到用戶和產(chǎn)品的表示中。Wu等人[29]使用層次神經(jīng)網(wǎng)絡在單詞和句子級別上分別結合用戶注意機制來生成句子和文檔表示以進行最終的情感預測。然而,這些模型都只是部分地考慮了用戶的偏好信息,并未考慮用戶偏好的多粒度特性。為了充分將用戶信息融合到文本評論中,本文從文檔多粒度的結構出發(fā),同時在單詞、句子以及文檔層次上考慮用戶的多種偏好以生成最終的文本特征表示,并基于該表示對評論進行分類。

2 模型描述

本文提出的MGUP模型如圖1所示,該模型由三部分組成: 單詞級用戶偏好,對單詞表示進行編碼,然后引入用戶注意機制以獲取句子表示;句子級用戶偏好,將用戶信息結合到自注意力機制中以獲取文檔表示;文檔級用戶偏好,將文檔表示與用戶信息直接融合來獲取最終的文本特征表示,并利用該表示進行分類。

圖1 MGUP模型結構

2.1 單詞級用戶偏好

在單詞級用戶偏好這一部分,首先選用BiLSTM對單詞進行編碼得到單詞表示,然后利用注意機制引入用戶信息,賦予特定于用戶偏好的單詞以更大的權重。

2.1.1 BiLSTM

假設一篇文本評論中包含m個句子s(i),i∈[1,m],每個句子中有l(wèi)i個單詞,w(it)表示第i個句子中第t個單詞,t∈[1,li]。首先,將給定句子中的每個單詞都賦予向量的形式表示w(it),w(it)∈Rew,ew是單詞嵌入的維度。然后,使用BiLSTM對w(it)的上下文信息進行編碼,得到隱藏表示,如式(1)~式(3)所示。

2.1.2 用戶注意層

對于用戶來說,并非所有的單詞都能平等地表達出用戶的真實情感或態(tài)度。為了對單詞級用戶偏好進行建模,在單詞粒度上,利用注意機制引入用戶信息來區(qū)別對待句子中的每個單詞,以提取出特定于每個用戶偏好的單詞,進而賦予不同情感極性的單詞以不同的權重,最后聚合成一個句子表示,如式(4)所示。

其中,hit是第i個句子中第t個單詞的隱藏狀態(tài),αit是用來衡量對于當前用戶來說,第i個句子中第t個單詞的重要性。本文將每個用戶以連續(xù)的實值向量u∈Reu來表示,其中eu定義了用戶嵌入的維度。使用下面的公式計算αit:

2.2 句子級用戶偏好

對于每個用戶來說,也并非所有的句子都對構成的文檔的整體情感有同樣的貢獻,不同的用戶會賦予每個句子不同的情感強度。如轉折性或過渡性句子,往往對文檔的情感影響更大。考慮到自注意力機制具有可以捕捉長距離依賴的優(yōu)勢,在句子粒度上,本文將融合了用戶信息的句子表示結合到自注意力機制中以區(qū)別對待文檔中的每個句子。

2.2.1 位置編碼層

因為在自注意力機制中輸入的信息是同時進入并被處理的,沒有考慮輸入信息的順序關系,所以在將多個句子表示輸入到自注意力機制中之前,需要注入句子的位置信息。本文通過位置編碼層將位置信息注入對應的每個句子表示中。在這里,句子表示和位置嵌入具有相同的維度,以實現(xiàn)兩者之間的相加,得到新的句子表示s(i),其中位置編碼如式(7)、式(8)所示[30]。

(7)

(8)

其中,po是每個句子對應的位置表示,1≤i≤d,i是嵌入的維數(shù)。

為了更好地對句子級用戶偏好建模,在將句子表示輸入到自注意力機制前對其做了一次線性變換,將用戶信息以偏差的形式注入句子表示中,如式(9)所示。

其中,Wws、Wwu、bw是在訓練過程中可學習的參數(shù)。

2.2.2 自注意力機制

(10)

其中,S=(s1,s2,...,sm)是長度為m的句子序列,d為嵌入的維度。

利用自注意力機制來處理融入了用戶信息的句子表示,考慮在句子粒度上的用戶偏好。

Add &Norm層使用了剩余連接,接著是層均一化。它的處理過程是將每層的輸入信息和輸出結果相加,然后再經(jīng)過LayerNorm模塊進行歸一化處理。

此外,本文還在頂部應用了全局平均池化層,以便最終能輸出固定大小的文檔表示向量r。

2.2.3 Feed Forward layer

在得到文檔表示之后,本文還添加了一個前饋網(wǎng)絡,以便于挖掘更深層次的特征,同時更新文檔表示r。該網(wǎng)絡由帶有激活函數(shù)ReLU的隱藏層組成,如式(11)所示。

r=FFN(r)=Max(0,rW1+b1)W2+b2

(11)

2.3 文檔級用戶偏好

從句子級用戶偏好部分,就獲得了文檔表示r。為了考慮文檔級用戶偏好,本文通過將用戶信息和文檔表示直接進行融合來獲得最終的特征表示x,如式(12)所示。

x是文檔和用戶信息的高級表示,將其作為最終分類的特征,并使用一個線性層和Softmax層將x投影到C類情感分布中,如式(13)所示。

將評論的真實情感分布和p之間的交叉熵誤差定義為本文模型的損失函數(shù),如式(14)所示。

3 實驗結果和分析

3.1 數(shù)據(jù)集

在實驗部分,本文使用了3個真實數(shù)據(jù)集來驗證MGUP模型的有效性。包括電影評論數(shù)據(jù)集IMDB、餐館評論數(shù)據(jù)集Yelp13、Yelp14[24],數(shù)據(jù)集的具體信息如表1所示。

表1 數(shù)據(jù)集詳細信息

3.2 評價指標

本文以精度(Accuracy)、均方根誤差(RMSE)作為實驗的評價指標。定義如式(15)、式(16)所示。

其中,T是正確預測評論情感類別的數(shù)量,N是評論文檔的總數(shù)量,gdi、pdi分別表示真實的情感類別與預測的情感類別。

3.3 對比算法

將模型MGUP與以下兩類文檔級情感分類模型進行對比:

(1)不考慮用戶信息的方法: AvgWordvec[29]對文檔中的單詞嵌入進行平均,并將得到的文檔表示作為SVM分類器的特征輸入;Majority[29]將訓練數(shù)據(jù)中的多數(shù)情感類別分配給測試數(shù)據(jù)中的每個評論樣本;TextFeature[31]提取復雜的特征(字符、單詞、情感詞典特征等),用于訓練SVM分類器;RNTN+Recurrent[17]引入RNTN以獲取句子的表示,然后將其輸入到RNN中,并對其隱藏向量求平均以生成文檔表示用于最終的分類;NSC[29]利用分層的LSTM網(wǎng)絡對文本進行分類。

(2)考慮用戶信息的方法: UPF[23]從訓練數(shù)據(jù)樣本中提取用戶和產(chǎn)品的特征,并進一步將其與TextFeature中的特征連接起來;UPNN[24]在單詞粒度上引入用戶和產(chǎn)品信息,并將通過CNN獲得的文檔表示直接與產(chǎn)品和用戶的嵌入向量連接,最終通過softmax層來進行分類;HUSN[27]利用與同一用戶歷史評論文檔之間的相似度對目標評論文檔進行預測;LUPDR[28]利用循環(huán)神經(jīng)網(wǎng)絡RNN將時間關系嵌入到用戶和產(chǎn)品的表示中,以提高文檔級情感分析的性能。

3.4 參數(shù)設置

在實驗部分按照8∶1∶1來劃分三個真實數(shù)據(jù)集為訓練集、驗證集及測試集。使用來自Wu等人[29]使用的詞嵌入,詞嵌入通過SkipGram預訓練得到,維數(shù)為200,LSTM中的隱藏狀態(tài)的維數(shù)也被設置為100,因此BiLSTM將輸出維度為200的單詞表示。同樣將用戶也嵌入為200維的向量,并從均勻分布(-0.01,0.01)中隨機初始化訓練過程中的所有矩陣。設置評論文本中的最大句子數(shù)為40,每句話的最大單詞數(shù)為50,初始學習率為0.001,并使用Adam來更新參數(shù)。

3.5 實驗結果分析

3.5.1 參數(shù)分析

3.5.1.1 最大句子長度和最大文檔長度分析

為了研究文檔和句子的長度對分類結果的影響,在輸入文檔和句子長度的不同設置下比較了它們的分類性能。圖2、圖3分別顯示了在IMDB、Yelp13數(shù)據(jù)集上,在文檔和句子長度變化期間,各評價指標的變化。

圖2 IMDB數(shù)據(jù)集上評價指標隨文檔和句子最大長度變化圖

圖3 Yelp13數(shù)據(jù)集上評價指標隨文檔和句子最大長度變化圖

由圖2、圖3可知,隨著文檔長度和句子長度的增加,分類結果越來越好。在句子長度確定的條件下,當最大文檔長度為40時,Accuracy和RMSE均取得最佳結果;在文檔長度確定的條件下,當最大句子長度為50時,Accuracy和RMSE取得最佳值。當最大句子長度為50~60時,性能反而下降,這是因為當最大句子長度過大時,超過最大句子長度的句子數(shù)會越來越少,性能也會有所下降;當最大文檔長度為40~60時, 分類性能也會下降, 此時超過最大文檔長度的文檔數(shù)越來越少,對最終分類的性能也會有影響。

3.5.1.2 單詞嵌入維度分析

模型的最初輸入是經(jīng)過處理的單詞嵌入向量,在本節(jié)中討論了不同Embedding維度對模型性能的影響。圖4顯示了在不同維度上,在IMDB、Yelp13數(shù)據(jù)集上精度的變化。

圖4 不同維度詞嵌入的分類準確率

從圖4可以看出,隨著單詞嵌入維度的增加,模型的分類性能越來越好,在200維時,模型的精度取得最佳結果,這意味著詞向量的維度越高,向量中所包含的信息越多,更有利于模型取得更好的分類結果。

3.5.1.3 單詞嵌入方式的分析

好的單詞嵌入在最終的文本表示獲取中有著非常重要的作用,更有利于模型最終的分類。圖5顯示了在IMDB、Yelp13數(shù)據(jù)集上Glove與Skip-gram兩種單詞嵌入方式對模型性能的影響。其中使用Glove嵌入方式訓練得到的單詞向量是從Twitter中學習到的。

圖5 單詞嵌入的影響

從圖5中可以觀察到,在詞向量維度為50維、100維、200維時,Skip-gram嵌入方式在IMDB、Yelp13數(shù)據(jù)集上的精度始終要優(yōu)于Glove嵌入方式,這說明在特定數(shù)據(jù)集上,利用基于上下文信息的Skip-gram方式訓練得到的單詞向量更適用于MGUP模型。

3.5.2 對比結果

在三個真實數(shù)據(jù)集上與基線模型進行對比,結果如表2所示。

表2 數(shù)據(jù)集上各模型對比結果Accuracy

表2是兩種文檔級分類方法在三個數(shù)據(jù)集上的分類結果。第一部分是不考慮用戶信息的基線模型,第二部分是考慮了用戶信息的分類模型。

從表2第一部分結果可以看出,在不考慮用戶信息的情況下,Majority性能表示最差,因為其沒有利用任何文本信息或其他額外信息。與以SVM為分類器的AvgWordvec、TextFeature方法相比,分層的網(wǎng)絡模型普遍能取得更好的性能,這說明了分層結構更有利于對文檔級評論進行分類。

表2中第二部分列出了只使用用戶信息或同時考慮用戶和產(chǎn)品屬性的方法的結果。由表2第一部分和第二部分結果對比可以觀察到,考慮了用戶信息的模型,其性能要普遍高于未利用用戶信息的模型。與第一部分相對應的基線方法相比,在加入了用戶信息之后,模型的性能能夠得到或多或少的改進。例如,UPNN(CNN)在同時利用用戶和產(chǎn)品信息的時候,在IMDB數(shù)據(jù)集上實現(xiàn)了3%的精度提升,在Yelp13、Yelp14數(shù)據(jù)集上分別實現(xiàn)了1.9%、2.3%的精度改進。這一性能的提升表明在對文檔級評論進行情感分類時有必要考慮額外的附加信息。

實驗表明,本文提出的MGUP模型在三個數(shù)據(jù)集上都取得了最好的性能。盡管LUPDR、UPNN(NSC)等模型同時考慮了用戶和產(chǎn)品信息,但MGUP仍要優(yōu)于這些模型,這表明本文提出的模型能以更有效的方式更充分地考慮用戶的信息以進行文檔級評論的分類。

3.5.3 消融實驗

為了研究在不同粒度上用戶偏好的影響,本文還做了消融實驗,結果如表3所示。

表3 不同粒度上用戶偏好的影響

從實驗結果中可以觀察到:

(1) 當在MGUP模型中不加入任何粒度上的用戶偏好時,MGUP性能表現(xiàn)最差,進一步說明了用戶信息對于提高文檔級情感分類的重要性;同時,即使這樣,它也比表2中其他不考慮用戶信息的基線模型性能要好。

(2) 當只在單個粒度上考慮用戶的偏好時,與不考慮用戶偏好相比,MGUP至少可以得到4.22%、1.46%、1.71%的精度提升;當同時考慮兩個粒度上的用戶偏好時,此時MGUP可以獲得更好的性能,總體上其結果要優(yōu)于不考慮或只考慮單個粒度上的用戶偏好。

(3) 當同時在單詞、句子、文檔粒度上考慮用戶的多粒度偏好時,MGUP能夠獲得最好的結果。對于Yelp14數(shù)據(jù)集來說,MGUP的結果也部分優(yōu)于不考慮用戶偏好或在單個、兩個粒度上考慮用戶偏好的結果。

4 結束語

本文提出了一種融合多粒度用戶偏好的文檔級情感分類方法。首先,根據(jù)文檔的多粒度結構,在單詞粒度上,MGUP利用基本注意機制融入用戶信息來考慮用戶的單詞偏好,獲取句子表示;然后,在句子粒度上,將自注意力機制應用于多個融合了用戶信息的句子表示來獲取文檔表示;最后,在文檔粒度上,直接融合用戶和文檔信息來生成最終的文本特征表示。實驗結果表明,與多個大型真實的網(wǎng)絡模型相比,MGUP取得了較好的結果。在之后的工作里,可以根據(jù)文檔結構的多粒度特點,去探索更有效的、更好的文檔級情感分類方法。

猜你喜歡
單詞分類情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
單詞連一連
情感
分類討論求坐標
如何在情感中自我成長,保持獨立
數(shù)據(jù)分析中的分類討論
看圖填單詞
教你一招:數(shù)的分類
主站蜘蛛池模板: 久久久久亚洲精品无码网站| 亚洲第一区精品日韩在线播放| 国产xx在线观看| 色天天综合| 99成人在线观看| 国产精品吹潮在线观看中文| 国产精品香蕉在线| 欧美一区二区三区香蕉视| 91色爱欧美精品www| 国产欧美日韩在线在线不卡视频| 亚洲欧美色中文字幕| 中文字幕日韩视频欧美一区| 亚洲精品大秀视频| 91精选国产大片| 幺女国产一级毛片| 伊人久久婷婷| 欧日韩在线不卡视频| 国产亚洲精品91| 国产区网址| 亚洲色图另类| 超碰aⅴ人人做人人爽欧美 | 蜜臀AVWWW国产天堂| 欧美性精品| 国产女主播一区| 园内精品自拍视频在线播放| 久久精品波多野结衣| 亚洲色图在线观看| 中文字幕2区| 99久久精彩视频| 亚洲天堂网在线播放| 五月婷婷导航| 国产欧美视频在线| 日本a级免费| 亚洲人成成无码网WWW| 青青久久91| 亚洲一区二区约美女探花| 欧美一级特黄aaaaaa在线看片| 97精品国产高清久久久久蜜芽| 久久亚洲黄色视频| 中文字幕在线欧美| 九九这里只有精品视频| 天天激情综合| 99精品免费在线| 92精品国产自产在线观看| AV熟女乱| 日韩 欧美 国产 精品 综合| 天天综合天天综合| 欧美亚洲第一页| 91久久国产成人免费观看| 欧美伦理一区| 国产成人精品亚洲日本对白优播| 91口爆吞精国产对白第三集 | 91po国产在线精品免费观看| 亚洲毛片在线看| 国产手机在线ΑⅤ片无码观看| 91国内视频在线观看| 亚洲国产日韩在线观看| 在线免费无码视频| 久久精品波多野结衣| 国产成人av一区二区三区| 99这里精品| 午夜精品福利影院| 九九久久99精品| jizz国产视频| 亚洲综合久久成人AV| аv天堂最新中文在线| 亚洲国产成人久久77| 最新精品久久精品| 午夜激情福利视频| 无码中字出轨中文人妻中文中| 91精品国产无线乱码在线| 日本高清免费不卡视频| 色婷婷综合在线| 国产精品毛片一区| 亚洲色图欧美| 日韩精品亚洲精品第一页| 久久香蕉国产线看观| 思思热精品在线8| 欧美a√在线| 大陆精大陆国产国语精品1024| 美女扒开下面流白浆在线试听 | 精品夜恋影院亚洲欧洲|