張周彬,相 艷+,梁俊葛,楊嘉林,馬 磊,2
1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650504
2.昆明理工大學(xué)資產(chǎn)經(jīng)營(yíng)有限公司,昆明 650051
情感分類,也稱觀點(diǎn)挖掘,是自然語(yǔ)言處理(natural language processing,NLP)中一項(xiàng)重要的任務(wù)[1-2]。粗粒度情感分類是對(duì)文檔級(jí)(篇章級(jí))或句子級(jí)的評(píng)論文本進(jìn)行情感極性判斷,而細(xì)粒度情感分類是對(duì)評(píng)論文本中的實(shí)體屬性進(jìn)行情感極性的識(shí)別。例如,對(duì)于評(píng)論“The food was very good,but the service at that restaurant was dreadful.”,細(xì)粒度的情感分類需要識(shí)別出屬性“food”的情感極性是正向的,而屬性“service”的情感極性是負(fù)向的。不同屬性的情感極性不僅依賴于上下文的情感信息,還依賴于特定屬性的語(yǔ)義信息[3]。因此,對(duì)于特定屬性的情感極性識(shí)別應(yīng)該將上下文和屬性相結(jié)合,充分利用屬性和上下文的依賴關(guān)系。
解決屬性情感分類的傳統(tǒng)機(jī)器學(xué)習(xí)方法包括語(yǔ)法規(guī)則[4]和支持向量機(jī)(support vector machine,SVM)的方法[5],這些方法大多需要大量人工特征,包括情感詞典[6]、解析樹(shù)[7]等。這類方法的性能很大程度上受限于人工特征的質(zhì)量。Hu 和Liu[8-9]提出了針對(duì)不同商品評(píng)論的情感分類方法。Qiu 等人[10]利用屬性抽取和構(gòu)建情感詞典的方法進(jìn)行屬性情感分類。
近些年,隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)在NLP中得到了廣泛的應(yīng)用。越來(lái)越多的學(xué)者提出利用深度學(xué)習(xí)技術(shù)。前期一些學(xué)者提出利用深度學(xué)習(xí)和傳統(tǒng)的方法相結(jié)合處理屬性級(jí)情感分類的思路。Nguyen和Shirai[11]提出基于循環(huán)神經(jīng)網(wǎng)絡(luò)和句法分析樹(shù)的方法進(jìn)行屬性情感分類。Dong 等人[12]提出一種自適應(yīng)的循環(huán)神經(jīng)網(wǎng)絡(luò)應(yīng)用于文本情感分類。這些方法均加入了深度學(xué)習(xí)的方法進(jìn)行特征提取,相比于傳統(tǒng)的方法取得了比較好的性能,但是它們需要借助情感詞典、句法分析樹(shù)等方法的輔助,且網(wǎng)絡(luò)結(jié)構(gòu)相比比較復(fù)雜。為了克服這些缺陷,大量研究人員對(duì)深度學(xué)習(xí)技術(shù)進(jìn)行了深入研究,僅利用遞歸神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)等學(xué)習(xí)語(yǔ)義信息,這些模型在情感分類上也取得了比較好的效果[13-14]。Chen 等人[15]提出使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行屬性情感信息的提取。Xue 等人[16]提出基于卷積神經(jīng)網(wǎng)絡(luò)和門控機(jī)制的模型進(jìn)行屬性情感信息的提取。Ruder等人[17]提出一種分層雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型,引入詞語(yǔ)之間和句子之間的語(yǔ)法規(guī)則技術(shù)進(jìn)行屬性級(jí)情感分析。Wang 等人[18]將上下文中每個(gè)詞和從句的重要程度結(jié)合起來(lái),提出一種具有詞語(yǔ)級(jí)和句子級(jí)聯(lián)合訓(xùn)練的分層注意力機(jī)制網(wǎng)絡(luò)結(jié)構(gòu)。支淑婷等人[19]提出融合多注意力屬性和上下文的雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(bi-long short term memory,Bi-LSTM)的方法,在Bi-LSTM 的不同位置加入不同類型的注意力機(jī)制,從不同角度抽取情感特征。Ma 等人[20]提出將上下文和屬性分別建模,然后利用交互式注意力網(wǎng)絡(luò)結(jié)構(gòu)分別學(xué)習(xí)上下文和屬性的有效表示。Tang等人[21]使用兩個(gè)LSTM(long short term memory)網(wǎng)絡(luò)分別從屬性詞的左側(cè)和右側(cè)分別建模,捕捉屬性的上下文信息。Tay等人[22]通過(guò)對(duì)上下文和屬性分別建模捕捉它們之間的關(guān)系,然后送入神經(jīng)網(wǎng)絡(luò)中自適應(yīng)地捕捉屬性詞和它的情感詞。以上方法均取得比較好的結(jié)果,同時(shí)驗(yàn)證了LSTM 網(wǎng)絡(luò)和注意力機(jī)制對(duì)屬性級(jí)情感分類的有效性。
本文基于LSTM 網(wǎng)絡(luò)和注意力機(jī)制進(jìn)行了研究。Tang等人[23]提出目標(biāo)相關(guān)長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(targetdependent long short term memory,TD-LSTM)模型和目標(biāo)連接長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(target-connection long short term memory,TC-LSTM)模型。TD-LSTM模型是通過(guò)Bi-LSTM 網(wǎng)絡(luò)對(duì)特定屬性的上下文信息進(jìn)行獨(dú)立編碼,然后連接前向LSTM 網(wǎng)絡(luò)和反向LSTM 網(wǎng)絡(luò),最后隱藏層的輸出的特征向量作為最終的表示,進(jìn)行屬性情感分類。TC-LSTM 網(wǎng)絡(luò)則是在TD-LSTM 模型基礎(chǔ)上的改進(jìn),將屬性詞向量矩陣與句子的上下文詞向量矩陣進(jìn)行拼接作為模型的輸入,讓模型學(xué)習(xí)到更加有效的屬性情感特征。這兩個(gè)方法都有很大的局限性,僅僅借助LSTM 網(wǎng)絡(luò)對(duì)屬性的情感特征進(jìn)行提取。Wang 等人[24]提出基于注意力的長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(attention-based long short term memory,AT-LSTM)模型和基于屬性嵌入的注意力網(wǎng)絡(luò)(attention-based long short term memory with aspect embedding,ATAE-LSTM)模型。這兩個(gè)模型是在Tang 等人提出的模型基礎(chǔ)上的改進(jìn),它引入了注意力機(jī)制去選擇性地關(guān)注與屬性密切相關(guān)的內(nèi)容信息。AT-LSTM 模型是在上下文隱藏層的輸出特征向量上拼接屬性詞向量,然后利用注意力機(jī)制讓模型選擇性關(guān)注與當(dāng)前屬性密切相關(guān)的內(nèi)容信息,從而生成更加準(zhǔn)確的屬性情感特征向量。而ATAELSTM 模型則是在AT-LSTM 輸入層引入屬性連接組件,將屬性詞向量連接到輸入詞向量中,讓模型能夠在Bi-LSTM 網(wǎng)絡(luò)編碼過(guò)程中學(xué)習(xí)更多與屬性相關(guān)的語(yǔ)義特征信息。Ma 等人[20]提出交互式注意力網(wǎng)絡(luò),使屬性和上下文互動(dòng)學(xué)習(xí)獲得更有效的屬性情感特征。以上模型進(jìn)一步驗(yàn)證了LSTM 網(wǎng)絡(luò)和注意力機(jī)制對(duì)屬性情感分類的有效性,但是它們均忽視對(duì)屬性單獨(dú)建模和屬性對(duì)于上下文監(jiān)督的作用。因此,本文提出位置增強(qiáng)注意力機(jī)制網(wǎng)絡(luò)模型,將LSTM 網(wǎng)絡(luò)和注意力機(jī)制相結(jié)合構(gòu)建模型,且對(duì)屬性和上下文分別獨(dú)立建模,然后利用屬性去監(jiān)督上下文讓模型生成更加準(zhǔn)確的屬性情感特征向量。
到目前為止,大部分的模型都忽視屬性詞對(duì)屬性情感分類的作用,同時(shí)忽視了屬性與上下文中的相對(duì)位置關(guān)系。事實(shí)上,屬性的情感極性主要由其相鄰詞來(lái)表達(dá)。越接近屬性的詞語(yǔ)越可能表達(dá)它的極性。例如評(píng)論“The price is reasonable although the service is poor.”中,屬性“price”的情感極性表達(dá)的詞語(yǔ)是“reasonable”,而不是相隔較遠(yuǎn)的“poor”。根據(jù)語(yǔ)言規(guī)則,上下文和屬性之間的位置關(guān)系在屬性級(jí)情感分類建模中有著重要的意義。根據(jù)這一特征,本文提出一種基于位置增強(qiáng)注意力(position-attention,P-ATT)的屬性級(jí)情感分類模型,以下稱為P-ATT。該模型的主要?jiǎng)?chuàng)新之處為:(1)以屬性詞為中心,計(jì)算上下文中其他詞和屬性詞之間的相對(duì)位置,并在上下文的輸入層和隱藏層分別加入該相對(duì)位置向量,從而更好地表征上下文中每個(gè)詞對(duì)屬性的重要程度;(2)利用兩個(gè)LSTM 對(duì)上下文和屬性詞獨(dú)立編碼,利用編碼后的屬性詞向量監(jiān)督上下文注意力權(quán)重的計(jì)算,該權(quán)重對(duì)最終的情感分類起到關(guān)鍵作用;(3)對(duì)上下文和屬性分別單獨(dú)建模,并利用屬性去監(jiān)督上下文,生成與屬性密切相關(guān)的屬性情感特征。本文模型在SemEval 2014 Task4 的數(shù)據(jù)集上進(jìn)行了二分類和三分類的實(shí)驗(yàn),驗(yàn)證了模型的有效性。
在屬性級(jí)情感分類任務(wù)中,上下文中的單詞和屬性詞之間的相對(duì)位置包含著很重要的特征信息,屬性附近的詞更有可能表達(dá)它的情感極性,并且隨著相對(duì)距離的增大影響越小。例如圖1 所示,對(duì)于該上下文中涉及的屬性1“price”的情感由位置2 的“reasonable”表達(dá),而非位置7 的“poor”表達(dá)。屬性2“service”的情感由位置2 的“poor”表達(dá)。本文對(duì)位置信息的處理方法為:(1)檢索到屬性詞所在的位置i,設(shè)置該位置的權(quán)重為0;(2)以屬性詞為中心,在屬性詞的兩側(cè)設(shè)置兩個(gè)工作指針,分別依次計(jì)算屬性詞左右兩側(cè)單詞和屬性詞之間的相對(duì)位置i的值li;(3)將獲得相對(duì)位置的序列進(jìn)行處理,計(jì)算公式:

Fig.1 Positional relationship between words and aspect in context圖1 上下文中單詞和屬性之間的位置關(guān)系

本文提出的P-ATT 模型如圖2 所示,上下文的輸入包括位置向量和上下文向量,屬性的輸入為屬性向量,二者分別送入LSTM 網(wǎng)絡(luò),得到上下文隱藏層向量和屬性隱藏層向量。位置向量拼接至上下文隱藏層向量構(gòu)成上下文表征,屬性隱藏層向量進(jìn)行平均池化得到屬性表示。之后利用屬性表示去監(jiān)督上下文表示計(jì)算上下文中每個(gè)單詞注意力權(quán)重,最后該注意力權(quán)重與上下文隱藏層向量相乘,得到評(píng)論文本最終的有效表示,并利用該表示進(jìn)行情感分類。

Fig.2 Position-enhanced attention network model圖2 位置增強(qiáng)注意力網(wǎng)絡(luò)模型
2.2.1 上下文和屬性的輸入
屬性級(jí)情感分類的任務(wù)是判別句子中不同屬性的情感極性。對(duì)于長(zhǎng)度為n的上下文,長(zhǎng)度為m的屬性,屬性可能是一個(gè)詞也可能是一個(gè)短語(yǔ)。實(shí)驗(yàn)數(shù)據(jù)集中的所有單詞映射到glove訓(xùn)練的連續(xù)、低維度的實(shí)值詞向量,每個(gè)單詞wi對(duì)應(yīng)一個(gè)確定的詞向量vi∈Rd。
上下文不同單詞對(duì)應(yīng)的詞向量乘上對(duì)應(yīng)的Di,獲得位置向量矩陣。利用上下文的索引序列檢索出涉及的詞向量構(gòu)成上下文詞向量嵌入矩陣。將vp和vc拼接,得到最終的上下文輸入。屬性詞向量矩陣的獲取方式和上下文詞向量矩陣的獲取方式一樣。以上的dp dc dt表示向量維度,n、m分別表示上下文和屬性的長(zhǎng)度。
2.2.2 屬性和上下文表示
如圖2,屬性詞向量矩陣vt通過(guò)LSTM 網(wǎng)絡(luò)進(jìn)行編碼,得到屬性隱藏層向量。之后對(duì)屬性隱藏層向量進(jìn)行均值處理,均值作為屬性表示,去參與上下文每個(gè)單詞的注意力權(quán)重的計(jì)算,準(zhǔn)確抽取上下文中和屬性情感特征密切相關(guān)的信息。屬性隱藏層向量均值定義為:

此外,vp和vc拼接得到上下文的輸入,送入LSTM網(wǎng)絡(luò)進(jìn)行獨(dú)立編碼,獲得隱藏層向量。該隱藏層向量再次拼接vp,得到上下文的表示。
2.2.3 利用注意力機(jī)制進(jìn)行情感分類

式中,W表示權(quán)重,,b表示偏置。之后將注意力權(quán)重ai和上下文隱藏層向量進(jìn)行乘法運(yùn)算,生成與屬性高度相關(guān)的特征向量Cf:

將特征向量Cf送入softmax 函數(shù),輸出最終特定屬性的情感極性。
在P-ATT 模型中,使用隨機(jī)梯度下降算法更新所有的參數(shù)Θ:

式中,λτ為學(xué)習(xí)率。
損失函數(shù)采用交叉熵代價(jià)函數(shù),同時(shí)為了避免過(guò)擬合,加入L2 正則化,通過(guò)最小函數(shù)來(lái)優(yōu)化模型,定義如下:

其中,gi表示上下文中特定屬性正確的情感類別,yi表示上下文中特定屬性預(yù)測(cè)的類別,λγ表示正則化的權(quán)重。
本文提出的P-ATT 模型在SemEval 2014 Task4 Restaurant 和Laptop 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),驗(yàn)證PATT 模型的有效性。SemEval 2014 數(shù)據(jù)集兩個(gè)數(shù)據(jù)集組成:Laptop 評(píng)論語(yǔ)料和Restaurant 評(píng)論語(yǔ)料。評(píng)論有三種情感極性:正向、中性、負(fù)向。表1 顯示了兩個(gè)數(shù)據(jù)集中訓(xùn)練集和測(cè)試集樣本的數(shù)量。

Table 1 Experimental data statistics表1 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)
實(shí)驗(yàn)中,上下文詞向量維度dc、屬性詞向量維度dt、位置詞向量維度dp以及LSTM 隱藏層輸出的詞向量的維度dh都設(shè)為300。詞向量均采用Pennington等人[25]提出的預(yù)訓(xùn)練的glove 詞向量,并且所有詞匯外的單詞都通過(guò)從均勻分布U(-0.1,0.1)中抽樣來(lái)初始化。同時(shí)通過(guò)均勻分布U(-0.1,0.1)采樣給出所有權(quán)重矩陣的初始值,并將所有的偏置b初始化為0。通過(guò)每個(gè)batch_size=128 個(gè)樣本進(jìn)行訓(xùn)練模型訓(xùn)練,Adam 優(yōu)化算法的初始學(xué)習(xí)率為0.01,Dropout 設(shè)置為0.3。
為了全面評(píng)估P-ATT 模型性能,本文將其和多個(gè)基線模型進(jìn)行了比較,比較的基線模型有:
LSTM:該模型為參考文獻(xiàn)[23]所提出的模型。僅使用一個(gè)LSTM 網(wǎng)絡(luò)對(duì)上下文進(jìn)行建模,然后將隱藏層的輸出做均值處理作為最終的表示,并送入softmax 函數(shù)計(jì)算每個(gè)情感標(biāo)簽的概率。
TD-LSTM:該模型為參考文獻(xiàn)[23]所提出的模型。通過(guò)前向和反向LSTM 網(wǎng)絡(luò)對(duì)特定屬性的上下文信息進(jìn)行獨(dú)立編碼,然后將兩個(gè)LSTM 最后隱藏層輸出的特征向量進(jìn)行拼接作為最終的表示,進(jìn)行情感分類。
TC-LSTM:該模型為參考文獻(xiàn)[23]所提出的模型。該模型是在TD-LSTM 模型基礎(chǔ)上的改進(jìn),將屬性詞向量矩陣和上下詞向量矩陣進(jìn)行拼接作為模型的輸入,提取屬性更有效的特征進(jìn)行情感分類。
AT-LSTM:該模型為參考文獻(xiàn)[24]所提出的模型。在LSTM 網(wǎng)絡(luò)中引入屬性詞向量的注意力機(jī)制,能夠讓模型選擇性地關(guān)注和屬性聯(lián)系密切的情感信息,從而生成更準(zhǔn)確的屬性情感特征向量。
ATAE-LSTM:該模型為參考文獻(xiàn)[24]所提出的模型。該模型是在AT-LSTM 模型的輸入層引入屬性連接組件,將屬性詞向量拼接在上下文詞向量中,然后利用雙向LSTM 網(wǎng)絡(luò)和注意力機(jī)制學(xué)習(xí)更多與屬性相關(guān)的語(yǔ)義特征信息。
本文采用準(zhǔn)確率來(lái)評(píng)估屬性情感分類的效果,定義如下:

其中,T是預(yù)測(cè)正確的樣本數(shù),N是樣本的總數(shù)。準(zhǔn)確率度量的是所有樣本中預(yù)測(cè)正確樣本的百分比。
3.4.1 與基線模型的比較
本文將6種模型在SemEval2014 Task4 Restaurant和Laptop 兩個(gè)不同領(lǐng)域語(yǔ)料上進(jìn)行了實(shí)驗(yàn),表2 給出了6 種模型在屬性級(jí)情感分析任務(wù)中三分類準(zhǔn)確率比較情況。

Table 2 Comparison of accuracy among different models and three classification tasks表2 不同模型三分類任務(wù)中準(zhǔn)確率對(duì)比 %
P-ATT 模型在Restaurant和Laptop 兩個(gè)不同領(lǐng)域的數(shù)據(jù)集上均取得比較好的效果。模型ATAELSTM 和TC-LSTM 的準(zhǔn)確率明顯高于模型TDLSTM、AT-LSTM、LSTM。從實(shí)驗(yàn)結(jié)果和模型框架對(duì)比說(shuō)明,在模型的輸入層加入屬性詞向量可以很好地幫助模型挖掘不同屬性和上下文中不同單詞之間的語(yǔ)義關(guān)聯(lián)信息,更加準(zhǔn)確地將對(duì)應(yīng)的情感信息識(shí)別。在Restaurant 和Laptop 語(yǔ)料 上,ATAE-LSTM 模型相比TD-LSTM、LSTM 模型分類準(zhǔn)確率分別提升1.6、0.6 和2.9、2.2 個(gè)百分點(diǎn),相比TC-LSTM 模型在Restaurant語(yǔ)料上提升0.9 個(gè)百分點(diǎn),驗(yàn)證了注意力機(jī)制在屬性情感分類任務(wù)中的有效性,同時(shí)也說(shuō)明屬性參與上下文的特征提取的必要性。
P-ATT 模型在輸入層的上下文詞向量矩陣中引入了位置信息,將位置加權(quán)的詞向量矩陣和對(duì)應(yīng)的上下文詞向量矩陣進(jìn)行拼接,讓模型更好地關(guān)注上下文中不同位置的詞和屬性之間的相關(guān)程度。然后利用LSTM 網(wǎng)絡(luò)對(duì)上下文和屬性分別建模,由于屬性信息的有限性和屬性與上下文中各個(gè)單詞信息的相關(guān)性,將屬性進(jìn)行均值處理,同時(shí)在上下文的隱藏層的輸出再次拼接位置信息,強(qiáng)化位置信息的重要程度,最后利用屬性去參與上下文注意力權(quán)重的計(jì)算,更好地挖掘?qū)傩院蜕舷挛牟煌~的相關(guān)信息,強(qiáng)化重要信息,弱化次要信息。在Restaurant 和Laptop 兩個(gè)不同語(yǔ)料上,本文提出的模型相比ATAE-LSTM 模型情感分類的準(zhǔn)確率提高2.5 和3.4 個(gè)百分點(diǎn),驗(yàn)證了模型P-ATT 的有效性。
為了進(jìn)一步驗(yàn)證本文提出的P-ATT 模型的有效性,將Restaurant 和Laptop 數(shù)據(jù)集中的中性樣本剔除,只保留正向和負(fù)向的樣本進(jìn)行二分類實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3 所示。

Table 3 Comparison of accuracy among different models and two classification tasks表3 不同模型二分類任務(wù)中準(zhǔn)確率對(duì)比 %
從表3 的結(jié)果可以看到,剔除中性樣本后,5 個(gè)模型屬性情感分類任務(wù)的性能都有明顯的提升。通過(guò)觀察兩個(gè)不同領(lǐng)域語(yǔ)料中的中性情感樣本很容易發(fā)現(xiàn),中性情感的樣本中絕大部分都是對(duì)屬性的客觀描述,而沒(méi)有表達(dá)情感。例如“This is a consistently great place to dine for lunch or dinner.”對(duì)于屬性“l(fā)unch”,只是闡述了一個(gè)事實(shí),并沒(méi)有對(duì)屬性表達(dá)情感。另一個(gè)問(wèn)題是評(píng)論的自由性導(dǎo)致評(píng)論中對(duì)于屬性情感的含蓄、潛在表達(dá)和句子過(guò)于復(fù)雜導(dǎo)致模型不能很好地識(shí)別情感特征。因此,屬性情感分類的難點(diǎn)也是這個(gè)原因。通過(guò)實(shí)驗(yàn)結(jié)果的對(duì)比,本文提出的模型獲得最好的結(jié)果,和其他模型中最好的模型ATAE-LSTM 相比,在Restaurant 和Laptop 兩個(gè)不同領(lǐng)域的語(yǔ)料上準(zhǔn)確率分別高出1.2和0.7個(gè)百分點(diǎn),獲得了92.1%和88.3%比較好的結(jié)果。驗(yàn)證了本文模型能夠很好地解決不同領(lǐng)域的屬性情感分類問(wèn)題。
3.4.2 不同位置向量對(duì)于屬性情感分類的作用
P-ATT 模型在上下文的輸入層和隱藏層同時(shí)加入了位置信息,為了驗(yàn)證不同的位置信息的作用,本文還與只利用一種位置信息或者不利用位置信息的模型進(jìn)行比較。第一種稱為IP-ATT(input-position attention)模型,只保留上下文輸入層處的位置信息,其余部分與P-ATT 一致;第二種稱為HP-ATT(hiddenposition attention)模型,只保留上下文隱藏層處的位置信息,其余部分與P-ATT 一致;第三種稱為NP-ATT(no-position attention)模型,是將上下文輸入層和隱藏層兩處的位置信息都去掉。
以上模型在Restaurant 和Laptop 數(shù)據(jù)集上分別進(jìn)行了三分類實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3 所示。P-ATT 模型在兩個(gè)數(shù)據(jù)集上均取得最好的結(jié)果。相比NPATT 模型,在Restaurant 和Laptop 兩個(gè)不同領(lǐng)域的數(shù)據(jù)集上分別提升2.2 和1.9 個(gè)百分點(diǎn)。IP-ATT 模型的性能稍低于P-ATT 模型,但是高于HP-ATT 模型。說(shuō)明在上下文輸入層和隱藏層加入位置信息的有效性,同時(shí)也說(shuō)明在輸入層加入位置信息的效果相比在隱藏層加入位置信息更加有效。位置信息的加入使得LSTM 網(wǎng)絡(luò)在訓(xùn)練過(guò)程中會(huì)結(jié)合不同單詞和屬性之間的位置關(guān)系來(lái)編碼上下文的信息,有利于模型挖掘更加有效的屬性情感信息。

Fig.3 Impact of position information on classification accuracy圖3 位置信息對(duì)分類準(zhǔn)確率的影響
3.4.3 可視化注意力機(jī)制
為了更好地理解本文提出的P-ATT 模型對(duì)于上下文中不同單詞對(duì)特定屬性情感極性的影響程度,本文從訓(xùn)練的語(yǔ)料中抽取出一個(gè)樣本,可視化上下文中不同單詞的注意力權(quán)重。如圖4 所示,顏色越深表示注意力權(quán)重越大,對(duì)屬性情感的影響程度也越大。例句“The price is reasonable although the service is poor.”含有兩個(gè)屬性“price”和“service”,它們對(duì)應(yīng)的情感詞分別為“reasonable”和“poor”。從熱力圖很明顯地看到,加入位置信息的P-ATT 模型相比NPATT 模型更能準(zhǔn)確地識(shí)別出上下文中對(duì)應(yīng)屬性的情感信息。

Fig.4 Effect of attention visualization圖4 注意力可視化的效果
針對(duì)屬性情感分類任務(wù),本文提出的位置增強(qiáng)注意力機(jī)制模型充分利用屬性在上下文中的位置信息和注意力機(jī)制提取情感特征。模型在上下文的輸入層和隱藏層分別引入位置信息,在第一次位置信息參與下通過(guò)LSTM 網(wǎng)絡(luò)獨(dú)立編碼特定屬性的上下文的信息,隱藏層的輸出再一次引入位置信息。然后借助屬性的均值去計(jì)算上下文中每個(gè)詞的注意力權(quán)重,準(zhǔn)確地表示出不同單詞對(duì)屬性的影響程度,挖掘上下文中屬性的情感信息。在兩個(gè)不同領(lǐng)域的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)表明本文提出模型的有效性,能夠很好地解決屬性情感分類任務(wù)。
本文提出的模型對(duì)于屬性詞序列采用平均化的方式進(jìn)行處理,沒(méi)有有效地關(guān)注屬性中的重要信息,對(duì)于模型準(zhǔn)確捕捉屬性的情感信息有一定的影響,如何提取屬性中的重要信息是下一步工作的重點(diǎn)。