結(jié)合語法信息的BG-CNN用于方面級情感分類

2022-04-09 07:03:44魏素華

計(jì)算機(jī)工程與應(yīng)用 2022年5期

鄭誠，魏素華，曹源

安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，合肥 230601

文本情感分析作為自然語言處理（NLP）的主要研究方向之一，是對帶有不同情感表達(dá)的文本進(jìn)行情緒分類。其中細(xì)粒度的情緒分析任務(wù)，即方面級情感分析（ABSA），是通過尋找某一特定方面的評價(jià)詞（又稱意見術(shù)語）來判斷一個句子中特定方面的情感極性。常見的為情感三分類（即積極、消極或中立）。ABSA任務(wù)表示如圖1所示：在句子“The sushi is fresh，but the board is too small.”中，兩個方面詞“sushi”和“board”分別由不同的意見術(shù)語“fresh”和“small”來傳達(dá)它們的情感極性。

圖1 方面級文本情感分析示例Fig.1 Example of aspect based sentiment analysis

方面級情感分類方案包括經(jīng)典的基于情感詞典的方案和近幾年流行的基于深度學(xué)習(xí)算法的方案[1-3]。長短期記憶網(wǎng)絡(luò)（LSTM）[4]被提出以來，因在NLP相關(guān)領(lǐng)域中表現(xiàn)良好備受關(guān)注。在ABSA任務(wù)上，LSTM至今被認(rèn)為是效果最好的模型。近年來，隨著門控循環(huán)單元（GRU）的提出，雙向門控循環(huán)單元（Bi-GRU）被多次用于上下文信息的提取。卷積神經(jīng)網(wǎng)絡(luò)（CNN）可以通過卷積和池化實(shí)現(xiàn)重點(diǎn)信息提取。其可并行化的特點(diǎn)使得在模型訓(xùn)練時消耗更少的時間。它包含的池化操作可以獲取輸入數(shù)據(jù)的重點(diǎn)內(nèi)容。

對于英語單詞中一詞多義的現(xiàn)象，語法層面信息中的詞性信息有助于模型得到正確的詞義表達(dá)。同時，語法層面信息中的句法依存樹（Stanford-parser平臺，https：//nlp.stanford.edu/software/lex-parser.html）通過提供句子結(jié)構(gòu)信息（Stanford依存關(guān)系，https：//www.cnblogs.com/weilen/p/8284411.html）可以幫助模型捕獲句子中特定方面的意見術(shù)語。因而可以將語法層面信息用到文本情感分析任務(wù)。據(jù)本文所知，以往的研究工作很少使用語法層面信息。

本文將文本序列與詞性信息結(jié)合，送入Bi-GRU與CNN的聯(lián)合模型，提出了具有可解釋性的BG-CNN。經(jīng)過Bi-GRU得到結(jié)合上下文信息表達(dá)的矩陣H，進(jìn)一步經(jīng)過卷積操作和最大池化提取核心信息。這一系列過程可解釋為模擬人類理解句子信息并提取重點(diǎn)內(nèi)容的行為。BG-CNN學(xué)到的句法結(jié)構(gòu)信息并不足以很好地支持包含多個方面詞句子的細(xì)粒度文本情感分類，因此提出將句法依存樹作為輔助信息的DT-BG-CNN模型，實(shí)現(xiàn)更好的分類效果。此外結(jié)合注意力機(jī)制（Attention）捕獲影響權(quán)重來作為輔助信息，提出了A-BG-CNN，用于模型對比。

這項(xiàng)工作的主要貢獻(xiàn)點(diǎn)在于將詞性信息應(yīng)用到ABSA任務(wù)中，提出了具有模型可解釋性的BG-CNN，以及結(jié)合句法依存樹的DT-BG-CNN，同時提出了優(yōu)化模型訓(xùn)練的增強(qiáng)損失函數(shù)，通過實(shí)驗(yàn)驗(yàn)證了它們的有效性。

1 相關(guān)工作

方面級情感分析針對特定方面進(jìn)行情感分類，因其能精確地捕獲特定方面的情感極性而備受關(guān)注。近年來相關(guān)研究工作中，基于深度學(xué)習(xí)的模型非常多。它們使用詞嵌入將句子中單詞進(jìn)行語義表達(dá)后通過模型訓(xùn)練得到情感劃分。Wang等[5]引入Attention，提出AE-LSTM、AT-LSTM、ATAE-LSTM三個模型，根據(jù)輸入的特定目標(biāo)調(diào)整句子的注意力。對比于傳統(tǒng)模型取得了不錯的效果。Tang等[6]將記憶網(wǎng)絡(luò)的思想用于方面級的情感分析，提出了MemNet模型。通過上下文信息構(gòu)建記憶，通過Attention機(jī)制捕獲影響不同方面上的情感傾向的信息。Chen等[7]不僅學(xué)習(xí)MemNet使用多層注意力網(wǎng)絡(luò)，同時創(chuàng)新式引入了記憶模塊來解決長距離方面詞信息有效識別，提出RAM模型。將目標(biāo)方面詞賦予了位置信息，實(shí)現(xiàn)了對分類效果的影響。Li等[8]提出TNet模型。用到了一種“上下文保留”機(jī)制，可將帶有上下文信息的特征和變換之后的特征結(jié)合起來，將其應(yīng)用卷積提取進(jìn)行情感分類。Wang等[9]意識到標(biāo)準(zhǔn)的Attention不能完美模擬句子中的句法結(jié)構(gòu)信息，因此提出了一層模擬條件隨機(jī)場（CRF）結(jié)構(gòu)來解決這個問題，提出了SA-LSTM-P模型。Song等[10]提出AEN模型，設(shè)計(jì)了一個注意編碼網(wǎng)絡(luò)來繪制目標(biāo)詞和上下文詞之間的隱藏狀態(tài)和語義交互，并提出標(biāo)簽不可靠性問題，在損失函數(shù)中加入了一個有效的標(biāo)簽平滑正則化項(xiàng)。Zhang等[11]認(rèn)為以往研究工作通常忽略了方面與其上下文詞之間的句法關(guān)系，因此提出接近加權(quán)卷積網(wǎng)絡(luò)PWCN。按照依賴接近以及距離接近賦予權(quán)重。

這些工作僅考慮到特定方面與句子之間的結(jié)合以獲取其針對性的情感極性，缺失了對語法層面信息的利用，使得他們只能提出結(jié)構(gòu)復(fù)雜的模型來獲得更好的分類效果。這些工作均使用Attention機(jī)制捕獲句子整體對情感分類影響權(quán)重，從某種意義上可以看作在模擬句法依存樹對語義表達(dá)產(chǎn)生的影響。Attention機(jī)制在很多領(lǐng)域中具有非常好的表現(xiàn)，但在方面級情感分析中，語法層面信息的使用有取代它的可能性。此外，LSTM模型是所有工作中不可或缺的一部分，驗(yàn)證了其在方面級情感分析中的重要地位。

2 結(jié)合依存樹的BG-CNN模型

模型主要包括文本序列與詞性數(shù)據(jù)結(jié)合的詞嵌入層、用于獲得單詞唯一詞義的Bi-GRU層，以及用于整合單詞信息獲取語意并提取重點(diǎn)信息的CNN層。將句法依存樹進(jìn)行同樣的詞嵌入和卷積處理后的數(shù)據(jù)進(jìn)行拼接，經(jīng)過一層全連接網(wǎng)絡(luò)處理得到極性三元組PoL=(s1,s2,s3)，分別代表情緒的正、負(fù)和無極性。整體上可以視為句意信息提取部分和句法依存樹信息提取部分，使用本文提出增強(qiáng)損失函數(shù)進(jìn)行模型訓(xùn)練。整體模型架構(gòu)如圖2所示。

圖2 DT-BG-CNN整體架構(gòu)圖Fig.2 Overall structure of DT-BG-CNN

2.1 詞嵌入層

詞嵌入層主要任務(wù)是三種不同數(shù)據(jù)的詞嵌入，包括文本序列的詞嵌入處理、文本詞性序列的詞嵌入和句法依存樹的詞嵌入，Levy等[12]給出了詞嵌入能有效表達(dá)單詞含義的解釋。

將文本序列W={w1,w2,…,wn}低維詞嵌入處理得到EW={ew1,ew2,…,ewn}，EW∈Rb×l×dm，將詞性序列P={p1,p2,…,pn}進(jìn)行低維詞嵌入得到Ep={ep1,ep2,…,epn}，Ep∈Rb×l×dimop。將句法依存樹序列D={d1,d2,…,dn}經(jīng)過詞嵌入得到Ed={ed1,ed2,…,edn}，Ed∈Rb×l×dimod。其中l(wèi)是文本序列中句子長度，b為單次訓(xùn)練數(shù)目，dim、dimod和dimop均為詞嵌入維度。

2.2 句意信息提取部分

該部分由詞嵌入層、Bi-GRU層和CNN層組成，即提出的BG-CNN模型。人類進(jìn)行細(xì)粒度文本情感分類，首先獲取句子中單詞的正確詞義，在此基礎(chǔ)上整合獲取句意信息，最終提取核心信息用于分類。該模型模擬人類閱讀理解時提取信息的行為流程進(jìn)行方面級情感分類。Bi-GRU層獲取句子中每個單詞聯(lián)系上下文信息后得到的具體詞義，經(jīng)過CNN中卷積層加權(quán)處理整合單詞獲取整體句意信息，再由池化層提取句意中重點(diǎn)信息，最后經(jīng)過一層全連接網(wǎng)絡(luò)得到目標(biāo)情感分類。下面分別對三個主要組成部分流程進(jìn)行進(jìn)一步說明。

一詞多義使得一個句子中單詞的具體詞義由其上下文信息來決定。將模型在詞嵌入層得到的Ew和Ep拼接操作得到Ex={ex1,ex2,…,ext}，Ex∈Rb×l×(dimod+dim)，送入Bi-GRU層，經(jīng)GRU中重置門和更新門兩個門控機(jī)制處理，輸出Vout={v1,v2,…,vn}，Vout∈Rb×l×2dim。把v看作是結(jié)合了上下文信息的單詞從多義中選擇出真正的詞義。這一過程模擬人類理解單詞，即獲取唯一詞義過程。語法層面中詞性信息的使用有利于篩選掉單詞的錯誤詞義，使單詞獲取正確的詞義表達(dá)。

模型中GRU前向傳播公式如下，式中[#，#]表示兩個向量相連，*表示矩陣的乘積，σ代表sigmoid函數(shù)激活，Wr、Wz、Wh~和Wo均為權(quán)重矩陣。

Bi-GRU是方向相反的兩個GRU的聯(lián)合使用，公式表示如下，其中GRU為GRU單元前向傳播過程。

卷積公式如下，k( )m,n為卷積核參數(shù)，h為輸入數(shù)據(jù)，得到ec為得到的句意信息的表示。

2.3 句法依存樹信息提取部分

依存樹作為句子中單詞間依存關(guān)系的表示，在一個句子中以不同單詞作為根節(jié)點(diǎn)會得到不同的依存樹。通常情況下通過依存解析器（如Stanford的句法解析器）解析得到的是根節(jié)點(diǎn)不是基于特定方面詞的句法結(jié)構(gòu)。借助句法依存樹作為輔助信息需要的是基于特定方面詞的句法依存樹。可以使用不同的方案實(shí)現(xiàn)將依存樹轉(zhuǎn)換為以特定方面詞為根節(jié)點(diǎn)的依存樹。Zheng等[13]從方面項(xiàng)中的第一個單詞遍歷到依存樹中的每個單詞，同時通過翻轉(zhuǎn)一些邊的方向來實(shí)現(xiàn)遍歷。該操作使方面項(xiàng)中第一個單詞成為了根節(jié)點(diǎn)，同時一些邊的方向發(fā)生反向轉(zhuǎn)變。這些發(fā)生轉(zhuǎn)變的邊信息通過特殊的標(biāo)記來記錄，表示可能具有不同的性質(zhì)。如原本的未轉(zhuǎn)換邊被標(biāo)記為“obj”，在轉(zhuǎn)換后標(biāo)記為“rev#obj”。以上操作處理得到了基于特定方面詞為根節(jié)點(diǎn)的依存樹數(shù)據(jù)，本文提出的模型中直接使用了該數(shù)據(jù)。以方面詞為根節(jié)點(diǎn)的依存樹示例如圖3，圖中大致指出了句子中的句法依存信息。其中“ROOT”代表根節(jié)點(diǎn)，即該成分不依賴于其他成分，也是該句子中的特定方面項(xiàng)中第一個單詞；“amod”是“adjectival modifier”的縮寫，代表該成分是形容詞修飾語；“conj”是“conjunct”的縮寫，代表該成分作用是連接兩個并列的詞；“dep”是“dependent”的縮寫，代表該成分與根節(jié)點(diǎn)是依賴關(guān)系；“rev#obj”代表該成分為賓語；“aux”是“auxiliary”的縮寫，代表該成分為非主要助詞；“subj”代表該成分角色為主語；“compound”代表該成分為多單詞組成短語；“shakira”是方面詞。

圖3 句法依存樹示意圖Fig.3 Schematic diagram of syntactic dependency tree

輸出層中，將兩部分得到的Pol和Pod進(jìn)行拼接后經(jīng)過一層全連接網(wǎng)絡(luò)處理，得到最終分類結(jié)果PoL=(s1,s2,s3)。

2.4 增強(qiáng)損失函數(shù)

將情緒標(biāo)簽極性三分類，錯誤分類情況不同損失程度不同。如將積極情緒錯誤分類為消極情緒和將其錯誤分類為無極性損失不同。因此本文提出了結(jié)合標(biāo)簽預(yù)測錯誤程度的增強(qiáng)損失函數(shù)。當(dāng)標(biāo)簽錯誤預(yù)測為相反的情緒，給予更大的代價(jià)值。提出的增強(qiáng)損失函數(shù)包括三部分。第一部分為錯誤分類的損失l0，第二部分為增強(qiáng)懲罰的損失l1，第三部分為L2正則項(xiàng)：

式中，Cl為情感分類數(shù)目；yi為真實(shí)情感分類；為預(yù)測情感分類；λ為超參數(shù)，取值范圍[0，1]；wn為非錯誤分類為無極性情感個數(shù)；wa為總體錯誤分類個數(shù)。

3 實(shí)驗(yàn)及結(jié)果分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

為了驗(yàn)證模型的有效性，本文在三個常用基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)如表1所示，分別是來自SemEval 2014，Pontiki等[14]的Laptop和Restaurant數(shù)據(jù)集（Rest14），以及Dong等[15]在Twitter上抓取并處理的數(shù)據(jù)。涉及到對句法依存樹數(shù)據(jù)的處理，本文使用Zheng等[13]中實(shí)驗(yàn)所用數(shù)據(jù)來證明所提模型的有效性。

表1 數(shù)據(jù)集統(tǒng)計(jì)表Table 1 Data set statistics

3.2 實(shí)驗(yàn)參數(shù)設(shè)置

本文中涉及的模型均使用基于Glove預(yù)訓(xùn)練詞向量，采用glove.840B.300d進(jìn)行預(yù)訓(xùn)練。同時采用Adam優(yōu)化器，并將批次處理設(shè)置為64。同大部分工作一樣[16-19]，本文中提出的所有模型均選擇文本序列詞嵌入維度為300。學(xué)習(xí)率η及過擬合參數(shù)ε根據(jù)不同數(shù)據(jù)集取值如表2所示，使用精度（Acc）和F1分?jǐn)?shù)值衡量模型效果。

表2 不同數(shù)據(jù)集的參數(shù)設(shè)置Table 2 Parameter setting of different data set

3.3 模型對比實(shí)驗(yàn)及分析

將本文的工作與其他模型在這三個基準(zhǔn)實(shí)驗(yàn)數(shù)據(jù)上進(jìn)行了對比。這些研究工作主要包括：

（1）TD-LSTM（2016）[20]：Tang等在2016年將LSTM用于方面級情感分析，實(shí)驗(yàn)結(jié)果驗(yàn)證其效果明顯優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)SVM模型。該工作考慮到了上下文之間的關(guān)聯(lián)，這點(diǎn)在之后的研究工作中屢被借鑒。

（2）ATAE-LSTM（2016）：將Attention機(jī)制引入到該領(lǐng)域，將方面詞與上下文之間的關(guān)聯(lián)賦予了權(quán)重，使模型的效果得到提升。

（3）MemNet（2016）：作者指出將Attention用于捕獲方面與上下文間的關(guān)聯(lián)是比較好的思路，以往的一些工作也驗(yàn)證了其有效性。但如果能獲取更多的記憶信息，會更好地滿足情感分類需求。因此借鑒Facebook提出的MemN2N來解決神經(jīng)網(wǎng)絡(luò)長程記憶困難的問題。

（4）RAM（2017）：使用Attention利用相對位置關(guān)系，提出了位置信息權(quán)重記憶方式加入目標(biāo)信息。多重Attention能夠捕獲更長距離的情感特征。同時將捕獲的結(jié)果與RNN非線性組合以提取更加復(fù)雜的特征信息。

（5）TNet（2018）：認(rèn)為用Attention去捕獲文本序列和方面詞之間的語義相關(guān)性存在一定的缺陷，如對于一些復(fù)雜的短語方面術(shù)語下卻有可能會引入噪聲。因此提出了一個特征變換組件結(jié)合CNN來解決這一問題。

（6）SA-LSTM-P（2018）：認(rèn)為在復(fù)雜的句子中，以往單純的Attention機(jī)制會產(chǎn)生一定的錯誤。因此引入了類似條件隨機(jī)場（CRF）的一層結(jié)構(gòu)來更好地獲取句子結(jié)構(gòu)信息。

（7）AEN（2019）：模型引入了注意力編碼網(wǎng)絡(luò)，主要包括內(nèi)部注意力模塊和整體注意。論文還提出了標(biāo)簽不可信問題，引入了標(biāo)簽平滑正則項(xiàng)。

（8）PWCN（2019）：認(rèn)為現(xiàn)有的方法在一定程度上忽略了方面術(shù)語在句子中的句法依賴性。提出鄰近加權(quán)卷積網(wǎng)絡(luò)來提供一個特定方面的語法感知的上下文表示。

（9）ASGCN（2019）[21]：使用了圖卷積神經(jīng)網(wǎng)絡(luò)（GCN）與句法依存樹。GCN因其結(jié)構(gòu)更適用于非歐幾里德結(jié)構(gòu)數(shù)據(jù)，在細(xì)粒度的文本情感分析方向比較少見，作者成功地將它應(yīng)用在該研究中。但詞性信息的缺失使得效果并沒有很好的提升。

此外，本文還做了提出的增強(qiáng)損失函數(shù)和句法依存樹作為輔助信息的消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表3所示。由實(shí)驗(yàn)結(jié)果可以看出，本文模型的句意信息提取部分（BG-CNN）模擬人類情感信息提取效果明顯。與BG-CNN對比，結(jié)合模型的句法依存樹信息提取模型（DT-BG-CNN）分類效果有明顯提升，驗(yàn)證了依存樹對任務(wù)有明顯的積極影響。在模型模擬人類進(jìn)行信息提取時，依存樹有著類似于增強(qiáng)權(quán)重的作用。增強(qiáng)函數(shù)的消融實(shí)驗(yàn)與DT-BG-CNN的對比，驗(yàn)證了本文提出的增強(qiáng)損失函數(shù)的有效性。

表3 模型實(shí)驗(yàn)結(jié)果對比表Table 3 Table of model experiment comparison results

為了討論使用依存樹作為輔助信息替換掉Attention獲取目標(biāo)方面詞與上下文間關(guān)系權(quán)重是否取得更好的效果，將模型句法依存樹信息提取部分替換為Attention機(jī)制，即A-BG-CNN模型，總體架構(gòu)如圖4。通過表3中數(shù)據(jù)對比可以很清晰地看出，依存樹作為輔助信息能更好地掌控上下文對目標(biāo)方面的影響。分析認(rèn)為，使用Attention機(jī)制是通過對句法依存樹的某一層面或全方面的模擬來實(shí)現(xiàn)輔助方面級情感分類任務(wù)，因此分類效果差于直接使用句法依存樹。

圖4 A-BG-CNN整體架構(gòu)圖Fig.4 Overall structure of A-BG-CNN

為了驗(yàn)證DT-BG-CNN在得到單詞詞義正確表達(dá)方面的有效性，本文將其與當(dāng)前的一些預(yù)訓(xùn)練模型進(jìn)行了對比。它們分別是常用于該任務(wù)預(yù)訓(xùn)練的BERT和最近在NLP領(lǐng)域表現(xiàn)突出的XLNet語言模型。將它們在Laptop和Rest14數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果[22]進(jìn)行對比，結(jié)果如表4所示。可以看出，DT-BG-CNN在Rest14數(shù)據(jù)集效果上優(yōu)于BERT和XLNet，在Laptop數(shù)據(jù)集上與XLNet語言模型效果相近，優(yōu)于BERT。

表4 與預(yù)訓(xùn)練模型實(shí)驗(yàn)結(jié)果對比表Table 4 Comparison with experimental results of pretraining model

3.4 模型實(shí)驗(yàn)及分析

本文從模型可解釋性、句法依存樹作為權(quán)重的有效性、增強(qiáng)損失函數(shù)參數(shù)λ取值對模型訓(xùn)練效果的影響和模型輕巧性，分別做了下面四個擴(kuò)充實(shí)驗(yàn)。

（1）為了驗(yàn)證模型的可解釋性，即該模型首先有效地從一詞多義中選擇出準(zhǔn)確的詞義，再對具有準(zhǔn)確表達(dá)的句子進(jìn)行重點(diǎn)信息的提取。將“Boot time is superfast，around anywhere from 35 seconds to 1 minute.”記為句子A，通過與四個具有相似含義或語境的句子進(jìn)行句子間語義相關(guān)性實(shí)驗(yàn)。將句子“Boot time is fast”記為S1。S1近似人類識別句子A中重點(diǎn)信息的提取。將句子“35 seconds to 1 minute”記為S2。S2同S1，均為句子A中的單詞組成，不同處在于，S2是人類進(jìn)行方面情緒分析時去除的信息。將句子“The laptoplooks perfect”記為S3。S3和句子A不存在相同的單詞，但“l(fā)aptop”的詞義和“Boot”在句子A中的詞義具有較大的相關(guān)性。將S3作為選擇的目的是為了驗(yàn)證該模型能夠在多個詞義中選擇正確的表達(dá)。將句子“Restart the machine”記為S4。與S3相比，S4與A在句意上相關(guān)性更強(qiáng)。

實(shí)驗(yàn)首先使用未訓(xùn)練模型直接獲得五個句子的向量表示，分別計(jì)算四個句子與A的語義相似度。與通過訓(xùn)練后模型獲取的句子表達(dá)間語義相關(guān)性計(jì)算結(jié)果相對照。為了簡潔直觀顯示A與四個句子經(jīng)過模型訓(xùn)練前后的語義相關(guān)性，本文將結(jié)果以雷達(dá)圖和示意圖兩種形式表現(xiàn)出來，如圖5和圖6所示。通過對比可以看出，訓(xùn)練前A與S1、S2的語義相關(guān)性沒有明顯差別，在訓(xùn)練后S2與A的語義相似度是最差的，驗(yàn)證了本文的模型能夠模擬人類行為提取句子中的重點(diǎn)語義信息；句子S3、S4與A之間相關(guān)性大于A與S2間語義相關(guān)性，證明模型能夠獲取劇中單詞真正的詞義；從A與S4的相關(guān)性略優(yōu)于A與S3之間的語義相關(guān)性，可以得知，模型獲取詞義精確度較高；從整體訓(xùn)練前和訓(xùn)練后A與四個句子間的語義相似度關(guān)系，可以看出訓(xùn)練后的模型能夠更精確地表達(dá)出不同句子間相區(qū)別的信息和相關(guān)聯(lián)的信息。

圖5 A與四個句子的語義相關(guān)性雷達(dá)圖Fig.5 Radar chart of semantic correlation between A and four sentences

圖6 A與四個句子的語義相關(guān)性示意圖Fig.6 Schematic diagram of semantic relevance between A and four sentences

（2）句法依存樹作為輔助信息，可以增強(qiáng)模型捕獲重點(diǎn)信息的能力。為了體現(xiàn)句法依樹的增強(qiáng)效果，仍以“Boot time is super fast，around anywhere from 35 seconds to 1 minute.”為例，做了實(shí)驗(yàn)。將句子經(jīng)過卷積步驟處理后得到的Cd，進(jìn)一步使用Softmax進(jìn)行數(shù)據(jù)歸一化處理，得到權(quán)重值。結(jié)合句子，繪制句法依存樹對句子信息提取影響如圖7所示?？梢灾庇^看出依存樹可以增強(qiáng)對句子中重點(diǎn)單詞信息的捕獲。

圖7 句法依存樹對提取句子中重點(diǎn)信息的影響Fig.7 Influence of syntactic dependency tree on extracting key information from sentences

（3）為了研究增強(qiáng)損失函數(shù)中的超參數(shù)λ對精度和F1值的影響，對λ分別取值為( )0,0.25,0.5,0.75,1，在三個數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖8所示?？梢园l(fā)現(xiàn)在Rest14數(shù)據(jù)集上，λ對精度的影響不突出，而F1值隨取值的增大有明顯提升。λ取0.75時，在三個數(shù)據(jù)集上都能得到較好的結(jié)果。

圖8 λ對測試集精度及F1值的影響Fig.8 Influence ofλon test set’s precision and F1 value

（4）對本文提出的三個模型在同一硬件環(huán)境下運(yùn)行。在訓(xùn)練參數(shù)、時間和空間內(nèi)存消耗上作對比實(shí)驗(yàn)。運(yùn)行時間及空間消耗采用多次測值取平均法，實(shí)驗(yàn)結(jié)果如表5所示。數(shù)據(jù)顯示使用依存樹只增加少量訓(xùn)練參數(shù)，運(yùn)行時間和空間消耗均沒有明顯變化。一層Attention的使用在訓(xùn)練參數(shù)及時間消耗上劣勢已經(jīng)比較明顯。在方面情緒分類領(lǐng)域，選擇使用Attention往往要用到三層甚至更多層以達(dá)到分類效果的明顯提升，這將帶來非常巨大的運(yùn)行時間消耗。

4 結(jié)語

模擬人類有效信息提取的操作流程，本文提出了具有很好模型可解釋性的BG-CNN。將以特定方面為根節(jié)點(diǎn)的句法依存樹作為輔助信息引用到細(xì)粒度文本情感分析，得到了模型DT-BG-CNN。與直接使用Attention用于獲取權(quán)重的A-BG-CNN模型進(jìn)行了實(shí)驗(yàn)對比，驗(yàn)證了使用依存樹的優(yōu)越性。此外結(jié)合該模型提出了增強(qiáng)損失函數(shù)。實(shí)驗(yàn)結(jié)果表明，借助Attention具有模擬句法結(jié)構(gòu)的意義，但對比模型顯示效果差于真正的句法依存樹。不足之處在于，生成的句法依存樹存在數(shù)據(jù)噪聲，使得分類精度無法大幅度提升。因此后期研究的工作重點(diǎn)將放在依存樹的去噪，以及如何更合理地使用句法依存樹。