董慧潔,楊林楠+,陳 健,費 凡
(1.云南農業大學 大數據學院,云南 昆明 650201;2.云南省科技廳 云南省農業大數據工程技術研究中心,云南 昆明 650201;3.云南省發展與 改革委員會 綠色農產品大數據智能信息處理工程研究中心,云南 昆明 650201)
網絡評論的數量與日俱增[1],在電子商務產業中,用戶評論的一些細粒度的信息對于維護商家和客戶之間的關系尤為重要。快速有效地從評論文本中得到產品的各個方面及其情感傾向(積極、中性、消極),對企業決策及產品質量優化有著重要意義。因此,基于深度學習的文本目標級情感分析成為深度學習的一個重要研究方向。文本目標級情感分析要求探測出評論句子中提到的目標詞以及其情感極性傾向表達。例如,針對“味道香醇,但包裝太簡陋”這句話,需要建模識別出的目標詞分別為“味道”、“包裝”,并預測它們的情感極性類別。因為文本目標級情感分析需要帶標注的數據作為支撐,因此在研究的過程中誕生出幾種不同標注的方式,包括分開標注的BIO(begin-intermediate-other)標簽與極性標簽[2]、聯合標注的BIO標簽與極性標簽[3],還有基于跨度(SPAN)的標注方式[4],由于BIO的標注方式解碼過程中存在搜索空間大的問題,本文選用基于跨度的方式對數據進行標注,近幾年基于深度學習的方法成為文本目標級情感分析的主流方法,因此,提出了一種基于依賴關系注意力的全局指針模型,結合了跨度標注方式和全局指針的優勢,大大提高了目標的抽取及其情感分析的性能。
目標級情感分析包含兩個子任務即目標抽取與極性分類。為了能充分利用兩個子任務之間的信息,讓兩個子任務之間能夠進行交互共享信息,很多研究者嘗試設計聯合的框架解決目標級情感分析問題。Li等[3]采用一種聯合標簽的標注方式,以兩個長短時記憶網絡作為骨干網絡,一個用來預測實體標簽,另一個用來檢測目標實體的邊界信息,并設計組件提升目標情感預測的質量。Li等[5]認為使用Word2Vec和GLoVe(global vectors),或者LSTM(long short-term memory)、Transformer作為嵌入層,使得結果達到了瓶頸,因此采用具有上下文豐富信息的BERT(bidirectional encoder representation from transformers)預訓練模型作為嵌入層,然后預測標簽,使得整體獲得了良好的表現。但是這種方法存在一定的缺陷,針對每個字符要預測的標簽種類太多,模型的搜索空間太大,而且在處理由多個字符組成的目標詞時會出現字符間預測的情感極性不一致的情況。為此,Hu等[4]提出了基于跨度的標注模式,從輸入序列中計算出目標詞的開始和結束指針,并且提出了一種啟發式搜索算法解碼計算出目標的跨度表示,再通過跨度表示進行目標的極性分類。這種基于跨度的方式可以有效解決序列標簽帶來的情感極性預測不一致的問題,但是這種方法需要分開識別開始指針和結束指針并且分別計算二者的損失值,而且在進行索引匹配的過程中也會差生錯位匹配的問題。
以上模型與方法均在數據集SemEval-2014 task4和Twitter上進行實驗,且兩個數據集均為英文數據集,因為中文語料稀少不易獲得且相比較英文發展緩慢,因此,本文自構建一種針對文本目標級情感分析的中文數據集。同時為了改善以上模型存在的問題,本文提出了一種基于依賴關系注意力的全局指針模型DA-GP(dependency-based attention-global pointer),使用ERNIE-gram[6]預訓練模型獲取豐富的字級別的動態特征,并且結合靜態詞向量獲得最終的字詞混合嵌入特征,采用了全局指針的方法對開始指針與結束指針建立鄰接關系,將首尾指針視為一個整體進行預測,同時設計基于依賴關系的注意力機制增強句法信息,使得模型更加健壯。


圖1 評論句子長度分布

圖2 目標詞分布情況


表1 數據標簽類別分布
自預訓練模型被提出之后,大部分的工作利用預訓練模型獲得字粒度的字符語義特征作為嵌入特征,但是這樣的方式失去了詞粒度的語義信息,而對于中文來說,詞粒度的信息也十分的重要。根據研究者的調查,利用字詞嵌入進行訓練不僅可以得到字的自身特性又包含了上下文的信息[9],因此,根據字嵌入與詞嵌入信息之間的互補性,本文將字向量與詞向量混合編碼作為模型整體的嵌入表示。首先,將文本數據進入編碼層進行文本表示,編碼層采用字向量與詞向量結合的混合表示方法,S={w1,w2,…,wn} 代表一個輸入序列的所有字的集合,St={wi,wi+1,…,wj} (1≤i 全局指針模塊的形式化定義如下 (1) qi=Wqhi (2) ki=Wkhi (3) 圖4 依賴關系圖示例 因此,本文提出一種基于依賴關系的注意力機制。對于一個輸入序列本文首先利用Stanford CoreNLP工具進行句法依存分析,建立字與字間的依賴關系圖,對于wi和wj如果存在依賴關系,在兩者之間添加一條邊,最后得到其鄰接矩陣A={ai,j}n×n,ai,j=1表示wi和wj之間有一條邊,ai,j=0表示沒有邊連接。通過wi和wj的邊的信息加權,與得到的序列編碼向量 [h1,h2,…,hn], 計算得到一個上下文權重注意力矩陣P={pi,j}n×n,pi,j的計算方式如下 (4) 式中:hi·hj通過內積的方式計算wi和wj之間的關系大小,使用鄰接矩陣A中的ai,j計算注意力得分pi,j, 用來弱化沒有邊連接的wi和wj之間的關系。 將經過依賴關系注意力網絡層得到的注意力矩陣進行歸一化,并且與全局指針抽取部分的結果做哈達瑪積,通過此操作弱化關系不密切的wi和wj,以此達到消除冗余片段的作用,將得到的結果與分類部分的結果相加得到最終輸出,具體如下 L=QKΤ (5) Att=softmax(P) (6) E=Att⊙L (7) S=E+Fα (8) 其中,Q=[q1,q2,…,qn],K=[k1,k2,…,kn],P={pi,j}n×n,Fα表示全局指針分類部分的結果。由于目標詞開始位置的索引必定不大于結束位置的索引,因此只選用輸出的上三角部分作為結果,進行訓練和評估。 模型采用監督學習的方式進行訓練,在訓練的過程中,使用多標簽交叉熵分類損失函數作為待優化的目標函數,損失函數定義如下 (9) 其中,Pα是所有類型為α的目標詞的首尾集合,Qα是所有非目標或者類型非α的目標詞的首尾集合,另外,本文通過FGM[14](fast gradient method)對抗訓練在原始嵌入表示上增加對抗擾動,得到對抗樣本,利用對抗樣本進行訓練,用來提高模型的穩定性。 本文在自構建的中文數據集上對所提出的模型進行實驗以驗證DA-GP模型在性能上的先進性和可解釋性。同時,由于數據分布不均衡,為了更好衡量模型性能,本文采用精確率P(Precision)、召回率R(Recall)和兩者的調和平均值F1(F1-measure)作為評價指標。其計算公式如式(10)~式(12)所示,其中TP表示預測為正,實際也為正的數目,TN表示預測為負,實際也為負的數目,FP預測為正,實際為負,FN表示預測為負、實際為正的數目 (10) (11) (12) 本模型采取動態預訓練模型ERNIE-GRAM和靜態預訓練百度百科詞典模型結合作為詞嵌入進行實驗設計,使用Transformers[15]框架載入ERNIE-GRAM預訓練模型參數,采取的深度學習框架為PyTorch 1.7.1,開發工具為Python 3.8,操作系統為Ubuntu 20.04,顯卡為NVIDIA 3090Ti,內存為24 GB,CUDA版本為11.0具體的實驗參數設置見表2。 表2 實驗參數設置 為了驗證本文所提出DA-GP模型的準確性和有效性,本文選取了多個對比模型進行對照實驗,首先對所選取的原對比模型進行復現,而后將本文的自構建中文數據集在對比模型上實驗得出結果,實驗過程中BERT預訓練模型均選用中文版本的BERTbase。對照實驗的模型介紹如下: LSTM-BG+SC+OE[3]:以LSTM主要網絡,設計了邊界指導,情感一致,和觀點增強3個組件促進目標級情感分析提高任務的效果,原模型針對英文數據集,采用的預訓練詞典是GLoVe,在實驗的過程中,本文將GLoVe替換為中文維基百科預訓練詞典。 文獻[5]中的BERT+LINEAR、BERT+CRF、BERT+GRU、BERT+SAN:BERT預訓練模型加微調的模型解決目標級情感分析,使用BERT作為嵌入層,下游模型包括,線性條件隨機場(CRF)、門控循環單元(GRU)、自注意力機制與殘差網絡結合的網絡(SAN)。 BERT-SPAN[4]:使用跨度標注的方式,提出一種啟發式編碼算法提取多目標,首先選取前K個分數最好的開始索引和結束索引,然后列出所有開始索引小于結束索引的組合,通過設置閾值對所有組合進行過濾,得到最終的目標候選,而后針對目標候選進行情感極性預測。 DGCN[16]:采用聯合的目標提取與情感分析方法,在圖卷積的基礎上提出了基于方向建模的圖卷積網絡,該網絡模型通過有效區分與應用不同上下文信息,從而提升模型性能,原文中表示使用三層圖卷積表現最好,因此本實驗過程中也采用三層圖卷積。 Generative-ABSA[17]:使用文本到文本生成式的模型框架統一解決多個情感分析的任務,本實驗利用該模型解決目標級情感分析任務,實驗采用的預訓練模型為中文T5[18](text-to-text transfer transformer)模型。 本節比較了各個模型的實驗結果,其它模型與本文所提的DA-GP模型的對比實驗結果見表3。從表3中可以分析得出,本文所提出的DA-GP模型的所有指標結果都優于其它模型,相比LSTM+BG+SC+OE、BERT+LINEAR、BERT+CRF、BERT+GRU、BERT+SAN、BERT+SPAN、DGCN和Generative-ABSA模型,DA-GP模型在中文數據集上的F1值分別提高了12.53%、7.6%、8.74%、7.81%、7.47%、5.79%、5.11%、14.08%。LSTM+BG+SC+OE模型在下游任務設計了很多組件,但是存在嵌入表示能力差且標簽解析空間大的問題,使得整個模型的性能不高;BERT+SPAN引入預訓練模型和跨度標簽,但是將開始位置和結束位置分開計算,使得模型性能的提升空間有限,本文的模型相比于兩者在性能上均有提升,基于依賴關系注意力的全局指針模型可以克服以上問題。由上可知,相比于其它神經網絡模型,DA-GP模型在本文的中文數據集上具有明顯的優勢,較大幅度提升了最終效果,同時驗證了本文所提出模型方法的有效性。 表3 模型對比實驗結果 為了驗證所提出模塊的有效性同時為了研究字詞結合和依賴注意力模塊產生的影響,本小節選取ERNIE+LINEAR作為基線模型,在所提出的DA-GP模型上進行了消融實驗研究,共分為4種情況,見表4。最終發現,與完整的模型相比,如果只引入其中一個模塊(模型2、模型3),模型的性能有下降的趨勢,因此,說明兩個部分對模型的表現能力都有提高,且完整模型比基線模型F1值提升了6.3%,同時表明了本文所提模型具有良好的泛化能力。同時,通過觀察消融實驗的結果,可以得出,兩個模塊中對依賴注意力層對模型的性能影響較大,這充分說明關鍵特征的提取是十分重要的。與基線模型相比本文基于依賴關系注意力的全局指針模型DA-GP表現出了更好的效果,表明了全局指針模型在目標級情感分析任務中的優勢,使得模型的性能得到大幅度的提升。 表4 消融實驗結果 為了進一步了解本文所提出模型在訓練過程中模型的表現情況,對評價指標變化值進行可視化。模型每訓練完一個輪次,對測試集進行一次評估,模型在測試集上的P,R,F1分數變化如圖5所示,由圖5可知,模型訓練初期精確率高而召回率低,表明模型捕捉并預測樣本的能力較弱,但針對捕捉到的樣本其置信度較高,訓練的過程中模型逐漸捕捉到更多的樣本,但其置信度有下降的趨勢,即召回率逐漸升高,精確率逐漸降低,二者的曲線值在訓練的過程中局部上下波動,在迭代次數達到40時二者都達到一個相對較好的效果且取得了平衡,同時可以看出完整模型的F1值隨著迭代次數的增加,逐漸增長且上下浮動,在迭代40次時取得了最優值,迭代40次后模型P,R,F1值有微小變化但是基本趨于平穩。 圖5 精確率、召回率、F1分數變化 考慮到實際研究中中文目標級情感分析數據集少的問題,本文自構建一種目標級情感分析中文數據集,與此同時,提出了一種基于依賴關系注意力的全局指針模型,該模型通過引入動態的字向量與靜態的詞向量混合的方式豐富模型的嵌入表示,而且將全局指針模塊與依賴關系注意力結合,能有效提高多目標詞的抽取與分類的準確性。文中的實驗結果表明,本文提出的模型在中文數據集上取得了較好的效果,可以為目標級情感分析任務提供模型參考。3.2 全局指針模塊



3.3 依賴關系注意力層


3.4 輸出層
3.5 模型訓練
4 實驗與分析
4.1 實驗評估指標
4.2 實驗配置

4.3 與其它方法對比

4.4 消融實驗


5 結束語