999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

圖卷積神經網絡在中文對話情感分析中的應用

2021-03-25 02:09:18張亞文
軟件導刊 2021年3期
關鍵詞:分類文本情感

楊 青,朱 麗,張亞文,吳 濤

(1.華中師范大學計算機學院;2.國家語言資源監測與研究網絡媒體中心,湖北武漢 430079)

0 引言

網絡的快速發展推動大數據時代的到來,人們表達情緒的方式逐漸多樣化,其中社交網絡平臺成為最重要的途徑。帶有情感傾向的文本信息暴增,有效挖掘海量文本的情感信息,并將其應用于實際生活中,是極其重要的研究方向,文本情感識別也成為自然語言處理領域的一個研究熱點。

近年來,關于情感分析的研究工作得到許多關注,相關研究人員在文本情感分析方面不懈努力,取得了較大進步。文本情感分析也稱為意見挖掘,是對帶有情感傾向性的文本進行分析處理的過程。目前,大部分情感分析工作的研究目標是簡單的文本,處理這些文本時沒有考慮到用戶信息,主要的情感分析方法有兩種,即基于語義的情感詞典方法和基于機器學習的情感分類方法。文獻[1]基于大量微博評論文本構造大規模情感詞典,用于提高情感分類效率,但分類效果極其依賴情感詞典的規模和質量;文獻[2]采用支持向量機(SVM)和樸素貝葉斯方法(Na?ve Bayesian)在微博評論數據集上進行情感分析,指出基于機器學習的分類方法性能比基于語義的情感詞典方法表現更好。

隨著長短期記憶網絡LSTM、卷積神經網絡CNN 以及注意力機制等模型在自然語言領域,特別是在文本情感分析中的廣泛應用,注意力機制和神經網絡模型的結合使用成為近年來的研究熱點。Bengio 等[3]提出將神經網絡應用于構造語言模型;Quoc 等[4]在word2vec[5]的基礎上提出doc2vec,用于獲取句子的特征向量表示;文獻[6]對比word2vec 和doc2vec 兩種技術在情感分析句子表征中的表現,通過實驗證明了doc2vec 技術在句子語序語義表達上的優勢;Kim[7]使用卷積神經網絡CNN 模型進行文本情感分類;文獻[8]提出基于卷積神經網絡CNN 結合注意力機制的模型進行文本情感分析;文獻[9]使用LSTM 模型提取文本特征,結合情感極性轉移模型,并將該模型用于中文文本情感分類;文獻[10]使用基于注意力機制和BiLSTM的神經網絡模型對中文評論進行情感分析,BiLSTM 提取文本特征,Attention 層用于突出文本分類中的重點信息;文獻[11]提出使用雙向長短時間記憶網絡模型BiLSTM,并基于詞向量對中文文本進行情感分析;文獻[12]使用雙向門控循環單元BiGRU 進行中文文本情感分析,一定程度上提升了分類效果;文獻[13]將BiGRU 模型和注意力機制相結合,對文本情感進行極性分類,驗證了BiGRU-Attention模型的有效性;文獻[14]使用BiGRU 神經網絡和卷積最大池化的混合模型提取文本特征信息,從而進行文本情感分類,取得了較好效果;文獻[15]使用BiGRU 提取對話句子表征,指出對話中的信息主要依賴于話語中的序列上下文信息;文獻[16]構建CNN 和BiGRU 混合模型用于提取文本局部特征,從而對中文文本進行情感分類。

然而,目前大多數用于文本情感分析的模型存在同樣問題,大部分模型忽略了對話中的意圖建模,以及話題及說話人個性等因素在對話情感中發揮的作用。從理論上分析,RNNs、LSTM、GRU 等網絡模型,可以傳播長期的上下文信息,然而在實際應用中,這些網絡模型可能并非總是這樣,從而影響到RNN 模型在其它相關任務中的有效性。

不同于傳統的網絡模型LSTM 和CNN,圖卷積神經網絡在處理廣義拓撲圖結構上發揮著重要作用,能夠深入挖掘不規則數據的特征和規律。圖卷積神經網絡作為一種新興的網絡模型,在許多領域都有所應用,文獻[17]提出將圖卷積神經網絡GCN 應用于長文本分類問題;文獻[18]將關系圖卷積神經網絡RGCN 用于實體分類;文獻[19]在英文對話數據集上將GCN 用于情感識別。社交網絡中人際關系的不規則性充分反映出圖結構應用的重要性和多樣性,而圖卷積神經網絡的廣泛應用則體現該模型在不同類型領域中的可利用性。

在對話情感分析中,如果充分考慮說話者之間的情緒影響,對話文本情感分析的準確率會有所提升,而采用圖結構的形式刻畫說話者對應話語之間的關系是一種十分方便且直觀的方式。圖卷積操作可以通過聚合每個節點的鄰居節點特征而獲得該節點的聚合特征表示,進而用于分析說話者的情感在對話文本情感分析中產生的影響。

在實際生活中,用戶之間的情感交互可能對文本的情感類別產生一定影響,對話文本的情感識別依賴于用戶之間的情感狀態,即參與對話人員相互間的交流會影響到對方的情緒和狀態。對話情感識別是識別對話中說話人所說語句的情緒,本質上也可以歸納為文本分類問題,在預先定義好的情緒類型中,為對話中的每一句話確定其情感類別。

本文使用BiGRU 提取文本特征向量,提出將圖卷積神經網絡GCN 用于對話文本情感識別中,充分考慮參與對話人之間的情感交互,結合兩種上下文信息獲取更好的文本表征,最后用于文本情感分類。得到的實驗結果證明,相較于目前分類方法,BiGRU 結合GCN 模型的方法具有更好的情感分類性能。

1 對話中的圖卷積神經網絡設計

本文思想是:首先,BiGRU 用于提取對話文本的序列上下文特征;然后,將對話語句按順序構造一個有向圖,GCN 通過聚合局部鄰居節點信息,提取說話者級別上下文編碼特征;最后,結合兩個不同的特征向量,對對話文本進行情感分類。

建立說話人之間依賴關系模型的關鍵是說話人的信息,這使得模型能夠理解說話人如何影響其他說話人的情緒狀態。此外,說話人內部或自我依賴有助于理解個體說話人的情感慣性,由于這種慣性,說話人會抵抗外部因素對自身情感產生的影響。并且,目標話語和上下文話語的相對位置決定了以前說過的話如何影響未來話語。

本文中對話情感識別方法的框架大體上劃分為3 部分,如圖1 所示,分別是:①序列上下文編碼器,其作用是提取對話文本的序列上下文信息;②說話人級別上下文編碼器,用于提取對話中與說話者有關的上下文特征;③情感分類器,通過結合兩種上下文特征表示,采用基于相似度的注意力機制獲取最終的語句特征表示,輸入全連接層進行情感分類。

對話情感識別的上下文信息主要有兩種,即序列上下文和說話人級別上下文。在對話過程中,情緒學研究表明,造成情緒波動的因素主要是相互依賴性和自我依賴性,其中相互依賴性指說話人之間產生的情感波動影響,說話者在對話過程中存在感知并吸收對方情緒的傾向,參與對話人的情緒會相互影響;而自我依賴性則指說話者在對話中自身情緒對自己的情感影響,這是一種情感惰性,會導致說話者保持一種情緒。總而言之,這兩種依賴性相互作用、相互干擾,共同影響參與對話人的情緒狀態。因此,結合兩種不同但相關的上下文信息,可以獲取更好的文本上下文表示,從而提高對話情感識別效率。

Fig.1 Model of dialogue emotional analysis network圖1 對話情感分析網絡模型

2 對話文本情感分析網絡模型

假設構造一段對話,統計參與對話的人數為X,表示為e1,e2,…,eX,這X個人在對話中總共說了Y句話,表示為u1,u2,…,uY,ut∈RDY是每段語句的初始特征向量表示,ut對應的說話人是es(ut),s是話語與其對應的說話人索引之間的一個映射。對話文本情感分析的最終目的是預測對話中每個話語對應的情感類別。

2.1 序列上下文編碼器

由于對話本質上是連續的,故對話中話語的上下文信息對于話語的情感分析具備一定的參考價值。GRU 模型[20]是LSTM 模型的一個經典變體,在效果一樣的條件下GRU 模型比標準的LSTM 模型更簡單。BiGRU 的基本思想則是利用兩個GRU 分別處理正向和反向序列,通過將輸出連接到同一個輸出層,以記憶序列上文信息和下文信息,充分提取文本的所有信息。總之,BiGRU 不僅可以記憶上下文信息,而且結構相對簡單。因此,本文使用BiG?RU 提取對話文本信息特征,以獲取對話句子的序列上下文表征,過程如式(1)—式(3)所示。

其中,ut是與上下文無關的初始話語表示,和分別是正向GRU 和負向GRU 的輸出,gt是包含序列上下文信息的話語表示。

兩個單向且方向相反的GRU 構成BiGRU 網絡模型,輸出由兩個不同GRU 的狀態共同決定。BiGRU 的具體結構如圖2 所示。

Fig.2 Sequential context encoder圖2 序列上下文編碼器

2.2 說話人級別上下文編碼器

為了有效獲取對話序列語句中的說話人級別上下文信息,本文構造一個有向圖刻畫對話者之間的情感交互關系,并利用基于空間域的圖卷積神經網絡模型得到包含說話人級別上下文信息的文本表征,說話人級別上下文編碼器具體結構如圖3 所示。

Fig.3 Speaker level context encoder圖3 說話人級別上下文編碼器

有向圖:構造一個有向圖G={V,E,R,W}用于表示對話,V 表示節點集合,E 表示邊集合,每一個話語表示為一個節點vt∈V,t=1,2,…,Y,初始化特征向量表示記為gt;節點vt和節點vs之間的邊記作rts∈E,r∈R 表示邊的關系類型,邊的關系類型取決于說話人類別和話語時間順序兩個方面,即vt和vs分別對應的說話人es(vt)和es(vs),還有節點語句vt和vs的先后順序。

示例1 假設一段對話僅包含兩個說話人e1和e2,且總共有5 句話v1、v2、v3、v4、v5,則整個對話構造出的有向圖如圖4 所示,且所有關系類型如表1 所示。

邊權重wts∈[0,1]且wts∈W,t,s=1,2,…,Y,使用基于文本相似性的注意力模型設置邊的權重,即對于每一個節點,輸入邊的權重全部加起來為1,考慮到每個節點語句之前的m句話vt-1,vt-2,…,vt-m和之后的n句話vt+1,vt+2,…,vt+n,節點vt和節點vs之間邊的權重具體計算如式(4)所示。

Fig.4 Constructed directed graph for example 1圖4 示例1 構造的有向圖

式(4)中,softmax 函數確保了節點vt與節點vt-m,…,vt,…,vt+n之間輸入邊的總權重之和為1。

Table 1 Relation types of sample graphs表1 示例圖的全部關系類型

圖卷積神經網絡模型GCN 通過聚合每個節點的局部鄰居節點特征信息,使用兩步圖卷積操作將與說話人無關的節點特征向量gt轉換為與說話人信息有關的新的特征向量表示ht,計算方法如式(5)和式(6)所示。

其中,σ是一個激活函數,可以設置為ReLU 函數,為變換參數,wts、wtt∈W,表示關系r∈R中節點vt的鄰接指數。式(5)、式(6)有效地聚合圖中各語句節點的局部鄰域說話人信息,并且自連接的邊也確保了自相關特征轉換。

2.3 情感分類器

情感分類器結構如圖5 所示,先將包含序列上下文信息的特征向量gt和與說話人信息相關的特征向量ht連接起來,再通過基于相似度的注意力機制獲取新的對話文本特征表示,最后使用全連接層對話語進行情感分類,得到文本對應的情感類別標簽xt。

如式(7)所示,將兩種上下文特征向量表示gt和ht連接起來。如式(8)、式(9)所示,將連接的文本向量表示采用基于相似度的注意力機制轉換為最終對話文本特征表示。

最后,如式(10)、式(11)所示,將新的語句特征表示輸入到全連接層,softmax 層對文本語句的情感進行多分類,根據式(12),得到最大概率的情感標簽xt。

Fig.5 Emotion classifier圖5 情感分類器

3 實驗

本文算法實驗環境是基于Windows 10 操作系統,硬件為英特爾i5 6200U CPU,采用深度學習框架PyTorch,版本號為1.0,在Python 3 運算環境下進行算法實驗。

3.1 實驗數據集

本文實驗選取的實驗數據集是一個通過爬取大量學習網站的對話練習內容而收集到的英文語料庫dailydialog(http://yanran.li/dailydialog),原始數據包含大約11 318 個對話,選取其中部分語料集翻譯為中文,用于中文對話情感分析研究,節選的中文語料庫包含大約600 個對話,對話平均有10 輪,語句規模大約為6 000 句,語句標注的情感類別有7 種,分別是中立、憤怒、厭惡、恐懼、幸福、悲傷及驚喜。

本文選取的dailydialog 語料庫主要由日常聊天場景中兩個人的多輪對話構成,其中日常對話涉及生活中的多個主題,話題比較豐富,這些對話語句包含極其豐富的情感信息,且基本符合人類的對話方式,適合用于對話文本情感分析研究,dailydialog 語料庫具體示例如圖6 所示。

Fig.6 Examples of dailydialog dataset圖6 dailydialog 數據集示例

3.2 數據預處理

對文本數據進行預處理,一般而言,符號對算法沒有很大意義,為了減少噪聲干擾,首先使用正則表達式過濾掉文本中的無用標點符號,然后采用Python 中的結巴分詞庫對實驗數據集中文文本進行分詞處理,最后基于預訓練的詞向量,使用Doc2vec 工具[21]將文本向量化,獲取文本語句的特征向量表示,得到的輸入句子向量將用于本文模型訓練。

3.3 句子向量維度選擇

為了更好地進行算法實驗,本文對輸入樣本的長度進行分析,假設選取數據集樣本長度的最大值為maxL,那么當樣本長度小于maxL時,樣本需進行填充零向量操作,使樣本長度達到最大值,而當樣本長度大于maxL時,則需舍棄樣本多余部分,截斷過長的樣本。

樣本長度最大值maxL的選取關系到實驗結果的好壞。當maxL設置較大時,樣本數據零向量填充過多,而maxL設置較小時,樣本數據舍棄的信息過多,因此,maxL大小的設置可能對模型性能產生一定影響。本文通過設置不同的maxL,觀察對比maxL的大小對模型性能造成的影響,F1 值隨樣本長度變化情況如圖7 所示,且實驗結果差異如表2 所示。

Fig.7 Effect of maxL on F1圖7 maxL 值大小對F1 值的影響

觀察圖7 和表2,可以發現當maxL設置小于100 時,F1 值相對較低,這是由于樣本數據舍棄的信息過多,當maxL取100 時,F1 值達到最高點,為79.54%,當maxL大于100 時,F1 值均有所降低,模型性能下降,且F1 值在maxL為175 時取得最低值,只有63.66%,因為maxL設置過大時,樣本數據填充的零向量過多,對數據特征造成干擾。

Table 2 Experimental results of different maxL表2 樣本長度對實驗結果的影響

因此,本文模型選取maxL的值為100 最為合適。

3.4 模型訓練

本文實驗使用L2 正則化度量訓練過程中的損失,并采用基于隨機梯度下降的Adam 優化器[22]對模型進行優化。為避免網絡模型訓練過程中出現過擬合現象,采用Dropout 策略,將丟棄率的大小設置為0.5,并結合10 折交叉驗證進行實驗。

3.5 實驗結果與分析

在構造上下文語句的有向圖時,語句節點與其之前和之后的若干個語句節點之間存在構造的邊關系,本文實驗通過改變上下文窗口的大小,發現在dailydialog 數據集上,F1 值的大小隨著上下文窗口的大小而變化,如圖8 所示,窗口設置小于2 時,模型性能表現較差,當窗口設置值大于2 時,性能表現穩步上升,出于對實驗數據集中對話輪數以及計算上的考慮,本文實驗設置窗口大小為5 即可。

Fig.8 Effect of different window sizes on F1圖8 窗口大小對F1 的影響

本文將BiGRU+GCN 與CNN、BiLSTM、BiGRU 等模型進行對比分析,在dailydialog 中文語料庫上的情感分析實驗結果如表3 所示。

Table 3 Experimental results of different models表3 不同模型的實驗結果

觀察各模型實驗結果,可以看出在dailydialog 數據集上,與BiLSTM 模型相比F1 值提高了15.69%,與BiGRU模型相比F1 值提高了14.87%。相比于CNN、BiLSTM 等模型,BiGRU 結合GCN 的混合模型在對話文本情感識別方面的準確率明顯有所提高,且F1 值高達70.61%,整體分類效果表現更佳。

根據表3 可知,與其它模型相比,BiGRU+GCN 模型不僅可以提取文本序列上下文特征,還能夠充分考慮文本對應說話人的情感信息交互,獲取更好的對話文本情感特征,從而在分類效果上表現更佳。在沒有上下文語境的情況下,比如“是的”“好的”等一些簡短語句的情感類別被認為是中性詞,但在實際語境中其情感類別可能不是中性的,而BiGRU+GCN 模型可以避免這種錯誤分類情況,提高對話文本情感分類準確率。

4 結語

本文充分考慮說話人之間的情感交互,利用圖卷積神經網絡GCN 提取與說話者相關的文本特征,再結合BiG?RU 模型提取文本序列特征,將兩者連接起來,以提高對話語句情感分析中的上下文理解能力,有效識別對話文本中的情感類別。實驗結果證明了該模型的有效性,與其它方法相比,該模型在對話情感分析中表現出良好的分類效果。本文將圖卷積神經網絡用于對話文本情感分類,因此只關注實驗數據集中的文本信息,多模態情感識別則有待進一步研究。

猜你喜歡
分類文本情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 成人精品在线观看| 一本大道香蕉中文日本不卡高清二区| 天天综合天天综合| 亚洲精品卡2卡3卡4卡5卡区| 成人在线综合| 女人天堂av免费| 久久精品国产一区二区小说| 欧美在线导航| 99精品福利视频| 精品成人一区二区三区电影 | 91久久国产综合精品| 夜色爽爽影院18禁妓女影院| 一本一道波多野结衣一区二区| 97久久人人超碰国产精品| 亚洲免费福利视频| 亚洲欧州色色免费AV| 国产导航在线| 国产视频久久久久| 成人在线不卡| 亚洲人成成无码网WWW| 久久精品这里只有精99品| 美女啪啪无遮挡| 欧美a在线看| 又爽又黄又无遮挡网站| 真人高潮娇喘嗯啊在线观看| 亚洲视频三级| 天天干天天色综合网| 高清亚洲欧美在线看| 欧美高清国产| 国产SUV精品一区二区6| 蜜桃视频一区二区| 麻豆a级片| 国产乱肥老妇精品视频| 亚洲综合精品第一页| 亚洲天堂在线免费| 日韩毛片免费| 日韩精品亚洲人旧成在线| 成人综合网址| 国产综合另类小说色区色噜噜| 亚洲妓女综合网995久久| 中国精品久久| 婷婷中文在线| 欧美一级99在线观看国产| 97国产在线观看| 99精品在线看| 在线va视频| 久久99国产精品成人欧美| 青青青伊人色综合久久| 在线观看亚洲成人| 国产jizzjizz视频| 一区二区午夜| 婷婷综合色| 国产成人一区在线播放| 免费A∨中文乱码专区| 国产av剧情无码精品色午夜| 日韩欧美中文字幕在线精品| 91麻豆国产精品91久久久| 九九线精品视频在线观看| 亚洲日韩在线满18点击进入| 伊人大杳蕉中文无码| 亚洲欧美一级一级a| 天天综合网色中文字幕| 国产视频一区二区在线观看| 国产99精品视频| 久久精品无码一区二区日韩免费| 99精品国产自在现线观看| 黄色不卡视频| 国产精品亚洲天堂| 91精品国产情侣高潮露脸| 91在线精品免费免费播放| 婷婷午夜天| 日韩AV无码一区| 女人天堂av免费| 欧美丝袜高跟鞋一区二区| 真人免费一级毛片一区二区 | 国产男女免费视频| 欧美色综合久久| 97人人做人人爽香蕉精品| AⅤ色综合久久天堂AV色综合| 亚洲成人网在线观看| 欧美在线综合视频| 热这里只有精品国产热门精品|