





摘" 要:在對話系統中,對話情感識別旨在預測對話中每個語句的情感標簽,這個任務受多種因素的影響,如對話的主題、情感標簽信息等。為了解決上述問題,提出了一個新的主題標簽感知的圖網絡(TLGN)框架。該模型首先利用主題模型提取與情感相關的語義主題分布和學習標簽指導的文本表示。然后,融合兩種不同粒度的表示,作為文本的語義輸入,輸入到分類模型中,進行對話語句的情感預測。最后,在四個公開數據集上的實驗結果表明,該模型的方法優于基準方法。
關鍵詞:主題模型;對話系統;情感分類;標簽指導
中圖分類號:TP391" 文獻標識碼:A" 文章編號:2096-4706(2024)11-0016-06
Dialogue Emotional Recognition Based on Comparative Topic Model and Label Guidance
ZHU Ling
(Chongqing Vocational Institute of Safety and Technology, Chongqing" 404020, China)
Abstract: In a dialogue system, dialogue emotion recognition aims to predict the emotional labels for each statement in a conversation. This task is influenced by various factors such as the topic of the dialogue, emotional label information and so on. To address this issue, a new framework called Topic-aware Label Graph Network (TLGN) has been proposed. This model uses topic model to extract semantic topic distributions related to emotions and learns label-guided text representations firstly. Then, it fuses two representations of different granularity, used as semantic input to the text and input into the classification model for emotional prediction of dialogue statements. Finally, experimental results on four publicly available datasets show that the model method outperforms the benchmark methods.
Keywords: topic model; dialogue system; emotional classification; label guidance
0" 引" 言
情感識別一直是自然語言處理中一個重要而有挑戰性的研究課題。而對話情感識別作為人們日常生活的主要交流方式之一,回話里傳遞著說話者的需求、情感等,因此使用人工智能去理解、識別對話是非常有必要的。近幾年,隨著智能對話機器人的引入,對話情感識別(ERC)也持續得到各大學者的關注,簡而言之,ERC就是識別對話中每句話的情感,在客戶系統[1]、社交媒體分析[2]、心理健康輔助[3]等方面都有應用。
對話系統是一個多輪交互的過程,在每個對話階段中,情感的表達可能會受到上下文的影響。因此,準確理解對話中的上下文信息,包括對話歷史和當前對話回合的內容,是對話情感識別的關鍵挑戰之一[4,5]。同時情感表達往往不僅僅依賴于直接表述的詞語或短語,還會涉及隱含信息、語調、語速、肢體語言等非語言性的特征。理解這些隱含信息和非語言性的特征對于準確識別對話情感至關重要,但也是一個難點。情感是一個復雜和主觀的概念,不同的人在不同的語境下可能對同一情感有不同的表達方式。因此,對話情感識別需要考慮到情感的多樣性和主觀性,既要能夠捕捉情感的普遍模式,也要適應個體差異和特殊情況。
早期基于深度學習的對話情感識別模型主要是基于循環神經網絡(Recurrent Neural Networks, RNN [4,5])模型。這些工作將對話里的每句話語視為一個整體,將一個對話視為一個上下文序列,充分利用了對話中語境的信息,并通過注意力機制去關注對情感有貢獻的關鍵句子,以提高對話情感的分類性能。隨著圖神經網絡的興起,引入了結構信息增強文本的表示,具體而言,將每個話語視為一個節點,一個對話視為一個圖,通過圖卷積網絡去學習文本的結構表示。
雖然這些工作取得了顯著的成效,但是卻沒有考慮對話的主題信息,不同的主題氛圍帶給人的情感傾向會不一樣,比如“春節”和“葬禮”。除此之外,沒有考慮到說話者的情感穩定性,對于大多數人來說,在一段對話里的情感不會浮動太大。最后,由于有些情感標簽描述存在相似性,如“憤怒”和“厭惡”,因此,生成一個情感標簽描述去指導話語表示有助于提高識別的準確性。
針對以上不足,構建了一個主題模型和標簽指導的多粒度對話情感識別模型,利用主題模型分析對話的上下文語義,以及標簽指導表示學習語句含義的表示,并將二者表示拼接后輸入到分類模型中,以提升對話情感識別的效果。主題模型從全局觀點分析對話主題,表示模塊編碼語句語義,分類器組合二者進行情感判斷。在四個公開的數據集上進行的實驗表明,與只使用單一模塊相比,多模塊融合框架具有顯著優勢,提高了F1。這表明了主題表示和標簽指導的表示學習融合能提升對話理解力,主要貢獻在于:
1)構建了基于主題模型和標簽指導的多粒度對話情感識別模型。
2)設計了新的對話情感識別框架。
3)在四個公開的數據集上進行的實驗驗證了其有效性。
1" 方法介紹
1.1" 問題定義
給定一個由N個語句組成的對話U,U = {u1, u2, …, uN},其中N表示語句的數量。對于每個語句,原始輸入是一個單詞序列,即ui={wi,1, wi,2, …, wi,n},其中n表示語句的長度。 表示對話U對應的情感標簽序列,其中" 表示語句ui的情感標簽,γs表示情感標簽集。模型的目標是根據對話的上下文信息及說話者信息從預先定義的情緒標簽集合中預測每個語句的情緒標簽,模型圖如圖1所示。
1.2" 對話語句編碼層
在這一節里,通過對比主題模型提取了每個對話的主題表示,通過RoBERTa模型得到了上下文無關的句子級別的特征向量表示,通過標簽指導模型為每個情感標簽生成了描述,并得到了情感標簽的特征表示。
1.2.1" 對比主題模型
這里通過對數據集的統計,發現同一對話內的情感氛圍會盡可能的一致(統計一個數據表出來),比如說談到春節這個主題,大多數的情感是偏向正向的,因此這里把主題建模進來,更好地學習每個對話的表示。傳統的神經主題模型在訓練過程中使用了大量無標簽的文本數據,但其效果往往受到訓練樣本質量和數量的限制。對比學習可以通過從無標簽數據中學習到的相似性信息來提高模型的性能。具體而言,Nguyen等人[6]提出了一種改進的神經主題模型訓練框架,其中使用對比學習來學習用于話題建模的表示。該方法通過將同一篇文檔中的不同片段進行對比,使得模型能夠捕捉到文檔的多樣性和豐富的話題信息。通過最大化相似片段的相似性,同時最小化不同片段的相似性,模型可以更好地區分文檔中的話題,并生成更準確的主題表示,這里得到的是每個對話的主題表示T。
1.2.2" RoBERTa模型
與之前的基準方法類似[7],TLGN(Topic-aware Label Graph Network)繼續使用RoBERTa-Large來提取與對話上下文無關的會話級別的特征向量表示。假設一個話語表示ui = {wi1,wi2,…,win},首先,在話語開始處附加一個特殊的標記CLS,以創建模型的輸入序列{CLS,wi1,wi2,…,win},然后,將附加了CLS特殊標記的語句送入基于RoBERTa的預訓練語言模型,使用CLS在最后一層的池嵌入作為句子ui的特征表示,記為hi。
1.2.3" 標簽指導的模型
對于標簽指導模型,繼續沿用Liu等人的方法[8],首先,把訓練集分為n個標簽文檔,這里的n代表此類數據所具有的情感標簽總數,然后,計算每個詞的TF-IDF值,按照這個值從大到小排序,選取前500個詞作為這類情感標簽的描述,最后,通過GloVe模型得到每類情感標簽300維向量表示。
1.3" 信息融合層
對于上節得到的三種特征表示,嘗試了三種融合方式,分別為拼接、相加、相乘。發現拼接的效果是最好的,這也說明這三種特征是不同的。具體而言,先將RoBERTa的話語表示拼接對應的主題表示,接著,將話語表示映射到標簽的維度,再與標簽的特征表示相乘得到基于情感標簽的特征向量表示,最后,將其拼接到話語表示后面。
1.4" DAG圖傳播層
1.4.1" 構建有向無環圖
與之前的工作類似[9],為每個對話構造一個有向無環圖,具體而言,對話中每個話語是一個節點,按照對話進行的時間先后順序進行連邊,而且這個邊是有方向的,上一句是箭尾,緊挨著的下一句話是箭頭。同時,同一說話者的話語也要按照時間先后順序連接起來,從而獲取話語間的結構表示。
假設DAG圖用G = (V,E,R)表示,其中圖的節點是會話中的話語,即V = {xi,…,xn},r ∈ R表示邊的關系類型。邊的關系類型集合R = {0,1},包含兩種關系類型:1表示對話里面是同一說話人,0則表示不是同一說話人。邊(i,j,ri, j) ∈ E表示從句子xi傳播到句子xj的信息。在DAG圖中,首先,由于DAG圖是有向無環圖,所以信息傳遞是有方向的,例如,第一個話語接收不到第二個話語的信息,也就是不能反向傳遞,只能是第二個話語接收第一話語的信息,也就是向前傳遞信息;其次,在一個對話里面會出現至少兩位不同的說話者,對于同一說話者,也沿用時間先后順序進行傳遞,也就是同一說話者的前一句話語和后一句話語之間有連邊,且這個連邊也是有方向的,從前一句開始到后一句結束,不能跨級。這樣構圖既獲取了同一說話者之間的信息,又獲取了小范圍內的局部信息。
1.4.2" DAG傳播層
與之前的工作類似[9],對于DAG-ERC的每一層,由于這里的信息流是隨著時間進行流動的,因此對話里面所有話語的隱藏狀態需要從第一個話語到最后一個話語重復循環計算。對于每個話語ui,使用ui在(l-1)層的隱藏狀態和ui在l層的前驅uj的隱藏狀態來計算ui與其前驅uj之間第l層的注意力權重 :
(1)
其中, 表示可訓練參數, 表示拼接操作。使用hi來初始化第0層每句話的表示 。
除此之外,還引入了關系感知特征轉換來建模同一說話者和不同說話者之間話語連接的差異性:
(2)
其中, 表示關系轉換的可訓練參數,去學習不同邊類型的特征。
得到每個句子ui所需要的聚合信息之后,應用GRU單元來聚合獲得ui在第l層的節點特征表示 :
(3)
與傳統GRU不同的是,將" 視作隱藏狀態,使用" 來控制" 的傳播,此時重點關注的是每個話語節點上一層的信息,稱之為節點特征表示。
類似地[9],逆轉" 和" 的位置,使用" 來控制" 的傳播,此時更多關注的是每個節點的前驅的信息流動,因此將其稱之為上下文特征表示 :
(4)
最后,將每個節點ui每一層的兩種信息通過加和和拼接進行融合,得到最后每個話語節點的最后表示hi:
(5)
(6)
1.5" 模型訓練
對于模型訓練的損失,這里計算了兩個損失,即傳統用于文本分類的交叉熵損失,還有一個用于標簽不平衡的對比學習損失。通過這兩個損失來對訓練模型進行約束。傳統的交叉熵損失函數主要用于評估分類模型預測結果的準確性,但它忽略了樣本標簽之間的區分度以及標簽之間的關聯關系。而分析數據集發現,有些情感標簽之間比較相似,例如,“憤怒”和“厭惡”。但傳統的交叉熵損失函數沒有考慮這些關系,僅僅將每個標簽視為相互獨立的,這可能導致模型無法充分利用標簽之間的信息,從而影響模型的性能。因此,為了充分挖掘標簽之間的信息,采用了監督對比學習(SCL)[4]來緩解類似情感標簽分類困難的問題,它通過比較同類樣本和不同類樣本之間的差異來學習特征表示。
監督對比學習的損失函數通常包括兩個主要部分:正樣本對比損失和負樣本對比損失。正樣本對比損失用于比較同一類別樣本之間的相似性,它通過將同類別的樣本嵌入空間拉近來鼓勵模型學習到更具區分度的特征表示。負樣本對比損失用于比較不同類別的樣本之間的差異,它通過將不同類別的樣本嵌入空間推開來鼓勵模型學習到更具區分度的特征表示。通過結合正樣本對比和負樣本對比損失,監督對比學習能夠使得模型學習到更具區分度的特征表示,從而提升模型在分類、檢索等任務上的性能。
2" 實驗及結果分析
2.1" 實施細節
對于TLGN模型,使用RoBERTa預訓練提取上下文的話語表示,維度為1 024,提取的主題表示為300維,情感標簽表示也為300維,使用Adam作為優化器,學習率為0.003。L2正則化系數為10×5,batch size為16。
2.2" 數據集
TLGN模型驗證是在四個公開數據集上進行的,這四個公開數據集分別是IEMOCAP [10]、MELD [11]、DailyDialog [12]和EmoryNLP [13],有關數據集的統計信息顯示在表1中。
與基準模型DAG-ERC一樣,僅僅使用這四個數據集的文本數據進行實驗,對于評估指標,遵循以前工作[7,9],對于DailyDialog數據集選擇微平均F1,排除DailyDialog的多數類別(中性),對于其他數據集采用加權平均F1。
2.3" 實驗對比模型
將TLGN模型與幾個最先進的基線進行比較,如下所示:
1)DialogueRNN [14]。它引入了遞歸神經網絡(RNN)來對對話歷史進行建模。通過利用遞歸結構,它能夠捕捉到上下文的長期依賴關系,提高情感識別的準確性。
2)DialogueCRN [15]。它提出了一種基于文本和情感的上下文推理的網絡模型,該模型通過考慮前文、后文和當前文本的相互關系,可以在理解當前文本表達的同時,將其上下文信息結合起來進行情感分類。
3)COSMIC [5]。它提出了一種結合常識知識的方法,以幫助在對話中進行情感識別。通過利用廣泛的常識知識,模型可以更好地理解對話中的情感表達,提高情感識別的準確性。
4)DialogXL [16]。它將XLNet模型應用于多輪對話情感識別任務。XLNet是一種基于自回歸和自編碼的轉換器模型,具有強大的語言建模能力和上下文理解能力。
5)DialogurGCN [17]。為了更好地利用對話結構和歷史信息,構建了一個基于圖的對話建模方法。在該方法中,每個對話參與者和每個話語被表示為一個節點,并利用圖的方式來表示它們之間的相互作用。這種基于圖的對話建模方法可以更好地捕捉對話中的語言和上下文依賴關系。
6)RGAT [18]。它提出了一種新的神經網絡模型,即關系感知的圖注意力網絡(RGA),用于情感識別任務。該模型采用圖的結構將對話中的語言表示為節點,并使用注意力機制捕捉不同節點之間的互動關系。
7)RoBERTa [19]。通過從不同的語料庫中收集大量的未標記文本數據,RoBERTa模型得到了更廣泛的上下文信息,從而提升了模型的自然語言理解能力。
8)DAGNN [7]。它提出了一種新的神經網絡結構——有向無環圖(Directed Acyclic Graph, DAG)。這種結構通過有向邊連接節點,可以靈活地捕捉節點之間的依賴關系。相比于不具有依賴關系的節點,DAG結構可以更準確地表示復雜的關系網絡。
9)DAG-ERC [9]。它提出了一種使用有向無環圖(DAG)結構來表示對話情感的模型。DAG可以更好地捕捉對話中節點之間的依賴關系,從而更準確地分析情感變化。此外,該模型還引入了循環DAG結構,通過隱式地處理節點序列,更好地表示對話情感的動態演變。
2.4" 結果對比和分析
2.4.1" 總體性能實驗
在四個公開的數據集上進行實驗,表2報告了TLGN與所有比較方法對比的總體結果。其中最好的結果用粗體標出,第二好的結果用下劃線標出。從表2可以看出,DialogueRNN在IEMOCAP和MELD上取得了最差的結果,說明單純對話語進行建模而不考慮時間流的上下文關系是不利于提高多輪對話情感分類識別任務性能的,COSMIC模型之所以實現了更好的性能,在于引入了外部知識。DialogXL模型比前面兩個模型實現的性能更有提升,在于使用了預訓練模型可以更好地獲得基于上下文的話語表示。DAGNN模型首次在多輪對話中引入有向無環圖,更好地引入了文本的結構信息,因此獲得了不錯的性能。DAG-ERC模型改進了DAGNN方法,引入了循環DAG結構,通過隱式地處理節點序列,更好地表示對話情感的動態演變。
與上述所有基線模型相比,提出的方法TLGN在IEMOCAP和EmoryNLP實現了最佳效果,在DailyDialog和MELD實現了次佳效果。主要原因是TLGN模型引入文本的多個特征,第一,對比主題模型可以豐富話語的主題表示;第二,標簽指導模型可以更好地區別相似的標簽。將兩種特征拼接到現有的話語表示里面,可以更好地實現分類效果。
2.4.2" 消融實驗
在本小節中,進行了一項消融實驗,驗證提出的組件對整體模型的影響。將完整模型TLGN與其兩個變體進行比較,一是TLGN(w/o Topic),即從完整模型中移除對比主題模塊;二是TLGN(w/o Label-Guild),即從完整模型中移除標簽指導的模塊。
從表3中,可以觀察到從主題模型和標簽指導的多粒度對話情感識別模型(即TLGN (w/o Topic))刪除對比主題模型會導致所有數據集的分類性能下降,它驗證了多輪對話中引入主題表示的重要性。同樣的,TLGN模型刪除標簽指導的模型,所有數據集的性能也會下降,說明標簽指導的模型得到的特征表示是不重復的,對分類是重要的。
2.4.3" 參數敏感實驗
為了探究模型訓練時設置c1(監督對比損失的比例)對整個模型F1分數的影響,我們在MELD、IEMOCAP這兩個數據集上進行了參數敏感性實驗,其他兩個數據集也有同樣的傾向。這里取c1的值為0.1、0.2、0.3、0.4、0.5、0.6,也就是在整個模型訓練損失中,監督對比所占的比例,實驗結果如圖2所示。如果將監督對比損失的比例設置得過低,例如設置為0.1或接近0,模型將會更加側重于交叉熵損失,這可能導致模型對于樣本的區分度較低,特征表示相對較弱,從而影響模型的準確性和分類性能;如果將監督對比損失的比例設置得過高,例如接近0.6或等于1,模型將會更加側重于監督對比損失,這可能導致模型過于關注樣本之間的相似性,而忽略了類別之間的區分度,從而降低模型的準確性和分類性能。只有合適的比例設置才能使監督對比損失和交叉熵損失在訓練過程中起到協同作用。較合理的比例可能會增強模型對于樣本之間關系的學習,提高特征的區分度,這可以幫助模型更好地區分不同的對話情感類別,從而提高模型的準確性。
3" 結" 論
在這項研究中,提出了一種新型的對話情感識別方法,通過融合主題模型和標簽指導表示,實現了對話文本不同粒度的語義建模。首先,主題模型從全局的視角分析文本的上下文主題信息。然后,標簽指導表示學習語句的具體語義。最后,將兩種互補的表示拼接后輸入到分類模型,進行情感判斷。在四個公開的數據集上的實驗表明,與僅使用單一模塊相比,TLGN模型取得了顯著提升,增強了對話的理解力。
TLGN模型為從全新的角度改進對話情感識別提供了啟發。主題模型為對話提供了上下文支撐,表示了編碼語義細節,兩者的配合超越了各自的局限。此外,TLGN模型框架的模塊化設計也方便今后的改進和擴展。一方面,主題模型和表示學習本身還在不斷發展,可期待其帶來的進一步優化;另一方面,分類模型也可換用更強大的結構。
盡管取得了一定的進展,對話情感識別任務仍面臨許多挑戰。今后工作可考慮融入更多情感相關的外部知識,以及多模態的聲音和視覺信息。還可探索端到端的訓練方式,實現不同模塊的聯合優化。相信隨著表示學習和對話系統的進步,基于主題和語義表示的對話理解技術必將取得新的突破,使得人機交互更加智能化。
參考文獻:
[1] FENG S T,LUBIS N,GEISHAUSER C,et al. EmoWOZ: A Large-scale Corpus and Labelling Scheme for Emotion Recognition in Task-oriented Dialogue Systems [J/OL].arXiv:2109.04919 [cs.CL].(2021-09-10).https://arxiv.org/abs/2109.04919.
[2] CHOWANDA A,SUTOYO R,TANACHUTIWAT S. Exploring Text-based Emotions Recognition Machine Learning Techniques on Social Media Conversation [J].Procedia Computer Science,2021,179(1):821-828.
[3] TU G,WEN J T,LIU C,et al. Context-and Sentiment-aware Networks for Emotion Recognition in Conversation [J].IEEE Transactions on Artificial Intelligence,2022,3(5):699-708.
[4] KHOSLA P,TETERWAK P,WANG C,et al. Supervised Contrastive Learning [J/OL].arXiv:2004.11362 [cs.LG].(2020-04-23).https://arxiv.org/abs/2004.11362v5.
[5] GHOSAL D,MAJUMDER N,GELBUKH A,et al. COSMIC: CommonSense Knowledge for Emotion Identification in Conversations [J/OL].arXiv:2010.02795 [cs.CL].(2020-10-06).https://arxiv.org/abs/2010.02795.
[6] NGUYEN T,LUU A T. Contrastive Learning for Neural Topic Model [J/OL].arXiv:2110.12764 [cs.CL].(2021-10-25).https://arxiv.org/abs/2110.12764v1.
[7] THOST V,CHEN J. Directed Acyclic Graph Neural Networks [J/OL].arXiv:2101.07965 [cs.LG].(2021-01-20).https://arxiv.org/abs/2101.07965.
[8] LIU X N,WANG S,ZHANG X,et al. Label-guided Learning for Text Classification [J/OL].arXiv:2002.10772 [cs.CL].(2020-02-25).https://arxiv.org/abs/2002.10772.
[9] SHEN W Z,WU S Y,YANG Y Y,et al. Directed Acyclic Graph Network for Conversational Emotion Recognition [J/OL].arXiv:2105.12907 [cs.CL].(2021-05-27).https://arxiv.org/abs/2105.12907.
[10] BUSSO C,BULUT M,LEE C-C,et al. IEMOCAP: Interactive Emotional Dyadic Motion Capture Database [J].Language Resources and Evaluation,2008,42:335-359.
[11] PORIA S,HAZARIKA D,MAJUMDER N,et al. A Multimodal Multi-party Dataset for Emotion Recognition in Conversations [J/OL].arXiv:1810.02508 [cs.CL].(2018-10-05).https://arxiv.org/abs/1810.02508?context=cs.CL.
[12] LI Y R,SU H,SHEN X Y,et al. DailyDialog: A Manually Labelled Multi-turn Dialogue Dataset [J/OL].arXiv:1710.03957 [cs.CL].(2017-10-11).https://arxiv.org/abs/1710.03957v1.
[13] ZAHIRI S M,CHOI J D. Emotion Detection on TV Show Transcripts with Sequence-based Convolutional Neural Networks [J/OL].arXiv:1708.04299 [cs.CL].(2017-08-14).https://arxiv.org/abs/1708.04299.
[14] MAJUMDER N,PORIA S,HAZARIKA D,et al. DialogueRNN: An Attentive RNN for Emotion Detection in Conversations [J/OL].arXiv:1811.00405 [cs.CL].(2018-11-01).https://arxiv.org/abs/1811.00405v4.
[15] HU D,WEI L W,HUAI X Y. DialogueCRN: Contextual Reasoning Networks for Emotion Recognition in Conversations [J/OL].arXiv:2106.01978 [cs.CL].(2021-06-03).https://arxiv.org/abs/2106.01978v1.
[16] SHEN W Z,CHEN J Q,QUAN X J,et al. DialogXL: All-in-one XLNet for Multi-party Conversation Emotion Recognition [J/OL].arXiv:2012.08695 [cs.CL].(2020-12-16).https://arxiv.org/abs/2012.08695.
[17] GHOSAL D,MAJUMDER N,PORIA S,et al. DialogueGCN: A Graph Convolutional Neural Network for Emotion Recognition in Conversation [J/OL].arXiv:1908.11540 [cs.CL].(2019-08-30).https://arxiv.org/abs/1908.11540.
[18] ISHIWATARI T,YASUDA Y,MIYAZAKI T,et al. Relation-aware Graph Attention Networks with Relational Position Encodings for Emotion Recognition in Conversations [C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP).Stroudsburg:ACL,2020:7360-7370.
[19] LIU Y H,OTT M,GOYAL N,et al. RoBERTa: A Robustly Optimized BERT Pretraining Approach [J/OL].arXiv:1907.11692 [cs.CL].(2019-07-26).https://arxiv.org/abs/1907.11692.
作者簡介:朱玲(1990—),女,漢族,重慶人,助教,碩士,研究方向:人工智能自然語言處理。
收稿日期:2023-11-07
基金項目:2022年重慶安全技術職業學院科學技術研究項目(AQJS22-09)