














摘 要:針對未充分利用模態(tài)表征能力的差異和說話者情緒線索的問題,提出了一種基于知識增強的跨模態(tài)融合網(wǎng)絡(luò)模型。該模型設(shè)計了外部知識增強的跨模態(tài)模塊,將較弱模態(tài)特征與多層次文本和外部知識逐層融合嵌入到多頭注意力層中,充分挖掘較弱模態(tài)中的有效信息,實現(xiàn)模態(tài)間的特征互補和一致性。此外,模型還設(shè)計了基于有向圖的情緒線索增強模塊,利用基于說話者不同情緒線索的外部知識來增強融合特征,并構(gòu)建上下文信息有向圖,深入挖掘并利用說話者的情緒線索。實驗結(jié)果表明,該模型在兩個基準(zhǔn)數(shù)據(jù)集中有效利用了模態(tài)表征能力的差異和說話者情緒線索,情緒識別效果顯著優(yōu)于現(xiàn)有方法,驗證了模型的可行性與有效性。
關(guān)鍵詞:對話情緒識別;外部知識;數(shù)據(jù)增強;Transformer;多模態(tài)交互
中圖分類號:TP391"" 文獻標(biāo)志碼:A""" 文章編號:1001-3695(2025)04-013-1065-08
doi: 10.19734/j.issn.1001-3695.2024.08.0322
KCF: knowledge-enhanced cross-modal fusion network foremotion recognition in conversation
Gan Xinyi1, Huang Xianying1, Zou Shihao2, Shen Xudong1
(1.College of Computer Science amp; Engineering, Chongqing University of Technology, Chongqing 400054, China; 2. School of Computer Science amp; Technology, Huazhong University of Science amp; Technology, Wuhan 430074, China)
Abstract:To address the underutilization of differences in modal representation capabilities and speaker emotional cues, this paper proposed a knowledge-enhanced cross-modal fusion network model. This model incorporated a cross-modal module enhanced by external knowledge, which systematically integrated weaker modal features with multi-level text and external know-ledge, embedding them into the multi-head attention layer. This approach fully extracted valuable information from the weaker modalities, ensuring feature complementarity and consistency across modalities. Additionally, the model introduced an emotion clue enhancement module based on a directed graph, which leveraged external knowledge linked to the speaker’s emotional cues to strengthen the fused features. This module also constructed a directed graph to capture contextual information, allowing for a deeper exploration and utilization of the speaker’s emotional states. Experimental results on two benchmark datasets de-monstrate that the model effectively harnesses both modal representation differences and speaker emotional cues, achieving significantly improved emotion recognition performance compared to existing methods, thereby validating the model’s feasibility and effectiveness.
Key words:emotion recognition in conversation; external knowledge; data augmentation; Transformer; multi-modality interaction
0 引言
對話情緒識別(emotion recognition in conversation,ERC)是對話系統(tǒng)領(lǐng)域的重要研究方向,在人工智能研究中占據(jù)關(guān)鍵地位。ERC通過分析說話者的語句、聲調(diào)、表情等信息,識別其情緒,幫助對話系統(tǒng)更深入地理解對話的內(nèi)容和目的,從而提升在人機交互[1]中的用戶滿意度和體驗感。因此,ERC在社交媒體、客戶服務(wù)、心理健康等領(lǐng)域具有廣泛的應(yīng)用,對人機交互技術(shù)的發(fā)展起到了極大的推動作用。
在ERC研究的早期階段,情緒識別主要集中于文本模態(tài)。然而,人類表達情緒的方式遠不止一種,還包括語音聲調(diào)和面部表情等多種模態(tài)。在此背景下,多模態(tài)ERC應(yīng)運而生。通過綜合利用語音、圖像、文本等多源信息,更加準(zhǔn)確全面地識別情緒,大幅提升了對話情緒識別的精度和魯棒性。
在多模態(tài)ERC中,跨模態(tài)融合成為重要的研究方向。盡管以往的研究已取得顯著進展[2,3],但在實際應(yīng)用中仍存在一些不足。在多模態(tài)融合過程中,一些研究雖已經(jīng)考慮到了模態(tài)間的關(guān)系,但往往未充分考慮模態(tài)的表征能力差異,通常將所有模態(tài)視為同等重要[4]。這種處理方式可能會忽略表征能力較弱的模態(tài)中潛藏的有效信息,導(dǎo)致這些模態(tài)的有效利用不足,從而影響整體情緒識別的準(zhǔn)確性。此外,文獻[5]也指出,不同模態(tài)的情緒信息往往存在不一致。因此,簡單地將所有模態(tài)視為同等重要的做法會限制模型的性能,難以減少干擾并深入挖掘表征能力較弱模態(tài)中的有效信息。此外,在多模態(tài)ERC中,說話者在對話過程中發(fā)揮著關(guān)鍵作用。目前的研究未充分利用說話者的情緒線索[6],尤其是說話者自身和他人發(fā)言對情緒狀態(tài)的影響,如圖1所示,說話者所說話語的情緒狀態(tài)會受到自身和他人情緒狀態(tài)的影響。同時,現(xiàn)有模型在上下文建模中往往忽視了情緒線索的連貫性,導(dǎo)致情緒特征提取不夠全面和準(zhǔn)確。這種處理方式可能會降低情緒預(yù)測的準(zhǔn)確性,未能有效捕捉和增強情緒線索中的關(guān)鍵信息。
針對上述問題,提出了基于知識增強的跨模態(tài)融合網(wǎng)絡(luò)的對話情緒識別模型(knowledge-enhanced cross-modal fusion network for emotion recognition in conversation,KCF)。該模型為了更有效地捕捉和增強情緒線索中的關(guān)鍵信息,并挖掘表征能力較弱模態(tài)中的有效信息,設(shè)計基于外部知識增強的跨模態(tài)融合模塊。引入COMET[7]從文本中提取外部知識,并將多模態(tài)信息融合嵌入到多頭注意力層中,通過跨模態(tài)注意力機制,潛在地將較弱模態(tài)特征依次與多層次的文本特征和外部知識特征進行融合,以充分挖掘模態(tài)中的有效信息,并有助于減少跨模態(tài)融合過程的干擾,實現(xiàn)模態(tài)之間的特征互補和一致性,獲得更優(yōu)質(zhì)的多模態(tài)融合特征;為了充分利用說話者情緒線索的動態(tài)變化,并考慮外部知識對說話者所表達話語的影響,設(shè)計了基于有向圖的情緒線索增強模塊,將說話者的情緒線索細分為說話者自身的情緒線索和說話者之間的情緒線索,并對這兩類線索分別增強融合特征。通過構(gòu)建基于情緒線索的上下文信息的有向圖結(jié)構(gòu),結(jié)合多頭自注意力機制,深入挖掘說話者的相關(guān)信息,以準(zhǔn)確地捕捉說話者當(dāng)前話語的情緒狀態(tài)。
簡而言之,本文的主要貢獻包括:a)在多模態(tài)融合過程中考慮到各模態(tài)的表征能力差異,設(shè)計了外部知識增強的跨模態(tài)融合模塊,實現(xiàn)了對較弱模態(tài)特征的深入挖掘,減少了多模態(tài)融合中的干擾,使得模態(tài)之間特征互補并保持一致性。b)創(chuàng)新性地設(shè)計了基于有向圖的情緒線索增強模塊來解決沒有充分考慮說話者的情緒線索,忽視了情緒線索的轉(zhuǎn)移和交互,以及它的連貫性的問題。c)提出了一種新的對話情緒識別模型KCF。KCF采用知識增強的跨模態(tài)融合網(wǎng)絡(luò)方法,能夠更好地對說話者所說的話語進行情緒標(biāo)簽的預(yù)測,進一步提高多模態(tài)對話情緒識別的準(zhǔn)確性。d)在兩個公共基準(zhǔn)多模態(tài)數(shù)據(jù)集(IEMOCAP、MELD)上進行了大量的實驗。結(jié)果表明本文KCF比所有SOTA基線模型更具有效性和優(yōu)越性。
1 相關(guān)工作
對話情緒識別是一種人工智能技術(shù),旨在根據(jù)結(jié)合多源信息(文本、語音、視頻等)來識別話語的情緒,在近幾年受到廣泛的關(guān)注和研究[8,9] ?,F(xiàn)有對ERC的研究主要包括基于上下文信息依賴、基于多模態(tài)融合和基于外部知識增強三個研究方面:
a)基于上下文信息依賴:為捕捉和理解對話中的情緒動態(tài)變化,Poria等人[10]提出BC-LSTM模型,利用LSTM網(wǎng)絡(luò)提取每個話語的上下文語義特征。為了進一步解決循環(huán)神經(jīng)網(wǎng)絡(luò)在處理語境信息中的不足,DialogueGCN[11]通過建模說話者的自我依賴關(guān)系和說話者之間的依賴關(guān)系來處理上下文。然而,圖神經(jīng)網(wǎng)絡(luò)未考慮到說話者的順序信息。為此,Shen等人[12]設(shè)計了有向無環(huán)神經(jīng)網(wǎng)絡(luò)(directed acyclic graph-based emotion recognition in conversation,DAG-ERC),更好地編碼對話中的內(nèi)在結(jié)構(gòu),從而有效地捕捉和建模每個說話者的信息。盡管DAG-ERC模型在建模順序信息上有所改進,未來的研究仍需要進一步結(jié)合情感的動態(tài)變化,特別是通過分析說話者的情緒線索來更全面地捕捉對話情感的波動。
b)基于多模態(tài)融合依賴:在多模態(tài)融合中,為了有效利用多模態(tài)和長距離上下文信息,MMGCN[2]構(gòu)建基于模態(tài)內(nèi)和模態(tài)間對話的圖,從而增強了模態(tài)間的依賴性和說話者之間的關(guān)系。然而,這種方法在模態(tài)間的語境理解上存在局限性。因此,MM-DFN[3]通過捕捉不同語義空間中的動態(tài)變化,減少冗余信息并增強模態(tài)間的互補性。GMGCN[13]充分考慮說話者情緒特征利用的問題,使模型學(xué)習(xí)到更合理的話語特征。此外,Li等人[14]提出了聯(lián)合模態(tài)融合和圖對比學(xué)習(xí)的多模態(tài)情緒識別模型(joint learning of contextualized representations for emotion understanding in conversations,JOYFUL),實現(xiàn)了全局上下文與單模態(tài)特征的深度交互。盡管已有研究在多模態(tài)融合和情感識別上取得了顯著進展,但在模態(tài)間的語境理解上仍顯不足。尤其是在有效挖掘較弱模態(tài)信息、減少特征差異方面,這可能影響模型在復(fù)雜情感狀態(tài)識別中的性能。
c)基于外部知識增強:外部知識可以為情緒識別模型提供合理的額外信息,奠定了情緒線索的基礎(chǔ)。這些知識主要來源于知識圖譜,如ATOMIC和ConceptNet。目前,已有多項研究嘗試將外部知識融入到情緒識別系統(tǒng)中。例如,KET[15]通過計算話語文本與常識知識(common sense knowledge,CSK)特征的余弦相似度及情緒強度來動態(tài)融合CSK信息,但忽略了話語中的常識關(guān)鍵詞對說話者的影響。COSMIC[16]結(jié)合不同的常識知識元素,為對話中的說話者和對話者設(shè)立了多個心理狀態(tài)GRU,以捕捉CSK對心理狀態(tài)與情緒之間復(fù)雜交互的影響,但這種基于遞歸的方法可能會導(dǎo)致遠距離信息的遺忘。KI-Net[17]則通過基于自注意力的模塊匹配適當(dāng)?shù)腃SK,但同樣未考慮對話者的影響。這些研究未能充分重視常識關(guān)鍵詞對說話者情緒狀態(tài)的作用,從而影響了情緒狀態(tài)識別的準(zhǔn)確性。
2 問題定義
3 KCF模型
KCF結(jié)構(gòu)展示如圖2所示。它包含特征編碼模塊、基于外部知識增強的跨模態(tài)融合模塊、基于有向圖的情緒線索增強模塊和情緒分類模塊四個關(guān)鍵部分。
3.1 特征編碼
KCF模型提取的特征包括文本、語音、視頻和外部特征。其中文本、視頻和音頻特征分別通過文本模態(tài)、視頻模態(tài)和音頻模態(tài)的特征提取器得到,外部知識特征由文本模態(tài)進行相應(yīng)的外部知識特征提取和上下文編碼得到。
3.1.1 文本特征編碼
為了獲得具有情緒色彩的話語表達信息,得到更豐富的模態(tài)特征,使用預(yù)訓(xùn)練語言模型RoBERTa[18]對文本進行編碼提取,得到特征向量uTi。
文本語境上下文信息主要是由語言活動發(fā)生的時間、場合、地點等因素組成,文本語境上下文信息在多模態(tài)ERC中是必不可少的,特別是在全局性的對話中。然后采用雙向LSTM來捕獲對話語的文本模態(tài)向量進行上下文編碼,實現(xiàn)如式(1)所示。
4 實驗設(shè)置
4.1 數(shù)據(jù)集和評價指標(biāo)
在IEMOCAP[21]和MELD[22]兩個基準(zhǔn)數(shù)據(jù)集上對KCF的有效性進行了評估。
IEMOCAP:多模態(tài)ERC數(shù)據(jù)集,由南加州大學(xué)的SALL實驗室錄制收集,其中包含5個男演員和5個女演員錄制情感互動的過程。IEMOCAP中的每段對話都是來自兩位演員根據(jù)劇本所做出的表演。
MELD:數(shù)據(jù)獲取來自電視劇“Friends”中截取片段,其中提供了三大類粗粒度情感標(biāo)簽以及七種細粒度情感標(biāo)簽,有多方對話者進行對話。
根據(jù)文獻[2]對數(shù)據(jù)集進行劃分,IEMOCAP和MELD兩個數(shù)據(jù)集的對話和話語的詳細分布情況如表1所示,其情感標(biāo)簽如表2所示。
為了全面評估模型在各類別上的分類性能以及整體表現(xiàn),本文采用了加權(quán)F1分?jǐn)?shù)(W-F1)和準(zhǔn)確率(ACC)作為評價指標(biāo),分別用于衡量模型在IEMOCAP和MELD數(shù)據(jù)集上的性能。W-F1能夠反映模型在類別不平衡情況下的分類能力,而ACC則提供了模型總體正確率的直觀衡量。W-F1和ACC的計算如式(19)所示。
W-F1=∑Ra=1Ma×F1a∑Ra=1Ma, ACC=∑Ra=1Ma×Accuracya∑Ra=1Ma
(19)
其中:R表示數(shù)據(jù)集中的情感類別的總數(shù);Ma表示第a類別中的樣本數(shù)量;F1a表示第a個情感類別的F1得分;而Accuracya表示第a個情感類別的準(zhǔn)確率得分。這兩項指標(biāo)相結(jié)合,可以更好地展示模型在不同數(shù)據(jù)集上的綜合表現(xiàn)。
4.2 數(shù)據(jù)預(yù)處理
在特征提取之前,對原始數(shù)據(jù)進行數(shù)據(jù)預(yù)處理,以確保原始數(shù)據(jù)干凈、一致且適合多模態(tài)輸入。具體步驟如下:a)文本預(yù)處理:將文本分解為更小單位,轉(zhuǎn)換為小寫,刪除特殊字符以減少噪音,移除停用詞并進行詞形還原,最后按句子或話語分割;b)音頻預(yù)處理:通過濾波去除噪音,標(biāo)準(zhǔn)化音頻幅度,移除非語音部分,并按話語進行分割,確保與其他模態(tài)一致;c)視頻預(yù)處理:檢測并聚焦說話者臉部,通過均勻采樣減少幀數(shù),保留關(guān)鍵視覺信息,最后將幀標(biāo)準(zhǔn)化并與文本和音頻對齊。
通過這些預(yù)處理步驟,可以確保多模態(tài)數(shù)據(jù)的一致性和有效性,為后續(xù)特征提取和模型訓(xùn)練提供可靠的基礎(chǔ)。
4.3 基線模型
BC-LSTM[10]:它通過雙向LSTM網(wǎng)絡(luò)對上下文語義信息進行編碼,但是沒有考慮話語者信息。
DialogueGCN[11]:它將GCN應(yīng)用于ERC,生成的特征可以集成豐富的信息。
AGHMN[23]:AGHMN解決了用于話語特征提取的卷積神經(jīng)網(wǎng)絡(luò)在模型中的兼容性問題,使用單向門控遞歸單元允許每個歷史話語在其之前有上下文建模,阻止相反方向的信息傳播。
KET[15]:使用層次自注意力來解釋上下文話語,并使用上下文感知的情感圖注意機制動態(tài)地利用外部常識知識。
COSMIC[16]:結(jié)合了不同的常識因素(比如心理狀態(tài)、事件和因果關(guān)系)為對話中的speaker和listener設(shè)立了多個心理狀態(tài)GRU,以此捕獲CSK作用下心理狀態(tài)與情緒之間的復(fù)雜交互,緩解當(dāng)前基于RNN和GCN方法中經(jīng)常存在的情感轉(zhuǎn)移檢測困難和相關(guān)情感類別之間錯誤分類等問題。
KI-Net[17]:KI-Net考慮了話語與知識的相互作用,提出了一個知識交互網(wǎng)絡(luò)與情緒極性強度感知的多任務(wù)學(xué)習(xí),利用常識知識和情感詞典來增強語義信息。
MMDFN[3]:MMDFN提出在單峰和跨模態(tài)交互聚合多模態(tài)信息的過程中,每一層都有積累冗余信息,限制模態(tài)之間的上下文理解的問題。設(shè)計了模型捕獲不同語義空間中的上下文信息動態(tài)來減少冗余并增強模態(tài)之間的互補性。
RBA-GCN[5]:RBA-GCN解決了傳統(tǒng)GCN聚合方法導(dǎo)致的節(jié)點信息冗余問題,以及單層GCN在圖中捕獲長距離上下文信息不足的問題。
JOYFUL[14]:JOYFUL解決了現(xiàn)有基于圖的方法不能同時描述對話中的全局上下文特征和局部多樣的單模態(tài)特征,以及隨著圖層數(shù)的增加,容易陷入過平滑的問題。
GraphMTF[24]:提出基于圖網(wǎng)絡(luò)的多模態(tài)融合技術(shù)來降低多模態(tài)融合的難度,使用vanilla 圖注意力網(wǎng)絡(luò)來解決圖神經(jīng)網(wǎng)絡(luò)過平滑問題。
4.4 實驗細節(jié)
KCF模型在PyTorch框架上實施。超參數(shù)設(shè)置如下:IEMOCAP和MELD中的dropout都為0.2。IEMOCAP中的學(xué)習(xí)率設(shè)置為0.000 1,MELD中設(shè)置為0.000 3。batch_size在IEMOCAP和MELD中都為16。在CMA的注意力頭數(shù)量為3,CSMA的注意力頭數(shù)量為5,在MHSA中設(shè)置heads數(shù)量為6。每個訓(xùn)練和測試過程都在單個RTX 3090 GPU上運行,實現(xiàn)模型的報告都是基于測試集上5次隨機運行的平均分?jǐn)?shù)。
5 結(jié)果與分析
首先,將KCF與所有基線模型作對比實驗。其次,對KCF上不同設(shè)置的影響(比如模態(tài)組合、關(guān)鍵參數(shù)等)進行了討論。最后,通過案例研究分析模型處理問題的能力。
5.1 與其他基線模型比較
結(jié)合表3和4比較兩個數(shù)據(jù)集的基準(zhǔn)方法與KCF方法的結(jié)果。實驗結(jié)果表明,KCF的效果明顯優(yōu)于所有的實驗基線方法??梢园l(fā)現(xiàn):
a)從總體效果而言,KCF在效果上相比基線模型的SOTA方法有顯著改進。在IEMOCAP數(shù)據(jù)集上,KCF的W-F1值達到了73.69%,比最優(yōu)的基線RBA-GCN高出2.26百分點。此外,在MELD數(shù)據(jù)集上,KCF的W-F1值為64.32%,超越最佳基線COSMIC,進一步驗證了KCF的有效性。
b)與僅使用文本模態(tài)的基線模型相比,KCF在兩個數(shù)據(jù)集上的表現(xiàn)均優(yōu)于這些模型。這表明提出的方法能夠有效從非文本模態(tài)中獲得有用信息,從而提升ERC的性能。
c)與基于外部知識的基線模型相比,KCF在IEMOCAP數(shù)據(jù)集上的性能有顯著提升。然而,在MELD數(shù)據(jù)集上,雖然KCF優(yōu)于COSMIC,但其準(zhǔn)確率仍然低于后者。這可能是因為在MELD數(shù)據(jù)集中,簡短對話中多位說話者復(fù)雜且模糊的上下文限制了KCF有效捕捉關(guān)鍵信息的能力??傮w而言,KCF表現(xiàn)優(yōu)于其他模型,這也表明本文模型在跨模態(tài)融合和說話者上下文建模中具有優(yōu)勢。
d)與基于多模態(tài)的基線模型相比,KCF表現(xiàn)出顯著優(yōu)勢。在IEMOCAP數(shù)據(jù)集上,KCF的W-F1值比基線中表現(xiàn)最好的RBA-GCN高出2.26百分點。在MELD數(shù)據(jù)集,KCF的W-F1值則超出1.65百分點。這表明本文模型充分挖掘了表征能力較弱模態(tài)中的有效信息,并有效利用這些信息,減少了融合過程中的干擾。同時,這也表明通過有效利用說話者的情緒線索,模型能夠更準(zhǔn)確地識別情緒,從而提升情緒預(yù)測的效果。
e)KCF的總體效果優(yōu)于基于話語者信息的JOYFUL。證明將對話中的話語信息進行充分利用的必要性??紤]到實際應(yīng)用場景下的對話中情緒變化的原因,一方面是由于自身的情緒狀態(tài)會影響到話語的情緒狀態(tài),另一方面是來自說話者他人所說話語影響到話語的情緒狀態(tài)。因此,提取并有效利用說話者自身及他人相關(guān)的情緒線索是準(zhǔn)確識別情緒并提升情緒預(yù)測效果的關(guān)鍵。
5.2 KCF的情緒標(biāo)簽比較
KCF在IEMOCAP和MELD數(shù)據(jù)集上的實驗結(jié)果如表3、4和混淆矩陣圖4所示,它們更清楚地說明了KCF的有效性。
在IEMOCAP數(shù)據(jù)集中,KCF的情緒標(biāo)簽與其他基線比較時,除了happy之外,其余情緒標(biāo)簽均表現(xiàn)出色。這表明本文模型在基于說話者的情緒線索和挖掘較弱模態(tài)有效特征方面取得了成功,有效提高了情緒標(biāo)簽的識別性能。然而,happy情緒標(biāo)簽的效果未能超過基線中的RBA-GCN,這主要是因為RGB-GCN在利用相似性度量過濾冗余信息方面表現(xiàn)突出,從而更好地區(qū)分相似的情緒標(biāo)簽。結(jié)合圖4(a),可以看到happy和excited之間的相似性,這可能導(dǎo)致它們被誤分類。為了解決這一問題,筆者將在后續(xù)研究中重點關(guān)注并進一步區(qū)分這些相似樣本,以提升happy情緒標(biāo)簽的識別性能。
在MELD數(shù)據(jù)集中,KCF的情緒標(biāo)簽與其他基線比較時,surprise、fear、joy和disgust的性能明顯優(yōu)于其他標(biāo)簽。這一表現(xiàn)主要歸功于KCF構(gòu)建的基于有向圖的說話者情緒線索增強模塊,該模塊有效結(jié)合了上下文建模、說話者的動態(tài)情緒轉(zhuǎn)移和連貫性,從而提升了情緒標(biāo)簽的識別能力,尤其在少樣本標(biāo)簽fear和disgust上表現(xiàn)出顯著優(yōu)勢。然而,neutral、sadness和angry情緒標(biāo)簽的性能在基線中并不突出,可能是由于MELD數(shù)據(jù)集中存在多人對話且話語較短,使得情緒推理時容易出現(xiàn)錯誤,此外樣本數(shù)量不均衡也限制了模型在這些標(biāo)簽上的表現(xiàn)。在后續(xù)工作中,筆者將更加關(guān)注除說話者之外的其他潛在因素,以實現(xiàn)對話語情緒狀態(tài)的更精準(zhǔn)分析。
5.3 不同模態(tài)組合方式
不同模態(tài)的組合方式對本文模型的影響如表5所示。正如預(yù)期那樣,在語音和視頻的單模態(tài)情況下,文本模態(tài)的輸入使得性能明顯增加。比如在IEMOCAP數(shù)據(jù)集里,在單峰模態(tài)中,僅文本情緒特征的W-F1是68.35%,僅語音情緒特征的W-F1是47.26%,僅視頻情感特征的W-F1是39.75%。當(dāng)引入文本模態(tài)之后,基于語音和文本的情緒特征值增加了2258百分點,基于視頻和文本的情感特征值增加了2856百分點??梢娢谋驹谡麄€對話過程中有著重要的地位,得到文本模態(tài)的表征能力要比視頻和音頻的表征能力強。同時對比視頻和音頻的單峰模態(tài),可看出音頻模態(tài)攜帶信息能力要大于視頻模態(tài),故而可推斷視頻模態(tài)的數(shù)據(jù)存在的噪聲要多于音頻模態(tài)。在單峰模態(tài)和雙峰模態(tài)以及三峰模態(tài)中,明顯發(fā)現(xiàn)三峰模態(tài)的效果是最好的,如圖5所示。在IEMOCAP數(shù)據(jù)集效果達到73.69%的F1得分,在MELD數(shù)據(jù)集效果達到64.32%的F1得分。
5.4 消融實驗
為研究KCF模型中主要模塊的作用,對兩個數(shù)據(jù)集進行了消融研究。表6顯示消融結(jié)果,“-w/o”表示沒有特定模塊的模型性能??紤]以下設(shè)置:
a)-w/o CMA:移除基于跨模態(tài)交互模塊。
b)-w/o CSMA:移除基于外部知識增強的多模態(tài)交互模塊。
c)-w/o CMA amp; CSMA:移除基于外部知識的跨模態(tài)融合模塊。
d)-w/o CE:移除基于說話者的情緒線索圖結(jié)構(gòu)模塊。
e)-w/o CMA amp; CSMA amp; CE:移除多模態(tài)融合模塊和基于說話者的情緒線索圖模塊。
表6顯示了消融實驗的結(jié)果,可以得到:
a)刪除任何一個模塊時,KCF性能都會下降,這表明設(shè)計的每一個部分都是必不可少的。
b)移除基于跨模態(tài)交互模塊會導(dǎo)致表征能力較弱的模態(tài)無法充分挖掘有效特征,同時各模態(tài)之間無法有效學(xué)習(xí)其他模態(tài)的特征,信息難以貫通,進而缺乏一致性和互補性,最終導(dǎo)致ERC的性能不佳。
c)基于外部知識增強的多模態(tài)交互模塊是在跨模態(tài)交互模塊的基礎(chǔ)上發(fā)展而來的,其目的是通過引入外部知識來進一步挖掘表征能力較弱的模態(tài)中的有效特征,減緩模態(tài)之間的信息差異性,并減少跨模態(tài)融合過程中的干擾。如果移除該模塊,情緒識別的性能將會降低。
d)在沒有基于外部知識的跨模態(tài)融合模塊下,表征能力較弱模態(tài)(A\V)的有效信息無法被深入挖掘,同時各模態(tài)之間無法有效交互并學(xué)習(xí)其他模態(tài)的特征,導(dǎo)致多模態(tài)交互中存在干擾性和有效特征遺漏的問題。這使得無法充分從數(shù)據(jù)中提取互補和同步信息,從而影響情緒預(yù)測的效果。因此,設(shè)計CSMA模塊可以充分發(fā)揮表征能力較弱模態(tài)的優(yōu)勢,并利用外部知識特征增強其情感特征,從而提高情緒預(yù)測的準(zhǔn)確性。
e)移除基于說話者的情緒線索圖模塊,導(dǎo)致兩個數(shù)據(jù)集都出現(xiàn)了性能下降。這是因為兩個數(shù)據(jù)集都是兩人及以上的對話,所以說話者在其過程中扮演重要的角色,捕獲對話中話語者的情緒線索就顯得尤為重要。由于MELD的數(shù)據(jù)集是多方說話者的對話,雖然根據(jù)說話者的情緒線索構(gòu)建了上下文有向圖,保證情緒線索的連貫性,利用了說話者本身和說話者之間的關(guān)系,但忽略挖掘每個話語者的獨立信息,所以導(dǎo)致CE模塊在MELD上的效果不如IEMOCAP上的明顯。
5.5 參數(shù)敏感性實驗
CMA、CSMA和MHSA的注意力機制頭數(shù)量在兩個數(shù)據(jù)集上的選取是需要結(jié)合模型的具體需求、計算資源限制以及實際實驗結(jié)果來決定的。
在KCF模型中,在CMA、CSMA和MHSA模塊中使用不同數(shù)量的頭,觀察相應(yīng)的W-F1分?jǐn)?shù),如圖6所示,可以觀察到當(dāng)CMA_head=3、CSMA_head=5和MHSA_head=6時,本文模型在兩個數(shù)據(jù)集上獲得更好的效果。更多的注意力頭允許模型從多個不同的角度來捕捉上下文信息,因為每個頭關(guān)注輸入的不同部分或特征,能夠提升模型的表現(xiàn),但計算和內(nèi)存開銷也會增加。頭的數(shù)量較少,每個頭處理的信息量增多,可能會捕捉到更全局的上下文,但可能在特定任務(wù)上表達能力有限。因此選擇合適的參數(shù)對模型的效果會有很好的提升。
5.6 案例研究
在該節(jié)中,對MELD數(shù)據(jù)集的典型對話進行情緒預(yù)測。由于MELD數(shù)據(jù)集的話語涉及多方說話者,且每個對話的平均話語數(shù)量少于IEMOCAP數(shù)據(jù)集,所以MELD數(shù)據(jù)集中的情緒識別任務(wù)更加具有挑戰(zhàn)性。在圖7中,展示了MELD數(shù)據(jù)集中的一個包含10個話語的對話示例,其中涉及5個說話者,并展示了說話者的情緒線索轉(zhuǎn)移情況。這意味著某些說話者在兩個連續(xù)話語中的情緒狀態(tài)發(fā)生了變化。在多個說話者參與、上下文信息較少且情緒狀態(tài)頻繁變化的情況下,ERC任務(wù)的執(zhí)行變得更加困難。
該對話圍繞著喬伊和他的朋友們玩比牌大小游戲展開。觀察到當(dāng)蕾切爾拿到一張Q牌時,她表現(xiàn)得非常激動,但隨著喬伊拿到了一張K牌,大家的情緒也隨之發(fā)生了相應(yīng)的變化。模型利用基于有向圖的情緒線索增強模塊,成功捕捉了說話者在上下文中情緒線索的變化。例如,喬伊在不同回合中的情緒變化得以被模型準(zhǔn)確識別。同時,通過融合文本、語音和視覺特征,模型有效整合了各模態(tài)的情緒信息,尤其是在情緒強度顯著變化時,如蕾切爾的激動情緒表現(xiàn)。然而,模型仍存在一些局限性。情緒變化不僅受對話內(nèi)容影響,還受到其他潛在變量(如對話主題、話題轉(zhuǎn)移、對話歷史等)的影響,但目前模型尚未充分考慮這些因素,這可能導(dǎo)致在復(fù)雜情境下的情緒識別不夠準(zhǔn)確。同時,由于話語較短,情緒預(yù)測任務(wù)變得更加具有挑戰(zhàn)性。
6 結(jié)束語
本文針對對話情緒識別,提出了基于外部知識增強的跨模態(tài)融合網(wǎng)絡(luò)模型KCF。KCF通過引入外部知識增強的多模態(tài)融合模塊,將文本、音頻、視頻等模態(tài)特征與外部知識逐層融合,這有助于充分挖掘弱模態(tài)中的有效信息,減少噪聲的干擾。這種方法特別適合處理模態(tài)特征較弱或不完整的對話場景,如音頻或視頻質(zhì)量較低的情況下,文本和外部知識起到補充作用;通過多頭注意力機制,KCF確保模態(tài)之間的特征互補和一致性。多模態(tài)信息在情緒識別中存在冗余或沖突,但KCF的設(shè)計使得各模態(tài)在融合時互為補充,減少了沖突和信息缺失。這在現(xiàn)實應(yīng)用中能夠提高模型對不同數(shù)據(jù)質(zhì)量的魯棒性;通過設(shè)計有向圖,不僅增強了不同說話者情緒線索的連貫性,還利用外部知識提取隱藏的情緒線索,確保模型在上下文變化時能夠保持準(zhǔn)確的情緒理解。這種設(shè)計在長對話中尤為有效,能夠捕捉跨句子、跨說話者的情緒變化。
在實際應(yīng)用中,KCF能夠處理多模態(tài)輸入中數(shù)據(jù)質(zhì)量不均的情況,尤其在音頻或視頻數(shù)據(jù)不完整時,通過緊密結(jié)合外部知識和文本,增強情緒識別能力。在復(fù)雜且變化頻繁的對話場景(如客服或心理咨詢)中,KCF可根據(jù)上下文和說話者情緒線索調(diào)整預(yù)測,實現(xiàn)更精準(zhǔn)的情緒識別。在情緒檢測聊天機器人或智能客服系統(tǒng)中,KCF的準(zhǔn)確性提升能有效減少誤判,提高用戶體驗和系統(tǒng)響應(yīng)能力。
在未來的工作中,應(yīng)重點探討如何有效利用模態(tài)差異性及其復(fù)雜關(guān)系,以提供更優(yōu)的融合方法,并深入探索情緒產(chǎn)生的原因,結(jié)合對話主題和情緒標(biāo)簽信息,減少信息錯誤傳播,而提高情緒識別的準(zhǔn)確性和可靠性。
參考文獻:
[1]Poria S, Majumder N, Mihalcea R,et al. Emotion recognition in conversation: research challenges, datasets, and recent advances [J]. IEEE Access, 2019, 7: 100943-100953.
[2]Hu Jingwen, Liu Yuchen, Zhao Jinming,et al. MMGCN: multimodal fusion via deep graph convolution network for emotion recognition in conversation[C]// Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Stroudsburg, CA:ACL, 2021: 5666-5675.
[3]Hu Dou, Hou Xiaolong, Wei Lingwei,et al. MM-DFN: multimodal dynamic fusion network for emotion recognition in conversations[C]// Proc of International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ:IEEE Press, 2022: 7037-7041.
[4]Hazarika D, Zimmermann R, Poria S. MISA: modality-invariant and-specific representations for multimodal sentiment analysis[C]// Proc of the 28th ACM International Conference on Multimedia. New York:ACM Press, 2020: 1122-1131.
[5]Yuan Lin, Huang Guoheng, Li Fenghuan,et al. RBA-GCN: relatio-nal bilevel aggregation graph convolutional network for emotion recognition [J]. IEEE/ACM Trans on Audio, Speech, and Language Processing, 2023, 31: 2325-2337.
[6]López-Cózar R, Silovsky J, Kroul M. Enhancement of emotion detection in spoken dialogue systems by combining several information sources [J]. Speech Communication, 2011, 53(9-10): 1210-1228.
[7]Bosselut A, Rashkin H, Sap M,et al. COMET: commonsense Transformers for automatic knowledge graph construction [EB/OL]. (2019-06-14) . https://arxiv. org/abs/1906. 05317.
[8]Tashu T M, Hajiyeva S, Horvath T. Multimodal emotion recognition from art using sequential co-attention [J]. Journal of Imaging, 2021, 7(8): 157.
[9]沈旭東, 黃賢英, 鄒世豪. 基于時序感知DAG的多模態(tài)對話情緒識別模型 [J]. 計算機應(yīng)用研究, 2024, 41(1): 51-58. (Shen Xudong, Huang Xianying, Zou Shihao. Multi-modal temporal-aware DAG for emotion recognition in conversation [J]. Application Research of Computers, 2024, 41(1): 51-58. )
[10]Poria S, Cambria E, Hazarika D,et al. Context-dependent sentiment analysis in user-generated videos[C]// Proc of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, CA:ACL, 2017: 873-883.
[11]Ghosal D, Majumder N, Poria S,et al. DialogueGCN: a graph convolutional neural network for emotion recognition in conversation[C]// Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, CA:ACL, 2019: 154-164.
[12]Shen Weizhou, Wu Siyue, Yang Yunyi,et al. Directed acyclic graph network for conversational emotion recognition[C]// Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Proces-sing. Stroudsburg, CA:ACL, 2021: 1551-1560.
[13]譚曉聰, 郭軍軍, 線巖團, 等. 基于一致性圖卷積模型的多模態(tài)對話情緒識別 [J]. 計算機應(yīng)用研究, 2023, 40(10): 3100-3106. (Tan Xiaocong, Guo Junjun, Xian Yantuan, et al. Consistency based graph convolution network for multimodal emotion recognition in conversation [J]. Application Research of Computers, 2023, 40(10): 3100-3106. )
[14]Li Dongyuan, Wang Yusong, Funakoshi K,et al. JOYFUL: joint modality fusion and graph contrastive learning for multimodal emotion recognition [EB/OL]. (2023-11-18) . https://arxiv. org/abs/2311. 11009.
[15]Zhong Peixiang, Wang Di, Miao Chunyan. Knowledge-enriched Transformer for emotion detection in textual conversations [EB/OL]. (2019-10-01) . https://arxiv. org/abs/1909. 10681.
[16]Ghosal D, Majumder N, Gelbukh A,et al. COSMIC: commonsense knowledge for emotion identification in conversations[C]//Proc of Findings of the Association for Computational Linguistic: EMNLP. 2020: 2470-2481.
[17]Xie Yunhe, Yang Kailai, Sun Chengjie,et al. Knowledge-interactive network with sentiment polarity intensity-aware multi-task learning for emotion recognition in conversations[C]//Proc of Findings of the Association for Computational Linguistics: EMNLP. Stroudsburg, CA:ACL, 2021: 2879-2889.
[18]Liu Yinhan, Ott M, Goyal N,et al. RoBERTa: a robustly optimized BERT pretraining approach [EB/OL]. (2019-07-26) . https://arxiv. org/abs/1907. 11692.
[19]Eyben F, Wllmer M, Schuller B. OpenSMILE: the Munich versatile and fast open-source audio feature extractor[C]// Proc of the 18th ACM International Conference on Multimedia. New York:ACM Press, 2010: 1459-1462.
[20]Huang Gao, Liu Zhuang, Van Der Maaten L,et al. Densely connec-ted convolutional networks[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2017: 4700-4708.
[21]Busso C, Bulut M, Lee C C,et al. IEMOCAP: interactive emotional dyadic motion capture database [J]. Language Resources and Evaluation, 2008, 42: 335-359.
[22]Poria S, Hazarika D, Majumder N,et al. Meld: a multimodal multi-party dataset for emotion recognition in conversations [EB/OL]. (2019-06-04) . https://arxiv. org/abs/1810. 02508.
[23]Jiao Wenxiang, Lyu M, King I. Real-time emotion recognition via attention gated hierarchical memory network[C]// Proc of AAAI Conference on Artificial Intelligence.Palo Alto, CA: AAAI Press,2020: 8002-8009.
[24]Li Jiang, Wang Xiaoping, Lyu Guoqing,et al. GraphMFT: a graph network based multimodal fusion technique for emotion recognition in conversation [J]. Neurocomputing, 2023, 550: 12642.