沈旭東 黃賢英 鄒世豪



摘 要:針對現有對話情緒識別方法中對時序信息、話語者信息、多模態信息利用不充分的問題,提出了一個時序信息感知的多模態有向無環圖模型(MTDAG)。其中所設計的時序感知單元能按照時間順序優化話語權重設置,并收集歷史情緒線索,實現基于近因效應下對時序信息和歷史信息更有效的利用;設計的上下文和話語者信息融合模塊,通過提取上下文語境和話語者自語境的深度聯合信息實現對話語者信息的充分利用;通過設置DAG(directed acyclic graph)子圖捕獲多模態信息并約束交互方向的方式,在減少噪聲引入的基礎上充分利用多模態信息。在兩個基準數據集IEMOCAP和MELD的大量實驗表明該模型具有較好的情緒識別效果。
關鍵詞:對話情緒識別; 有向無環圖; 近因效應; 特征提取; 多模態交互
中圖分類號:TP391?? 文獻標志碼:A?? 文章編號:1001-3695(2024)01-008-0051-08
doi:10.19734/j.issn.1001-3695.2023.04.0183
Multi-modal temporal-aware DAG for emotion recognition in conversation
Abstract:Aiming at the issue of insufficient utilization of temporal information, speaker information, and multi-modal information in existing conversational emotion recognition methods, this paper proposed a multi-modal temporal-aware DAG model (MTDAG). The designed temporal-aware unit optimized the discourse weight setting in chronological order and collected historical emotional cues to achieve more effective utilization of temporal and historical information based on recency effect. The context and speaker information fusion module achieved the full utilization of discourse information by extracting the deep joint information of contextual context and speaker self-context. By setting the DAG subgraphs to capture multi-modal information and constrain the interaction direction, the model achieved full utilization of multi-modal information while reducing the introduction of noise. Extensive experiments conducted on two benchmark datasets, IEMOCAP and MELD, demonstrate that the model exhibits excellent performance in emotion recognition.
Key words:emotion recognition in conversation(ERC); directed acyclic graph; recency effect; feature extraction; multi-modal interaction
0 引言
對話情緒識別(ERC)的主要目標是正確識別每個話語者在對話過程中的話語所表達的情緒。在對話過程中,存在著文本、語音和圖像三種模態的信息,多模態ERC就是基于這三種模態的信息,通過模型對話語進行情緒識別,對話實例如圖1所示。由于話語者情緒傾向的研究在消費購物、社交媒體中的意見挖掘[1]和人機對話交互等領域有著巨大的應用價值,所以該任務越來越受到研究者的關注。由于ERC中可用的信息只有三種模態的信息以及話語者和話語的對應關系,所以研究者們不得不從上下文時序關系、話語者自身特點、模態交互融合等方面獲得更有用的信息。盡管現有研究使用了多種方法挖掘這些信息,如以時間序列的形式建模對話[2~4]、對話語者單獨建模[5,6]、構建模態融合圖[6,7]等,但依舊存在一些問題:a)利用時序信息時沒有考慮到對話中的近因效應(新近獲得的信息比原來獲得的信息影響更大);b)話語者細粒度信息的挖掘還不夠充分;c)多模態信息的利用還不充分。
對于問題a)來說,基于心理學[8,9]的研究,由于近因效應的存在,對話開始時的話語有效信息較少,對于每個話語的情緒識別,更具有價值的是其臨近的話語信息,所以需要對話語進行權重約束以限制先前話語中的冗余信息過多流向當前。歷史話語為當前話語的情緒識別提供了重要的情緒線索,但這些情緒線索的重要性同樣會根據時序而有所差別,因此可以采用基于近因效應的方法提取歷史話語中的情緒線索,從而更有效地利用時序信息。
針對問題b),研究[6,7]表明,話語者信息中含有大量情緒線索,對話語者信息進行更細粒度的利用可以提高情緒識別的效果。通過分析數據注意到,同一個話語者的情緒具有一定的慣性,也就是說,話語者傾向于保持自己的情緒狀態,但當被其他話語者所影響時,其情緒才可能會產生變化,例如,一個對話開始時處于愉快狀態的話語者可能會在接下來的對話中保持愉快,而一個開始時憤怒的話語者可能會繼續表達憤怒。這種情緒慣性在話語者自語境中體現,并且會受上下文語境中的情緒線索影響,因此可以分別提取話語者自語境和上下文語境中的情緒線索并加以融合,從而實現更細致的話語者信息挖掘利用。
對于問題c),則需要考慮在ERC中多模態特征的特點。Zou等人[10]認為不同模態具有不同的表征能力,在三種模態的信息中,文本模態的表征能力最強,其他兩個模態的表征能力則較弱,此外用強表征能力的模態去增強弱表征能力的模態可以彌補語義鴻溝,從而有效緩解模態融合時發生表征衰減的問題。Shen等人[11]使用有向無環圖(directed acyclic graph,DAG)的結構去建模對話上下文,這使得模型較好地利用了對話的特點,既能獲取對話中的時序信息,又能同時收集當前話語附近的信息,在當時取得了最好的實驗效果,這種優點使得DAG同樣可以用來建模多模態信息。因此,可以在用DAG捕獲多模態信息的基礎上對模態交互的方向進行約束以充分利用多模態信息。
針對上述問題,提出了一個時序信息感知的多模態DAG模型(multi-modal temporal-aware DAG,MTDAG),其包括如下的改進:設計的時序感知單元通過時間順序優化權重設置,并收集歷史情感線索,實現基于近因效應下對時序信息和歷史信息更有效的利用;設計的上下文和話語者信息融合模塊,提取了上下文語境的情緒線索和話語者自語境的情緒慣性線索,并將兩部分線索深度融合以增強文本特征,實現了對話語者細粒度信息更充分地挖掘利用;通過設置DAG子圖的方式將多模態信息引入模型,同時在模態交互過程中對信息的流向進行約束,以減少交互產生的噪聲,從而充分利用多模態信息。
總的來說,本文的貢獻如下:
a)提出了一種基于近因效應,以時間為監督信號的話語特征優化方法和歷史情緒線索收集方法,以充分利用對話時序信息。
b)注意到話語者的情緒慣性,并在文本模態中提出多粒度特征融合的上下文和話語者信息融合模塊,通過提取上下文語境級別和話語者自語境級別的深層次聯合信息來利用這種情緒慣性,以充分利用話語者信息。
c)在多模態ERC任務中使用DAG對三種模態的信息建模進行情緒識別,并在其中設置模態交互約束條件以減少交互產生的噪聲,實現多模態特征更有效的利用。
d)提出模型在IEMOCAP和MELD兩個數據集上都取得了優于其他模型的效果,證明了其優越性和有效性。
1 相關工作
1.1 基于文本的ERC
近幾年來,ERC受到了許多關注。DialogueRNN[4]使用多個RNN對對話進行動態建模。DialogueGCN[12]構建了同時考慮說話者和對話順序信息的圖,使用圖網絡進行話語者的self-和inter-之間依賴關系的建模。COSMIC[13]在DialogueRNN的基礎上,通過從ATOMIC引入外部的常識信息來提高模型的表現。 DialogueCRN[14]通過構建推理模塊模擬人類推理的過程,從而判斷情緒標簽。HCL-ERC[15]首次將課程學習引入對話情緒識別領域,通過設置兩個級別的課程來劃分數據,進而在上述提及的部分模型基礎上,性能都得到了提升。文獻[16]將對話主題信息和行為信息融入對話文本并通過圖神經網絡建模對話上下文。HSGCF[17]利用層次結構來提取情感判別特征,并使用五個圖卷積層分層連接來建立一個特征提取器。但上述基于文本的方法并未充分使用其他模態可供利用的信息,導致效果不夠理想。
1.2 基于多模態的ERC
之前的大多研究工作僅將文本信息建模進行情緒判別,但音頻和視頻信息也能對情緒判別提供幫助。Poria等人[2]用基于LSTM的模型將提取到的三個模態的特征進行融合。ICON[3]和CMN[18]利用GRU和記憶網絡進行情緒判別。Chen等人[19]提出了一種在單詞層面進行多模態融合的方法。Sahay等人[20]提出用關系張量網絡體系結構融合模態信息來預測情緒。Zaheh等人[21]提出記憶融合網絡來融合多視圖的信息。MMGCN[6]按模態內和模態間對話語的多模態信息構建圖。MM-DFN[7]在此基礎上設計了一種動態融合模塊來融合多模態上下文信息。文獻[22]構建了多模態特征學習和融合的圖卷積網絡,并以說話人在完整對話中的平均特征為一致性約束,使模型學習到更合理的話語特征。DIMMN[23]在注意力網絡中設計了多視圖層,使模型能夠在動態的模態互動過程中挖掘不同群體之間的跨模態動態依賴關系。上述研究工作表明,使用多模態數據特征比使用單模態數據特征具有更好的性能和魯棒性,這種優勢在情緒識別任務中更為明顯。
1.3 有向無環圖
DAG因為獨特的拓撲結構所帶來的優異特性,經常被用于處理動態規劃、導航中尋求最短路徑、數據壓縮等多種場景。大量基于DAG的深度學習模型此前也被相繼提出,例如:Tree-LSTM[24]、DAG-RNN[25]、D-VAE[26]和DAGNN[27]。DAG-ERC[11]受到DAGNN的啟發,將DAG模型用于對話情緒識別任務中,取得了較好的成果。然而,這些方法沒有考慮到不同的話語按時間順序對當前話語的情感識別有不同的貢獻。
2 問題定義
給定一段對話U={u1,u2,…,uN},其中N表示對話中語句的數量。每個話語分別包含三個模態的信息,可以表示如下:
ui={uti,uai,uvi}(1)
其中:uti、uai、uvi分別表示第i個話語的文本模態信息、語音模態信息、圖像模態信息。有話語者S={s1,s2,…,sM},其中M為話語者的數量,并且M≥2。在該任務中,話語ui由話語者sφ(ui)說出,其中φ表示話語者和話語之間的映射關系。另外有情緒標簽Y={y1,y2,…,yk},其中k為情緒標簽的數量。對話情緒識別的目標就是基于以上可用信息,正確預測每個話語的情緒標簽。
3 MTDAG模型
提出的模型MTDAG被建模如下:首先將對話原始數據輸入三個模態編碼器以獲得特征向量,對于文本特征將其輸入上下文和話語者信息融合模塊,獲得具有上下文和話語者聯合信息的增強文本特征,其他兩個模態的特征通過雙向LSTM進行特征提取,然后用三個模態的特征分別構建DAG子圖進行交互,最后將得到的結果進行融合來預測情緒標簽。模型的框架如圖2所示。它包含模態編碼層、特征提取層、帶有時序感知單元的DAG交互層和情緒分類層四個關鍵部分,其中FC表示全連接層,CSFM表示所提出的上下文和話語者信息融合模塊。值得注意的是,在DAG子圖中設置了時序感知單元用于優化特征并收集歷史情緒線索。
3.1 模態編碼層
3.1.1 文本模態編碼
為了獲得更好的文本模態特征表示,使用大規模預訓練語言模型RoBERTa-Large[28]來進行話語文本信息uti的編碼提取。該模型的架構與BERT-Large[29]相同,RoBERTa在BERT的基礎上,通過動態掩碼修改預訓練任務,在更多數據上使用更大的批次,對模型進行更長時間的訓練等方面進行優化,從而實現了更強大的表征能力。除此以外,使用ERC數據集對預訓練模型進行微調,以此獲得更好的文本表征效果。最后獲得每個話語都為1 024維的句子向量eti。
3.1.2 語音模態編碼
根據Hazarika等人[3]的配置,使用OpenSmile[30]進行語音特征提取。使用IS13比較配置文件,該文件為每個話語視頻提取了總共6 373個特征,通過使用全連接層將IEMOCAP的維度降低到1 582,MELD數據集的維度降到300。通過上述操作將語音信息uai轉換為了特征向量eai。
3.1.3 圖像模態編碼
圖像面部特征是通過使用DenseNet[31]在面部表情識別Plus(FER+)[32]語料庫上預先訓練提取得到的,通過DenseNet捕獲話語者表情的變化,這對ERC來說是非常重要的信息。最終將圖像信息uvi轉換為342維的特征表示evi。
3.2 特征提取層
3.2.1 上下文和話語者信息融合模塊
其中:Uλ指話語者sλ的所有話語集合;hpλ,j是話語者sλ的第j個話語者級別LSTM的隱藏層狀態。
hti=attention(pti,cti,cti)(4)
3.2.2 語音和圖像特征處理
對于語音和圖像模態,采用上下文語境級別的LSTM進行線索的提取,計算如下:
3.3 帶有時序感知單元的DAG交互層
根據Shen等人[11]的工作,建立了一個DAG網絡,其中對于每個模態分別建立子圖,用于捕獲多模態信息,可以描述為Gδ=(Vδ,Eδ,Rδ),δ∈{t,a,v} 。在子圖中,把對話中的語句所對應的特征作為節點。邊(i,j,rij)∈Eδ表示句子ui到uj的某種關系rij。規定句子之間存在兩種關系rij=(0,1)∈Rδ:值為0時說明兩個句子是由不同的話語者說的,在模型圖中為單向實線;1則為同一個人,體現為單向虛線。在所建立的DAG網絡中,信息流動是單向的,即先前的話語信息可以傳遞到未來,但是未來的話語不能反向傳遞回從前,這也符合現實話語情境中過去說過的話不會受未來所影響這一實際情況。如果同一話語者在對話中所說相鄰前后兩個話語為ufront和urear,就定義其間的所有話語為后一個話語urear的局部信息,其間的所有節點稱為urear的局部信息節點Adjδrear。除此以外,為了實現對話語時序信息和歷史情緒線索利用得更有效,在三個子圖中分別設置了時序感知單元。
3.3.1 DAG層
在DAG的每一層,從第一個話語到最后一個話語根據時序計算話語的隱藏狀態。本文使用{hti}Ni=1、{hai}Ni=1、{hvi}Ni=1來初始化各子圖第(0)層的節點。對于話語ui在第(l)層的節點特征,需要經過DAG層中同模態特征的聚合以及跨模態交互層中不同模態特征的交互后得到。
針對話語ui在第(l)層的節點特征hδli,先計算其在上一層的隱藏向量hδ(l-1)i和局部信息節點hδlj,j∈Adjδi的關系分數βδlij,然后根據關系分數聚合這些信息得到Xδli。
獲取到聚合信息之后,使用能控制信息流向的GRU細胞來獲得該節點在當前層的融合特征:
其中:GRUδlh和GRUδlX中輸入的特征相同,輸入的位置相反。
3.3.2 多模態交互
引入多模態信息可以增加模型識別情緒所需要的重要線索,但是由于不同模態語義鴻溝的存在,需要在引入信息的同時進行多模態交互以減少噪聲。根據Zou等人[10]的研究,相比語音和圖像模態,文本模態具有更強的特征表示能力,由此設置了模態交互約束條件,保證模態交互只存在于強表征能力模態(文本)與弱表征能力模態(語音、圖像)之間,避免弱模態之間低效交互產生過多噪聲。
對語音和圖像子圖中每個話語節點的特征,使用同一層文本子圖中的特征進行交互增強。首先計算圖像特征和語音特征與文本特征各自的相關分數,計算公式如下:
其中:Wil(·)為可訓練參數;f(·)代表Leaky_ReLU函數;α(t→a)li和α(t→v)li分別代表第l層DAG子圖中第i個文本節點特征與語音節點特征和圖像節點特征的相關分數。
此時獲得了三種模態的語義交互相關性,然后利用該相關分數計算交互后的語音和圖像增強特征:
3.3.3 時序感知單元
上述的各模態特征表示仍舊是基于每個話語的權重是相等的,但事實上每個話語隨時序應有不同的重要性。由此設計了時序感知單元,該模塊主要有兩個作用:a)以時間信息作為監督信號來進行差異化的話語權重設置;b)根據時序為每個話語提供歷史情緒線索。如圖4所示,其中∑R代表式(12)中提出的聚合函數,∑G代表門控機制。
具體來說,先為模態特征賦予初始權重ωi:
ωi=ω+(1-ω)×i/N(15)
δli=ωi×Zδli(16)
其中:權重衰減系數ω為設置的超參數;i為該話語在當前對話中的位置;N為當前對話中話語的個數。
為了收集時序歷史情緒線索,設計了如下的聚合函數:
其中:μ為近因效應影響因子;i為話語的位置。μ小于1時體現出首因效應,這不符合進行對話時的直覺,因此μ通常大于1。當該話語為對話中的第一句時,其不存在歷史信息,因此將該值置為0。
在結合這兩部分信息時,使用了參數可學習的門控機制:
ε=σ(Wgate[Mδli‖Qδli])(19)
hδli=ε×Mδli+(1-ε)×Qδli(20)
其中:Wgate為可訓練參數矩陣,σ為sigmoid函數。
3.4 情緒分類層
在情緒分類階段先將單個模態各DAG層的特征表示進行拼接:
Hi=Hti‖Hai‖Hvi‖hti‖hai‖hvi(22)
然后將Hi輸入全連接層進行情緒標簽的預測:
使用標準交叉熵和L2正則化作為訓練過程中的損失函數:
其中:N是對話的個數;c(i)是對話i中的話語數量;Pi,j是對話i中話語j的預測情緒標簽的概率分布;yi,j是對話i中話語j的預測類別標簽;η是L2正則化權重;θ是所有可訓練參數的集合。使用隨機梯度下降的Adam[33]優化器來訓練網絡模型。
4 實驗設置
4.1 實施細節
超參數設置如下:在IEMOCAP中,權重衰減系數ω為0.7,近因效應影響因子μ設置為1.5,在MELD中ω設為0.85,μ為1.4。學習率為5E-4,L2正則化參數設置為5E-5,batch size設置為64,dropout設置為0.3,隱藏狀態維度dh設置為300維,DAG層數n為3。每個訓練和測試過程都在單個RTX 3090 GPU上完成。每個數據集都訓練30個epoch,單個epoch平均耗時約10 s。實驗結果數據都是基于測試集上5次隨機運行的平均分數。所有的超參數都是通過基于測試性能的網格搜索來確定的。
4.2 數據集
在IEMOCAP[34]和MELD[35]兩個基準數據集上對所提模型的有效性進行了評估。這兩個數據集都是包含文本、語音、圖像的多模態ERC數據集。對于數據集的劃分是根據Hu等人[6]的配置所確定的。表1顯示了兩個數據集的數據劃分情況。
IEMOCAP:每段對話都是來自兩位演員根據劇本所作出的表演。IEMOCAP中一共有7 433個話語和151個對話。對話中的每個話語都帶有六個類別的情緒標簽,分別是happy、sad、neutral、angry、excited和frustrated。
MELD:包含從電視劇Friends中收集的多方對話視頻數據,其中一共包括13 708個話語和1 433個對話。與IEMOCAP中只有兩個話語者不同,MELD在一次對話中有三個或三個以上的話語者,對話中的每個話語都帶有七個類別的情緒標簽,分別是neutral、surprise、fear、sadness、joy、disgust和angry。
4.3 對照方法
a)BC-LSTM[2]:其通過雙向LSTM網絡對上下文語義信息進行編碼,但是沒有考慮話語者信息。
b)ICON[3]:利用兩個GRU來建模話語者信息,使用額外全局的GRU跟蹤整個對話中情緒狀態的變化,利用多層記憶網絡對全局情緒狀態進行建模,但是ICON仍不能適應多個話語者的情景。
c)DialogueRNN[4]:其通過三種不同的GRU(全局GRU、話語者GRU和情緒GRU)對對話中的話語者和順序信息進行建模,但是DialogueRNN在多模態領域并沒有多大的改進。
d)DialogueGCN[12]:其將GCN應用于ERC,生成的特征可以集成豐富的信息。RGCN和GCN都是非譜域GCN模型,用于對圖進行編碼。
e)DialogueCRN[14]:其引入認知階段,從感知階段檢索的上下文中提取和整合情緒線索。
f)MMGCN[6]:使用GCN來獲取上下文信息,可以有效地彌補DialogueGCN中不能利用多模態依賴關系的缺點,還有效地利用話語者的信息進行對話情緒識別,但其存在較多冗余信息。
g)DAG-ERC[11]:利用DAG的結構進行建模,將話語都看成節點,依時序向后建圖,但沒有設置差異化的話語權重。
h)MM-DFN[7]:通過設計了新的基于圖的動態融合模塊來融合多模態上下文信息,以此充分理解多模態對話上下文來識別話語中的情緒。
i)HSGCF[17]:使用五個圖卷積層分層連接,以此建立了一個情感特征提取器。
j)DIMMN[23]:在注意力網絡中設計了多視圖層,在動態的模態互動過程中挖掘不同群體之間的跨模態動態依賴關系。
5 結果與分析
5.1 與其他對照方法的比較
所提模型在IEMOCAP和MELD數據集上與其他基線模型進行了比較,實驗結果如表2和圖5所示。在帶有“*”的基線結果使用開源代碼重新運行。為了公平對比,使用本實驗中處理的數據,在所有能夠被重構的基線模型上進行實驗,用于后面對比文本特征的效果,在表中如“+RoBERTa”所示。空缺處是因為該基線未開源,或是并未使用某評估指標。其他帶有結果的基線從文獻[7]中復制而來。由于發表于2023年的兩篇工作未能開源,所以選擇了MM-DFN來進行更細致的實驗結果對比。
分析表2可以發現:
a)本文MTDAG在weighted accuracy和F1-score評分方面均優于所有的基線模型,證明了提出模型在多模態ERC上的有效性。
b)MTDAG在weighted accuracy和F1-score上均優于MM-DFN,這表明本文模型對對話中話語者信息的提取,比使用話語者信息的最先進基線模型有著更好的效果。
c)在單獨情緒類別的比較中,MTDAG在IEMOCAP和MELD數據集都獲得了所有類別的最佳性能,如圖5所示。在MELD中的情緒類別中,除了樣本數量最多的neutral類別外,其余的情緒類別中都取得遠比MM-DFN更好的效果。特別說明:MM-DFN報告了每個類別的F1得分,除了MELD上的兩個情緒類別(即fear和disgust),由于訓練樣本的數量較少,其結果沒有統計學意義,所以被合并到近似的情緒類別中。
5.2 消融實驗
為了研究MTDAG中不同模塊和模態選擇的影響,對兩個數據集進行了消融實驗,考慮了以下設置。
a)w/o TaU:移除所使用的時序感知單元。
b)w/o CSFM:移除上下文和話語者信息融合模塊。
c)A&V with MLP:針對語音和圖像模態使用多層感知機(multi-layer perceptron,MLP)建模而非設置DAG子圖的方式。
d)w/o interaction:移除模態間的交互過程。
e)T:只使用文本模態進行對話中的情緒預測。
f)A:只使用語音模態進行對話中的情緒預測。
g)V:只使用圖像模態進行對話中的情緒預測。
表3顯示了消融實驗的結果,通過其中的數據可以得到:
a)移除時序感知單元會在兩個數據集上降低較多的F1分數,并且在IEMOCAP中更明顯,證明了對DAG進行時序權重約束和情緒線索收集的合理性。雖然對話開始階段的話語中有效信息較少,但其中仍然包含有一定的情緒線索,所以需要以合適的方法利用這些信息,而提出模型較好地解決了這一問題。而該模塊在IEMOCAP數據集中影響更大的原因在于 IEMOCAP數據集中對話更長,雖然較長的對話長度會包含更多的信息,但是同樣會產生較多的冗余信息,通過降低先前話語的權重并合理收集歷史情緒線索可以幫助模型專注于附近的信息,從而獲得更好的表現。
b)移除上下文和話語者信息融合模塊同樣會在兩個數據集上降低精度,但在兩個數據集中表現不同,同樣證明了對于話語者細粒度的信息挖掘策略是有效的,合理利用話語者信息可以提高情緒識別的精度。因為從心理學的角度來看,話語者傾向于保持當前的情緒狀態,所以話語者自語境中必然蘊涵著導致情緒變化的線索,將這部分線索與上下文語境級別的情緒線索進行融合,將更好地實現情緒識別。而造成該模塊在兩個數據集中的效果有差異的原因在于MELD數據集中對話長度短,且話語者人數多,情緒的連續性并不明顯,導致話語者自語境的信息較少,性能較IEMOCAP差一些。
c)為了探究設置DAG子圖捕獲多模態特征的合理性,針對語音和圖像模態使用MLP建模進行情緒預測,結果表明通過DAG子圖的方式建模多模態特征的效果優于僅使用MLP,證明DAG子圖捕獲多模態特征的建模方式降低了數據中的噪聲,更充分地利用了多模態信息,以此緩解話語長度較短場景中情緒線索不足的問題。
d)移除模態間的交互過程會降低模型效果,證明所設計的交互操作能夠有效增強多模態交互效果,提高模型表現。這也同樣表明經過改進的DAG結構能夠有效建模多模態信息,實現多模態場景下的情緒識別。
e)多模態數據的輸入性能要優于單模態數據的輸入。分析發現在給文本特征加入另外兩種模態信息時,效果比單一文本模態時更好,這點在IEMOCAP上表現更為明顯,因為語音和圖像在一定程度上會對文本起到一定的輔助作用,尤其是在文本的情緒表達不明顯的話語中。此外文本模態的性能表現遠比另外兩種模態的效果好。
f)僅保留文本特征時,實驗得到的評價指標要比表2中僅基于文本的對照方法更高,證明了所提模型表現同樣要優于僅基于文本的對照模型,同時保證了與基于文本的方法進行對比的公平性。
5.3 文本特征編碼的影響
表2記錄了使用不同文本特征編碼器獲取到的文本特征的實驗結果。在所有能夠被重構的基線模型上使用本實驗中處理的數據進行實驗,用于對比文本特征的效果。觀察表2可以發現,在兩個數據集上,無論是基線模型還是MTDAG,使用RoBERTa嵌入的性能都優于使用TextCNN嵌入的性能。這表明高質量的深度語境化詞匯表示可以進一步提高模型的有效性。因此選擇RoBERTa作為文本嵌入獲得的性能增益是可取的,也是必要的。而在全部使用RoBERTa嵌入的基線模型比較中,MTDAG的表現依然要優于它們,證明了提出模型的有效性。
5.4 參數敏感性實驗
對于權重衰減系數ω和近因效應影響因子μ在兩個數據集上的選取,是通過基于測試性能的網格搜索來確定的,結果如圖6所示。
從圖6可以看出:
a)適合兩個數據集的ω并不相同。數據集中對話長度以及單個話語的長度可以解釋這一現象:在IEMOCAP中,對話長度和話語長度都普遍較長,說明先前的歷史信息較多,冗余信息也同樣較多,因此先前信息的重要程度較低,表現為ω取值相對較小;然而在MELD中對話的長度和話語長度都相對較短,先前話語仍舊會對末尾話語產生著較大影響,因此先前話語的重要性比較高,表現為ω取值相對較大。
b)適合兩個數據集的μ也并不相同。原因同樣是對話和話語的長度,MELD數據集的情緒預測需要更多的歷史信息,表現為μ取值相對較小,從先前收集到的情緒線索更多;IEMOCAP則更依靠附近的話語信息,無須太多歷史情緒線索,表現為μ取值較大,近因效應更明顯。
5.5 誤差分析
通過對兩個數據集進行詳細研究以便對實驗結果進行誤差分析。通過對圖7的分析發現:
a)IEMOCAP中相似情緒之間的轉換比例很高,推測模型在相似的情緒類別之間出現了混淆。比如happy和excited,有較多的happy類都被模型預測為了excited。分析了數據集以后發現部分原因是訓練樣本分布不均衡,happy類在整個IEMOCAP中所占的比例最低,導致模型從全局最優的角度降低了少數類樣本的訓練優先級。
b)結合圖5可以看到MELD數據集中sadness、disgust、fear類情緒樣本的預測F1分數較差,在分析了整個數據集的樣本分布后發現該數據集的樣本標簽不均衡問題更加嚴重,sadness、disgust、fear為樣本數量最少的三類情緒,并且F1分數和樣本數量均逐個遞減。由此發現這同樣是樣本標簽不均衡問題所導致的。
此外,從表3可以看到,圖像和語音模態特征在模型中表現較差。對于語音來說,對話中人的語音語調只能反映話語者的情緒強度,與其情緒種類沒有必然聯系,比如開心和生氣時的聲音都會較其他的情緒語調更高。因此當某些情緒具有相似的頻率和幅度時,僅通過語音數據很難正確區分當前話語者的情緒。對于圖像特征,可以通過面部特征來判斷話語者的情緒,但當話語者故意掩飾自己的面部表情,圖像特征就很難進行正確的情緒判斷。因此,仍舊需要更好的圖像和語音模態特征提取方法或更適合的特征處理方式。
5.6 實例分析
為了更加直觀地表現MTDAG模型的準確性和有效性,選取了MELD數據集中的一段對話進行實例分析。所選對話包含11個話語,參與者為話語者A和B。此處選擇了MM-DFN和DAG-ERC模型作為MTDAG的實例對比模型,因為MM-DFN是使用了話語者信息的最先進模型,而DAG-ERC是第一個運用DAG建模對話的模型。對比實驗的結果如圖8所示。
從圖8可以看出,與MM-DFN和DAG-ERC相比,MTDAG在進行情緒預測時更加準確,分析原因如下: DAG-ERC在話語輪次1、2和6中,由于沒有利用數據集中的語音和圖像信息,所以出現了短文本情況下的情緒線索不足問題,同時關于對話時序信息利用不充分的問題導致了它在話語輪次5中接收到對話早期話語中過多的冗余信息,導致情緒預測錯誤; MM-DFN在話語輪次6中的表現說明了雖然有語音和圖像信息提供參考,但其無向圖的對話建模方式弱化了對話的時序特點,過多關注了先前的話語信息而一定程度上忽略了關鍵的臨近話語信息,同樣會造成預測錯誤,而對于話語輪次11,由于MM-DFN沒有細粒度地挖掘話語者自語境的情緒線索,忽視了話語者自身的情緒慣性,最終預測錯誤。提出的MTDAG模型首先挖掘了兩個級別的情緒線索并加以融合,其次強化并利用了對話的時序特點,同時以合適的方式建模了多模態信息,因此在整個情緒預測過程中都表現出了良好的準確性和有效性。
6 結束語
本文在基于不同話語按照時序對當前話語的情感識別有不同的貢獻基礎上,提出了一個多模態的時序信息感知的DAG網絡,其使用DAG對三種模態的信息建模進行情緒識別,并在其中設置模態交互約束條件以減少交互產生的噪聲,實現多模態特征更有效的交互利用,通過使用多粒度特征融合來提取上下文和話語者的深度聯合信息,并按時序優化權重設置,收集歷史情感線索來提高模型性能。通過在兩個基準數據集上的大量實驗驗證了本文模型的有效性和優越性。
然而,MTDAG仍有一些不足之處,必須在未來加以改進。例如,所使用的上下文和話語者信息融合模塊在多人對話中無法很好地提取情感線索。因此,后續的工作將設法通過提取每個說話者的對應特征來改進該方法,以適應多人對話場景。此外,目前只對文本模態采用先進的特征提取器,而對語音和圖像模態,還未得到很好的特征表示,因此,下一步需要提取出更有效的其他模態的特征信息。在分析數據集時發現了樣本標簽不均衡問題,該問題造成了較大的影響但尚未解決,因此也值得進行更深入的研究。
參考文獻:
[1]Chatterjee A, Narahari K N, Joshi M, et al. SemEval-2019 task 3: EmoContext contextual emotion detection in text[C]//Proc of the 13th International Workshop on Semantic Evaluation.2019:39-48.
[2]Poria S, Cambria E, Hazarika D, et al. Context-dependent sentiment analysis in user-generated videos[C]//Proc of the 55th Annual Mee-ting of the Association for Computational Linguistics.2017:873-883.
[3]Hazarika D, Poria S, Mihalcea R, et al. Icon: interactive conversational memory network for multimodal emotion detection[C]//Proc of Conference on Empirical Methods in Natural Language Processing.2018:2594-2604.
[4]Majumder N, Poria S, Hazarika D, et al. DialogueRNN: an attentive RNN for emotion detection in conversations[C]//Proc of AAAI Conference on Artificial Intelligence.2019:6818-6825.
[5]Li Jiwei, Galley M, Brockett C, et al. A persona-based neural conversation model[C]//Proc of the 54th Annual Meeting of the Association for Computational Linguistics.2016:994-1003.
[6]Hu Jingwen, Liu Yuchen, Zhao Jinming, et al. MMGCN:multimodal fusion via deep graph convolution network for emotion recognition in conversation[C]//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Confe-rence on Natural Language Processing.2021:5666-5675.
[7]Hu Dou, Hou Xiaolong, Wei Lingwei, et al. MM-DFN:multimodal dynamic fusion network for emotion recognition in conversations[C]//Proc of International Conference on Acoustics,Speech and Signal Processing.2022:7037-7041.
[8]Kahneman D, Tversky A. Subjective probability:a judgment of representativeness[J].Cognitive Psychology,1972,3(3):430-454.
[9]Tversky A, Kahneman D. Belief in the law of small numbers[J].Psychological Bulletin,1971,76(2):105.
[10]Zou Shihao, Huang Xianying, Shen Xudong, et al. Improving multimodal fusion with main modal transformer for emotion recognition in conversation[J].Knowledge-Based Systems,2022,258:109978.
[11]Shen Weizhou, Wu Siyue, Yang Yunyi, et al. Directed acyclic graph network for conversational emotion recognition[C]//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Proces-sing.2021:1551-1560.
[12]Ghosal D, Majumder N, Poria S, et al. DialogueGCN:a graph convolutional neural network for emotion recognition in conversation[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing.2019:154-164.
[13]Ghosal D, Majumder N, Gelbukh A, et al. COSMIC:commonsense knowledge for emotion identification in conversations[C]//Findings of the Association for Computational Linguistics:EMNLP.2020:2470-2481.
[14]Hu Dou, Wei Lingwei, Huai Xiaoyong. DialogueCRN:contextual reasoning networks for emotion recognition in conversations[C]//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing.2021:7042-7052.
[15]Yang Ling, Shen Yi, Mao Yue, et al. Hybrid curriculum learning for emotion recognition in conversation[C]//Proc of AAAI Conference on Artificial Intelligence.2022:11595-11603.
[16]王雨,袁玉波,過弋,等.情感增強的對話文本情緒識別模型[J].計算機應用,2023,43(3):706-712.(Wang Yu, Yuan Yubo, Guo Yi, et al. Sentiment boosting model for emotion recognition in conversation text[J].Journal of Computer Applications,2023,43(3):706-712.)
[17]Wang Binqiang, Dong Gang, Zhao Yaqian, et al. Hierarchically stacked graph convolution for emotion recognition in conversation[J].Knowledge-Based Systems,2023,263(C):110285.
[18]Hazarika D, Poria S, Zadeh A, et al. Conversational memory network for emotion recognition in dyadic dialogue videos[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.2018:2122.
[19]Chen Minhai, Wang Sen, Liang P P, et al. Multimodal sentiment analysis with word-level fusion and reinforcement learning[C]//Proc of the 19th ACM International Conference on Multimodal Interaction.2017:163-171.
[20]Sahay S, Kumar S H, Xia Rui, et al. Multimodal relational tensor network for sentiment and emotion classification[C]//Proc of Grand Challenge and Workshop on Human Multimodal Language.2018:20-27.
[21]Zadeh A, Liang P P, Mazumder N, et al. Memory fusion network for multi-view sequential learning[C]//Proc of AAAI Conference on Artificial Intelligence.2018.
[22]譚曉聰,郭軍軍,線巖團,等.基于一致性圖卷積模型的多模態對話情緒識別[J].計算機應用研究,2023,40(10):3100-3106.(Tan Xiaocong, Guo Junjun, Xian Yantuan, et al. Consistency based graph convolution network for multimodal emotion recognition in conversation[J].Application Research of Computers,2023,40(10):3100-3106.)
[23]Wen Jintao, Jiang Dazhi, Tu Geng, et al. Dynamic interactive multiview memory network for emotion recognition in conversation[J].Information Fusion,2023,91:123-133.
[24]Tai Kaisheng, Socher R, Manning C D. Improved semantic representations from tree-structured long short-term memory networks[C]//Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing.2015:1556-1566.
[25]Shuai Bing, Zuo Zhen, Wang Bing, et al. Scene segmentation with DAG-recurrent neural networks[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,40(6):1480-1493.
[26]Zhang Muhan, Jiang Shali, Cui Zhicheng, et al. D-VAE:a variatio-nal autoencoder for directed acyclic graphs[C]//Advances in Neural Information Processing Systems.2019.
[27]Thost V, Chen Jie. Directed acyclic graph neural networks[C]//Proc of International Conference on Learning Representations.2021.
[28]Liu Yinhan, Ott M, Goyal N, et al. RoBERTa: a robustly optimized BERT pretraining approach[EB/OL].(2019-06-26).https://arxiv.org/abs/1907.1 1692.
[29]Kenton J D M W C, Toutanova L K. BERT: pre-training of deep bidirectional transformers for language understanding[C]//Proc of NAACL-HLT.2019:4171-4186.
[30]Eyben F, Wllmer M, Schuller B. Opensmile: the Munich versatile and fast open-source audio feature extractor[C]//Proc of the 18th ACM International Conference on Multimedia.2010:1459-1462.
[31]Huang Gao, Liu Zhuang, Van Der Maaten L, et al. Densely connec-ted convolutional networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2017:4700-4708.
[32]Barsoum E, Zhang Cha, Ferrer C C, et al. Training deep networks for facial expression recognition with crowd-sourced label distribution[C]//Proc of the 18th ACM International Conference on Multimodal Interaction.2016:279-283.
[33]Kingma D P, Ba J. Adam: a method for stochastic optimization[EB/OL].(2017-01-30).https://arxiv.org/abs/1412.6980.
[34]Busso C, Bulut M, Lee C C, et al. IEMOCAP: interactive emotional dyadic motion capture database[J].Language Resources and Evaluation,2008,42:335-359.
[35]Poria S, Hazarika D, Majumder N, et al. MELD:a multimodal multi-party dataset for emotion recognition in conversations[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics.2019:527-536.