
doi:10.19734/j. issn.1001-3695.2024.12.0466
Multimodal dialogue emotion perception algorithm based on feature divergence
Ren Qinze a,b ,Yuan Yea,b,Fu Ketinga,?,Fu Junxiua,?,Xu Kanga,b,Liu Na,bt (a.Institutefcneelie,ooflheamp;,Ueitffoneamp;oi ,China)
Abstract:Multimodalemotion perceptioniscrucialfor monitoring personal healthand providing medicalcareinthe fieldof proactive health.Currnt multimodal dialogue emotionperceptiontechnologiesfacechallenges ifusing informationacross differentmodalities,particularlyincapturinglocalrelationshipsbetweenmodalies.Theproposedmultimodalfusionalgorithm basedonfeaturediversion,MEPAD(multimodalemotionperceptionalgorithmwith featurediversion),addressedthesechallenges bycapturing global information indialogues using graphneural networks and integrating homogeneous and specific features across modalities through thehypercomplex number system and pairwise feature fusion mechanisms.Experiments on he IEMOCAP and MOSEI datasets demonstratethat MEPAD significantlyoutperforms existing methodsin multimodal dialogue emotionperceptiontasks,highlightingitsefectiveessandpotentialinhandlingomplexemotionaldata.Thisresearchoffs newinsights for theapplication of multimodal emotion perception technology in proactive health.
Key words:multimodal emotionrecognition;graph neural networks;hypercomplex number system;pairwisefeature fusion; dialogue emotion perception
0 引言
情緒感知是人類交流中的一個關鍵組成部分,在主動健康領域,對話者情緒變化也可以作為評估人類健康信息監控的重要指標[1]。主動健康強調通過個體的主動參與和自我管理來提升整體健康水平,而情緒感知在這一過程中發揮著重要作用。因此,為了更有效地進行健康風險預警,分析對話中的情緒感知任務顯得尤為必要[2]
在人類交流過程中,表達情緒的方式多種多樣,包括面部表情、聲音、姿態、文本及圖像等。近年來,對話中的情感識別(emotionrecognitioninconversations,ERC)任務逐漸受到關注,通過利用對話中的多模態信息來檢測說話人的情緒狀態,已經吸引了廣泛的關注,并逐步應用于健康監控、醫療陪護、對話生成等多個實際場景。本研究聚焦于主動健康理念下的醫療陪護場景應用,通過多模態情緒識別技術,致力于精準地感知對話中的情緒信息,以此即可根據情緒變化提供相應的對話信息,旨在全方位提升使用者的交互體驗與心理舒適度,助力打造更加人性化、智能化的醫療陪護模式。具體的情緒對話示例如圖1所示。

目前,基于多模態的ERC任務已經取得了顯著進展。利用不同模態間的依賴性與互補性來提升情感識別精度已成為該領域的新趨勢。相比單模態ERC任務,多模態情感識別能夠充分利用各個模態之間的互補信息,從而實現更高準確性和魯棒性。然而,多模態數據引人后也帶來了新的挑戰:如何有效融合不同模態特征,以及如何建立各個模態間的隱含聯系,成為多模態ERC任務亟待解決的問題[3]
針對此問題,已然提出了諸多研究方法:a)對于數據融合策略的研究。如文獻[4]使用深度玻爾茲曼機(DBM)來學習多模態輸人發現不同模態之間低層次特征的復雜非線性關系以及文獻[5]中的流式兩階段特征融合。b)對于對話中復雜關系的捕捉。如文獻[6,7]利用門控單元模擬說話者自身的情感影響,以此檢測對話中的情緒;同時隨著圖神經網絡(graphneuralnetwork,GNN)技術的興起,利用GNN捕獲對話中的全局信息已成為一個有前景的研究方向。如文獻[8,9]均利用圖來捕獲對話中復雜信息,文獻[10]提出了一種基于時序感知的多模態對話情緒感知模型(MTDAG),該模型利用有向無環圖(DAG)結構來融合文本、語音和圖像三種模態的信息。然而,這些方法對于對話中各模態間不同特性的復雜信息捕捉往往并不理想,這限制了對不同模態間互補信息的充分利用,進而影響了多模態情感表達的能力。
針對此問題,本文提出了一種基于特性分流的特征提取結構(multimodal emotion perception algorithm with feature diver-sion,MEPAD),該結構的主要工作如下:
a)提出了一種新的復合圖結構,設計相應的圖生成器,旨為對話雙方建立聯系,同時對一句話中多個模態的特征進行關聯。通過這種圖結構,能夠捕捉和整合來自不同模態的豐富信息,如文本、聲音和面部表情。這些生成的圖數據隨后被輸入到圖卷積網絡中,以提取情緒對話中的全局信息。這種方法不僅提高了情緒感知的準確性,而且通過圖結構的引人,為理解對話中的復雜情感動態提供了一種強大的工具。
b)在MEPAD結構中引人超復數模塊。該模塊中借鑒了數學中超復數的概念,在特征融合過程中引入了復數的加法和乘法,以表示特征的疊加和變換。這種變換操作能夠更靈活地組合和調整不同模態的特征,從而提高特征融合的靈活性和效果[]
c)為了更好地捕獲多模態間的聯系,在MEPAD結構中提出使用成對Transformer用于提取模態間的特異性特征,將提取的特征與超復數模塊結合使用以提取多模態特征。
d)在IEMOCAP和MOSEI兩個數據集上與其他模型基線相比較,進行一系列的實驗對比,證明本文提出的多模態融合結構的有效性。
1相關工作
1.1對話中多模態情緒感知
對話中的情緒感知是指在對話交互過程中,通過分析和理解說話人的多種信息,識別和理解對話參與者的情緒狀態。目前,關于多模態情緒感知中多個模態的研究有MMS2S的三單峰編碼器,使用多頭的方式進行模態提取[12],以及TFN中利用矩陣運算進行特征融合[13]。此外,在對話中復雜信息的捕捉上,DialogueRNN[14]使用了三個門控循環單元(GRU)來建模對話中的情緒,DialogueGCN[15]與MMGCN[16]均通過建立圖結構使用圖卷積來獲取對話中前后文的信息。本文中,出圖神經網絡在對話的復雜信息提取方面展現出了較為優秀的性能。
1.2多模態融合策略
多模態融合策略的研究已經取得了豐富的成果,現如今關于多模態融合策略主要分為早期融合、中期融合和后期融合三種,各自具有不同的優缺點,如 OSF[17] 按順序一步步合并數據,并且可以對不同類型的數據進行選擇性加權。CMN[18]方法通過直接連接不同模態的特征。 ICON[6] 方法則提取多模態會話特征,并利用全局記憶分層來建模情緒影響,提高了話語視頻情感識別的性能。Lopez等人[19]提出了一種基于超復數的多模態架構,在超復數域中通過融合模塊一起處理,從而捕獲學習到的潛在特征之間的關系。本文進一步探索了多模態融合中的方法應用,多模態數據的使用會產生更多的噪聲。想要更好地提取到模態間的互補性特征,減少模態間噪聲造成的影響,本文提出了一種基于特性分流的多模態情緒感知算法,通過對多模態間的數據進行分流特性提取,減少噪聲的影響。為此,引入數學中超復數方法,將特征信息輸人到復數數系中進行融合,同時引人模態間特異性特征的概念,使用成對Transformer結構對模態間的特異性信息進行提取,兩者結合共同提取多模態特征。
1.3 圖結構構建
在利用圖神經網絡進行對話中信息的提取時,需要考慮相應圖結構設計,不同圖結構的設計對于特征的提取存在著較大的影響。DialogueGCN使用圖卷積網絡來編碼對話中的上下文信息,MMGCN通過將每個話語的每個模態視為一個節點來構建異構圖,兩者均是對于對話中的不同數據特性而進行的圖結構設計。MTAG[20]能夠對異步分布的多模態序列數據進行融合和對齊。COGMEN[21]使用基于GNN的架構來建模復雜的依賴關系,包括對話中的本地和全局信息。Chen等人[22]提出了一種 M3Net ,用來探索多模態數據和上下文之間的關系。但這些方法對于圖設計中模態間的數據考慮并不完善,為此Nguyen等人[23]提出了CORECT架構,建立圖結構時將模態間的聯系也建立了連接,但單純增加圖的復雜性卻并非最優解,為了提取特定特性的特征,本文的圖結構設計為一種復合圖結構,對模態間建立小型圖結構,并將結合的小型圖結構作為圖節點建立復合圖,分別用于捕捉對話中上下文的時間特性以及不同模態間的交互特性。
2方法介紹
圖2展示了本文所設計的MEPAD結構。該網絡主要由兩部分組成:首先,將輸入的三模態信息轉換為多模態特征,具體為對多模態數據集進行預處理,分別提取語音、文本和視覺模態的特征;然后,這些特征被分別輸入到特征融合層中預定義的三種特性提取模塊,用于提取不同特性的交互特征。實現方法為,將圖神經網絡中三個模態數據間的每個模態數據當作一個節點建立一個無向圖,再將多條對話的多模態數據建立的圖當作一個節點,建立一個有向圖,最后將這些圖結構建立相應的邊類型并輸入RGCN圖卷積網絡中。在超復數網絡中,將多模態特征映射到復數域的不同部分,通過復數的乘法和加法規則進行特征變換和提取。在成對模態特征融合模塊,將模態數據兩兩組合,利用反轉注意力機制提取模態間的特異性特征,從而實現多模態特征的有效融合和情緒識別。
對話中的每一個語句都會提取音頻、文本和圖像這三個模態的特征 ua,ut,uv 。將這三個模態的特征拼接起來,作為圖神經網絡的節點特征,用于建立圖神經網絡,進而提取對話中的時間信息及交互全局信息。同時將 ua,ut,uv 拼接后的特征輸入到特征融合層中的超復數特征融合模塊以及成對Transformer模塊中,前者用于模擬超復數以提取多模態間隱藏的同質性信息,后者用于建立三個模態間兩兩模態的對比關系,以提取模態間的特異性信息,最后將得到的兩組特征拼接后作為模態的局部特征信息。

2.1 圖神經網絡
在情感識別(ERC)任務中,對話中的每句話的情緒是實時變化的,想要準確地識別對話中的情感,就需要對對話進行句子級別的特征劃分。在對話場景中,個體情緒的表達不僅受到語境信息的影響,還與說話者間的關系和對話互動中的情緒動態緊密相關。因此,對對話參與者的特征進行有效建模和融合,以捕捉其時間序列和關系屬性,成為了情感識別領域的一項重要挑戰。為了應對這一挑戰,對話固有的圖結構特性為此提供了新的視角,圖神經網絡因其在捕捉結構化數據中的復雜依賴關系方面的能力,為理解和建模對話中的情緒動態提供了一種創新的方法論。
為了從對話中提取時間特性,本文構建了一個基于對話特征的關系圖網絡。在這個網絡中,節點代表對話中的個體,邊代表個體間的關系。同時為了更好地捕獲對話依賴的關系特征,本文對節點中的三個模態信息建立相應的子圖,子圖的格式定義為 G={V,R,E} ,其中
分別代表圖神經網絡的節點、邊以及邊所對應的節點聯系。子圖中不同節點 v1?v2?v3 為句子級別的三個模態特征 xa,xt,xv ,將不同模態間建立邊,并設定三種邊的類型如下:

其中:設定類型1為音頻與文本間的邊關系;類型2為圖像與文本間的邊關系;類型3為音頻與圖像間的邊關系。
將每段對話中提取的子圖特征視為對話圖結構的節點。在此基礎上,構建一個有向圖,通過在節點之間創建邊來捕捉對話的不同特征。為每輪對話構建有向邊的目的在于捕捉對話中的多樣性特征,通過連接節點來強化時間上的聯系,同時考慮節點之間的時間序列和相互作用關系。這種構建方法有助于更深入地理解和分析對話的結構和動態。
構建有向圖時,為了捕捉多個節點間的時間序列,通過設定一個確定大小的滑動窗口,用于捕捉對話中的時間序列。通過設定圖中所有節點及鄰近節點信息作為時間步 τ 的更新值giτ 。外層求和確保每個節點都被考慮到,而內層求和則確保每個節點的鄰居都被考慮到,從而實現節點狀態的更新。具體來說,對于任意的說話節點 V(i) ,需要通過節點 i 的鄰近節點特征作為學習本節點輸入特征,則對于節點 χi 的更新值 giτ 可以表示為

其中: R(i) 是節點 i 的鄰近節點; V 是指對于圖中的所有節點集合; Wr 與 W0 為圖特征網絡的學習參數; xiτ 是節點 χi 的特征向量;構建節點間有向圖結構如圖3所示。

為了更好地提取所構建的圖特征,本文先將構建好的圖結構經過RGCN進行圖特征捕獲,對提取到的圖特征放進graphTransformer模型中以獲取更豐富的特征表示[24]。graph Trans-former結合了Transformer模型的自注意力機制和圖神經網絡的特點,首先對其每個節點計算注意力得分,對于圖中的每一個節點,為了更好地計算注意力得分,對當前節點與其鄰近節點間計算注意力得分,并將其表示為

其中: W1?W2 為注意力機制可學習的參數;
為節點的更新值。然后將注意力得分通過softmax激活函數計算歸一化:

其中: αi,jτ 為節點注意力得分; N(v) 為節點集。最后將獲取到的節點特征經過聚合后加入到一個線性層中并進行ReLU激活函數進行非線性變換,將其表示為
a=ReLU(W3δ+b)
其中: W3 為線性層可學習的參數; δ 為提取到的窗口節點特征集合: b 為偏置項。
2.2超復數特征融合
多模態特征的優勢在于能夠從不同視角提供影響預測結果的信息。相較于單一模態情緒預測,多模態特征融合了同質性特征,其中不同模態(例如文本、音頻、視頻)提供了關于同一現象或事件的不同層次和視角的信息。為了充分利用這些特征,本文不僅提取了不同模態間的共性特征,還通過模態間的交互作用識別了它們之間的差異性特征。受此啟發,本文在MEPAD結構中采用了類似雙流網絡的提取規則[25],設計了超復數特征融合模塊來提取跨模態間的共性特征,利用超復數的乘法與加法規則可以分別表示特征的疊加和變換,這些變換操作可以更靈活地將不同模態的特征進行組合和調整[19],從而提高了特征融合的靈活性和效果,以增強對多模態特征同質性的捕捉能力。
對于給定的多模態數據,本文將三個模態的融合特征xi(atv) 作為超復雜神經網絡的輸入,將其輸入進預定義的超復雜神經網絡中,該神經網絡根據數學中的超復數延申而來,一般的超復數定義為

其中: h 為實數:
為虛數單位。但由于特征的多維性,簡單的超復數無法滿足特征的疊加及變換,所以便將特征的融合擴展到超復數數系中執行[26]。一般的超復數數系定義在 n∈2m 的預定義維度上,鑒于本文使用三模態特征,復數域設計為 {i,j |k| ,為此設計本網絡時采用 n=4 的四元Q域中進行。對于輸入的特征 xi(atv) ,為了應用于四元數數系的運算規則,本文將輸人的特征劃分為四部分,需要將輸入的特征進行維度的擴展為{1,x1,x2,x3} ,以便于模擬復數的實現過程。在四元數數系中訓練的權重矩陣也需要重新進行定義,權重矩陣定義為
W=W0+W1x1+W2x2+W3x3
其中: W0、W1、W2、W3 為可訓練參數,代表實數域參數 x1、x2、x3 為 x(atv) 劃分的三部分特征代替虛數部分特征。為此,對于四元域的定義,可將特征的映射關系定義為

此時的訓練權重參數 W 以及輸入特征 W0、W1、W2、W3 均被改變為所需要的四元矩陣,其中 W0、W1、W2、W3 為超復數域可學習的參數, x1、x2、x3 為輸入特征劃分,1為常實數擴展維度。通過矩陣的乘法來模擬在四元數數系的乘法與加法法則,從而捕獲多模態數據間的“同質性”特征。同時由于使用的權重矩陣在輸人維度中是共享的,使得訓練中的參數量也減少了1/4,在獲取多模態數據特征的同時進行了輕量化處理[27]
2.3成對模態特征融合
捕捉多模態數據之間的差異性特征有利于提高模型對不同情感的差異敏感度,捕獲異構性意味著能夠從每個模態中提取獨特的、互補的信息,有助于提高模型對數據的表達能力,這對于全面理解復雜現象至關重要。為了捕捉每個模態間的特異性,本文使用兩兩模態融合的特征提取方法來捕獲模態間的交互作用,因此對于輸入的多模態特征 xi(atv) ,本文對于三個模態的數據進行兩兩自由組合為! xi(vt) xi(av) xi(at) ,將組合得出的三組特征分別放人預定義的Transformer中,Transformer代表一個多頭注意力機制,用于關注不同模態間不同特征的重要程度,從而增強對于不同模態信息的捕獲能力[28]
使用多頭注意力機制捕獲特異性特征原理如圖4所示,在一個多頭注意力機制中,本文對輸入兩個模態的數據執行多頭注意力機制,為了關注到模態的特異性特征,在進行注意力得分時考慮使用反轉注意力機制。文獻[29]證明了反轉注意力機制的有效性,為此對于輸入的兩模態特征
,首先為每個注意力頭初始化一組
權重矩陣:


其中: Ψxi,xj 為兩種不同的模態特征; WQ,WK,WV 是可學習的權重矩陣,用于將原始特征映射到查詢、鍵和值空間。根據 Zou 等人[30]的研究表明相比于語音和圖像模態,文本模態在多模態任務中具有較強的特征表示能力。為此通過對一個模態的信息在另一個模態中計算注意力得分并歸一化,將三個模態注意力設計為


其中:
為兩種不同模態的查詢值;
為文本及視頻特征獲取的鍵值。最后將得到的注意力得分計算加權求和得到特異性特征,將其描述為

其中: Vt,Vv 為兩種不同模態的值。

3實驗
3.1 實驗準備
a)數據集準備。(a)IEMOCAP數據集是一個包含5男5女對話場景的大型多模態情感識別數據集。該數據集涵蓋了圖像、語音、文本和生理信號等多種模態信息,并針對每句話進行了細致的情緒分類。實驗重點在于對比分析IEMOCAP數據集在四分類(快樂、悲傷、憤怒、中性)和六分類(包括興奮和挫敗)情境下的表現。(b)MOSEI數據集是當前最大的多模態情感分析和情緒識別數據集。其包含了來自1000名不同演講者的22852個帶注釋的視頻剪輯,覆蓋了廣泛的主題和情感表達。數據集是性別平衡的,所有句子都是從各種主題和獨白視頻中隨機選取的[31]
b)數據處理。本實驗中采用兩個數據集的語音,文本以及視頻三個模態的特征,語音的處理使用OpenSmile進行特征提取,文本特征通過sBERT進行提取,視覺特征通過OpenFace提取。
c)評價標準。在本實驗中,評估標準主要通過兩個指標進行量化:一方面,利用預測準確性作為評價標準;另一方面,綜合考慮精確度和召回率的加權調和平均值— ?F1 分數,作為衡量模型性能的關鍵指標。
d)基線模型。本文對MEPAD結構在IEMOCAP數據集的四分類與六分類任務中與特定模塊基線進行比較,并對MOSEI數據集的七分類任務進行比較。其中包括不同模塊組的實驗對比,其中包括多模態融合模塊CHFusion、BPGT[32.33]同時本文將現有的多模態模型與本文的模型進行比較,包括ICON、DialogueRNN、MMGCN、DialogueCRN、COGMEN以及CORECT[6,14,16,21,23,34] O
3.2 實驗比較
本文在IEMOCAP數據集的四分類和六分類任務,以及MOSEI數據集的七分類任務中,對不同模型進行了廣泛的實驗比較。這些實驗旨在驗證本文提出的特性分流提取結構在多模態情感識別中的有效性。
在IEMOCAP數據集的六分類任務中,本文模型與對比模型進行了比較。表1展示了實驗結果,為了公平對比,COGMEN與CORECT結果為開源代碼重新運行,其中加粗的數字表示在不同類別上取得的最佳 F1 得分。分析實驗數據可以發現,除了happy類別的 F1 得分低于CORECT,sad類別的 F1 得分略低于COGMEN外,其他所有類別的 F1 得分均優于現有基線。這一優勢可能源于本文在特征融合時不僅提取了多模態數據的共性特征,還通過兩兩模態融合提取了模態間的異構性特征。這種方法有助于更精確地區分相似情緒,從而提高了模型對相似情緒的識別精度。在sad類別分類時,由于相似情緒的區分度不夠,導致COGMEN的sad較高,frustrated類別識別度低。在happy類別分類時,當相似情緒感知更清晰時,數據集不平衡問題影響會增加導致happy類精度降低。

在IEMOCAP數據集的四分類問題上,MEPAD同樣顯示出了其有效性,具體結果詳見表2。與三個現有模型相比,盡管基線模型已經取得了較高的準確率,MEPAD在精確度和 F1 分數上分別提高了0.74和0.72百分點。盡管這一提升幅度不如在六分類問題上的表現突出,但可能的原因是四分類問題本身較為簡單,因此在準確率提升方面面臨更大的挑戰。

此外,本文還在MOSEI數據集的七分類問題上開展了對比實驗,相關實驗結果列于表3。此結果進一步驗證了本文模型在不同情感識別任務中的有效性和適應性。

從表2、3可以觀察出,本模型在不同數據集上的提升存在部分差異性,造成數據提升差異的原因可能有以下兩點:a)IEMOCAP數據集的任務是四分類問題,相對較為簡單,因此在精度提升上遇到了更大的挑戰。在IEMOCAP四分類數據集中,情緒的區分度較高,不同情緒之間的界限較為明確,這導致異構性特征提取的作用不如在更復雜的情緒感知任務中那么顯著。b)MOSEI數據集由于其特定的錄制場景,情緒的區分度也較高,這可能使得MEPAD結構的優勢不如在IEMOCAP數據集中那樣明顯。MOSEI數據集的特點是其包含了來自1000名不同演講者的22852個帶注釋的視頻剪輯,覆蓋了廣泛的主題和情感表達,這為情緒感知提供了豐富的情境信息,但同時也可能限制了模型在捕捉細微情緒差異方面的潛力。
3.3 消融實驗
3.3.1主要模塊的作用
本文開展了一系列消融實驗,以展示特征模塊的作用。對三個分流特征提取模塊進行了相應的消融實驗;首先,對多模態融合中的GNN模塊進行了簡單的基線實驗。隨后,利用Transformer進行模態融合,并針對成對Transformer及超復數模塊進行了消融實驗。
在IEMOCAP六分類任務上,本文進行了類似的實驗,結果有顯著提升,不同模塊對比結果如表4所示。當僅使用簡單GNN模塊進行融合時,模型預測精度顯著降低。實驗證明,相較于疊加使用兩個模塊,不采用兩兩模塊融合時模型 F1 得分下降了1.94百分點;而不使用超復數模塊時,模型 F1 分數同樣下降了1.81百分點。同時,本研究注意到直接應用Trans-former時模型 F1 分數達到了 68.97% ,其主要原因在于直接利用Transformer能夠通過多頭注意力機制更好地關注重要數據,從而提高預測效果,相反,當使用成對Transformer時,由于是對于三個模態的兩兩提取,導致三個模態特征并不能有效融合。

然而,當將Transformer與超復數模塊結合時,并未提升模型精度,原因可能是Transformer與超復數模塊的特征提取有重復。反而通過設計成對Transformer與超復數模塊,可以更有效地提取特征。這是因為成對Transformer與超復數模塊能夠互補地提取多模態數據中不同性質的特征,從而實現更優的預測結果。
本文對特征分流模塊中提取同質性與異構性特征的融合策略進行了相應的消融實驗。具體而言,本文探討了兩種模塊的使用方式,包括交叉使用、串行使用和并行使用。不同融合策略對比結果如表5所示,串行使用所獲得的 F1 得分最低,僅為 67.45% ;而交叉使用的 F1 得分為 68.41% ,并行使用則達到了 70.39% 。實驗結果表明,采用并行融合方式能夠展現出模塊的最佳性能,其原因可能在于并行方式更有效地提取了多模態數據中的異構性與同質性信息。

3.3.2超復數模塊中參數 n 的作用
本文對多模態特征輸人超復數系中的參數 n 進行了不同大小的實驗,通過改變參數 n 分析其對模型的影響。正常超復數數系定義為 n∈2m 維度上,但對于 n=3 時本文使用克羅內克積來模擬超復數乘法[35],使 n=3 也能進行對比,不同參數 n 對比結果如表6所示。從實驗結果可以看出,相較于在 n=4 的四元數系中進行特征融合,使用 n=3 與2的超復數模塊來進行多模態的數據融合均有著不同程度的降低,分別下降了1.36和2.3百分點。原因可能是當 n=3 時使用克羅內克積模仿超復數數系的乘法規則并不完美,當使用 n=2 時,由于只將輸入特征劃分為兩部分,且權重變換形式較為簡單,導致這兩種參數的特征融合效果并不理想。

3.4誤差分析
本文為了探討實驗中誤差所在原因,對兩個數據集中的三個分類任務進行實驗,兩個數據集的混淆矩陣如圖5和6所示。
圖5展示了IEMOCAP數據集的兩組分類任務的混淆矩陣圖。分析顯示,造成實驗出現誤差的原因之一是數據集不平衡,特別是某些類別的樣本數量遠多于其他類別,這可能導致模型過度擬合于這些類別。同時,相似情緒之間的分類誤差也對實驗結果有影響,如六分類任務中happy與excited標簽的結果所示,相似情緒的誤分類率較高,這可能是因為這些情緒在特征上具有較高的相似性,使得模型難以區分。

圖6展示了MOSEI數據集的分類任務的混淆矩陣圖。分析表明,造成實驗出現誤差的主要原因也是數據集不平衡,盡管這種不平衡對模型性能的影響不如IEMOCAP數據集那么劇烈。此外,對于相似情緒的分類影響相對較小,例如在neu-tral類別中,weaknegative的分類數反而沒有negative的多,這可能表明模型在區分這些細微情緒差異方面具有一定的能力,但仍然存在挑戰。

3.5智能輪椅對話樣本算例及分析
為了更直觀地展示本文研究在主動健康領域的應用,尤其是針對智能輪椅的對話情感感知技術,本文設計了一個具體的對話樣本案例,模擬智能輪椅在日常生活中的使用場景,并對該案例進行了深入分析,具體對話樣本案例如表7所示。

在上述案例中,智能輪椅通過多模態情緒識別技術實時監測用戶的情緒狀態。用戶輸入包括攝像頭識別到的圖像和麥克風捕捉到的語音。當用戶表達出開心的情緒時,智能輪椅能夠準確識別并生成相應的積極回應。具體實現流程如圖7所示,圖中步驟3正是本文模型發揮關鍵作用的區域。該算法精準地識別和處理情緒相關的信息,確保系統能夠準確地感知使用者的情緒變化,并據此生成針對性的響應。這種主動響應不僅增強了用戶的積極情緒,還提升了用戶的生活質量,體現了主動健康的理念。

4結束語
在主動健康領域,情緒感知技術的重要性日益凸顯,情感人工智能在醫療健康領域的應用也在不斷深化。該技術通過情緒的識別、解釋與響應,優化患者體驗,尤其在遠程醫療需求不斷增長的背景下。因此,本文聚焦于對話場景中的情緒感知問題,并提出了一種創新的特征提取框架,目的是提升對多模態情緒信息的理解和識別能力。該框架由兩兩模態融合模塊、超復雜特征融合模塊和圖卷積模塊三個主要模塊組成。其中,兩兩模態融合模塊通過模態間的交互信息捕獲異構性信息;超復雜特征融合模塊利用復數運算法則在超復數域中提取模態間的隱性及共性信息;圖卷積模塊則構建復合圖結構以捕獲對話中的時序和關系信息。通過在IEMOCAP數據集上的四和六分類任務以及MOSEI數據集上的對比實驗,以及對不同模塊間的消融實驗,驗證了MEPAD框架的有效性。此外,通過消融實驗和替換實驗,本文分析了框架中各組成部分的作用,并證明了MEPAD設計的合理性。
然而,本文存在一定的局限性。MEPAD結構中的超復雜模塊對輸入數據模態的適用性受限于超復數數系的表現,但研究中對于 m=2n 以外的其他維度參數 m ,僅使用克羅內克積來模擬復數的乘法,未能完全達到預期效果。此外,由于使用了圖神經網絡,本文無法實時捕捉對話中人物的情緒,主要原因是建立圖結構時需要為當前話語的后續對話也建立聯系,為此便需要后文信息,導致無法實現實時預測。未來通過設計更為合理的圖結構,僅利用前文對話信息建立圖結構的邊關系,以實現對當前情緒的實時預測,從而使其能夠實時應用于各種對話場景。這種實時性的要求將是未來研究的一個重要方向,特別是在主動健康領域,情緒感知技術的發展將為個性化健康管理提供更深層次的理解和支持,從而促進全民健康水平的提高。
參考文獻:
[1].Majumder N,Hazarika D,Gelbukh A,et al. Multimodal sentiment analysis using hierarchical fusion with context modeling[J].Knowledge-Based Systems,2018,161:124-133.
[2]Hasnul MA,Aziz NAA,Alelyani S,et al.Electrocardiogram-based emotion recognition systems and their applications in healthcare:a review[J].Sensors,2021,21(15):5015.
[3]Poria S,Majumder N,Mihalcea R,et al.Emotion recognition in conversation:research challenges, datasets, and recent advances [J].IEEE Access,2019,7:100943-100953.
[4]Pang Lei,Ngo C-W. Mutlimodal learning with deep Boltzmann machine for emotion prediction in user generated videos[C]// Proc of the 5th ACM on International Conference on Multimedia Retrieval. NewYork:ACM Press,2015:619-622.
[5]Zheng Wenjie,Yu Jianfei,Xia Rui,et al.A facial expression-aware multimodal multi-task learning framework for emotion recognition in multi-party conversations[C]//Proc of the 61st Annual Meeting of the Association for Computational Linguistics. 2023:15445-15459.
[6]Hazarika D,Poria S,Mihalcea R,et al.ICON: interactive conversational memory network for multimodal emotion detection[C]//Proc of Conference on Empirical Methods in Natural Language Processing. 2018:2594-2604.
[7]Ma Hui, Wang Jian,Qian Lingfei,et al. HAN-ReGRU: hierarchical atention network with residual gated recurrentunit for emotion recog nition in conversation [J].Neural Computing and Applications, 2021,33(7) :2685-2703.
[8]Li Jiang,Wang Xiaoping,Lyu Guoqing,et al. GraphMFT: a graph network based multimodal fusion technique for emotion recognition in conversation[J].Neurocomputing,2023,550:126427.
[9]Li Jiang,Wang Xiaoping,Lyu Guoqing,et al. GraphCFC: a directed graph based cross-modal feature complementation approach for multimodal conversational emotion recognition[J].IEEE Tran on Multimedia,2023,26:77-89.
[10]沈旭東,黃賢英,鄒世豪.基于時序感知DAG的多模態對話情 緒識別模型[J].計算機應用研究,2024,41(1):51-58.(Shen Xudong,Huang Xianying,Zou Shihao.Multi-modal temporal-aware DAG for emotion recognition in conversation[J]. Application Research of Computers,2024,41(1):51-58.)
[11]Grassucci E,Sigillo L,Uncini A,et al. Hyper complex image-toimage translation[C]//Proc of International Joint Conferenceon Neural Networks. Piscataway,NJ: IEEE Press,2022:1-8.
[12] Zhang Dong,Ju Xincheng,Li Junhui,etal.Multi-modal multi-label emotion detection with modality and label dependence [C]//Proc of Conference on Empirical Methods in Natural Language Processing. 2020: 3584-3593.
[13]Zadeh A,Chen Minghai,Poria S,et al.Tensor fusion network for multimodal sentiment analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing. 2017:1103-114.
[14]MajumderN,Poria S,Hazarika D,et al.DialogueRNN:an attentive RNN for emotion detection in conversations [C]// Proc of AAAI Conference on Artifial Intellgence.Palo Alto,CA:AAA Pres, 2019: 6818-6825.
[15] GhosalD,MajumderNPoria S,etal.DialogueGCN: agraphovo lutional neural network for emotion recognition in conversation [C]// Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. 2019:154-164.
[16]Wei Yinwei,Wang Xiang,Nie Liqiang,et al.MMGCN: multi-modal graph convolution network for personalized recommendation of microvideo[C]//Proc of the27th ACM International Conference on Multimedia.NewYork:ACMPress,2019:1437-1445.
[17]Labbaki S,MinaryP.Orthogonal sequential fusionin multimodal learning[C]//Proc of ICLR Conference.2024:submission No. 7815.
[18]Hazarika D,Poria S, Zadeh A,et al. Conversational memory network for emotion recognition in dyadic dialogue videos[C]//Proc of Conference Association for Computational Linguistics North American Chapter Meeting.2018:2122-2132.
[19]Lopez E,Chiarantano E,Grassucci E,et al.Hyper complex multimodal emotion recognition from EEG and peripheral physiological signals[C]//Proc ofIEEE International Conference on Acoustics, Speech,and Signal Processing Workshops. Piscataway,NJ: IEEE Press,2023:1-5.
[20]Yang Jianing,Wang Yongxin,Yi Ruitao,et al.MTAG:modaltemporal attentiongraph forunaligned human multimodal language sequences [C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.2021.
[21]Joshi A,Bhat A,Jain A,et al. COGMEN:contextualized GNN based multimodal emotion recognition[EB/OL].(2022). https:// arxiv.org/abs/2205.02455.
[22]Chen Feiyu,Shao Jie,Zhu Shuyuan,et al.Multivariate,multifrequency and multimodal:rethinking graph neural networks for emotion recognition in conversation [C]//Proc of IEEE/CVF Conference on ComputerVision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023:10761-10770.
[23]Nguyen C VT,Mai A T,Le T S,et al. Conversation understanding using relational temporal graph neural networks with auxiliary crossmodality interaction[EB/OL].(2023).https://arxiv.org/abs/ 2311. 04507.
[24]Yun S,Jeong M,Kim R,et al. Graph Transformer networks[EB/ OL].(2019).https://arxiv.org/abs/1911.06455.
[25] Concha D T,De Almeida MH,Pedrini H,et al. Multi-stream convolutional neural networks for actionrecognition invideo sequences based on adaptive visual rhythms[C]//Proc of the 17th IEEE International Conference on Machine Learning and Applications.Piscataway,NJ:IEEE Press,2018: 473-480.
[26]Grassucci E, Zhang A,Comminiello D. PHNNs: lightweight neural networks via parameterized hyper complex convolutions [J]. IEEE Trans on Neural Networks and Learning Systems,2024,35 (6): 8293-8305.
[27]Zhang A,Tay Y, Zhang Shuai,et al.Beyond fuly-connected layers with quaternions:parameterization of hypercomplex multiplications with 1/n parameters[EB/OL].(2021).https://arxiv.org/abs/ 2102.08597.
[28]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need [EB/OL]. (2017).htps://arxiv.org/abs/1706.03762.
[29]Li Jian,Wang Jiawei,Lin Fengwu,et al. PRCNet: a paralel reverse convolutional attention network for colorectal polyp segmentation[J]. Biomedical Signal Processing and Control,2024,95:106336.
[30] Zou Shihao,Huang Xianying,Shen Xudong,et al.Improving multimodal fusion with main modal Transformer for emotion recognition in conversation [J].Knowledge-Based Systems,2022,258:109978.
[31]Yang Shuwen,Chang HJ,Huang Zili,et al.A large-scale evaluation of speech foundation models[J]. IEEE/ACM Trans on Audio, Speech,and Language Processing,2024,32:2884-2899.
[32]Huang Gexin,Wu Chenfei,Li Mingjie,et al.Predicting genetic mutation from whole slideimages via biomedical-linguistic knowledge enhanced multi-label classification[EB/OL]. (2024). https://arxiv. org/abs/2406.02990.
[33]Jin Biaojian,Nie Rencan,Cao Jinde,et al.CHFusion:a crossmodality high-resolution representation framework for infrared and visible image fusion[J/OL]. IEEE Trans on Multimedia.(2023-07- 12).https://doi.org/10.1109/TMM.2023.3294814.
[34]Hu Dou,Wei Lingwei,Huai Xiaoyong.DialogueCRN:contextual reasoning networks for emotion recognition in conversations[C]// Proc of the59th Annual Meeting of Association for Computational Linguistics and the11th International Joint Conference on Natural Language Processing. 2021:7042-7052.
[35]Leskovec J,Chakrabarti D,Kleinberg J,et al.Kronecker graphs:an approach to modeling networks [EB/OL].(2008). https://arxiv. org/abs/0812.4905.