基于深度特征交互與層次化多模態融合的情感識別模型

2025-07-28 00:00:00王健趙小明王成龍張石清趙舒暢

計算機應用研究 2025年7期

關鍵詞：多模態情感識別；層次化融合；多尺度融合；特征融合

中圖分類號：TP391 文獻標志碼：A 文章編號：1001-3695（2025）07-008-1978-08

doi：10. 19734/j.issn.1001-3695.2024.11.0487

Abstract：Multimodalemotionrecognitionhasrecentlybecomeanimportantresearchdirectioninafectivecomputing，aiming to moreaccuratelyrecognizeandunderstand human emotional states by integrating various modalitiessuchasspeechandtext. However，existingmethodslacktheprocessngofinter-modalcorelationsduringfeatureextractionandoverlook multi-scale emotionalcuesduring feature fusion.Toaddresstheseisues，thisstudyproposedadeepfeature interactionand hierarchical multimodal fusionemotionrecognition model（DFIHMF）.Inthefeature extraction stage，themodel enhanced interactionsbetweendifferentmodalitiesandextractedmulti-scaleinformationbyintroducinglocalknowledgetokens（LKT）andcrosmodal interaction tokens（CIT）.Inthefeature fusionstage，the model integratedcomplexmultimodalfeaturesandmulti-scaleemotionalcesusingahierarchical fusionstrategy.ExperimentalresultsontheMOSIandMOSEIdatasetsshow thatthemodel achieves accuracy rates of 45.6% and 53.5% on the ACC7 evaluation metric，demonstrating that the proposed method outperforms existing technologies in multimodal emotion recognition tasks.

Key Words：multimodal emotion recognition；hierarchical fusion；multi-scale fusion；feature fusion

0 引言

情感識別是自然語言處理（naturallanguageprocessing，NLP）中的一項核心任務，其目標在于分析和處理輸入文本，以估計對象的情緒狀態。傳統情感識別研究主要集中于文本模態，然而，隨著多媒體平臺的迅速發展，包含文本、圖像、語音等多種形式的數據呈現出爆炸式增長，這使得情感識別的輸入不再局限于單一文本模態。音瀕與圖像模態也可以作為輸人，這些不同模態通過提供互補信息，能夠有效提升情感識別的精度。因此，近年來，多模態情感識別（multimodalemotionrecognition，MER）逐漸成為研究熱點，并在諸如人機交互、醫學監測[和教育[3]等諸多領域得到了廣泛應用。隨著多模態數據的不斷增加和處理技術的不斷進步，如何高效地融合不同模態的信息以提升情感識別的性能，已成為該領域的重要研究方向。

近年來，大規模預訓練語言模型4和音頻模型5取得了顯著進展，推動了基于預訓練模型的多模態融合方法迅速發展。在預訓練模型的多層編碼器結構中，低層編碼器主要負責捕捉輸入文本的淺層特征，包括詞匯的基本含義和語法結構，其側重于處理細粒度的信息，尤其是詞級別的具體細節。相對而言，高層編碼器則聚焦于抽象高級語義信息，能夠捕捉長距離依賴關系和復雜的語義特征，整合全局信息，處理句子語義和主題等宏觀內容，從而表示輸入的粗粒度特征。例如，Xie等人[提出了一種基于多任務學習和預訓練模型的多模態融合情感識別方法，該方法通過增強模態間的互動與情感表達，顯著提高了情感識別的準確性和泛化能力。然而，現有的多模態情感識別方法在特征提取階段普遍采用獨立模態處理的方式，即對不同模態的數據分別使用對應的預訓練模型單獨提取特征。每種模態在特征提取過程中相互獨立，缺乏模態之間的深度交互，從而忽視了不同模態之間潛在的互補信息與協同作用。例如， Hu 等人[提出了一種交互注意力方法來融合多模態信息以用于語音情感識別，其通過預訓練模型與基于頻譜的模型分別獨立提取音頻特征與頻譜特征并進行情感預測。這種處理方式導致提取的多模態特征信息不夠充分，進而限制了后續多模態特征融合階段的效果，影響整體性能。

早期的多模態融合方法主要依賴于淺層特征融合，這些方法在整合多模態信息方面存在一定的局限性。具體來說，這些方法通常通過在決策層進行簡單的拼接或加權融合來實現多模態的整合，但在處理復雜的多模態關系時，效果較為有限。例如，Poria等人[8提出了一種基于卷積多核學習的多模態情感識別模型，該模型通過不同的卷積核提取文本、音頻和視頻的特征，并將這些特征拼接后進行情感預測。類似地，Sun等人[9提出了一種將文本、音頻和視頻特征向量簡單拼接的多模態融合方法，隨后通過深度典型相關分析進一步學習這些模態之間的相關性，以提升情感預測性能。盡管這些方法能夠整合來自不同模態的信息，其表現仍然受到一定限制。這主要是因為情感表達通常涵蓋多個層次的信息，從具體的詞匯和語音特征到抽象的語義線索。例如， W_u 等人[10]提出了基于時間感知雙向多尺度網絡和多頭注意力機制的改進型多模態情感識別模型，該模型不僅通過跨模態注意力機制加強了語音與文本模態之間的交互，還利用多尺度特征提取捕捉情感變化信息。然而，現有方法在特征融合時往往僅依賴預訓練模型的最后一層輸出作為特征，并沒有利用到特征提取時原生存在的多層次語義信息。這種方式難以充分捕捉多層次信息，進而限制了情感識別的準確性和泛化能力。特別是在處理模態間互補信息時，簡單的淺層特征拼接方式難以有效展現不同模態特征之間的協同作用，從而限制了模型在復雜情感場景下的識別能力。

為了解決上述問題，本文提出了一種基于深度特征交互與層次化多模態融合的情感識別模型（deepfeatureinteractionandhierarchical multimodal fusionfor emotionrecognition，DFIHMF）。該模型首先引入兩種類型的額外令牌（token）作為預訓練模型的中間輸入，分別為跨模態交互令牌（cross-modalinteractiontoken，CIT）和本地知識令牌（localknowledgetoken，LKT）。其中，CIT旨在增強模態間的交互性，通過動態特征映射機制在不同模態之間傳遞信息，捕捉模態間的互補特性與協同關系。不同模態（如文本和語音）的特征通常存在顯著的互補性，CIT通過跨模態特征交互機制，將一種模態的信息顯式映射到另一模態的特征空間，促進模態間的深度協同與互補，從而更好地揭示模態間的潛在聯系。例如，CIT在文本編碼器中通過非線性映射將文本的潛在特征空間映射到音頻特征空間，從而將文本模型中的知識傳遞到音頻模型，促進跨模態的深度理解。而LKT用于在模態內部捕捉多層次的情感線索，涵蓋局部細節與全局語義，并通過前向傳播學習與總結當前模態與跨模態的融合表示。例如編碼器在接收到CIT傳遞的跨模態信息后，LKT逐步在預訓練模型的不同層次中學習并表達層次化的語義信息，從局部到全局捕捉情感線索。這一設計不僅確保了每種模態的特征在進入融合階段之前得到充分提取與總結，還為后續的跨模態交互與融合提供了更高質量的輸人，有效彌補了現有方法在多尺度特征捕獲上的不足。這種雙重令牌設計既增強了模態間的交互能力，又提升了模態內部的特征提取質量，為情感識別任務提供了更具表現力的特征表示。現有模型大多在特征提取完成后才進行模態特征融合，忽視了在特征提取階段實現模態間交互的潛力。本文方法通過CIT在特征提取過程中動態融合模態間的信息，從源頭上強化了模態協同作用。此外，現有方法通常僅依賴于高層語義信息，未能充分利用特征提取過程中各層隱含的多層次情感線索。通過LKT，本文有效捕捉了模態內部的局部細節和全局語義信息，使得多模態特征的表達更加全面，從而為情感識別提供了更高質量的基礎特征。

進一步地，本文設計了一種層次化融合模型，將預訓練模型提取的高級特征與不同層次的LKT進行融合，使得模型能夠在保留高級語義特征的同時，有效融合多尺度的語義特征。這種融合策略顯著提升了模型的泛化能力，使其在處理復雜情感場景時能夠表現得更加出色。大量實驗結果表明，DFIHMF在應對多模態情感識別中的關鍵挑戰并提升多個數據集上的情感識別準確性方面，展現出了顯著的效果。本文的主要貢獻總結如下：

a）提出了一個新型的多模態特征提取框架，通過引入兩種類型的額外令牌，促進預訓練模型的雙向同步融合，從而增強不同模態間基礎知識的交互。b）提出了層化融合模型，將高層語義信息與低層語義信息相結合，提升了模型對語義的全面理解以及對細粒度情感線索的關注能力，進而增強了模型的泛化性。c）在CMU-MOSI和CMU-MOSEI數據集上進行實驗，結果驗證了DFIHMF方法的有效性。

1相關工作

1.1 預訓練模型

近年來，預訓練模型（如BERT、wav2vec等）在自然語言處理領域取得了顯著進展，并廣泛應用于多模態情感識別任務中[1]。研究者們通過對多模態數據輸入應用預訓練模型進行特征提取，以增強情感識別能力。例如，Li等人[12]提出了一種解耦與融合模型，該模型通過三種獨立的預訓練模型進行特征提取，并采用雙層解耦機制、貢獻感知融合機制以及上下文重融合機制，顯著提升了對話情感識別的性能。Fan等人[13]提出了一種名為AttA-NET的網絡，利用預訓練模型提取音頻和視覺特征，并通過注意力聚合模塊實現高效的多模態情感識別融合，從而顯著提高了識別精度。此外，張小艷等人[14]提出了一種三級聯合提示隱式情感分析方法，結合大語言模型與預訓練模型，逐級推理目標方面、潛在觀點和情感極性，有效解決了隱式情感特征缺失的問題。然而，這些研究在使用預訓練模型提取特征時，往往忽視了不同模態預訓練模型之間的信息交互。現有的大多數方法通常獨立提取每個模態的特征，并在后續的融合階段對這些特征進行特定的融合操作[15]。這種方式未能充分利用多模態之間的潛在互補信息，限制了模型在復雜情感場景中的表現，尤其是在需要融合多種感知信號以進行更準確情感識別的情況下。因此，在預訓練模型的特征提取階段引入跨模態的交互信息，已成為當前研究中的一個重要挑戰和發展方向。

1.2多模態情感識別

在多模態情感識別領域，研究者主要關注如何有效融合多種模態數據（如文本、語音、視覺），以提升情感識別的準確性和泛化性。現有研究多集中于設計不同的融合機制，以綜合利用多模態信息。常見的融合方法包括特征級融合、決策級融合和模型級融合。首先，特征級融合是多模態情感識別中常見的方法之一，其核心思想是提取各模態特征并進行融合，隨后輸入分類器或回歸模型。早期研究主要采用簡單的特征拼接，但此方法忽略了模態間的潛在交互信息。因此，近年來提出了許多改進的方法。例如， ΔZhou 等人[17]提出了一種基于自注意力機制和雙線性池化與多級因式分解的特征級融合方法，用于多模態情感識別。Priyasad等人[18則提出了基于注意力驅動的多模態情感識別模型來融合文本和語音數據以進行情感分類。其次，決策級融合方法首先對每種模態的數據進行獨立建模，然后結合各模態的預測結果得到最終的情感識別結果。Zhang等人[19提出了一種基于生理信號的決策級融合算法，利用均值閾值來解決個體差異，融合多分類器以提升情感識別的準確性。該方法的優勢在于各模態的處理可以獨立進行，適用于模態異構性較大的場景。最后，模型級融合方法通過設計多模態聯合建模架構，直接捕捉不同模態間的深層次交互信息。例如，部分研究采用多模態Transformer架構，通過多頭自注意力機制實現模態間的交互[20]。李健等人[21]提出了一種連續情感識別方法，利用感知重采樣模塊去除冗余信息，壓縮關鍵特征，并通過交叉與自注意力機制實現多模態數據融合。此外，一些研究利用圖神經網絡構建模態間的圖結構，以更好地捕捉模態間的關系[22]。例如李紫荊等人[23]提出了一種基于圖神經網絡的多模態融合的語音情感識別模型，通過圖結構優化文本和聲學特征以提升多模態特征的融合效果，同時降低模型復雜度。

最近的研究逐漸將關注點聚焦于通過增強模態間交互來提升多模態情感識別的效果。例如， Hu 等人提出了一種基于交互注意力的聯合網絡方法，融合了預訓練模型與頻譜模型的中間特征以進行語音情感識別，并通過多分支訓練策略進一步優化模型性能。與此同時，一些研究在強化模態交互的基礎上，還著力于提取多尺度的多模態信息，從而提升情感識別的準確率。例如，Liu等人[2提出了一種結合自注意力機制與多尺度融合的多模態情感識別方法，利用自注意力LSTM和CNN分別提取語音與文本特征。類似地， Yu 等人[25]提出了一種基于多維特征提取與多尺度特征融合的語音情感識別方法，該方法通過多維卷積模塊和多尺度殘差卷積網絡提取多尺度信息，并借助全局特征融合模塊整合情感特征。然而，現有的研究多在特征提取后進行模態融合，未能充分利用特征提取過程中模態間的潛在交互。盡管后融合策略提升了性能，但忽視了預訓練模型中各層次編碼器層所蘊涵的跨模態協同信息與原生多尺度信息，限制了模型在捕捉細粒度情感變化和多模態協同表達方面的能力。

2方法模型

如圖1所示，本文提出的DFIHMF模型可以分為深度交互特征提取、層次化特征融合以及情感預測三個階段。第一階段旨在實現多模態的雙向融合，并從文本與音頻數據中提取多模態特征。第二階段通過融合層次化特征，使模型能夠感知和捕捉多尺度的情感線索。第三階段，經過多層融合后的綜合特征輸人至全連接層進行最終的特征處理和融合，輸出為情感預測結果。這三個階段的細節將在下文中詳細闡述。

圖1DFIHMF模型的整體框架Fig.1Overall framework of DFIHMFmodel

2.1 問題定義

在數據集 D 中，視頻被分割為連續的片段，每個片段包含一句話語 U 在本文中，采用文本與音頻兩個模態來進行情感傾向識別，即 U={X^T，X^A} ，其中 X 為原始數據輸入， T 表示文本模態，A表示音頻模態。本文目標是使用多模態數據來識別視頻中個體的情感傾向。即通過給定話語 U ，將其分類為預定義的情感類別或被預測連續的情感強度值。

2.2深度交互特征提取

DFIHMF的輸入由文本（T）和音頻（A）兩種模態構成，記為 X^m ，其中 m∈{T，A} 。首先，將文本和音頻的原始數據輸入到對應的嵌人層（embeddinglayer），得到初始隱藏層特征表示，其中 s 表示特征長度， d 表示特征維度。

H₀^m=Embedding（X^m）m∈{T，A}

隨后，分別將 H₀^T 與 H₀^A 輸入至各自的單模態編碼器層（encoderlayer），以提取文本和音頻的基本特征。在此過程中，單模態編碼器層主要基于預訓練模型的知識，通過多層自注意力機制捕捉各模態內部的語義和時序信息。對于文本模態，編碼器層能夠更好地理解句子的語法結構、上下文依賴關系和語義線索。而對于音頻模態，編碼器層則能有效提取語音信號中的韻律、頻譜變化和語音特征。通過這種方式，預訓練模型的深層語義理解能力得以充分發揮，從每種模態中學習到更豐富、細致的特征表示，為后續的跨模態交互提供了有力的基礎信息支持。在本文中，基本特征提取層數設定為 f 基本特征提取步驟如式（2）所示。

H_i^m=L_i^m（H_i-1^m;θ）i=1，2，…，f-1

其中： L_i 表示第 i 層編碼器層； θ 為對應的預訓練參數； H_f-1^m 即為所提取的基本特征。

在本文中，模型引入了跨模態交互令牌（CIT）和本地知識令牌（LKT），以促進不同模態間的信息交換與深度融合。具體而言，CIT主要用于文本與音頻模態之間的交互，作為專門的學習單元，聚焦于捕捉和整合來自不同模態的互補信息。在每個交互層中，CIT通過非線性映射層從另一模態中提取相關上下文信息，使模型能夠跨越模態界限，獲得更豐富的聯合特征表示。同時，LKT用于總結各模態內部的本地特征知識。在每個模態的編碼層中，LKT作為該模態特定信息的高度概括，能夠有效提煉該模態中的局部與全局信息。該機制確保每種模態在進行跨模態交互前，已充分提取并精煉其內部特征表達。通過這種雙重令牌機制，模型在捕捉模態間的交互信息時，保持了對各模態內部特征的完整理解，從而為最終的情感識別提供更全面和細致的特征表示。

在提取完成基本特征之后，首先將初始化的CIT和LKT連接到基本特征 H_f-1^m 上，連接后得到的輸人序列如下：

H_f-1^m°ledastLKT_f-1^m°ledastClT_f-1^m

其中：表示特征連接。隨后將連接后的序列輸入到單模態編碼器層，即

以文本編碼器為例，通過前向傳播學習，此時已包含文本模態的信息，并通過耦合函數 F 投影到音頻潛空間中，從而確保兩種模態的協同作用，即

其中：耦合函數F由多層感知機（multilayerperceptron，MLP）實現，負責將不同模態的CIT輸人映射至對方模態空間。具體來說，上一層的 CIT_i-1^T 經過文本編碼器層后的中間輸出涵蓋了本層的文本語義信息，而耦合函數通過MLP將文本語義信息融入到音頻潛空間中，即以為輸入，輸出 CIT_i⁴ 作為對應下一層的音頻輸人，從而促進兩種模態交互。耦合函數作為兩種模態間的橋梁，促進梯度的相互傳播。與獨立學習的令牌不同，CIT在兩種模態間的顯式交互，有助于在兩個分支的共享嵌入空間中學習共同知識，強化相互協同作用。通過多次重復上述過程 N（N=K-f）次，以進一步促進模態融合，其中 K 表示預訓練模型的最大層數，即

最后， H_K^m 即為所提取的特征，用于后續融合。

2.3 層次化特征融合

為了融合提取的特征，本文提出了一種層次化融合模型（hierarchicalfusionmodel，HF），如圖2所示。該模型旨在整合不同層的LKT信息與多模態特征，以提升模型對語義理解的全面性和對細粒度情感線索的關注能力，從而增強模型的泛化性。由于不同層的LKT包含了不同尺度的信息，這種差異性賦予了模型在多模態特征融合中層次化的語義理解能力。具體而言，底層的LKT主要包含局部且細粒度的特征信息，例如文本中的具體詞匯語義或音頻中的低級聲學特征。隨著層數的增加，高層的LKT逐漸聚合并抽象出更高層次的語義信息，如句子結構、上下文關系和情感傾向等。值得注意的是，該層次化融合模型的層數設計與深度特征提取中的融合層數一致。每一層的任務是融合對應的LKT知識，旨在最大化利用每層編碼器中LKT的多尺度信息。

圖2層次化融合模型 Fig.2Hierarchical fusion model

在該層次化融合模型中，輸入即為兩種模態的特征表示，即文本特征表示 T_i 與音頻特征表示 A_i（i=1，2，…，N）。初始輸入為深度交互特征提取的表示 H_K^m ，即

由于LKT是在多模態數據環境下訓練得到的，所以在融合LKT知識之前，本文先對文本特征輸入 T_i 與音頻特征輸入A_i 采用跨模態注意力（cross-modal attention，CA）單元進行初步融合。該單元集成了兩種模態的特征，并結合了跨模態信息，旨在捕捉不同模態間的相互依賴關系，有助于更全面地理解數據。以文本模態為例，跨模態注意力可定義為

其中： W^Q，W^K，W^V 為可學習的參數； K^′ 為 K 矩陣的轉置； p 表示

Q，K 的維度大小； F_i^T 表示融合了音頻特征的文本特征，即初步融合特征。

隨后將初步融合 F_i^m 特征表示與LKT進行融合，首先計算融合特征的強度分數 S_i^m=softmax（FC（F_i^m）），FC表示全連接層（fully-connected layer，FC）。 S_i^m 很好地體現了初步融合特征中的有益語義信息，同時忽略冗余信息。隨后，利用LKT進行融合，通過LKT中的層次化語義強化初步融合特征中的重要部分，同時保留初步融合特征的原始語義，即

其中： ? 表示乘法。最后將與拼接起來，作為融合多尺度特征 F_i ，即

為了最大程度保證不同模態特征的獨特性并降低多模態

之間的冗余信息，本文將 T_i?A_i 與 F_i 進行融合，既能整合層次化知識，又能確保預訓練模型的基礎知識不丟失。以文本模態為例，融合方法如下：

最后，本文所提出的網絡包括一個額外的自注意編碼器（self-attentionencoder，SA）和一個前饋網絡（feedforwardnet-work，FFN）。自注意模塊用于對新特征表示的時間步長進行建模，從而有效捕捉全局信息，而前饋網絡則進一步精煉編碼后的特征表示。此外，通過結合使用殘差連接，模型在每次特征變換后能夠保持特征的穩定性和一致性，同時保留重要的低層輸入信息，避免信息在深度網絡中逐層削弱。該設計有助于提高模型的表達能力和訓練效率，從而增強情感識別模型在處理復雜輸人時的表現。以文本模態為例，以上流程如下：

重復上述過程 N 次，利用不同層LKT的信息多樣性和層次性，模型在多模態情感識別任務中能夠表現出更強的特征表達能力和更高的泛化性，即

T_i+1，A_i+1=HF（T_i，A_i）i=1，2，…，N

2.4情感預測

在獲得最終的多模態特征表示后，首先將各模態的特征進行拼接，作為統一的輸入。隨后，拼接后的特征被輸入至全連接層，以進一步實現特征融合與處理。最終，通過全連接層輸出的結果用于情感識別任務，從而對輸入內容進行情感分類或預測，即

y=FC（T_N+1@A_N+1）

其中： y 為預測的情感分類。

本文采用交叉熵損失函數作為任務損失，即

其中：表示真實標簽； B 表示一個批次中的樣本數量。

算法1詳細描述了DFIHMF模型的運行流程，包括深度交互特征提取、層次化特征融合以及情感預測三個階段。

算法1基于深度特征交互與層次化多模態融合的情感識別模型

輸人：數據集 D 中的話語片段 U={X^T，X^A} ，其中 X^T 為原始文本輸入， X^A 為原始音頻輸人。

輸出：每個話語 U 對應的情感預測分數 y

H₀^m=Embedding（X^m）三 m∈{T，A} //將原始輸入轉變為向量表示

定義基本特征提取層數 f，預訓練模型的最大層數 K，當前編碼器層數 i=1 、層次化融合層數 N=K -f，初始化各層LKT、CIT

//階段1深度交互特征提取

while（ ii^m=L_i^m（H_i-1^m;-θ） ;//提取基本特征elseH_i-1^m°ledastLKT_i-1^m°ledastCIT_i-1^m;// 將特征拼接上 CIT 與 LKT （204號//融合 CIT 與LKT //耦合函數將音頻模態信息投影到文本潛空間中 //耦合函數將文本模態信息投影到音頻潛空間中

end while

//階段2層次化特征融合

T₁=H_K^T，A₁=H_K^A ；//獲得層次化融合的初始輸入

i=1 ：

while（ i //通過注意力機制初步融合文本特征 //通過注意力機制初步融合音頻特征S_i^m=softmax（FC（F_i^m））；//計算初步融合特征的強度分數（204號；//通過 LKT 增強初步融合特征， 11 融合增強特征 //進一步融合整合層次化知識，減少冗余信息（20//通過自注意力對文本長距離依賴建模；//獲取文本層次化融合輸出（20號//通過自注意力對音頻長距離依賴建模；//獲取音頻層次化融合輸出

end while

//階段3情感預測

T_N+1，A_N+1 ；//層次化融合特征最終輸出

y=FC（T_N+1⊕A_N+1）：

//全連接層作為分類頭進行預測，輸出預測結果

turn y

3 實驗與結果分析

3.1 數據集

本文在兩個公開的多模態情感數據集CMU-MOSI和CMU-MOSEI上進行了實驗，數據集的詳細信息如表1所示。

CMU-MOSI[26]數據集是一個多模態情感分析基準數據集，包含來自YouTube的93個視頻片段，共2199個子片段，涵蓋文本、音頻和視覺三種模態信息。每個片段均被標注為-3到+3 的連續情感強度，表示從強烈負面到強烈正面的情感。該數據集被廣泛用于評估多模態情感分析模型，能夠有效驗證模型在融合文本、音頻與視覺信息方面的性能。

CMU-MOSEI[27]數據集是目前最大規模的多模態情感分析數據集之一，廣泛用于研究多模態情感識別與情感強度預測任務。該數據集包含來自1000多名不同說話者的近23500個在線視頻片段，覆蓋了文本、音頻和視覺三種模態信息，代表了真實世界中多樣化的情感表達。每個片段都被標注了一個從-3到 +3 的連續情感強度值，反映出從強烈負面到強烈正面的情感。此外，CMU-MOSEI還包含六種基本情緒標簽（開心、悲傷、憤怒、驚訝、恐懼和厭惡），使得情感分析任務更加全面和復雜。由于其大規模、多樣性和真實世界情感分布特性，CMU-MOSEI成為多模態情感分析和情感識別領域驗證模型性能與泛化性的關鍵數據集。

3.2 實驗配置

在所有實驗中，本文采用bert-base-uncased模型作為文本編碼器，data2vec模型作為音頻編碼器，所有預訓練檢查點均來自HuggingFace。文中引入的額外令牌CIT和LKT采用高斯分布（均值為0，標準差為0.02）進行初始化。

實驗基于PyTorch框架進行模型搭建與運行，在訓練過程中，所有的實驗使用AdamW優化器，學習率設定為1E-5。模型中所有dropout層的隨機丟棄比例均設定為0.3。文本編碼器特征維度與音頻編碼器特征維度均為768。隨機種子設置為0。參數訓練次數（epoch）設置為20，早停（earlystop）設置為5。批次大小 B 為 16 。文本編碼器與音頻編碼器默認層數K 為12層。基本特征提取層數 f 為4層，融合層數 N 為8層。默認CIT與LKT的長度均為16，耦合函數F隱藏層大小為2048維。

3.3 實驗結果

為了評估所提方法的有效性，本文將DFIHMF與當前主流模型進行比較，包括 TFN^[28] ！ LMF^[29] 、 MFM^[30] 、 MulT^[31] MCTN[32]、ICCN[9]MISA[33]、SUGRM[34]、TMBL[35]

DFIHMF總體結果如表2所示。與當前的先進模型相比，DFIHMF表現出強大的性能，在CMU-MOSI與CMU-MOSEI數據集關鍵指標上實現了最好的性能。具體而言，在CMU-MOSI數據集中，DFIHMF模型的二分類準確率（ACC2）達到了84.9% ，比現有最優模型提升了0.4百分點。同時，七分類準確率（ACC7）提升至 45.6% ，相較于基線模型提升了7.8百分點。在CMU-MOSEI數據集中，DFIHMF模型的ACC2提升至85.5% ，同時ACC7則達到 53.5% ，相較于其他模型平均提升了2.2百分點。這些結果驗證了本文模型在多模態情感融合任務中具有更好的特征表達能力和情感傾向捕捉能力。這些性能提升得益于本文提出的跨模態交互令牌（CIT）和本地知識令牌（LKT）機制。CIT通過引入跨模態的上下文信息，促進不同模態之間的深度交互，使得模型比傳統模態獨立訓練的方法更有效地捕捉多模態間的潛在互補特性。例如，與SUGRM等模型的淺層注意力機制相比，CIT顯式構建了跨模態的動態特征映射，在模態協同表達能力上更進一步。而LKT則在特征提取階段引入多層次的本地語義總結，使得模型能夠在融合過程中更好地保留和利用各模態內部的細粒度特征。相比TMBL等依賴單一語義層的融合方法，LKT的引入大幅提升了模型對細節和全局信息的捕捉能力。此外，DFIHMF模型引入的層次化融合模塊在情感線索的多層次整合方面展現了顯著優勢。不同于現有僅利用高層語義特征進行簡單拼接的策略，層次化融合機制能夠在多模態信息的不同語義層次上進行交互與整合，從具體詞匯到高級語義均能被有效建模。這種設計顯著增強了模型在復雜情感場景中的穩健性和泛化能力，使其在多模態情感識別任務中的表現優于基線模型。

3.4消融實驗

本節研究了不同因素對所提出融合策略的影響，并通過組件消融、令牌長度和融合深度三個方面驗證本文提出的令牌機制與層次化融合模型的有效性。

a）組件消融。組件消融實驗旨在驗證跨模態交互令牌（CIT）、本地知識令牌（LKT）和層次化融合模塊（HF）對整體模型性能的有效性，具體結果如表3所示。Base模型表示去除所有新增組件的情況，僅使用各模態所提取的特征進行拼接的線性融合模型，作為對比基準。與Base模型相比，引入CIT的模型在CMU-MOSI與CMU-MOSEI數據集上的ACC7指標分別提升了 7.4% 和 15.6% 。這表明CIT能夠有效促進不同模態特征間的交互，然而，由于未引入復雜的映射機制，其效果仍存在一定局限性。在此基礎上，進一步引入非線性映射組件（，相較于僅使用CIT的模型，其ACC2和ACC7分別進一步提升了 14.8% 和 0.2% ，驗證了非線性映射能夠捕捉多模態特征間復雜的非線性關系，從而增強模型的情感信息提取能力。然而，單獨使用 CIT+F 時，模型未能充分融合多模態特征中的層次化情感線索。當模型引人LKT和層次化融合模塊1 LKT+HF ）后，性能在兩個數據集上均顯著提升，與Base模型相比，在ACC7指標上分別提升了 22.7% 和 15.1% 。這表明LKT不僅能夠有效總結每個模態內部特征的本地語義信息，還能夠在模態內捕獲更豐富的局部與全局情感線索，并在HF模塊的多層次特征融合中實現更細致和全面的多尺度情感融合。因此， LKT+HF 模塊在多模態情感識別中進一步提升了模型對復雜情感元素的捕捉與融合能力。

表3消融實驗結果Tab.3Ablation experimental results/%

b）令牌長度。在對令牌長度（tokenlength）進行的消融實驗中，本文嘗試了不同的令牌長度，分別為4、8、16等。實驗結果如圖3所示，當令牌長度從1增加至16時，模型的 F₁ 指標在CMU-MOSI數據集上從 81.98% 逐步提升至 83.84% ，而在CMU-MOSEI數據集上則從 83.63% 提高至 84.53% 。這一結果表明，適當增加令牌長度有助于模型更好地捕捉多模態特征中的細粒度信息。然而，當令牌長度進一步增加至128時， F₁ 指標在兩個數據集上均出現略微下降（分別為 82.75% 和84.18% ），這可能是由于過擬合導致的性能退化。因此，選擇令牌長度為16作為默認設置，能夠在提升特征表達能力的同時有效控制模型復雜度。

圖3令牌長度消融實驗 Fig.3Token length ablation experiment

c）融合深度。融合深度對多模態情感識別模型的性能有顯著影響，實驗結果如圖4所示，適度增加融合層數（例如增至8層）可以有效提升模型的情感識別準確率。在CMU-MOSI與CMU-MOSEI數據集中，融合深度從1層增加到8層時， F₁ 指標分別提高了約 3.1% 與 2.1% 。這種提升主要源于更多層次能夠捕捉從細粒度到高級語義的層次化信息，包括詞匯語義、句子結構以及上下文關系。然而，當融合層數超過8層后，性能提升趨于停滯，甚至可能出現下降。這種現象可能是由于模型復雜度的增加導致的過擬合。因此，本文選擇8層作為最佳融合深度，以在性能與復雜度之間實現有效平衡。

圖4融合深度消融實驗 Fig.4Fusion depth ablation experiment"

3.5 實驗樣例

為了全面展示本文方法的優勢，本文設計了一個具有代表性的案例進行深入分析，樣例識別結果如圖5所示。在這個例子中，本實驗選取了CMU-MOSI多模態數據集中ID為nb-WiPyCm4g0 的視頻作為研究對象。該視頻被劃分為10個視頻片段，即輸入 I={U₁，U₂，…，U₁₀} 。其中每個視頻片段 U_i 均包含音頻與文本兩種模態信息。在情感強度標注方面，樣本的標簽即為連續情感強度，其從-3至 +3 表示從強烈負面到強烈正面的情感。而樣本的三個分類標注！ ΔVeg，Neu，Pos 用于分類任務，分別代表消極、中立與積極。

從圖5中觀察到，模型在情感極性預測上表現出較高的準確度，尤其是在判斷極性分類（Pos、Neg、Neu）時，預測結果與真實標注基本一致。對于單一模態的預測，文本模態和音頻模態分別在某些視頻段落上存在預測偏差較大的情況。例如，在單一文本模態預測中，在 U₅，U₆ 的預測上存在較大偏差，其平均誤差為0.33。而在單一音頻模態預測中，在 U₄，U₆ 的預測與真實標簽存在較大誤差，其平均誤差達到了0.43。相比之下，模態融合的預測結果表現更為優越，其平均誤差降低至0.24，尤其是在 U₆ （預測為Neu）等段落，模型通過融合文本和音頻信息，能更準確地捕捉情感的變化，減少了單一模態的誤差。這些實驗結果充分證明了本文提出的特征提取框架和層次化融合模型的有效性。無論是在連續的情感強度預測任務還是離散的情感分類任務中，該方法都展現出了優秀的性能和穩定性。特別是在處理多模態數據時，模型能夠有效整合音頻和文本特征，從而作出更準確的情感判斷。這個案例不僅驗證了方法的可行性，也為今后的多模態情感分析研究提供了有價值的參考。后續研究可以進一步探索在更大規模數據集上的表現，以及針對不同應用場景的優化方案。

4結束語

針對多模態情感識別中不同模態間交互不足、多尺度情感線索融合不充分的問題，本文提出了一種基于深度特征交互與層次化多模態融合的情感識別模型（DFIHMF）。通過引入跨模態交互令牌（CIT）和本地知識令牌（LKT），模型實現了預訓練模型間的信息交互，有效捕捉了多模態的情感信息。層次化融合機制進一步增強了多模態特征的綜合利用，提升了模型的情感識別性能。在CMU-MOSI和CMU-MOSEI數據集上的實驗結果表明，DFIHMF模型在準確率和泛化性方面均取得了顯著提升，驗證了其在多模態情感融合任務中的有效性。然而，模型在復雜情感表達的泛化能力和模態間權重的自適應分配上仍有改進空間。未來研究可以進一步優化模態交互機制和權重動態分配策略，以提升模型在更多情感場景中的適應性。

參考文獻：

[1]La Mura M，Lamberti P.Human-machine interaction personalization：a reviewon gender and emotion recognition through speech analysis [C]//Proc of IEEE International Workshop on Metrology for Industry 4.0amp;IoT.Piscataway，NJ：IEEE Press，202O：319-323.

[2]Zhang Tao，Liu Minjie，Yuan Tian，etal.Emotion-aware and intelligent Internetof medical things toward emotion recognition during COVID19pandemic[J].IEEE Internet of Things Journal，2021，8（21）： 16002-16013.

[3]Wang Weiqing，Xu Kunliang，Niu Hongli，et al.Retracted：emotion recognition of students based on facial expressions in online education based on the perspective of computer simulation[J].Complexity， 2020，2020（1）：4065207.

[4]Brown TB.Language models are few-shot learners[C]//Proc of the 34th Conference on Neural Information Processing.Red Hook，IVT： Curran Associates Inc.，2020：1877-1901.

[5]Schneider S，Baevski A，Collobert R，et al. wav2vec：unsupervised pretraining for speech recognition[EB/OL].（2019-09-11）.https：//arxiv.org/abs/1904.05862.

[6]Xie Jinbao，Wang Jiyu，Wang Qingyan，et al.Amultimodal fusion emotion recognition method based on multitask learning and attention mechanism[J].Neurocomputing，2023，556：126649.

[7]Hu Ying，Hou Shijing，YangHuamin，etal.A joint network based on interactiveattention forspeech emotion recognition[C]//Procof IEEE International Conference on Multimedia and Expo.Piscataway， NJ：IEEE Press，2023：1715-1720.

[8]Poria S，Chaturvedi I，Cambria E，et al.Convolutional MKL based multimodal emotion recognition and sentiment analysis[C]//Proc of the 16th IEEE International Conference on Data Mining.Piscataway，NJ： IEEE Press，2016：439-448.

[9]Sun Zhongkai，SarmaP，Sethares W，et al.Learning relationships between text，audio，and video via deep canonical correlation for multimodal language analysis[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2020：8992-8999.

[10]Wu Yuezhou，Zhang Siling，Li Pengfei. Improvement of multimodal emotion recognition based on temporal-aware bi-direction multi-scale network and multi-head attention mechanisms[J].Applied Sciences，2024，14（8）：3276.

[11]ZhangEnshi，Trujillo R，Poellabauer C.The MERSA dataset anda transformer-based approach for speech emotion recognition[C]//Proc of the 62nd Annual Meeting of the Association for Computational Linguistics.2024：13960-13970.

[12]LiBobo，FeiHao，LiaoLizi，etal.Revisiting disentanglementand fusion on modality and context in conversational multimodal emotion recognition[C]//Proc of the 31st ACM International Conference on Multimedia.NewYork：ACMPress，2023：5923-5934.

[13]Fan Ruijia，Liu Hong，Li Yidi，et al. AuA-NET：attention aggregation network for audio-visual emotion recognition[C]//Proc of IEEE International Conference on Acoustics，Speech and Signal Processing.Piscataway，NJ：IEEE Press，2024：8030-8034.

[14]張小艷，閆壯.融合大語言模型的三級聯合提示隱式情感分析方法[J].計算機應用研究，2024，41（10）：2900-2905．（Zhang Xiaoyan，Yan Zhuang.Three-level joint prompt-tuning implicit sentiment analysis method incorporating LLMs[J].Application Research of Computers，2024，41（10）：2900-2905.）

[15]Zhao Zhengdao，Wang Yuhua，Shen Guang，et al.TDFNet： Transformerbaseddeep-scale fusion network for multimodal emotion recognition [J]. IEEE/ACM Trans on Audio，Speech，and Language Processing，2023，31：3771-3782.

[16]HazarikaD，Gorantla S，Poria S，et al.Self-attentive feature-level fusion for multimodal emotion detection[C]//Proc of IEEE Conference on Multimedia Information Processing and Retrieval.Piscataway，NJ： IEEEPress，2018：196-201.

[17] Zhou Hengshun，Du Jun，Zhang Yuanyuan，et al. Information fusion in attention networks using adaptive and multi-level factorized bilinear pooling for audio-visual emotion recognition[J]. IEEE/ACM Trans on Audio，Speech，and Language Processing，2021，29 ：2617-2629.

[18]Priyasad D，Fernando T，Denman S，et al.Attention driven fusion for multi-modal emotion recognition[C]//Proc of IEEE International Conference on Acoustics，Speech and Signal Processing. Piscataway， NJ：IEEE Press，2020：3227-3231.

[19] Zhang Qiuju，Zhang Hongtao，Zhou Keming，et al. Developing a physiological signal-based，mean threshold and decision-level fusionalgorithm （PMD）for emotion recognition[J].Tsinghua Science and Technology，2023，28（4）：673-685.

[20]Huang Jian，Tao Jianhua，Liu Bin，et al.Multimodal transformer fusion for continuous emotion recognition[C]//Proc of IEEE International Conference on Acoustics，Speech and Signal Processing.Piscataway， NJ：IEEE Press，2020：3507-3511.

[21]李健，張倩，陳海豐，等.基于感知重采樣和多模態融合的連續情感識別[J].計算機應用研究，2023，40（12）：3816-3820.（Li Jian，Zhang Qian，Chen Haifeng，et al. Continuous emotion recognition based on perceiver resampling and multimodal fusion[J]. Application Research of Computers，2023，40（12）：3816-3820.）

[22]Lin Zijie，LiangBin，LongYunfei，et al.Modeling intra-and inter-modal relations：hierarchical graph contrastive learning formultimodal sentimentanalysis[C]//Proc of the29th International Conference on Computational Linguistics.Stroudsburg，PA：ACL Press，2022：7124-7135.

[23]李紫荊，陳寧.基于圖神經網絡多模態融合的語音情感識別模型 [J].計算機應用研究，2023，40（8）：2286-2291，2310．（Li Zijing， Chen Ning.Speech emotion recognition based on multi-modal fusion of graph neural network[J].Application Research of Computers， 2023，40（8）：2286-2291，2310.）

[24]Liu Yang，Sun Haoqin，Guan Wenbo，et al. Multi-modal speech emotionrecognition using self-attention mechanism and multi-scale fusion framework[J].Speech Communication，2022，139：1-9.

[25]Yu Lingli，Xu Fengjun，Qu Yundong，et al.Speech emotion recognition basedon multi-dimensional feature extraction and multi-scale feature fusion[J].Applied Acoustics，2024，216：109752.

[26]ZadehA，ZellersR，PincusE，etal.Multimodal sentiment intensity analysis in videos：facial gesturesand verbal messages[J]. IEEE Intelligent Systems，2016，31（6）：82-88.

[27]Bagher Zadeh A，LiangPP，PoriaS，et al.Multimodal language analysisinthewild：CMU-MOSEI dataset and interpretable dynamic fusion graph[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.2018：2236-2246.

[28]Liu Zhun，Shen Ying，Lakshminarasimhan V δB，et al.Efficient lowrank multimodal fusion with modality-specific factors[C]//Proc of the 56th Annual Meeting of the Associationfor Computational Linguistics. Stroudsburg，PA：Association for Computational Linguistics，2018： 2247-2256.

[29]Zadeh A，Chen Minghai，Poria S，et al.Tensor fusion network for multimodal sentiment analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg，PA：Association for Computational Linguistics，2017：1103-1114.

[30]TsaiYHH，LiangPP，ZadehA，et al.Learning factorized multimodal representations[EB/OL].（2018-06-16）.htps：//arxiv.org/abs/ 1806.06176.

[31]Tsai YH，Bai Shaojie，Liang PP，et al. Multimodal transformer for unaligned multimodal language sequences[C]//Proc of the 57th Annual Meeting of the Assciation for Computational Linguistics.Strondsburg， PA：Association for Computational Linguistics，2019：6558-6569.

[32]Pham H，Liang PP，Manzini T，et al.Found in translation：learning robust jointrepresentations bycyclic translationsbetween modalities [C]//Proc of AAAI Conference on Artificial Intellgence.Palo Alto， CA： AAAI Press，2019 ：6892-6899.

[33]Hazarika D，Zimmermann R，Poria S.MISA： modality-invariant andspecific representations for multimodal sentiment analysis[C]//Proc of the28th ACM International Conference onMultimedia.NewYork： ACM Press，2020：1122-1131.

[34]Hwang Y，Kim JH. Self-supervised unimodal label generation strategy using recalibrated modality representations for multimodal sentiment analysis[C]//Findings of the Association for Computational Linguistics.Stroudsburg，PA：Association for Computational Linguistics， 2023：35-46.

[35]Huang Jiehui，Zhou Jun，Tang Zhenchao，et al. TMBL： Transformerbased multimodal binding learning model for multimodal sentiment analysis[J]. Knowledge-Based Systems，2024，285：111346.