999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向深度學習的多模態情感識別研究進展

2022-07-21 03:23:18趙小明楊軼嬌張石清
計算機與生活 2022年7期
關鍵詞:特征提取模態深度

趙小明,楊軼嬌,張石清

1.浙江科技學院 理學院,杭州310000

2.臺州學院 智能信息處理研究所,浙江 臺州318000

情感識別是一個以人的情感狀態為目標的動態過程,這意味著每個人的行為對應的情感是不同的。日常生活中的情感識別對社會交往很重要,人類以不同的方式表達自己的感受,情感在決定人類行為中起著重要作用。為了確保有意義的交流,對這些情感的準確解讀非常重要。

在情感識別任務中,情感通常分為離散狀態或連續狀態。常見的離散的情感狀態有快樂、恐懼、驚訝和悲傷等;連續情感狀態可以分為效價(valence)、喚醒(arousal)和支配(dominance)。喚醒表達的是激活的水平(被動或主動),并與當前情感狀態的強度(積極或消極)有關;效價表示愉悅程度;支配表示情感條件施加的控制程度。由于連續情感在現實環境中的測量具有挑戰性,離散情感建模更為流行。

人們交流感情的方式有很多,既有口頭語言,也有非口頭語言,包括表達性語言、面部姿勢、肢體語言等。因此,來自多種模態的情緒信號可用來預測一個主體的情緒狀態。然而,單一的模態無法準確判斷一個人的情感,單憑眼前的某個特定實體或事件無法有效判斷某人的情感變化。這就是情感識別應被視為多模態問題的原因之一。因此多模態情感識別考慮了多種輸入模式,如語音、文本、視覺線索等,對情感信息進行建模和識別。

多模態情感識別在社交機器人、教育質量評估、安全控制、人機交互系統等方面具有相當大的應用前景。為了推動情感識別任務的發展,近十年來出現了不同的多模態情感任務挑戰賽,包括AVEC、EmotiW、MuSe、MEC 等。AVEC(audio/visual emotion challenge and workshop)是一項音視頻挑戰賽,目的是為多模態信息處理提供通用的基準測試集,并將基于聽覺、視覺和視聽覺情感識別任務聚集在一起。EmotiW(emotion recognition in the wild challenge)是一場野外挑戰競賽,旨在為研究者提供一個平臺,在代表真實世界或接近真實世界場景的數據上驗證他們的方法。自2013年開始,EmotiW每年都會舉辦一次,挑戰的子項目每年都會有所變化。MuSe 2020(multimodal sentiment)是一個基于現實生活媒體(real-life media)的挑戰賽,更全面地融合視聽和語言模態,重點關注情感識別、情感目標參與和可信度檢測三個任務,提出了一個用于競賽的野外數據庫Muse-CaR。基于MuSe 2020 挑戰賽的工作,MuSe 2021更全面地整合了視聽、語音和生理信號模態,并提供了Ulm-TSST(Ulm-trier social stress)數據集。MEC(multimodal emotion recognition)挑戰賽是中國模式識別大會(Chinese conference on pattern recognition,CCPR)的一部分,提供了中國自然視聽情感數據庫CHEAVD,定義了三個子挑戰:音頻、視頻和多模態情感識別。

近年來,深度學習依靠強大的特征學習能力,在語音信號處理、計算機視覺、自然語言處理、情感計算等許多領域取得了巨大成功。深度學習本質上是通過使用多個非線性變換的層次架構來獲得高級的特征表示。深度信念網絡(deep belief network,DBN)、卷積神經網絡(convolutional neural network,CNN)和循環神經網絡(recurrent neural network,RNN)是深度學習最常用的三種方法。近年來,這些深度學習方法在多模態情感識別任務中往往用于高層次的特征學習或多模態信息的融合。為了系統地總結深度學習方法在多模態情感識別領域中的研究現狀,本文擬對近年來面向深度學習的多模態情感識別研究進行系統的分析與總結。

文獻[24]側重于綜述多模態信息的融合方法研究進展,沒有涉及到面向深度學習的特征提取技術介紹。與上述文獻不同,本文既對多模態融合方法進行詳細總結與歸納,又對近年來面向深度學習的語音、視覺及文本的特征提取方法進行了分析和總結。本文主要貢獻可以總結如下:(1)從多模態的角度對面向深度學習的多模態情感識別研究進行了最新的系統性文獻分析與歸納,即以多模態(語音、視覺、文本等)分析主體情感為中心,對手工情感特征提取、與深度學習技術相關的深度情感特征提取以及多模態信息融合方法進行了分析與總結。(2)分析了該領域面臨的挑戰和機遇,并指出了未來的發展方向。

圖1給出了一般的多模態情感識別框架。由圖1所示,一般的多模態情感識別系統包括三個步驟:特征提取、多模態信息融合和情感分類器的設計。特征提取是對語音、視覺、文本等不同模態信息分別提取與情感表達相關的特征參數。多模態信息融合指的是采用不同的融合策略對兩種及以上的單模態信息進行融合。常見的多模態信息融合方法有特征層融合、決策層融合、模型層融合等。情感分類器的設計是采用合適的分類器來學習提取的特征表示與相關識別的情感之間的映射關系,從而獲得最終的情感識別結果。根據單一模態信息的不同,一個多模態情感識別系統往往包括多個單一模態情感識別子任務,如采用語音信號的語音情感識別、采用視覺信息的視覺情感識別以及采用文本信息的文本情感識別等。

圖1 多模態情感識別框架Fig. 1 Framework of multimodal emotion recognition

多模態情感識別本質上是一個模式識別問題。目前,現有的機器學習方法大都可以用于情感的分類。代表性的情感分類器主要有:貝葉斯網絡(Bayesian networks,BN)、最大似然原理(maximum likelihood principle,MLP)、支持向量機(support vector machine,SVM)等。考慮到情感分類器的設計已經比較成熟,因此本文只針對多模態情感識別系統中的前兩個關鍵步驟——情感特征提取和多模態信息融合,系統地闡述其近年來的發展現狀和未來的展望。

1 多模態情感數據集

多模態情感數據集是指包含動態情感變化和多種情感類別的數據集,數據集中包含常見的模態信息有語音、視覺、文本等。本章將重點介紹近些年來常用的多模態情感數據集,如表1所示。

表1 多模態情感數據集Table 1 Multimodal emotional datasets

eNTERFACE'05:該數據集是一個試聽數據集,由1 277 個視聽樣本組成,由來自14 個不同國家的42 名參與者(8 名女性)完成。每個參與者都被要求連續聽6篇短篇小說,每一篇都能引起一種特定的情感。受試者必須對每一種情況做出反應,兩位人類專家判斷這些反應是否以明確的方式表達了預期的情感。六種特定的情感分別為:憤怒、厭惡、恐懼、快樂、悲傷和驚訝。

RML:該數據庫由720個包含視聽情感表達的樣本組成,每個視頻的持續時間在3~6 s之間,包含了憤怒、厭惡、恐懼、幸福、悲傷、驚訝六種基本情緒。錄音是在安靜明亮的背景氛圍中進行的,使用數碼相機。8 名受試者進行了錄音,并會說六種語言,分別為英語、普通話、烏爾都語、旁遮普語、波斯語和意大利語,英語和普通話的不同口音也包括在內。采用16 位單通道數字化,以22 050 Hz 的頻率記錄樣本。記錄速度被設置為30 frame/s。

IEMOCAP:該數據集是由南加州大學的Sail實驗室收集的一個包含動作、多模態和多峰值的數據庫。它包含10個說話者在分成話語的雙向對話中的行為,包括視頻、語音、面部動作捕捉和文本轉錄,所有視頻中對話的媒介都是英語。總共包含10 039段對話,平均持續時間為4.5 s,平均單詞數為11.4。參與者表演即興表演或腳本場景。被眾多注釋者標注為中性、快樂、悲傷、憤怒、驚訝、恐懼、厭惡、挫折、興奮等類別標簽和配價、激活、支配等維度標簽。

AFEW:該數據集是在具有挑戰性的條件下錄制的動作面部表情數據集,由1 426 個視頻片段組成。這些視頻片段被標記為6 類基本情感(生氣、高興、悲傷、驚訝、厭惡、恐懼)和中性情感之一。該數據集捕捉了不同的面部表情、自然的頭部姿勢運動、遮擋物,來自不同種族、性別、年齡的受試者和一個場景中的多個受試者。

BAUM-1s:該數據集是一個視聽自發數據集,包含來自31 名土耳其受試者的1 222 個視頻樣本。該數據集有六種基本情緒(快樂、憤怒、悲傷、厭惡、恐懼、驚訝)以及無聊和蔑視。它還包含四種精神狀態,即不確定、思考、專注和煩惱。為了獲得自發的視聽表達,采用了觀看電影的情感激發方法。

CHEAVD:該數據集為中國自然情感視聽數據庫,提取了34部電影、2部電視劇、2部電視節目、1部即興演講和1部脫口秀節目中的140 min的自發情感片段,其中電影和電視劇占大部分。該數據集有238名說話者,覆蓋了從兒童到老年人,其中男性比例為52.5%,女性比例為47.5%;總共有26 種非原型的情感狀態,包括基本的6 種,由4 個講母語的人標記。前8個主要的情感為憤怒、快樂、悲傷、擔心、焦慮、驚訝、厭惡和中性。

CMU-MOSI:該數據集是一個富含情感表達的數據集,由2 199個評論的話語、93段說話者(含89個說話者)視頻組成。這些視頻涉及大量主題,如電影、書籍和產品。視頻是從YouTube 上抓取的,并被分割成話語。每個分割情感標簽由5 個注釋者在+3(強陽性)到-3(強陰性)之間評分,將這5個注釋的平均值作為情感極性,因此只考慮了兩類(積極和消極)。訓練集由數據集中的前62段視頻組成,測試集包含剩余的31段視頻。在訓練和測試中分別包含了1 447 個話語(含467 個否定話語)和752 個話語(含285個否定話語)。

RAMAS:該數據集是第一個俄羅斯多模態情感數據庫。他們認為專業戲劇演員可能會使用動作模式的刻板印象,因此選用半職業演員在情感情境中表演動作。10 名半職業演員(5 名男性和5 名女性)參與了數據收集,年齡在18~28 歲,母語為俄語。半職業演員在設定的場景中表達了一種基本的情感(憤怒、厭惡、快樂、悲傷、恐懼、驚訝)。數據庫包含大約7 h 的高質量特寫視頻記錄,采集了音頻、運動捕捉、特寫和全景視頻、生理信號等多種數據。

RAVDESS:該數據集由24 位專業演員錄制,包括60 段演講和44 首帶有情緒的歌曲(包含中性、平靜、快樂、悲傷、憤怒、恐懼、厭惡、驚訝)。每個演員錄制的作品有三種形式:視聽、視覺和語音。錄音是在專業工作室錄制的,鏡頭中只有演員和綠色屏幕可見。為了確保相機能夠捕捉演員的頭和肩膀,相機的高度隨時調整。工作室提供全光譜照明來最小化面部陰影。

CMU-MOSEI:該數據集是迄今為止最大的多模態情感分析和情感識別數據集,包含來自1 000多名在線YouTube 演講者的3 837 段視頻,其中包含六種情緒類別:快樂、悲傷、憤怒、恐懼、厭惡和驚訝。它在話語層面進行注釋,共有23 259個樣本。CMUMOSEI 中的樣本包括三種模式:采樣率為44.1 kHz的音頻數據、文本轉錄和以30 Hz的頻率從視頻中采樣的圖像幀。該數據集是性別平衡的,所有的句子都是從各種主題和獨白視頻中隨機選擇的,視頻被轉錄并標記正確的標點符號。

MELD:該數據集是從EmotionLines 數據集演變而來的。EmotionLines只包含電視劇中的對話。MELD是一個多模態的情感對話數據集,包含語音、視覺和文本信息。MELD 包含了電視劇中1 433段對話中的13 000句話,每段對話包含兩個以上的說話者。由于數據僅從一部電視劇中獲得,參與人數有限,84%的場次由6 位主演獲得。對話中的每一句話都被標記為這七種情感標簽中的任何一種——憤怒、厭惡、悲傷、喜悅、中立、驚訝和恐懼。MELD 還對每個話語都有情緒(正面、負面和中性)注釋。

CH-SIMS:該數據集是一個中文單模態和多模態情感分析的數據集,其中包含2 281個經過精煉的野外視頻片段,具有多模態和獨立的單模態注釋。它允許研究人員研究模態之間的相互作用或使用獨立的單模態注釋進行單模態情感分析。該數據集只考慮普通話,對口音材料的選擇持謹慎態度。剪輯長度不少于1 s,也不超過10 s。對于每個視頻剪輯,除了演講者的臉外,不會顯示其他臉。每個片段包含15個單詞,平均長度為3.67 s。每個剪輯都由人類注釋者根據5個情感分數的平均值進行標記,五類分別為消極{-1.0,-0.8},弱消極{-0.6,-0.4,-0.2},中性{0},弱積極{0.2,0.4,0.6}和積極{0.8,1.0}。

HEU Emotion:該數據庫包含總共19 004 個視頻片段,根據數據源分為兩部分。第一部分包含從Tumblr、Google 和Giphy 下載的視頻,包括10 種情緒和兩種模式(面部表情和身體姿勢);第二部分包括從電影、電視劇和綜藝節目中手工獲取的語料,包括10 種情緒和3 種形式(面部表情、身體姿勢和情緒言語)。該數據庫是迄今為止最廣泛的多模態情緒數據庫,共有9 951 名受試者,他們是來自不同文化背景的人,如中國人、美國人、泰國人和韓國人。在大多數情況下,他們說自己的母語。因此,該數據庫是一個具有多種語言的情感數據庫。

2 深度學習技術回顧

深度學習被認為是機器學習中一個新興的研究領域,近年來得到了更多的關注。與傳統方法相比,用于情感識別的深度學習技術具有許多優點,比如能夠檢測復雜的結構與特征,而無需手動進行特征提取等。在本章中,簡要回顧了幾種有代表性的深度學習方法及其最新的改進方法。

2.1 深度信念網絡

深度信念網絡(DBN)是由Hinton等于2006年提出的一種生成式模型,旨在獲取輸入數據的高階層次特征表示。DBN 是一種多層深結構,由一系列疊加的限制玻爾茲曼機(restricted Boltzmann machine,RBM)構建而成。RBM 由兩層神經元構成:可見層和隱藏層。每個神經元與另一層的神經元完全連接,但同一層的神經元之間沒有連接。訓練DBN 需要兩個階段:預訓練和微調。預培訓是通過一種有效的逐層貪婪學習策略以無監督的方式實現的。在預訓練過程中,采用對比發散(contrastive divergence,CD)算法對DBN中的RBM進行訓練,以優化DBN模型的權重和偏差。然后,使用反向傳播(back propagation,BP)算法進行微調以更新網絡參數。DBN的主要優點是它具有快速學習和提供高效表示的趨勢,它通過層層預訓練來實現這一點。同時,DBN也存在局限性。如在訓練DBN模型時計算成本高;DBN 不能考慮輸入圖像的二維結構,這可能會影響它們在計算機視覺等領域中的性能和適用性。

近年來,不少研究者提出了一些基于DBN 模型的改進方法。Lee等提出了一種用于全尺寸圖像的分層生成式模型,即卷積深度置信網絡(convolutional deep belief network,CDBN),由多個基于最大池化的卷積RBM(convolutional restricted Boltzmann machine,CRBM)相互堆疊而成。CDBN能夠從未標記的對象圖像和自然場景中學習有用的高級視覺特征。Wang等提出了一種基于遷移學習的增長型DBN(growing DBN with transfer learning,TL-GDBN)。TL-GDBN通過遷移學習將學習到的權重參數轉移到新添加的神經元和隱藏層,從而實現結構增長,直到滿足預訓練的停止標準。然后采用自上而下逐層偏最小二乘回歸法對TL-GDBN 預訓練得到的權值參數進行了進一步的微調,避免了傳統的基于反向傳播算法的微調問題。Deng 等提出了一種基于改進的量子啟發差分演化(quantum-inspired differential evolution,MSIQDE)算法,然后利用具有全局優化能力的MSIQDE 對DBN 的參數進行優化,構造了一個最優DBN 模型,并進一步應用該模型提出了一種新的故障分類方法,即MSIQDE-DBN方法。MSIQDE-DBN可以消除人為因素的干擾,自適應地選擇DBN 的最佳參數,從而有效地提高分類精度,滿足實際要求。

2.2 卷積神經網絡

卷積神經網絡(CNN)最初是于1998年由LeCun等提出的,并被廣泛使用和改進。CNN 的基本結構包括卷積層、池化層和全連接層。卷積層采用多個可學習濾波器對整個輸入圖像進行卷積運算,從而產生相應的激活特征映射。池化層連接于卷積層之后。池化層通過使用非線性下采樣方法實現平移不變性,用于對提取到的特征進行降維,保留主要特征。常用的池化方法有最大池化和平均池化。全連接層通常位于CNN 的末端,它用于激活上一層以生成最終的特征表示和分類結果。近年來,各種改進的CNN 架構被提出,并應用于大量領域。代表性的CNN架構有AlexNet、VGGNet、GoogleNet、ResNet、DenseNet等。

與2D-CNN相比,Tran等提出的用于大規模視頻數據集上訓練的三維卷積神經網絡(3D-CNN),是一種簡單而有效的時空特征學習方法,可以同時對外觀和動作進行建模。由于三維卷積比二維卷積涉及更多的參數,計算成本較高,Yang等提出了一種近似于傳統的三維卷積網絡的模型——基于微網(MicroNets)的非對稱單向三維卷積網絡(asymmetric 3D convolutional neural networks)。為了提高其特征學習能力,該模型采用了一組局部三維卷積網絡,引入了多尺度三維卷積分支。然后,利用微網構建非對稱3D-CNN 深度模型,用于動作識別任務。Kumawat 等提出了LP-3DCNN(local phase in 3D convolutional neural networks),使用校正局部相位體積(rectified local phase volume,ReLPV)塊代替傳統的3D卷積塊,ReLPV塊通過提取輸入圖中每個位置的3D 局部鄰域中的相位來獲得特征圖。Chen 等提出了一種頻域緊致三維卷積神經網絡(frequency domain compact 3D convolutional neural networks),利用一組學習到的具有很少網絡參數的最優變換,將時域轉換為頻域來實現3D卷積操作,從而消除三維卷積濾波器的時間維冗余。

總之,卷積神經網絡的權值共享網絡結構網絡模型的復雜度,減少了權值的數量。該優點在網絡的輸入使多維圖像上表現得更為明顯,使圖像可以直接作為網絡的輸入,避免了傳統識別算法中復雜的特征提取和數據重建過程。卷積神經網絡的局限性有:無法表示高層特征與低層特征之間的位姿(平移和旋轉)關系,以及底層對象之間的空間關系。因此,CNN在識別具有空間關系特征時存在不足;池化層可能會丟失有價值的信息等。

2.3 循環神經網絡

循環神經網絡(RNN)能夠從序列數據中捕獲時間信息,因此通常用于序列處理。作為一個單前饋神經網絡,RNN 采用隱狀態上的遞歸連接來捕獲序列數據的歷史信息。此外,RNN 在所有時間步長上共享相同的網絡參數。對于訓練RNN,采用傳統的時間反向傳播(backpropagation through time,BPTT)算法。然而當網絡需要訓練的參數很多時,RNN容易造成梯度消失或梯度爆炸問題。

長短期記憶網絡(long short-term memory,LSTM)于1997年被提出,是一種新的循環網絡結構。LSTM主要用于緩解RNN訓練過程中產生的梯度消失和梯度爆炸問題。LSTM 單元中有三種類型的門:輸入門、遺忘門和輸出門。輸入門用于控制有多少當前輸入數據流入網絡的存儲單元。遺忘門作為LSTM單元的關鍵部件,用于控制哪些信息需要保留,哪些信息需要遺忘,并以某種方式避免梯度損失和爆炸問題。輸出門控制存儲單元對當前輸出值的影響。基于這三個特殊門,LSTM能夠對序列數據中的長期相關性進行建模。

近年來,出現了各種RNN 或LSTM 的改進。Chung 等于2014 年提出了循環門控單元(gated recurrent unit,GRU)。GRU 使每個循環單元自適應地建模不同時間尺度的長期依賴關系。與LSTM 單元不同,GRU單元內沒有單獨的存儲單元。Zhao等于2019 年提出了一種基于卷積LSTM 的貝葉斯圖,用于識別基于骨架的動作。Zhang 等于2019 年提出了一種用于語音情感分類的多尺度深卷積LSTM。Xing等于2020年提出了一種新的脈沖卷積遞歸神經網絡(spiking convolutional recurrent neural network,SCRNN),借助卷積運算和遞歸連接,從基于事件的序列數據中建模時空關系。

3 特征提取

語音、視覺、文本是情感表達最常見的三種模態。針對語音、視覺、文本信息的情感特征提取是多模態情感識別任務的一個關鍵問題。根據特征類型的不同,可以分為手工特征和深度特征兩大類。下面將對語音、視覺、文本三種模態信息分別闡述其手工特征提取和深度特征提取技術的進展。

3.1 語音情感特征提取

語音情感識別是通過說話人的聲音來識別他人的情緒。語音情感特征提取是決定語音情感識別精度高低的一個關鍵因素。語音情感特征主要分為低層次的手工語音情感特征和通過深度學習技術得到的深度語音情感特征。

早期用于自動語音情感識別的語音情感特征是手工制作的低層次描述(low-level descriptors,LLD)特征,如韻律特征(基頻、能量)、音質特征(共振峰、聲道參數)、譜特征(線性預測倒譜系數(linear predictive cepstral coefficient,LPCC)、Mel頻率倒譜系數(Mel-frequency cepstral coefficients,MFCC))等。

Liscombe等提取了一系列基于基音周期、振幅和頻譜傾斜的連續語音特征,并評估了其與各種情感的關系。Yacoub 等提取了37 個韻律學特征,包括音高(基頻)、響度(能量)和音段(可聽持續時間)等,分別比較了使用神經網絡、支持向量機、K-近鄰算法和決策樹在語音情感分類中的結果。Schmitt等使用由MFCC 和能量低級描述符(LLD)創建的音頻詞袋(bag-of-audio-words,BoAW)方法作為特征向量和簡單的支持向量回歸(support vector regression,SVR)來預測喚醒和效價維度。孫韓玉等考慮了不同特征包含的信息,使用頻譜圖特征和LLD 特征分別輸入到雙通道卷積門控循環網絡。

Luengo 等從語音信號中提取聲學參數:韻律學特征、譜相關特征和語音質量特征。對單個參數和組合特征進行研究分析,在參數級(早期融合)和分類器級(后期融合)研究了不同參數類型的組合,判別這些特征在情感識別中的不同性能。

近年來,深度學習技術廣泛應用于語音情感識別任務,用于深度語音情感特征提取。常見的用于語音情感識別的深度學習方法有CNN、DBN、RNN 等。

Dutta 等提出了一種基于線性預測編碼(linear predictive coding,LPC)和MFCC 的語音識別模型。LPC 和MFCC 特征由兩種不同的RNN 網絡進行提取,用于識別阿薩姆語。

Mao等提出了將CNN應用于語音情感識別的特征提取。CNN有兩個學習階段:在第一階段,利用未標記樣本通過一種稀疏自動編碼器來學習局部不變特征;在第二階段,局部不變特征被用作特征提取器的輸入,即顯著判別特征分析(salient discriminative feature analysis,SDFA),以學習顯著判別特征。

陳婧等提出了一種新的多粒度特征提取方法。該方法基于不同的時間單位,包括短時幀粒度、中時段粒度以及長時窗粒度。為了融合這些多粒度特征,提出了一種基于認知機理的回饋神經網絡(cognition-inspired recurrent neural network,CIRNN)。CIRNN組合不同的時間級特征來模擬人類對音頻信號的逐步處理,通過同時突出情感的時間序列和內容信息的作用,實現多級信息融合。

俞佳佳等提出了一種針對語音原始信號的特征提取方法,利用SincNet 濾波器從原始語音波形中提取一些重要的窄帶情感特征,再利用Transformer模型的編碼器提取包含全局上下文信息的深度特征。

Zhang 等利用DBN 對提取的低階聲學特征進行無監督特征學習,根據DBN隱含層的學習結果,對多層感知器(multi-layer perceptron,MLP)進行初始化,并用于漢語語音情感分類。

Ottl等以兩種不同的方式從視頻中提取特征,其一使用深度頻譜(deep spectrum)工具包從音頻頻譜圖中學習深度表示,再采用各種流行的卷積神經網絡結構進行圖像識別預訓練;此外,使用OpenSMILE工具提取了6 373維的手工特征表示,包括語音質量特征,如抖動和微光,以及頻譜、MFCC和與發聲相關的低級描述符(LLD)等。最后,對深度特征和手工特征進行了早期和晚期融合。

從上述已有的手工語音情感特征和深度語音情感特征文獻來看:(1)采用OpenSMILE工具提取較高維度的LLD 特征,已成為手工語音情感特征的主流方法。(2)采用CNN從原始語音信號直接提取高層次的語音情感特征,已成為深度語音情感特征的主流方法。(3)手工語音情感特征和深度語音情感特征各有優缺點。近年來將這兩種特征進行融合用于語音情感識別,是一個有意義的研究方向。

3.2 視覺情感特征提取

視覺情感識別通過提取面部表情圖像的外觀和幾何特征并感知其變化來識別靜態圖像或視頻序列中的情感。根據視覺輸入數據的類型,基于視覺的情感識別可分為兩種:基于靜態面部圖像的表情識別和基于動態視頻序列的表情識別。下面將針對靜態面部圖像和動態視頻序列分別闡述各自的手工特征提取和深度特征提取的進展。

(1)靜態面部圖像

靜態圖像是指不包含音頻和時間信息的靜止圖像,先對其進行一系列的預處理,如旋轉、人臉定位、對齊、歸一化等,再提取圖像信息中的幾何圖形和外貌特征來獲得人臉表情特征。用于傳統面部情感識別的典型特征主要是手工制作的特征,對于靜態面部圖像主要的手工特征提取方法有:局部二值模式(local binary pattern,LBP)、尺度不變特征變換(scale invariant feature transform,SIFT)、方向梯度直方圖(histograms of oriented gradients,HOG)、Gabor小波法等。

劉軍等提出了一種新的基于主導近鄰像素的人臉圖像表示——局部Gabor 空間直方圖(local Gabor spatial histogram based on dominant neighboring pixel,LGSH-DNP)。首先對人臉圖像進行Gabor濾波器組濾波,過濾后的圖像中的每個像素都由具有最高值的兩個相鄰像素的位置標記,從而得到多個描述子圖像。其次從這些描述子圖像中提取空間直方圖。最后采用加權交集直方圖相似度測度實現人臉分類。在進行了大量實驗之后驗證了所提出的LGSH-DNP方法的有效性。

Bah 等提出了一種新的方法,利用LBP 算法,結合對比度調整、雙邊濾波、直方圖均衡化和圖像融合等先進的圖像處理技術,解決了影響人臉識別精度的一些問題,從而提高LBP編碼的識別率,提高了整個人臉識別系統的準確率。

Deeba 等開發了一個基于局部二值模式直方圖(local binary pattern histogram,LBPH)方法的人臉識別系統,LBPH算法是LBP和HOG算法的組合,用于處理低層和高層圖像中的實時人臉識別。使用LBPH,可以用一個簡單的特征向量表示人臉圖像。

Zhang 等從每幅人臉圖像中提取對應于每幅人臉圖像的一組標志點的尺度不變特征變換(SIFT)特征。然后,將由提取的SIFT 特征向量組成的特征矩陣作為輸入數據,輸送到設計良好的深度神經網絡模型,用于學習分類的最佳鑒別特征。

(2)動態視頻表情序列

面部表情涉及一個動態過程,并且動態信息(例如面部標志的移動和面部形狀的變化)包含可以更有效地表示面部表情的有用信息。因此,捕獲這樣的動態信息以便識別整個視頻序列中的面部表情非常重要。基于動態視頻表情序列的算法主要包括光流法和模型法。

在視頻表情序列中,光流分析已被應用于檢測面部部件的運動,通過測量兩個連續幀之間面部特征點的幾何位移來確定這些部件的運動。Fan等使用兩種類型的動態信息來增強識別:一種基于梯度金字塔直方圖(pyramid histogram of gradients,PHOG)的新型時空描述符來表示面部形狀的變化,以及密集光流來估計面部標志的移動。將圖像序列視為時空體,并使用時間信息來表示與面部表情相關聯的面部地標的動態運動。在此背景下,將表示空間局部形狀的PHOG描述符擴展到時空域,以捕獲時間維度中面部子區域局部形狀的變化,從而給出額頭、嘴、眉毛和鼻子的三維面部組件子區域。他們將這個描述符稱為PHOG-TOP(PHOG-three orthogonal planes)。通過結合PHOG-TOP 和面部區域的密集光流,利用鑒別特征的融合進行分類,從而識別面部表情。

劉濤等提出了一種新的面部情感識別的方法,通過對人臉表情圖像與中性表情圖像之間的光流特征的提取來體現人臉表情變化的差異,采用高斯線性判斷分析(linear discriminant analysis,LDA)方法對光流特征進行映射,得到人臉表情圖像的特征向量,采用多類支持向量機分類器實現人臉情感分類。

Happy 等探討了與面部微運動相關的時間特征,并提出了用于微表情識別的光流方向模糊直方圖(fuzzy histogram of optical flow orientation,FHOFO)特征。FHOFO使用直方圖模糊化從光流矢量方向構造合適的角度直方圖,對時間模式進行編碼,以對微觀表達式進行分類。

邵潔等針對RGB-D 圖像序列,提出了一種自發的人臉表情識別算法。在對圖像對齊和歸一化進行預處理后,提取四維時空紋理數據作為動態特征。然后采用慢速特征分析方法檢測表情的頂點,建立頂點圖像的三維人臉幾何模型作為靜態特征。將這兩種特征結合起來,通過主成分分析進行降維,最后利用條件隨機場對特征進行訓練和分類。

Yi 等利用特征點的運動趨勢和特征塊的紋理變化,提出了一種截取視頻序列的面部情感識別框架。首先,采用主動外觀模型(active appearance model,AAM)對特征點進行標記,選擇其中最具代表性的24個特征點。其次,通過確定情感強度最小和最大的兩個關鍵幀,從人臉視頻中截取人臉表情序列。然后,擬合代表任意兩個特征點之間歐氏距離變化的趨勢曲線,并計算趨勢曲線上特定點的斜率。最后,將計算得到的斜率集合與所提出的特征塊紋理差(feature block texture difference,FBTD)相結合,形成最終的表情特征,并輸入一維卷積神經網絡進行情感識別。

盡管傳統的人臉識別方法通過提取手工特征取得了顯著的成功,但近年來由于深度學習方法高度的自動識別能力逐漸應用于情感識別,用于提取高級特征。

(1)靜態面部圖像

對于靜態面部圖像的深度特征提取,主要采用的是基于卷積神經網絡的一些模型框架。Yolcu等提出了檢測面部重要部位的方法,使用三個結構相同的CNN,每一個都能檢測到臉部的一部分,如眉毛、眼睛和嘴巴。在將圖像引入CNN之前,要進行裁剪和面部關鍵點的檢測,結合原始圖像獲得的標志性人臉被引入第二類CNN以檢測面部表情。研究人員表明,這種方法比單獨使用原始圖像或圖像化人臉更準確。

Sun等用光流表示靜態圖像中的時間特征,提出了一種多通道深度時空特征融合神經網絡(multichannel deep spatial-temporal feature fusion neural network,MDSTFN),用于靜態圖像的深度時空特征提取與融合。該方法的每個通道都是從預先訓練好的深卷積神經網絡進行微調。結果表明,該方法可以有效地提高靜態圖像的人臉表情識別性能。

張鵬等提出了一種基于多尺度特征注意機制的人臉表情識別方法,采用兩層卷積層提取淺層特征信息。其次,在Inception 結構上并行加入空洞卷積(dilated convolution),用于提取多尺度特征,再引入通道注意力機制,加強了模型對有用的特征信息的利用。

Sepas-Moghaddam等首先利用VGG16卷積神經網絡提取空間特征。然后,利用Bi-LSTM 從視點特征序列中學習空間角度特征,探索前向和后向角度關系。此外,通過注意力機制選擇性地關注最重要的空間-角度特征。最后,采用融合方法獲得情感識別分類結果。

崔子越等提出了一種改進的Focal Loss 和VGGNet相結合的人臉表情識別算法,利用新設計的輸出模塊來改進VGGNet模型,提高了模型的特征提取能力。通過設置概率閾值來避免錯誤標記樣本對模型性能的負面影響,Focal Loss得到了改進。

鄭劍等提出了一種深度卷積神經網絡FLFTAWL(deep convolutional neural network fusing local feature and two-stage attention weight learning)用于融合局部特征和兩階段注意力權重學習。該網絡能夠自適應地捕獲人臉的重要區域,提高人臉表情識別的有效性。

(2)動態視頻表情序列

對于動態視頻表情序列的深度特征提取,常用的方法有CNN、RNN、LSTM 等。Jung等提出了一種聯合微調方法來整合兩個獨立的深層網絡,分別使用圖像序列和面部標志點進行訓練,以學習時間外觀特征和時間幾何特征。Jaiswal等提出了一種通過使用CNN和BiLSTM的組合來獲取時間信息的方法。Fan 等提出了一種混合網絡,該網絡使用3DCNN 體系結構進行特征提取,并進一步選擇RNN來捕獲面部信息的時間相關性。

Kim等研究了情緒狀態下面部表情的變化,他們提出了一種結合CNN和LSTM的框架。面部表情的特征編碼為兩部分:第一部分,CNN學習情緒狀態所有幀中面部表情的空間特征;第二部分,通過LSTM來學習時間特征。

Yu 等提出了一種稱為時空卷積嵌套LSTM(spatio-temporal convolutional features with nested LSTM,STC-NLSTM)的新體系結構,該體系結構基于三個深度學習子網絡:用于提取時空特征的3DCNN,用于保持時間動態的時間T-LSTM,對多級特征進行建模的卷積C-LSTM。3DCNN用于從表示面部表情的圖像序列中提取時空卷積特征,T-LSTM用于對每個卷積層中的時空特征的時間動態進行建模,并采用C-LSTM將所有T-LSTM的輸出集成在一起,從而對網絡中間層編碼的多級特征進行編碼。

Liang 等提出了一種用于面部情感識別的深度卷積雙向長短時記憶(Bi-LSTM)融合網絡,它可以利用空間和時間特征。該框架主要由三部分組成:用于區分性空間表示提取的深空間網絡(deep spatial network,DSN)、用于學習時間動力學的深時間網絡(deep temporal network,DTN)和用于長期時空特征積累的循環網絡。給定一個表示情感類的圖像序列,具有更深和更大架構的DSN 從序列中的每一幀中學習細微特征,而DTN 則通過將兩個相鄰幀作為輸入來關注短期表達變化。為了更好地識別時空信息,Bi-LSTM 網絡被進一步用于發現數據之間的相關性。此外,該框架是端到端可學習的,因此可以調整時間信息以補充空間特征。

司馬懿等使用預先訓練好的Inception ResNet v1 網絡提取每一幀的特征向量,然后計算特征向量之間的歐氏距離來定位表情強度最大的完整幀,從而得到標準化的人臉表情序列。為了進一步驗證定位模型的準確性,分別采用VGG16 網絡和ResNet50網絡對定位后的完整幀進行面部表情識別。

Meng 等提出了幀注意網絡(frame attention networks,FAN),將具有可變數量人臉圖像的視頻作為其輸入,并生成固定尺寸的表示。整個網絡由兩個模塊組成。特征嵌入模塊是一個深度卷積神經網絡,它將人臉圖像嵌入到特征向量中。幀注意模塊學習多個注意權重,這些權重用于自適應地聚合特征向量以形成單個判別視頻表示。

Pan 等提出了一種基于深度時空網絡的視頻面部表情識別方法。首先采用空間卷積神經網絡和時間卷積神經網絡,分別提取視頻序列中的高級時空特征。然后組合提取的空間和時間特征輸入到融合網絡中,進行基于視頻的面部表情分類任務。

從上述已有的手工視覺情感特征和深度視覺情感特征文獻來看:(1)基于視覺的情感識別可分為基于靜態面部圖像的表情識別和基于動態視頻序列的表情識別。(2)對于靜態面部圖像的手工特征提取,主要是通過提取圖像信息中的幾何圖形和外貌特征來獲得人臉表情特征,常用的方法有LBP、HOG、SIFT 等及其改進的方法;對于靜態面部圖像的深度特征,主要采用基于CNN 的網絡模型進行面部圖像的深度特征提取;對于動態視頻表情序列的手工特征提取,捕獲視頻序列的動態信息才能更有效地表示面部表情的有用信息,常用的方法主要包括光流法和模型法;對于動態視頻表情序列的深度特征提取,考慮視頻序列的時空性,通常采用基于CNN 和RNN的模型來分別提取空間深度特征和時間深度特征。(3)根據現有的文獻表明,將視覺手工特征和深度特征相結合,是一個值得深入研究的方向。

3.3 文本情感特征提取

文本情感通常是利用文本信息來傳達人的情感。提取文本情感特征是文本情感識別任務的一個關鍵。首先對文本字符進行轉化,轉化為可被計算機識別的數值,得到初步的文本特征表示。在此基礎上,為了減少信息冗余、降低數據維度,對其進行有效特征提取,用于輸入到下游的神經網絡中訓練,實現最終的情感識別。因此文本情感特征提取是實現文本情感分類的關鍵,主要分為手工文本情感特征提取和深度文本情感特征提取。

常用的手工文本情感特征提取方法是詞袋模型(bag-of-words model,BoW)。該模型將文檔映射成向量,如=[,,…,x],其中x表示基本術語中第個詞的出現。這些基本術語是從數據集中收集的,通常是出現頻度最高的前個詞。出現特征的值可以是二進制、術語頻率或TF-IDF(term frequencyinverse document frequency)。二進制值表示在文本中是否出現第個單詞,不考慮單詞的權重。術語頻率表示每個單詞出現的次數。一般來說,文本中的高頻詞匯可以體現文本的某些代表性思想,但某些詞在所有文本中可能高頻出現。TF-IDF平衡始終具有高頻率的單詞的權重。它假設一個詞的重要性與它在文檔中的頻率成比例增加,但被它在整個語料庫中的頻率所抵消。盡管BoW模型簡單且常用,但它存在高維稀疏性和詞間關系缺失的問題,是一種低層次的文本特征表示方法。

為了改進BoW 模型,Deerwester 等提出了潛在語義分析(latent semantic analysis,LSA),LSA利用奇異值分解(singular value decomposition,SVD)將原始的BoW特征表示轉換為具有較低維度的向量。如果原始向量基于頻率,則轉換的向量也與術語頻率近似線性相關。Hofmann提出概率潛在語義分析(probability latent semantic analysis,PLSA),PLSA 基于LSA引入了統計概率模型,與標準LSA相比,它的概率變體具有良好的統計基礎,并定義了一個合適的數據生成模型,解決了一義多詞和一詞多義的問題。Blei 等提出了潛在狄利克雷分布模型(latent Dirichlet allocation,LDA),是一種離散數據集合(如文本語料庫)的生成概率模型。LDA是一個三層貝葉斯概率模型,包含詞、主題、文檔三層結構,通過將詞映射到主題空間,計算出每個詞的權重,從而選擇文本特征。

詞嵌入(word embedding)是一種基于分布式語義建模的技術,一些預訓練好的面向深度學習的詞嵌入模型被廣泛應用于文本情感提取任務。根據編碼信息的不同重點,詞嵌入可分為兩類:典型詞嵌入和情感詞嵌入。前者側重于通過建模一般語義和上下文信息來學習連續單詞嵌入,而后者側重于將情感信息編碼到單詞嵌入中。

早期的詞嵌入模型通常基于句法上下文進行訓練。他們認為出現頻率較高的詞在某些語義標準上往往是相似的,例如word2vec和Glove。它們在大量未標記數據上進行訓練,目的是捕獲細粒度的語法和語義規則。預訓練的詞嵌入模型比隨機初始化的單詞向量具有更好的性能,并且在NLP 任務中取得了巨大的成功。然而,早期的詞嵌入模型假設“一個詞由唯一向量表示”,并忽略了不同上下文信息的影響。它們將每個單詞嵌入一個唯一的向量,無論是單義還是多義。這種局限性阻礙了早期單詞嵌入模型的有效性。

近年來,受遷移學習的啟發,預訓練語言模型的出現開啟了NLP 領域的突破。ELMo(embeddings from language models)是一種新型的深層語境化(deep contextualized)單詞表示方法。ELMo 是一個深層的雙向語言模型,通過捕獲詞義隨上下文的變化動態生成單詞嵌入。它可以模擬詞語的復雜特征(如同義詞和語義)及在不同的語言語境中的語義變化(即多義詞)。ELMo 可以很容易地轉移到現有模型中,并顯著改進了六個具有挑戰性的NLP 問題的最新技術,包括問題回答、情感分析等領域。

近年來,OpenAI 提出了基于Transformer的語言模型GPT(generative pre-training)。與ELMo 不同,GPT 利用上文預測下一個單詞。GPT 采用兩階段過程,首先在未標記的數據上使用語言建模目標來學習神經網絡模型的初始參數,隨后使用相應的監督目標使這些參數適應目標任務。GPT 在GLUE 基準測試的許多句子級任務上取得了先前的最新成果。

BERT(bidirectional encoder representations from transformers)是一種基于Transformer的雙向編碼表示模型,在所有層中對上下文進行聯合調節,通過無監督學習預測上下文中隱藏的單詞,從未標記文本中預訓練深層雙向表示。BERT打破了11項NLP任務的最佳記錄。隨后越來越多的預訓練模型及改進不斷出現,如GPT-2、GPT-3、Transformer-XL、XLNet等,推動著NLP領域的不斷進步與成熟。

在傳統詞嵌入的推動下,情感詞嵌入在不同的情感任務中取得較大的貢獻,如情感分類和情感強度預測。為了將情感信息納入詞語表示,Tang 等提出了情感特定詞嵌入(sentiment-specific word embeddings,SSWE),它在向量空間中編碼情感(積極或消極)和句法上下文信息。與其他詞嵌入相比,這項工作證明了將情感標簽納入與情感相關任務的詞級信息的有效性。

Felbo 等通過訓練一個名為DeepMoji 的兩層Bi-LSTM模型,使用1.2億條推特數據預測輸入文檔的情感,在情感任務方面取得了良好的效果。

Xu 等提出了Emo2Vec,將情感語義編碼為固定大小的實值向量的詞級表示,采用多任務學習的方法對Emo2Vec 進行了6 個不同的情緒相關任務的訓練。對Emo2Vec 的評估顯示,它優于現有的與情感相關的表示方法,并且在訓練數據更小的十多個數據集上取得了更好的效果。當與GloVe級聯時,Emo2Vec 使用簡單的邏輯回歸分類器在幾個任務上取得了與最新結果相當的性能。

Shi 等提出了一種新的學習領域敏感和情感感知嵌入的方法,該方法同時捕獲單個詞的情感語義信息和領域敏感信息,可以自動確定并產生域通用嵌入和域特定嵌入。域公共詞和域特定詞的區分,使得多個域的通用語義數據增強的優勢得以實現,同時捕獲不同域的特定詞的不同語義。結果表明,該模型提供了一種有效的方法來學習領域敏感和情感感知的單詞嵌入,這有利于句子和詞匯層面的情感分類。

從上述已有的手工文本情感特征和深度文本情感特征文獻來看:(1)常用的手工文本情感特征提取采用的是詞袋模型BoW,但它存在高維稀疏性和詞間關系缺失的問題,是一種低層次的文本特征表示方法。為了改進BoW 模型,繼而出現了一系列改進的模型,如LSA、PLSA、LDA等。(2)深度文本情感特征主要以詞嵌入的形式表示,一些預訓練好的面向深度學習的詞嵌入模型被廣泛使用于文本情感提取任務,主要分為典型詞嵌入和情感詞嵌入。常用的詞嵌入為word2vec、Glove、BERT等。

4 多模態信息融合方法

情感是以非言語方式發生的動態心理生理過程,這使得情感識別變得復雜。近年來,盡管單模態情感識別任務取得了一些研究成果,但研究表明,多模態的情感識別任務效果優于單一模態。研究嘗試結合不同模式的信號,如語音、視覺、文本等信息,從而提高情感識別任務的效率和精確度。這部分將重點介紹多模態情感識別中的多模態信息融合方法。常見的融合方法有:特征層(feature-level)融合、決策層(decision-level)融合、模型層(modellevel)融合等。

特征層融合也被稱為早期融合(early fusion,EF),是一種復雜度較低、相對簡單的融合方法,考慮了模式之間的相關性。對于多模態,特征層融合直接將單模態提取到的特征級聯成一個特征向量,并對其訓練分類器,用于情感識別。然而,集成多模態模式中不同度量級別的特征將顯著增加級聯特征向量的維數,容易導致維度過高以至于訓練模型困難。

決策層融合也被稱為后期融合(late fusion,LF),采用某種決策融合規則,將不同的模態視為相互獨立的,組合多種單模態的識別結果,得到最終的融合結果。常用的決策融合規則包括“多數投票”“最大”“總和”“最小”“平均”“乘積”等。雖然基于規則的融合方法易于使用,但基于規則的融合面臨的困難是如何設計好規則。如果規則過于簡單,它們可能無法揭示不同模式之間的關系。決策級融合的優點是來自不同分類器的決策易于比較,并且每個模態可以使用其最適合任務的分類器。

模型層融合近年來廣泛應用于情感識別任務,其旨在對每個模態分別建模,同時考慮模態之間的相關性。因此,它可以考慮不同模式之間的相互關聯,并且降低了這些模態時間同步的需求。此外,混合融合方法是特征級和決策級策略的組合,因此結合了早期融合和晚期融合兩者的優點。

根據采用的單一模態信息的數量,常見的多模態情感識別可以分為雙模態情感識別和三模態情感識別。本章從基于雙模態和三模態的情感識別這兩方面對這些融合方法進行分析,結果如表2所示。

表2 多模態信息融合方法Table 2 Multimodal information fusion methods

表2 (續)

4.1 雙模態情感識別

常見的雙模態情感識別可以分為:融合語音和視覺信息的音視頻情感識別以及融合語音和文本的雙模態情感識別。

Huang 等提出利用Transformer 模型在模型層面上融合視聽模式。利用OpenSMILE提取聲學參數集(eGeMAPS)作為音頻特征,視覺特征由幾何特征構成,包括面部地標位置、面部動作單位、頭部姿態特征和眼睛注視特征。多頭注意力在編碼音視頻后,從公共語義特征空間產生多模態情感中間表征,再將Transformer 模型與LSTM 相結合,通過全連接層得到回歸結果,進一步提高了性能。在AVEC 2017數據庫上的實驗表明,模型級融合優于其他融合策略。

劉菁菁等提出一種基于LSTM 網絡的多模態情感識別模型。對語音提取了43 維手工特征向量,包括MFCC 特征、Fbank 特征等;對面部圖像選取26個人臉特征點間的距離長度作為表情特征。采用雙路LSTM分別識別語音和面部表情的情感信息,通過Softmax 進行分類,進行決策層加權特征融合。在eNTERFACE’05 數據集上,傳統情感六分類的準確率達到74.40%;另外,模型層特征融合方法采用雙層LSTM 的結構,將情感分類特征映射到激活度-效價空間(arousal-valence space),在兩個維度上的準確率分別達到84.10%和86.60%。

Liu等提出了一種新的表示融合方法,稱為膠囊圖卷積網絡(capsule graph convolutional network,CapsGCN)。首先,從語音信號中提取聲譜圖,通過2D-CNN 進行特征提取;對圖像進行人臉檢測,通過VGG16進行視覺特征提取。將提取出的音視頻特征輸入到膠囊網絡,分別封裝成多模態膠囊,通過動態路由算法有效地減少數據冗余。其次,將具有相互關系和內部關系的多模態膠囊視為圖形結構。利用圖卷積網絡(GCN)學習圖的結構,得到隱藏表示。最后,將CapsGCN 學習到的多模態膠囊和隱藏關系表示反饋給多頭自注意力,再通過全連接層進行分類。實驗表明提出的融合方法在eNTERFACE'05

上取得了80.83%的準確率和80.23%的F1得分。

王傳昱等提出了一種基于音視頻的決策融合方法。對視頻圖像,利用局部二進制模式直方圖(local binary patterns histograms,LBPH)、稀疏自動編碼器(sparse auto-encoder,SAE)和改進的CNN 來實現;對于語音模態,基于改進深度受限波爾茲曼機和LSTM來實現。在單模態識別后,根據權重準則將兩種模態的識別結果進行融合,通過Softmax 進行分類。在CHEAVD 數據集上的實驗結果表明,識別率達到了74.90%。

Hazarika 等提出了一種基于自注意力(selfattention)的特征級融合方法。對語音提取高維手工特征,如響度、音高、聲音質量、梅爾光譜、MFCC 等;對文本采用FastText嵌入字典進行編碼,再用CNN進行特征提取;該注意力機制為這些模態分配適當的分數,然后將這些分數用作加權組合的權重,最后通過Softmax 進行分類。在IEMOCAP(前四個會話作為訓練集,第五個會話作為測試集)數據集上的實驗表明,該融合方法在四分類的情感識別率達到了71.40%。

Priyasad 等提出了一種基于深度學習的方法來融合文本和聲音數據進行情感分類。利用SincNet層和深度卷積神經網絡(DCNN)從原始音頻中提取聲學特征,級聯兩個并行分支(其一為DCNN,其二為Bi-RNN 與DCNN 串聯)進行文本特征提取,再引入交叉注意力(cross-attention)來推斷從Bi-RNN 收到的隱藏表示上的N-gram級相關性,最后通過Softmax進行分類。該方法在IEMOCAP(10 折交叉驗證)數據集上進行了評估,實驗結果表明,該系統性能優于現有方法,加權精度提高0.052。

Krishna 等提出了一種利用跨模態注意力(cross-modal attention)和基于原始波形的一維卷積神經網絡進行語音-文本情感識別的新方法。他們使用音頻編碼器(CNN+Bi-LSTM)從原始音頻波形中提取高級特征,并使用文本編碼器(詞嵌入Glove+CNN)從文本中提取高級語義信息;使用跨模態注意力,其中音頻編碼器的特征關注文本編碼器的特征,反之亦然,再通過Softmax 進行分類。實驗表明,該方法在IEMOCAP(四個會話作為訓練集,一個會話作為測試集,做交叉驗證)數據集上獲得了最新的結果。與之前最先進的方法相比,得到0.019的精度絕對提升。

Lian等提出了一個用于會話情感識別的多模態學習框架,稱為CTNet(conversational transformer network),使用基于Transformer 來建模多模態特征之間的模態內和模態間的交互。利用OpenSMILE提取88 維的聲學特征(eGeMAPS),在Common Crawl and Wikipedia 數據集上訓練的300 維詞向量作為文本特征。為了建模上下文敏感和說話人敏感的依賴關系,使用了基于多頭注意力的雙向GRU 網絡和說話人嵌入,通過Softmax進行分類。在IEMOCAP(前四個會話用作訓練集和驗證集,第五個會話用作測試集)和MELD(十折交叉驗證)數據集上的實驗結果表明了該方法的有效性,與其他方法相比在加權平均F1得分上表現出0.021~0.062的性能提升。

王蘭馨等提出了基于Bi-LSTM-CNN 的語音-文本情感識別算法。提取word2vec詞嵌入作為文本特征,再經過Bi-LSTM和CNN模型進行文本特征提取,對語音利用OpenSMILE 進行手工聲學特征提取(IS10_paraling),將兩者特征融合的結果作為聯合CNN 模型的輸入,通過Softmax進行分類,進行情感識別。基于IEMOCAP(四個會話作為訓練集,一個會話作為測試集)的結果表明,情感識別準確率達到了69.51%。

4.2 基于三模態的情感識別

Poria等提出了一個能夠捕捉話語間上下文信息的循環模型。他們使用CNN 進行文本特征提取,將話語表示為word2vec 向量的矩陣;使用Open-SMILE 提取音頻特征,提取的特征由幾個底層描述符組成,如聲音強度、音調及其統計數據;用3D-CNN對視頻中圖像序列進行特征提取。他們提出了一個基于上下文注意力的LSTM(contextual attention-based LSTM,CAT-LSTM)模型來模擬話語之間的上下文關系,之后引入了一種基于注意力的融合機制(attentionbased fusion,AT-Fusion),它在多模態分類融合過程中放大了更高質量和信息量的模式,最后通過Softmax進行分類。結果顯示,該模型在CMU-MOSI(訓練集(含1 447個話語)、測試集(含752個話語)劃分與說話人無關)數據集上比最先進的技術提高了0.06~0.08。

Pan 等提出了一種稱為多模態注意力網絡(multi-modal attention network,MMAN)的混合融合方法。利用OpenSMILE 提取語音手工特征(IS13-ComParE),通過3D-CNN 提取視覺特征,提取word2vec詞嵌入作為文本特征。他們提出了一種新的多模態注意力機制(cLSTM-MMA),通過三種模式促進注意力,并選擇性地融合信息,最后通過Softmax進行分類。MMAN在IEMOCAP(訓練集、測試集隨機劃分)情感識別數據庫上實現了最先進的性能。

Mittal 等提出了一個使用乘法融合層的多模態情感識別模型,稱為M3ER。該方法學習更可靠的模態,并在樣本基礎上抑制較弱的模態。提取Glove詞嵌入作為文本特征,對語音模態提取聲學特征,如音高等,從最先進的面部識別模型、面部動作單元和面部地標中獲得的特征組合作為視覺特征。通過引入典型相關分析來區分無效模態和有效模態,再生成代理功能來代替無效的模態,最后通過全連接層進行分類。實驗結果表明,在IEMOCAP上的平均準確率為82.70%,在CMU-MOSEI(隨機劃分為訓練集(70%)、驗證集(10%)和測試集(20%))上的平均準確率為89.00%,總體來說比以往研究提高了約0.05的準確率。

Siriwardhana 等首次使用從獨立預訓練的自監督學習(self supervised learning,SSL)模型中提取的SSL特征來表示文本(采用RoBERTa)、語音(采用Wav2Vec)和視覺(采用Fabnet)的三種輸入模態。鑒于SSL 特征的高維特性,引入了一種新的Transformer 和基于注意力的融合機制,最后通過Softmax獲得最終分類結果。該機制可以結合多模態SSL 特征并實現多模態情感識別任務的最新結果。對該方法進行了基準測試和評估,在四個數據集IEMOCAP(前四個會話作為訓練集,第五個會話作為測試集)、CMU-MOSEI(使用了CMU-SDK中提供的標簽和數據集拆分)、CMU-MOSI(使用CMU-SDK中提供的標簽和數據集拆分)、MELD 上的結果表明該方法優于最先進的模型。

Mai 等提出了多融合殘差記憶網絡(multifusion residual memory network,MFRM)來識別話語級情感。對語音、視覺及文本模態采用雙向GRU 模型來獲得每個模態的特征表示。在MFRM 中,提出了情感強度注意,使MFRM 能夠關注發生強烈情感或重大情感變化的時間步長,并引入時間步長級融合來建模時間受限的模式間交互。此外,還提出了殘差記憶網絡(residual memory network,RMN)來處理融合特征。最后,通過全連接層得到分類結果。大量實驗表明,MFRM 在CMU-MOSI(1 284 個話語作為訓練集,686 個話語作為測試集)、CMU-MOSEI(16 265 個話語作為訓練集,4 643 個話語作為測試集)、IEMOCAP(前四個會話作為訓練集,第五個會話作為測試集)、IMDB數據集上實現了最先進的結果。

Wang 等受Transformer 最近在機器翻譯領域取得成功的啟發,提出了一種新的融合方法Trans-Modality來解決多模態情感分析的任務。文本、視覺和聲學特征分別通過CNN、3D-CNN 和OpenSMILE進行提取。通過Transformer,學習的特征體現了源模態和目標模態的信息,再通過全連接層進行分類。在多個多模態數據集CMU-MOSI(訓練集、驗證集包含1 447 個話語,測試集包含752 個話語)、MELD(訓練集、驗證集包含11 098個話語,測試集包含2 610 個話語)、IEMOCAP(訓練集、驗證集包含5 810個話語,測試集包含1 623個話語)上驗證了該模型。實驗表明,提出的方法達到了最先進的性能。

Dai 等提出了一個完全端到端的模型(multimodal end-to-end sparse model,MESM)將特征提取和多模態建模這兩個階段連接起來,并對它們進行聯合優化。對于語音和視覺模態中的每個光譜圖塊和圖像幀,采用CNN 進行特征提取;對文本采用Transformer 進行編碼。為了減少端到端模型帶來的計算開銷,引入了稀疏跨模態注意力(cross-modal attention)進行特征提取,最后通過前饋網絡得到分類結果。在IEMOCAP(將70%、10%和20%的數據分別隨機分配到訓練集、驗證集和測試集)和CMU-MOSEI(隨機劃分)上的實驗結果表明,完全端到端模型明顯優于基于兩階段的現有模型。此外,通過添加稀疏的跨模態注意力,該模型可以在特征提取部分以大約一半的計算量保持相當的性能。

Ren 等提出了一種新的交互式多模態注意網絡(interactive multimodal attention network,IMAN)用于對話中的情緒識別。利用OpenSMILE對語音信息提取聲學特征(IS13 ComParE),利用3D-CNN提取視覺特征,提取Glove 詞嵌入作為文本特征。IMAN引入了一個跨模態注意融合模塊來捕獲多模態信息的跨模態交互,并采用了一個會話建模模塊來探索整個對話的上下文信息和說話者依賴性,最后通過全連接層得到分類結果。在IEMOCAP(前四個會話作為訓練集,最后一個為測試集)數據集上的實驗結果表明,IMAN 在加權平均精度和F1-得分方面分別達到了0.004和0.002的提升。

Khare 等將自監督訓練擴展到多模態情感識別中,對一個基于Transformer 訓練的掩碼語言模型進行預訓練,使用音頻(聲學特征)、視覺(VGG16 提取的深度特征)和文本(Glove 詞嵌入)特征作為輸入,最后通過全連接層進行分類。該模型對情感識別的下游任務進行了微調。在CMU-MOSEI 數據集上的研究結果表明,與基線水平相比,自監督訓練模型可以提高高達0.03的情感識別性能。

來自不同模態的信息對最終情感識別性能的貢獻是不同的,模型應該更加關注融合過程中提供更多信息的模態。傳統的特征融合和決策融合方法無法考慮模態之間的交互影響,因此近年來逐漸從傳統融合方法走向模型層融合。隨著注意力機制的不斷改進,考慮到注意力機制能夠學習不同模態對識別性能的影響,注意力機制在多模態融合中扮演著越來越重要的作用。

5 挑戰與機遇

5.1 深度學習技術的自身缺陷

到目前為止,各種深度學習方法已經成功地應用于學習高級特征表示以進行情感特征識別。此外,這些深度學習方法通常優于基于手工特征的其他方法。然而,這些使用的深度學習技術具有大量的網絡參數,導致其計算復雜度高。為了緩解這個問題,越來越多的學者著手對深度網絡的壓縮和加速的研究。剪枝(pruning)是減少深度神經網絡(DNN)參數數量的一種強有力的技術。在DNN中,許多參數是冗余的,在訓練過程中對降低誤差沒有很大的貢獻。因此,在訓練之后,這些參數可以從網絡中移除,移除這些參數對網絡精度的影響最小。剪枝的主要目的是減少模型的存儲需求并使其便于存儲。如He 等引入了一種新的通道剪枝方法來加速深度卷積神經網絡。給定一個訓練好的CNN模型,提出了一個迭代的兩步算法,通過基于LASSO(least absolute shrinkage and selection operator)回歸的通道選擇和最小二乘重建來有效地修剪每一層。進一步將該算法推廣到多層和多分支的情況。修剪后的VGG16 以5 倍的加速達到了最先進的結果,同時對ResNet、Xception等網絡實現了2倍的加速。

盡管就各種特征學習任務的性能衡量而言,深度學習已經成為一種最先進的技術,但黑盒問題仍然存在。深層模型的多個隱藏層究竟學習到了什么樣的內部表示尚未可知。由于其多層非線性結構,深度學習技術通常被認為不透明,其預測結果往往無法被人追蹤。為了緩解這個問題,直接可視化學習到的特征已經成為理解深度模型的廣泛使用的方式。然而,這種可視化的方式并沒有真正提出相關的理論來解釋這個算法到底在做什么。因此,從多模態情感識別的理論角度探討深度學習技術的可解釋性是一個重要的研究方向。

5.2 跨庫的多模態情感識別

多模態情感識別技術雖然有了巨大的發展,但在跨語言的環境中,仍然是一個具有挑戰性但至關重要的問題。由于數據采集和注釋環境的不同,不同數據集之間往往存在數據偏差和注釋不一致。現在的多模態情感識別往往在同一個數據集進行訓練和測試,大多數研究人員通常在一個特定的數據集中驗證他們提出的方法的性能,且當下的跨庫情感識別也大多為單模態的情感識別任務。由于需要聯合處理多個數據源,這比單模態情感識別系統具有更大的復雜性。因此如何進行跨庫的多模態情感識別也是未來的一個挑戰。近年來,新發展起來的對抗學習方法是一種可行的跨庫多模態情感識別策略。常見的對抗學習網絡有生成性對抗網絡(generative adversarial networks,GAN)、對抗式自動編碼器(adversarial autoencoder)等。

學習各種模式的聯合嵌入空間對于多模態融合至關重要。主流模態融合方法未能實現這一目標,留下了影響跨模態融合的模態缺口。Mai 等提出了一種新的對抗編碼器-解碼器-分類器框架來學習一個模態不變的嵌入空間。由于各種模態的分布在本質上是不同的,為了減少模態差異,使用對抗訓練通過各自的編碼器將源模態的分布轉換為目標模態的分布。進一步通過引入重構損失和分類損失對嵌入空間施加額外約束。然后使用層次圖神經網絡融合編碼表示,明確了多階段的單峰、雙峰和三峰相互作用。該方法在多個數據集上取得了最新的性能。因此在后續的多模態情感任務中,將對抗學習方法應用于多模態融合是一個值得深入研究的方向。

5.3 集合更多的模態信息

以前的研究主要集中在依靠面部表情、語音和文本來評估人類的情緒狀態。然而,這些類型的輸入數據是相對主觀的,并且缺乏足夠的客觀特征來準確標記一個人的情緒。因此增加更多的模態信息進行研究是一個值得探索的問題。最近,人們開始使用基于情感識別方法的生理信號,這種方法更加客觀,適合于對情緒狀態進行連續實時監測。常用于檢測情緒的生理信號包括腦電圖(electroencephalogram,EEG)、心電圖(electrocardiogram,ECG)、皮膚電反應(galvanic skin response,GSR)、皮膚溫度(skin temperature,ST)和光容積圖(photoplethysmogram,PPG)等。在情感識別系統中使用兩個或兩個以上的信號可以極大地提高整體準確性。

此外,雖然面部表情自動情緒識別取得了顯著的進展,但身體手勢的情感識別尚未得到深入的探索。人們經常使用各種各樣的身體語言來表達情感,很難列舉所有的情緒身體手勢,并為每個類別收集足夠的樣本。因此,識別新的情緒性身體手勢對于更好地理解人類情緒至關重要。然而,現有的方法并不能準確地確定一個新的身體姿勢屬于哪種情緒狀態。身體語言作為傳遞情感信息的重要因素,在情感識別中尚未得到深入的研究。人們經常使用各種各樣的身體語言來表達情感,但很難列舉所有的情感身體姿勢種類,并為每個類別收集足夠的樣本。目前主流的算法主要將現有的身體檢測和特征提取技術應用到情感分類任務中,但并不能準確地確定一個新的身體姿勢屬于哪種情感狀態。因此,識別新的情感身體姿勢對于情感識別至關重要。

此外,目前的一些語義融合策略,如多視圖融合、遷移學習融合和概率依賴融合,在多模態數據的語義融合方面取得了一些進展。因此,將深度學習和語義融合策略結合起來,可能對多模態情感識別帶來一個新的研究方法。

5.4 小樣本學習

在數據收集困難、缺乏數據的情況下,對情感識別任務而言是一個巨大的挑戰。例如大多數基于身體手勢的情感識別數據集只包含幾百個樣本,且大部分收集的是實驗者在實驗室環境中執行的行為。這種收集方法大多由實驗設計者預先指定,且姿勢種類較少。然而,人們表達情感的方式是不同的,隨之產生不同的身體姿勢。當在模型測試過程中出現一個新的身體手勢時,算法很容易識別錯誤。解決小樣本問題的一種方法是擴展訓練數據集,以包括盡可能多的情感身體手勢。然而,收集所有類別的標記數據都是巨大的工作量。

對于數據小樣本問題,零次學習(zero-shot learning,ZSL)是一種較好的解決方法。ZSL可以通過屬性和語義向量的等邊信息建立可見類別和不可見類別之間的關聯。例如它為身體姿勢這個問題提供了一個解決方法,即使用它們的語義描述來識別新的身體姿勢類別,然后從身體姿勢標簽中推斷出情感類別。因此,在情感識別任務中,對小樣本學習方法的深入研究及不斷改進是未來值得探索的一個方向。

6 總結

本文對近年來面向深度學習的融合語音、視覺、文本等模態信息的多模態情感識別技術進行了系統性分析與總結。詳細闡述了幾種具有代表性的深度學習技術,如DBN、CNN、LSTM及其改進方法;介紹了近年來國內外的多模態情感數據庫,重點介紹了近年來深度學習技術在多模態情感識別領域中的研究進展,如基于深度學習的單一模態情感特征提取方法及多模態信息融合策略。此外,給出了未來進一步提高多模態情感識別性能的幾個具有挑戰性的研究方向。

猜你喜歡
特征提取模態深度
深度理解一元一次方程
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
深度觀察
深度觀察
深度觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
基于MED和循環域解調的多故障特征提取
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 激情無極限的亚洲一区免费| 婷婷亚洲视频| 久久精品国产精品青草app| 国产导航在线| 精品国产网| 欧美亚洲香蕉| 国产精品免费福利久久播放| 日本尹人综合香蕉在线观看| 91精品专区国产盗摄| 无码日韩人妻精品久久蜜桃| a级毛片免费播放| 精品国产91爱| 国产精品护士| 伊人久久综在合线亚洲91| 亚洲男人的天堂久久精品| 精品久久蜜桃| 国产真实二区一区在线亚洲| 亚洲人人视频| 日本www色视频| 亚洲天堂久久| 大学生久久香蕉国产线观看 | 国产精品综合色区在线观看| 日本欧美成人免费| 国产成人高清在线精品| 中文国产成人精品久久| 99久久精品免费视频| 熟妇丰满人妻| 亚洲中文久久精品无玛| 国产毛片基地| 无码中文字幕乱码免费2| 在线欧美一区| 精品少妇三级亚洲| 99视频在线看| 国产网站一区二区三区| 亚洲第一成年人网站| 久久伊人久久亚洲综合| 国产97视频在线观看| 亚洲国产一区在线观看| 国产成人免费手机在线观看视频 | 又粗又大又爽又紧免费视频| 99在线视频精品| 伊人久久大香线蕉成人综合网| 激情五月婷婷综合网| 日韩黄色大片免费看| 午夜激情福利视频| 亚洲国产成人精品青青草原| 美女被操黄色视频网站| 免费看a毛片| 91系列在线观看| 成人va亚洲va欧美天堂| 亚欧成人无码AV在线播放| 国产不卡一级毛片视频| 人妻一区二区三区无码精品一区| 国内a级毛片| 国产成人免费| 亚洲人成网站色7777| 久久人妻xunleige无码| 色噜噜在线观看| 亚洲天堂在线免费| 亚洲第一网站男人都懂| 婷婷激情亚洲| 综合亚洲色图| 国产婬乱a一级毛片多女| 亚洲中文字幕23页在线| aa级毛片毛片免费观看久| 亚洲成综合人影院在院播放| 香蕉99国内自产自拍视频| 欧美天堂在线| 国产69囗曝护士吞精在线视频| 亚洲最新网址| 国产午夜无码专区喷水| 成人看片欧美一区二区| 国产丝袜无码精品| 成人精品视频一区二区在线| 一本大道东京热无码av| 自拍中文字幕| 亚洲天堂自拍| 亚洲69视频| 国产精品美女免费视频大全 | 韩国福利一区| 九九线精品视频在线观看| 亚洲国产av无码综合原创国产|