999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的多模態情感識別綜述

2022-07-07 06:37:32張偉東
西安郵電大學學報 2022年1期
關鍵詞:特征提取模態深度

劉 穎,艾 豪,張偉東

(西安郵電大學 通信與信息工程學院,陜西 西安 710121)

情感識別作為人工智能領域的熱門研究方向,是構建智能人機交互系統的重要環節,其在意外風險事故防范[1]、金融市場的預測[2]、商業評論的分析[3]和犯罪預測[4]等領域有著廣泛的應用。在情感識別研究發展的過程中,研究者通常使用文本、語音或者視覺(人臉)等3種單模態信息進行情感預測。在利用單模態信息進行情感識別時,信息來源都來自于某單一模態,所以在一些情況下存在不足。例如,當單模態數據量較少時,網絡的訓練可能會出現過擬合現象,不僅如此,有時單模態數據甚至會提供錯誤信息,從而影響到最終預測結果[5]。因此,開展多模態情感識別的研究尤為必要。

基于傳統機器學習的多模態情感識別,常用的方法有基于樸素貝葉斯(Naive Bayes,NB)、隨機森林、支持向量機(Support Vector Machines,SVM)、決策樹學習和最大熵(Maximum Entropy,ME)等。文獻[6]提出了一個基于表情面部、手勢和語言的多模態情感識別框架,數據庫是一個包含8個情感和10個主題的多模態語料庫GEMEP[7](Geneva Multimodal Emotion Portrayals)。為了降低學習復雜度,采用Kononenko最小描述長度準則[8]對特征進行離散化且使用交叉驗證方法對語料庫進行訓練和測試。文獻[9]提出了一種用于微博情感識別的跨媒體詞袋模型(Cross media word Bag Model,CBM),該模型將文本和圖像視為一個整體,由文本和圖像的特征組成信息的特征,利用Logistic回歸進行分類。在情感識別任務中,傳統機器學習方法首先從信號中提取手工設計的特征,然后用這些特征訓練分類器。但是,這種手工設計的特征并不能充分表征情感信息,限制了傳統方法的系統性能。傳統機器學習想要構建高性能的機器學習模型,需要特定的領域、技術和特征工程,不同領域的知識庫是完全不同的,所以結構不夠靈活且適應性很差。自從2012年Geoffrey Hinton領導的小組在著名的ImageNet圖像識別大賽中,采用深度學習模型AlexNet[10]奪冠以來,深度學習被應用于各個領域。深度學習神經網絡結構靈活,適應性更強,更易于轉換。使用神經網絡提取特征,可以避免大量人工提取特征的工作,節約成本。不僅如此,深度學習還可以模擬詞與詞之間的聯系,有局部特征抽象化和記憶功能。正是這些優勢,使得深度學習在情感識別中發揮著舉足輕重的作用。

在多模態情感識別發展過程中,學者從不同的角度對現有的技術進行了總結。文獻[11]對情感進行了定義,討論了情感識別的應用并對文本、語音、視覺以及多模態情感識別的現有技術進行了歸納總結。文獻[12]對情感計算任務進行了分類,同時通過時間線對情感識別的發展進行了梳理,最后對單模態到多模態的情感識別技術進行了綜述。文獻[13]將情感識別任務分為核心任務和子任務兩部分。核心任務包括文檔級情感分類、句子級情感分類和方面級情感分類,子任務包括多領域情感分類和多模態情感分類。

該研究對基于深度學習的多模態情感識別進行討論總結。第1部分介紹了基于深度學習的文本、語音和人臉等3種單模態情感識別。第2部分總結了現有的多模態的情感識別數據集。第3部分將基于深度學習的多模態情感識別按照融合方式的不同分為基于早期融合、晚期融合、混合融合以及多核融合等4種情感識別方法,并在第4部分對不同方法進行對比分析。最后,在第5部分對全文進行了總結,并對情感識別技術未來的發展趨勢進行展望。

1 基于深度學習的單模態情感識別

在情感識別領域,與傳統的機器學習相比,深度學習更高效、更能提取出深層次的語義特征。隨著深度學習的發展,卷積神經網絡(Convolutional Neural Networks,CNN)、記憶神經網絡(Memory Neural Networks,MNN )、循環神經網絡(Recurrent Neural Network,RNN)、圖神經網絡(Graph Neural Networks,GNN)、深度置信網絡(Deep Belief Networks,DBN)、膠囊網絡[14](Capluse Networks)以及Transformer[15]網絡均在情感識別領域取得了優異的效果。下面將對基于深度學習的文本、語音和人臉情感識別分別進行簡要概括。

1.1 基于深度學習的文本情感識別

傳統的文本情感識別方法主要包括人工構建情感詞典的方法和基于有監督學習的機器學習模型,這兩種方法不僅耗費大量的人力,而且在大數據時代任務完成效率和任務完成質量均較低。深度學習可以通過構建網絡模型模擬人腦神經系統對文本進行逐步分析,特征抽取且自動學習優化模型輸出,以提高文本分類的正確性。

基于深度學習的文本進行情感識別時,首先需要對文本序列送入詞嵌入(Word Embedding)模型,由詞嵌入模型將其編碼為詞向量(Word Vector)作為后面神經網絡的輸入。早期用于表示文檔詞匯表的方法是獨熱編碼(One-Hot Encoding),這種方法的問題是詞向量大小隨著語料庫大小的增加而增加,更重要的是這種編碼方式不能捕捉單詞之間的聯系。現在比較常用的詞嵌入模型有Word2vec[16]、Glove[17]以及BERT[18](Bidirectional Encoder Representations from Transformers)。

Word2vec其本質是一種單詞聚類的方法,是實現單詞語義推測和句子情感識別等目的的一種手段,兩種比較主流的實現算法是連續詞袋模型(Continuous Bag-of-Words,CBOW)和Skip-Gram。前者是利用周圍詞估計中心詞,缺點是周圍詞的學習效果要差一些,后者是根據中心詞估計周圍詞,優點是學習效果要好一些,但是學習速度慢。Glove通過語料庫構建詞的共現矩陣,然后通過共現矩陣和Glove模型對詞匯進行向量化表示。相比于Word2vec,Glove更容易并行化,速度更快,但是Glove算法本身使用了全局信息,所以更費內存。BERT作為Word2vec的替代者,本質上是通過在海量語料的基礎上運行自監督學習方法為單詞學習一個好的特征表示,BERT使用Transformer作為算法的主要框架,能更徹底的捕捉語句中的雙向關系。除此之外,常用的詞向量模型還有ELMo[19](Embedding Language Model)和GPT[20](Generative Pre-Training)。

在得到詞向量之后,通常需要對特征進行聚類和篩選,以得到更高級的情感特征表征。文獻[21]借鑒了膠囊網絡的思想,通過為每個情感類別構建膠囊,提出了基于RNN的膠囊用于情緒識別。方面級情感分類任務是對給定一個方面(Aspect),研究多模態文檔在該方面的情感極性。文獻[22]提出了利用膠囊網絡通過路由算法構建基于向量的特征表示和聚類特征(Cluster Features),交互式注意力機制在膠囊路由過程中引入以建模方面術語與上下文的語義關系。文獻[23]也將膠囊網絡用于方面級情緒識別,取得了優異的效果。

基于RNN、長短期記憶網絡( Long Short-Term Memory,LSTM)和門控循環單元( Gated Recurrent Unit,GRU)這種循環結構的網絡模型在文本情感識別任務上已經取得了優異的效果,但是RNN 固有的順序屬性阻礙了訓練樣本間的并行化,對于長序列,內存限制將阻礙對訓練樣本的批量處理。為此,文獻[24]提出了Transformer網絡。Transformer使用了自注意力機制(Self-Attention),該機制可以產生更具可解釋性的模型,可以從模型中檢查注意力分布,各個Attention Head可以注意到不同子空間的信息。Transformer突破了RNN不能并行計算的限制,相比于CNN,Transformer計算兩個位置之間的關聯所需的操作次數不隨距離的增長而增長。在此基礎上,文獻[25]提出一個分層Transformer框架,其中低層Transformer用來對單詞級的輸入進行建模,上層Transformer用來捕獲話語級輸入的上下文關系。

1.2 基于深度學習的語音情感識別

語音情感識別近年來受到廣泛關注,在人機交互和行車駕駛安全上[26]發揮著重要的作用。為了得到更好的實驗效果,通常首先將語音數據先進行預處理,然后進行特征提取,提取到的特征維度可能過高,需進一步降維操作。最后,通過分類器進行情感分類。

1.2.1 常用特征工具與降維

隨著深度學習技術逐步完善,在海量復雜數據建模上有很大優勢。傳統的基于機器學習的語音情感識別所提取的語音特征通常包括波形、信號能量、F0、快速傅里葉變換( Fast Fourier Transform,FFT)頻譜、語音質量、倒頻譜(Cepstrum)、線性預測倒譜系數(Linear Prediction Cepstral Coefficients,LPCC)、梅爾頻率倒譜系數(Mel Frequency Cepstrum Coefficient,MFCC)、共振峰、語速和小波等。相較于傳統機器學習,深度學習能提取到高層次的深度特征,常用于語音特征提取的神經網絡有深度神經網絡(Deep Neural Networks,DNN)、CNN、DBN、RNN、LSTM和膠囊網絡等,常用語音特征提取工具[27]如表1所示。

表1 常用語音特征提取工具統計表

目前,除神經網絡以外,比較主流的語音特征提取工具包括Praat[28]和OpenSMILE[29]兩種。由于這兩款工具圖形用戶界面(Graphical User Interface ,GUI)操作簡潔、功能完善和其跨平臺的特性,所以很多學者在進行多模態語音情感識別時會采用這兩款語音特征提取工具提取特征。但是通過這兩款工具提取到的語音特征維度很高,通常需要進行降維操作,例如主成分分析[30](Principle Component Analysis,PCA)和線性判別分析[31](Linear Discriminate Analysis,LDA)等。

1.2.2 深層特征提取

考慮到神經網絡能提取到更豐富的聲學情感特征,文獻[32]采用CNN從語譜圖中提取圖像特征,從而改善MFCC丟失信息而造成識別結果準確率低的問題,最后通過多核分類器得到了很高的識別精度。DBN情感表征能力強,無監督特征學習能力強,文獻[33]采用貪婪算法進行無監督學習,通過BP(Back Propagation)神經網絡反向微調,找到全局最優點,再將DBN算法的輸出參數作為深度特征,并在此過程中,采用隨機隱退思想防止過擬合。

CNN的Max-pooling操作只保留最活躍的神經元,這樣可能會丟失比較重要的空間信息,所以文獻[34]在膠囊網絡的基礎上提出了采用兩個循環連接的膠囊網絡提取特征,增強空間敏感度,取得了比CNN-LSTM體系結構更好的分類精度。除此之外,文獻[35]以類似于RGB圖像表示的3個對數梅爾光譜圖作為深度卷積神經網絡(Deep Convolutional Neural Network,DCNN)的輸入,通過ImageNet預訓練的CNN模型學習光譜圖通道中的高級特征表示,將學習的特征由時間金字塔匹配策略聚合得到全局深度特征,進一步提升對有限樣本特征提取的有效性。

1.3 基于深度學習的人臉情感識別

人臉情感識別對人機交互有重大意義,要讓計算機更好地理解人類表達,人臉情感識別不可或缺。通常將人臉表情分為高興、悲傷、憤怒、驚訝、恐懼和厭惡等6種基本表情。在進行特征提取前,為了讓識別結果更好,通常先進行圖像預處理,然后檢測出人臉部分,再對人臉部分進行特征提取。人臉表情識別的主要步驟是表情特征提取和情感分類,傳統的機器學習特征提取方法包括局部二值模式[36](Local Binary Pattern,LBP)、主動外觀模型(Active Appearance Model,AAM)、主動形狀模型(Active Shape Model,ASM)、尺度不變特征轉換(Scale Invariant Feature Transform,SIFT)和Gabor小波變換[37]。傳統機器學習是手工提取特征,費時費力,且由于人臉語義信息比其他圖像更為豐富,手工提取特征可能會漏掉重要的語義信息。深度學習能提取深度特征,深度特征更豐富,包含的語義信息更完整,因此,利用深度學習進行人臉情感識別成為研究的熱點。

常用于人臉表情識別的神經網絡有CNN、DBN、生成對抗網絡[38](Generative Adversarial Networks,GAN)、深度自編碼器[39](Deep Autoencoder,DAE)和LSTM等。GAN因其強大的生成能力,在文獻[40]中被用來將非正面化的人臉正面化,達到多角度進行人臉表情識別。GAN雖然具有很強的生成能力,但是也存在訓練困難,超參數不容易調整的問題。深度自編碼器是一種無監督學習的神經網絡結構,輸入輸出相同維度,但是也存在易陷入局部最優的問題,雖然無監督逐層貪心預訓練能在一定程度解決這個問題,但是隨著隱藏層個數、神經元數量和數據復雜的增加,梯度稀釋越來越嚴重,且訓練極其繁瑣。對于各種網絡的局限性,學者們通常結合幾種神經網絡提取特征,在最后分類器的選擇上也不盡相同,有些利用神經網絡的Softmax層進行分類,而很多也選擇SVM[41]或者AdaBoost[42]分類器進行分類。

1.4 小結

介紹了基于深度學習的文本、語音和人臉(視覺)等3種單模態情感識別的方法。對于文本情感識別,主要介紹了常用的詞向量模型以及用來捕獲上下文關系的相關網絡模型。對于語音和人臉情感識別,介紹了相關特征提取工具包和特征提取神經網絡,同時還對相關網絡架構的性能進行了分析。

2 多模態情感數據集

對目前多模態情感識別領域相關任務常用的數據集進行梳理,主要分為雙模態數據集(文本和圖片)和三模態數據集(文本、圖片和語音)。雙模態情感數據集包括Yelp[43]、Twitters[44]和Multi-ZOL[45]等3種,三模態數據集包括CMU-MOSEI[46](CMU Multimodal Opinion Sentiment and Emotion Intensity)、CMU-MOSI[47](CMU Multimodal Corpus of Sentiment Intensity)、YouTube[48]、ICT-MMMO[49](Institute for Creative Technologies’ Multi-Modal Movie Opinion)、IEMOCAP[50](Interactive Emotional dyadic Motion Capture database)和MELD[51](Multimodal EmotionLines Dataset)等6種,分別如表2和表3所示。表中分別用T、I和S表示文本、圖片和語音。

表2 雙模態情感數據集

表3 三模態情感數據集

Yelp數據集一共有44 305條評論,244 569張圖片,情感標簽標注是對每條評論的情感傾向打1~5分等5個分值。Twitters數據集分為訓練集、開發集和測試集,分別是19 816、2 410和2 409條帶圖片推文。該數據集的情感標簽標注為諷刺或不諷刺。Multi-ZOL數據集一共有5 288條多模態評論,每條多模態數據包含1個文本內容、1個圖像集,以及至少1個但不超過6個評價。對于每個評價,都有1~10分的情感得分。

CMU-MOSEI數據集包含3 228個視頻、23 453個句子、1 000個講述者和250個話題,總時長達到65 h。CMU-MOSI數據集總共隨機收集了2 199個視頻,這些視頻的情緒極性強度標注為-3~+3,標簽標注為憤怒、厭惡、悲傷、喜悅、中立、驚訝和恐懼等情感七分類,數字越大代表情緒越積極。YouTube數據集收集了300個視頻,標簽標注為積極、消極和中性等情緒三分類。ICT-MMMO數據集包含340個多模態評論視頻,其中包括228個正面評論、23個中立評論和119個負面評論。IEMOCAP數據集總共包括4 784條即興會話和5 255條腳本化會話,最終的數據標簽標注為中立狀態、幸福、憤怒、驚訝、厭惡、挫敗感、興奮、其他、恐懼和悲傷等情感十分類。MELD數據集包含9 989個片段,每個片段的標簽標注不僅包含憤怒、厭惡、悲傷、喜悅、中立、驚訝和恐懼等情感七分類,也包含積極、消極和中性等情緒三分類。

3 基于深度學習的多模態情感識別

將基于深度學習的多模態情感識別任務按照融合方式不同分為基于早期融合、晚期融合、混合融合以及多核融合等4種情感識別方法。早期融合大都將特征進行簡單的級聯操作。晚期融合是讓不同的模態先進行單獨訓練,再融合多個模型輸出的結果。混合融合則是結合了早期融合和晚期融合的融合方法。多核學習則是通過多核映射,將多個特征空間組合成一個高維組合特征空間。

3.1 早期融合

早期融合又叫特征級融合,通常將特征進行簡單的級聯操作。文獻[52]通過CNN提取圖像和文本特征,應用于反諷數據集Twitter進行圖像推文情緒分類任務,獲得了86%的精確度。在此基礎上,進一步利用CNN提取文本與圖像特征,通過結合注意力機制和LSTM捕獲文本和圖像之間的聯系,最終送入Softmax進行分類且獲得了3%的性能提升。文獻[53]提出GME-LSTM ( Gated Multimodal Embedding LSTM) 模型,在每個時間點引入了門控機制,在單詞層就能完成多種模態信息的融合。

與簡單的將不同模態特征進行級聯操作不同,文獻[54]針對在線視頻中不穩定的口語以及伴隨的手勢和聲音,將多模態情感識別問題作為模態內和模態間的動態建模,提出了一個新的張量融合網絡(Tensor Fusion Network,TFN),采用端到端的學習方式,從模態內和模態間解決多模態情感識別問題。

在編碼階段,TFN使用1個LSTM和兩層全連接層對文本模態的輸入進行編碼,分別使用1個3層的深度神經網絡對語音和視頻模態的輸入進行編碼。在模態嵌入子網絡(Modality Embedding Subnetworks,MES)中有3個子網絡,分別提取聲音特征向量zα、文本特征向量zl和圖片特征向量zv,表示為

(1)

得到3種特征向量之后,在張量融合層中通過三維的笛卡爾積將3種模態聯系起來,得到融合后的向量

(2)

送入情感決策層。張量融合如圖1所示。該網絡采用交叉熵損失函數,取得了不錯的效果。

圖1 張量融合

文獻[55]提出了MARN(Multi-attention Recurrent Network)模型。考慮到不同模態之間具有模態交互信息,該模型通過分層注意力機制關注這種模態間的交互信息。在編碼階段,對LSTM進行改進以增強多模態表示,且將模態融合和模態編碼進行了結合。值得注意的是,該模型在每個階段都會進行模態融合,所以需要在編碼前進行模態對齊。MARN模型考慮到了模態間的交互信息,文獻[56]則考慮了關注交互信息的范圍,提出了MFN(Memory Fusion Network)模型,MFN使用增量記憶機制(Delta-Memory Attention,DMA)和多視野門控記憶(Multi-View Gated Memory,MVGM),同時捕捉上下文之間的聯系和不同模態之間的交互,保存上一時刻的多模態交互信息。

文獻[57]認為在以往利用文本、語音和視覺等3種模態信息進行情感識別的研究中,忽視了文本信息比語音和視覺信息更重要的事實。為此提出了一種文本信息起主導作用的框架。為了探索時間和通道的相關性,該框架利用時間卷積網絡提取每種模態的高級表征,利用兩個變體LSTM關注語音和視覺信息且增強文本信息的表示。對于Multi-ZOL數據集,文獻[58]提出了多交互記憶網絡(Multi-Interactive Memory Network,MIMN),該模型使用方面引導注意力機制指導模型生成文本和圖像的注意力向量,并使用多模態交互注意力機制捕獲多模態間和單模態內的交互信息。文獻[59]提出了一種基于深度置信網絡的語言表情多模態情感識別方法,通過CNN獲得人臉表情特征,對于音頻,通過頻譜衰減和短時平均能量獲取高級聲學特征。為了提高兩種模態特征融合的有效性,采用雙模態深度置信網絡(Bi-DBN)融合表情和語音特征且去除模態間的冗余信息,將得到的融合特征送入SVM進行最終的分類。

LSTM和GRU固有的順序屬性阻礙了訓練樣本間的并行化,對于長序列,內存限制將阻礙對訓練樣本的批量處理。為了克服這種缺陷且降低多模態情感識別任務中對標注數據的依耐性,文獻[60]提出了基于Transformer自監督特征融合的多模態情感識別網絡框架,該網絡使用預訓練的自監督網絡提取文本、音頻和視覺等3種模態信息的特征。同時,考慮到提取到的自監督特征具有高維性,因此采用一種新的基于Transformer和注意力機制方法捕捉模態間和模態內的上下文語義聯系。

3.2 晚期融合

晚期融合也叫決策級融合,不同的模態先進行單獨訓練,再融合多個模型輸出的結果。因為該方法的融合過程與特征無關,且來自多個模型的錯誤通常是不相關的,所以這種融合方法在多模態情感識別中應用很多。

文獻[49]創建了ICT-MMMO數據庫,該數據庫是一個關于電影評論視頻的數據庫。對于語音征提取,是通過大量的低階描述符(Low-level Descriptors,LLD)及其導數,并結合相應的統計函數捕獲一個片段內的語音動態,利用OpenSMILE在線音頻分析工具包進行語音特征提取。因為每個視頻片段中只有一個人,而且被試者大部分時間都面對著攝像頭,所以采用了從視頻序列中自動提取視覺特征。通過Bag-of-Words(BoW)和Bag-of-N-Gram(BoNG)以及自動語音識別(Automatic Speech Recognition,ASR)系統進行文本特征的提取。為了對連續話語之間的上下文信息進行建模,利用雙向長短時記憶網絡(Bi-LSTM)對音頻和視頻特征進行情感識別,對于語言特征分類,使用線性支持向量機。音頻和視頻特征作為Bi-LSTM網絡的輸入,進而產生情感預測。MFCC特征利用ASR系統生成語言特征,通過SVM對得到的BoW/BoNG特征進行分類,而SVM為每個電影評論視頻生成一個預測,由于這種異步性,所以采用晚期融合推斷最終的情感估計。Bi-LSTM網絡生成的總分是通過簡單地平均每個話語對應的分數計算,最后的情感評估是語言(權重1.2)和視聽(權重0.8)得分的加權和。為了將在語言知識數據庫上的得分整合到上述方法中,通過Logistic回歸將得分映射到[0,1]范圍內。與文獻[49]不同,文獻[61]提出了一個深度多模態融合架構,如圖2所示,其能夠利用來自個體模態的互補信息預測說服力。

圖2 基于晚期融合的深度多模態網絡架構

該網絡在最后利用DNN進行最終的情感預測,DNN的輸入是采用單個模態分類器的置信度得分和其互補得分,最終預測取得了90%的精確度。類似地,文獻[62]使用Word2vec對單詞進行編碼,利用DNN提取圖像特征,通過邏輯回歸對文本和圖像進行情感預測,最后使用從標記數據中學習到的平均策略和權重融合概率結果。

文獻[63]認為在以前的研究中,只是把話語當成一個獨立的部分,而沒有考慮話語前后的視頻畫面的關系。針對這種情況,基于LSTM的模型被提出,該模型能夠捕捉話語環境中的上下文信息。利用Text-CNN 提取文本特征,首先將每一個句子都變成每一個單詞向量的集合,使用Word2vec將這些詞編碼為維度為300維的詞向量。對于語音信息,利用OpenSMILE在線音頻分析工具包進行語音特征提取。對于圖像,使用3D-CNN進行圖像特征提取,然后使用Max-pooling 進行降維,得到一個300維度的特征向量。在得到文字、語言和視覺等3種模型的特征向量表示之后,再將這3種特征向量分別送入上下文LSTM捕獲相鄰語境之間的聯系,最終得到每種模態的情感預測結果,并將這些預測結果繼續送入到一個上下文LSTM中得到最終的預測結果。與利用文本、語音和人臉等3種模態進行情感識別不同,文獻[64]利用人臉與腦電進行多模態情感識別,采用CNN提取人臉特征且利用Softmax進行最終分類,而因為腦電的非線性特性,利用SVM進行最終的分類,在晚期融合層采用多重投票的方式且結合閾值法計算出兩種模態的最終分類結果,將得到的結果利用統計模擬法得到最后的多模態情感分類結果。文獻[65]提出一個應用于音樂視頻情感識別的網絡架構,在數據預處理階段,將視頻中的原始音頻聲波轉換為單聲道,然后以窗口大小為2 048,頻率為22 050 Hz進行二次采樣,利用OpenSMILE進行音頻特征提取。對于視頻中的視覺信息,由于三維卷積能更好的捕獲空間和運動信息,所以利用3D-CNN進行人臉特征提取,最后以晚期融合的策略送入分類器進行分類。

3.3 混合融合

多模態數據的早期融合并不能有效地捕捉所涉及模態的互補相關性,并可能導致包含冗余的輸入向量一起輸入到情感決策層中,對情感預測造成干擾。晚期融合不能有效地捕捉不同模態之間的相關性,混合融合則集成了早期融合和晚期融合的優點,在情感預測任務中取得了不錯的效果。文獻[66]提出了一種新的圖像-文本情感識別模型,即深度多模態關注融合(Deep Multimodal Attention Fusion,DMAF),利用視覺和語義內容之間的區別特征和內在相關性,通過混合融合框架進行情感識別。該網絡包含兩種獨立的單模態注意力模型和一種多模態注意力模型,兩種單模態注意力模型分別學習視覺模態和文本模態,自動聚焦與情感最相關的判別區域和重要詞語。對于文本內容,使用Glove上的預先訓練好的單詞特征初始化嵌入層(Embedding Layer)參數,每個單詞都由一個300維的向量表示,文本內容長度不超過30,大于30的序列將被截斷,小于30的用零填充。將得到的詞向量通過LSTM捕獲上下文關系,經過語義注意力機制之后進行情感預測。首先,視覺特征通過視覺幾何組19[67](Visual Geometry Group,VGG19)模型進行提取,使用卷積層“Conv5_4”的輸出作為區域特征,其維度為196×512,經過視覺注意力機制進行情感預測。然后,提出了一種基于早期融合的多模態注意力模型,利用視覺特征和文本特征之間的內在關聯進行聯合情感預測。最后,將得到的3種情感預測結果采用一種晚期融合方案進行最終的情感預測。文獻[68]提出一種用于藝術繪畫多模態請感識別框架,藝術繪畫中包含圖像與文本信息。圖像信息利用CNN進行特征提取,而文本信息利用BERT構造一個句子的詞向量,通過Bi-GRU捕獲上下文關系。

基于RNN、LSTM和GRU這種循環結構網絡模型在多模態情感識別任務上已經取得了優異的效果,但是RNN 固有的順序屬性阻礙了訓練樣本間的并行化,對于長序列,內存限制將阻礙對訓練樣本的批量處理。由此,文獻[69]提出了一個基于Transformer的會話級多模態情感識別框架,該架構包含對于上下文無關的話語級特征提取和上下文相關的多模態特征提取兩個關鍵步驟。架構中包含兩個Transformer,一個Transformer用來捕獲單模態特征之間的時間依耐性,另一個跨模態Transformer用來學習非對齊多模態特征上的跨模態交互作用。為了得到更有用的信息,通過注意力機制進行多模態特征融合,最后使用一個雙向GRU捕獲文本和語音兩個方向上的語境信息,并結合Multi-Head Attention突出重要的語境話語。

3.4 多核融合

多核融合的方法來自于多核學習(Multi Kernel Learning,MKL),多核學習是一種特征選擇方法,將特征分組,每組都有自己的核函數[70]。SVM分類器都是單核的,即是基于單個特征空間。在實際應用中往往需要根據經驗選擇不同的核函數,如高斯核函數、多項式核函數等。指定不同的參數,這樣不僅不方便而且當數據集的特征是異構時,效果也不是很理想。正是基于SVM單核學習存在的上述問題,同時利用多個核函數進行映射的MKL應用而生。多核模型比單個核函數具有更高的靈活性。在多核映射的背景下,高維空間成為由多個特征空間組合而成的組合空間。組合空間充分發揮了各個基本核的不同特征映射能力,能夠將異構數據的不同特征分量分別通過相應的核函數得到解決。多核學習過程如圖3所示。

圖3 多核學習過程

多核學習很擅長處理異構數據,因此也被用于多模態情感識別。文獻[71]提出了基于深度卷積神經網絡的文本特征和多核學習的話語級多模態情感識別。在一個帶有手工標注情緒標簽的訓練語料庫中訓練一個CNN,將訓練的CNN不作為分類器使用,而是將其隱藏層的輸出值作為多核SVM的輸入特征,從而提供更高的分類準確性。對于文本的預處理,使用Word2vec對單詞進行預處理,每個單詞處理成一個300維的向量,對于詞典里面沒有的單詞,處理成新的隨機向量。對于臉部特征點的提取,使用CLM-Z[72]人臉識別庫,對每一幀圖像提取68個面部特征點,使用OpenSMILE提取與音高和聲音強度相關的音頻特征。在模型中,將提取的特征用基于循環相關的特征子集和主成分分析進行特征選擇降低特征維度,通過交叉驗證確定MKL分類器的參數。選擇8個核的配置,其中5個核函數采用徑向基函數(Radial Basis Function,RBF),超參數Gamma設置成從0.01~0.05,RBF的Gamma參數控制單個訓練點的影響距離,剩余3個核的核函數分別采用多項式的2、3、4次冪。最后使用MKL對多模態異構融合特征向量進行分類。

為了進一步提升情緒識別的準確性,文獻[73]提出了一種卷積遞歸多核學習模型。為了捕捉視頻上下內容的時間相關性,將時間t和t+1的每對連續圖像轉換成單個圖像,利用CNN提取時間相關的特征,通過使用CNN學習到的輸出特征向量的協方差矩陣初始化RNN的權值,最終情感類別輸出為“積極”或“消極”。

3.5 小結

介紹了基于深度學習的多模態情感識別相關方法,按照融合方式的不同將這些方法分為基于早期融合、晚期融合、混合融合和多核融合。早期融合大都將特征進行簡單的級聯操作或者進行張量融合,不能有效地捕捉所涉及模態的互補相關性,并可能導致包含冗余的輸入向量一起輸入到情感決策層中,對情感預測造成干擾。晚期融合則不能有效地捕捉不同模態之間的相關性,混合融合則集成了早期融合和晚期融合的優點,但算法相對比較復雜。

4 不同方法對比

為了比較多模態融合方式對精度的影響及單模態的識別效果,分別對比不同方法在雙模態數據集Twitter上的F1分數和精確度,如表4所示,F1分數是模型精確率和召回率的一種調和平均。為了比較不同方法網絡結構在多模態情感識別中的表現情況,表5總結出了不同方法在三模態數據集IEMOCAP上的實驗結果,最終F1分數和精確度都取平均值。

表4 不同方法在雙模態數據集Twitter上實驗結果對比

表5 不同方法在三模態數據集IEMOCAP上實驗結果

由表4和表5可知:1)在單模態情感識別上,文本的表現要優于圖像的表現。而在融合方式上,晚期融合的效果優于早期融合,混合融合的效果明顯優于其他兩種融合方式,但是算法相對更復雜。2)當融合方式相同時,CNN架構由于池化操作可能會失去重要的空間信息,所以效果相對較差。引入LSTM、GRU捕捉文本上下文的聯系或者視頻上下幀的關聯能有效提高識別準確率,另外引入注意力機制,對不同模態的貢獻分配不同的權重也能提高準確率。3)Transformer可以克服RNN并行計算效率太低的缺點,但是整體復雜度相對要高一些。

深度學習中常用于情感識別特征提取的神經網絡的優缺點總結如表6所示。

表6 情感特征提取方法優缺點總結

5 結語

多模態情感識別旨在分析出人們對產品、服務、組織、個人、問題、事件和話題等實體的意見、情緒、情感、評價和態度,其在人機交互、輿情分析、災害評估和金融市場預測等方面發揮著重大作用。目前,多模態情感識別任務大都采用深度學習進行建模,通過分析基于深度學習的多模態情感識別的研究現狀,將基于深度學習的多模態情感識別按照融合方式不同分為早期融合、晚期融合、混合融合和多核融合等4種情感識別方法,并分別進行歸納總結。同時,對情感識別技術未來發展趨勢進行展望,具體如下。

1)多模態情感識別太依賴于特定領域,泛化性不足。設計一個跟領域無關的多模態情感識別系統是需要解決的問題,例如用車評數據集訓練出的模型分析斗魚評論。

2)生理特征需要引入多模態情感識別,文本、語音和圖像如果有一樣數據沒有表達人物的真實情感,對識別結果的影響是極其巨大的,即使引入注意力機制也不能有效解決,所以引入腦電、心率等生理特征非常關鍵。目前有一些學者引入了腦電等生理特征,如文獻[79]基于面部表情、皮膚靜電反應和腦電圖提出了一種基于混合融合的多模態情感識別系統,但是對于引入生理特征方面的算法還非常欠缺和不成熟。

3)多模態情感識別對數據量要求較高,缺少任何單一模態的數據都會影響到最終的識別結果,引入小樣本學習且精度不降低也是迫切需要解決的問題。

4)模型過于復雜。目前基于深度學習的多模態情感識別方法模型參數過多,模型的訓練時間過長,如何精簡網絡結構也是需要關注的問題。

5)多模態數據的特征提取與優化。特征提取對于情感識別是最重要的一環,直接影響最終的識別結果,如何將提取到的特征進一步優化來提升模型的魯棒性也是值得研究的,例如怎樣高效的剔除冗余重復的情感特征。

猜你喜歡
特征提取模態深度
深度理解一元一次方程
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
深度觀察
深度觀察
深度觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
基于MED和循環域解調的多故障特征提取
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 国产亚洲现在一区二区中文| 国产素人在线| 波多野结衣的av一区二区三区| 97视频精品全国在线观看| 欧洲成人在线观看| 一本色道久久88| 亚洲成人高清无码| 午夜国产不卡在线观看视频| 91精品久久久无码中文字幕vr| 欧美精品在线视频观看| 大陆精大陆国产国语精品1024| 毛片视频网| 人妻精品久久无码区| 国产又爽又黄无遮挡免费观看 | 久久永久精品免费视频| 久久精品亚洲中文字幕乱码| 黑色丝袜高跟国产在线91| 啦啦啦网站在线观看a毛片| 99精品福利视频| 国产白浆在线观看| 亚洲人成日本在线观看| 亚洲日韩精品伊甸| 久久a毛片| 2020国产精品视频| 久久一色本道亚洲| 在线观看免费AV网| 日本国产在线| 福利在线一区| 精品福利一区二区免费视频| 亚洲婷婷在线视频| 综合社区亚洲熟妇p| 国产激情无码一区二区三区免费| 欧美伊人色综合久久天天| 国产国语一级毛片| 久久香蕉国产线看精品| 国产精品原创不卡在线| 内射人妻无码色AV天堂| 亚洲an第二区国产精品| 老汉色老汉首页a亚洲| 亚洲国产无码有码| 国产麻豆福利av在线播放| 国产精品美乳| 97se亚洲综合在线韩国专区福利| 成人综合久久综合| 伊人久久久久久久久久| 国产新AV天堂| 91视频首页| 色妞永久免费视频| 亚洲欧美一区二区三区麻豆| 久久久久免费看成人影片| AV天堂资源福利在线观看| 在线免费观看a视频| 91在线精品免费免费播放| 在线观看亚洲精品福利片| 四虎永久免费地址| 亚洲中文字幕av无码区| 免费看的一级毛片| 在线播放91| 国产男人的天堂| 国产男女XX00免费观看| 日韩高清无码免费| 午夜a级毛片| 中文字幕久久亚洲一区| 视频国产精品丝袜第一页| 欧美区国产区| 1769国产精品免费视频| 国内精品久久九九国产精品 | 亚洲嫩模喷白浆| 欧美成人区| 亚洲成人网在线观看| 国产在线98福利播放视频免费| 久久精品91麻豆| 99在线国产| 欧美日韩亚洲综合在线观看| 亚洲码在线中文在线观看| 亚洲a免费| 无码高潮喷水专区久久| 久久窝窝国产精品午夜看片| 日本在线国产| 中文字幕佐山爱一区二区免费| 亚洲欧美不卡中文字幕| 女人av社区男人的天堂|