鄒紀云 許云峰



摘 要:為了解決多模態數據中數據樣本不平衡的問題,利用資源豐富的文本模態知識對資源貧乏的聲學模態建模,構建一種利用輔助模態間相似度監督訓練的情緒識別神經網絡。首先,使用以雙向門控單元為核心的神經網絡結構,分別學習文本與音頻模態的初始特征向量;其次,使用SoftMax函數進行情緒識別預測,同時使用一個全連接層生成2個模態對應的目標特征向量;最后,利用該目標特征向量計算彼此之間的相似度輔助監督訓練,提升情緒識別的性能。結果表明,該神經網絡可以在IEMOCAP數據集上進行情緒4分類,實現了826%的加權準確率和813%的不加權準確率。研究結果為人工智能多模態領域的情緒識別以及輔助建模提供了參考依據。
關鍵詞:計算機神經網絡;情緒識別;有監督訓練;深度學習;多模態
中圖分類號:TP31113 ? 文獻標識碼:A ? doi:10.7535/hbkd.2020yx05006
Abstract:In order to solve the problem of imbalance of data samples in multi-modal data, the resource-rich text modal know-ledge was used to model the resource-poor acoustic mode, and an emotion recognition neural network was constructed by using the similarity between auxiliary modes to supervise training. Firstly, the neural network with bi-GRU as the core was used to learn the initial feature vectors of the text and acoustic modalities. Secondly, the SoftMax function was used for emotion recognition prediction, and simultaneously a fully connected layer was used to generate the target feature vectors corresponding to the two modalities. Finally, the target feature vector assisted the supervised training by calculating the similarity between each other to improve the performance of emotion recognition. The results show that this neural network can perform four emotion classifications on the IEMOCAP data set to achieve a weighted accuracy of 82.6% and an unweighted accuracy of 81.3%. The research result provides a reference and method basis for emotion recognition and auxiliary modeling in the multi-modal field of artificial intelligence.
Keywords:computer neural network; emotion recognition; supervised training; deep learning; multimodal
情緒通常由組合的多模態信息表示[1-2]。在表達不同情緒時,每個模態信息具有不同的比例。例如,驚奇和憤怒往往包含較少的文本模態信息,而聲學模態信息在識別這2種情緒方面更為重要和有效。針對多模態情緒識別問題,本文著重從文本和聲學2種模態進行情緒識別研究。
提取不同模態特征并尋找互補信息進行融合是解決模態信息缺失、提高多模態情緒識別性能的關鍵。目前已有的表示方法通常分為聯合表示和協調表示。聯合表示最簡單的例子是不同模態特征的直接組合。DMELLO等[3]和PORIA等[4]利用雙向長期短期記憶網絡分別提取不同模態特征,控制它們在相同尺寸后進行拼接融合。在此基礎上,PORIA等[5]又引入了注意力機制,進一步改進了融合方法。在協調表示方法上,GHOSAL等[6]提出了一種基于遞歸神經網絡的多模態注意力框架,該框架利用上下文信息進行話語水平的情感預測。LEE等[7]利用可訓練的注意力機制學習這些形態特征向量之間的非線性相關性,有助于在時域中保留數據的情緒信息,限制不同模態之間的信息協調表示[1]。PAN等[8]提出了一種聯合嵌入模型,探索了視頻模態與文本模態語義之間的關系。XU等[9]將聯合空間中的深層視頻模型和合成語言模型的輸出距離最小化,共同更新這2個模型,提高了情緒識別任務性能。除表示方法外,多任務聯合學習已廣泛用于情感識別領域。AKHTAR等[10]提出了一個深度多任務學習框架,該框架共同執行情感和情緒分析。LI等[11]利用傳統的機器學習方法對情緒進行分類,使用文本模態提取情緒誘因。XIA等[12-13]提取文檔中潛在的情緒和誘因,進一步提出了一種基于循環遞歸神經網絡分層網絡的聯合情緒-誘因提取框架。
這些代表性的融合方法在很大程度上依賴于有效的輸入功能,如果缺失了某些模態信息,則無法有效完成情緒識別任務。同時,多任務聯合學習的子任務大多通過損失函數直接進行交互,缺乏進一步捕獲子任務之間相關信息的方法。
本文并沒有使用統一的框架學習不同模態信息的特征表示,而是針對不同模態構建了不同的神經網絡模型來學習表示,為了更有效地利用豐富的模態資源,提出了一種使用輔助模態監督訓練的多任務情緒識別模型,通過最大化與輔助模態的相似性,提高情感識別任務的性能。
1 模態表示及多任務學習
11 模態表示
在文本模態中,使用word2vec預訓練詞典進行嵌入,并透過雙向遞歸神經網絡獲取包含上下文信息的高階特征仍然是一種主流且有效的方法。JIAO等[14]使用分層門控遞歸單元網絡在話語級別探索文本模態的特征表示。在聲學模態中,本文將現有基于特征工程的特征表示分為2種:局部特征和全局特征,認為語音片段內的局部特征信號是穩定的,全局特征是通過測量多個統計數據(例如平均、局部特征的偏差)進行計算。ZHOU等[15]利用openSMILE工具包[16]提取聲學的全局特征,每個聲音片段都會獲得1 582個統計聲學特征。LI等[17]使用LibROSA語音工具包[18],從原始語音中以25 ms幀窗口大小和10 ms幀間隔提取聲音的局部特征,最終提取了41維幀級聲學局部特征。同時考慮這2種特征的原因是全局特征缺少時間信息,且在2個片段之間缺乏依存關系。根據不同特征的特點,本文使用深度學習方法將它們融合在一起,以獲得更有效的聲學模態表示信息。
12 多任務學習
AKHTAR等[10]提出了基于上下文級別的模態注意框架,用于同時預測多模態樣本的情感和表達的情緒。在分類任務設置上,情感分類分支包含用于分類的SoftMax層,而對于情緒分類,每種情緒分別使用Sigmoid層。XU等[9]提出了一個解決情緒誘因提?。‥CPE)任務的2步框架,該框架執行獨立的情緒提取或者誘因提取,進行情緒-誘因配對和過濾。為了進一步獲得任務之間可以相互促進的信息,本文提出將計算聲學和文本模態之間的相似度作為輔助任務的方法,以便將一個任務的預測值直接參與到另一個任務中。
2 問題定義
4.4 訓練細節和參數設置
采用PyTorch框架實現整體模態相似性和情緒識別多任務模型。在每個訓練時期開始時隨機打亂訓練集,在提取文本和聲音模態特征的過程中,將最后1個維度參數d設置為100,當在句子級別上進行上下文信息學習時,雙向GRU隱藏狀態的維度設置為300,最后1個完全連接層包含100個神經元。聲學模態的不同特征是在模態內進行拼接的,每個聲學特征模型的隱藏狀態尺寸設置為50,所有GRU模塊的層數設置為1。采用Adam函數[27]作為優化器,將學習率設置為1×10-4。終止訓練的條件是驗證集的loss值連續10輪不再下降。
4.5 對比基線
將本文模型的各個模塊與當前最新的4個基線模型進行比較,4個模型如下。
1)bcLSTM:可以包含句子級雙向上下文信息LSTM,使用CNN提取的多模態特征。
2)MDNN:半監督的多路徑生成神經網絡,通過openSMILE提取的聲學特征。
3)HiGRU:一個分層的門控循環單元(HiGRU)框架,文本模態特征由較低級別的GRU提取。
4)HFFN:使用雙向LSTM,直接連接不同的局部交互作用,并將2個級別的注意力機制與CNN提取的多模態特征整合在一起。
4.6 實驗結果與討論
1)將使用輔助模態監督訓練情緒識別神經網絡的性能分析結果在IEOMCAP和MOSI數據集上與4個基線進行比較,如表3所示。
由表3可以看出,本文模型在4個評估指標上均優于其他方法。其中聲學模態未加權準確率在IEMOCAP數據集上有顯著改善,文本模態的WA和UWA也均有所改善,分別實現了0.5%和0.7%的提升。在CMU-MOSI數據集上,文本和聲學模態的F1值分別比最高基準提高0.7%和0.3%?;谝陨蠈嶒灲Y果,分析如下:①本文模型對提高精度有一定的作用,聲學模態的改進效果比文本模態更勝一籌。 CMU-MOSI數據集是一種情感分類任務,在CMU-MOSI數據集上2種模態的F1值已得到改善,表明獲得了更加平衡的識別結果,在避免大多數預測都只具有一種情感的情況下提高了準確性。此外,文本模態似乎對聲學模態更有幫助。②本文模型在IEMOCAP數據集所有模態上的性能都有所提高,但在CMU-MOSI數據集上卻沒有顯著提高。由于從YouTube抓取的CMU-MOSI數據集是從實際情況中獲得的,IEMOCAP數據集是基于演員的表演,因此,本文模型還需要改進對更多隱藏句子情感的識別。
2)對情緒識別任務和模態相似性任務的目標函數設置權重,分析權重對最終任務性能的影響,并通過權重參數λ進行調節。
首先,使用非端到端技術實現原始輸入模態和預測生成模態的融合,作為最終性能檢測方法。MSER模型訓練后分別獲得預測模態(Apred,Tpred),預測生成模態用于替換模型測試階段中的原始輸入模態T或A之一。融合實驗(Apred+T,Tpred+A)的結果如圖3所示,通過混淆矩陣可以更加直觀地發現,聲學模態在得到預測生成的文本模態向量后,其性能得到了明顯改善。
其次,將文本模態和聲學模態情緒識別任務的目標函數權重μ設置為0.5,利用不同的情緒識別和模態相似性任務權重,分析對整體框架的影響,如圖4所示。本文使用的權重設置為01~05,其中水平軸代表權重,垂直軸代表情感識別任務的未加權準確性(UWA)。由圖4可知,當權重為0.3時,文本模態和聲學模態的情緒識別性能最佳。綜上所述,設置計算出的模態相似度影響目標函數的任務,可以促進情緒識別任務性能的提高;情緒識別任務仍應設置為權重較大的主要任務,情緒識別任務上的參數更新對整個框架具有較大的影響。
5 結 語
1)本文提出了一個模態相似度和情緒識別多任務框架,利用輔助模態監督訓練方法,解決了跨模態情緒識別過程中的一些缺陷。
2)使用非端到端方法完成了最終任務,大量實驗證明了該方法對情緒識別的有效性。
3)所提方法通過使用來自一種模態的知識對另一種模態進行建模,這種通過計算模態之間相似度擬合其他模態情緒分類的特征向量方法,可以以一種真正有效的方式利用不同模態之間的補充信息,實現了多模態數據相關性的更有效利用。
4)本文方法尚未構建端到端模型,未來將繼續探索使用輔助模態的端到端方法,以實現在缺失某些模態情況下提高單個模態性能的目標。
參考文獻/References:
[1] BALTRUSAITIS T,AHUJA C,MORENCY L P.Multimodal machine learning:A survey and taxonomy[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2019,41(2):423-443.
[2] CHEN J. Natural Language Processing and Attentional-Based Fusion Strategies for Multimodal Sentiment Analysis[D]. London: Imperial College London, 2018.
[3] DMELLO S K, KORY J. A review and meta-analysis of multimodal affect detection systems[J]. ACM Computing Surveys, 2015, 47(3): 1-36.
[4] PORIA S,CAMBRIA E,HAZARIKA D,et al.Context-dependent sentiment analysis in user-generated videos[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers).[S.l.]: Association for Computational Linguistics,2017:873-883.
[5] PORIA S, CAMBRIA E, HAZARIKA D, et al. Multi-level multiple attentions for contextual multimodal sentiment analysis[C]//2017 IEEE International Conference on Data Mining(ICDM). [S.l.]: IEEE, 2017: 1033-1038.
[6] GHOSAL D, AKHTAR M S, CHAUHAN D, et al. Contextual inter-modal attention for multi-modal sentiment analysis[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. [S.l.]: Association for Computational Linguistics,2018: 3454-3466.
[7] LEE C W,SONG K Y,JEONG J,et al.Convolutional Attention Networks for Multimodal Emotion Recognition From Speech and Text Data[EB/OL]. [2020-07-10]. https://arxiv.org/abs/1805.06606.
[8] PAN Y W, MEI T, YAO T, et al. Jointly modeling embedding and translation to bridge video and language[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.[S.l.]:[s.n.], 2016: 4594-4602.
[9] XU R, XIONG C, CHEN W, et al. Jointly modeling deep video and compositional text to bridge vision and language in a unified framework[C]// Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence. [S.l.]:[s.n.], 2015: 2346-2352.
[10] AKHTAR M S,CHAUHAN D S,GHOSAL D,et al.Multi-task Learning for Multi-modal Dmotion Recognition and Sentiment Analysis[EB/OL]. [2020-07-15]. https://arxiv.org/abs/1905.05812.
[11] LI W Y, XU H. Text-based emotion classification using emotion cause extraction[J]. Expert Systems with Applications, 2014, 41(4): 1742-1749.
[12] XIA R,DING Z X.Emotion-cause Pair Extraction:A New Task to Emotion Analysis in Texts[EB/OL]. [2020-07-15]. https://arxiv.org/abs/1906.01267.
[13] XIA R,ZHANG M R,DING Z X.RTHN:A RNN-transformer Hierarchical Network for Emotion Cause Extraction[EB/OL].[2020-07-15]. https.//arxiv.org/abs/1906.01236.
[14] JIAO W X,YANG H Q,KING I,et al.HiGRU:Hierarchical Gated Recurrent Units for Utterance-level Emotion Recognition[EB/OL].[2020-07-15]. https://arxiv.org/abs/1904.04446.
[15] ZHOU Suping, JIA Jia, WANG Qi,et al. Inferring emotion from conversational voice data: A semi-supervised multi-path generative neural network approach[C]// Thirty-Second AAAI Conference on Artificial Intelligence.[S.l.]:[s.n.],2018:579-587.
[16] EYBEN F, WLLMER M, SCHULLER B. Opensmile: The munich versatile and fast open-source audio feature extractor[C]//Proceedings of the 18th ACM international conference on Multimedia. New York:ACM Press,2010: 1459-1462.
[17] LI R N,WU Z Y,JIA J,et al.Inferring user emotive state changes in realistic human-computer conversational dialogs[C]//2018 ACM Multimedia Conference on Multimedia Conference.New York:ACM Press,2018:136-144.
[18] MCFEE B,RAFFEL C,LIANG D W,et al.Librosa:Audio and music signal analysis in python[C]//Proceedings of the 14th Python in Science Conference.Austin: SciPy,2015:18-25.
[19] CHO K,VAN MERRIENBOER B,GULCEHRE C,et al.Learning Phrase Representations using RNN Encoder-decoder for Statistical Machine Translation[EB/OL].[2020-07-16]. https.//arxiv.org/abs/1406.1078.
[20] SLIZOVSKAIA O,GMEZ E,HARO G.A Case Study of Deep-learned Activations via Hand-crafted Audio Features[EB/OL].[2020-07-16]. https://arxiv.org/abs/1907.01813.
[21] BADSHAH A M, AHMAD J, RAHIM N, et al. Speech emotion recognition from spectrograms with deep convolutional neural network[C]//2017 International Conference on Platform Technology and Service(PlatCon). [S.l.]:IEEE, 2017: 1-5.
[22] BUSSO C,BULUT M,LEE C C,et al.IEMOCAP:Interactive emotional dyadic motion capture database[J].Language Resources and Evaluation,2008,42(4):335-359.
[23] ZADEH A, ZELLERS R, PINCUS E, et al. Multimodal sentiment intensity analysis in videos: Facial gestures and verbal messages[J]. IEEE Intelligent Systems, 2016, 31(6): 82-88.
[24] MIKOLOV T,CHEN K,CORRADO G,et al.Efficient Estimation of Word Representations in Vector Space[EB/OL]. [2020-07-07]. https://arxiv.org/abs/1301.3781.
[25] ROZGIC V, ANANTHAKRISHNAN S, SALEEM S, et al. Ensemble of SVM trees for multimodal emotion recognition[C]//Proceedings of The 2012 Asia Pacific Signal and Information Processing Association Annual Summit and Conference. [S.l.]: IEEE, 2012: 1-4.
[26] POWERS D M. Evaluation: From precision, recall and F-measure to ROC, informedness, markedness and correlation[J]. J Mach Learn Technol, 2011, 2(1):37-63.
[27] KINGMA D P,BA J.Adam:A Method for Stochastic Optimization[EB/OL]. [2020-07-10]. https://arxiv.org/abs/1412.6980.