文/崔冠軍
你的情緒,現在正變成一場情緒經濟。當你疲勞駕駛,走神或焦躁的情緒將被車識別警告;用平板學習產生困難,它將讀取你困惑的情緒,并放慢教學速度;當售出一個商品,你可以通過消費者面部情緒快速評估產品的效果……《衛報》稱,情緒識別已經成為規模 200 億美元的行業,且還在持續擴充中。早在2009年,第一家營銷人工情緒智能的公司Affective就已經將情緒檢測技術作為市場研究產品出售。包括檢測機械員工損傷、視頻游戲用戶體驗、協助醫護人員評估患者健康等各行各業,圍繞它的領域都在持續增長,亞馬遜、微軟和 IBM 也將情緒分析作為他們情緒識別產品的主要功能進行宣傳。Affective 創始人Kaliouby 預測,不久的將來,當這項技術無處不在并融入我們所有的設備中時,能夠利用我們的內心、潛意識做出瞬間的反應。Karan[1]等人提出一種在無約束環境下自動檢測情感的方法,利用多核學習將提取的特征組合起來,使用支持向量機進行分類。Liu[2]等人提出一種基于視頻的人類情感識別方法。對于每個視頻片段,所有幀表示為一個圖像集合。在決策層對從兩種模態(視頻和音頻)學習到的分類器進行最佳融合。Samira[3]等人針對不同的模態結合多個深層神經網絡進行情感識別。Sun[4]等人對于每個視頻片段,提取SIFT、LBP-TOP、PHOG、LPQ-TOP和音頻特征,為每一種特征訓練不同的分類器,并針對所有提取的特征提出了一種新的分層分類器融合方法。Liu[5]等人研究了核支持向量機、logistic回歸和偏最小二乘三種分類方法進行比較。最后,在決策層對不同核和不同模態(視頻和音頻)的分類器進行優化融合,進一步提高分類性能。Chen[6]等人提出一種新的特征描述子,研究視覺和聽覺特征,并采用多核學習方法尋找最優特征融合。Yao[7]等人采用表情特定動作單元(AUs)提取面部特征。Kaya[8]等人開發了一組常用的時空建模方案,并進行了多模態融合。Kahou[9]等人將混合CNN-RNN體系結構用于面部表情分析。Sarah[10]等人建立系統,以視頻流作為輸入,產生情感標簽。Fan[11]等人使用遞歸神經網絡(RNN)和三維卷積神經網絡(C3D)相結合的混合網絡,采用后期融合方式進行情緒識別。Yan[12]等人提出了一個多線索情感融合框架(MCEF)。Yao[13]等人提出了HoleNet框架進行情緒識別。Kara[14]等人建立影像模型,將視聽特征與基于最小二乘回歸的分類器和加權評分融合相結合。Hu[15]等人在深度卷積神經網絡上加入監督評分集成機制。當前,使用AFEW數據集的研究主要集中于表情模態、語音模態。原因在于可用于深度學習的情感分析語料庫的情感標注基本都為情感傾向標注,而不是AFEW數據集的基本情緒標注。因此,為了使語義模態在AFEW數據集上發揮作用,花費大量的時間和精力對原有的Twitter情感分析訓練語料庫中的每條推文重新人工進行情感標注,使其與AFEW數據集一致。本論文將語義模態、表情模態、語音模態相融合,采用后期融合的策略對三種模態的結果進行融合。
2.1.1 人臉檢測-多任務卷積神經網絡MTCNN
MTCNN是2016年中國科學院深圳研究院提出的用于人臉檢測任務的多任務神經網絡模型,該模型主要采用了三個級聯的網絡,采用候選框加分類器的思想,進行快速高效的人臉檢測。這三個級聯的網絡分別是快速生成候選窗口的P-Net、進行高精度候選窗口過濾選擇的R-Net和生成最終邊界框與人臉關鍵點的O-Net。和很多處理圖像問題的卷積神經網絡模型,該模型也用到了圖像金字塔、邊框回歸、非最大值抑制等技術。
2.1.2 表情情感分析模型-深度殘差網絡Resnet
在一些場景下,網絡層數的增加反而會降低正確率。這種本質問題是由于出現了信息丟失而產生的過擬合問題。解決思路是嘗試著使他們引入這些刺激的差異性和解決泛化能力為主。深度殘差網絡的設計就是為了克服這種由于網絡深度加深而產生的學習效率變低,準確率無法有效提升的問題,它允許網絡盡可能的加深。殘差網絡將前若干層的數據輸出直接跳過多層而引入到后面數據層的輸入部分,后面的任何一層向量的內容會有一部分由其去前面的某一層線性貢獻。

圖1:殘差網絡

圖2:傅里葉頻譜圖
殘差網絡提出兩種mapping:一種是identity mapping,指的就是圖1中“彎彎的曲線”;另一種是residual mapping,指的就是除了“彎彎的曲線”那部分,最后的輸出是y=F(x)+x。identity mapping指代本身,也就是x,而residual mapping指的是“差”,即y-x,殘差指的就是F(x)。理論上,對于“隨著網絡加深,準確率下降”的問題,Resnet提供了兩種選擇方式,也就是identity mapping和residual mapping,如果網絡已經到達最優,繼續加深網絡,residual mapping將被push為0,只剩下identity mapping,這樣理論上網絡一直處于最優狀態了,網絡的性能也就不會隨著深度增加而降低了。
2.2.1 短時傅里葉變換(STFT)
為了提取音頻特征,使用短時傅里葉變換(STFT)得到傅里葉頻譜圖。如圖2所示。
短時傅里葉變換是一個用于語音信號處理的通用工具。它定義了一個非常有用的時間和頻率分布類,其指定了任意信號隨時間和頻率變化的復數幅度。實際上,計算短時傅里葉變換的過程是把一個較長的時間信號分成相同長度的更短的段,在每個更短的段上計算傅里葉變換,即傅里葉頻譜。
2.2.2 語音情感分析模型
將每個音頻片段的頻譜圖像輸入到VGG19模型中。
2.3.1 Elmo動態詞向量
Elmo由艾倫研究所開發,被稱為時下最好的通用詞和句子嵌入方法,來自于語言模型的詞向量表示,也是利用了深度上下文單詞表征。ELMo是雙向語言模型biLM的多層表示的組合,基于大量文本,ELMo模型是從深層的雙向語言模型中的內部狀態學習而來的,而這些詞向量很容易加入到QA、文本對齊、文本分類等模型中。
2.3.2 TextCNN
TextCNN由Yoon Kim提出,將卷積神經網絡CNN應用到文本分類任務,利用多個不同size的kernel來提取句子中的關鍵信息,從而能夠更好地捕捉局部相關性。
我們認為后期融合能產生更好的結果。表情、語音及語義三個模態的分類器置信度得分分別為SA、SB及SC,使用權重rA、rB及rC,其中 rA+rB+rC=1,且0 與其他的超參數一樣,融合的相關參數也在訓練過程進行了優化。 實驗采用的是AFEW數據集,該數據集為Emotion Recognition In The Wild Challenge(Emotiw)系列情感識別挑戰賽使用的數據集,內容為從電影中剪輯的包含表情的視頻片段,表情標簽為高興、悲傷、生氣、驚訝、恐懼、中性六類基本表情。 Twitter情感分析訓練語料庫,該情感分析數據集包含31962條分類推文。原有的語料庫每行標記為1表示積極情緒,0表示負面情緒,用來訓練語義情感分析模型。為了使得語義模態可以與表情模態、語音模態相融合,我們對原語料庫的每條推文重新人工進行情感標注,與AFEW數據集一致,分為高興、悲傷、生氣、驚訝、恐懼、中性六類基本情緒。 如表1所示。 表1 AFEW數據集中的內容為從電影中剪輯的包含表情的視頻片段,分為六種基本情緒,真實性很高。當前,可用于深度學習的情感分析語料庫的情感標注基本都為情感傾向標注,無法在該數據集上使用語義模態。因此,使用AFEW數據集的研究主要集中于表情模態、語音模態。為了使語義模態在AFEW數據集上發揮作用,花費大量的時間和精力對原有的Twitter情感分析訓練語料庫中的每條推文重新人工進行情感標注,與AFEW數據集一致,也分為六種基本情緒。本篇論文在AFEW數據集上,初次將表情、語音及語義三個模態相融合,在視頻片段情感識別的準確率上有所提升。但融合的策略相對簡單,今后的研究將集中與融合策略方面。
3 實驗
3.1 AFEW數據集
3.2 Twitter情感分析訓練語料庫
3.3 實驗結果
4 總結
