龍英潮, 丁美榮, 林桂錦, 劉鴻業(yè), 曾碧卿
(華南師范大學(xué) 軟件學(xué)院, 佛山 528225)
隨著信息處理技術(shù)、網(wǎng)絡(luò)通信技術(shù)、大數(shù)據(jù)、人工智能等科技的迅猛發(fā)展, 計算機(jī)正逐漸地融入到人類的生活中, 并與人類協(xié)同工作. 在某些領(lǐng)域, 計算機(jī)甚至已經(jīng)取代人類去完成各種高挑戰(zhàn)性的工作. 為了讓人與計算機(jī)能夠更加高效地協(xié)同工作, 更加智能、自然地交互, 新型的人機(jī)交互(Human Machine Interaction, HMI)技術(shù)已經(jīng)成為社會各行各業(yè)關(guān)注和研究的熱點(diǎn). 擬人化必然是新型人機(jī)交互技術(shù)發(fā)展的重點(diǎn), 不僅要使計算機(jī)能夠通過類似于人的感官系統(tǒng)感知周圍環(huán)境、氣氛, 以及使用者的意圖、情感等, 還要使其能夠通過學(xué)習(xí)和模仿人類的認(rèn)知習(xí)慣與人類進(jìn)行交流、工作等. 研究表明, 在人機(jī)交互中需要解決的相互理解的問題, 與人和人交流中相互影響的重要因素是一致的, 最關(guān)鍵的因素都是“情感智能”的能力[1-3]. 具有“情感智能”能力的計算機(jī)能夠高效地識別使用者的情感,從而調(diào)整與使用者的交流方式與環(huán)境, 實現(xiàn)更加智能、自然的交互.
近年來, 情感識別技術(shù)逐漸被應(yīng)用在醫(yī)學(xué)、教育、安全駕駛、電子商務(wù)等領(lǐng)域. 例如, 在教育領(lǐng)域,智能教育系統(tǒng)通過分析學(xué)生們的學(xué)習(xí)情緒, 反饋學(xué)習(xí)數(shù)據(jù), 老師可以根據(jù)相關(guān)數(shù)據(jù)調(diào)整教學(xué)模式, 以滿足學(xué)生個性化學(xué)習(xí)的需求, 提高學(xué)習(xí)效率與效果; 在安全駕駛領(lǐng)域, 計算機(jī)使用情感識別技術(shù)分析駕駛者的情緒,可以根據(jù)駕駛者的情緒變化調(diào)整車速上限、規(guī)劃路線等, 從而避免危險的發(fā)生, 保證駕駛者的安全. 隨著人機(jī)交互領(lǐng)域的不斷擴(kuò)張和情感識別領(lǐng)域的不斷發(fā)展,情感識別技術(shù)的應(yīng)用也越來越廣.
美國心理學(xué)家梅拉比安認(rèn)為, 情感表達(dá)=55%面部表情+38%聲音+7%其它[4,5]. 人的情感主要通過面部狀態(tài)、聲音以及文字等方式進(jìn)行表達(dá). 從生物角度來看, 人類主要通過視聽覺感知系統(tǒng)來進(jìn)行情感識別, 即是主要在語音和圖像兩種模態(tài)上進(jìn)行情感識別. 在語音和圖像多模態(tài)情感識別的研究中, 許多學(xué)者已經(jīng)取得了一定的研究成果.
在語音模態(tài)上, 曹鵬等使用Mallat塔式算法與小波變換奇異點(diǎn)檢測算法相結(jié)合進(jìn)行基音頻率參數(shù)提取,并通過實驗證實了該算法的有效性[3]. 屠彬彬等提出了一種基于樣本熵與Mel頻率倒譜系數(shù)融合的語音情感識別方法, 得到了較高的識別率[6]. 姚增偉等通過提取Mel頻率倒譜系數(shù)作為輸入, 分別使用卷積神經(jīng)網(wǎng)絡(luò)和長短時記憶網(wǎng)絡(luò)進(jìn)行特征提取, 并且在IEMOCAP語音情感語料庫中獲得51.7%的準(zhǔn)確率[7].
在面部圖像模態(tài)上, 鄒元彬等在JAFFE數(shù)據(jù)集上分別提取面部圖像的局部二值模式LBP和局部相位量LPQ特征, 并使用支持向量機(jī)SVM作為分類器進(jìn)行實驗, 得到了90.57%的識別率[8]. 陳津徽等提出了一種基于改進(jìn)VGG19網(wǎng)絡(luò)的人臉表情識別算法, 并在FER2013數(shù)據(jù)集上得到了72.69%的準(zhǔn)確率[9].
在語音和面部圖像的多模態(tài)研究中, 朱晨崗基于視聽覺感知系統(tǒng), 分別使用基于Mel尺度小波包分解的子帶能量特征基于光流法提取的運(yùn)動特征等, 并用循環(huán)神經(jīng)網(wǎng)絡(luò)作為分類器進(jìn)行多模態(tài)情感分類實驗[10].賀奇基于語音和圖像進(jìn)行多模態(tài)情感識別研究, 分別使用92維語音情感特征和基于序列圖像臉部特征點(diǎn)提取方法提取的表情圖像特征進(jìn)行實驗, 并驗證了基于語音和圖像的多模態(tài)情感識別比單一模態(tài)的識別效果更好[11]. 袁亮通過深度學(xué)習(xí)技術(shù)進(jìn)行情感識別研究,分別提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的面部表情識別方法和一種基于長短時間記憶網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別方法, 并通過決策融合算法融合面部表情和語音模態(tài)的特征進(jìn)行實驗, 同樣驗證了多模態(tài)的情感識別效果要優(yōu)于單模態(tài)的情感識別效果[12]. 因此, 多模態(tài)情感識別研究具有可行性, 同時從以上文獻(xiàn)成果可以發(fā)現(xiàn), 多模態(tài)融合實現(xiàn)的方法和實驗選擇是比較靈活的. 融合的目的就是將各單模態(tài)下能反應(yīng)情感的特征數(shù)據(jù)合并成一個性能更優(yōu)的數(shù)據(jù)結(jié)果. 所以, 可以基于相同實驗數(shù)據(jù), 嘗試對兩種模態(tài)進(jìn)行早期融合或晚期融合, 還可以通過調(diào)整其融合權(quán)重, 靈活選擇實驗測試方法, 以達(dá)到更加精確的識別率.
本文對于情感識別的研究主要也是在語音和圖像兩種主流模態(tài)上進(jìn)行, 首先將視頻樣本切分為語音和圖像數(shù)據(jù), 然后分別提取兩種模態(tài)的情感特征, 并使用多個分類器進(jìn)行實驗, 得到多個基于單特征的表情識別模型, 最后采用晚期融策略進(jìn)行模型融合, 得到最優(yōu)的集成表情識別模型, 實驗的主要流程如圖1所示.

圖1 實驗流程圖
語音模態(tài)的特征主要包括Mel頻率倒譜系數(shù)MFCC、SoundNet卷積神經(jīng)網(wǎng)絡(luò)提取的特征以及IS09、IS11、IS13等幀級特征, 其中IS09、IS11、IS13等幀級特征使用openSMILE工具提取.
(1) Mel倒譜系數(shù)MFCC
Mel頻率倒譜系數(shù)MFCC的提取過程[13-15]如下:
首先, 對采樣得到的一幀離散語音序列x(n)作快速傅里葉變換FFT, 快速傅里葉變換的公式如下:

其中,N為幀長.
其次, 配置Mel濾波器組并計算濾波輸出, Mel濾波器的頻率響應(yīng)Hm(k)為:

其中,f(m)為濾波器的中心頻率.
然后, 計算每個濾波器組輸出的對數(shù)能量S(m).

其中,M為濾波器的個數(shù).
最后, 經(jīng)離散余弦變換DCT可得到MFCC系數(shù)C(n), 公式描述如下:

其中,L為MFCC系數(shù)的階數(shù).
(2) SoundNet卷積神經(jīng)網(wǎng)絡(luò)
SoundNet網(wǎng)絡(luò)是一種具有較高語音信息學(xué)習(xí)能力的深度卷積神經(jīng)網(wǎng)絡(luò)[16], 其實現(xiàn)的基本原理如下:
首先將視頻切割音頻和RGB圖像幀兩部分, RGB圖像幀部分分別使用了圖像類卷積神經(jīng)網(wǎng)絡(luò)ImageNet CNN和場景類神經(jīng)網(wǎng)絡(luò)Places CNN進(jìn)行識別分類, 并將RGB圖像幀分類的結(jié)果作為SoundNet網(wǎng)絡(luò)的監(jiān)督信息, 從而可以學(xué)習(xí)得到語音的相關(guān)信息. SoundNet網(wǎng)絡(luò)由8層卷積層和3層池化層組成, 損失函數(shù)為KL散度. 圖2為SounNet網(wǎng)絡(luò)結(jié)構(gòu)圖, 其中convn代表第n層卷積層, pooln代表第n層池化層, 下同.

圖2 SoundNet網(wǎng)絡(luò)結(jié)構(gòu)及實現(xiàn)原理圖
圖像模態(tài)的特征主要包括使用DenseNet、VGG等卷積神經(jīng)網(wǎng)絡(luò)提取的特征, 以及LBP-TOP特征描述子.
(1) DenseNet網(wǎng)絡(luò)
DenseNet網(wǎng)絡(luò)采用了一種密集連接的模式, 不需要重新學(xué)習(xí)冗余的特征映射, 具有減輕梯度消失、加強(qiáng)特征的傳遞以及高效利用特征等優(yōu)點(diǎn). 本文實驗中使用的是DenseNet網(wǎng)絡(luò)中的一個特殊網(wǎng)絡(luò)DenseNet-BC網(wǎng)絡(luò).
DenseNet-BC網(wǎng)絡(luò)是包含了Bottleneck layer瓶頸層和Transition layer過渡層的特殊DenseNet網(wǎng)絡(luò)結(jié)構(gòu), 其中, 過渡層即由一層卷積層和一層池化層組成的網(wǎng)絡(luò)層. DenseNet-BC網(wǎng)絡(luò)包含了3個Dense Block和2層過渡層. 圖3為DenseNet-BC網(wǎng)絡(luò)結(jié)構(gòu)圖, 其中Dense blockn代表第n個密集塊.

圖3 DenseNet-BC網(wǎng)絡(luò)結(jié)構(gòu)圖
(2) VGG網(wǎng)絡(luò)
VGG網(wǎng)絡(luò)是使用3×3小卷積核和2×2最大池化層的深度卷積神經(jīng)網(wǎng)絡(luò), 并且極大地提升了網(wǎng)絡(luò)的深度, 其獨(dú)特的結(jié)構(gòu)特點(diǎn)在很大程度上提高了神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力. 本文實驗中使用的是VGG系列網(wǎng)絡(luò)中的VGG-16網(wǎng)絡(luò). VGG-16網(wǎng)絡(luò)具有13個卷積層、5個池化層和3個全連接層. 圖4為VGG-16網(wǎng)絡(luò)結(jié)構(gòu)圖, 其中Fcn代表第n層全連接層.

圖4 VGG-16網(wǎng)絡(luò)結(jié)構(gòu)圖
在分類器方面, 本文選擇了多種分類器進(jìn)行實驗,包括支持向量機(jī)SVM和隨機(jī)森林RF等經(jīng)典分類器,同時, 考慮到在將視頻樣本切分為圖像樣本時, 得到的是長序列的圖像幀, 而長短期記憶網(wǎng)絡(luò)LSTM在處理長序列數(shù)據(jù)具有較顯著的優(yōu)勢, 所以設(shè)計了一個基于LSTM的分類器用以實驗.
(1)基于LSTM的分類器設(shè)計
基于LSTM設(shè)計的分類器的結(jié)構(gòu)如圖5所示, 輸入序列X為不同時間的特征, 在輸入層后添加一層批標(biāo)準(zhǔn)化層, 多個LSTM結(jié)點(diǎn)組成的LSTM陣列進(jìn)行特征信息的捕獲, 通過平均池化層對不同時間的特征信息平均并輸出到Softmax層進(jìn)行分類.

圖5 基于LSTM的分類器結(jié)構(gòu)圖
在多模態(tài)情緒識別領(lǐng)域, 加權(quán)投票法、加權(quán)平均法是較為常見的決策融合方法, 其中, 投票法更適用于決策融合中的各模型相互獨(dú)立的情況. 考慮到本文中各個模型的訓(xùn)練都相互獨(dú)立, 并不存在強(qiáng)依賴關(guān)系, 采用加權(quán)投票法進(jìn)行決策融合可能會帶來一定的提升.加權(quán)投票法具體實現(xiàn)如下:
設(shè)表情類別數(shù)目為M, 模型的數(shù)量為L,hi為第i個情感識別模型,wi第i個模型對融合模型決策結(jié)果的貢獻(xiàn)權(quán)重, 其中,wi的約束為:

對于樣本x, 設(shè)f(x)是基于加權(quán)投票法得到的各種表情類別的加權(quán)投票值的集合,y(x)是表情類別的決策結(jié)果, 則有:

其中,j=1, 2, …,M, 指示函數(shù)I的定義為:

權(quán)重的學(xué)習(xí)使用基于個體分類模型相對優(yōu)勢的投票權(quán)重學(xué)習(xí)方法[17].
本文主要基于AFEW數(shù)據(jù)集[18]來進(jìn)行多模態(tài)情感識別研究. 實驗首先將AFEW數(shù)據(jù)集的視頻數(shù)據(jù)切分為音頻數(shù)據(jù)和圖片數(shù)據(jù), 分別進(jìn)行語音、圖像模態(tài)的情感特征提取.
在提取語音特征前, 需要對音頻文件進(jìn)行重采樣、分幀和加窗3個預(yù)處理操作, 其中幀長為25 ms,幀移為10 ms, 窗函數(shù)為漢明窗, 然后提取MFCC、IS09、IS11、IS13等段級特征, 其中段長度為整個話語段的長度, IS09、IS11、IS13是基于openSMILE工具包提取的. 在使用SoundNet卷積神經(jīng)網(wǎng)絡(luò)提取特征時, 把音頻文件的原始數(shù)據(jù)作為輸入, 提取后的特征標(biāo)記為SoundNet.
在提取圖像特征時, 首先要對圖像進(jìn)行人臉檢測和人臉的校正裁剪兩個預(yù)處理操作. 由于AFEW數(shù)據(jù)集的作者已經(jīng)提供了大部分已經(jīng)裁剪好的人臉灰度圖像, 未提供的圖片數(shù)據(jù)僅為Train訓(xùn)練集下的17個視頻和Val驗證集下的12個視頻. 因此, 我們僅對未提供的圖片數(shù)據(jù)進(jìn)行預(yù)處理操作, 在成功提取人臉灰度圖像后仍需進(jìn)行直方圖均衡化處理, 以減輕燈光對圖像的影響.
完成預(yù)處理操作后, 我們將預(yù)訓(xùn)練后的DenseNet-BC和VGG16卷積神經(jīng)網(wǎng)絡(luò)模型在FRE2013數(shù)據(jù)集上微調(diào), 然后將預(yù)處理后的圖像作為微調(diào)后的模型的輸入來提取圖像特征. 使用DenseNet-BC卷積神經(jīng)網(wǎng)絡(luò)提取特征時, 將DenseNet-BC網(wǎng)絡(luò)的最后一個平均池化層的輸出作為特征, 該特征被標(biāo)記為DenseNetpooling3. 使用VGG卷積神經(jīng)網(wǎng)絡(luò)提取特征時, 將VGG-16網(wǎng)絡(luò)的第13層卷積層和第1層全連接層的輸出作為特征, 分別被標(biāo)記為VGG-conv13、VGG-fc1.
基于LBP-TOP特征描述子提取的特征已經(jīng)被AFEW數(shù)據(jù)集的作者提供, 將該特征標(biāo)記為LBP-TOP.
在完成語音和圖像模態(tài)的特征提取后, 使用支持向量機(jī)SVM、隨機(jī)森林RF以及基于LSTM的分類器進(jìn)行表情分類, 得到多個基于音頻、圖像單特征表情識別模型.
(1)基于語音單特征模型的分類結(jié)果, 如表1所示.

表1 基于音頻單特征表情識別模型及其準(zhǔn)確率
通過分析實驗結(jié)果數(shù)據(jù), 可以得出以下幾點(diǎn)結(jié)論:
① LSTM分類器在語音特征MFCC、SoundNet上相較于支持向量機(jī)SVM、隨機(jī)森林RF等分類器有著3.4%~6.26%準(zhǔn)確率提升;
② 在語音單特征模型中, 基于IS09特征的模型取得最高準(zhǔn)確率為32.11%.
(2)基于圖像單特征模型的分類結(jié)果, 如表2所示.

表2 基于圖像單特征表情識別模型及其準(zhǔn)確率
通過分析實驗結(jié)果, 可以發(fā)現(xiàn)以下幾點(diǎn):
① 基于LSTM的分類器在圖像特征VGG-conv13、VGG-fc1、DenseNet-pooling3上相較于分類器支持向量機(jī)SVM有著3.92%~6.27%準(zhǔn)確率提升;
② 在圖像單特征模型中, 基于VGG-conv13特征的模型取得最高準(zhǔn)確率為42.56%;
③ 基于圖像單特征的最優(yōu)模型比基于語音單特征的最優(yōu)模型的準(zhǔn)確率高11.23%.
(3)基于融合模型的分類結(jié)果, 如表3所示.

表3 3種融合模型及其準(zhǔn)確率
在進(jìn)一步實驗中, 使用加權(quán)投票法對多個單特征模型進(jìn)行決策融合, 分別得到基于語音模態(tài)、圖像模態(tài)以及語音和圖像雙模態(tài)的3種融合模型.
通過對比3種融合模型的分類結(jié)果, 可以發(fā)現(xiàn)基于音頻和圖像雙模態(tài)融合模型的準(zhǔn)確率達(dá)到50.13%,此準(zhǔn)確率高于單模態(tài)融合模型的準(zhǔn)確率. 該雙模態(tài)融合模型在憤怒Angry、害怕Fear、高興Happy、中性Neutral等幾種情緒上的分類準(zhǔn)確率均達(dá)到60%以上,而在厭惡Disgust和驚訝Surprise兩種情緒上的識別效果較差, 其混淆矩陣數(shù)據(jù)如圖6所示.

圖6 融合模型的混淆結(jié)果矩陣
情緒識別的相關(guān)研究有很多. 本文提出的一種基于視聽覺感知系統(tǒng)的多模態(tài)表情識別算法, 在AFEW數(shù)據(jù)集進(jìn)行實驗得到了50.13%的準(zhǔn)確率.
如表4所示, AFEW數(shù)據(jù)集是EmotiW比賽的官方數(shù)據(jù)集, 該數(shù)據(jù)集的準(zhǔn)確率基線Baseline為41.07%, 在該比賽中, 參賽者的平均準(zhǔn)確率50%左右, 最高準(zhǔn)確率為61.87%. 雖然本文的方案在準(zhǔn)確率上低于最高的準(zhǔn)確率, 但也保持在平均水平之上, 仍然具有一定的競爭力.

表4 EmotiW比賽: 音視頻情緒分類的部分?jǐn)?shù)據(jù)[19]
本文提出了一種基于視聽覺感知系統(tǒng)的多模態(tài)表情識別算法, 分別提取語音和圖像兩種模態(tài)的情感特征, 并設(shè)計多個分類器為單個情感特征進(jìn)行情緒分類實驗, 得到多個基于單特征的表情識別模型. 最后使用晚期融合策略進(jìn)行特征融合, 得到基于多個單特征模型的融合表情識別模型, 并通過對比實驗證明語音和圖像雙模態(tài)融合表情識別模型的有效性.
本文使用AFEW數(shù)據(jù)集進(jìn)行表情識別實驗, 首先將AFEW數(shù)據(jù)集的視頻數(shù)據(jù)切分為音頻數(shù)據(jù)和圖片數(shù)據(jù), 分別進(jìn)行語音、圖像模態(tài)的情感特征提取. 在語音數(shù)據(jù)上, 提取的情感特征包括MFCC、IS09、IS11、IS13等段級特征, 以及使用卷積神經(jīng)網(wǎng)絡(luò)SounNet提取的特征. 在圖片數(shù)據(jù)上, 提取的情感特征包括使用深度卷積神經(jīng)網(wǎng)絡(luò)VGG-16和DenseNet提取的特征, 以及基于LBP-TOP特征描述子提取的特征. 然后, 使用了多個分類器對單個特征進(jìn)行了情緒分類實驗, 并證明了使用基于LSTM分類器相較于支持向量機(jī)SVM、隨機(jī)森林RF等分類器對實驗效果有著小幅度的提高.最后使用加權(quán)投票法進(jìn)行模態(tài)融合實驗, 通過對比基于語音模態(tài)、圖像模態(tài)以及語音和圖像雙模態(tài)的3種融合模型的分類結(jié)果, 證明了基于語音和圖像雙模態(tài)融合模型的效果要優(yōu)于基于單模態(tài)融合模型的識別效果.
但本文仍然存在許多不足之處: 情感的體現(xiàn)過程一般為: 開始——高潮——結(jié)束, 情感主要體現(xiàn)在高潮部分, 而在音頻模態(tài)實驗中, 提取的特征是基于整段語音樣本的, 其中包含過多冗余數(shù)據(jù), 影響了識別的準(zhǔn)確性, 考慮將語音樣本分段或許可以有效地降低數(shù)據(jù)的冗余; 在特征融合階段可以嘗試采用特征層融合策略進(jìn)行實驗對比, 甚至根據(jù)應(yīng)用場景或應(yīng)用群體的需求,可以考慮基于文本、聲音、圖像、視頻等多種模態(tài)融合的情感識別實踐研究.