基于增強特征和注意力機制的視頻表情識別

2022-11-25 03:01:06李飛，陳瑞，童瑩，陳樂

計算機技術與發展 2022年11期

李飛，陳瑞，童瑩，陳樂

(1.南京工程學院電力工程學院，江蘇南京 211167；2.南京工程學院信息與通信工程學院，江蘇南京 211167；3.南京郵電大學通信與信息工程學院，江蘇南京 210003)

0 引言

人臉表情是人類傳播內心情緒的重要方式，也是人類非語言的重要情感表達方式。人臉表情識別技術廣泛應用于疲勞駕駛、在線教學、醫療等智能化人機交互系統中，是模式識別和人工智能領域的研究熱點。

基于視頻序列的表情識別通過一個完整表情的運動過程能表達更豐富的表情變化信息，更具實際意義，也更具挑戰。傳統的視頻序列表情識別方法有光流法[1]、隱馬爾可夫模型[2]、運動歷史圖[3]和LGBP-TOP(Local Gabor Binary Pattern Three Orthogonal Planes)[4]等。FAN等[1]將梯度空間金字塔直方圖擴展到時空域以獲得三維特征，并將其與密集光流結合后得到時空描述符，用來提取人臉表情的空間和運動信息。局部二值算法(Local Binary Pattern，LBP)根據圖像中每個像素與其局部鄰域的點在亮度上的關系算出二值序，并對之編碼后得到LBP，最終圖像的特征用多區域直方圖來描述。這些方法多采用手工特征和淺層分類器，算法的魯棒性較差。

隨著深度學習技術在計算機視覺、圖像與視頻分析等領域的成功應用，卷積神經網絡(Convolutional Neural Network，CNN)也被用于人臉表情識別，大大提高了識別精度[5-8]。Sun等[5]在EmotiW2015競賽中采用“Alex+RNN”的網絡模型，其中RNN為循環神經網絡(Recurrent Neural Network)的縮寫，最終結果遠遠超過了競賽的基準識別率。鑒于面部表情受到面部內不同區域姿勢變化的影響，He等[6]提出了一種多尺度特征提取器的CNN，提高算法對于面部位置變化和尺度變化的魯棒性。Jung等人[7]采用一種模型視頻序列中提取時變特征，另一種模型由單幀圖像的面部關鍵點提取幾何形狀變化特征，從而聯合微調網絡的方法提高表情識別精度。多模態表情識別能進一步提高識別精度，如Liu等[8]在EmotiW2018競賽中采用DenseNet網絡處理音頻，VGG-16網絡處理視頻，長短期記憶(Long Short-Term Memory，LSTM)網絡提取視頻序列的運動特征，并用支持向量機(Support Vector Machine，SVM)提取關鍵點運動信息，將這些特征進行融合。這種多模態融合的表情識別方法雖然提高了識別精度，但方法復雜度高。

最近，CNN結合RNN的網絡架構用于視頻序列表情識別，主要是利用了RNN的時間序列處理能力來獲取視頻序列時域動態信息，如Chen等[9]和Khor等[10]將CNN和LSTM網絡級聯起來，充分利用CNN強大的感知視覺表征與LSTM的時序處理能力；文獻[11-12]采用CNN特征提取后，再用RNN完成特征的時序編碼，結合時、空域信息完成基于視頻的表情識別，提高了識別率。有研究表明，多層LSTM具有比單層LSTM更好的效果，如Sutskever等[13]提出的端到端序列學習方法中，級聯了四層LSTM，在長句子上表現良好，取得了良好的英法翻譯性能；Irsoy等人的研究[14]表明，與僅有單個隱藏層的RNN相比，具有緊湊結構的多層RNN計算效率更高。

除了上述研究成果，一部分研究者致力于將人類視覺系統的注意力機制(Attention Mechanism，AM)引入表情識別。梁斌等[15]結合多種AM，提取更深層次的特征，在降低模型訓練時間的同時，提高了目標表情的識別率。王曉華等[16]將LSTM網絡堆疊起來，獲得視頻序列的分層表示，再用自注意力機制(Self-Attention Mechanism，SAM)描述層級的差異化，與單層LSTM相比，這種模型能更好地關注感興趣層，獲得更好的視頻表情識別效果。文獻[17]將時間特征和空間特征融合后，使用注意力機制進行特征加權，在LSTM網絡中對加權后的特征進行訓練和分類。這些方法能獲得較好的識別結果，但深層CNN和多層LSTM網絡的級聯使得模型復雜度較高，且網絡層數加深會出現梯度消失。因此，該文提出一種基于增強特征和自注意力機制的視頻表情識別方法ECNN-SA(Enhanced Convolutional Neural Network with Self-Attention)，在VGG-16網絡的中間層引出一條特征增強支路，并將其與骨干網絡輸出的深層特征相融合，用于獲取不同層次的人臉表情特征，豐富表情信息。同時，用自注意力機制代替多層LSTM網絡，不僅能有效學習序列內部的依賴關系，捕獲內部結構和差異化的顯著特征，而且自注意力機制主要是均值運算，避免了因網絡層數加深而造成的梯度消失問題，大大加快了網絡的訓練速度。

1 視頻表情識別網絡模型ECNN-SA

1.1 模型的總體框架

1.2 增強特征提取模塊ECNN-GAP

為了降低模型的復雜度，考慮到全連接層有強大的擬合能力但模型復雜度高(占據了VGG-16大部分參數量)，且容易過擬合，該文采用全局平均池化層(Global average Pooling，GAP)代替FC層完成對特征映射的降維。同時，為保證識別精度，引入增強特征支路，ECNN-GAP模塊如圖2所示。

池化層方法若采用平均池化時，輸出結果是滑動窗口中的數值求和取平均。池化層方法若采用GAP時，其窗口的尺度和特征映射的尺度相同，則無需全連接操作。由于全連接的參數太多，可用GAP代替。GAP用特征圖直接表示屬于某個類的置信圖。比如有10個類，最后輸出10個特征圖，每個特征圖中的值加起來求平均值得到10個數字，這10個數字就是置信度。將這些平均值直接作為屬于某個類別的置信度，再經過分類器進行分類。GAP的使用可以大幅度減少模型的參數計算量。進一步，訓練不同尺寸的圖像時，由于ECNN-GAP模塊輸出的特征維度僅跟通道數有關，與尺寸無關，則不同大小的圖像經ECNN-GAP后輸出的特征維度都將保持一致。

ECNN-GAP模塊中部分參數設置如表1所示，其中前五個卷積塊與VGG-16相同。為增加模型深度獲得更多的語義信息，增加了Conv_block_6卷積塊。由表1中的參數設置可知，Conv_block_6卷積塊的通道數由512加大為1 024，這樣可使后續的GAP_block_6能提取出更豐富的特征向量。增強支路采用類似文獻[18]的增強層，其中第一層7×7卷積，但去除了最大池化層和1×1卷積層，經GAP輸出1 024維特征向量，最終ECNN-GAP模塊輸出的2 048維特征向量。

1.3 自注意力機制模塊

SA使得人類視覺能夠通過快速掃描全局圖像找到感興趣的目標區域，這個機制不僅能提高視覺信息處理的準確性，而且極大地提高了處理的效率。2017年谷歌團隊[19]提出的SA機制在機器翻譯任務中獲得了優秀的成績。Fajtl J等[20]將SA機制融入視頻表情識別中，通過計算幀間相關性給每個視頻幀打分，根據分數確定關鍵幀。如前所述，單層的LSTM在解決視頻表情識別問題時，由于其僅傳遞一個層級的狀態產生輸出，從而對特征的表達能力顯得不夠。多層LSTM網絡能提取不同級別的時間特征，比單層有更好的效果，但其時間復雜度較高。因此，該文采用SA機制代替多層LSTM網絡，一方面通過SA模塊學習序列內部的依賴關系，捕獲內部結構，進而獲取差異化的顯著特征，另一方面隨著網絡層數的加深，由于SA模塊采用的是均值運算，從而避免了梯度消失的問題，很大程度上提高了網絡的訓練速度。

SA實質是一個將查詢(Query)映射到正確的輸入的過程，如圖3所示，其中Q為查詢，K為鍵，V為值，鍵K和值V之間有一個鍵值對(Key-Value pairs)表。查詢Q、鍵K、值V和最終的輸出都是向量，輸出往往是一個加權求和的形式，權重由查詢、鍵、值決定。源端中的元素由一系列的鍵值對構成，給定目標端中某個查詢Q，每個鍵K對應到值V的注意力權重系數是通過計算查詢Q和各個鍵K的相關性得到；再用Softmax函數對注意力權重進行歸一化處理，將歸一化注意力權重對V進行加權求和。自注意力機制可視為注意力機制的一種特殊情況，它不是應用在源端和目標端之間，而是源端內部元素之間或目標端內部元素之間發生的注意力機制，此時K=V=Q，即：

(1)

可見，SA機制通過學習序列內容的依賴關系，進而捕獲序列的內部結構，且計算簡單。在視頻表情識別中，結合SA機制來處理視頻數據，讓網絡模型更加關注視頻序列中差異性最大的幀，區分于視頻的表情分類最相關的視頻幀，更準確地識別面部表情。提出的SA模塊如圖4所示。

圖4中，X=[x1,x2,…,xn]為ECNN-GAP網絡輸出的連續n幀圖像的人臉表情特征向量，Q、K和V的計算公式為：

(2)

其中，Wq、Wk和Wv為不同的網絡權值矩陣。圖4中，注意力權值矩陣QKT描述了輸入特征矩陣X中元素間相關性；超參數s可手工設置，用來抑制注意力權值大小。通過Softmax函數將注意力權重歸一化到[0,1]區間，再與V相乘，得到差異化的顯著特征矩陣X*。這里，Q、K和V都采用2 048×2 048的權值矩陣，相比全連接層，計算量大大降低。

2 實驗結果與分析

為了驗證ECNN-SA模型的有效性，在CK+[21]和AFEW (Acted Facial Expression in the Wild)[22]兩個數據庫上進行實驗仿真。其中，AFEW數據集為真實環境采集的非約束人臉表情數據庫，樣本受環境光照、姿態變化、遮擋、配飾、分辨率、拍攝角度、復雜背景等多種因素混合干擾，且因個體文化差異，受試者表現同類情感的程度也各不相同；CK+為實驗環境采集的約束人臉表情數據庫，樣本中人臉正面姿態、無遮擋，且受試者根據實驗要求夸張的表現各類情感。

該文提出的SA模塊和回歸模塊的參數如表2所示。用來抑制注意力權重的超參數s設為0.1。設一次同時處理n幀視頻圖像，則SA模塊的輸入為n個2 048維特征向量，這些特征向量進行特征融合后輸出1個2 048維特征向量，最后經過歸一化處理、ReLU函數激活和DropOut層之后，用一個FC層將前面提取的特征綜合起來，對應到7類，最后Softmax輸出人臉表情的分類結果。

表2 Self-Attention模塊參數設置

該模型訓練時優化算法使用隨機梯度下降算法，動量設置為0.9。模型VGG-16卷積層部分加載在SFEW數據集和FER2013數據集上預訓練的模型權重。模型初始學習率為10-3，隨著訓練的過程衰減。輸入圖像統一預處理為224×224的灰度圖像。實驗代碼使用Pytorch編寫在Ubuntu 16.4下完成，主機配備2塊NVIDIA GTX 1080Ti。

2.1 網絡預訓練和微調

由于AFEW數據庫復雜程度高于CK+數據庫，因此，該文基于AFEW數據庫進行網絡預訓練和微調。首先采用VGG-FACE權值作為骨干CNN網絡的初始權值；然后用SFEW和FER2013中部分樣本對自注意增強CNN網絡進行微調；最后用AFEW的訓練集及擴增的訓練樣本對自注意增強CNN網絡進行訓練，由此得到最佳網絡參數。CK+數據庫則在此網絡上直接進行訓練和測試。

2.2 AFEW數據集上的結果及分析

AFEW數據集[22]由不同電影中節選的視頻片段組成，受試者具有自發的人臉表情，且受真實環境光照、姿態變化、遮擋、配飾、拍攝角度、分辨率、復雜背景等多種因素混合干擾，自2013年起作為EmotiW競賽中的評估數據，每年組委會均會對AFEW數據庫進行微調。

該文選擇2017年競賽數據AFEW7.0進行實驗，將其分為三個部分：訓練集(773個樣本)，驗證集(383個樣本)和測試集(653個樣本)，其目的是為了確保三個數據集中受試者無重疊，由此驗證人臉身份對人臉表情識別的影響。人臉表情標簽有生氣(anger)、厭惡(disgust)、害怕(fear)、開心(happiness)、中性(neutral)、悲傷(sadness)、驚訝(surprise)七種。AFEW數據集中的連續表情圖像如圖5所示。

調整ECNN-SA網絡的結構和參數，在AFEW數據庫上進行實驗，得到的仿真結果如表3所示。

由表3可以看出，第2行ECNN-LSTM表示模型由增強CNN和LSTM網絡構成，LBP表示引入了傳統的LBP特征。由第2行和第3行可以看出，引入傳統的LBP特征可以提高準確率。第4～11行中，“CNN-SA(3 072, FC,s=0.06)”的意思是，由CNN提取的2 048維特征向量與增強支路提取的1 024維特征向量一起構成輸出的3 072維特征向量。在超參數s相同的情況下，輸出向量的維度越低，識別效果越好，如第4行與第7行相比，第5行與第6行相比的結果表明，僅僅通過擴充通道數并不能提高識別效果。表3中，“FC”和“2×FC”分別代表SA模塊后的FC層是一層還是兩層。對比第4行和第5行，第6行和第7行的實驗結果，可以看出一層FC的識別準確率更高，這是因為FC層的擬合能力太強，有可能導致過擬合，識別率不能提高反而會降低。

表3 ECNN-SA算法在AFEW數據集上的實驗結果

對于超參數s對識別準確率的影響，該文也進行了相應的實驗。實驗中，s的取值在0.001到0.5之間選用多個數值進行實驗。由表3中第7～11行的實驗結果可以看出，相同條件下，在s=0.1時獲得最高的識別準確率42.78%，比Baseline高出3.97%。與CNN-LSTM[18]相比，識別準確率提高了1.53%；與帶LBP特征的CNN-LSTM相比，準確率提高了0.16%。綜合以上的實驗結果及分析，該算法不僅降低了計算復雜度，而且提高了識別準確率，算法可行且有效。

綜上，可以得出結論：由于FC層具有強大的擬合能力，當增加其層數時，有時會導致模型過擬合，識別準確率下降。同時，通過單純增加輸出特征通道數提升網絡識別性能，效果并不明顯，當骨干輸出維度=支路輸出維度=1 024，超參數s=0.1時，ECNN-SA網絡的性能最佳，識別準確率為42.78%。

表4為采用ECNN-SA與傳統CNN-LSTM網絡端到端訓練和測試一張樣本的運行時間，表5為AFEW數據集上的混淆矩陣。由表4可以看出，當用SA機制代替傳統CNN-LSTM中多層LSTM網絡，且用GAP層代替FC層時，網絡訓練時間由原來的40.34 ms下降為21.25 ms，下降了47.32%，測試時間也下降32.57%。同時，ECNN-SA網絡的識別準確率相比傳統CNN-LSTM網絡提高了4.21%。

表4 ECNN-SA網絡與CNN-LSTM網絡的訓練和測試時間對比 ms

表5 ECNN-SA模型混淆矩陣(AFEW數據集) %

由表5中的混淆矩陣可以看出，在AFEW數據集上，開心的表情識別率最好，其次是傷心和生氣，其他表情的分類并沒有取得非常好的效果，因為開心、傷心和生氣相對于其他表情具有更加明顯的特征，大多開心表情中的明顯特征為嘴巴微張、嘴角翹起、眼瞼收縮等，而害怕、輕蔑、中性等表情的特征有較為相似的特征，識別難度增大。另一方面，識別效果欠佳，原因主要有兩個：

(1)該文采用的表情識別是單模態的，主要考慮連續面部表情序列相鄰幀間的時間關系，如果采用多模態的方法，增加音頻、文字等模式，能幫助提高表情識別率；

(2)AFEW數據集是從不同電影中收集的視頻剪輯，非常接近真實場景，包含各種頭部姿勢，演員的臉部遮擋，背景多變，是一個多模式數據庫，因此在該數據集上識別結果較差。

2.3 CK+數據集上的結果及分析

CK+數據集[21]發布于2010年，是在Cohn-Kanade數據集基礎上擴展來的，可以從網上免費獲取，包含表情標簽和Action Units的標簽。這個數據集中包括123個受試者(subjects)，593個圖像序列。每個圖像序列的最后一幀都有Action Units的標簽。圖像序列中包含了從平靜到表情表現峰值的圖片。其中，來自118名受試者的327個圖像序列被標記了七種基本情緒標簽：生氣(anger)、蔑視(contempt)、厭惡(disgust)、害怕(fear)、高興(happiness)、悲傷(sadness)、驚訝(surprise)。CK+數據集中的連續表情圖像如圖6所示。

由于CK+沒有給定訓練集和測試集，將327個視頻劃分成長度為10幀的視頻序列，共978個，取其中80%進行訓練，20%進行測試，交叉驗證5次得到實驗結果。

采用2.2節中在AFEW數據集上訓練得到的具有最佳結構和參數的ECNN-SA網絡(即骨干輸出維度=支路輸出維度=1 024，超參數s=0.1)訓練CK+數據庫，5次交叉驗證，得到的測試集實驗結果如表6所示，對應的混淆矩陣如表7所示。由表6可以看出，提出的ECNN-SA網絡達到最高識別率97.95%，比其他網絡3DCNN-DAP[1]、STM-ExpLet[23]、DTAGN[7]分別提高了5.6%、4.07%和1.52%，比CNN-LSTM[20]網絡提高了2.03%。由此可見，在AFEW數據庫訓練得到的ECNN-SA網絡在CK+數據庫上達到最佳識別性能。

表6 CK+數據集上的測試結果

表7 CK+數據集上的混淆矩陣 %

3 結束語

鑒于端到端CNN-LSTM網絡用于視頻表情識別時采用深層CNN提取空間信息和多層LSTM級聯獲取時間信息時，網絡模型的復雜度較高且易發生過擬合，提出了一種高效、低復雜度的視頻表情識別模型ECNN-SA。使用改進后的VGG-16增強網絡獲取更多層次、更豐富的表情特征，用SA模塊替代多層LSTM網絡，對前后圖像幀間的相關性進行加權求和，對表情最夸張的圖像賦予較大的權值，最后由Softmax分類器輸出表情類別。ECNN-SA視頻表情識別模型不僅更有效地獲得了視頻序列內部結構和差異化的顯著特征，而且大大降低了網絡的訓練時間。

該方法是基于視頻的面部表情識別，而人類的情感還包括語音、姿態動作和生理信號等，有效地融合音頻、人臉關鍵點等其他模態的信息，對人臉表情進行多模態識別是下一步的研究工作。