基于卷積網絡通道注意力的人臉表情識別

2022-01-23 03:42:54蘭艷亭李大威牛興龍

無線電工程 2022年1期

張波，蘭艷亭，李大威，牛興龍

(中北大學電氣與控制工程學院，山西太原 030051)

0 引言

隨著人工智能的發展，人臉表情識別(Facial Expression Recognition，FER)技術已經成為當前的研究熱點。FER技術是將生理學、心理學、圖像處理、機器視覺與模式識別等研究領域進行交叉與融合[1]，在人機交互、商業等領域都有著廣闊的應用前景。但構建可實際應用的FER系統仍然面臨許多挑戰，例如，在實際應用中的環境干擾、光照強度的變化、噪聲的影響以及人臉表情的復雜性和多樣性等[2]。為了解決人臉識別中實際遇到的問題，學者們不斷提出新的深度學習算法來提高人臉表情的識別率和泛化性。

傳統的FER方法多是基于手工提取人臉特征，而深度學習在表情識別中的研究應用大多基于卷積神經網絡。例如，Krizhevsky等[3]提出的AlexNet網絡在當年ImageNet比賽中獲得了第一名的成績，此后深度學習飛速發展，出現了VGG網絡、ResNet網絡和GoogLeNet網絡模型等，在此基礎的骨干網絡上，出現了大量關于FER的算法。Jiang Daihong[4]等提出了基于注意力機制的網絡，在殘差網絡的基礎上引入了自我關注機制，并生成通道注意，聚焦于不同通道的交互功能，從而提高模型全局特征提取能力。He等[5]提出了一個多分辨率功能融合卷積神經網絡，它結合了不同深度的通道，以提取多分辨率功能，此網絡結構模型具有穩健性好、收斂速度快等優點。Mollahosseini等[6]提出了一個深度神經網絡架構，網絡由2個卷積層組成，每個層隨后是最大池，然后是4個初始層。以注冊的面部圖像作為輸入，構建了一個FER系統，得到了較好的識別效果?？簼峓7]等人以AlexNet網絡為原型構建基于域適應的卷積神經網絡結構。通過引入包含注意力機制的Senet模塊，同時利用域適應方法減小領域差異性，提高了識別率。文獻[8]提出了一種面部圖像脫粒(FIT)機制，使用來自Xception算法的預訓練面部識別功能。FIT機制去除不相關的面部圖像、收集面部圖像、糾正錯放的面部數據以及大規模合并原始數據集，提高了識別的準確率。

以上文獻中的工作很有意義，但仍有一些不足，比如應用中模型過大，不易落地部署，識別準確率不夠高，預測時間過長，導致實時效果不理想。為解決上述不足，提出了一種基于卷積神經網絡的通道注意力FER算法。該算法采用深度可分離卷積，減少了模型參數，使得模型更加輕量化，加入Senet模塊不增加參數的同時提高了準確率。

1 相關模型

1.1 VGG網絡

VGG網絡[9]由Oxford的Visual Geometry Group團隊提出。該網絡的主要工作是證明了增加網絡的深度能夠在一定程度上影響網絡最終的性能。在VGG中，使用了3個3×3卷積核來代替7×7卷積核，使用了2個3×3卷積核來代替5×5卷積核，這樣做的主要目的是在保證具有相同感知野的條件下，提升網絡的深度和神經網絡的效果。VGG網絡配置如圖1所示。

圖1 VGG網絡結構Fig.1 VGG network structure

由圖1可知，VGG網絡的深度從左到右增加，分別是VGG16和VGG19。因為層數的增加，增加了網絡的非線性，從而能讓網絡來學習更復雜的模型，并且小卷積核的參數更少。本文選用VGG19作為對比模型。

1.2 MobileNetV2網絡

MobileNetV2[10]除了和Xception[11]一樣使用深度可分離結構之外，還使用了Expansion Layer和Projection Layer。Projection Layer使用1×1的網絡結構，把高維特征映射到低維空間。MobileNetV2網絡結構如圖2所示。

由圖2可知，模型輸入與輸出維度一樣。網絡通過Expansion Layer擴展了6倍，然后應用深度可分離卷積進行處理。使得網絡中間大，兩頭窄。這樣的網絡結構稱為Inverted Residuals。最后使用Projection Layer來壓縮數據，讓網絡恢復原來維度。因為Expansion Layer 和 Projection Layer都是有可以學習的參數，所以整個網絡結構可以學習到如何更好地擴展數據和重新壓縮數據。

1.3 ResNet網絡

ResNet[12]網絡在2015年舉辦的ImageNet比賽Classification任務獲得第一名，主要貢獻在于使模型加深，準確率也隨之上升，因為提出了殘差塊的設計，讓學習恒等映射變得容易，即使堆疊了過量的Block，也可以讓冗余的Block學習成恒等映射，性能也不會下降。改善了SGD優化難的問題網絡可以更深，訓練速度更快，沒有引入額外的參數和計算復雜度，只做了很簡單的加法運算，復雜度相比于卷積運算可忽略不計。ResNet網絡結構如圖3所示。

圖3 ResNet網絡結構Fig.3 ResNet network structure

由圖3可知，ResNet通常由5個塊組成。ResNet提出了5種不同的網絡深度：18，34，50，101和152。ResNet50和ResNet101兩個網絡深度是最常被使用的，很多方法都是建立在二者之上的。本文選用ResNet50作為對比模型。

2 卷積通道注意力模型

2.1 SENet網絡

SEnet[13]是Hu等人提出的一種基于通道注意力機制的模塊，該模塊可以通過調整特征圖的通道權重，強調圖像中有用的特征，同時抑制非顯著性特征。SE模塊結構如圖4所示。

圖4 SE模塊結構Fig.4 SE module structure

由圖4可知，SE模塊分為3部分。① Squeeze操作，通過全局池化進行特征壓縮，將每個二維的特征通道變成一個實數，這個實數某種程度上具有全局的感受野，此操作可以獲取特征圖的空間關系和通道特征;② Excitation操作，通過2個全連接層獲取非線性的跨通道交互和降維來限制模型復雜性，其中全連接層參數w為每個特征通道生成權重。通過Sigmoid把權值限制在0～1;③ Reweight的操作，將Excitation輸出的權重作為特征選擇后的每個特征通道的重要性，然后通過乘法逐通道加權到先前的特征上，完成在通道權重的改變。

SE模塊并不是一個完整的網絡結構，而是一個子結構，需要和其他模型結合使用。

2.2 XRS網絡塊結構

本文提出了XRS模塊，此模塊在傳統卷積網絡的通道上進行改進。首先，把普通的卷積層換為深度可分離卷積網絡，加寬網絡，減少參數量和運算成本。其次，在可分離卷積層的輸出加入通道注意力Senet，實現對輸出通道的權值按重要程度進行重新分配。最后，引入Resnet網絡中的殘差機制，減輕梯度消失現象。XRS網絡結構如圖5所示。

圖5 XRS塊Fig.5 XRS block

由圖5可知，其輸入和輸出維度不變，增加SE塊后網絡總參數并沒有明顯的增加，因為SE模塊中通過全局池化變成一維操作。同時加入快捷連接，讓指定輸出減去上一層輸入就是殘差學習。

2.3 卷積網絡通道注意力結構

本文設計了一種基于通道注意力機制的FER網絡，對于人臉表情的識別，因為數據集中圖片尺寸的限制，網絡不可能很深，不然會損失很多表情的特征信息，該網絡圖像的輸入大小為48 pixel×48 pixel。圖片輸入后，首先通過2個卷積層，其次通過最大池化進行下采樣，通過2層的池化、卷積后，加入XRS模塊，提取高層的抽象特征，其后再加入一個池化、卷積層。緊接著通過Flatten將網絡展平，送入全連接層。最后加入了Softmax激活函數對人臉表情進行分類。卷積網絡通道注意力結構如圖6所示，網絡由卷積層、池化層和XRS模塊構成。

圖6 卷積網絡通道注意力結構Fig.6 Convolutional network channel attention structure

3 實驗測試與結果

3.1 數據集

(1) CK+數據集。由憤怒、惡心、輕蔑、恐懼、高興、中立、悲傷和吃驚這8種情緒組成，共981張可訓練的圖片，所有圖像大小為640 pixel×490 pixel。但是圖片中的志愿者背景都大于臉部圖像，如果不對圖像進行適當的裁剪，訓練的時候會引入大量的背景信息，對訓練效果無益，因此把圖片處理成48 pixel×48 pixel，與FER 2013數據集的圖片大小一致，方便模型輸入尺寸統一。部分圖例如圖7所示。

(2) Real-world Affective Faces Database(RAF-DB)數據集[14]。該數據集是一個大規模的面部表情數據庫，與實驗室JAFFE數據庫不同，數據庫中的圖像對受試者的年齡、性別和種族、頭部姿勢、光照條件和遮擋(例如眼鏡、面部毛發或自我遮擋)進行過處理操作(例如各種濾鏡和特殊效果)，其部分圖例如圖8所示，包括29 672個真實世界的圖像，2個不同的子集：單標簽子集，包括7類基本情感；復合標簽子集，包括12類復合情感，每個圖像5個準確的地標位置、37個自動地標位置、邊框、種族、年齡范圍和性別屬性注釋、基本情緒和復合情緒的基線分類器輸出[15]。該數據庫已分為訓練集(12 271張)和測試集(3 068張)，2個集中的表達式都接近相同的分布。

圖8 RAF-DB數據集部分圖例Fig.8 Some image examples of RAF-DB dataset

(3) FER數據集。該數據集有7個面部表情類別(吃驚、恐懼、惡心、高興、難過、生氣和中性)，其中28 709幅訓練圖像，3 589幅驗證圖像和3 589幅測試圖像。圖片處理為灰度圖像，大小48 pixel×48 pixel。這個數據集包含了不同照明下的人類正面臉、姿態和域，甚至卡通人物都包括在內，因此對訓練效果會有一定的影響，其部分圖例如圖9所示。

圖9 FER2013數據集部分圖例Fig.9 Some image examples of FER2013 dataset

3.2 超參數設置

本文使用處理器為Intel(R) Core(TM)i5-9400F CPU@2.90 GHz，16 GB RAM，顯卡為NVIDIA GeForce GTX 1060 6 GB。在Windows10操作系統下，使用TensorFlow2.3_gpu版本作為深度學習框架，Keras庫函數搭建網絡，基于Python v.3.8開發。選擇了目前效果較好的Adam優化器，學習率設置為0.000 1，為了防止網絡過早的過擬合，加入了Dropout層，其參數設置為0.3。網絡的Batch為64。模型訓練Epoch為30次。

3.3 消融實驗

為了驗證本文設計的XRS網絡有效性，在RAF-DB數據集上進行了消融實驗，分別進行了5種不同方法下的測試。

方法1：不添加任何模塊，只保留基礎模型。方法2：在基礎網絡中加入可分離卷積網絡。方法3：在方法2的基礎上加入殘差網絡。方法4：在方法2的基礎上加入Senet網絡。方法5：加入XRS網絡。

在實驗中采用的實驗初始參數均是相同的。消融實驗結果如表1所示。

表1 消融實驗結果

在方法1中不使用XRS網絡時，得到的準確率為75.4%，參數量為1 814 599。方法2在方法1的基礎上，加入了一組可分離卷積網絡，從表1可以看到，雖然方法2比方法1的參數量多了68 864但是每個epoch訓練所花費的時間仍然是一樣的，同時準確率提升了0.7%，原因是可分離卷積網絡加寬了網絡的結構。

方法3在方法2的基礎上加入了殘差網絡，參數量與訓練時間都有所增加，同時準確率也提高至77.5%。其原因是加入的殘差塊把上一層的輸出直接和當前層的輸出相加，可以減少梯度損失。

方法4把方法3中的殘差模塊換成了Senet網絡。二者都是在方法2的基礎上進行改進。二者每個epoch訓練時間相同，但是方法4的參數量略高于方法3，準確率卻比方法3高0.2%。因為加入的Senet網絡中有2層全連接層，因此參數量會稍微大于方法3。同時加入通道注意力機制操作，通道的注意力相關性被有效利用。

方法5加入了XRS網絡。其參數量是5種方法中最大的，其訓練時間為11 s，準確率可以達到78.1%。其效果比方法3和方法4只加入單一模塊更優，證明了加入XRS網絡可以提高FER的準確率，而且效果最佳。

3.4 其他算法對比

為了進一步證明本文算法能夠有效提高FER的準確率，在CK+，RAF-BD和FER2013數據集上，與VGG19，ResNet50，MobileNetV2，Xception和文獻[16]進行了比較。Xception主要是在Inception v3[17]的基礎上引入了深度可分離卷積，在基本不增加網絡復雜度的前提下提高了模型的效果。通過1×1的卷積核分離通道，加寬了網絡，使得參數量和Inception v3差不多，然而性能會更優。文獻[16]提出了增強可分離卷積通道特征的輕量化的卷積神經網絡表情識別模型。6種不同算法訓練后的準確率對比結果如表2所示。

表2 不同算法訓練后的準確率對比

本文提出的方法在CK+，RAF-BD和FER2013數據集上測試得到的準確率分別為99.45%，78.10%和62.65%，在所取算法中準確率最高。Xception網絡雖然也是用了可分離卷積網絡，但是本文方法對通道直接的相關性進行了考慮，在CK+數據集上，準確率比文獻[16]提升了0.71%。在RAF-BD數據集上，本文方法的準確率與其相比提高了3.04%；在FER2013數據集上準確率提高了16.35%，證明了本文算法對FER準確率有所提升。

為了驗證本算法對圖片預測速度，首先分別對6個算法訓練6個對應的h5模型。其次通過Keras的Load方法加載模型，對同一張圖片進行預測。不同算法的預測時間和模型參數如表3所示。

表3 不同算法預測單張圖片時間

由表3可知，本文算法用時最短，只需1.2 s。與準確率相差不大的Xception網絡相比，預測時間比Xception快1.6倍,是ResNet50網絡的2.46倍，因此本算法識別速度快。本文提出的網絡模型參數量僅僅只有約1.8 MB。在對比模型中參數最少，ResNet50網絡和VGG19網絡的參數量約為55，22 MB，這也證明了加入的Senet網絡中2個全連接層構成的瓶頸層，并沒有過多的增加網絡的參數量，實現了網絡模型的輕量化。

4 結束語

本文在卷積神經網絡的基礎上，添加了XRS模塊，建立了人臉識別的網絡模型，實現了對自然狀況下7種人臉表情的識別。對本文提出的通道注意力機制FER網絡進行試驗和分析，得出以下結論：

① 本文提出了XRS網絡模塊，其采用的深度可分離卷積模塊，能夠在拓展網絡寬度的同時仍保持較少的參數，使模型具有較高的性能，且加快了網絡的訓練速度。

② 通過消融實驗，比較XRS模塊對模型性能的有效性，可知采用XRS模塊能提取到人臉顯著的表情特征，從而提高模型的泛化能力和識別準確率。

③ 與VGG19，ResNet50，MobileNetV2，Xception和文獻[16]進行了人臉表情效果比較，本文算法收斂速度更快，模型規模最小，約為1.8 MB；單張圖像檢測平均耗時為1.21 s，檢測速度更快。

本文的FER方法只能識別7種基本人臉表情，下一步可以針對更復雜的人臉表情進行識別研究。