摘" 要: 針對(duì)一般模型很難捕捉微表情不同尺度上的特征,提出一種基于LiteFlowNet和改進(jìn)的ResNet-10的微表情識(shí)別網(wǎng)絡(luò)以充分提取微表情不同維度信息。先通過歐拉視頻放大技術(shù)(EVM)突出面部微小動(dòng)作,再將處理后的數(shù)據(jù)通過輕量級(jí)光流估計(jì)網(wǎng)絡(luò)LiteFlowNet提取視頻幀中的運(yùn)動(dòng)信息。在用于特征提取的ResNet-10上引入三維注意力機(jī)制(3D-Attention),以適應(yīng)性地聚焦于微表情視頻中最具辨別力的通道、空間和時(shí)間特征。實(shí)驗(yàn)結(jié)果驗(yàn)證了該網(wǎng)絡(luò)有效提升了微表情識(shí)別性能。
關(guān)鍵詞: 微表情識(shí)別; LiteFlowNet; 3D-Attention; ResNet-10; EVM
中圖分類號(hào):TP391.4" " " " " 文獻(xiàn)標(biāo)識(shí)碼:A" " "文章編號(hào):1006-8228(2023)12-101-04
Micro-expression recognition model based on optical flow and integrated
spatio-temporal-channel attention of ResNet-10.
Liang Yan, Huang Runcai, Lu Shicheng
(School of Electrical and Electronic Engineering, Shanghai University of Engineering and Technology, Shanghai 201600, China)
Abstract: In response to the difficulty of general models to capture the features of micro-expressions at different scales, a micro-expression recognition network based on LiteFlowNet and the improved ResNet-10 is proposed to fully extract the information of different dimensions of micro-expression. The facial micro-movements are first highlighted by EVM, and then the processed data are passed through a lightweight optical flow estimation network, LiteFlowNet, to extract the motion information in the video frames. 3D-Attention mechanism is introduced on ResNet-10 for feature extraction to adaptively focus on the most discriminative channel, spatial and temporal features in the micro-expression video. The experimental results verify that the network effectively improves the micro-expression recognition performance.
Key words: micro-expression recognition; LiteFlowNet; 3D-Attention; ResNet-10; Eulerian video magnification (EVM)
0 引言
面部表情作為情緒表達(dá)最重要的方式并不總是直接展現(xiàn)出來。人們會(huì)隱藏、掩飾或壓抑自己的真實(shí)情緒,從而產(chǎn)生局部的、快速的、不對(duì)稱的面部表情,即微表情。研究微表情對(duì)心理學(xué)、臨床醫(yī)學(xué)等相關(guān)學(xué)科有著巨大的推動(dòng)作用。傳統(tǒng)的微表情分析方法是基于人工特征,包括時(shí)空局部二值模式(LBP)[1]、三維梯度直方圖[2]等。然而采用這些方法從視頻中提取的信息大多流于表面,很難達(dá)到理想的效果。近年來,隨著卷積神經(jīng)網(wǎng)絡(luò)(CNN)迅速發(fā)展和普及,基于深度學(xué)習(xí)的技術(shù)在計(jì)算機(jī)視覺領(lǐng)域優(yōu)于人工特征技術(shù)。
1 本文實(shí)驗(yàn)
微表情數(shù)據(jù)集是小樣本數(shù)據(jù)集,因此充分提取微表情空間、時(shí)間特征至關(guān)重要。LiteFlowNet[3]是一個(gè)高效準(zhǔn)確的光流估計(jì)網(wǎng)絡(luò),實(shí)現(xiàn)了在資源受限的情況下快速、準(zhǔn)確地估計(jì)光流,有助于捕捉微表情的運(yùn)動(dòng)信息。ResNet-10[4]以其小規(guī)模卻出色的性能在小型數(shù)據(jù)集的計(jì)算機(jī)視覺任務(wù)中脫穎而出。其核心殘差塊解決了梯度消失問題,允許構(gòu)建更深的網(wǎng)絡(luò)。在微表情識(shí)別中,這意味著ResNet-10能夠?qū)W習(xí)更復(fù)雜的微表情特征,提高模型的表達(dá)能力。
1.1 ResNet-10和LiteFlowNet網(wǎng)絡(luò)算法概述
ResNet-10網(wǎng)絡(luò)圖像處理過程如下:輸入的圖像通過一個(gè)包含64個(gè)卷積核且卷積核大小為[7×7]的卷積層進(jìn)行圖像基礎(chǔ)特征提取。ResNet-10包含四個(gè)殘差塊,每個(gè)塊由兩個(gè)卷積層和一個(gè)跳躍連接組成,每個(gè)殘差塊的卷積層都采用了較小的[3×3]卷積核,使用恒等映射來保留原始輸入特征。在最后一個(gè)殘差塊之后,ResNet-10采用全局平均池化將特征圖轉(zhuǎn)換為向量,通過全連接層進(jìn)行分類。
LiteFlowNet網(wǎng)絡(luò)主要包含以下幾個(gè)關(guān)鍵組件。特征提取層:使用輕量級(jí)卷積和池化層從輸入圖像中提取特征。特征金字塔:捕捉不同尺度特征信息以提高光流估計(jì)的準(zhǔn)確性。光流估計(jì)分支:并行估計(jì)水平和垂直方向的光流場(chǎng),每個(gè)分支由一系列的卷積層和上采樣操作構(gòu)成,用于從提取的特征圖中預(yù)測(cè)光流信息。金字塔融合:將不同尺度特征與光流估計(jì)結(jié)果融合,提升不同尺度下光流估計(jì)精度。
1.2 網(wǎng)絡(luò)模型改進(jìn)
該模型通過結(jié)合光流和人臉全局特征,來解決單一類型特征提取不足的問題,全面地捕捉微表情的動(dòng)態(tài)和靜態(tài)信息。傳統(tǒng)的二維卷積神經(jīng)網(wǎng)絡(luò)難以很好地建模微表情視頻中的時(shí)序模式。為此本實(shí)驗(yàn)在二維ResNet-10模型基礎(chǔ)上引入了時(shí)間維度和三維注意力機(jī)制(3D-Attention)。3D-Attention可以動(dòng)態(tài)地對(duì)微表情視頻的時(shí)序和空間特征加權(quán),突出關(guān)鍵時(shí)序模式和動(dòng)態(tài)特征。為減少計(jì)算開銷,本實(shí)驗(yàn)將傳統(tǒng)3D卷積核分解為等效的空域2D卷積核和時(shí)域1D卷積核。
整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。首先,LiteFlowNet提取光流信息,保留微表情視頻的相關(guān)運(yùn)動(dòng)信息,同時(shí)去除無關(guān)亮度信息。光流特征和微表情視頻幀序列輸入到引入3D-Attention的ResNet-10,兩類特征向量逐位相加融合,最終實(shí)現(xiàn)分類。
圖2展示了3D-Attention:輸入三維數(shù)據(jù),經(jīng)過全局平均池化(GAP)計(jì)算特征圖元素的平均值,分別保留T(時(shí)間維度)、[H×W](空間維度)和C(通道維度)維度,其余維度均為1。通過Flatten將多維數(shù)組轉(zhuǎn)化為一維來滿足不同層次輸入需求。通過全連接層(FC)將前一層節(jié)點(diǎn)與當(dāng)前層節(jié)點(diǎn)連接,學(xué)習(xí)人臉表情的復(fù)雜特征和模式。使用Softmax將輸出實(shí)數(shù)映射為概率分布,方便預(yù)測(cè)微表情分類。最終,通過Reshape操作獲得增強(qiáng)的三維特征,與輸入執(zhí)行[?]操作得到輸出。
在此實(shí)驗(yàn)中,在ResNet-10網(wǎng)絡(luò)的第一個(gè)池化層之前和最后一個(gè)殘差塊中加入了3D-Attention,結(jié)構(gòu)如圖3所示。Fin為輸入數(shù)據(jù),F(xiàn)in通過3D-Attention的計(jì)算得到MCST(Fin),將計(jì)算結(jié)果通過殘差連接上一層的輸出Flout得到最終的輸出Fout,具體計(jì)算公式如下:
[Fout=MCSTFin+Flout]" ⑴
2 實(shí)驗(yàn)與結(jié)果分析
2.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集
本文中的實(shí)驗(yàn)均在Ubuntu 20.04.3、NVIDIA GeForce RTX 3080Ti GPU、Python 3.8.10和Pytorch 1.10.2平臺(tái)上進(jìn)行訓(xùn)練和測(cè)試。
本實(shí)驗(yàn)使用了數(shù)據(jù)集SAMM、CASME-II以及復(fù)合數(shù)據(jù)集(CD)。CD由CSAME-II、SAMM和SMIC數(shù)據(jù)集組成,其中包含了來自68位受試者的442個(gè)微表情樣本。實(shí)驗(yàn)對(duì)三個(gè)數(shù)據(jù)集的原始標(biāo)簽進(jìn)行了重新映射,轉(zhuǎn)換成一個(gè)新的標(biāo)簽空間,即“驚訝”、“積極”和“消極”。數(shù)據(jù)集中的樣本情況詳見表1。
2.2 數(shù)據(jù)預(yù)處理
EVM[5-6]可以增強(qiáng)微表情面部肌肉的運(yùn)動(dòng)范圍。假設(shè)[I(x,t)]是像素[x]在時(shí)間[t]時(shí)的圖像強(qiáng)度,[δt]是變化信號(hào),在任意時(shí)間[t]都有[Ix,t=f(x+δt)(tgt;0)]和[Ix,0=f(x)(t=0)]。假設(shè)所有變化信號(hào)[δt]的頻率范圍是帶通濾波所選擇的頻帶范圍,帶通濾波結(jié)果[B(x,t)]如式⑵所示。式⑵乘以放大系數(shù)[α]后與原始信號(hào)相加,得到放大信號(hào)[Ix,t],如式⑶所示。其中[Ix,t]的泰勒展開式如式⑷所示。
[Bx,t=δt?fx?x]" ⑵
[Ix,t≈Ix,t+αBx,t]
[≈fx+(1+α)δt?fx?x]" ⑶
[Ix,t≈fx+ δt?fx?x]" ⑷
實(shí)驗(yàn)證明,放大率[α]值為3時(shí)達(dá)到最佳效果。圖4展示了經(jīng)過EVM處理的CASME-II數(shù)據(jù)集視頻中的一幀,其中(a)是原始視頻幀,(b)是動(dòng)作放大后的效果。
為保持視頻幀序列的微小變化,本實(shí)驗(yàn)對(duì)經(jīng)過EVM處理的數(shù)據(jù)集進(jìn)行水平鏡像,原始序列和鏡像樣本分別旋轉(zhuǎn)+50和+100,最終數(shù)據(jù)集擴(kuò)大為原始的十倍。
2.3 實(shí)驗(yàn)評(píng)判標(biāo)準(zhǔn)
本文采用了準(zhǔn)確率[ACC]和F1指標(biāo)來評(píng)價(jià)算法,綜合考慮了準(zhǔn)確率(P)和召回率(R)兩個(gè)指標(biāo)。計(jì)算公式如式⑸-式⑻。
[ACC=TP+TNTP+TN+FP+FN]" ⑸
[F1=2×P×RP+R]" ⑹
[P=TPTP+FP]" ⑺
[R=TPTP+FN]" ⑻
TP代表模型預(yù)測(cè)為正,實(shí)際為正,TN代表模型預(yù)測(cè)為負(fù)、實(shí)際為負(fù),F(xiàn)P代表模型預(yù)測(cè)為正,實(shí)際為負(fù),F(xiàn)N代表模型預(yù)測(cè)為正、實(shí)際為負(fù)。
2.4 實(shí)驗(yàn)結(jié)果與分析
該方法與基于人工特征的方法和深度學(xué)習(xí)方法進(jìn)行了比較,結(jié)果如表2所示。
實(shí)驗(yàn)結(jié)果表明,CASME-II數(shù)據(jù)集在微表情識(shí)別任務(wù)中表現(xiàn)更出色。CASME-II數(shù)據(jù)集規(guī)模更大,提供多視角和不同分辨率的視頻。這有助于模型更好地捕捉微表情的細(xì)微差異和變化。CD數(shù)據(jù)集中的SMIC數(shù)據(jù)集存在自發(fā)微表情的噪聲和不一致性,可能降低模型性能。SAMM數(shù)據(jù)集中,微表情標(biāo)注的主觀性可能會(huì)引發(fā)標(biāo)簽不一致,對(duì)模型分類造成干擾。為了驗(yàn)證上述分析,以圖5中的混淆矩陣展示模型在SAMM、CASME-II和CD數(shù)據(jù)集上的分類。
如圖5所示,模型在CD和SAMM數(shù)據(jù)集上表現(xiàn)類似,在CASME-II數(shù)據(jù)集上的準(zhǔn)確率最高。由于負(fù)面類別在數(shù)據(jù)集中占主導(dǎo)地位,因此大部分驚訝和負(fù)面樣本被預(yù)測(cè)為負(fù)面類別。為驗(yàn)證本文模型中新增的注意力機(jī)制對(duì)面部特征的有效性以及光流特征與面部特征融合方法的有效性,實(shí)驗(yàn)使用交叉驗(yàn)證進(jìn)行消融實(shí)驗(yàn)。設(shè)計(jì)如表3所示。
3 結(jié)束語
本論文根據(jù)微表情識(shí)別模型所面臨的特征提取不足的問題,提出了基于集成光流和時(shí)-空-通道的3D-ResNet-10微表情識(shí)別網(wǎng)絡(luò),實(shí)現(xiàn)多模態(tài)融合提取微表情特征。實(shí)驗(yàn)結(jié)果顯示,該方法在多個(gè)數(shù)據(jù)集上均顯著提升了性能,有效地捕捉微小的面部動(dòng)作變化,這為更精確的情感分析和人機(jī)交互奠定了基礎(chǔ)。在接下來的實(shí)驗(yàn)過程中仍需要在數(shù)據(jù)獲取、融合策略、計(jì)算復(fù)雜性等方面做出改進(jìn),以實(shí)現(xiàn)更有效和魯棒的多模態(tài)微表情識(shí)別系統(tǒng)。
參考文獻(xiàn)(References):
[1] Russell T A, Chu E. A pilot study to investigate the
effectiveness of emotion recognition remediation in schizophrenia using the micro-expression training tool[J]. British Journal of Clinical Psychology,2011,45(Pt4):579-583.
[2] Zhang M, Fu Q, Chen Y H. Emotional Context Influences
Micro-Expression Recognition[J]. PLoS ONE,2014,9(4):1-7.
[3] Hui T W, Tang X, Loy C. LiteFlowNet: A Lightweight
Convolutional Neural Network for Optical Flow Estimation[J].2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018.
[4] He K, Zhang X, Ren S. Deep Residual Learning for Image
Recognition[J]. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016.
[5] Liu C, Torralba A, Freeman W. Motion magnification.
ACM Transactions on Graphics[J].2005,24(3):519-526.
[6] Ming-Zher, Poh, Daniel. Non-contact, automated cardiac
pulse measurements using video imaging and blind source separation[J]. Optics Express,2010,18(10).