唐武賓,童 瑩,曹雪虹
(1.南京郵電大學(xué)通信與信息工程學(xué)院,江蘇南京 210003;2.南京工程學(xué)院 信息與通信工程學(xué)院,江蘇 南京 211167)
表情一直是人類情緒的直觀體現(xiàn),人們通過表情對(duì)事物作出回應(yīng)。隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,表情識(shí)別作為人工智能領(lǐng)域重要的一環(huán)備受關(guān)注。表情識(shí)別主要分為機(jī)器學(xué)習(xí)和深度學(xué)習(xí)兩種方法,而在機(jī)器學(xué)習(xí)中,特征提取是最重要的一步,該過程主要是對(duì)最終表情識(shí)別起作用的特征進(jìn)行提取壓縮,從而進(jìn)行識(shí)別。傳統(tǒng)的特征提取方法主要包括:局部二值模式(LBP)、Gabor 特征[1]、尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)[2],以及線性預(yù)測編碼系數(shù)(LPC)等[3]。除特征提取會(huì)對(duì)最終表情識(shí)別起很大一部分作用外,分類器也會(huì)影響最后表情識(shí)別準(zhǔn)確率。如今,分類算法常見的有SVM 分類算法[4]、K-NN分類算法[5]、Adaboost 分類算法[6]等。以上這些方法是使用較多也是較為成熟的一些技術(shù)。
深度學(xué)習(xí)比機(jī)器學(xué)習(xí)應(yīng)用得更為普遍,這是因?yàn)槠溆兄玫奶卣骷庸つ芰η夷軌蜻m應(yīng)深層次特征提取網(wǎng)絡(luò),因此成為當(dāng)前國內(nèi)外學(xué)者研究的主流方向之一。對(duì)于表情識(shí)別研究,也由原先的傳統(tǒng)機(jī)器學(xué)習(xí)方法轉(zhuǎn)向了現(xiàn)在的深度學(xué)習(xí)技術(shù),因?yàn)樯疃葘W(xué)習(xí)相比于傳統(tǒng)機(jī)器學(xué)習(xí)有著諸多優(yōu)點(diǎn),如:①對(duì)特征的提取能力更強(qiáng);②對(duì)于存在諸多干擾因素的場景表現(xiàn)出了更強(qiáng)的魯棒性。深度學(xué)習(xí)主要有兩種典型網(wǎng)絡(luò)模型,分別為卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),前者趨向于用于靜態(tài)圖像表情識(shí)別,而后者趨向于用動(dòng)態(tài)視頻表情識(shí)別。Baccouche 等[7]首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于特征提取。2015 年,Yao 等[8]采用深層次卷積級(jí)聯(lián)進(jìn)行特征提取從而將深層特征有效提取出來,最終建立特征與表情識(shí)別之間的相關(guān)性。由于卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)越性,Khorrami 等[9]使用深度學(xué)習(xí)對(duì)視頻進(jìn)行情感識(shí)別,但是卷積神經(jīng)網(wǎng)絡(luò)無法將相鄰兩幀之間的信息差異性關(guān)聯(lián)起來,因此他們又采用循環(huán)神經(jīng)網(wǎng)絡(luò),用來將相鄰兩幀之間的信息相關(guān)性提取出來,從而建立連續(xù)特征變換差異性,這一應(yīng)用比單獨(dú)使用卷積神經(jīng)網(wǎng)絡(luò)會(huì)產(chǎn)生更好的效果。
Zhang 等[10]提出用生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)自動(dòng)生成具有表情的人臉圖像,從而擴(kuò)大訓(xùn)練集,這是在圖像預(yù)處理部分進(jìn)行特征豐富;Chen 等[11]提出標(biāo)簽分布學(xué)習(xí)(Label Distribution Learning,LDL)技術(shù),從而將同一類別標(biāo)簽特征集中,減小類間間距;Wang 等[12]提出自愈網(wǎng)絡(luò)(Self-Cure Network,SCN)以抑制表情判別不確定性,該網(wǎng)絡(luò)主要運(yùn)用自注意力機(jī)制對(duì)樣本進(jìn)行預(yù)處理從而加強(qiáng)樣本的表情特點(diǎn)。這些方法都是從圖像本身出發(fā)進(jìn)行特征增強(qiáng),而忽略了網(wǎng)絡(luò)帶來的特征丟失問題。
因此,Khor 等[13]提出一種豐富長期循環(huán)卷積網(wǎng)絡(luò)(Enriched Long-term Recurrent Convolutional Network,ELRCN)用于細(xì)微表情識(shí)別,其主要通過通道級(jí)堆疊和特征級(jí)堆疊增強(qiáng)對(duì)于人臉面部情感特征的提取。對(duì)于ELRCN 網(wǎng)絡(luò),采用CNN+LSTM 進(jìn)行特征提取及表情識(shí)別,從未考慮特征的相關(guān)性及側(cè)重性,從而造成特征無區(qū)別度,同時(shí)還存在信息丟失問題。陳樂等[14]在ELRCN 網(wǎng)絡(luò)基礎(chǔ)上提出端到端增強(qiáng)特征神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)從視頻多幀角度出發(fā),通過雙LSTM 級(jí)聯(lián)實(shí)現(xiàn)信息回溯進(jìn)行相鄰幀信息提取,但是忽略了視頻單幀也存在信息丟失現(xiàn)象。Zhang 等[15]提出一種多信號(hào)卷積神經(jīng)網(wǎng)絡(luò)(Multi-Signal Convolutional Neural Network,MSCNN)從靜止幀中提取“空間特征”,該網(wǎng)絡(luò)主要在單幀上進(jìn)行特征加強(qiáng),其利用監(jiān)督學(xué)習(xí)不同損失函數(shù)達(dá)到類內(nèi)差異縮小、類間差異增大效果,但只是在反向傳播更新參數(shù)時(shí)利用了多種損失函數(shù),一開始的信息損失仍然存在,只不過是將沒有損失的信息采用多種損失函數(shù)組合凸顯出來,并沒有做到信息保護(hù),同時(shí)沒有兼顧到視頻多幀存在相關(guān)性的特點(diǎn)。
以上方法沒有做到單幀和多幀信息的共同保護(hù),而只是在某一方面進(jìn)行了特征加強(qiáng)。為了解決這些問題,本文從單幀和多幀兩個(gè)角度著手進(jìn)行特征增強(qiáng)。單幀采用淺層特征與深層特征融合,淺層特征即在VGG 網(wǎng)絡(luò)中間層外延卷積模塊,從而提取淺層特征,深層特征即在VGG 網(wǎng)絡(luò)最后融合空洞卷積[16](Dilated Convolution,DC)和通道間注意力機(jī)制[17](Squeeze-and-Excitation Networks,SENet);多幀采用幀間注意力機(jī)制提取幀與幀之間的相關(guān)性,從而將對(duì)于最終表情識(shí)別作用較大的幀凸顯,將作用不大的幀加以抑制。該方法在AFEW 動(dòng)態(tài)視頻(Acted Facial Expressions in the Wild)[18]數(shù)據(jù)集、CK+[19]動(dòng)態(tài)視頻數(shù)據(jù)集、SFEW[20]靜態(tài)圖像數(shù)據(jù)集、FER2013 靜態(tài)圖像數(shù)據(jù)集上得到了有效驗(yàn)證。
本文設(shè)計(jì)的表情識(shí)別模型如圖1 所示,共包括兩個(gè)部分,分別為單幀特征增強(qiáng)網(wǎng)絡(luò)和多幀特征增強(qiáng)網(wǎng)絡(luò)。單幀特征增強(qiáng)網(wǎng)絡(luò),主要適用于靜態(tài)圖像數(shù)據(jù)集,同時(shí)也可以作為動(dòng)態(tài)視頻數(shù)據(jù)集的單幀特征提取;多幀特征增強(qiáng)網(wǎng)絡(luò)由于要求相鄰幀存在相關(guān)性,因此只能適應(yīng)于動(dòng)態(tài)視頻數(shù)據(jù)集。其中,單幀特征增強(qiáng)網(wǎng)絡(luò)分為深層特征增強(qiáng)和淺層特征增強(qiáng),網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,多幀特征增強(qiáng)網(wǎng)絡(luò)為幀間注意力機(jī)制。
Fig.1 Expression recognition framework based on enhanced convolutional network圖1 基于增強(qiáng)卷積網(wǎng)絡(luò)的表情識(shí)別框架
在單幀特征增強(qiáng)部分,主要應(yīng)用了3 種技術(shù)的融合,分別為空洞卷積(Dilated Convolution,DC)、基于通道間的注意力機(jī)制(Squeeze-and-Excitation Networks,SENet)及淺層特征提取模塊。
空洞卷積(Dilated Convolution,DC)又稱擴(kuò)張卷積,最初是在算法“小波分解小波”中開發(fā),其基本原理是在普通卷積的基礎(chǔ)上,引入一個(gè)擴(kuò)張率(Dilation Rate)的超參數(shù),該超參數(shù)定義了相鄰卷積核各值的間距。卷積核大小為3×3,擴(kuò)張率為d的空洞卷積如圖3 所示。從圖3(a)可以看出,普通卷積是空洞卷積的一個(gè)特例,即為擴(kuò)張率1的空洞卷積,以圖3(b)為例,擴(kuò)張率為2,讓原本3×3的卷積核,在參數(shù)不變的前提下感受野增加到5×5。不僅如此,空洞卷積的應(yīng)用也避免了polling 所帶來的下采樣問題,polling 每次操作都會(huì)造成一半信息丟失,這種無條件的一半信息丟失會(huì)直接導(dǎo)致重要特征喪失,而使用空洞卷積代替polling操作就能避免這種問題。以圖3(c)為例,3 個(gè)相鄰像素點(diǎn)保留1 個(gè),一般而言,相鄰像素點(diǎn)對(duì)于最終表情識(shí)別的作用是無差的,因此保留其一即可,從而可以保證強(qiáng)弱信息的結(jié)合。因此,空洞卷積的應(yīng)用有效解決了標(biāo)準(zhǔn)卷積所帶來的內(nèi)部數(shù)據(jù)結(jié)構(gòu)損失以及空間層級(jí)化信息丟失問題。本文對(duì)于空洞卷積的應(yīng)用位置及擴(kuò)張率的大小嘗試過多種可能性,最終在VGG 網(wǎng)絡(luò)最后一層應(yīng)用擴(kuò)張率為2的空洞卷積達(dá)到了最好的識(shí)別率。
Fig.2 Single frame feature enhancement network圖2 單幀特征增強(qiáng)網(wǎng)絡(luò)
Fig.3 Empty convolution圖3 空洞卷積
在實(shí)踐過程中,卷積神經(jīng)網(wǎng)絡(luò)認(rèn)為每一個(gè)像素點(diǎn)對(duì)于最終表情識(shí)別所起的作用都相同,然而從人眼角度看,有些像素點(diǎn)所起的作用更大,而不是平均分配,因此在CNN的基礎(chǔ)上融合了基于通道間的注意力機(jī)制(Squeeze-and-Excitation Networks,SENet)。該模塊通過網(wǎng)絡(luò)自動(dòng)訓(xùn)練學(xué)習(xí)從而獲取到每個(gè)特征通道的重要程度,然后依照該重要程度去提升有用的深層特征并抑制對(duì)當(dāng)前任務(wù)用處不大的深層特征。其結(jié)構(gòu)如圖4 所示,共通過3 個(gè)操作重新標(biāo)定CNN 所輸出的通道特征。首先是Squeeze 操作,將每一個(gè)特征通道里的像素點(diǎn)相加,然后除以特征通道大小,從而產(chǎn)生一個(gè)實(shí)數(shù),該實(shí)數(shù)代表這一通道的全部信息,其公式如式(1)所示;其次是Excitation 操作,在該步驟采用網(wǎng)絡(luò)自學(xué)習(xí)機(jī)制生成參數(shù)w,該值代表了每個(gè)通道對(duì)于最終表情識(shí)別所產(chǎn)生的影響因子,該值大小介于0 與1 之間,其公式如式(2)所示;最后是Reweight 操作,該操作就是將各通道的權(quán)重加權(quán)乘到相應(yīng)特征通道上,從而每個(gè)特征通道對(duì)最終表情識(shí)別結(jié)果作出了不同的貢獻(xiàn),實(shí)現(xiàn)了通道特征的重標(biāo)定,公式如式(3)所示。
Fig.4 Inter channel based attention mechanism圖4 基于通道間的注意力機(jī)制
由于層數(shù)的提高必然會(huì)導(dǎo)致部分有用信息丟失,因此在注重深層特征的同時(shí)也需要關(guān)注淺層特征。在本文中,所采用的CNN 模塊為VGG-16,此網(wǎng)絡(luò)總共16 層,雖然層數(shù)并不很深,但在VGG-16 最后一層出來的其實(shí)就是深層特征,而一些淺層有用特征已經(jīng)丟失。為了彌補(bǔ)這一缺陷,在VGG-16 中某一層外延支路進(jìn)行淺層特征提取,在嘗試多次之后,最終選取VGG-16 中間層外延支路。同時(shí),在實(shí)驗(yàn)過程中進(jìn)行了多種嘗試,最終確定以兩層卷積層的級(jí)聯(lián)最佳,其結(jié)構(gòu)如圖5 所示。其第一層是一個(gè)7×7的卷積層,該卷積層在保留更多表情特征的同時(shí)也保證了網(wǎng)絡(luò)的感受野。批量歸一化層是為了防止梯度爆炸和梯度消失,激活層使用Relu 非線性函數(shù)。第二層為1×1的卷積層,主要是為了降維,同時(shí)提高網(wǎng)絡(luò)表達(dá)能力,從而方便后續(xù)特征融合。該淺層特征增強(qiáng)與深層特征增強(qiáng)互相融合,從而促進(jìn)特征進(jìn)一步突出,提高識(shí)別率。
Fig.5 Shallow feature enhancement圖5 淺層特征增強(qiáng)
CNN 對(duì)于處理單幀圖片十分有效,但對(duì)于視頻而言,相鄰幀之間存在運(yùn)動(dòng)信息,同時(shí)由于表情是一個(gè)漸變過程,前一幀的表情將會(huì)直接影響到下一幀的表情,因此單獨(dú)的CNN 將不適合處理這種關(guān)系,而循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)則更為有效。RNN 模型的循環(huán)特性可以使信息在網(wǎng)絡(luò)中留存一段時(shí)間,從而可以建立相鄰幀的表情變化關(guān)系。現(xiàn)階段,應(yīng)用最廣的RNN 便是門限RNN(Gated RNN),而LSTM 就是其中最為經(jīng)典的一種。但是由于其每個(gè)細(xì)胞中都有4 個(gè)全連接層(MLP),在LSTM 時(shí)間跨度很大的情況下,會(huì)導(dǎo)致運(yùn)算時(shí)間呈幾何級(jí)數(shù)上升。因此,本文提出采用幀間注意力機(jī)制代替LSTM,也能夠?qū)⑾噜弾男畔㈥P(guān)聯(lián)起來。該思想由Fajtl 等[21]首次提出,他指出使用自注意力機(jī)制處理相鄰幀,并給每一幀賦予不同的權(quán)重,從而將對(duì)表情識(shí)別起關(guān)鍵作用的幀凸顯出來,將對(duì)表情識(shí)別誤導(dǎo)性極高的幀抑制起來,確保最終表情識(shí)別率的準(zhǔn)確性,其操作性與基于通道間的注意力機(jī)制類似。
本文深層特征增強(qiáng)網(wǎng)絡(luò)框架如圖6 所示。根據(jù)幀間注意力機(jī)制的結(jié)構(gòu)特點(diǎn),其要求CNN 網(wǎng)絡(luò)需同時(shí)輸出多張連續(xù)人臉特征,因此模型每次應(yīng)輸入n張人臉圖像,每張人臉圖像能夠共享CNN 網(wǎng)絡(luò)權(quán)重并進(jìn)行特征提取。由于實(shí)驗(yàn)室條件有限,為了避免內(nèi)存溢出問題,最終n值設(shè)置為10,一次傳入10 張連續(xù)人臉圖像。為了增加相鄰幀的特征共享,因此在實(shí)驗(yàn)過程中同一個(gè)視頻中的相鄰子視頻段存在5 幀的重合。
對(duì)于整體過程,首先以10 幀為一個(gè)單位依次傳入人臉圖像,帶預(yù)訓(xùn)練權(quán)重的VGG-16 網(wǎng)絡(luò)會(huì)初步提取人臉圖像中的深度特征,在VGG-16 網(wǎng)絡(luò)中間層會(huì)有一個(gè)旁支,該旁支的主要作用是淺層特征增強(qiáng),也即提取淺層特征,從而彌補(bǔ)網(wǎng)絡(luò)過深所帶來的特征丟失問題。淺層特征增強(qiáng)出來的特征通道數(shù)為1 024,為了方便融合,在VGG-16 網(wǎng)絡(luò)上做了優(yōu)化,構(gòu)造了兩層卷積層:第一層卷積層卷積核為3×3,同時(shí)融入d=2的空洞卷積,該空洞卷積所起的作用是擴(kuò)大感受野,同時(shí)促進(jìn)強(qiáng)弱信息的結(jié)合;第二層卷積核為3×3,將輸出通道擴(kuò)充至1 024 維。該卷積層出來的特征會(huì)送入SENet 網(wǎng)絡(luò)中,該網(wǎng)絡(luò)以特征通道為切入點(diǎn),顯式建立它們之間的關(guān)聯(lián)性,從而將對(duì)表情識(shí)別結(jié)果重要的特征通道凸顯出來,而將對(duì)表情識(shí)別結(jié)果不重要的特征通道抑制起來,輸出1 024 維帶有權(quán)重的特征通道。最后將該輸出特征通道與特征增強(qiáng)模塊輸出的1 024 維特征通道融合,從而達(dá)到淺層特征與深層特征的有效融合。
Fig.6 Deep feature enhancement圖6 深層特征增強(qiáng)
面部表情自20 世紀(jì)便受到研究者的關(guān)注,Ekman 等[22]結(jié)合前人經(jīng)驗(yàn)對(duì)人臉表情識(shí)別進(jìn)行開拓性的創(chuàng)新,將人類表情共分為6 類。之后他們又進(jìn)行了分類完善,提出基于面部運(yùn)動(dòng)單元(44 個(gè)運(yùn)動(dòng)單元)的面部表情編碼系統(tǒng)(Facial Action Coding System,F(xiàn)ACS)[23]。
2.1.1 AFEW 數(shù)據(jù)集
數(shù)據(jù)集AFEW 為動(dòng)態(tài)視頻數(shù)據(jù)集,同時(shí)作為競賽級(jí)數(shù)據(jù)集,相比于實(shí)驗(yàn)室錄制的數(shù)據(jù)集,其增加了一些干擾因素,其中干擾因素主要包括遮擋、像素點(diǎn)過低、背景變化等,因?yàn)檫@些干擾因素的存在,其更具現(xiàn)實(shí)性。同時(shí),該數(shù)據(jù)集已經(jīng)將視頻一幀一幀切割形成一張張圖片,每個(gè)圖片都有一個(gè)標(biāo)簽。其標(biāo)簽如圖7 所示,由于某些表情不具有分辨性,因此特地加入中性標(biāo)簽。與此同時(shí),作為競賽級(jí)數(shù)據(jù)集,其測試集并不對(duì)大眾開放,因此在實(shí)驗(yàn)中將驗(yàn)證集當(dāng)作測試集使用。
Fig.7 7 kinds of emotion in AFEW dataset圖7 AFEW 數(shù)據(jù)集的7 種情緒
2.1.2 CK+數(shù)據(jù)集
CK+數(shù)據(jù)集是表情識(shí)別常用的數(shù)據(jù)集之一,其為動(dòng)態(tài)視頻數(shù)據(jù)集,它通過對(duì)視頻進(jìn)行截幀操作形成圖片數(shù)據(jù)集,因此該數(shù)據(jù)集也是動(dòng)態(tài)視頻數(shù)據(jù)集,同時(shí)每個(gè)圖片皆有標(biāo)簽,但是該數(shù)據(jù)集沒有區(qū)分訓(xùn)練集、驗(yàn)證集和測試集,需要實(shí)驗(yàn)者自行劃分。
2.1.3 SFEW 數(shù)據(jù)集
SFEW 數(shù)據(jù)集由AFEW 數(shù)據(jù)集的靜態(tài)幀圖片組成,該數(shù)據(jù)集為靜態(tài)圖像數(shù)據(jù)集,其中分為3 個(gè)部分,分別為訓(xùn)練集、驗(yàn)證集、測試集,同時(shí)每張圖片都具有標(biāo)簽,標(biāo)簽總共分為7 種。但是由于是競賽級(jí)數(shù)據(jù)集,因此測試集不對(duì)外公開,在本實(shí)驗(yàn)中將驗(yàn)證集作為測試集。
2.1.4 FER2013 數(shù)據(jù)集
FER2013 數(shù)據(jù)集是由大量無關(guān)人臉圖片組成的靜態(tài)圖像數(shù)據(jù)集,按照一定比例分為訓(xùn)練集、測試集、驗(yàn)證集,每個(gè)圖片都具有標(biāo)簽,標(biāo)簽總共為7 類。該數(shù)據(jù)集為靜態(tài)圖像數(shù)據(jù)集。
本文主要為了測試網(wǎng)絡(luò)框架的優(yōu)越性,因此對(duì)于數(shù)據(jù)集并不采用任何處理,用官方給出的圖片進(jìn)行輸入。同時(shí)在本文中,最具難度系數(shù)的是AFEW 數(shù)據(jù)集,該數(shù)據(jù)集來自于無約束條件現(xiàn)實(shí)場景,因此有一定的干擾因素,如遮擋、光照、背景多變等,這些干擾因素的存在給表情識(shí)別帶來了一定的挑戰(zhàn)性。不僅如此,由于測試集不對(duì)外公開,因此只能將驗(yàn)證集作為測試集,從而導(dǎo)致樣本數(shù)量不足,因此這也是一種挑戰(zhàn)。具體如圖8 所示。
Fig.8 AFEW complexity圖8 AFEW 復(fù)雜性
2.2.1 評(píng)分標(biāo)準(zhǔn)
F1評(píng)分是一種常見的用來評(píng)判網(wǎng)絡(luò)好壞的標(biāo)準(zhǔn),經(jīng)常用作競賽排名。它是通過準(zhǔn)確率(precision)和召回率(recall)的數(shù)學(xué)組合而形成的數(shù)學(xué)表達(dá)式,介于0 到1 之間。
其中,TP(True Positive)為正確預(yù)測的數(shù)目,F(xiàn)P(False Positive)為將其他預(yù)測產(chǎn)生錯(cuò)誤的類預(yù)測為本類的數(shù)目,F(xiàn)N(False Negative)為本應(yīng)預(yù)測正確但錯(cuò)誤的本類數(shù)目,TN(True Negative)為將其他類預(yù)測為正確的數(shù)目。
準(zhǔn)確率(Accuray):通常也作為網(wǎng)絡(luò)好壞的評(píng)判標(biāo)準(zhǔn)。
2.2.2 結(jié)果比較
實(shí)驗(yàn)中,VGG-16 采用預(yù)訓(xùn)練權(quán)重,加載VGG-16-FACE 模型權(quán)重,VGG-16 中間層引出旁支用以提取淺層特征,特征通道數(shù)為1 024。為了方便淺層特征與深層特征融合,在VGG-16 后延伸兩層卷積層,同時(shí)在延伸的第一層卷積層融入擴(kuò)張率為2的空洞卷積,該擴(kuò)張率的選擇以及空洞卷積應(yīng)用的位置是經(jīng)過實(shí)驗(yàn)而得出。為了凸顯對(duì)預(yù)測起重要作用的特征通道,將其送入SENet 網(wǎng)絡(luò),該網(wǎng)絡(luò)是為了凸顯有用特征通道,抑制無用通道。其后淺層特征與深層特征融合為2 048 維并送入至幀間注意力機(jī)制,從而實(shí)現(xiàn)表情預(yù)測。考慮到樣本之間的相關(guān)性,每10 幀作為一個(gè)單位,也即n設(shè)置為10,同時(shí)下一個(gè)輸入的前5 幀為前一個(gè)輸入的后5 幀。本網(wǎng)絡(luò)所使用的優(yōu)化算法為隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD),動(dòng)量(Momentum)參數(shù)值設(shè)置為0.9。對(duì)于CNN 部分,采用預(yù)訓(xùn)練模型,其中初始學(xué)習(xí)率(Learning rate)為1e-4,并且在訓(xùn)練過程中一直迭代下降。對(duì)于輸入,采用數(shù)據(jù)集自帶的圖片集,其中每張圖片為224×224 像素。網(wǎng)絡(luò)訓(xùn)練完畢,將測試集送入模型中,最后得出測試結(jié)果(見表1—表7)。
Table1 Test result comparison of AFEW dataset表1 AFEW 數(shù)據(jù)集測試結(jié)果比較
Table 2 Prediction result comparison of AFEW dataset(single frame enhanced convolutional network)表2 AFEW 數(shù)據(jù)集(單幀增強(qiáng)卷積網(wǎng)絡(luò))預(yù)測結(jié)果比較
Table 3 Prediction result comparison of AFEW dataset(multi-frame enhanced convolutional network)表3 AFEW 數(shù)據(jù)集(多幀增強(qiáng)卷積網(wǎng)絡(luò))預(yù)測結(jié)果比較
Table 4 Prediction result comparison of AFEW dataset(single frame+multi-frame enhanced convolutional network)表4 AFEW 數(shù)據(jù)集(單幀+多幀增強(qiáng)卷積網(wǎng)絡(luò))預(yù)測結(jié)果比較
Table 5 Prediction result comparison of CK+dataset表5 CK+數(shù)據(jù)集測試結(jié)果比較
Table 6 Test result comparison of SFEW dataset表6 SFEW 數(shù)據(jù)集測試結(jié)果比較
2.2.3 結(jié)果分析
實(shí)驗(yàn)中所采用的數(shù)據(jù)集分為靜態(tài)圖像數(shù)據(jù)集和動(dòng)態(tài)視頻數(shù)據(jù)集。在靜態(tài)圖像數(shù)據(jù)集中,由于圖像與圖像之間沒有相關(guān)性,因此不存在相鄰幀上的信息關(guān)聯(lián),故主要在原有網(wǎng)絡(luò)結(jié)構(gòu)上提出了單幀特征增強(qiáng)模塊。其中,單幀特征增強(qiáng)模塊又分為3 個(gè)點(diǎn)的應(yīng)用,分別為淺層特征增強(qiáng)、空洞卷積應(yīng)用以及通道間注意力機(jī)制。首先是淺層特征增強(qiáng),在VGG-16 中間層增加外延支路并進(jìn)行淺層特征保護(hù),避免卷積操作帶來的特征丟失;其次,在CNN 部分pooling層采用空洞卷積進(jìn)行替代,避免了pooling 操作帶來的無差別一半信息丟失問題,同時(shí)空洞卷積選擇性丟失作用相當(dāng)?shù)南袼攸c(diǎn)以提高識(shí)別率;最后是注意力機(jī)制引入,在通道間采用注意力機(jī)制,給每個(gè)通道賦予不同的權(quán)重,突出重要通道,抑制不重要通道,即所提出的通道間注意力機(jī)制,這對(duì)于最終表情識(shí)別起到了一定作用。
Table 7 Test result comparison of FER2013 dataset表7 FER2013 數(shù)據(jù)集測試結(jié)果比較
在動(dòng)態(tài)視頻數(shù)據(jù)集中,首先在預(yù)處理部分將視頻一幀一幀截取,形成具有相關(guān)性的視頻幀,為了增加相鄰幀的信息相關(guān)性,因此在單幀特征增強(qiáng)的基礎(chǔ)上增加了多幀特征增強(qiáng)的應(yīng)用,也即將相鄰多幀關(guān)聯(lián)起來。在這部分,還是采用注意力機(jī)制,將注意力機(jī)制應(yīng)用到幀間,即幀間注意力機(jī)制,將對(duì)表情識(shí)別起關(guān)鍵作用的幀凸顯,將對(duì)表情識(shí)別不起作用或者作用不大的幀進(jìn)行抑制,基本操作類似通道間注意力機(jī)制。
本文提出一種增強(qiáng)卷積網(wǎng)絡(luò)模型,從單幀和多幀兩個(gè)角度進(jìn)行特征增強(qiáng),將VGG、空洞卷積、通道間注意力機(jī)制和幀間注意力機(jī)制進(jìn)行有效融合,并在AFEW 數(shù)據(jù)集、CK+數(shù)據(jù)集、SFEW 數(shù)據(jù)集和FER2013 數(shù)據(jù)集進(jìn)行表情識(shí)別,比較其在測試集上的F1 分?jǐn)?shù)和準(zhǔn)確率,證明了該網(wǎng)絡(luò)模型對(duì)于表情識(shí)別的優(yōu)越性。由于AFEW 數(shù)據(jù)集來源于電影片段剪輯,存在諸多干擾因素,因此接下來將會(huì)在預(yù)處理部分繼續(xù)優(yōu)化模型,從而進(jìn)一步提高模型實(shí)用性。