





摘 要:面部的局部細(xì)節(jié)信息在面部表情識別中扮演重要角色,然而現(xiàn)有的方法大多只關(guān)注面部表情的高層語義信息而忽略了局部面部區(qū)域的細(xì)粒度信息。針對這一問題,提出一種融合局部特征與兩階段注意力權(quán)重學(xué)習(xí)的深度卷積神經(jīng)網(wǎng)絡(luò)FLF-TAWL(deep convolutional neural network fusing local feature and two-stage attention weight learning),它能自適應(yīng)地捕捉重要的面部區(qū)域從而提升面部表情識別的有效性。該FLF-TAWL由雙分支框架構(gòu)成,一個分支從圖像塊中提取局部特征,另一個分支從整個表情圖像中提取全局特征。首先提出了兩階段注意力權(quán)重學(xué)習(xí)策略,第一階段粗略學(xué)習(xí)全局和局部特征的重要性權(quán)重,第二階段進(jìn)一步細(xì)化注意力權(quán)重,并將局部和全局特征進(jìn)行融合;其次,采用一種區(qū)域偏向損失函數(shù)鼓勵最重要的區(qū)域以獲得較高的注意力權(quán)重。在FERPlus、Cohn-Kanada(CK+)以及JAFFE三個數(shù)據(jù)集上進(jìn)行了廣泛實驗,分別獲得90.92%、98.90%、97.39%的準(zhǔn)確率,實驗結(jié)果驗證了FLF-TAWL模型的有效性和可行性。
關(guān)鍵詞:面部表情識別;深度卷積神經(jīng)網(wǎng)絡(luò);局部特征融合;兩階段注意力權(quán)重學(xué)習(xí);區(qū)域偏向損失
中圖分類號:TP391.41 文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2022)03-043-0889-06
doi:10.19734/j.issn.1001-3695.2021.07.0287
基金項目:國家自然科學(xué)基金資助項目(61563069,61462034);江西省教育廳科學(xué)技術(shù)研究項目(GJJ170517,GJJ190468);江西理工大學(xué)研究生創(chuàng)新專項資金資助項目(ZS2020-S049)
作者簡介:鄭劍(1977-),男,湖北武漢人,副教授,博士,主要研究方向為計算機(jī)視覺、大數(shù)據(jù)隱私保護(hù);鄭熾(1996-),男,湖北黃岡人,碩士研究生,主要研究方向為計算機(jī)視覺、圖像處理;劉豪(1998-),男,江西九江人,碩士研究生,主要研究方向為深度學(xué)習(xí)、圖像處理;于祥春(1989-),男(通信作者),山東泰安人,講師,博士,主要研究方向為計算機(jī)視覺、深度學(xué)習(xí)(yuxc@jxust.edu.cn).
Deep convolutional neural network fusing local feature and two-stage attention weight learning for facial expression recognition
Zheng Jian,Zheng Chi,Liu Hao,Yu Xiangchun?
(School of Information Engineering,Jiangxi University of Science amp; Technology,Ganzhou Jiangxi 341000,China)
Abstract:Facial local detail information plays an important role in facial expression recognition(FER).However,most of the existing methods only focus on the high-level semantic information of facial expressions,while ignoring the fine-grained information of local facial regions.To solve this problem,this paper proposed a deep convolutional neural network fusing local feature and two-stage attention weight learning(FLF-TAWL),which could adaptively capture important facial regions to improve the effectiveness of facial expression recognition.The FLF-TAWL model was composed of a dual-branch framework,one branch extracted local features from image blocks,and the other branch extracted global features from the entire expression image.Firstly,this paper proposed a two-stage attention weight learning strategy.In the first stage,it roughly learned the importance weights of global and local features,in the second stage,it further refined the attention weight,and fused the local and global features.Secondly,the model used a region-biased loss function to encourage the most important regions to obtain higher attention weights.Finally,this paper carried out extensive experiments on FERPlus,Cohn-Kanada(CK+) and JAFFE datasets to obtain accuracy rates of 90.92%,98.90% and 97.39% respectively.The experimental results verify the effectiveness and feasibility of the FLF-TAWL model.
Key words:facial expression recognition;deep convolutional neural network(DCNN);fusing local feature;two-stage attention weight learning;region-biased loss function
0 引言
面部表情識別(facial expression recognition,F(xiàn)ER)可輔助計算機(jī)理解人類行為從而完成有效的人機(jī)交互,其應(yīng)用極其廣泛,如智能教學(xué)系統(tǒng)、服務(wù)機(jī)器人、智能人機(jī)交互以及駕駛員疲勞監(jiān)控等。近年來,基于深度學(xué)習(xí)的面部表情識別研究已成為國內(nèi)外學(xué)術(shù)研究的熱點。
一般來說,面部表情可以分為七種基本表情,包括憤怒、厭惡、恐懼、快樂、悲傷、驚訝以及自然表情[1],表情識別的任務(wù)就是對這七類基本表情進(jìn)行分類。面部表情識別不同于其他圖像識別,需要對面部特征進(jìn)行精細(xì)的刻畫才能更加精確地完成識別任務(wù)。近年來,深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)在計算機(jī)視覺領(lǐng)域取得了巨大的成功,DCNN能夠自動從原始數(shù)據(jù)中提取有效特征,具有自適應(yīng)學(xué)習(xí)特征表達(dá)的能力,相比手工特征具有更好的高層語義表達(dá)和本質(zhì)映射能力。許多研究利用DCNN來改善FER的性能。最早,Tang[2]和Kahou等人[3]設(shè)計了更深的DCNN用于面部特征提取,分別贏得了FER2013和EMotiw2013表情識別挑戰(zhàn)賽的冠軍。Ding等人[4]提出了一種聯(lián)合訓(xùn)練FER任務(wù)和人臉識別任務(wù)的FaceNet2ExpNet架構(gòu)。Albanie等人[5]利用VGGFace 2.0上預(yù)訓(xùn)SeNet50進(jìn)行遷移學(xué)習(xí),并使用softmax分類函數(shù)在FERPlus數(shù)據(jù)集上進(jìn)行微調(diào)。同時,心理學(xué)研究表明[6],人類可以有效地利用局部區(qū)域和整體區(qū)域來感知不完整的面部所傳遞的語義信息。Majumder等人[7]研究發(fā)現(xiàn)面部表情變化通常與一些特定的面部區(qū)域,如嘴巴、眼睛以及鼻子等存在密切關(guān)聯(lián),這意味著局部面部區(qū)域特征對面部表情識別至關(guān)重要。姚麗莎等人[8]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)局部特征融合的面部表情識別方法,通過構(gòu)建的DCNN模型提取眼睛、眉毛以及嘴巴三個局部區(qū)域特征,然后采用SVM多分類器進(jìn)行決策級加權(quán)融合,取得了較好的識別結(jié)果。Wang等人[9]設(shè)計了一種基于局部區(qū)域的注意力網(wǎng)絡(luò),用來解決FER問題中姿勢和遮擋的干擾問題。Xie等人[10]提出雙分支的DCNN將面部全局特征和局部特征簡單地融合在一起,豐富了面部表情特征,但是不能自動抑制不相關(guān)的局部區(qū)域,在一定程度上限制了該方法的性能。Li等人[11]提出了一種抗面部遮擋的表情識別方法,利用注意力機(jī)制使網(wǎng)絡(luò)關(guān)注未遮擋的部分從而提高識別效果,但是該方法所獲得的關(guān)鍵注意力權(quán)重還不夠精細(xì)。最近,Ben等人[12]不僅對微表情識別進(jìn)行了全面的綜述,還對宏觀表情識別的基本技術(shù)、最新進(jìn)展和主要挑戰(zhàn)進(jìn)行了系統(tǒng)的闡述和討論。
綜上所述,在心理學(xué)研究以及上述工作基礎(chǔ)上,本文對基于DCNN的FER方法進(jìn)行相應(yīng)改進(jìn),提出了融合局部特征與兩階段注意力權(quán)重學(xué)習(xí)的深度卷積神經(jīng)網(wǎng)絡(luò)模型FLF-TAWL。該模型更加關(guān)注局部特征的重要性,能夠提取更加精細(xì)的面部局部細(xì)節(jié)信息,更全面地表征表情信息。本文的主要工作如下:a)設(shè)計了一個包含兩分支的特征網(wǎng)絡(luò)融合框架,即全局面部特征提取模塊和局部特征提取模塊,該融合框架同時融合面部表情全局特征和局部子塊特征,實現(xiàn)兩個尺度信息的相互補充,更全面地表示表情圖像;b)提出了一種兩階段注意力權(quán)重計算策略,在第一階段通過自注意力權(quán)重模塊粗略計算局部子塊的注意力權(quán)重,在第二階段通過關(guān)系注意力模塊對拼接后的特征進(jìn)一步細(xì)化注意力權(quán)重,完成注意力權(quán)重由粗到細(xì)的計算,自動感知具有判別性的局部圖像子塊和抑制非重要的局部圖像子塊;c)有機(jī)整合對數(shù)加權(quán)交叉熵?fù)p失(WCE-loss)和面部局部圖像子塊區(qū)域排名正則化損失(RR-loss),目的是完成目標(biāo)任務(wù)的聯(lián)合優(yōu)化,從而使得本文模型能夠獲得更優(yōu)的注意力權(quán)重參數(shù)和更具判別性的識別效果。
1 相關(guān)理論
1.1 特征融合網(wǎng)絡(luò)
許多研究工作通過設(shè)計相應(yīng)的深度卷積網(wǎng)絡(luò)來完成不同類型特征的融合,這通常比使用單一類型特征的網(wǎng)絡(luò)能獲得更好的識別效果。例如,Majumder等人[7]從表情圖像中提取LBP特征和面部幾何特征,這兩種類型特征最終通過兩層自動編碼器進(jìn)行融合,獲得了可觀的效果;彭玉青等人[13]提出將一種將卷積神經(jīng)網(wǎng)絡(luò)與DenseSIFT特征進(jìn)行融合的混合模型,從輸入信息中提取出了更為細(xì)微的特征,從而有效地提升了表情識別率;Sun等人[14]提出了一種多通道深度時空特征融合神經(jīng)網(wǎng)絡(luò)(MDSTFN)來執(zhí)行靜態(tài)圖像的深度時空特征提取和融合,該網(wǎng)絡(luò)同時捕獲了時空特征從而取得了滿意的效果。然而值得注意的是,現(xiàn)有的基于深度學(xué)習(xí)的方法大多只關(guān)注面部表情的高層語義信息而忽略了局部面部區(qū)域的細(xì)粒度信息,與已有的工作不同,本文提出了一種可以同時有效融合全局和局部面部特征的方法,同時本文方法也致力于挖掘局部細(xì)節(jié)信息在表情識別中的重要性。
1.2 注意力網(wǎng)絡(luò)
注意力機(jī)制起初是在強化學(xué)習(xí)的基礎(chǔ)上發(fā)展而來。Mnih等人[15]使用帶有注意力機(jī)制的RNN模型進(jìn)行圖像分類,并成功地應(yīng)用到了機(jī)器翻譯任務(wù)。之后,越來越多的研究者針對不同的研究任務(wù)提出了不同的自注意力模型。Wang等人[16]提出了一種用于人臉檢測的注意力網(wǎng)絡(luò),其在多選框生成步驟中突出顯示面部區(qū)域。Yang等人[17]提出了一種神經(jīng)聚合網(wǎng)絡(luò)(neural aggregation network,NAN),NAN使用級聯(lián)注意力機(jī)制來融合視頻的面部特征或?qū)⑵湓O(shè)置為緊湊的視頻表示。在NAN模型的啟發(fā)下,本文將注意力機(jī)制引入所設(shè)計的模型中。
2 本文方法
2.1 FLF-TAWL網(wǎng)絡(luò)
本文所提FLF-TAWL模型如圖1所示,它通過兩個獨立分支有效地融合全局和局部面部的深層特征信息。全局面部特征提取分支從整幅面部圖像中提取整體特征。局部特征提取分支從帶重疊面部圖像裁剪子塊中提取局部特征,將局部面部區(qū)域按照第一階段注意力權(quán)重系數(shù)進(jìn)行加權(quán)聚合后得到局部聚合特征,接著在第二階段注意力權(quán)重計算將這兩個分支得到的輸出特征進(jìn)行聚合,目的是有效覆蓋面部表情圖像的全局和局部尺度,同時有效實現(xiàn)兩個尺度信息的相互補充。這兩個分支的有機(jī)融合不僅豐富了特征提取尺度,而且在一定程度上降低了FER識別中干擾因素的影響并提升了模型的表示能力,從而增強了模型的泛化能力。整幅面部圖像表示為I,面部圖像的副本表示為x0,均勻裁剪的帶重疊的局部區(qū)域依次為x1,…,xL,L為每幅面部圖像所裁剪的局部圖像子塊數(shù)。當(dāng)輸入圖像為I時,網(wǎng)絡(luò)的輸入數(shù)據(jù)集用X表示為
其中:x0,x1,…,xL是各部分圖像的矩陣表示。將X分別輸入兩分支的主干網(wǎng)絡(luò)進(jìn)行特征提取,分別得到全局特征和局部特征F,具體表示如下:
其中:v0h為全局面部特征CNN提取模塊所提取的全局特征;vkl為局部面部特征CNN提取模塊所提取的第k個局部特征,k=1,2,3,…,L;r(.;θ)表示特征提取網(wǎng)絡(luò)CNN,θ是特征提取網(wǎng)絡(luò)CNN中的參數(shù)。局部特征被輸入到自注意力權(quán)重模塊進(jìn)行第一階段注意力權(quán)重計算,全局特征和局部特征在關(guān)系注意力模塊進(jìn)行第二階段注意力權(quán)重計算,獲得最終的聚合特征后以全連接形式輸入到softmax的分類器中,softmax函數(shù)如式(3)所示,其中C為表情類別數(shù)。
2.2 兩階段注意力權(quán)重計算模式
不同的面部局部圖像子塊將在FER任務(wù)中扮演不同的角色。為了在網(wǎng)絡(luò)的訓(xùn)練中自動感知具有判別性的局部圖像子塊和抑制非重要的局部圖像子塊,本文設(shè)計了一種兩階段注意力權(quán)重計算模式:a)引入了自注意力權(quán)重加權(quán)模塊和排名正則化來對面部圖像子塊的貢獻(xiàn)度進(jìn)行排名,具有較高判別性的局部子塊被賦予較高的重要性權(quán)重,同時判別性較弱的局部子塊被賦予較低的重要性權(quán)重;b)在獲得粗略計算的局部子塊注意力權(quán)重后,該模式又引入關(guān)系注意力模塊對局部子塊特征以及全局面部特征分別與來自第一階段融合后的表征進(jìn)行關(guān)系建模以尋求細(xì)化的注意力權(quán)重。兩階段注意力權(quán)重計算模式的具體設(shè)計如圖2所示。
2.2.1 第一階段注意力權(quán)重計算
1) 自注意力權(quán)重模塊 由式(2)可知第k個局部特征向量為vkl,按通道融合得到的F∈?D×L,其中D為特征維度,L為局部圖像子塊數(shù)。自注意力權(quán)重加權(quán)模塊輸入為每幅圖像中所有局部子塊的特征,輸出為每個局部子塊的粗略注意力權(quán)重。具體地,自注意力權(quán)重加權(quán)模塊計算公式為
其中:Wa為自注意力權(quán)重加權(quán)模塊全連接FC層的權(quán)重,該權(quán)重與局部子塊特征vkl進(jìn)行向量相乘,通過sigmoid函數(shù)σ過濾后得到第k個局部子塊注意力權(quán)重αk。本模塊得到的粗略計算后的局部子塊注意力權(quán)重,將會用于后續(xù)第二階段注意力計算模塊,從而得到更加細(xì)化的注意力權(quán)重。
2)面部局部圖像子塊排名正則化 不同類別面部表情的形成由面部不同的子區(qū)域所影響[4]。為了深度挖掘不同面部局部子塊的重要性,本文采用面部局部圖像子塊區(qū)域排名正則化來提升具有判別性的局部圖像子塊的權(quán)重和抑制非重要的局部圖像子塊權(quán)重。如圖2所示,在排名正則化約束模塊中,首先對局部子塊特征按照自注意力權(quán)重模塊所得到的注意力權(quán)重αk∈[0,1]的大小進(jìn)行降序排列;然后要求局部子塊中最大注意力權(quán)重應(yīng)大于全局面部圖像的注意力權(quán)重,兩者之間的邊距閾值由超參數(shù)δ1來控制。本文使用下面的局部子塊排名正則化損失函數(shù)RR-loss來實現(xiàn)面部局部圖像子塊排名正則化約束,即
其中:δ1為邊距閾值超參數(shù);α0為原始圖像副本(即整體面部圖像)的注意力權(quán)重;αmax為局部子塊中注意力權(quán)重最大值。排名正則化損失函數(shù)所施加約束的目的是突出某些局部子塊特征(如嘴巴、眼睛以及鼻子等),同時抑制非重要局部子塊特征(如額頭等)。排名正則化約束策略可以讓模型深度挖掘判別性更強的面部局部表情特征。在自注意力權(quán)重模塊得到粗略計算的αk后,本文將所有局部特征vkl及其注意力權(quán)重進(jìn)行有機(jī)整合從而得到第一階段的聚合特征Fm。
其中:Fk為局部特征;Fm為第一階段所得到的自注意力權(quán)重集合的特征。
2.2.2 第二階段注意力權(quán)重計算
第一階段獲得的注意力權(quán)重在一定程度上是粗糙的,例如所得到的針對于每一個局部子塊的注意力權(quán)重并不具備感知剩余其他局部子塊的信息,從而缺乏全局判別能力。本文提出通過第二階段的關(guān)系注意力策略來進(jìn)一步細(xì)化逐個局部子塊的注意力權(quán)重。具體來講,首先將第一階段所獲得的自注意權(quán)重聚合特征Fm分別與每個局部子塊特征vkl以及全局特征v0h進(jìn)行拼接;然后通過全連接層來分別自動學(xué)習(xí)各個局部子塊特征vkl以及全局特征v0h與該自注意權(quán)重聚合特征Fm之間的關(guān)系;最后繼續(xù)按照式(4)所描述的方式得到進(jìn)一步細(xì)化的注意力權(quán)重。第二階段的關(guān)系注意力模塊中第k個區(qū)域的細(xì)化注意權(quán)重表示為
其中:Wβ是關(guān)系注意力模塊全連接FC層的權(quán)重,該權(quán)重與局部子塊特征Fk和Fm的拼接特征進(jìn)行向量點乘,通過sigmoid函數(shù)σ過濾后得到第k個細(xì)化的局部子塊注意力權(quán)重βk。最后將兩階段注意力權(quán)重計算進(jìn)行整合,得到最終的聚合特征為
其中:Fm為第一階段的聚合特征,具體如式(6)所示;對于Fk,當(dāng)k=0時,F(xiàn)0為v0h;當(dāng)kgt;0時,F(xiàn)k為vkl。PFLF-TAWL將作為FLF-TAWL網(wǎng)絡(luò)最終的特征表征。
2.2.3 WCE-loss與RR-loss聯(lián)合優(yōu)化
通過上述設(shè)計的兩階段注意力權(quán)重計算模塊得到了最終的聚合特征PFLF-TAWL,注意力權(quán)重在上述特征提取過程中扮演了重要角色,受文獻(xiàn)[15,18]的啟發(fā),本文將所得到的注意力權(quán)重用于損失加權(quán),目的是從目標(biāo)損失函數(shù)角度引導(dǎo)注意力權(quán)重參數(shù)的學(xué)習(xí),從而進(jìn)一步完成具有判別性局部子塊特征的提升和非重要局部子塊特征的抑制。本文設(shè)計了對數(shù)加權(quán)交叉熵?fù)p失(WCE-loss)來完成目標(biāo)優(yōu)化任務(wù),具體表示為
2.3 裁剪方式
將面部圖像裁剪出多個局部子塊是FLF-TAWL中的一個基本任務(wù)。裁剪區(qū)域過大將導(dǎo)致特征的多樣性降低,裁剪區(qū)域過小將導(dǎo)致區(qū)域特征的區(qū)分能力不足。本文重點研究三種形式的局部子塊裁剪方案,即固定位置裁剪、隨機(jī)裁剪以及基于關(guān)鍵點位置裁剪,如圖3所示。
a)固定位置剪裁。以固定的比例在固定的位置進(jìn)行局部子塊裁剪。具體地,使用該方法裁剪五個區(qū)域,其中三個是左上、右上和中下的面部區(qū)域,其大小固定為原始人臉的0.75比例;另外兩個區(qū)域類似于微笑分類任務(wù)中使用的區(qū)域,裁剪原始面部圖像大小為0.9和0.85比例的中心區(qū)域[19]。
b)隨機(jī)剪裁。在基于深度學(xué)習(xí)面部識別任務(wù)中,DeepID[20]在每幅面部表情圖像進(jìn)行200次隨機(jī)裁剪,得到更多的局部子塊來提高其性能。本文在隨機(jī)裁剪過程中隨機(jī)裁剪N個區(qū)域,其中隨機(jī)區(qū)域的尺寸比例為原始人臉的0.7~0.95不等。
c)基于關(guān)鍵點位置剪裁。給定面部表情關(guān)鍵點,在關(guān)鍵點周圍的區(qū)域進(jìn)行裁剪。本文使用MTCNN [21]來檢測五個典型的面部標(biāo)志點(即左眼、右眼、鼻子、左嘴角和右嘴角),并根據(jù)這些標(biāo)志點為中心點得到半徑為r的裁剪區(qū)域。最后將所有裁剪下來的局部子塊進(jìn)行縮放至64×64的統(tǒng)一大小。
3 實驗驗證與結(jié)果分析
為了驗證本文提出的FLF-TAWL模型的有效性,在三個公開的面部表情數(shù)據(jù)集上進(jìn)行了大量的實驗,分別是FERPlus、CK+以及JAFFE數(shù)據(jù)集,這三個數(shù)據(jù)集的部分樣本示例如圖4所示。本實驗是在Ubuntu 18.04.5 LTS環(huán)境下,基于TensorFlow實現(xiàn)完成的。實驗硬件平臺為Intel CoreTMi5-6500 CPU,主頻為3.2 GHz,內(nèi)存為8 GB,同時借助顯存12 GB的NVIDIA GeForce RTX 2080Ti GPU進(jìn)行加速處理。
3.1 數(shù)據(jù)集與數(shù)據(jù)預(yù)處理
FERPlus、CK+以及JAFFE數(shù)據(jù)集在面部表情識別領(lǐng)域應(yīng)用廣泛,許多面部表情識別方法均在該數(shù)據(jù)集上進(jìn)行驗證。FERPlus和CK+都包含八種基本表情,即自然、開心、驚訝、悲傷、生氣、厭惡、恐懼以及輕蔑。FERPlus數(shù)據(jù)集由ICML2013挑戰(zhàn)賽中的FER2013數(shù)據(jù)集擴(kuò)展而來,該數(shù)據(jù)集是通過谷歌搜索引擎從互聯(lián)網(wǎng)上收集的大規(guī)模數(shù)據(jù)集,由28 709張訓(xùn)練圖像、3 589張驗證圖像以及3589張測試圖像組成。相比于FER2013,擴(kuò)展后的FERPlus數(shù)據(jù)集的標(biāo)簽精度更高,在圖4中第1行顯示了該數(shù)據(jù)集的一些樣本。CK+數(shù)據(jù)集是一個動態(tài)表情數(shù)據(jù)集,它包含來自123個人共593例的動態(tài)表情圖像序列,每一個序列都包含表情從平靜到表情峰值的所有幀,但是僅有327個圖像序列帶表情標(biāo)簽。圖4中第2行顯示了CK+數(shù)據(jù)集的部分樣本示例,本文選取了327個共有八種基本表情類別的序列進(jìn)行實驗,對每個序列收集最后3幀峰值的表情幀作為表情圖像。JAFFE數(shù)據(jù)集是最常用的靜態(tài)圖像數(shù)據(jù)集,它包含10名日本女性共213張大小為256×256的面部正面靜態(tài)圖像,每人都有除輕蔑類別之外的七種基本表情,其中每種表情有2~4幅圖像,該數(shù)據(jù)集標(biāo)簽比較標(biāo)準(zhǔn),圖4第3行顯示了JAFFE數(shù)據(jù)集的部分樣本示例。
在訓(xùn)練模型前先對數(shù)據(jù)進(jìn)行預(yù)處理。在實驗中針對FERPlus和CK+數(shù)據(jù)集中樣本數(shù)據(jù)的不平衡問題,采用數(shù)據(jù)增強來提高樣本數(shù)量的均衡分布,從而盡可能避免因樣本數(shù)量不均衡所造成的面部表情識別率下降的影響。例如執(zhí)行圖像水平翻轉(zhuǎn),每個圖像順時針和逆時針旋轉(zhuǎn)5°,此外還可以通過隨機(jī)添加具有零均值和0.01方差的高斯噪聲等方式獲得更多的樣本。針對人臉表情識別易受人臉光照和姿態(tài)的影響,采用如圖5所示的MTCNN人臉檢測器[23]檢測所有選定面部圖像中的人臉并進(jìn)行面部對齊,對齊之后再通過直方圖均衡化將圖像的直方圖分布變成近似均勻分布以增加圖像對比度、增強圖像細(xì)節(jié)。因此,經(jīng)過數(shù)據(jù)預(yù)處理后的實驗樣本集得到了很大的擴(kuò)展和豐富。表1顯示了經(jīng)過數(shù)據(jù)預(yù)處理后實驗中選取樣本的數(shù)量分布情況。
3.2 實驗設(shè)置與實現(xiàn)細(xì)節(jié)
本文利用遷移學(xué)習(xí)思想,分別選擇VGG16以及ResNet50作為主干網(wǎng)絡(luò),其中VGG16和ResNet50分別在VGG-Face 2.0、MSCeleb-1M人臉識別數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。
為了與五點關(guān)鍵點裁剪出的局部圖像數(shù)量相等,在固定裁剪的訓(xùn)練階段,本文使用所有五個區(qū)域以及每個原始人臉圖像的副本(即圖2中的L=5)作為網(wǎng)絡(luò)輸入;對于隨機(jī)裁剪的訓(xùn)練,本文采用隨機(jī)裁剪的區(qū)域替換固定裁剪的五個區(qū)域。當(dāng)使用RB-loss和WCE-loss進(jìn)行聯(lián)合訓(xùn)練時,默認(rèn)的權(quán)重比為1:1,它們之間的占比對表情識別的影響將在隨后的消融實驗中進(jìn)行研究。在所有數(shù)據(jù)集上,學(xué)習(xí)率初始化為0.01,每隔15個epoch學(xué)習(xí)率減少10倍,epoch=100,RR-loss中的超參數(shù)δ1默認(rèn)設(shè)置為0.02。為了評估該方法的性能,所有實驗均采用10折交叉驗證(即圖像被隨機(jī)分成10個等大小的子集,9個子集用于訓(xùn)練,剩余的1個子集用于測試)。最后的結(jié)果通過平均識別精度得出。
3.3 實驗結(jié)果分析
為了進(jìn)一步驗證本文提出的FLF-TAWL模型的有效性,首先采用以ResNet50作為FLF-TAWL的主干網(wǎng)絡(luò),按照圖3中三種裁剪方式得到的局部和全局圖像數(shù)據(jù)作為網(wǎng)絡(luò)輸入,其中隨機(jī)裁剪中分別隨機(jī)9、30、60次,隨機(jī)取五個局部圖像輸入模型,分別得到三種裁剪方式的平均識別準(zhǔn)確率;另外本文復(fù)現(xiàn)了文獻(xiàn)[10]的DCMA-CNN算法作為對比方法;同時還將原始的人臉圖像作為輸入,對傳統(tǒng)方法VGG16+SVM進(jìn)行微調(diào)作為基線對比模型,實驗對比結(jié)果如表2~4所示,同時在三個數(shù)據(jù)集上的可視化結(jié)果如圖6所示。
通過表2~4及圖6可以看出,本文提出的方法取得了最優(yōu)結(jié)果。與傳統(tǒng)的基線模型比較,輸入單一特征的人臉表情圖像只能從整個表情圖像中提取特征,僅強調(diào)面部表情的完整性,從而忽略了局部細(xì)節(jié)信息,因此識別精度不高。與DCMA-CNN相比,本文的FLF-TAWL在三種裁剪方式上表現(xiàn)更穩(wěn)定,說明本文方法更易學(xué)習(xí)到局部面部區(qū)域的細(xì)粒度信息,從而充分利用編碼在表情圖像中的有效識別信息達(dá)到較優(yōu)的識別效果。另外,本文發(fā)現(xiàn)基于人臉關(guān)鍵點的裁剪方式產(chǎn)生的識別效果始終優(yōu)于隨機(jī)裁剪方式和固定裁剪方式,甚至使用多倍隨機(jī)裁剪策略的情況下,網(wǎng)絡(luò)模型也不會對識別精度提高很多。該實驗結(jié)果表明,人類面部表情的變化通常發(fā)生在面部的一些顯著區(qū)域,如嘴巴、嘴角、眼和鼻子周圍區(qū)域。更重要的是,本文的FLF-TAWL模型在固定位置裁剪和基于關(guān)鍵點位置剪裁的識別率差異小于DCMA-CNN模型,這表明了FLF-TAWL模型可以有效突出某些局部子塊特征(如嘴巴、眼睛以及鼻子等),同時抑制非重要局部子塊特征,從而提升表情識別任務(wù)的區(qū)分性,后續(xù)實驗最終選擇用人臉關(guān)鍵點裁剪方式的數(shù)據(jù)輸入FLF-TAWL。圖7中給出了本文FLF-TAWL模型在三個數(shù)據(jù)集下每個表情類別的混淆矩陣。
從圖7中可以看出,本文方法在中性、開心、生氣、悲傷這四類表情上識別率最高,其中在JAFFE和CK+數(shù)據(jù)集上中性的表情識別率達(dá)到100%,主要原因是JAFFE和CK+數(shù)據(jù)集中表情數(shù)據(jù)較為規(guī)范標(biāo)準(zhǔn),中性類別的表情數(shù)量也最豐富。同樣的方法在JAFFE和CK+數(shù)據(jù)集上的表現(xiàn)要優(yōu)于FERPlus數(shù)據(jù)集,造成這種結(jié)果的原因是FERPlus數(shù)據(jù)集是一個從互聯(lián)網(wǎng)上收集的大規(guī)模數(shù)據(jù)集,它更加符合大規(guī)模真實世界環(huán)境下的表情數(shù)據(jù)集,在光照、頭部姿態(tài)以及面部遮擋等方面具有多樣性,這也從側(cè)面說明本文方法對光照等外界因素具有魯棒性。
為了進(jìn)一步對FLF-TAWL中的三個模塊進(jìn)行評估,本文設(shè)計了一項消融實驗,研究WCE-loss、自我注意力模塊和關(guān)系注意力模塊在三個數(shù)據(jù)集上的性能影響,結(jié)果如表5所示。對應(yīng)表5中三個模塊有效性的評估結(jié)果,在圖8中展示了具體樣本案例的實驗結(jié)果。其中,最下方顯示圖片的原始標(biāo)簽;樣本上的識別標(biāo)簽中綠色代表識別正確,紅色代表識別錯誤(見電子版)。
表5中第一行為基礎(chǔ)模型,它使用傳統(tǒng)的softmax損失函數(shù)替換WCE-loss,并且去掉了所有注意力模塊,選取的具體樣本實驗結(jié)果對應(yīng)圖8中的第一行。
對于這種訓(xùn)練方案,在基礎(chǔ)模型上添加WCE-loss之后,在三個數(shù)據(jù)集上的識別精度都有所提升,這是因為該改進(jìn)后的WCE-loss能很好地調(diào)整人臉特征的最大類內(nèi)距離小于最小類間距離。通過圖8第二行樣本案例可以看出進(jìn)一步拉近了驚訝和開心類別之間的距離,這也是本文模型性能體現(xiàn)的原因之一。
當(dāng)再在表5第二行的基礎(chǔ)上增加自我注意力模塊,表情識別結(jié)果相比第二行的精度在三個數(shù)據(jù)集上精度提升為0.27%、0.24%、0.47%。圖8中第三行實驗結(jié)果可以看出自我注意力模塊能夠明顯提高識別性能,這種提升得益于自我注意力模塊中粗略的權(quán)重值以及權(quán)重正則化帶來的效果增益。在表5第四行加上關(guān)系注意力權(quán)重模塊后,從圖8中第四行實驗結(jié)果可以看到,讓原本眉毛內(nèi)側(cè)和上眼皮有著相似動作的驚訝和恐懼表情也能夠正確區(qū)分開,使模型整體識別精度進(jìn)一步提高,由此看出注意力機(jī)制對于分類準(zhǔn)確率的提升有突出貢獻(xiàn),同時也證明了三個模塊的有效性。
在同一數(shù)據(jù)集上將本文模型與其他的識別效果對比,如表6~8所示,可以看出,本文提出的FLF-TAWL模型在識別準(zhǔn)確率上具有優(yōu)勢。基于深度學(xué)習(xí)的方法(如Rest18+VGG16、Em-AlexNet和C-LetNet5)采用單分支結(jié)構(gòu)來提取圖像特征,而本文方法通過增加一個分支來提取特征,從而更全面地表示表情。結(jié)果表明,局部特征提取的分支確實有利于表情分類。在JAFFE數(shù)據(jù)集上的實驗涉及到旋轉(zhuǎn)和噪聲等變化的圖像,但對比方法中大多是采用手工特征的方法,從實驗結(jié)果來看FLF-TAWL仍然可以正確地對大多數(shù)表達(dá)式進(jìn)行分類,這說明了本文方法對表情圖像的微小變化具有一定的魯棒性。
另外對本文方法中的主干網(wǎng)絡(luò)采用除ResNet50之外的另一個經(jīng)典神經(jīng)網(wǎng)絡(luò)VGG16結(jié)構(gòu)進(jìn)行表情識別性能的對比驗證。結(jié)果表明,本文方法中使用網(wǎng)絡(luò)層數(shù)更深的ResNet50作為主干網(wǎng)絡(luò)提取特征能力加強,從而使得識別率有所提升。
實驗最后,本文在圖9中評估了分類損失WCE-loss與自注意力模塊中的排序正則化損失RR-loss之間不同比率γ對表情分類結(jié)果的影響。由圖9可以發(fā)現(xiàn),對這兩個損失函數(shù)平均分配相等的權(quán)重可以獲得最佳分類結(jié)果。將RR-loss的權(quán)重從0.5增加到0.8,導(dǎo)致模型的識別性能顯著降低。
4 結(jié)束語
本文提出了一種新的面部表情識別網(wǎng)絡(luò)模型FLF-TAWL。首先,該模型由兩個獨立的CNN分支機(jī)構(gòu)組成,其中一個分支用于整幅面部表情圖像特征提取,另一個分支對裁剪后的面部表情圖像塊進(jìn)行局部特征提取。全局特征與局部特征的融合既豐富了面部表情特征又確保提取到的特征更具區(qū)分性。然后,在訓(xùn)練階段提出了一種兩階段注意力權(quán)重計算策略,通過該注意力權(quán)重策略使得模型自動感知具有判別性的局部圖像子塊和抑制非重要的局部圖像子塊;將WCE-loss和RR-loss聯(lián)合優(yōu)化,加快了模型迅速收斂。最后,在三個公開的面部表情數(shù)據(jù)集上的大量實驗驗證了FLF-TAWL模型在提高識別精度、泛化能力的同時,也提高了識別算法的魯棒性,在三個數(shù)據(jù)集上的分類結(jié)果優(yōu)于其他許多有競爭力的工作。雖然本文的FLF-TAWL模型表現(xiàn)出了較好的性能,但仍存在一些不足,例如,本文的面部表情識別是基于靜態(tài)圖像的,而現(xiàn)實生活中的情感變化是有一定時間的,靜態(tài)圖像只能反映一個人在某個時間的表情狀態(tài)。接下來的工作將研究動態(tài)人臉表情識別,致力于設(shè)計出更加精準(zhǔn)的用于動態(tài)面部表情識別的網(wǎng)絡(luò)模型。
參考文獻(xiàn):
[1]彭小江,喬宇.面部表情分析進(jìn)展和挑戰(zhàn)[J].中國圖象圖形學(xué)報,2020,25(11):2337-2348.(Peng Xiaojiang,Qiao Yu.Advances and challenges in facial expression analysis[J].Journal of Image and Graphics,2020,25(11):2337-2348).
[2]Tang Yichuan.Deep learning using linear support vector machines[EB/OL].(2015-02-21).https://arxiv.org/pdf/1306.0239.pdf.
[3]Kahou S E,Pal C,Bouthillier X,et al.Combining modality specific deep neural networks for emotion recognition in video[C]//Proc of the 15th ACM on International Conference on Multimodal Interaction.New York:ACM Press,2013:543-550.
[4]Ding Hui,Zhou S K,Chellappa R.FaceNet2ExpNet:regularizing a deep face recognition net for expression recognition[C]//Proc of the 12th IEEE International Conference on Automatic Face amp; Gesture Recognition.Piscataway,NJ:IEEE Press,2017:118-126.
[5]Albanie S,Nagrani A,Vedaldi A,et al.Emotion recognition in speech using cross-modal transfer in the wild[C]//Proc of the 26th ACM International Conference on Multimedia.New York:ACM Press,2018:292-301.
[6]Yovel G,Duchaine B.Specialized face perception mechanisms extract both part and spacing information:evidence from developmental prosopagnosia[J].Journal of Cognitive Neuroscience,2006,18(4):580-593.
[7]Majumder A,Behera L,Subramanian V K.Automatic facial expression recognition system using deep network-based data fusion[J].IEEE Trans on Cybernetics,2016,48(1):103-114.
[8]姚麗莎,徐國明,趙鳳.基于卷積神經(jīng)網(wǎng)絡(luò)局部特征融合的人臉表情識別[J].激光與光電子學(xué)進(jìn)展,2020,57(4):041513.(Yao Lisha,Xu Guoming,Zhao Feng.Facial expression recognition based on local feature fusion of convolutional neural network[J].Laser amp; Optoelectronics Progress,2020,57(4):041513.)
[9]Wang Kai,Peng Xiaojiang,Yang Jianfei,et al.Suppressing uncertainties for large-scale facial expression recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2020:6897-6906.
[10]Xie Siyue,Hu Haifeng.Facial expression recognition using hierarchical features with deep comprehensive multipatches aggregation convolutional neural networks[J].IEEE Trans on Multimedia,2019,21(1):211-220.
[11]Li Yong,Zeng Jiabei,Shan Shiguang,et al.Occlusion aware facial expression recognition using CNN with attention mechanism[J].IEEE Trans on Image Processing,2019,28(5):2439-2450.
[12]Ben Xianye,Ren Yi,Zhang Junping,et al.Video-based facial micro-expression analysis:a survey of datasets,features and algorithms[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2021,DOI:10.1109/TPAMI.2021.3067464.
[13]彭玉青,王緯華,劉璇,等.基于深度學(xué)習(xí)與Dense SIFT融合的人臉表情識別[J].中國科學(xué)技術(shù)大學(xué)學(xué)報,2019,49(2):105-111.(Peng Yuqing,Wang Weihua,Liu Xuan,et al.Facial expression re-cognition based on fusion of deep learning and Dense SIFT[J].Journal of University of Science amp; Technology of China,2019,49(2):105-111.)
[14]Sun Ning,Li Qi,Huan Ruizhi, et al.Deep spatial-temporal feature fusion for facial expression recognition in static images[J].Pattern Recognition Letters,2019,119(3):49-61.
[15]Mnih V,Heess N,Graves A.Recurrent models of visual attention[C]//Proc of the 27th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2014:2204-2212.
[16]Wang Jianfeng,Yuan Ye,Yu Gang.Face attention network:an effective face detector for the occluded faces[EB/OL].(2017-11-22).https://arxiv.org/abs/1711.07246.
[17]Yang Jiaolong,Ren Peiran,Zhang Dongqing,et al.Neural aggregation network for video face recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:5216-5225.
[18]Hu Wei,Huang Yangyu,Zhang Fan,et al.Noise-tolerant paradigm for training face recognition CNNs[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:11879-11888.
[19]Zhang Kaipeng,Tan Lianzhi,Li Zhifeng,et al.Gender and smile classification using deep convolutional neural networks[C] //Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:34-38.
[20]Sun Yi,Wang Xiaogang,Tang Xiaoou.Deep learning face representation from predicting 10 000 classes[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2014:1891-1898.
[21]Zhang Kaipeng,Zhang Zhanpeng,Li Zhifeng,et al.Joint face detection and alignment using multitask cascaded convolutional networks[J].IEEE Signal Processing Letters,2016,23(10):1499-1503.
[22]楊旭,尚振宏.基于改進(jìn)AlexNet的人臉表情識別[J].激光與光電子學(xué)進(jìn)展,2020,57(14):141026.(Yang Xu,Shang Zhenhong.Facial expression recognition based on improved AlexNet[J].Laser amp; Optoelectronics Progress,2020,57(14):141026.)
[23]Li Hangyu,Wang Nannan,Ding Xinpeng,et al.Adaptively learning facial expression representation via CF labels and distillation[J].IEEE Trans on Image Processing,2021,30:2016-2028.
[24]Jiang Ping,Wan Bo,Wang Quan,et al.Fast and efficient facial expression recognition using a Gabor convolutional network[J].IEEE Signal Processing Letters,2020,27:1954-1958.
[25]王琳琳,劉敬浩,付曉梅.融合局部特征與深度置信網(wǎng)絡(luò)的人臉表情識別[J].激光與光電子學(xué)迚展,2018,55(1):011002.(Wang Linlin,Liu Jinghao,F(xiàn)u Xiaomei.Facial expression recognition based on fusion of local features and deep belief network[J].Laser amp; Optoelectronics Progress,2018,55(1):011002.)
[26]李勇,林小竹,蔣夢瑩.基于跨連接LeNet-5網(wǎng)絡(luò)的面部表情識別[J].自動化學(xué)報,2018,44(1):176-182.(Li Yong,Lin Xiaozhu,Jiang Mengying.Facial expression recognition with cross-connect LeNet-5 network[J].Acta Automatica Sinica,2018,44(1):176-182.)
[27]Khorrami P,Paine T,Huang T.Do deep neural networks learn facial action units when doing expression recognition?[C] //Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2015:19-27.