郭馨蔚,馬 楠,劉偉鋒,孫富春,張津麗,陳 洋,張國平
1.北京科技大學 機械工程學院,北京 100083
2.北京工業大學 信息學部,北京 100124
3.北京聯合大學 北京市信息服務工程重點實驗室,北京 100101
4.清華大學 計算機科學與技術系,北京 100084
當前,全球新冠肺炎疫情呈現擴散蔓延態勢,國內疫情防控工作控制良好,其中核酸檢測工作呈現常態化,且需求量較大。常態化疫情防控工作要求下,咽拭子采集機器人發揮了重要作用。團隊設計研制的咽拭子采集機器人系統主要由采樣系統、頭部固定托架模塊、咽拭子裝卸模塊和機器人箱體模塊構成。其中,咽拭子采集機器人系統采集到攝像頭獲取的受試者面部圖像,通過識別算法,計算出咽后壁采集位置的空間位置坐標,實現采集過程中受試者口腔內部的視覺導航定位,并且能夠在采集過程中動態地捕捉受試者的位姿變化,及時調整采集部位與末端采集軌跡,實現高效采樣;視觸融合算法通過讀取壓力傳感器采集的觸覺力序列,控制運動模塊實現力位混合的采樣力反饋柔性控制,降低采樣過程中受試者口腔組織結構的創傷風險;通過采樣機構模塊中固定咽拭子端舵機的控制,可實現擬人的咽拭子采集咽后壁擦拭動作。采樣機構按照上述視覺導航與視觸融合方法完成采集流程。咽拭子采集機器人系統可以對受試者進行高效采樣,但是缺乏對受試者采集過程中面部表情的感知,導致無法知道受試者在采集過程中是否舒適,因此本文在原有咽拭子采集機器人系統上增加表情識別模塊,通過攝像頭獲取受試者在采集過程中的表情狀態信息,并使用表情識別算法分析表情狀態,最后通過建立通信把表情識別結果發送給咽拭子采集機器人控制模塊[1],控制模塊根據表情識別的交互反饋結果做出決策,從而提高受試者的舒適度。
面部表情識別(facial expression recognition,FER)一般劃分為兩大類。一類是面部動作編碼系統(facial action coding system,FACS)中定義的44個面部動作,FACS提供的是一個通用的參考點[2-4],這些動作的組合形成了一套完整的面部表情和具有相似面部外觀的面部表情;另一類被劃分為6種基本情感情緒表情:憤怒(anger)、高興(happiness)、悲傷(sadness)、驚訝(surprise)、厭惡(disgust)、恐懼(fear)[5],1個中性表述(normal),共7種。FACS可以描述任何視覺上可識別的動作表情,因此只有部分應用在面部表情中。同時,由于這6種情感情緒表現,不一定會全部在本文的應用場景下體現。咽拭子采集機器人采集過程中,受試者的面部表情是一項重要的研究內容。基于上述的文獻調研情況,本文根據現實場景采集過程中所傳達出的信息,最終確定三種重要的表情分類類型:無感、較為不適、難受。通過表情識別這一重要表情標簽的人機交互過程,交互傳遞到智能采樣系統,可以提高采樣工作的準確率、舒適度、適用性。
面部表情識別通常包括人臉的初始檢測、相關人臉信息的提取和跟蹤,以及面部表情分類[6]。在咽拭子采集機器人這一應用場景下,其執行流程可描述為:人臉檢測,人臉校正,數據集抽幀,動態描述提取,表情識別。該表情識別交互任務則需重點解決遮擋去除及微表情識別的拓展[2,6]、表情分類及劃定[3-4]、自采集數據集的定義[6-7]、關鍵幀識別及處理[8]、交互集成[9-10]等5方面問題。理想情況下,一個魯棒的識別模型應該能夠對大部分,或者至少是視覺上可識別的面部表情進行分類。因此,選取合適的評價指標和評價方式也是衡量識別任務完成度及模型適用性的關鍵步驟[11-12]。綜上,咽拭子采集機器人FER系統應歸納為三個部分:表情數據預處理、特征提取和表情分類[2]。
FER數據預處理方面,遮擋去除及微表情拓展是預處理階段的重點工作。現階段FER領域所應用的最廣泛的CK+、RAF-DB、JAFFE、MMI、Affect-Net及FERplus等公共數據集,往往體現出人口統計學差異[13],或為單個或為小型化[14],含噪聲標簽[15-16],非正面及非對稱[17]等其他相關問題。本文應用場景有其特殊性,但這些問題也是自采集數據集所面臨的重要問題,給數據集定義工作提供了方向和支撐。相關文獻為數據集定義與處理提供了可參考方法,如最大池化降維[6]、數據增量[18]、數據生成考慮多角度最優[19]、鄰域平滑性[11]等。針對本文自采集數據集,需通過保證受試者人口統計學分布均勻、保證數據樣本量、保證采集環境穩定以及保證正面正對采集等相對理想條件,從而簡化預處理過程。
FER特征提取方面,關鍵幀抽取及多類特征提取是該階段的重點工作。針對不同類型的數據集和特征提取目的,相適應地采用局部子域法,即增加通道注意模塊突出有效特征[2];掩膜法,即重建及域信息共享[20];融合特征提取,即從顯著區提取LBP(local binary pattern)和HOG特征[21];稀疏表示,即提取紋理的特征(LBP、Gabor小波和LPQ)[22]等方法。而關鍵幀抽取及多類特征提取則關注的是本文應用場景下動態變化的特征:時間階段的變化(開始-頂點-結束)和3種情緒強度的變化,這些變化的出現在不同的被采集者之間有很大差異,使識別分類任務非常具有挑戰性。根據對自采集數據集的定義,需從每個視頻中提取定義空間和時間特征的頂點幀或密集軌跡描述符HOF和MBH用于訓練。針對一系列關鍵幀,需提取其多類特征,本文主要提取其時空特征、光流特征和運動單元特征這3類。
FER分類任務方面,20世紀90年代,圖像處理即在人像處理、跟蹤和識別領域的應用日益廣泛。到2015年以來得益于深度學習方法的良好應用,FER領域發展迅速,表情分類方法逐漸地歸結于幾種主流的方法——卷積神經網絡及其變體(convolutional neural networks,CNN)[6]、光流(optical flow)[8]以及局部二值模式(local binary pattern,LBP)[23]。在本文的應用場景下,動態描述比靜態描述更適合識別任務的進行,可以將其與密集光流相結合給出時空描述符[8]或動態紋理[23]來識別面部表情。其他相關研究的關注點也往往聚焦在時空密集軌跡描述符、動態紋理表達適用于訓練和識別,如大型通用高斯混合模型[24]和基于Expressionlet的中層模型[25]。現有的淺層特征提取模型丟失了大量有效的特征信息,識別精度較低。而基于深度學習的人臉表情識別方法也存在過擬合、梯度爆炸和參數量問題等。卷積神經網絡骨干結構在人臉表情識別過程中具有一定的局限性,因此在算法層面,本文將其與人工特征提取方法相結合,這樣改進網絡結構目的是為了保證能夠重構不確定性圖像,從而提高分類結果的準確性。
目前,根據表情識別在各個方面的一些研究[26],可將識別方法分為兩類,一類是基于人工特征提取的方法,另一類是基于深度神經網絡的方法。在人工特征提取方法中,本文主要研究了時空特征提取、光流特征提取和運動單元提取方法的應用;在深度神經網絡方法中,主要研究了主流CNN框架下的變體方法及應用。本文在實際構建算法框架過程中,將人工提取方法與深度神經網絡方法相結合,重點將表情圖像時空特征提取,關鍵幀提取,基于LBP、光流和運動單元的特征提取加入到識別網絡的構建。
在面部表情識別算法應用的早期,大多數方法都利用人工特征提取,常用的方法有兩種。一種是基于外觀的方法,特別是基于像素值的方法。在此,像素值屬于面部表情的數量外觀,其優點是信息損失較少,但通常以高特征維數為代價。另一種是基于幾何的方法,它考慮的是特征區域的位移而不是像素點,其優點是特征維數低,計算量小,但是它對光照的變化更敏感。
1.1.1面部表情時空特征提取
基于外觀方法的特征提取逐漸地以時空特征為主流,Zhao等人[23]提出了一種魯棒的動態紋理描述符,這是從紋理域到時間域的一種拓展,用于三個正交平面的局部二值模式(local binary patterns from three planes,LBP-TOP),近些年來該紋理描述符已被廣泛用于面部表情識別領域。該方法同時考慮了視頻形式數據集的時間和空間信息,時空信息體現在3種類型的平面,分別為XY平面、XT平面和YT平面。以本文應用場景下的一個視頻序列為例,可以將其分別看作沿T時間軸、Y空間軸和X空間軸的XY、XT和YT平面的堆棧。最后分別從該三種類型的平面導出3個直方圖,并組合成一個直方圖作為動態視頻紋理描述符,如圖1所示。由于其對光照變化和圖像變換的魯棒性,該方法得到了廣泛的應用。

圖1 LBP-TOP時空特征幾何圖與實例圖Fig.1 LBP-TOP spatiotemporal feature geometry and instance graph
1.1.2面部表情光流特征提取
基于幾何方法的特征提取發展到現在,光流(optical flow)法是這類方法的代表。光流與空間運動物體在觀測圖像平面內像素運動的瞬時速度有關,該方法做了兩個假設:一是亮度恒定;二是隨時間的變化不會引起位置的劇烈變化。所以該方法能有效地保留客觀運動信息,無論提取宏表情特征還是提取微表情特征,光流法都能適用。因此該方法適合于本研究中的面部表情識別擴展到微表情的識別。因此該方法適合于本研究中的面部表情識別做到微表情的拓展。Perveen等人[24]利用動態核和穩健的光流方法,結合直方圖定向光流(histogram of oriented optical flow,HOOF)特征來評估面部肌肉運動的方向。該方法采用神經網絡對人臉特征點進行定位,減少了蒙面對人臉的干擾,并與光流相結合,在降低特征維數的同時提高了運動信息的利用率,所以將人工特征與神經網絡相結合是合理的發展方向。同樣地,以本文應用場景下的一個視頻序列為例,通過光流法分割提取關鍵幀的操作如圖2所示。

圖2 基于光流的幀特征提取Fig.2 Frame feature extraction based on optical flow
幀特征提取過程中,特征提取部分所需的光學運動因素與情感因素感興趣區域均通過光流變化來反映。在此,實驗要求自采集數據集環境穩定;其次是時間的變化不會引起位置的劇烈變化。這樣才能利用相鄰幀之間位置變化引起的灰度值變化來進行光流特征提取。結合提取過程可知,光流是利用幀序列中像素在時間域上的變化以及在相鄰幀之間的相關性來找到幀間對應關系的,通過幀間對應關系計算出幀間物體的運動信息。此外,進行咽拭子采集所得到的部分表情數據和宏表情存在區別,考慮到其瞬時性、細微化特點,利用光流法進行特征提取有較大優勢。同時,在檢測到面部微表情的運動信息后,將光流法和LBP方法結合也可以進行有效的識別。實驗中光流提取效果如圖3所示,可見其感興趣區域從選取點到目標區域的遷移。

圖3 光流主要特征區域識別及提取Fig.3 Recognition and extraction of main feature areas of optical flow
1.1.3面部表情運動單元特征提取
除上述兩種特征提取方法外,本文還通過識別面部肌肉動作(action units,AUs)來適應面部表情的不確定性權重問題。面部動作是經專人利用專業知識標記編碼面部動作單元所得的解剖學標簽[27-28],本文利用到其中的16個標簽,如表1所述。She等人[29]利用了數據的潛在分布和成對不確定估計方法,進行人臉識別;Chen等人[30]提出了一種基于AUs校準的面部表情識別方法,該方法利用面部動作單元(AUs)的識別結果來糾正數據集中的性別標注偏差,根據AU的識別結果構建三元組并合并到目標函數中,有效地消除了表情注釋偏差問題。在本文的應用場景下,這種局部肌肉運動信息強度相較微表情來看,強度大且數量較多。因此,其組合具有更好的非線性表征能力,應用于相對宏觀情緒表達較為適用。通過AUs及其對應光流分割提取特征的網絡結構如圖4所示。光流特征在此可以作為運動單元的一個參照,即通過光流圖可以很直觀地分辨出運動部位。卷積層從光流中提取特征向量,在特征向量的頂部和底部分別應用兩個平均池,得到降維的特征向量,然后對每個特征向量使用兩層全連接分類器,舍棄底部只保留頂部。

圖4 AUs及其對應光流分割提取特征的網絡結構Fig.4 AUs and its corresponding optical flow segmentation and extraction feature network structure

表1 主要運動單元編碼Table 1 Major action units coding
隨著卷積神經網絡(convolutional neural network,CNN)在圖像識別領域的廣泛應用,其性能不斷提升,很多學者把CNN用于表情識別領域,并通過不斷地調整其結構可以更有效地提取人的面部表情[30]。Li等人[31]提出了一種具有注意力機制的卷積神經網絡(attention convolutional neural network,ACNN),它可以感知人臉的遮擋區域和未遮擋區域。ACNN是一個端到端的學習框架,結合了來自面部感興趣區域(ROI)的多個表示,每個表示通過一個設計的單元模塊進行加權,該單元模塊根據重要性從該區域本身計算自適應權重,從而提高了對非遮擋人臉和遮擋人臉的識別精度。Sajjanhar等人[32]提出了一個基于VGG卷積神經網絡的面部表情識別算法,有效地提取了面部表情,并且提高了表情識別的效率。Zhang等人[33]提出了一種相對不確定性表情學習方法,該方法將表情的不確定性看做是一個相對的概念,沒有為所有數據集假設高斯不確定性分布,而是建立了一個額外的分支,通過特征混合從樣本的相對難度中學習不確定性,同時使用不確定性作為權重來混合面部特征并設計一個加法損失來促進不確定性學習,解決了模糊的面部表情和不一致的標簽對識別結果的影響。She等人[29]提出了一種潛在標簽挖掘和樣本間不確定性估計方法,該方法主要解決了標簽模糊問題。對于潛在的標簽挖掘,引入一個輔助的多分支學習框架,以更好地挖掘和描述標簽空間中的潛在分布;對于樣本間的不確定性估計,充分利用實例之間語義特征的成對關系來估計實例空間中的歧義程度。同時,所提方法獨立于主干架構,不會增加計算量。
為了識別具有不確定性的面部表情特征,Wang等人[34]提出了一個簡單而有效的自修復網絡(self-cured network,SCN)。它建立在傳統CNN的基礎上,由自注意重要性加權、秩正則化和重標簽這三個關鍵模塊組成。在給定一批具有不確定表情樣本的人臉圖像的基礎上,首先通過骨干網提取深度特征,然后自注意重要性加權模塊使用全連接層和sigmoid函數為每個圖像分配一個重要性權重,這些權重乘以樣本重加權方案的對數。為了顯著降低不確定樣本的重要性,進一步引入秩正則化模塊對權值進行正則化。在秩正則化模塊中,首先對學習到的權值進行排序,然后將其分為高重要性組和低重要性組。最后,再通過一種基于邊際的損失(rank regularization loss,RR-Loss),在這些組的平均權值之間添加一個約束。為了進一步完善所提出的SCN,Wang等人還加入了重標簽模塊,對低重要性組中的一些不確定樣本進行修改。這個重標簽操作的目的是尋找更多的干凈樣本,然后增強最終的模型。整個SCN網絡以端到端方式進行訓練,并能容易地添加到常用CNN主干中。
為了實現咽拭子機器人對受試者面部表情的識別與交互,本文提出了有效自修復網絡模型(efficient self-cured network,ESCN)。該模型主要包含三部分:用于接收人臉表情圖片視頻幀,生成類識別能力的特征提取加權網絡(feature extraction weighted network,FEWN)、捕捉面部表情區域并加權的多尺度注意力機制特征融合網絡(multi-scale attention mechanism feature fusion blocks,MAFN)和通過重標簽校正的線性聚合分類網絡(division and linear aggregation output,DLAN),其框架如圖5所示。

圖5 ESCN網絡框架結構圖Fig.5 ESCN network frame structure diagram
作為一個圖像分類算法框架,同時也作為很經典的一些神經網絡的分類算法的變體,結構中骨干網絡來自于Resnet18和LResnet,其創新之處在于這個框架會在圖像進入網絡之前對該圖像和標簽的權重做預處理,即判斷哪些圖像可以具有高權重。其中部分圖像的標簽存在錯誤,在此便做了一個分類并進行加權。該方法非常適合咽拭子采集表情識別交互這個任務的訓練。因為在本文這個任務的訓練過程中,部分標簽可能并不能很好地表示被采集者的表情,如有時被采集者無表情的時候,就標注了痛苦。此時就需要降低該標簽權重,則忽略或以低權重進入第二部分結構。
2.1.1特征預處理
進入特征聚類網絡模塊的圖像數據是經過數據預處理之后的關鍵幀序列。這一部分將面部表情關鍵幀規定在440×370像素,面部范圍設定為額頭至嘴唇上部區域。再通過抽幀分割提取情緒表達幀,其情感表達顯著特征區域如圖6所示,圖中各子圖每上下對應兩張為一組,表示一名受試者的特征預處理后表情圖像,故可由這些進入骨干網絡的顯著特征區域來確定運動單元進行LBP、光流及AUs特征提取。

圖6 特征預處理后表情圖像Fig.6 Expression images after feature preprocessin
特征預處理過程中,需要利用到圖像掩膜[20]。通過圖像掩模矩陣,可以重新計算圖像中的每一個像素值,因此掩模矩陣控制了原始圖像當前位置以及周圍位置像素對新圖像當前位置像素值的影響力度。具體為在處理公共數據集和自采集數據集時,將數據集中圖像的面部表情額頭以下到唇上區域,認定為光學運動因素與情感因素感興趣區域,對唇下區域進行掩模操作。其處理方式有兩種:一是將唇上區域視為1值區域保留計算,將唇下區域視為0值區域屏蔽舍棄,這樣的目的是完全舍棄唇下區域;二是0值區域也可以利用OpenCV通過指定的數據值、數據范圍、有限或無限值和注釋文件來定義圖像掩模矩陣,也可以應用任意組合作為輸入來建立掩模矩陣,這樣操作的好處是能保留部分可以作為分類依據的特征。
2.1.2自注意重要性加權(self-attention importance weighting)
在圖像進入網絡時,會出現并不具備明確特征的樣本,樣本卻在訓練時被賦予了明確的標簽,降低了網絡的泛化能力。為了緩解這個問題,本文在骨干網絡中引入自注意重要性加權模塊來捕獲面部表情特征,其特點和優勢在于可以對輸入的圖像進行重標簽,應用于本文場景中的表情三分類任務中,從而保證機械臂獲得正確的交互決策依據。不防假設F=[x1,x2,…,x N]∈RD×N表示N張圖象中的面部表情特征,自注意重要性權重將F作為輸入,輸出每個特征的重要性權重值。具體來說,自注意重要性加權模塊由線性全連接(FC)層和sigmoid激活函數組成,可以表示為:

其中,αi是第i個樣本的重要性權值,W a是用于注意的FC層的參數,σ是sigmoid函數。有了自注意權重,執行損失權重的模塊為對數加權交叉熵損失,其可表示為:

其中,Wj是第j分類器,LWCE與α呈正相關。
2.1.3親和力損失(affinity LOSS)
咽拭子受試過程中受試者的表情反饋是連續的、漸變的,在一段視頻中許多過渡圖像幀可能會被判別為另一種表情。因此,本文期望網絡能夠重新考慮連續情感表達在分類時的敏感性,從而引入親和力損失函數來考慮表情特征潛在相似性,其本質就是利用親和力損失函數來擴大類邊際,保證良好的可分性。具體描述為:在每一次訓練中,促使特征更加接近所屬類中心,同時促使不同類中心更好地分離開來。如給定類中心c∈Rm×d,從d維高斯分布中做隨機抽樣,然后利用如下函數(3)來最大化類間距且最小化類內間距:

其中,M是Y的維數,d是類中心的維數,σc表示類中心之間的標準偏差。
2.2.1三重注意力機制單元(triple attention mechanism unit)
對于第二部分結構多尺度注意力機制特征融合網絡的整體理解,應從經第一結構所得出的1×1卷積、2×2卷積、4×4卷積深度的特征圖開始,三者獨立進入三重注意力機制單元,如圖7所示。其中空間注意力單元接受輸入并提取空間特征,通道注意力單元接受輸入并提取通道特征,Non-Local接受輸入并提取局部特征。上述三個維度的特征最終被計算合成一張注意力圖,然后交叉進入特征融合模塊(SKFF)。

圖7 包含空間、通道和Non-local注意機制的三重注意單元Fig.7 Triple attention unit with spatial,channel and non-local attention mechanisms
2.2.2選擇性核特征融合(selective kernel feature fusion)
對于特征融合模塊的整體理解應從并行交叉進入的注意力圖開始,如圖8所示,這一結構通過兩個操作符來動態調整所接收的信息。融合操作符(Fuse)通過組合來自多分辨率流的信息生成全局特征描述符。選擇(Select)操作符使用這些描述符重新校準不同數據流聚合后的特性映射,然后為三個(或多個)數據流提供兩個操作符的詳細描述。SKFF模塊接收來自三個(或多個)并行卷積流的輸入,攜帶不同規模的信息。首先,將這些多尺度特征結合起來,使用一個元素求和,L=L1+L2+L3。然后,在空間維度上應用全局平均池化GAP(global average pooling)跨越空間維度L∈RH×W×C來計算的通道統計量s∈R1×1×C。接下來,應用一個通道降尺度卷積層來生成一個緊湊的特征表示z∈R1×1×r。最后,特征向量z通過三個并行的通道擴大卷積層(每個分辨率流一個),并提供三個特征描述符v1、v2和v3,每個維度1×1×C。選擇操作符將softmax函數應用于v1、v2和v3,產生注意激活s1、s2和s3,使用它們分別自適應地重新校準多尺度特征圖L1、L2和L3。特征重新校準和聚合的整體過程定義為:

圖8 選擇性特征融合(SKFF)示意圖Fig.8 Schematic of selective kernel feature fusion(SKFF)

在此明確SKFF使用的是~6×這一參數,而不是級聯聚合,參數小且聚合效果較好,其結構如圖8所示。
經重新校準并聚合后的特征圖再分別進入一次三重注意力機制單元得出注意力圖,然后再進行一次特征校準并聚合,卷積所得注意力圖進行下一步分類計算。
進入第三部分結構的注意力圖攜帶了充足的特征,然后對其進行線性層類置信度的計算,即可做單步和多步輸出。輸出結果在建立通信的基礎上同時將這一決策依據反饋給機械臂,以進行柔性力度反饋交互。上文中提到的自注意重要性模塊的權值在(0,1)中可以是任意的。考慮到輸出分類的結果被用作機械臂的決策依據時,同一表情類別中不同程度的表情圖像應該具有不同的權重,因此本文為明確約束此類樣本的重要性,在該模塊中引入秩正則化模塊來處理權值。在秩正則化模塊中,先將學習到的注意權值降序排列,然后以β的比例將其分成兩組。秩正則化保證了高重要性組的平均自注意權值高于有邊界的低重要性組的平均自注意權值。對此,Wang等人[34]為此定義了秩正則化損失(RR-Loss),可以表示為:

其中,δ1是一個邊界,它可以是一個固定的超參數或者一個可學習的參數,αH和αL分別代表高重要性組β×N=M和低重要性組N-M的平均值。在模型訓練中,總損失函數Lall=γLRR+(1-γ)LWCE中的γ是一個權衡比。
咽拭子機器人表情識別系統通過攝像頭獲取新冠肺炎核酸檢測者的面部表情視頻片段,然后把檢測者的視頻片段輸入到表情識別算法機器進行預測并得出結果。咽拭子采集機器人應用表情識別算法的結果實現交互反饋,采用TCP/IP通信協議,使二者建立Socket通信通道進行通訊;在通訊時表情識別算法機器作為發送端,咽拭子機器人作為接收端,只要發送端獲得表情識別結果,就會發送給接收端,接收端收到表情識別結果后分析并做出交互決策反饋,最終咽拭子機器人完成一個舒適度動作調整反饋。其交互過程如圖9所示:(1)表情識別算法通過攝像頭檢測并獲取被采集者表情;(2)與機器人建立Socket通信通道,完成TCP連接;(3)發送端發送表情識別結果;(4)接收端接收表情識別結果并做出動作反饋,進而完成感知交互過程。

圖9 咽拭子采集機器人感知交互過程Fig.9 Throat swab collection robot perception interaction process
本文的實驗采用了RAF-DB[15]和FER-2013[16]這兩個公共數據集。為了更好地適應于本文的3分類場景,并執行一個統一的評價指標,這兩個公共數據集分類標簽適當地調整為三類,即中性、消極、恐懼。
RAF-DB:包含了將近3萬張使用基本或復合表情標注的面部圖像。在本文實驗中,使用6種基本表情的重新歸類劃分及標注(消極、恐懼)和中性表情的圖像,因此有5 000張圖像用于訓練,2 000張圖像用于測試。因數據集本身即是圖片類型數據集,所以無需長視頻序列幀提取。
FER2013:數據集由35 886張人臉表情圖片組成,其中,測試圖(Training)28 708張,公共驗證圖(PublicTest)和私有驗證圖(PrivateTest)各3 589張,每張圖片是由大小固定為48×48的灰度圖像組成,共有7種表情,分別對應于數字標簽0~6,具體表情對應的標簽和中英文如下:0-anger生氣;1-disgust厭惡;2-fear恐懼;3-happ開心;4-sad傷心;5-surprised驚訝;6-normal中性。但是,數據集并沒有直接給出圖片,而是將表情、圖片數據保存到csv文件中,因此在實驗中需要對其進行重構,尤其是在三分類劃分、標注及重構方面。因此同樣選取5 000張圖像用于訓練,2 000張圖像用于測試。
自采集數據集通過結合實驗應用場景自定義并采集,其名稱為咽拭子采集機器人面部表情識別數據集(pharyngeal swab collection robot facial expression recognition dataset,PSCR-FER)。本研究考慮到咽拭子受試者的面部表情變化的細微性和瞬時性,單張圖片無法正確、全面地反映人的表情所表達的情緒。因此,本研究的數據自采集過程中選擇采集視頻瞬間,通過對長視頻序列進行幀分割提取進行識別。樣本人群數量為300,考慮年齡分布與性別分布,數據集為視頻格式,表情分布具體為三種,即無感、較為不適、難受。對每一個被采集者進行三種柔性力度的自然狀態咽拭子采集,即柔和、較為柔和、力度較大這三種,以得到每一位被采集者的三種表情分布反饋。針對每一個長視頻序列,可按照不通的幀間差提取關鍵幀,并作隨機劃分,得到包含3 672張關鍵幀在內的訓練集和包含1 946張關鍵幀在內的測試集,均包含三種情緒表達的人臉圖片。實驗中保證每一種情緒表達在單個長視頻幀序列中都至少有50幀表情面部圖像,也通過使用隨機劃分,將30幀人臉圖像用于訓練集,剩余的20幀人臉圖像用于測試集。綜上,實驗所采用公共數據集和自采集數據集歸納如表2所示。

表2 本文所用表情識別數據集Table 2 Facial expression recognition dataset used in this paper
當前在FER研究領域官方排行榜上公布的經實驗復現并驗證的數據,包含了在62篇文獻中針對18個數據集準確率或平均準確率最靠前的18個基準測試。其中就包含本文所使用的RAF-DB和FER2013這兩個數據集,分別公布有7種和9種最先進、識別效果最好的方法,見表3和表4。以ResNet為骨干網絡的結構占較大比例,因此在對照實驗中選取AlexNet、VGG、ResNet18作為參照方法,選取SCN方法作為本文方法的參照,用來對比分析本文方法的性能。

表3 表情識別方法:RAF-DB基準Table 3 Expression recognition method:RAF-DB benchmarks

表4 表情識別方法:FER2013基準Table 4 Expression recognition method:FER2013 benchmark
在預處理和面部特征處理方面,利用Dlibml來進行表情定位,統一將圖像裁剪縮放至224×224作為groundtruth。實驗模型均在pytorch-1.7中實現,服務器的CPU為10700K,頻率為3.8 MHz,運行內存大小為64 GB,頻率為3 200 MHz,GPU為NVIDIA-GeForce-GTX-3090,批大小設置為32。在每次迭代中,訓練圖像默認分為70%的高重要性樣本和30%的低重要性樣本兩組,為了保證前述兩組樣本的平均概率差異大于0.15,因此按照這一差異設置高低重要性組均值之間的邊緣界限seta1。整個網絡采用Affinity-Loss和RR-Loss聯合優化,兩種損失的比值設定為1∶1,其影響將在后續的消融實驗中研究。傾斜率初始化為0.1,在15個epoch和30個epoch之后再除以10,訓練在70個epoch停止。從第10個epoch開始,重新標記模塊被包括在優化中,其中重新標記邊緣δ2默認設置為0.2。同時,關于分類輸出調整為3分類輸出。
本文在2個公共數據集和1個自采集數據集上進行了定性和定量的實驗,以顯示ESCN中各個模塊的有效性。對于本文改進的網絡,使用ESCN預先訓練的權值,實驗中設置衰減權重為0.001,學習速率初始化為0.001,每10個周期減少2倍。在測試階段,在自采集數據集上采用傳統的留一交叉驗證方法,它的應用是為了確保獨立的評估,進行100輪的訓練。最后,將改進的ESCN方法與公共數據集上較為通用的方法進行了比較,來驗證在數據集較小且噪聲面部表情注釋不確定性下的識別魯棒性。由于識別準確率要求和輕量化集成需求,因此選取準確率(Acc)、參數量(Params)和運算速度(Flops)作為性能指標來表征性能好壞,其準確率計算為:

其中TP、TN、FP、FN分別代表真正例、真負例、偽正例、偽負例。同時,通過消融實驗和混淆矩陣來驗證和避免提出的方法對識別分類問題的過擬合。
在這一節內,本文對所提出的ESCN網絡進行消融實驗,以證明本文方法在咽拭子采集機器人表情識別三分類任務中的有效性。實驗所有比較分析均在兩個公共數據集和自采集數據集上的三分類任務下進行。
多尺度注意力機制特征融合模塊有效性驗證。ResNet方法在RAF-DB、FER2013和PSCR-FER三種數據集上的準確率分別為76.214%、73.642%、72.940%。相比之下,在MAFN作用下,自注意力加權后的模型有助于引導學習局部區域特征和運動變化,用于FER的更深層次的卷積,與特征融合組合的性能優于單一骨干網絡,因此ESCN方法在3個數據集上的性能分別提升10.437、8.784和17.18個百分點;對照方法SCN在RAFDB、FER2013和PSCR-FER三種數據集上的準確率分別為80.420%、81.924%、85.264%,相比之下由于MAFN有助于網絡聚焦于重要的面部運動單元AUs和ROI,并減少FER可能的噪聲特征,因此ESCN方法性能提升6.231、0.502和4.856個百分點。綜上兩點,ESCN中個別成分的貢獻得以驗證。綜合看來,該方法在RAF-DB數據集上的表現較為突出。
三重注意力機制單元有效性驗證。如表5所示,本文在這一部分消融實驗中去掉MAFN中的AM部分僅利用特征融合來進行骨干網絡在RAF-DB、FER2013和PSCR-FER三種數據集上的表現。該部分實驗提取了表情圖像的多尺度特征,經分類器進行表情分類,其準確率相比ResNet骨干網絡的準確率分別提升2.386、4.854和2.98個百分點。實驗結果表明,加入圖像的時空描述特征是有效的,其時空描述在細節信息的表征方面是具有重要價值的。

表5 評價指標:準確率Table 5 Evaluation index:accuracy %
線性聚合以及表情識別交互有效性驗證。DLAN本文在這一部分消融實驗中去掉MAFN中的SKFF部分僅利用注意力模塊來進行骨干網絡在RAF-DB、FER2013和PSCR-FER三種數據集上的表現。在淺層特征提取模塊加入通道-空間-局部注意力模塊。首先將淺層特征通過通道空間注意模塊生成特征權重圖,然后通過與Non-Local按元素相乘得到融合特征,最后經過分類器進行分類其準確率分別提升4.019、8.339和9.626個百分點。在自采集數據集中,不適的識別率較低,如三個數據集的混淆矩陣圖10所示,主要原因是其比例較低,并且部分人臉表情存在較為不適和不適的相似性。這兩個重要因素導致網絡不能很好地將其區別開來。實驗結果表明:改進的注意力模塊可以有效地進行局部特征選取,與特征融合模塊相輔相成。

圖10 增設三重注意力機制單元的消融實驗混淆矩陣Fig.10 Confusion matrix of ablation experiment with triple attention mechanism unit added
綜上,三重注意力機制單元促使網絡對重要的特征進行加權以提升網絡性能,促使提升精度4.019、8.339和9.626個百分點;特征融合模塊促使網絡提取表情圖像的多尺度特征,促使提升精度2.386、4.854和2.98個百分點;二者的共同作用下促使提升精度10.437、8.784和17.18個百分點,可見,ESCN框架的核心網絡部分對表情識別的準確性有明顯貢獻。
現有的超參數設置情況為,MRB數量為2,AM數量為6,SKFF數量為4,下采樣倍數為1X、2X、4X,參數量達到33.08 MB,這樣保證了輕量化水平,且遠小于VGG16網絡,同時保證了準確率平均提升4.643~11.058個百分點。本文進行了與先進方法SCN網絡的對比,在三個數據集上均得到了相應的提升。在保證準確率提升的同時,其參數量增加較少,如表6所示,便于輕量化集成在咽拭子采集機器人系統的探頭模塊。

表6 評價指標:參數量Table 6 Evaluation index:parameter amount
本文提出了一種基于增強自修復網絡(ESCN)的特定場景下人臉表情識別方法。首先輸入圖像到特征提取模塊和骨干網絡中;然后通過多尺度注意力機制特征融合模塊將淺層、深層和局部注意力特征進行融合;最后經過分類器進行分類。多尺度注意力機制特征融合模塊的關鍵組成部分包括注意力機制加權和特征融合,其可以有效提高了模型的特征提取和識別能力。本文提出的方法在RAF-DB和FER-2013數據集和自采集數據集上進行了三分類任務實驗和消融實驗,在保證參數量較小的基礎上取得了較高的識別準確率。因此,該模型為咽拭子采集機器人系統在表情識別及交互方面提供了重要支撐。在設計網絡時,為了減少參數量,僅使用了2個多尺度注意力機制特征融合模塊。因此在下一步工作中,繼續改進該模塊及討論其數量設定,是使ESCN網絡適應逐漸擴充的咽拭子采集表情圖像和公共數據集上表情特征分布及識別任務的重要工作支撐。同時,另一項持續性工作是相較于排行榜上針對于本文所采用的2個公共數據集的7種和9種方法,在本文應用場景下的三分類任務的復現和識別準確率的對比。