999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進卷積的多尺度表情識別

2024-01-30 12:59:40趙光哲
計算機工程與應用 2024年2期
關鍵詞:特征提取特征模型

鄭 浩,趙光哲

北京建筑大學 電氣與信息工程學院,北京 100044

面部表情是用來體現人類真實情感和想法的最為常見的方式之一。在日常生活中有很多領域都需要使用到人臉表情識別,例如醫學、機器人、疲勞駕駛以及其他智能系統等[1-3]。在達爾文的進化論研究中發現,由人類面部產生出的多種多樣的表情是大自然的選擇結果。在現代,人臉的面部肌肉已經可以搭配出成百上千種面部姿態了,也正因如此,人類有了越來越多的情緒表達方式。

20世紀70年代左右,Ekman和Friesen[4]通過跨文化研究的結論,在其基礎之上定義了六類基本情緒,即:厭惡、憤怒、高興、恐懼、悲傷以及驚訝,與此同時,二人的研究表明,人類對于某些基本情緒的感受方式是沒有區別的。

人臉識別技術的起始可以追溯到Suwa等[5]通過對人臉圖像序列上的特征點進行標注,之后分析這些特征點的變化軌跡并與基線模型進行比較從而得到最終的表情信息。隨著計算機設備以及GPU的更新換代,深度學習逐漸成為了新興的研究熱點議題。劉棟等[6]利用AlexNet對人臉表情進行識別,其結果相較于傳統方法而言得到了很大程度的提升。Cheng等[7]在VGG19的基礎上,采用遷移學習的方法,從而提高了識別準確率。Lu等[8]利用18層的殘差網絡來提取更深層的特征,與此同時,還利用CLBP來提取相應的紋理特征,并將以上兩者所得結果進行融合,之后再輸入到網絡之中進行識別。

但是,傳統深度學習方法,往往使用的都是參數量以及計算復雜度十分龐大的神經網絡模型,從而帶來大量的計算開銷,導致效率低下。所以,為了減小模型的參數量以及計算復雜度,研究人員從網絡模型中對參數量以及計算復雜度影響最大的卷積層入手,提出了一些全新的輕量化表情識別方法。梁華剛等[9]通過直接在卷積層中使用深度可分離卷積以減少模型的參數。劉尚旺等[10]通過通道合并的特征融合方式構建深度可分離卷積單元,來減少模型參數數量,對模型進行輕量化處理。李春虹等[11]通過使用深度可分離卷積構建兩個分類器,來進行人臉表情識別,從而實現了模型的輕量化。王韋祥等[12]通過在網絡中使用改進后的深度可分離卷積層,以在減少計算量的同時,緩解了特征信息缺失的問題。倪錦園等[13]通過使用結合通道混洗操作的深度可分離卷積結構,使得特征的表征能力有所加強。

與此同時,人臉圖像中表情特征的不確定性以及環境因素的影響,會導致部分特征在特征提取階段產生遺漏,從而影響特征的完備程度。因此,為了更好地突出有效特征從而提高表情識別的準確率,研究人員提出了一些新的人臉表情識別方法。Wang等[14]通過比對面部關鍵點然后對人臉部分進行隨機裁剪操作,從而突出局部特征,最后輸入至神經網絡中進行表情識別。Yang等[15]通過使用一種加權網絡模型,從而提取出對于表情識別有益的特征。姜目武等[16]通過比對人臉關鍵點獲取最大表情范圍以消除非表情區的干擾,將裁剪后的圖像輸入到帶權重分配機制的殘差網絡中,從而使得神經網絡可以學習到更突出的人臉表情特征。

上述方法盡管可以輕量化網絡模型或是突出特征信息,但仍存在一些問題。在神經網絡模型中使用深度可分離卷積可以大幅減小模型的參數規模從而輕量化網絡模型,但同時也會導致模型識別準確率明顯降低。同時,在特征提取階段,由于人臉表情的不確定性和可變性以及客觀因素對人臉表情特征的影響,特征的位置以及大小無法完全確定,上述部分方法盡管使用了輔助手段來突出表情特征,但就算是提取處理過后的人臉表情特征,其不確定性依舊存在,因此還是會導致特征的缺失。另外,隨著神經網絡模型的發展,模型層數逐漸加深,特征復用理念也加入到了很多網絡當中,但如果不對特征進行處理而直接進行復用,則會導致堆積大量冗余特征,從而在增加計算成本的同時還可能會遺漏掉重要的特征信息。最終影響所提取特征的質量,以及模型的識別準確率。

因此,為了更好地解決以上問題。本文提出了一種基于特征篩選結合改進卷積的殘差多尺度特征融合注意力機制模型。在該模型中采用了和深度可分離卷積一樣具有小參數量以及計算復雜度,但同時特征提取效能以及分離效果更好的藍圖可分離卷積,以提升模型性能,并結合空洞卷積的思想設計了改進后的卷積模式,以在不改變參數量以及計算復雜度的前提條件下獲得了不同大小的卷積核感受野。然后以此為基礎設計并引入了并行特征提取模塊,以達到多尺度特征融合的目的,從而減少人臉表情的不確定性以及可變性對于最終識別準確率的影響。接下來設計并引入了特征篩選模塊,以篩選出優質特征,從而減少網絡特征復用過程中冗余特征堆積對于特征提取的影響,提升特征質量。之后設計并引入了用來處理淺層輸入特征的層級,以進一步優化網絡結構,減少計算復雜度。最后引入通道注意力機制,以及性能更強的SMU激活層函數,意在進一步提升網絡的性能。本文在Fer2013數據集[17]和CK+數據集[18]上分別進行了測試,從對比結果中可以看出,該網絡相比較經典方法而言具有更好的識別準確率,同時參數量以及計算復雜度更低,因此可以更好地勝任人臉表情識別任務。

1 基本原理

1.1 藍圖可分離卷積

在神經網絡的訓練過程中,卷積核中的權重大都會收斂至一處,在這種情況下,權重間的相關性也會大幅度提升。因此,在通過對這些權重之間的相關性進行定量和定性分析之后,得出了一種全新的卷積形式,即藍圖可分離卷積[19(]blueprint separable convolution,BSConv)。

其中每個BSConv模塊都是由Q個濾波器組成,每一個濾波器都有一個藍圖和P個權重。所有P?Q權重都可以用W=(wq,p)矩陣形式來表示。

1.2 空洞卷積

空洞卷積[20](dilated convolution)相比較標準卷積而言的區別是在卷積圖譜里注入所謂的“空洞”,以此方式讓原本的小尺寸卷積核,在維持原本的計算量和參數量不變的前提條件下擁有更大的感受野。空洞卷積相比標準卷積來說,多了一個參數,即空洞率(dilation rate),空洞率指的是kernel的間隔數量(普通卷積的dilatation rate=1)。

1.3 稀疏特征重激活

通過深度連接在深層次網絡中重用淺層特征是實現高計算效率的有效方法。如果能夠在網絡訓練的過程中減少冗余特征的參與,那么對于網絡性能的提升會有很大的幫助。稀疏特征重激活(SFR)[21]方法,旨在積極地提高特征重用的效率,網絡中每一層都可以選擇性地重用前面層中最重要的特征,同時可以更新出一組新的優質特征,以增加它們對后面層級的利用價值,從而使得網絡模型在理論效率方面得到很大的提升。

特征重激活操作可以寫成如下形式:

其中,代表第l層的輸入特征,H?(?)代表特征學習層,x?代表第l層輸入特征通過特征學習層后產生的新特征,代表重新激活過后的輸出特征,G?(?)代表重激活模塊,y?代表重激活模塊輸出,U(?,?)代表重激活操作。

1.4 通道注意力機制

SE-Net[22]結構簡單,實現方便,并且即插即用,與現存的神經網絡模型契合度都很高,因此受到了廣泛的應用。SENet主要是通過學習通道之間的相互關聯性,挑選出合適的注意力,從而在不大幅提升計算量的同時,提升了網絡的性能。從整體來看,SE模塊主要由Transform、Squeeze以及Excitation三部分組成。

(1)Transform

SE-Net的第一步就是實現對于輸入信息的特征轉換,過程如公式(4):

式中,*代表卷積操作,X代表上層特征信息,X∈RH′×W′×C′令卷積核為:V=[v1,v2,…,vC],代表通道數為s的卷積核,xs代表通道數為s的特征信息。U代表輸出,U=[u1,u2,…,uC],U∈RH×W×C。

(2)Squeeze

Fsq即Squeeze操作,此操作是將同一個通道中的完整空間特征重新編碼為全局特征,也可以理解為將原本尺寸為H×W的二維特征圖壓縮至1×1大小,這里采用全局平均池化(global average pooling)來實現,具體實現過程如公式(5):

式中,Z=[z1,z2,…,zC]代表池化后的全局特征,U=[u1,u2,…,uC]代表Transform的輸出結果,H×W代表特征圖的尺寸。

(3)Excitation

在Squeeze操作之后便得到了用于描述全局的全局特征,但除此之外,還需要提取通道與通道之間的關聯信息,這一步可以用Fex,即:Excitation操作來解決。

最后將各個通道的激活值(0~1)乘以U上的原始特征,使用Fscale操作實現:

綜上,Excitation簡單來說就是通過學習各個通道的不同權重,以讓模型可以更好地對不同通道之中的特征進行判斷。

1.5 SMU激活函數

一個好的激活函數可以在很大程度上提高網絡的性能。在Leaky ReLU的基礎上,得到的全新激活函數:smooth maximum unit(SMU)[23]激活函數,其相比較其他激活函數而言,對于性能的提升最為明顯。

式(8)即為smooth maximum unit(SMU)。其中x代表輸入,μ代表平滑參數,當μ→∞時,近似函數平滑地逼近|x|,α代表訓練參數,erf代表高斯誤差函數,定義如式(9)。

2 本文采用方法

2.1 RMFANet

參考ShuffleNetV2[24]的倒置殘差結構,本文提出了一種基于特征篩選結合改進卷積的殘差多尺度特征融合注意力機制模型(RMFANet)。該模型主要由以下幾部分組成:淺層特征處理層(shallow feature processing layer,SFPL)、倒置殘差區域、全局池化層、逐點卷積層以及全連接層。

在ShufflenetV2網絡中的倒置殘差結構中使用到了深度可分離卷積,其相比于傳統卷積模式而言在參數量以及計算復雜度上有著很大的優勢,在很大程度上縮減了網絡的計算開銷以及參數量。但同時也犧牲了很大一部分識別精度,因此針對以上問題,本文在原本倒置殘差塊的基礎上使用了同樣具有小參數量以及計算復雜度但同時分離效果更好、特征提取效能更強的藍圖可分離卷積,以在不改變參數量以及計算復雜度的前提條件下提升模型的識別準確度。與此同時,在原本的倒置殘差塊中僅采用單一尺度卷積核進行特征提取,但由于人臉表情特征的多樣性以及不確定性,從而導致人臉圖片中針對表情的特征信息大小不一同時位置也不確定,而單一尺寸大小的卷積核感受野則會十分固定,其只能對固定大小以及位置的特征信息有較好的提取能力,但很難提取靈活多變的人臉表情特征,因此極易引起特征信息的缺失,所以針對以上問題,本文將藍圖卷積以及空洞卷積的思想相結合并融合SE注意力機制設計并引入了具有不同尺寸大小卷積核感受野的多尺度并行特征提取模塊,以在不增加參數規模的前提條件下獲得了更為豐富的特征信息。在原本的倒置殘差塊中存在殘差通路以進行特征復用,但在特征復用的過程中,某一層的特征一旦產生后將不會再發生任何變化,其將會以固定的形式參與后續計算,而對于網絡的深層而言,直接讓淺層特征參與本層的新特征計算可能會引入很多冗余特征,同時導致部分特征的潛在價值被嚴重忽略。因此針對以上問題,在網絡中添加了特征篩選模塊,來有選擇地更新冗余特征,從而增強特征復用的效率。與此同時,在網絡中還設計并引入了淺層特征處理層,以簡化網絡結構。最后將原本的激活層函數Relu激活函數替換為SMU激活函數,從而進一步提升了模型的性能。

網絡整體流程如下:第一步要先將輸入的圖片進行處理,然后再喂給神經網絡,在這里,本文所使用的是SFPL模塊,通過該模塊處理后,輸入圖片的分辨率從224×224被調整至56×56。在這之后再依次經過三個殘差區域中的下采樣單元(down sampling unit)以及多分支特征融合單元(multi branch feature fusion unit,MBFU),從而對特征信息進行處理。在殘差區域過后還要經過逐點卷積層、全局池化層、全連接層以及Softmax分類器這一系列操作,才能得出最終表情分類結果。模型整體結構如圖1所示。

圖1 殘差多尺度特征融合注意力機制模型Fig.1 Residual multiscale feature fusion attentional network

2.2 淺層特征信息處理

在神經網絡的初始階段,首先需要考慮的就是如何處理輸入圖像。在標準的卷積神經網絡中,一般會通過卷積結合池化的操作,來對輸入圖像進行降采樣,以將輸入圖像分辨率調整至適當大小。而在ConvNeXt[25]中,其使用的方法是:在特征信息輸入后,直接將圖片調整至需要的大小,即將原本卷積結合池化的操作合二為一,從而簡化了網絡結構,并且降低了計算復雜度。在這里,本文利用由步幅為4,卷積核尺寸大小為5×5的卷積層、BN層以及激活層組合而成的SFPL結構來代替此操作,在卷積操作中需要將圖像分辨率從224×224調整至56×56,因此需要設定padding值,以對空缺的部分進行填充,本文將padding值設為1,以實現對于輸入特征分辨率的調整,并設定輸出通道數(c=24)來確定嵌入向量的大小。最后,為了提升網絡模型的稀疏性,同時減少訓練過程中過擬合或是欠擬合現象的產生,因此在卷積層后加入了一層BN[26]正則化層,之后又在BN層后添加了SMU激活函數層以進一步提升模型的非線性能力。通過添加SFPL結構,使得模型在FER2013數據集上識別精度提升了0.124%,在CK+數據集上,識別精度提升了0.279%。具體如圖2所示。

圖2 淺層特征信息處理層Fig.2 Shallow feature processing layer

2.3 藍圖空洞可分離卷積

為了更好的將卷積進行分離,提升特征提取的效能,同時滿足多尺度特征提取的目的。本文在特征提取環節采用了通過改進后得到的藍圖空洞可分離卷積(blueprint dilated separable convolution,BDS Conv)。

首先參考了藍圖可分離卷積(BSConv)的思想,也就是調換了深度可分離卷積[27]中逐通道卷積(depthwise convolution)和逐點卷積(pointwise convolution)的順序,先經過逐點卷積的操作,調整特征維度,并對深度方向上的信息進行加權組合,再進行逐通道卷積操作,將深度信息進行分離。藍圖可分離卷積相較于傳統的深度可分離卷積的優勢可以具體分析為:假設卷積層中每個濾波器的尺寸為M×N×N,其中N×N為卷積核尺寸大小,其中濾波器沿深度方向可以劃分成M個卷積核,每個卷積核都可以類比為一張二維圖像,這些二維圖像均具有相同的結構,稱此二維圖像為“藍圖”,也即將每個二維卷積核稱之為“藍圖”。傳統的深度可分離卷積是通過研究不同內核之間的相關性來對標準卷積進行分離,也就是隱式地假設一個用于所有內核的三維藍圖,即將深度方向上的所有二維藍圖組合在一起。而藍圖可分離卷積則是通過研究卷積核內部的相關性來對標準卷積過程進行分離,即將三維藍圖進行分解,拆解成多個二維藍圖,其中藍圖數量與內核數量保持一致,也即將原本的三維整體,拆分成多個二維平面,從而進一步將卷積過程進行分離,提升了卷積分離效果,從而可以更好地提取不同特征通道在空間交互位置上的特征信息,進一步提升特征提取效能。

在本文中,出于多尺度特征提取的目的,因此需要設置不同尺度大小的卷積核來提取特征信息,如果像傳統方法一樣直接引入大尺寸卷積核那必然也會帶來更大的計算量,因此本文參考了空洞卷積的思想,將原本的逐通道卷積層替換為改進后的空洞逐通道卷積層(dilated-depthwise convolution,D-DWC),分別將兩個D-DWC的擴張因子(dilation rate)設置為1和2,從而得到了BDSConv-1以及BDSConv-2,即一條支路的D-DWC還保持原本的感受野,同時提升另一條支路D-DWC的感受野大小,簡單來說,就是在另一條支路中并沒有采用直接擴大卷積核尺寸的方法,而是在卷積核中注入一個空洞,從而在保證其參數量以及計算復雜度不變的前提條件下擴大了其感受野的大小,以達到多尺度提取特征的目的。具體結構如圖3所示。

圖3 藍圖空洞可分離卷積示意圖Fig.3 Blueprint dilated separable convolution

2.4 融合注意力機制的多尺度并行特征提取

由于人臉表情特征的多樣性以及不確定性,從而導致人臉圖片中針對表情的特征信息大小不一同時位置也不確定,因此如若只使用單一尺度卷積核的卷積層進行特征提取,那么卷積核的感受野則會十分固定,一種尺度的卷積核只能對固定大小以及位置的特征信息有較好的提取能力,但很難提取靈活多變的人臉表情特征,因此極易引起特征信息的缺失,所以針對以上問題,本文設計并引入了具有不同尺寸大小卷積核的多尺度并行特征提取模塊(multiscale parallel feature extraction,MPFE)。該模塊主要由兩部分組成:并行卷積特征提取支路、殘差支路。其中并行特征提取支路由BDSConv-1以及BDSConv-2組成。通過融合在不同尺度上進行并行卷積運算之后得到的結果從而獲得了更為豐富的特征信息,增強了網絡的特征完備性,其中不同尺寸大小的卷積核不僅增強了網絡的泛化和結構表達能力,同時還增加了網絡模型的非線性能力,在很大程度上提升了模型的特征學習能力,使得神經網絡可以更好地提取特征信息。與此同時,隨著網絡層次的不斷加深,在網絡的每一層中都會丟失部分特征信息,當到達最后一層時往往只包含少量特征信息,為解決這一問題,在該模塊中添加了殘差通路,通過復用前層特征信息,使得網絡可以保留更多的特征信息,以進一步完備特征。在并行特征提取之后將三條支路所產生的特征信息進行加和,以達到多尺度特征融合的目的,并將融合后的特征信息經過SE模塊的加權化處理,以進一步強化特征信息。與此同時,隨著網絡深度的增加,很容易出現收斂速度變慢、數據分布不均等問題。因此,在每個卷積層后都加入BN操作,對輸入的數據先做歸一化處理再送入下一層,用來提升網絡的收斂能力,同時減少過擬合以及欠擬合現象的產生,在逐點卷積的BN層后還使用到了SMU激活函數,用來提升網絡模型的性能。具體結構如圖4所示(其中D-DWC為dilated-depthwise convolution)。

圖4 多尺度并行特征提取模塊Fig.4 Multiscale parallel feature extraction

2.5 特征篩選

針對在具有特征復用結構的網絡中,某一層的特征一旦產生后將不會再發生任何變化,其將會以固定的形式參與后續的所有計算。因此對于網絡的深層而言,直接讓淺層特征參與本層的新特征計算可能會引入很多冗余特征,同時導致部分特征的潛在價值被嚴重忽略。因此針對以上問題,在網絡中添加了特征篩選模塊,來有選擇地更新冗余特征,從而增強特征復用的效率。在特征篩選模塊中首先將MPFE模塊以及SE注意力機制模塊處理過后的特征經過1×1逐點卷積層,BN層以及激活層,以對輸入的特征進行信息融合,然后經過SFR操作,對特征進行更新,SFR以經過MPFE模塊以及1×1卷積層處理過后的特征信息為輸入,對之前的每一個特征產生一個更新量。隨后使用該更新量,匯入殘差通路之中利用更新操作,即使用加的操作來實現對之前特征的更新。SFR操作對于優質特征篩選的能力以及優勢主要體現在兩方面,第一,在輕量級神經網絡中,卷積層的數量對模型的輕量化屬性有巨大的影響,如果引入過多的卷積層,那么必然會帶來更高的計算開銷以及參數量,會破壞輕量級神經網絡的輕量化屬性,而在SFR操作當中,更新量的產生僅僅利用一部分連接進行特征學習即可得到,而不需要卷積的參與,從而減小了參數以及計算量的增加。第二,如果直接對之前所有的特征進行重激活的操作是非常消耗計算開銷的,并且,在產生特征更新量的時候,有些特征在該層本身就可以被有效利用,如果對這些特征進行更新,反而會起到相反的作用,使得特征質量降低,因此對于這些特征不需要進行任何更新,所以SFR可以自主地選擇需要產生相應更新量的特征,而不需要更新的特征則會生成空白更新量,不對特征進行更新,從而保證該操作的有效性以及高效性,經過更新后的特征可以更好地被后續層級所利用,提升了特征質量。同時,通過消融實驗部分可以看出,加入特征篩選模塊后模型的識別準確率有了十分明顯的提升,從而驗證了該模塊的有效性。整體結構如圖5所示。

圖5 特征篩選模塊Fig.5 Feature filtering

2.6 倒置殘差單元

本文設計了全新的倒置殘差單元,殘差單元分為下采樣單元(down sampling unit)以及多分支特征融合單元(multi branch feature fusion unit,MBFU)兩種不同的組成形式,其中下采樣單元即為下采樣殘差塊(down sampling block),多分支特征融合單元則是根據不同倒置殘差區域深度的不同,由不同數量的多分支特征融合殘差塊(MBF block)堆疊而成。

下采樣殘差塊(down sampling block):在下采樣殘差塊中要先將輸入復制成兩份,然后分別經過兩條下采樣分支,分支中的3×3 Depthwise Conv被用來縮小特征圖分辨率,即將分辨率調整至原來的一半,1×1 Pointwise Conv被用來調整特征維度,提升通道數。最后經過Concat以及Channel Shuffle操作以對特征通道數進行翻倍,同時將特征信息進行混洗,加強特征信息的表達能力。這個結構在設計上的原則為:在使用卷積進行降維時,要對通道數進行翻倍從而來維持特征量。具體結構如圖6所示。

圖6 下采樣殘差塊Fig.6 Down sampling block

多分支特征融合殘差塊(MBF block):在MBF block中,要先將輸入特征平均分裂成兩部分,一部分先經過MPFE模塊以及SE注意力機制模塊處理,然后將輸出特征復制成兩份,一份輸入到特征篩選模塊中對特征信息進行過濾,再將過濾后的特征信息匯入到另一條支路中從而對特征進行更新,另一份特征不做處理。最后將兩條支路的特征信息進行Concat拼接,并進行Channel Shuffle操作,以強化特征信息。具體結構如圖7所示。

圖7 多分支特征融合殘差塊Fig.7 Multi branch feature fusion block

3 實驗與分析

3.1 數據集

本文在實驗階段采用了Fer2013數據集和CK+數據集來對方法進行驗證。Fer2013數據集是由訓練集以及測試集兩部分組成的,其中訓練集包含28 709張圖片,測試集包含7 178張圖片。其中所有圖片都是分辨率為48×48的灰度圖片。在Fer2013數據集中表情被劃分為7類,分別是:憤怒,厭惡,恐懼,開心,難過,驚訝和中性。該數據集的來源是2013年的Kaggle比賽,由于這個數據集中的圖片大多是從網絡中下載的,所以圖片的質量也是參差不齊。數據集中表情示例如圖8所示。

圖8 Fer2013數據集示例Fig.8 Fer2013 dataset example

CK+數據集在2010年發布,其是在Cohn-Kanade Dataset的基礎上進行擴展而得到的。CK+數據集中共包含123個項目,593個圖片序列,而在這593個圖片序列中,327個序列是具有表情標簽的。這個數據集是在實驗室條件下采集到的,所以數據集中的數據質量可以得到保證,數據集相對而言更加嚴謹。本文在CK+數據集上用來提取測試集的方式為K折交叉提取方式。即:將CK+數據集先分為K份,然后將其中1份作為測試集,再將剩下的K-1份作為訓練集,共實驗K次,然后取所得結果的平均值作為最終結果,其中最大的置信度區間值所對應的表情類別即為輸出結果,這種方法可以在很大程度上減少分類錯誤情況的產生。在本文的實驗中將K設為10。數據集中表情示例如圖9所示。

圖9 CK+數據集示例Fig.9 CK+dataset example

3.2 實驗環境及參數設置

本文所有實驗都以Pytorch深度學習框架作為基礎,使用的編程語言為Python 3.6,在Windows 10 64位操作系統上進行實驗測試。實驗所用硬件平臺為:Intel Core i5-9300H@2.40 GHz四核,16 GB內存,Nvidia GeForce RTX 2060 6 GB。

模型在Fer2013數據集的訓練過程中,批處理尺寸設置為32;迭代次數設為350;采用隨機梯度下降來對訓練過程進行優化,動量設為0.9;初始學習率設為0.01,并且采用學習率遞減的方法,使模型更容易收斂,即當迭代到第80代時,每進行5次迭代就將學習率乘以0.9。

模型在CK+數據集的訓練過程中,和在Fer2013數據集中不一樣的是迭代次數從350減至300;學習率遞減設定為從第250代開始,每進行1次迭代就將學習率乘以0.8。

3.3 數據增強

在網絡訓練的過程中,為了防止網絡產生過擬合的情況,可以對原數據進行圖像變換的操作,例如切割,翻轉或是鏡像等等。以上操作均稱為數據增強。數據增強操作還有另外一個好處就是可以在很大程度上擴大原本數據集中的樣本容量,使得訓練后的網絡具有更強的魯棒性。本文在訓練階段將原本的圖像采用隨機切割的方法,將圖像切割至44×44的大小,在這之后,將圖像采取隨機鏡像的操作,然后再進行訓練。測試階段,本文采用了一種集成的方法來減少干擾因素的影響。分別將圖片的左上,右上,左下,右下四個角,以及中心進行切割,之后再對切割后的圖片進行隨機鏡像操作,通過這一系列的操作,使得數據集相比較原本而言擴大了整整10倍,很大程度上增強了樣本的豐富程度。

3.4 實驗結果及分析

3.4.1 數據集實驗結果

為了驗證本文所提出人臉表情識別方法的有效性,因此分別在Fer2013以及CK+數據集上進行了實驗,并將實驗結果進行可視化處理。

圖10是模型在Fer2013數據集上得到的訓練精度曲線,通過分析圖片可以得出:隨著迭代次數的疊加,曲線整體是在上升的,也就是說訓練的準確率是在不斷提高的,繼續分析可以看出,在訓練階段的最初期,也就是25代以前,訓練精度的提升是最快的。當訓練進行至第40代左右的時候,曲線上升開始放緩,斜率開始逐漸下降。但到了第80代左右,曲線斜率又開始呈增長態勢,曲線上升幅度開始變快。一直到200代之后,曲線變得平穩,訓練的精確度也不再明顯變化,直至最終趨于收斂。

圖10 Fer2013訓練精度曲線Fig.10 Fer2013 training accuracy curve

圖11是測試精度曲線,通過分析圖片可以得出:隨著迭代次數的增加,和訓練曲線一樣,測試曲線也整體是在上升的,并且也是在訓練的初期,也就是25代以前,測試精度的提升是最快的。但這之后曲線的整體走向就已經開始逐漸穩定,曲線的斜率逐漸下降,精度的提升也在逐漸放緩,直至最終趨于平穩,達到收斂的狀態。

圖11 Fer2013測試精度曲線Fig.11 Fer2013 test accuracy curve

圖12是訓練損失曲線,通過圖片本文可以看出:隨著模型訓練的進行,模型在數據集上的訓練誤差在逐漸減小,在第25代以前,曲線下行的趨勢很快,之后漸漸變慢,但到了80代左右的時候,下降速率又開始增快,一直到200代左右,曲線漸漸趨于平穩,不再發生明顯變化。從中不難分析得出模型在訓練的過程中既沒有出現過擬合的情況,也沒有出現欠擬合的情況。

圖12 Fer2013訓練損失曲線Fig.12 Fer2013 train loss curve

為了進一步分析模型對各類表情的識別準確率,本文分別繪制了其在Fer2013數據集和CK+數據集上識別結果的混淆矩陣。

從圖13所示Fer2013測試集的混淆矩陣中,不難看出本文所提出的方法對于高興和驚訝這兩種表情相比較于其他表情,具有更高的識別度,準確率分別達到了0.88以及0.84,但同時,對于恐懼、憤怒和悲傷這三類表情的識別率相對而言較低一些。之所以會出現這種現象是因為:對于Fer2013數據集來說:高興和驚訝兩類表情與其他種類表情相比,面部特征更加突出,因此神經網絡可以更好地提取到相關特征,從而得到更高的識別率。在高興狀態下的人臉面部表情圖像往往具有嘴角上揚、眼角處產生紋路等具有明顯區分度的特征信息。在驚訝狀態下的人臉表情中同樣會表現出眼睛睜大、嘴巴打開等明顯的表情特征。相比較而言,恐懼、憤怒和悲傷三種表情識別率相對較低。其中恐懼類別的識別難度最大,這是因為在恐懼的表情中也存在嘴巴張開的情況,只是嘴巴張開的幅度略大一些,這導致恐懼與驚訝兩個類別很容易產生混淆,與此同時,其還容易與悲傷類別相混淆,因為在這兩類表情特征中均有皺眉、額頭緊縮等同類特征,所以恐懼類表情的識別率是所有類別中最低的。而剩下的兩類表情和恐懼類表情均屬于消極情緒表情,三類表情特征之間具有較強的相似性,面部關鍵點的區別通常很小,因而導致相互混淆的概率較高,從而導致這三類表情的識別準確率相對較低。

圖13 Fer2013混淆矩陣結果Fig.13 Fer2013 confusion matrix results

而從圖14所示CK+測試集的混淆矩陣中可以看出,在對七類表情的識別準確度上,相比較先前的Fer2013測試集來說,識別的準確率有了很大程度的提升,并且每類表情的識別準確率也不像Fer2013數據集一樣差別很大,產生這種現象的原因是CK+數據集是在實驗室條件下采集到的,從而減少了環境和人為因素的干擾,因此圖片質量可以得到保證,所以模型在CK+數據集上才會有更加優秀的識別準確率。

圖14 CK+混淆矩陣結果Fig.14 CK+Confusion matrix results

3.4.2 與前沿方法進行比較

在本小節中,為了驗證所提出方法的有效性,本文分別在Fer2013數據集以及CK+數據集上與多種前沿算法相比較。

表1為不同算法,在兩種數據集上進行試驗的識別率以及參數量對比結果。文獻[28]通過使用對抗網絡模型來進行表情識別;文獻[29]通過使用以并行卷積為基礎的神經網絡來進行表情識別;文獻[30]通過使用端到端的深度網絡來進行表情識別;文獻[31]通過使用在Inception結構的基礎上引入空洞卷積的方式構筑的神經網絡來進行表情識別;文獻[32]通過使用淺層CNN來進行表情識別;文獻[33]通過使用分解卷積來提取表情特征,并引入注意力機制來對特征信息進行加權,從而進行表情識別;文獻[34]通過使用添加注意力機制的神經網絡來進行表情識別。文獻[35]通過采用擴展后的深層神經網絡來進行表情識別;文獻[36]通過使用Gabor濾波器以及遺傳算法來進行表情識別;文獻[37]通過使用一種基于ROI引導的深層結構來進行表情識別;文獻[38]通過使用在CNN中添加自適應池化的方式進行表情識別;文獻[39]通過融合局部與全局兩種不同特征來進行表情識別;文獻[40]通過使用結合Inception結構以及ECA注意力機制的網絡模型來進行表情識別;通過對比可知本文方法在兩個數據集上所得到的70.298%以及96.566%識別準確率相比較于其他方法而言,效果更好,識別率更高。

表1 對比實驗測試結果Table 1 Contrast experiment test result

模型的性能不光要從最終的識別準確率來考慮,輕量化屬性同樣是考量神經網絡模型性能的一大環節。因此,為了在保證模型識別準確率的同時不丟失輕量化的屬性,故將以上表格中已知參數量的方法與本文所提出的方法進行對比,以進一步評估本文所提方法的魯棒性。從表1中不難看出,本文所提方法相比較于其他幾種方法而言,在參數量上均有優勢。

綜上而言,本文所提方法在保證輕量化的前提條件下,又維持了較高的識別準確率,模型性能因此得到了考證。

3.4.3 消融實驗

為了進一步驗證本文方法的有效性,分析不同部分對于模型識別準確率,參數量以及計算復雜度的影響,因此分別在Fer2013和CK+數據集上進行了消融實驗。共分為以下六步:

(1)不添加任何模塊,對基線網絡進行實驗;

(2)只加入SFPL模塊;

(3)在第(2)步的前提條件下加入MPFE模塊;

(4)在第(3)步的前提條件下加入特征篩選模塊;

(5)在第(4)步的前提條件下加入SE注意力機制;

(6)在第(5)步的前提條件下將激活函數替換為SMU激活函數,也即本文所提出的方法。具體結果如表2所示。

表2 消融實驗測試結果Table 2 Ablation experiment test result

從表2中可以看出,本文所提方法的識別率相比較基線網絡而言在Fer2013數據集以及CK+數據集上都有顯著的提升,分別達到了1.858個百分點以及3.183個百分點,但與此同時,參數量以及計算復雜度僅有很小幅度的上漲,依舊保持在了較低的水準,從而保證了所提方法的輕量化屬性,同時也印證了模型的有效性。

4 結語

本文針對人臉表情識別過程中由于人臉特征的多樣性和不確定性,導致的特征缺失和特征提取率不足等問題,以及在網絡的特征復用過程中存在冗余特征的問題,提出了一種殘差多尺度特征融合注意力機制模型。在模型中通過使用更有效的改進后卷積形式,提升了特征提取的效能,并以此為基礎設計了并行特征提取模塊,用來融合多尺度特征信息,減少特征信息缺失對識別結果所帶來的影響。之后加入了特征篩選模塊,以讓網絡可以對輸入特征進行篩選,在減少冗余特征影響的同時篩選出更為優質的特征,提升特征質量。接下來又設計了淺層輸入特征處理層,在簡化網絡結構的同時還減少了計算復雜度。在這之后又引入了通道注意力機制以對局部特征進行加權化處理,從而達到細化特征信息的目的。最后將原本的激活層函數替換為SMU激活函數,以讓模型可以擁有更好的識別率。

本文所提出的網絡模型,結構清晰簡單,訓練過程穩定,在訓練的過程中沒有產生欠擬合或是過擬合的情況。同時,為了驗證模型的性能,本文分別在Fer2013和CK+數據集上進行了充分的實驗,從實驗結果可以看出,本文所提出的方法與前沿算法相比較,取得了更好的準確度,并且參數量以及計算復雜度都維持在了較低的水平,因此,所提出方法的有效性也是得以驗證。但模型對于其中一部分表情分類的識別準確率依舊不夠理想。

所以下一步將嘗試利用GAN網絡生成更多人臉圖像,并采用更多的數據集預處理方法,例如:隨機亮度、隨機對比度,或是對圖片模糊等等對FER2013數據集進行擴充,以進一步突出圖片中的表情特征信息,同時彌補樣本數量不足導致訓練不充分的問題。同時嘗試不同尺寸大小卷積核的組合以探尋進一步提升識別準確率的可能,以進一步提升模型性能。嘗試藍圖卷積的變體形式子空間藍圖卷積,以尋求卷積進一步分離的可能性,從而獲得更好的特征提取效能,提升模型識別準確率。

致謝:本論文由“機器人仿生與功能研究北京市重點實驗室”資助。

猜你喜歡
特征提取特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
3D打印中的模型分割與打包
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 日本成人一区| 国产精品美女自慰喷水| 真实国产精品vr专区| 亚洲综合亚洲国产尤物| 日韩无码精品人妻| 2022国产无码在线| 欧美日韩北条麻妃一区二区| 日本久久网站| 久久精品66| 欧美一级高清片欧美国产欧美| 自拍亚洲欧美精品| 四虎在线观看视频高清无码| 国产成人精品第一区二区| 国产成人91精品免费网址在线| 91精品免费高清在线| 国产成人精品高清不卡在线| 农村乱人伦一区二区| 日本一区二区三区精品国产| 国产男女免费完整版视频| 伊在人亚洲香蕉精品播放| 99偷拍视频精品一区二区| 54pao国产成人免费视频| 欧美亚洲国产视频| 亚洲最大情网站在线观看| 国产无码性爱一区二区三区| 成年女人a毛片免费视频| www.日韩三级| 26uuu国产精品视频| 国产精品三区四区| 国产精彩视频在线观看| 国内精品小视频福利网址| 一级毛片免费的| 国产va视频| 丁香五月亚洲综合在线| 久草热视频在线| 日本国产精品| 国产又色又爽又黄| 日本道中文字幕久久一区| 91色在线视频| 欧美成在线视频| 91在线精品免费免费播放| 国产美女在线免费观看| 中文字幕亚洲乱码熟女1区2区| 丁香综合在线| 99一级毛片| 久久影院一区二区h| 热思思久久免费视频| 伊大人香蕉久久网欧美| 91成人免费观看| 精品国产黑色丝袜高跟鞋| 国产精品永久免费嫩草研究院| 成人久久精品一区二区三区 | 婷婷综合在线观看丁香| 国产微拍精品| 国产人成在线视频| 精品国产网站| 日韩成人午夜| 日本一区高清| 日韩 欧美 小说 综合网 另类| 国精品91人妻无码一区二区三区| 久久人人97超碰人人澡爱香蕉| 国产一区二区视频在线| 欧美色视频在线| 亚洲狠狠婷婷综合久久久久| 在线欧美日韩| 免费一级毛片| 国产福利微拍精品一区二区| 97狠狠操| 欧美中文一区| 亚洲精品无码专区在线观看| 红杏AV在线无码| 国产精品思思热在线| 欧美综合一区二区三区| 91精品国产自产在线观看| 欧美性精品不卡在线观看| 久久性视频| 精品久久久久久成人AV| 性视频一区| 久久久久国产精品免费免费不卡| 91精品国产91久久久久久三级| 欧美成人手机在线观看网址| 亚洲美女视频一区|