999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度多尺度融合注意力殘差人臉表情識別網絡

2022-04-21 06:51:54高濤楊朝晨陳婷邵倩雷濤
智能系統學報 2022年2期
關鍵詞:特征

高濤,楊朝晨,陳婷,邵倩,雷濤

(1.長安大學 信息工程學院,陜西 西安 710000;2.陜西科技大學 電子信息與人工智能學院,陜西 西安 710021)

情緒包含大量的情感信息,當人們面對面交流時,情緒會自動或不自覺地通過面部表情表現出來[1]。隨著人工智能技術的飛速發展,人臉表情識別(FER)已成為計算機圖像處理中一個重要的研究課題。

人臉表情識別主要包括預處理、特征提取和分類識別3個部分[2]。其中,算法識別精度高低主要由特征提取方法決定。人臉表情特征提取方法主要分為基于傳統特征提取的方法和基于深度學習的方法[3]。傳統的特征提取方法主要包括局部二值模式(LBP)[4]、類Haar 特征[5]、Gabor 小波變換[6]和方向梯度直方圖(HOG)等。Li 等[7]基于LBP 方法提出了一種使用三個正交平面的局部二值基線方法(LBP-TOP),一定程度上消除了光照變化的影響,但旋轉不變性使得算子對方向信息過于敏感。為了解決這一問題,Rivera 等[8]學者提出的局部特征描述符LDN 利用梯度信息使得算子對光照變化和噪聲具有較強的魯棒性。然而,傳統的表情識別算法無法有效處理由于不同姿勢、遮擋等引起的非線性面部外觀變化,難以有效提高分類水平。

近年來,深度學習憑借其優異的特征提取能力逐步應用于人臉表情識別領域。Kim 等[9]學者對適用于大規模圖像識別的VGG-face 模型進行漸進式微調識別人臉表情,但大多數人臉表情數據庫樣本較少導致該網絡易出現過擬合問題。An等[10]學者提出了一種基于MMN 線性激活函數的自適應模型參數初始化方法,可有效克服過擬合問題,但面對含有大量表情無關因素時算法魯棒性較差。Xie 等[11]學者提出了一種多路徑變異抑制網絡(MPVS-NET),但該網絡速度較慢且不宜收斂。由于模糊的面部表情、低質的面部圖像及注釋者的主觀性帶來的不確定性,對定性的大規模面部表情數據集進行標注是非常困難的。針對這一問題,Wang 等[12]學者提出了一種能有效抑制不確定性的自修復網絡(SCN),防止網絡過度擬合不確定的人臉圖像。一般來說,深層網絡更易提取到具有豐富語義信息的深層特征。但過深的網絡容易出現梯度爆炸或梯度消失現象。針對這一問題,He 等[13]學者提出了深度殘差網絡(ResNet),利用短路鏈接使得梯度正常回傳,較好地解決了網絡退化問題。但訓練參數量仍舊較大,且殘差網絡并沒有考慮不同尺度特征之間的相互關系對特征識別的影響,導致大量有效特征丟失。

上述研究均使用完整特征圖作為特征輸入,然而在實際分類任務中,特征的作用程度是不同的。為了突出對特征識別有效的信息,一些研究引入了注意力機制。Li 等[14]學者提出了一種具有注意力機制的CNN 網絡結構可識別臉部遮擋區域,但網絡依賴于人臉關鍵點檢測,遮擋面積較大時,關鍵點難以與人臉數據集生成映射。在此基礎上,Liu 等[15]學者提出了一種條件CNN 增強型隨機森林算法(CoNERF),從顯著引導的人臉區域中提取深層特征,抑制光照、遮擋和低分辨率帶來的影響。然而上述方法仍保留了較多的冗余信息,且均為完整網絡結構,不易遷移。Hu 等[16]學者采用全新特征重標定方式提出一種通道注意力網絡(SE-Net),顯示建模特征通道之間的相互依賴關系,進而提升有用特征并抑制用處不大的特征,且能夠直接集成到現有網絡中,計算代價小,沒有冗余信息。

針對上述問題,本文提出一種深度多尺度融合注意力殘差網絡(deep multi-scale fusion attention residual network,DMFA-ResNet),主要改進包括以下3個方面:

1)設計了一個由7個注意力殘差學習單元構成的注意力殘差模塊,注意力殘差學習單元由2 條包含卷積層的支路和1個短路鏈接構成,將融合后的特征經過注意力機制,對輸入圖像進行并行多卷積操作,以獲得圖像多尺度特征,突出局部重點區域,有利于遮擋圖像特征學習;

2) 提出多尺度融合模塊,網絡整體將各個注意力殘差模塊的特征輸出進行多尺度融合,以獲取更豐富的圖像特征;

3)在網絡模型中增加過渡層以去除冗余信息,在保證感受野的情況下簡化網絡復雜度。并使用全局平均池化+ Dropout 的設計減少參數運算,使網絡具有更好的抗過擬合性能。

1 DMFA-ResNet 算法

1.1 ResNet 網絡結構

ResNet 網絡通過引入殘差模塊,在算法前向傳播過程中使得卷積層之間形成跳躍連接,實現對輸入、輸出的恒等映射,并采用1×1、3×3 的小卷積核,在解決網絡退化問題的同時進一步加深網絡,ResNet-50 的基本殘差學習單元如圖1所示。

圖1 殘差學習單元Fig.1 Residual learning unit

圖1 中,x表示輸入,F(x)表示殘差映射,殘差單元的輸出為

當殘差F(x)=0,殘差學習單元的功能就是恒等映射;則深層L的輸出為

其反向梯度為

1.2 SE-Net 注意力模塊

SE-Net 是Hu 等[16]學者提出的一種通道注意力網絡,核心為特征壓縮操作Fsq和特征激勵操作Fex。Fsq從通道維度將[H,W,C]的輸入特征圖壓縮為[1,1,C]的輸出特征圖,使得每個二維特征通道轉換為一個具有全局感受野的實數。Fex通過對每個通道生成權重,顯式建模特征通道間的相關性,并逐通道加權到原始特征圖上,完成通道維度上的特征重標定,加強關鍵特征,抑制非顯著特征,從而提高網絡的整體表征能力。

2 深度多尺度融合注意力殘差網絡

基于ResNet-50 殘差網絡,本文提出一種深度多尺度融合注意力殘差網絡(DMFA-ResNet),該網絡由注意力殘差模塊(attention residual module,ARM)、多尺度特征融合模塊、過渡層、全局平均池化層、Dropout 和Softmax 分類層構成,網絡結構如圖2 所示。

圖2 DMFA-ResNet 結構圖Fig.2 DMFA-ResNet structure

深度神經網絡的輸入圖片一般較大,為避免后續計算量爆炸,需要將輸入圖片進行下采樣后再輸入進卷積神經網絡。原ResNet 網絡將輸入圖像經過一個7×7 大卷積層和最大池化層后,再輸入進后續殘差模塊。7×7 大卷積層和最大池化層將輸入圖片的分辨率從224×224 下采樣至56×56,在減少計算量的同時最大程度保留了原始圖像細節信息。DMFA-ResNet 使用3個3×3 小卷積層代替原7×7 大卷積層,在保證與原網絡層相同感受野的前提下,進一步提升了網絡深度,使得網絡能夠提取到更深層次的語義信息。

2.1 注意力殘差模塊

注意力殘差模塊(ARM)由7個具有3 條支路的注意力殘差學習單元構成。注意力殘差學習單元由兩條殘差學習支路、一條恒等映射支路和SE-Net 注意力模塊構成。為了使輸入經過3×3 卷積層后的特征圖維數相同,通過殘差學習支路的第一個1×1 卷積層對輸入進行降維。通過對輸入圖像進行并行的多卷積操作,使得網絡能夠提取到不同深度的多尺度表情圖像特征。再將這兩條殘差學習支路所提取到的特征采用Concat 方法進行融合,即將兩個需要融合的特征圖的通道進行拼接,將兩條殘差學習支路輸出的特征圖融合后的特征通過1×1 卷積進行升維,確保輸入、輸出的維數相等。最后利用注意力機制突出重點局部區域,獲得圖像更準確的特征以提高識別準確率,有利于遮擋圖像的特征學習。注意力殘差模塊和注意力殘差單元的結構圖分別如圖3、4 所示。

圖3 注意力殘差模塊Fig.3 Attention residual module

圖4 注意力殘差單元Fig.4 Attention residual unit

2.2 過渡層

隨著網絡深度不斷加深,運算參數量持續增多,容易使得網絡過度學習輸入與輸出之間的映射關系,將大量干擾信息錯認為重點特征。

在注意力殘差模塊之間引入由一個3×3 卷積層和最大池化層組成的過渡層以去除冗余信息。3×3 卷積層能夠在不改變特征圖大小的情況下增大維數,提升網絡線性轉換能力。最大池化層能夠對輸入圖像進行下采樣以減小參數矩陣的尺寸以及卷積層參數誤差造成估計均值的偏移,其結構如圖5 所示。

圖5 過渡層結構Fig.5 Transition layer structure

2.3 多尺度特征融合模塊

經過各個注意力殘差模塊后,人臉表情圖像的多尺度特征具有不同特點:淺層特征圖尺寸較大,通道數較少,具有豐富的細節信息;深層特征圖尺寸較小,通道數較多,包含豐富的抽象語義信息。因此本文設計了一個多尺度特征融合模塊將3個注意力殘差模塊產生的多尺度特征圖進行融合。首先將前兩個注意力殘差模塊的輸出特征經過最大池化操作下采樣至7×7×128 和7×7×256;然后通過Concat 通道融合方法將下采樣過后的輸出特征圖和最后一個注意力殘差模塊的輸出特征圖進行融合;再將融合后的特征圖使用1×1 卷積核進行升維,最終得到具有豐富特征信息的7×7×1 024 輸出特征圖。

2.4 全局平均池化+隨機失活

通常情況下,神經網絡都會添加全連接層減少特征位置對分類帶來的影響。但人臉基本位于圖像中央且占據絕大部分像素,位置信息并不重要。因此采用全局平均池化層代替全連接層加強特征圖與類別的一致性,直接對空間信息進行求和實現降維,極大地減少了網絡參數。Dropout 原理又名隨機失活原理,是指在網絡訓練過程中隨意拋棄某些神經元,破壞特征信息之間密切的交互作用,使得網絡不會過于依賴某些局部特征,增強模型泛化性。

本文使用全局平均池化+隨機失活設計,簡化網絡復雜度,減少運算量,避免過擬合現象,進而提高網絡泛化性。

3 實驗結果與分析

3.1 實驗環境與評價指標

實驗使用的深度學習框架為Tensorflow,計算機操作系統為Windows10,顯卡型號為NVIDIA Quadro P4000,顯存為8BG。

實驗使用錯誤率(error rate)、準確率(accuracy rate)、混淆矩陣和F1-score 作為評價指標。

錯誤率是指預測值與真實值不相同的樣本數占總樣本數的比例,準確率是指預測值與真實值相同的樣本數占總樣本數的比例。將真陽性(TP)、假陽性(FP)、真陰性(TN)和假陰性(FN)4個指標一起呈現在表格中稱為混淆矩陣。F1-score 為精準率和召回率的調和平均數,取值范圍從0~1,其計算公式為

3.2 實驗數據集及預處理

3.2.1 實驗數據集

實驗采取3個人臉表情數據庫驗證算法有效性,分別為CK+、JAFFE 和Oulu-CASIA。

CK+數據集共有123 名實驗者,實驗共使用981 張標記圖片用于本文實驗。JAFFE 數據集共包含213個圖像、7 類表情,平均每人每種表情有4 張左右。Oulu-CASIA 數據集由80個人的6 類基本表情構成,實驗選取可見光成像系統下的Strong 強光圖像集,在每個序列中選取最后5個峰值幀,形成共2 400 幅圖像。

3.2.2 數據預處理

由于人臉表情識別數據庫樣本較少,本文使用裁剪、旋轉以及遮擋方法對數據集進行擴充,具體步驟如下:

1)首先對CK+和JAFFE 數據集進行裁剪處理,去除多余的背景,將背景對模型的影響降到最低。

2)分別將JAFFE 數據集圖像以順時針、逆時針旋轉5°后的圖像擴充數據集,擴充完畢共852 張標記圖片用于實驗,其中訓練集680 張,驗證集172 張,如表1 所示。

多數本科高校設置的《中級財務會計》中采用“X+X”模式,理論和實踐按照一定的比例實施,但是授課教師極少具有實際會計學操作經歷,應該采用培訓、進修、定崗實習或者聘請有經驗的校外導師等方式,為實踐教學順利開展提供良好的教學團隊。

表1 JAFFE 擴充數據集樣本分布Table1 Sample distribution of expanded JAFFE

3)通過在眼睛、嘴巴位置添加黑色框來模擬現實中存在的遮擋情況,如由墨鏡、口罩等引起。

3.3 實驗結果與分析

3.3.1 網絡性能實驗分析

1)訓練樣本對性能影響

為探討訓練樣本對網絡性能的影響,設置訓練樣本數目對比實驗。在其余參數量一致的情況下,在JAFFE 擴充數據集(852 張)上進行訓練樣本分別為341、511、680 的對比實驗,實驗結果如表2 所示。

表2 訓練樣本對性能影響Table2 Effect of training sample number on performance

由表2 可知,隨著訓練樣本不斷增多,網絡性能逐步增強,當訓練樣本為680個時,網絡識別率達到最高96.3%,因此在網絡訓練過程中,應盡可能增大訓練樣本數目,保證網絡能夠學習到足夠信息。

2)網絡結構

為驗證各個模塊的有效性,設置包含針對不同模塊的對比網絡進行消融實驗。在參數量基本一致的情況下,以改進的基礎殘差模塊網絡DFR(deep fusion residual network)為對比基準,將多尺度特征融合模塊添加進網絡結構中構成深度多尺度融合殘差網絡 DMFR (deep multi-scale fusion residual network),將注意力機制添加進網絡結構中構成深度融合注意力殘差網絡DFAR (deep fusion attention residual network),在Oulu-CASIA 數據集上進行表情識別消融實驗,實驗結果如表3 所示。

表3 表情識別消融實驗Table3 Ablation experiment of facial expression recognition

由表3 可知,改進的基礎殘差模塊網絡DFR在Oulu-CASIA 數據集上的識別率為91.16%。當分別增加多尺度特征模塊和注意力機制模塊后,Oulu-CASIA 的識別率分別提升到91.69% 和91.53%,表明多尺度特征融合模塊對網絡的貢獻大于注意力機制模塊。

為探討注意殘差單元數目對網絡性能的影響,設置注意殘差單元數目對比實驗。在其余參數量基本一致的情況下,將注意殘差單元數目分別設置為4、5、6、7、8、9,并在JAFFE 數據集上進行實驗,實驗結果由圖6 所示。

圖6 注意殘差單元個數對性能的影響Fig.6 Effect of the number of attention residual elements on peraformance

由圖6 可知,當注意殘差單元個數小于7 時,算法識別率隨殘差單元個數的增加增幅明顯。當注意殘差單元個數為9 時,算法識別率達到最高96.35%。但注意殘差單元個數大于7 時,識別率增幅緩慢,考慮到網絡復雜度對計算量及網絡運行速度帶來的影響,最終選擇將7個注意殘差單元作為一個注意殘差模塊。

3.3.2 無遮擋表情實驗

表4 是不同方法在Oulu-CASIA 數據集上的測試結果。結果表明,DFR 算法在Oulu-CASIA數據集上的識別率能夠達到91.16%。DMFA-Res-Net 的識別率達到92.57%,比LCE 的識別率高出9.31%,比IDFERM 的識別率高出4.32%。

表4 不同方法在Oulu-CASIA 數據集上的測試結果Table4 Test results of different methods on Oulu-CASIA data sets

表5 是不同方法在CK+和JAFFE 數據集上的測試結果。結果表明,DFR 算法在CK+和JAFFE數據集上分別能夠達到99.68%和96.25%的識別率。比文獻[22]在兩個數據集中的識別率分別高出6.22%和1.5%,比文獻[23]在兩個數據集中的識別率分別高出2.92%和9.51%。

表5 不同方法在CK+和JAFFE 數據集上的測試結果 Table 5 Test results of different methods on CK+ and JAFFE data sets %

圖7 分別為DFR 算法在CK+和JAFFE 數據集的混淆矩陣,其中DFR 能夠在CK+數據集上對輕蔑、厭惡、恐懼、快樂、悲傷和驚訝這六種表情達到100%識別率;在JAFFE 數據集上對恐懼及中性表情能夠達到100%識別率,但驚喜表情容易被誤判為中性表情,因此識別精度最低。

圖7 DFR 在CK+和JAFFE 數據集上的混淆矩陣Fig.7 Confusion matrix of DFR on CK+ and JAFFE

DFR 算法對比其他先進算法在識別率上有很大提升,充分驗證了改進的殘差模塊和過渡層能夠提取更加精確的人臉表情特征。DMFA-Res-Net 算法在CK+和JAFFE 數據集上的識別率分別為99.7%和96.3%,比DFR 算法在兩個數據集中分別提高0.02%和0.05%,證明了引入注意力機制模塊和多尺度特征融合模塊對提升人臉表情識別率是有利的。

3.3.3 遮擋表情實驗

實際生活中,人臉表情圖像采集會伴有遮擋情況,一般由墨鏡、口罩等引起。若局部區域被遮擋,卷積神經網絡就難以抓住重點區域進行特征提取,針對這種情況,本章將在遮擋的擴充數據集上進行實驗。表6 和表7 分別為各種算法在CK+和JAFFE 數據集上的遮擋。

表6 CK+上遮擋表情識別 Table 6 occlusion facial expression recognition on CK+%

表7 JAFFE 上遮擋表情識別 Table 7 Occlusion facial expression recognition on JAFFE %

表8 和表9 分別為DMFA-ResNet 算法在CK+和JAFFE 數據集上的F1-score值。圖8 和圖9 分別為DMFA-ResNet 算法在CK+和JAFFE 數據集上的遮擋混淆矩陣。

表8 CK+上遮擋表情F1-score 值Table8 F1-score of occlusion facial expression on CK +

表9 JAFFE 上遮擋表情F1-score 值Table9 F1-score of occlusion facial expression on JAFFE

圖8 在CK+數據集上的遮擋混淆矩陣Fig.8 Occlusion confusion matrix on the CK+

圖9 在JAFFE 數據集上的遮擋混淆矩陣Fig.9 Occlusion confusion matrix on the JAFFE

由表6、表7 可知,對于遮擋圖像,DMFAResNet 比DFR 算法在CK+和JAFFE 數據集上的識別精度分別提升2.5%和1.5%,且DMFA-Res-Net 對遮擋表情的識別在兩個數據集上均取得最高識別精度。

由表8 和圖8 可知,遮擋眼睛后,DMFA-Res-Net 算法在CK+數據集上能夠對害怕和驚訝兩種表情達到100% 識別率;遮擋嘴巴后,能夠對困惑、快樂和驚訝3 種表情達到100%識別率。而輕蔑和恐懼表情的F1-score 分別只達到0.76 和0.75,說明這兩種表情的有效特征大部分在于嘴巴部分。

由圖9 和表9 可知,遮擋眼睛情況下的悲傷表情F1-score 僅達到0.82,說明悲傷表情的有效特征大部分在于眼睛部分,雖然該值達到最低,但DMFA-ResNet 在JAFFE 數據集上也取得相當不錯的效果。由于該數據集樣本間的差異較小,導致算法仍出現較多誤判情況,無法完全精準識別某一類表情。以上實驗結果證明了DMFA-Res-Net 在應對遮擋圖像問題上的優越性,更適用于人臉表情識別任務。

4 結束語

本文提出一種多尺度融合注意力殘差網絡(DMFA-ResNet)。該網絡主要提出一種新的注意力殘差模塊,提高了網絡對局部重點部位特征的提取,有利于學習到非遮擋部位的信息;提出多尺度融合模塊,將各殘差模塊的輸出進行融合以提取更加豐富的人臉表情特征;為了減少參與網絡運算的參數量,在各個殘差模塊之間添加過渡層,主要進行下采樣操作并使用全局平均池化+Dropout 設計防止網絡過擬合。在CK+、JAFFE和Oulu-CASIA 數據集上進行實驗均取得了不錯的效果,注意力殘差模塊對局部區域的特征能夠進行有效提取,實驗驗證本文算法具有優越性。但所提算法為針對靜態圖像的表情識別算法,不適用于動態連續的視頻識別,在接下來的工作中,可以重點研究基于視頻的動態表情識別技術。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 免费国产不卡午夜福在线观看| 久久久久久久久久国产精品| 欧美日本视频在线观看| 亚洲三级成人| 国产99热| 乱人伦中文视频在线观看免费| 亚洲天堂久久| 欧美日韩精品一区二区在线线| 久久中文无码精品| 亚洲中文字幕无码mv| 激情无码视频在线看| 亚洲—日韩aV在线| 中文无码精品a∨在线观看| 一级香蕉人体视频| 国产成人凹凸视频在线| 成人午夜亚洲影视在线观看| 国产交换配偶在线视频| 亚洲区第一页| 欧美高清三区| 久久情精品国产品免费| 国产黄色免费看| 欧美五月婷婷| 亚洲国语自产一区第二页| 在线免费看片a| 亚洲综合久久成人AV| 超级碰免费视频91| 毛片免费高清免费| 欧美午夜小视频| 欧美另类精品一区二区三区| 日韩亚洲高清一区二区| 色综合中文| 97视频在线观看免费视频| 国产欧美高清| 国产精品久久久久久久伊一| 欧美啪啪视频免码| 欧美成在线视频| 婷婷六月综合| 99re在线免费视频| 国产不卡一级毛片视频| 国产精品刺激对白在线| 国产一级小视频| 国产H片无码不卡在线视频| 亚洲伊人天堂| 亚洲天堂网在线视频| 97国产在线播放| 亚洲男人天堂网址| 久草视频福利在线观看| 午夜色综合| 在线欧美一区| 日日拍夜夜操| 亚洲视频色图| 亚洲美女一区| 40岁成熟女人牲交片免费| 亚洲欧美极品| 国产在线自揄拍揄视频网站| 在线视频亚洲色图| 99热这里只有精品2| 香蕉在线视频网站| 亚洲欧美综合在线观看| 亚洲中文字幕国产av| 亚洲欧美一区在线| 无遮挡一级毛片呦女视频| 91九色国产porny| 丝袜无码一区二区三区| 国产成人精品免费av| 亚洲中文精品人人永久免费| 国产视频一二三区| 亚洲色成人www在线观看| 凹凸国产熟女精品视频| 91在线播放免费不卡无毒| 国产精品黑色丝袜的老师| 国产欧美精品一区aⅴ影院| 91精品啪在线观看国产| 日本www色视频| 欧美a级在线| 日本妇乱子伦视频| 欧美在线观看不卡| 美女国产在线| 国内精品免费| 国产波多野结衣中文在线播放 | 在线播放真实国产乱子伦| 亚洲清纯自偷自拍另类专区|