999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

注意力分層雙線性池化殘差網絡的表情識別

2020-12-07 08:20:36張愛梅
計算機工程與應用 2020年23期
關鍵詞:特征模型

張愛梅,徐 楊

貴州大學 大數據與信息工程學院,貴陽 550025

1 引言

面部表情是傳達人們心理活動、思想狀態最自然、最直接的方式,因此,人臉表情識別(Facial Expression Recognition,FER)具有極大的應用價值,可在許多領域實現廣泛應用,例如,心理狀態檢測、安防智能監控、商業營銷推薦、臨床醫療檢測等。眉毛、眼睛、嘴等的細微變化可能導致截然不同的分類結果使得不同類表情間差異小,另外,受姿態、背景、照明等因素影響,使得同類表情間差異大,人臉表情識別任務仍然極具挑戰性。

現有研究大多在給定顯著特征和額外部件標注的情況下,使用卷積層、最大或平均池化層以及全連接層的傳統卷積神經網絡(Convolutional Neural Network,CNN)實現面部表情分類。這些方法忽略了層間部分特征交互作用與人臉表情特征學習相互關聯的事實,限制了模型的學習能力。本文添加分層雙線性池化層來集成多個跨層雙線性特征,學習面部表情分類任務中的細微差異,這有助于顯著提高面部表情識別能力。此外,面部表情識別需要特別關注帶有區分情感的重要信息的眼睛、嘴、眉毛等特定位置的細微變化。因此,可以借鑒人腦處理信息的方式,特別關注這些關鍵位置以增強特征表示能力。為此,引入注意力機制,為卷積層輸出的通道特征圖分配不同的權重,實現通道特征圖的重新校正,提高網絡的分類能力。

近年來,卷積神經網絡在圖像特征提取方面顯示出顯著優勢,隨著網絡深度的增加,它可以提取圖像的高級語義信息。文獻[1]嵌入注意力模型,確定感興趣區域來推斷出情感標簽。注意力機制是面部表情識別時,在關鍵特征中定位關鍵點并建立關鍵點的集合關系最直接、最有效的方法。目前幾種有競爭力的視覺注意力方法如下:SE[2]是將通道注意力整合到卷積模塊中的代表性方法,為各種深層CNN 架構帶來了明顯的性能提升。CBAM[3]作為SE-Net的擴展,CBAM沿通道維和空間維結合了全局平均池化和最大池化,但這對于全局上下文建模還不夠有效。GSoP-Net[4]引入了從低層到高層的全局二階池化,網絡性能優于大部分一階網絡,但模型復雜度也更高。ECA[5]為無需降維的本地跨通道交互策略,該模塊包含少量參數,同時帶來了具競爭力的性能。

特征提取是面部表情識別過程中的關鍵步驟。一些細微、小分辨率的面部表情需要深層特征以增強識別能力。雙線性卷積神經網絡(B-CNN)[6]是第一個在細粒度識別任務上可以端到端訓練的協方差池化網絡模型。然而,B-CNN無法利用不同卷積層中固有的信息,且采用兩種不同的CNN 模型致使計算和存儲成本更高。緊湊型雙線性池化(CBP)[7]有與完整雙線性表示形式相同的判別力,且降低了維度。全局高斯分布嵌入網絡(G2DeNet)[8]可以捕獲具有區別性的一階和二階圖像特征,是最早以端到端的方式將參數概率分布嵌入到深度CNN的工作之一。迭代矩陣平方根歸一化協方差池化(iSQRT-COV)[9]用于全局協方差池化網絡的快速端到端訓練,適合在GPU 上并行實現。分層雙線性池化(HBP)[10]與 B-CNN 相比,HBP 不需要邊界框注釋也能獲得更好的結果,生成改進的圖像表示。

為了更好地定位面部表情顯著的局部區域變化,本文提出一種注意力分層雙線性池化殘差網絡(Attention Hierarchical Bilinear Pooling Residual Network,AHBPRN),在分層雙線性池化殘差網絡中嵌入有效的通道注意力機制對潛在空間建模。本文的主要貢獻包括:

(1)在面部表情識別中,分層雙線性池化用于捕獲層間部分特征關系,對圖像的層間部分特征交互信息進行端到端池化,更適合捕獲精細的面部表情圖像之間的細微差異。

(2)本文的網絡添加了有效的通道注意力模塊來學習特征圖的權重度量,從而可以自主識別和增強重要的神經元單元。并在不同的網絡上進行了一組實驗,以說明添加的注意力機制的有效性。實驗結果如表1所示。

(3)模型在兩個公共數據集FER-2013 和CK+上實現了具有競爭力的性能。

隨著我國高速公路工程行業的迅猛發展,在高速公路施工中科學、合理地運用預應力管樁的施工技術,不但可以為施工企業節約施工成本,使企業獲得更多的社會與經濟效益,而且可以確保高速公路橋梁工程的穩固性和整體安全性,從而保證工程的施工質量。

2 本文方法

2.1 AHBPRN模型結構

由于面部表情數據量較少,首先使用隨機水平翻轉、隨機剪裁等數據增強方法來擴充數據量,提高模型的泛化能力。再將歸一化的面部表情圖像輸入到殘差網絡中,來自不同卷積層的特征通過獨立的線性映射被擴展到高維空間。為了關注某些特定位置的重要貢獻,在卷積層之后生成注意力特征圖,使網絡能夠提高對可利用區域特征的敏感性。在提取注意力特征之后,本文借鑒了文獻[11]中分層雙線性池化的概念,使用外積將來自不同卷積層的元素相乘來捕獲層間局部特征交互。該模型將有效的通道注意力嵌入到基于分層雙線性池化的殘差網絡中,以端到端的方式學習。網絡模型如圖1所示。

2.2 嵌入有效的通道注意力

假設面部表情圖像被CNN濾波后卷積層的輸出特征圖X∈?h×w×c,Y∈?h×w×c,Z∈?h×w×c,各自包含一組所有通道的二維特征圖,其中w、h和c分別是寬度、高度和通道數。為了根據需求動態地關注最有用的部分,引入有效的通道注意力[5]自動獲取權重,來增強特征矩陣X、Y、Z的表示能力。以卷積特征圖X為例,有效的通道注意力模塊的結構如圖2所示,給定通過全局平均池化(GAP)獲得的聚合特征,通過考慮每個通道及其k個鄰居來捕獲本地跨通道交互,內核大小k代表本地跨通道交互的覆蓋范圍(即有多少鄰居參與一個通道的注意力預測)。

圖2的詳細步驟如下:首先,將卷積特征圖X,X∈?h×w×c作為原始輸入,在不降低維數的情下,進行通道級全局平均池化,得到大小為1×1×c的特征向量。為了保證捕獲本地跨通道交互的效率和有效性,使用帶狀矩陣來學習通道注意力。當所有通道共享相同的學習參數時,這種策略可以通過內核大小為k的快速一維卷積有效實現。然后,執行Sigmoid 函數以學習有效的通道注意力,生成通道注意力權重Ax,Ax∈?1×1×c。最后,將注意力權重Ax與原特征圖X進行對應元素相乘(element-wise multiplication),得到融合后的注意力特征圖X?,X? ∈ ?h×w×c,用X?替換原始特征圖X。

圖1 AHBPRN的表情識別網絡模型圖

圖2 有效的通道注意力模塊

因此,圖1中通道注意力模塊可由式(1)、(2)表示:

其中,Ax∈ ?1×1×c,Ay∈ ?1×1×c,Az∈ ?1×1×c為生成的有效通道注意力權重。C1D表示一維卷積,GAP為全局平均池化函數,k表示一維卷積的卷積核大小,σ表示Sigmod激活函數。

式(1)中交互作用的覆蓋范圍k與輸出通道數C成正比。換句話說,k與C之間存在映射φ:C=φ(k)=γ×k-b。眾所周知,通常將輸出通道數C設置為2 的冪。因此,擴展線性函數到非線性:C=φ(k)=2γ×k-b。所以,在給定輸出通道數C的情況下,卷積核大小k可以通過式(3)自適應地確定:

2.3 注意力分層雙線性池化

分層雙線性池化[10]可以對局部成對特征交互進行建模,已被證明是解決細粒度識別任務的強大工具,本文提出了面部表情細粒度識別任務背景下探索它們的強烈動機。為了捕獲更好的特征相關性,本文對人臉表情圖像部分屬性的層間交互進行建模。將來自不同卷積層的特征通過逐元素乘法進行集成,以捕獲更多中間卷積層特征。

分層雙線性池化模型是基于分解雙線性池化(FBP)[11]模型構建的。由式(2)可知,輸出注意力特征圖為?∈?h×w×c,高度為h,寬度為w,通道數為c。FBP模型由每個空間位置的以下低階外積運算定義:

通過在其他中間卷積層內進行層間特征交互來改善FBP,利用與來自中間卷積層的補充信息的部分相關性,生成了改進的圖像表示。對于每個空間位置,基于注意力特征圖的分層雙線性池化模型的輸出矢量O∈ ?d′(本文的面部表情分7類,d′=7)定義如式(5):

3 實驗結果及分析

提出的模型在Ubuntu18.04 LTS 系統、深度學習框架PyTorch1.1.0 上使用具有11 GB 顯存的NVIDIA GeForce GTX 1080Ti實現。本章將在兩個公共人臉表情數據集上對提出的網絡模型進行實驗,并通過與之前的工作進行比較來展示性能。

3.1 數據集與實驗設置

本文選擇數據集FER-2013[12]和CK+[13]評估所提出的注意力分層雙線性池化殘差網絡,數據集示例圖像如圖3所示。FER-2013是使用谷歌圖像搜索API創建的,是一個大規模的面部表情數據集,包含了27 809張訓練圖像,3 589張驗證圖像和3 589張測試圖像,每種情緒的圖像數量的數據分布如圖4所示,可以看出,數據分布非常不均勻。CK+數據集由來自不同種族群體的18~50歲的123 位受試者的593 個圖像序列組成,選擇帶有標記的327個序列,提取每個序列帶有峰值信息的最后一幀。

圖3 FER-2013和CK+數據集示例圖像

圖4 FER-2013每種情緒數據分布

本文的數據擴充遵循常用的水平翻轉、隨機剪裁等操作。訓練過程中批量大小設置為32,訓練周期為80,初始學習率為0.1,動量為0.9,權重衰減為1×10?5。本文使用經過預訓練的圖像分類模型ResNet-50[14]來構建網絡,殘差網絡最后一層卷積層的輸出特征維數為512,從原始的ResNet-50中刪除了全連接層并插入了所有本文框架中的組件。首先訓練新添加的層,然后微調整個網絡以更新所有層中的參數。

3.2 AHBPRN模型性能分析

表1用幾個當前的經典CNN架構AlexNet[15]、VGG-16[16]、ResNet-18[14]、ResNet-50[14]作為提出方法的骨干網絡,分別在FER-2013 和CK+數據集上進行了評估。表1 中,Original 是指將數據輸入到不同的標準網絡進行訓練得到的結果,Attention 是在標準網絡嵌入有效的通道注意力以后的結果,AHBP是指注意力分層雙線性池化。

表1 FER-2013和CK+上各種標準網絡結構的識別率對比%

從表1可以看出:

(1)本文提出的注意力分層雙線性池化方法在ResNet-50 上獲得了最好的分類結果,分別為73.84%、98.79%。與文獻[10]中,在VGG-16 上構建池化模型相比,本文選取ResNet-50作為模型的特征函數部分,能夠獲得更好的分類結果,這是由于殘差結構具有更好的層間相關性。

(2)嵌入有效的通道注意力后,FER-2013數據集上的識別率提高了2~5個百分點,CK+數據集上的識別率提高了1~4 個百分點。證明注意力塊以略微的額外計算成本為面部表情細粒度識別任務帶來了性能上的顯著改善。

(3)與未采用分層雙線性池化的網絡相比,FER-2013 和CK+上的識別率分別提高了2~8 個百分點和0.8~4個百分點,這說明了層間特征交互的有效性。

根據表1 的實驗結果選擇ResNet-50 作為基本網絡,表2中考慮分層雙線性池化不同層的組合。結果表明,relu4_0×relu4_1+relu4_0×relu4_2+relu4_1×relu4_2表現出的性能最好,因為與較淺的層相比,它們包含更多的部分語義信息。因此本文在接下來的實驗中專注于relu4_0、relu4_1和relu4_2層的交互。

表2 FER-2013數據集上的定量分析結果

3.3 對比實驗

本節評估了在本文提出的網絡框架下,使用不同池化方法進行面部表情識別的效果,實驗結果如圖5 所示。在本次實驗中,根據表1 中的實驗對比結果,選擇在基本網絡ResNet-50中嵌入有效的通道注意力。根據表2中的實驗對比結果,所提網絡模型中分層雙線性池化(HBP)選擇的是relu4_0×relu4_1+relu4_0×relu4_2+relu4_1×relu4_2 的組合。圖5 顯示了本文提出的方法與分別使用全局平均池化(GAvP)方法和雙線性池化方法——雙線性卷積神經網絡(B-CNN)和緊湊雙線性池化(CBP)時,在人臉表情數據集FER-2013 和CK+上識別率的比較結果。從圖5 可以看出:(1)基于雙線性池化的識別率高于基于平均池化的識別率,原因主要在于比起全局平均池化,雙線性池化方法能通過特征融合增強識別能力;(2)相較于另外三種池化方法,所提方法在FER-2013 和CK+數據集上識別率分別有0.5~7 個百分點,1~4 個百分點的提升。結果表明,本文的模型比類似網絡[6-7]的對應的模型具有明顯的優勢。

圖5 AHBPRN與其他池化方法對比

為了驗證整體算法的可靠性,本文所提方法與不同方法之間每個類別的識別率對比,如表3 所示,為了簡化說明,本文方法表示為AHBPRN。可以看出,高興和驚訝的識別率明顯高于其他,但害怕和生氣的識別率卻略低,因為害怕、生氣、難過和厭惡有某些相似之處,在現實生活中,人們也很難區分這四種表情。在FER-2013 數據集上與文獻[17-20]對比,本文方法的平均識別率比Khemakhem 等人[17]提出的增強預處理階段的卷積神經網絡高出3.25 個百分點,比Liu 等人[18]提出的將課程學習策略應用于表情識別的訓練階段的平均識別率高出1.73 個百分點。在CK+數據集上與文獻[18-19,21-22]對比,文獻[19,21]與所提方法一樣也是在卷積層嵌入注意力塊的情況下進行表情識別,所提方法相較于它們也具有較優的結果。可以看出,與近年來其他參考文獻的識別率相比,本文的算法達到了具有競爭力的結果,這證明了該方法的有效性。可以得出結論,這源于基于 ResNet-50的分層雙線性池化卷積神經網絡和用于增強特征矩陣表示能力的通道注意力的有效性。

4 結束語

本文提出了一種新的注意力分層雙線性池化殘差網絡用于人臉表情識別,可以學習具有較強分辨力的面部表情特征。由于面部特征點的細微變化可能導致截然不同的分類結果,首先利用有效的通道注意力模塊來學習權重矩陣,充分利用某些特定位置的重要詳細信息,輸入到可捕獲層間部分特征關系的分層雙線性池化網絡,以端到端的方式學習更具判別性的面部圖像表示。最后,在兩個公開的人臉表情數據集FER-2013 和CK+上設計了多個實驗從多個方面評估了模型,結果表明,注意力分層雙線性池化模塊捕獲的強大鑒別特征可以有效地提高人臉表情的識別率。

將來,進一步考慮如何有效地融合更多的層特征以獲得多尺度的部分表示。在整合一些弱監督方案以主動的方式選擇更好的層進行特征交互方面,進行擴展研究。并且,也可以將本文所提模型泛化到其他任務中,例如其他細粒度分類任務或者人臉性別、年齡識別任務等。

表3 與FER-2013和CK+上其他參考文獻的識別率對比 %

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 成人精品视频一区二区在线| 色偷偷男人的天堂亚洲av| 99这里只有精品6| 国产色网站| 欧美综合中文字幕久久| 欲色天天综合网| 国产成人精品优优av| 操国产美女| 国产亚洲日韩av在线| 亚洲第一综合天堂另类专| 国产成a人片在线播放| 欧美精品xx| 欧美人与牲动交a欧美精品| 香蕉色综合| 日韩精品成人在线| 久久96热在精品国产高清| 亚洲国产清纯| 国产亚洲精品资源在线26u| 中文字幕丝袜一区二区| 欧美一级夜夜爽www| 亚洲国产日韩视频观看| 亚洲精品无码抽插日韩| 久久精品国产精品一区二区| 欧美yw精品日本国产精品| 亚洲 欧美 偷自乱 图片| 久久综合色视频| 国产在线观看99| 亚洲精选高清无码| 亚欧乱色视频网站大全| 国产精品一区二区在线播放| 亚洲一区网站| 国产精品白浆无码流出在线看| 玖玖精品视频在线观看| 亚洲视频一区在线| 欧美在线黄| 久久久久国产精品嫩草影院| 国产在线小视频| 素人激情视频福利| 国产主播一区二区三区| 素人激情视频福利| 国产地址二永久伊甸园| 无码久看视频| 啪啪国产视频| 一区二区三区毛片无码| 99视频在线观看免费| 亚洲综合片| 五月天久久综合| 久久99久久无码毛片一区二区| 亚洲精品久综合蜜| 欧美精品亚洲二区| 日本在线国产| 欧美中文字幕在线二区| 免费 国产 无码久久久| 伊人激情综合网| 亚洲成人一区在线| 青青热久麻豆精品视频在线观看| 波多野结衣AV无码久久一区| 大学生久久香蕉国产线观看| 亚洲va在线∨a天堂va欧美va| 亚洲精品无码专区在线观看| 欧美黄网站免费观看| 亚洲91在线精品| 天天综合网色| 广东一级毛片| 国产91高清视频| 亚洲爱婷婷色69堂| 欧美综合区自拍亚洲综合天堂| 国产经典在线观看一区| 欧美精品1区| 亚洲无码在线午夜电影| 国产精品成人不卡在线观看| 亚洲欧美在线精品一区二区| 国产精品成人不卡在线观看| 日本欧美一二三区色视频| 国产成人精品一区二区不卡| 欧美日韩专区| 亚洲一区二区三区国产精华液| 欧洲熟妇精品视频| 欧美日韩亚洲综合在线观看| 一级毛片a女人刺激视频免费| 婷婷丁香在线观看| 国产精品男人的天堂|