999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度殘差網(wǎng)絡(luò)和注意力機制的人臉檢測算法

2021-11-18 02:19:24陶施帆李玉峰黃煜峰藍曉宇
計算機工程 2021年11期
關(guān)鍵詞:機制檢測

陶施帆,李玉峰,黃煜峰,藍曉宇

(沈陽航空航天大學(xué)電子信息工程學(xué)院,沈陽 110136)

0 概述

隨著圖像處理技術(shù)的迅速發(fā)展,人臉檢測逐漸應(yīng)用到人們?nèi)粘I畹母鱾€方面,如刷臉支付、刷臉乘車等。然而在特定場景中,在面部受到遮擋、或是人臉比較密集等情況下,檢測成功概率將會大幅下降。因此,如何在信息不完整的特殊情況下實現(xiàn)高效、精準的人臉檢測是一個亟需解決的問題。特別是隨著國內(nèi)防疫工作常態(tài)化,在部分復(fù)工復(fù)學(xué)的學(xué)校及企業(yè)中,利用人臉檢測技術(shù)對出入人員進行身份核驗?zāi)軌蛴行岣吖ぷ餍省R虼耍芯刻岣叽骺谡秩藛T的檢測概率是一個重要的研究課題[1]。

近年來,隨著深度學(xué)習技術(shù)的快速發(fā)展,在目標檢測算法的基礎(chǔ)上涌現(xiàn)出了大量人臉檢測的智能算法。在人臉檢測方面,DDFD(Deep Dense Face Detector)[2]是一種基于AlexNet 進行微 調(diào)改進的深度學(xué)習網(wǎng)絡(luò)模型,該模型不需要姿態(tài)或者關(guān)鍵點標注,能夠用一個單一的模型抓取各個方向上的人臉,對各種姿勢有很強的抵抗能力,但偏轉(zhuǎn)角度、姿勢的變換越大,準確度就會越低。CascadeCNN[3]是對經(jīng)典的Viola-Jones[4]方法的深度卷積網(wǎng)絡(luò)實現(xiàn),構(gòu)建一種級聯(lián)結(jié)構(gòu)來檢測從粗糙到精細的面部特征。Face R-CNN[5]基于Faster R-CNN[6]框架進行人臉檢測,在原有的R-CNN 結(jié)構(gòu)中加入了中心損失函數(shù),在訓(xùn)練階段將圖片經(jīng)過不同尺度縮放,可以更好地檢測小尺寸圖片。UnitBox[7]提出一個新的交并比(Intersection over Union,IoU)損失函數(shù),代替常用的L2 損失函數(shù),提高了人臉檢測精度。雖然人臉檢測技術(shù)已經(jīng)取得了極大進步,但是對有遮擋的人臉進行檢測效果仍不盡如人意,因為沒有關(guān)于遮擋部分的先驗知識,遮擋部分可以在面部圖像的任何位置,或者可以是任何大小或形狀。在智能算法方面,視覺注意模型可以有效理解圖像,在計算機視覺任務(wù)中的應(yīng)用非常成功。SANGHYUN 等[8]提出輕量級卷積塊注意模塊(CBAM)用于對象識別。PENG 等[9]提出一種用于細粒度圖像分類的對象部分注意模型(OPAM),該模型結(jié)合注意力機制和殘差網(wǎng)絡(luò)模塊,成功應(yīng)用于細粒度圖像分類,并具有較好的性能,然而在有遮擋的人臉檢測領(lǐng)域尚缺乏相關(guān)研究。

為解決密集人臉檢測精度低的問題,本文提出一種基于深度殘差網(wǎng)絡(luò)和注意力機制的算法模型。該模型包括算法模型修改、引入注意力機制及非極大值抑制(NMS)技術(shù)3 個方面。利用2 個完全卷積層的分支去分別預(yù)測像素級邊界框及置信分數(shù),同時引入IoU 損失函數(shù)優(yōu)化網(wǎng)絡(luò),提高人臉檢測的精度。在深度殘差網(wǎng)絡(luò)中通過注意力機制提升算法對復(fù)雜場景的理解能力,減少遮擋和密集等無用信息的干擾,實現(xiàn)對人臉有效目標信息的準確提取。最終在檢測過程中利用非極大值抑制[10]技術(shù),克服因人臉目標密集或重疊導(dǎo)致的誤檢和漏檢,以提高算法的性能。

1 相關(guān)工作

1.1 殘差網(wǎng)絡(luò)

在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中,多層特征隨著網(wǎng)絡(luò)層數(shù)的疊加而更加豐富,因此網(wǎng)絡(luò)層數(shù)越深,意味著圖像處理的效果越好。但是簡單的疊加網(wǎng)絡(luò)會導(dǎo)致梯度消失問題,阻礙模型的收斂。初始化和正則化可以保證幾十層的網(wǎng)絡(luò)能夠正常收斂,然而在更深層次的網(wǎng)絡(luò)中,準確率達到飽和后效果反而變差。

針對上述情況,ResNet 引入了殘差學(xué)習來解決深度網(wǎng)絡(luò)難以優(yōu)化的問題,其模塊結(jié)構(gòu)如圖1 所示。令表示最 優(yōu)的映射,使用堆疊的非線性層去擬合另一個映射此時最優(yōu)映射可以表示為殘差映射在前饋網(wǎng)絡(luò)中增加快捷連接,執(zhí)行簡單的恒等映射,這樣不會增加額外參數(shù)和計算復(fù)雜度,比原有映射更易優(yōu)化。

圖1 殘差網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Residual network structure

普通直連的卷積神經(jīng)網(wǎng)絡(luò)和ResNet 的最大區(qū)別在于:ResNet 有旁路的支線將輸入直接連到后面的層,使得后面的層直接學(xué)習殘差,這種結(jié)構(gòu)也被稱為直連或跳躍式傳遞。傳統(tǒng)的卷積層或全連接層在信息傳遞時,或多或少會存在信息丟失、損耗等問題。ResNet 在某種程度上解決了這個問題,通過直接將輸入信息傳到輸出,保護信息的完整性,整個網(wǎng)絡(luò)只需要學(xué)習輸入、輸出差別即可,簡化了學(xué)習目標和難度。

1.2 IoU 損失函數(shù)

對于圖像中的每個像素(i,j),真實值的邊界框可以定義為一個4 維向量,xt、xb、xl、xr分別表示當前像素位置(i,j)與真實值的上下邊界之間的距離,為計算簡便省略了注釋i、j。因此,將預(yù)測的邊界框定義為如圖2 所示。

圖2 IoU 損失函數(shù)原理Fig.2 The IoU loss function principle

IoU 為預(yù)測框與真實框的交并比,IoU 損失函數(shù)如式(1)所示:

其中:Prediction 表示預(yù)測值;Ground truth 表示真實值;Intersection 表示交集;Union 表示并集。

1.3 注意力機制

目前圖像處理最常用的注意力機制為通道注意力機制[11]和空間注意力機制[12]。

1)通道注意力機制

通道注意力機制更關(guān)注圖像輸入的通道的信息,通過對通道信息的特征提取來提取特征分類上的精度[13]。通道注意力模塊首先對輸入的特征圖分別進行最大池化和平均池化進行空間維度壓縮,其中,C表示輸入特征圖的通道數(shù),H和W表示特征圖的長和寬。然后通過共享多層感知器(Multi-Layer Perceptron,MLP)計算通道注意力圖。最后使用激活函數(shù)sigmoid 進行輸出,得到通道注意力特征圖Mc(F)=其網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,計算公式如式(2)所示。

圖3 通道注意力結(jié)構(gòu)Fig.3 Channel attention structure

2)空間注意力機制

空間注意力機制主要關(guān)注于目標在圖像上的位置信息,通過空間特征的加權(quán)和來選擇性地聚合每個空間的特征[14]。輸入特征圖將輸入的特征先后進行最大池化和平均池化,如式(3)所示,然后通過7×7 的卷積核和sigmoid 激活函數(shù)進行處理,如式(4)所示,得到空間注意權(quán)重圖Fs=其網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。

圖4 空間注意力結(jié)構(gòu)Fig.4 Spatial attention structure

1.4 非極大值抑制算法

對于檢測任務(wù),非極大值抑制(NMS)算法是對檢測結(jié)果進行冗余去除操作的后處理算法,基于一個固定的距離閾值進行貪婪聚類,即貪婪地選取得分高的檢測結(jié)果并刪除超過預(yù)設(shè)閾值的相鄰結(jié)果,在召回率和精度之間取得權(quán)衡[15]。利用IoU 損失函數(shù)提取閾值范圍內(nèi)的所有人臉檢測框,將上述檢測框按照得分進行排序,選取得分最高的檢測框,然后計算其他的框與當前框的重合程度,如果重合程度大于一定閾值則刪除,因為在同一個臉上可能會有好幾個高得分的框,但是只需要一個即可。NMS 的公式如下:

其中:N表示當前得分最高的邊界框,為待處理框,和N重疊的候選窗口xi的重疊度IoU 小于預(yù)設(shè)閾值T的保留其得分,大于預(yù)設(shè)閾值T的窗口,其得分全部設(shè)置為0。

2 基于深度殘差網(wǎng)絡(luò)的人臉檢測算法

針對人臉檢測應(yīng)用中存在的人臉密集、戴口罩遮擋等問題,本文提出一種利用ResNet-50 作為骨干網(wǎng)絡(luò)并引入注意力機制和NMS 優(yōu)化的人臉檢測算法。

2.1 改進的深度殘差網(wǎng)絡(luò)

為獲取更深層的圖像參數(shù),使用ResNet-50 作為骨干網(wǎng)絡(luò),ResNet-50 網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。輸入圖像經(jīng)過第1 次卷積池化后傳入殘差塊中,在隨后的每個階段都要經(jīng)過一次卷積加歸一化(Conv+Batch Norm)的操作,即Conv Block,然后經(jīng)過多個輸入和輸出維度都一致的Identity Block,在經(jīng)過第2 階段~第5 階段的卷積后,通過7×7 大小的平均池化層(AVG Pool),傳入Flatten 層將數(shù)據(jù)壓縮成一維數(shù)組,再與全連接層連接。

圖5 ResNet-50 網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 ResNet-50 network structure

本文刪除了ResNet-50 中的完全連接層,并添加了2 個完全卷積層的分支去分別預(yù)測像素級邊界框和置信分數(shù),網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示。

圖6 深度殘差網(wǎng)絡(luò)中的置信和預(yù)測分支Fig.6 Confidence and prediction branch block of deep residual network

從圖6 可以看出,在ResNet-50 第4 階段的末尾添加了1 個卷積層,步長為1,內(nèi)核大小為512×3×3×1,隨后執(zhí)行線性插值將特征圖調(diào)整為原始圖像大小,最后將要素圖與輸入圖像對齊之后,獲得了具有相同輸入圖像尺寸的通道特征圖。在該特征圖上使用S 形交叉熵損失來回歸生成的置信度熱圖。

為預(yù)測邊界框熱圖,在ResNet-50 第5 階段的末尾添加 卷積內(nèi) 核大小 為512×3×3×4 的卷積 層,同第4 階段,類似地將特征圖調(diào)整為原始圖像大小并與輸入圖像對齊。此外,插入ReLU 層確保邊界框預(yù)測非負,預(yù)測邊界與IoU 損失函數(shù)共同優(yōu)化。最終損失計算為2 個分支的損失的加權(quán)平均值。

將置信分支連接在ResNet-50 第4 階段的末尾,而邊界框分支插入在第5 階段的末尾,是由于IoU 損失計算的邊界框是一個整體,因此需要更大的感受野,并且可以直觀地從置信度熱圖中預(yù)測對象的邊界框。這樣,邊界框分支被視為一種自下而上的策略,可以從置信度熱圖中抽象出邊界框。

2.2 注意力機制的引入

本文在網(wǎng)絡(luò)結(jié)構(gòu)的卷積塊中引入了注意力機制[16],給定中間特征圖為輸入I∈RC×H×W,主干部分由兩組殘差單元組成,分支部分由一組殘差單元、通道注意力模塊和空間注意力模塊組成,如圖7 所示。中間特征圖首先通過通道注意力模塊,生成一維的通道注意力圖WC∈RC×1×1,然后通過空間注意力模塊生成二維的空間注意力圖WS∈R1×H×W。圖 中?為 對應(yīng)矩陣元素相乘,通道注意力模塊相乘時,先把一維通道注意力圖擴張為WC∈RC×H×W再相乘,空間注意力模塊相乘時也同樣先把二維的空間注意力圖沿著通道維度擴張為WS∈RC×H×W再相乘。

圖7 卷積塊中的注意力機制Fig.7 Attention mechanism of convolution block

上述過程可以看作是通道和空間注意力學(xué)習的相互結(jié)合,以實現(xiàn)層級間互信息的最大化,從而引導(dǎo)模型在迭代訓(xùn)練中學(xué)習到更顯著的人臉相關(guān)信息。

2.3 網(wǎng)絡(luò)整體結(jié)構(gòu)

圖8 所示為人臉檢測整體網(wǎng)絡(luò)結(jié)構(gòu),將注意力機制應(yīng)用于整個殘差網(wǎng)絡(luò),促使圖像有用信息在網(wǎng)絡(luò)中有效流動,捕捉人臉關(guān)鍵部位的有用信息,提高對有遮擋人臉的檢測能力,使用置信度和邊界框的熱圖準確地定位人臉。在閾值置信度熱圖上通過橢圓擬合人臉,由于人臉橢圓太粗糙而無法定位對象,因此進一步選擇這些人臉橢圓的中心像素,并從這些選擇的像素中提取相應(yīng)的邊界框。

圖8 深度殘差網(wǎng)絡(luò)結(jié)合注意力機制的網(wǎng)絡(luò)結(jié)構(gòu)Fig.8 The network structure of the deep residual network combined with the attention mechanism

2.4 非極大值抑制算法

非極大值抑制算法(NMS)計算出每一個檢測框的面積,根據(jù)得分進行排序,隨后計算其余檢測框與當前最大得分的檢測框交并比,刪除交并比大于設(shè)定閾值的檢測框。重復(fù)上述過程,直至候選檢測框為空,最終得到最佳的人臉檢測框,如圖9 所示,由此可以提升定位人臉的準確性。

圖9 NMS 算法人臉定位Fig.9 NMS algorithm faces locates

3 實驗結(jié)果與分析

3.1 實驗環(huán)境

本文基于PyTorch 的深度學(xué)習框架平臺進行算法研究,深度學(xué)習平臺為PyTorch0.4,編譯環(huán)境為Python3.5,操作系統(tǒng)為Ubuntu18.04。硬件平臺為Dell T7810 工作站,CPU 為Intel E5-2620 V4 2.1 GHz,內(nèi)存為16 GB,GPU 計算卡為Nvidia Quadro P4000 4 GB。

3.2 實驗結(jié)果

本文使用FDDB 數(shù)據(jù)集進行實驗結(jié)果測試,F(xiàn)DDB 是當前權(quán)威的人臉檢測評測集之一,共包含了2 845 張圖片,人臉狀態(tài)多樣,包括遮擋、密集、分辨率低等情況。使用的權(quán)重根據(jù)ImageNet[17]上預(yù)先訓(xùn)練的ResNet-50 模型初始化,然后在數(shù)據(jù)集WiderFace[18]上進行微調(diào)。微調(diào)過程采用隨即梯度下降(Stochastic Gradient Descent,SGD),并將批量大小設(shè)置為10。動量和權(quán)重衰減因子分別設(shè)置為0.9 和0.000 2。學(xué)習率設(shè)置為最大訓(xùn)練值10-8,微調(diào)期間不使用任何數(shù)據(jù)擴充。

3.2.1 人臉檢測與置信度效果

人臉檢測結(jié)果與置信度熱圖如圖10 所示,可以看出本文算法能夠準確找到人臉置信度高的像素點,如圖10(b)所示,并能夠生成對應(yīng)的人臉檢測邊界框,如圖10(a)所示。

圖10 人臉檢測結(jié)果Fig.10 Face detection result

3.2.2 有無注意力機制檢測效果對比

在人臉有遮擋的情況下,與不含注意力機制的殘差網(wǎng)絡(luò)進行檢測結(jié)果對比,如圖11 所示,可以看出本文算法可以準確檢測出佩戴口罩的人臉,精度高于不含注意力機制的方法,表明其對于有遮擋人臉的檢測效果較好,說明通過增加注意力機制模塊對復(fù)雜的人臉圖像具有很強的適應(yīng)性。

圖11 有無注意力機制的檢測結(jié)果對比Fig.11 Comparison of detection results with or without attention mechanism

3.2.3 人臉密集情況下檢測效果對比

圖12 為本文方法與CascadeCNN、FastCNN 人臉檢測算法的檢測結(jié)果對比。由圖12(a)~圖12(c)可見,CascadeCNN 方法對于小尺度人臉和有遮擋的人臉檢測效果不理想,F(xiàn)astCNN 方法可以檢測出被遮擋的人臉,但是對于小尺度人臉檢測效果不理想,本文方法對于檢測密集型人臉和有遮擋的人臉,都能取得理想的效果。

圖12 人臉密集檢測結(jié)果對比Fig.12 Comparison of face dense detection results

3.3 評價指標與定量分析

本文使用目標檢測領(lǐng)域常用的ROC 曲線(Receiver Operating Characteristic curve)和每秒幀率(Frame Per Second,F(xiàn)PS)來客觀評價本文算法對于人臉的檢測能力[19]。

ROC 曲線表示的是真正率和假正數(shù)的關(guān)系。其中,真正率(True Positive Rate)ρ的計算公式為:

其中:真正數(shù)(True Positive,TP)表示正樣本被預(yù)測為正樣本的個數(shù);假正數(shù)(False Positive,F(xiàn)P)表示負樣本被預(yù)測為正樣本的個數(shù);假負數(shù)(False Negative,F(xiàn)N)表示正樣本被預(yù)測為負樣本的個數(shù)。

本文算法通過與人臉檢測表現(xiàn)較好的算法DDFD、CascadeCNN、FastCNN、DP2MFD、UnitBox 進行對比,可以看出本文算法檢測性能優(yōu)于其他人臉檢測算法,如圖13 所示。DDFD、CascadeCNN 算法精確率較差,在85%左右;FastCNN、DP2MFD 算法的精確率較好,能達到90%左右;UnitBox 和本文算法的精確率較高,基本在95%以上。對精確率在假正數(shù)為500 時的值進行統(tǒng)計,同時可得出誤檢率。

圖13 ROC 曲線對比Fig.13 ROC curve comparison

每秒幀率(FPS)表示每秒處理的圖片數(shù)量,用來衡量算法的檢測效率。本文實驗的FPS 和總共檢測完2 845 張圖像所需時間如表1 所示[20]。從表1 可以看出,本文算法的人臉檢測精確率達96.1%,與使用VGG-16 網(wǎng)絡(luò)的UnitBox 算法相比精確率提高了1.6%,在檢測速度方面,本文算法的檢測速度顯著優(yōu)于DDFD、CascadeCNN、FastCNN、DP2MFD 等算法,達到10 frame/s 以上,略低于UnitBox 算法。

表1 人臉檢測算法性能對比Table 1 Performance comparison of face detection algorithms

4 結(jié)束語

本文提出一種基于深度殘差網(wǎng)絡(luò)和注意力機制的人臉檢測算法。通過使用深度殘差網(wǎng)絡(luò)并在網(wǎng)絡(luò)中添加注意力機制,增強特征圖在通道上的表達能力,抑制無用的特征信息,并在特征圖空間上增強上下文聯(lián)系和特征描述能力。利用IoU 損失函數(shù)提升人臉檢測的性能,并且在檢測過程中加入非極大值抑制方法,使得在人臉遮擋情況下的對象定位更加準確。在FDDB 數(shù)據(jù)集上的實驗結(jié)果表明,本文算法具有較高的準確率,在檢測有口罩遮擋的人臉時,也能得到較好的檢測效果。但本文算法改進后由于網(wǎng)絡(luò)計算量有所增加,檢測效率還有待提高,下一步將設(shè)計更為精簡的網(wǎng)絡(luò)框架,提高檢測效率,使得該算法能夠更好地應(yīng)用于實時場景中。

猜你喜歡
機制檢測
構(gòu)建“不敢腐、不能腐、不想腐”機制的思考
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
定向培養(yǎng) 還需完善安置機制
小波變換在PCB缺陷檢測中的應(yīng)用
破除舊機制要分步推進
主站蜘蛛池模板: 中文国产成人精品久久一| 亚洲成人黄色网址| 久久中文字幕不卡一二区| 欧美激情视频一区| 国产成人毛片| 久久频这里精品99香蕉久网址| 中文字幕在线不卡视频| 欧美人与性动交a欧美精品| 精品福利视频导航| 日韩精品一区二区三区swag| 国产亚洲精品精品精品| 色欲不卡无码一区二区| 亚洲第一成年免费网站| 一级片一区| 999国内精品久久免费视频| 成人蜜桃网| 欧美五月婷婷| 天天做天天爱夜夜爽毛片毛片| 色综合天天娱乐综合网| 国产超薄肉色丝袜网站| 国产高清国内精品福利| 伊人久久精品亚洲午夜| 97国产成人无码精品久久久| 91视频99| 不卡的在线视频免费观看| 性欧美久久| 日本日韩欧美| 精品无码一区二区在线观看| 国产女同自拍视频| 亚洲经典在线中文字幕| 亚洲综合色吧| 亚洲成人在线网| 婷婷在线网站| 秋霞午夜国产精品成人片| 国产精品第页| 欧美一级特黄aaaaaa在线看片| 国产视频大全| 亚洲国产黄色| 一区二区三区在线不卡免费| 香蕉色综合| 毛片免费在线视频| 91精品情国产情侣高潮对白蜜| 香蕉国产精品视频| 香蕉综合在线视频91| 国产精品无码久久久久久| 亚洲丝袜第一页| 99尹人香蕉国产免费天天拍| 浮力影院国产第一页| 欧洲av毛片| 黑色丝袜高跟国产在线91| 91www在线观看| 国产成人a毛片在线| 多人乱p欧美在线观看| 国产精品福利导航| a亚洲视频| 欧美不卡视频一区发布| 日韩精品一区二区三区免费| 中文字幕免费播放| Aⅴ无码专区在线观看| 精品亚洲欧美中文字幕在线看 | 国产丝袜91| 成年女人a毛片免费视频| 麻豆精选在线| 欧美成人国产| www亚洲天堂| 欧类av怡春院| 青草视频在线观看国产| 国产精品大尺度尺度视频| 亚洲高清中文字幕| 91无码视频在线观看| 欧美午夜理伦三级在线观看| 91无码人妻精品一区| 永久在线播放| 国产视频一二三区| 亚洲第一香蕉视频| 久草青青在线视频| 色欲综合久久中文字幕网| 怡红院美国分院一区二区| 亚洲天堂视频在线免费观看| 久久无码av三级| 丁香亚洲综合五月天婷婷| 爆乳熟妇一区二区三区|