999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多特征融合的輕量化無錨人臉檢測方法

2022-06-09 11:59:38黃思維李志丹程吉祥劉安東
計算機工程與應用 2022年11期
關鍵詞:特征融合檢測

黃思維,李志丹,程吉祥,劉安東

西南石油大學 電氣信息學院,成都 610500

人臉檢測是指在輸入圖像中確定所有人臉的位置、大小和位姿的過程,是人臉信息處理中一項關鍵技術。目前,人臉檢測技術已成為計算機視覺領域研究十分活躍的課題[1],并廣泛地應用于公共安全、企業辦公、教育和人機交互等領域。

現有人臉檢測方法可分為傳統方法和基于深度學習的方法。傳統的人臉檢測方法普遍基于人工特征提取[2]或增強學習算法[3],這些方法依賴于人工提取的特征且需要對檢測模型的各個組件進行單獨優化,雖然在實時性和可移植性上都有不錯的表現,但其計算過程復雜、對于復雜場景下檢測準確率仍較低的不足限制了這類方法的廣泛運用。深度學習是近年來機器學習領域的研究熱點之一并在目標檢測、計算機視覺、自然語言處理等各領域成效卓然[4],深度學習算法通過深度卷積神經網絡處理計算機視覺類任務,它將特征提取、特征選擇和特征分類融合在同一模型中,從整體上進行功能優化,增強了特征的可分性,顯著提升了各類視覺任務的準確率[5]。

當前人臉檢測方法使用深度卷積神經網絡進行特征提取,這些網絡稱為骨干網絡(backbone)。為提取更為豐富的特征,研究者們設計出層次更深、結構更復雜的骨干網絡。根據使用場景不同,可將骨干網絡分為兩類:其一為注重檢測準確性的深度網絡模型,以VGG[6]和ResNet[7]等為代表,其二為注重降低模型復雜度的輕量化網絡模型,其典型網絡為MobileNets[8]和ShuffleNet[9]。采用高效的特征提取網絡,近期人臉檢測方法的效果也在不斷提升。基于深度學習的人臉檢測方法可根據檢測階段和根據是否使用錨框(anchor box)分類。根據檢測階段可分為一階段法和二階段法。一階段法的思想是,圖片直接通過單一的前向卷積神經網絡產生特征圖,隨后在特征圖上預測出目標的定位,最后通過回歸算法得到目標包圍框,該方法優點為模型結構簡潔,檢測速度快,但對于復雜人群的檢測效果不夠理想,其典型算法為YOLO[10]。二階段法先使用區域候選網絡抽取一系列候選區域,再將這些區域送入卷積神經網絡進行檢測,該方法優點是目標定位精確度和檢測準確率更高,但由于檢測分為兩部分進行,其過程相對復雜,計算量更大,典型方法為R-CNN[11]。另外根據檢測網絡中是否使用錨框,可分為基于錨框的檢測(anchor-based)方法和無錨框的檢測(anchor-free)方法。基于錨框的方法通過在網絡預測階段預設錨框使檢測器可以同時預測多個檢測目標,以加強目標回歸效果,典型方法有SSH[12]和RetinaFace[13]。無錨檢測方法在預測時不使用附加錨框,通過直接回歸目標關鍵點來預測目標位置,相比于基于錨框的人臉檢測,無錨檢測有以下優點:(1)網絡流程更為簡潔。(2)不需要人工設置錨框大小、比例等超參數。(3)有更快的檢測速度。(4)對小目標的檢測效果好。無錨檢測典型方法有CornerNet[14]以及ExtremeNet[15]等。

目前基于深度學習的人臉檢測方法如SSH和Retina-Face等大多使用深層骨干網絡且采用設置錨框的檢測方法,其參數量大,計算和訓練過程耗時長,不能滿足實時檢測要求。另外,對于現有的人臉檢測方法如MTCNN[16],該方法使用三個不同的卷積網絡分別處理不同大小尺寸的圖像,雖然做到了模型輕量化,但其檢測過程不夠簡潔。針對上述問題,本文提出一種使用輕量化卷積網絡并改進特征融合的無錨人臉檢測方法。該方法是一種端到端的人臉檢測網絡,首先采用了輕量化卷積網絡作為特征提取的骨干網路;然后使用本文提出的特征處理方式進行特征融合,其過程如下:對于提取出的特征層,首先經過大小不同的空洞卷積處理以增強感受野,然后對每層特征附加權重使特征圖自適應地融合,接著使用通道混洗模塊對融合后的特征層進行混洗操作以增強不同特征圖間的信息交互并減少一定計算量;最后使用中心點定位的無錨檢測方法對融合的特征進行計算和預測,從而確定圖片中人臉位置。實驗結果表明,本文方法在保證模型輕量化的同時兼顧了檢測準確率。與現有人臉檢測方法比較,本文方法在檢測準確率和檢測效果上都有較好表現,驗證了本文方法的有效性。

1 相關工作

1.1 輕量化卷積網絡

輕量化卷積網絡通過設計更高效的網絡計算方式,減少網絡的參數量和計算量,使網絡在不損失性能的前提下改善網絡運行效率。典型的輕量化卷積網絡為MobileNets,其主要使用深度可分離卷積[17]和逆殘差線性瓶頸層構建網絡模型。

1.1.1 深度可分離卷積

MobileNets將深度可分離卷積模塊應用到卷積網絡模型中,有效地降低了網絡參數量與計算量。圖1給出了普通卷積和深度可分離卷積過程的比較。

圖1 普通卷積和深度可分離卷積Fig.1 Normal convolution and depthwise separable convolution

圖中,N表示卷積核個數,M表示卷積核通道數,D×D表示卷積核大小。普通卷積使用N個卷積核逐步對圖片進行卷積計算。深度可分離卷積將普通卷積分為深度卷積和逐點卷積兩個過程,其先使用M個通道數為1、大小為D×D的卷積核進行深度卷積(depthwise convolution),然后使用N個通道數為M,大小為1×1的卷積核進行逐點卷積(pointwise convolution)。假設輸入為D F×D F×M的特征圖,普通卷積核為D×D×N,采用Same Padding,將得到輸出D F×D F×N的特征圖,其計算量為D F×D F×D×D×N×N,卷積核參數量為D×D×N。當使用深度可分離卷積時,計算量為D F×D F×D×D×M+D F×D F×N×N,卷積核參數為D×D×M+M×N。分離后的計算量與普通卷積計算量占比為卷積神經網絡在特征提取過程中通道數往往呈增大趨勢,并且卷積核一般都大于1×1,由此可知深度可分離卷積對比普通卷積在計算量和參數量的占比都遠小于1,因此網絡的計算速度得以加快。

1.1.2 逆殘差線性瓶頸層

逆殘差線性瓶頸層模塊是mobilenetV3網絡中常用的卷積模塊,如圖2所示。該模塊包含普通卷積、維度擴充卷積、深度可分離卷積、殘差結構以及SE輕量注意力模塊[18](squeeze and excitation module)。逆殘差線性瓶頸層模塊使用多種卷積層處理圖片特征,其計算量和參數量遠低于普通卷積,是一種緊湊而高效的卷積計算方式。另外,該模塊使用的殘差結構和輕量注意力模型SE模塊讓深層網絡梯度更容易傳遞的同時增強了特征的表示能力。

圖2 逆殘差線性瓶頸層模塊Fig.2 Inverted residual and linear bottleneck

1.2 特征金字塔網絡

特征金字塔網絡[19](feature pyramid networks,FPN)主要用于解決檢測問題中目標多尺度的問題。與圖像金字塔相比,特征金字塔網絡運算量更少并且精度更高。圖像金字塔和特征金字塔網絡結構如圖3所示。

圖3 圖像金字塔和特征金字塔Fig.3 Image pyramid and feature pyramid

由卷積網絡特性可知,卷積神經網絡在提取圖片特征過程中,其底層特征圖含有語義信息少,但是目標位置準確;高層特征圖語義信息豐富,但目標位置粗略。特征金字塔網絡通過橫向連接從骨干網絡中取出特征圖,再經過自上而下的下采樣將頂層特征圖與底層相融合,以同時獲得目標豐富的語義信息和準確的位置。最后對每一層融合后的特征圖進行獨立輸出預測,以增強對尺度變化的魯棒性。

2 本文方法

為解決深層卷積網絡帶來的計算量大以及特征層融合不充分的問題,本文提出一種端到端的輕量化多特征融合人臉檢測方法。通過使用輕量化網絡和無錨檢測來提升檢測速度,使用多種特征融合處理方法提升檢測精度。本文方法特點包括:(1)采用輕量化骨干網絡作為特征提取層,引入感受野增強模塊、附加權重的特征融合模塊和通道混洗融合模塊處理圖片特征,以及使用中心點定位的無錨檢測方法對特征進行后處理并預測人臉位置。(2)與現有方法對比,在保持檢測準確率的前提下,顯著降低了模型參數量和計算復雜度。(3)能處理大規模人群檢測,對于遮擋、多姿態及多尺度等復雜人群有較好的檢測效果。基于上述方法構建的網絡模型如圖4所示,整體流程分為基于輕量化骨干網絡的特征提取、多特征融合和使用無錨檢測的預測三部分。

圖4 檢測模型整體結構Fig.4 Overall structure of detection model

2.1 基于輕量化骨干網絡的特征提取

圖片的特征提取過程依賴于模型的骨干網絡,為使網絡模型輕量化的同時保證檢測性能,本文采用MobileNetV3small構建骨干網絡。該網絡的模型結構由平臺感知網絡結構搜索(platform-aware NAS)和網絡自適應方法(net adapt)搜索得到,首先使用一層步長為2、卷積核大小為3×3的普通卷積對圖片進行下采樣,然后使用11個逆殘差線性瓶頸層模塊(簡寫為Bneck)對圖片進行卷積操作,其中前三個Bneck使用卷積核大小為3×3的卷積,后8個Bneck卷積核大小為5×5,并且第1、2、4、9個Bneck使用步長為2的卷積進行下采樣,第1、4~11個Bneck中嵌入SE輕量注意力模塊。整個網絡由兩種不同逆殘差線性瓶頸層堆疊而成,通過使用通道擴充卷積增加特征層通道數并使用步長為2的卷積對特征層進行下采樣操作。為簡化計算過程,本文方法在所有卷積操作后均使用ReLU激活函數,在骨干網絡最后一層使用卷積核大小為3×3、步長為2的卷積對特征層作最后一次下采樣操作。

2.2 多特征融合

普通的特征金字塔網絡在融合特征時對特征層進行上采樣和元素相加操作,這種結構一定程度上解決了多尺度特征層融合的問題。本文方法在特征金字塔基礎上引入感受野增強模塊(receptive field enhancing module,REM)、權重特征融合模塊(weight-feature fusion module,WFM)和通道混洗模塊(channel shuffle module,CSM)進一步增強特征融合,以滿足復雜場景下人臉檢測精度的要求。

(1)感受野增強模塊

輕量化網絡作為特征提取的骨干網絡,其結構簡潔,但提取出的特征有限,對此引入感受野增強模塊對其進行處理。對于感受野增強模塊的輸入I,進行卷積核大小為3×3、5×5的空洞卷積的操作:

式中,I表示特征金字塔的各個特征層,Katrous3×3(I)、Katrous5×5(I)分別表示大小為3×3、5×5的卷積核對各特征層的卷積操作;F3×3、F5×5分別表示經過對應卷積操作后得到的特征圖;Kconcat,1×1表示對兩個特征層使用concat和1×1卷積操作。所有卷積操作后都使用批歸一化和ReLU激活函數,并且經過感受野增強模塊處理后的特征層在尺度和通道數上與原特征層保持一致。感受野增強模塊使用不同大小的空洞卷積對特征進行計算,將不同尺度空洞卷積核得到的圖像特征進行融合,有利于后續處理融合信息充分的特征圖,以增強檢測效果。

(2)權重特征融合模塊

為加強特征融合效果,使每層特征能被檢測網絡充分利用進而提升檢測精度,引入附加權重的特征融合模塊。對經過感受野增強模塊處理后的特征層,首先將頂層特征上采樣與底層特征融合,然后將每一層特征通過上采樣或下采樣方式分別與其他層進行加權融合。假設原特征層表示為f i,在特征融合時每層特征做加權計算,所得特征F i可表示為:

式中,超參數αi、βi、γi為每層特征的附加權重,由網絡訓練得到。原特征層的每一層特征在與其他層相融合時分別賦予不同權重,從而得到新的特征層網絡,所得網絡在尺度和通道上都與原特征保持一致。以該種融合方式進行訓練可以讓模型自適應選擇有利于目標定位和回歸的特征層,從而提升檢測準確率。

(3)通道混洗融合

為加快模型檢測速度,本文方法在預測階段并不使用多層檢測頭分別預測,而是使用經過通道混洗模塊處理的單一特征層作為檢測頭進行預測。對于附加權值的特征層,首先對頂層做上采樣處理,然后與下一層進行通道拼接,之后使用通道混洗操作和卷積操作進行處理,其過程表示如下:

式中,fupper表示上層特征層輸入,flower表示下層特征層輸入,Fup為采樣倍數為2的雙線性上采樣操作,Fshuffle,1×1表示使用通道混洗和卷積核為1×1的卷積操作。經過上述方法得到的新特征層再與下一層進行相同操作,直到計算出最終特征層用于預測。另外,在通道混洗融合最上層加入原骨干網絡的特征層映射以保持原圖片特征信息。

2.3 無錨檢測預測過程

2.4 損失函數

本文采用Lin等人[20]提出的Focal Loss作為人臉檢測分類損失函數。對比交叉熵損失(cross entropy loss),Focal Loss更有利于解決檢測網絡中樣本比例失衡以及前景和背景分類問題。Focal Loss表示為:

表1 不同α和γ對算法精度的影響Table 1 Varyingαandγfor algorithm

在回歸目標包圍框時,本文采用GIoU Loss[21]。GIoU Loss是對普通交并比損失函數的改進,其表達式如下:

其中,A為檢測器預測框,B為數據集標注的真實框,C為包圍預測框和真實框的最小面積。IoU表示為預測框和真實框的交并比,其表達式如下:

在對包圍框回歸計算時,GIoULoss不僅關注預測框和真實框的重疊面積,同時也關注兩框的非重疊區域,即C-(A∪B),因此可以使檢測器更加關注兩框之間的重合度,從而使最終得到的目標包圍框更加趨于真實框大小。

3 實驗結果及分析

3.1 實驗環境

本文算法使用的實驗環境為Ubuntu16.04LTS操作系統,采用深度學習框架Pytorch進行網絡搭建以及模型訓練、測試和驗證,使用cuda10.0和cudnn7.6.2用于算法加速。本文方法采用的硬件設備為Inteli7-9700K@3.6 GHz處理器,32 GB運行內存,NVIDIA Geforce RTX2080Ti顯卡。

3.2 實驗設置

3.2.1 數據集

本文方法使用的數據集為WIDERFACE[22]人臉數據集。該數據集總計32 203張圖片,包含393 703張帶標注的人臉,并且大多數圖片都呈現密集的人群環境,其標注的人臉具有多姿態、多尺度、高遮擋等特點。WIDERFACE數據集以61種事件對圖片進行分類,對每一類圖片都按不同比例分為訓練集、測試集和驗證集并將每個子集的檢測圖片都設置簡單(Easy)、中等(Medium)和困難(Hard)三種難度。不同難度下的數據圖片中包含數人到數百人不等,且涵蓋大部分自然場景中的人群分布情況。

3.2.2 參數設置

在訓練階段,訓練集中的圖片統一縮放成大小尺寸為768×768的圖片,并使用隨機翻轉、色彩抖動和光照變換等數據增強方法。訓練時batch size設置為16,epoch設置為200,使用Adam優化器并在不同階段使用不同大小的學習率。學習率設置如下:0~30 epoch的學習率設置為0.001,31~50 epoch的學習率設置為0.002,51~100 epoch的學習率設置為0.005,101~150 epoch的學習率設置為0.000 1,151~200 epoch的學習率設置為0.001。同時,在訓練時使用正態分布的隨機初始化對網絡中的權重進行初始化。

3.3 檢測結果

本文首先對比了使用不同特征處理模塊對檢測模型檢測準確率的影響;然后與其他基于深度學習的人臉檢測方法進行比較,并通過檢測準確率和精確度召回率曲線圖(precisionand recall,PR curve)給出實驗結果。最后給出了本文方法在WIDERFACE數據集中的一些檢測效果作為示例。

3.3.1 特征處理模塊有效性分析

為驗證所提方法的有效性,本文使用不同特征處理模塊分別進行了多種融合實驗,所有檢測模型均在WIDERFACE訓練集上進行訓練,在其驗證集上進行驗證,并且訓練時的參數設置均保持一致。驗證時,閾值大小設置為0.5,得到的檢測準確率以及模型權重大小如表2所示。

表2 不同特征處理模塊檢測準確率及模型大小Table 2 Detection accuracy and model weight with different feature processing modules

由表2可以看出,當僅使用一種特征處理模塊時,在Easy和Medium難度的檢測準確率有略微降低,但在Hard難度下的準確率有較大提升。當使用兩種模塊組合時,使用REM和WFM的模型僅在Hard難度下準確率提升較多,使用REM和CSM的模型在Easy和Medium難度下有較大提升,使用WFM和CSM的模型檢測準確率和基準方法的準確率幾乎一致,并且使用兩種模塊組合時模型權重達到了4.1 MB、4.3 MB和4.7 MB。同時使用三種模塊時,檢測模型在三種難度下的檢測準確率都有較大提升,在hard難度下提升最大,達到了4.8個百分點,并且模型權重只有5.1 MB。綜上可知,本文提出的不同特征處理模塊對于提升檢測結果均是有效的,使用三種模塊的檢測模型在參數量上比使用兩種模塊的模型只多了不到1 MB,但其檢測準確率具有明顯提升。

為驗證本文方法優勢,與文獻方法在相同數據集下進行比較,結果如表3所示。

從表3中可以看出,本文方法在WIDERFACE驗證集檢測準確率上均優于Faceness、Multiscale Cascade CNN、LDCF+、Multitask Cascade CNN等方法。在對比ScaleFace和文獻[26]時,在Easy和Medium難度上的準確率有較大提升,但Hard上的準確率稍顯不足。比較于SSH檢測方法時,本文方法在Easy和Medium難度上準確率上相差3個百分點左右,在Hard難度相差較大,在10個百分點左右。

表3 WIDERFACE驗證集檢測準確率對比Table 3 Accuracy comparison on WIDERFACE validation set %

然而,文獻所提方法均未使用輕量化骨干網絡作為特征提取網絡,其模型計算量和參數量巨大,本文所提方法使用輕量化網絡,模型權重僅有5.1 MB,做到了檢測精度和模型大小的權衡。各方法模型權重大小如表4所示。

表4 模型權重大小Table 4 Weight of each model

從表4可以看出,本文方法在模型輕量化上具有顯著優勢。與Multitask Cascade CNN比較,模型權重大小相差不大,但是檢測精度提升了許多。與SSH方法相比,本文方法檢測精度稍顯不足但模型權重約為SSH的十四分之一。因此,本文方法無論從檢測準確率還是模型輕量化方面均有顯著優勢。另外,WIDERFACE數據集使用PR曲線作為人臉檢測的性能評估標準。遵循其評估協議。對比方法和本文方法在驗證集上的檢測PR曲線如圖5所示。從曲線也可看出,本文方法精確度優于除SSH外的其他對比方法。

圖5 檢測PR曲線圖Fig.5 Detection PR curves

3.3.2 檢測效果

圖6給出了本文方法的一些檢測效果圖例,檢測到的人臉均用矩形框標注。從檢測效果可以看出,本文方法可以有效地檢測出復雜場景的人群,且能很好地解決大規模人群中多姿態、多尺度和高遮擋下的人臉檢測的難題。

圖6 檢測效果圖Fig.6 Detection results

4 結束語

針對基于深度學習的人臉檢測算法使用深層神經網絡帶來的計算復雜、參數量大以及復雜場景中檢測準確率低的問題,本文提出一種基于多特征融合的輕量化無錨人臉檢測算法。該方法利用輕量化骨干網絡提取圖片特征,使用感受野增強模塊、權重特征融合模塊和通道混洗模塊處理金字塔特征層,使特征融合更為充分,最后使用無錨檢測方法進行網絡訓練并預測出人臉位置。實驗結果顯示本文引入的特征處理模塊能有效提升檢測精度,與文獻方法相比,在檢測精度上和檢測效率上具有較為明顯的優勢,顯示了本文方法的簡潔性與高效性。如今注意力機制和Transformer模型廣泛應用于計算機視覺任務中并取得了顯著的效果,下一步工作將會從上述兩方面著手構建人臉檢測網絡,進一步加強模型對復雜人群的檢測效果。

猜你喜歡
特征融合檢測
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 波多野结衣视频一区二区 | 久久综合色视频| 亚洲第一黄色网| 亚洲伦理一区二区| 国产视频欧美| 国产一级在线观看www色| 国产99视频精品免费观看9e| 国产欧美在线观看一区| 亚洲国产理论片在线播放| 欧美午夜在线观看| 欧美亚洲国产精品久久蜜芽| 色天堂无毒不卡| 网友自拍视频精品区| 亚洲成在线观看| 一本综合久久| 中文字幕永久视频| 一级毛片在线直接观看| 国产成人8x视频一区二区| 91麻豆精品视频| 亚洲成网站| 热九九精品| 久久精品国产91久久综合麻豆自制| 国产一区二区影院| 日本精品视频一区二区| 最新国产在线| 一本大道无码日韩精品影视 | 欧美亚洲欧美区| 97精品久久久大香线焦| 尤物视频一区| 国产永久免费视频m3u8| 国内熟女少妇一线天| 五月婷婷丁香色| 亚洲欧洲日韩综合色天使| 99热这里只有精品在线观看| 日韩精品亚洲精品第一页| 色妞永久免费视频| 成年人视频一区二区| 国产免费网址| 97亚洲色综久久精品| 毛片久久久| 国产成人a毛片在线| 91亚洲视频下载| 国产18在线播放| 亚洲免费三区| 亚洲男人的天堂在线| 欧美v在线| 国产成人91精品| 亚洲精品图区| 亚洲av片在线免费观看| 欧美精品啪啪一区二区三区| 天天综合网亚洲网站| 国产人成午夜免费看| 国产精品视频观看裸模| 亚洲一级毛片在线观| 国产美女在线观看| 精品福利国产| 2021天堂在线亚洲精品专区| 992tv国产人成在线观看| 日韩视频福利| 成人午夜久久| 四虎AV麻豆| 欧美激情视频一区| 亚洲欧美一级一级a| 亚洲人成高清| 精品乱码久久久久久久| 精品久久久久久成人AV| 国产黑丝一区| 国产精品福利尤物youwu| 日韩免费毛片视频| 久久国产乱子伦视频无卡顿| 久久永久精品免费视频| 亚洲性日韩精品一区二区| 一级成人a毛片免费播放| 亚洲中字无码AV电影在线观看| 日本午夜在线视频| 亚洲美女操| 五月天综合婷婷| 日本欧美一二三区色视频| a级毛片免费网站| a天堂视频| 日本欧美一二三区色视频| 无码专区在线观看|