基于改進的RetinaFace 人臉檢測方法

2023-11-13 16:10:18李云鵬席志紅

應用科技 2023年5期

李云鵬，席志紅

哈爾濱工程大學信息與通信工程學院，黑龍江哈爾濱 150001

人臉檢測技術是人臉識別[1]的前提，只有檢測到人臉并且提取出相關的信息，如人臉的位置坐標、表情、年齡、姿態等，才能應用到相應的實際需求中，提高智能化的水平。近年來，隨著計算機視覺領域的發展和深度學習的提出，人臉檢測取得了重要的突破，并逐步應用到人們的現實生活中。

人臉檢測可以分為2 個研究方向，一個是傳統的基于手動提取特征的人臉檢測，Viola 等[2]提出的圖片Haar 特征提取算法(線性特征、邊緣特征、中心特征和對角線特征)，然而傳統的檢測算法不僅需要人工進行手動提取特征，相對費時費力，而且特征表達能力有限，在復雜環境下，不具備良好的檢測性能。隨著2012 年Hinton 等[3]提出卷積神經網絡，越來越多的科研人員對其進行研究與創新，人臉檢測技術也隨著深度學習的提出取得了進一步的發展。基于深度學習的人臉檢測算法可以分為2 類：一種是先生成候選區域，再通過卷積神經網絡預測目標的雙階段(two-stage)方法，如基于區域的快速卷積網絡(fast region based convolutional network，Fast R-CNN)[4]、空間金字塔池化網絡(spatial pyramid pooling，SPP-Net)[5]，特點是精度很高，但是檢測速度很慢；另一種是直接通過神經網絡進行預測目標的單階段(onestage)方法，如YOLO[6]系列(V1-V5)、RetinaFace[7]算法等，特點是速度和精度相對均衡。其中本文使用的Retina-Face 是一種基于滑動窗口，自監督與額外監督結合的多任務學習，通過回歸人臉的眼睛、鼻子和嘴巴5 個關鍵點，對不同尺寸的人臉進行像素級的定位，對于人臉檢測有比較好的結果。本文采取MobileNetV3[8]網絡替代RetinaFace中的特征提取網絡,大幅度降低參數和計算量；然后在骨干特征提取網絡與特征金字塔之間引入高效通道注意力機制(efficient channel attention，ECA)[9]模塊提高特征融合階段特征信息的利用率，使用Soft-NMS[10]非極大值抑制代替原始的非極大值抑制(non-maximum suppression，NMS)降低在候選框重合面積太大而被誤刪，降低了人臉的誤檢率。改進后的RetinaFace 網絡，保證了檢測速度的同時也兼顧了檢測的精度，提高了人臉檢測的平均精度。本文的具體工作如下：1）對RetinaFace 框架和原理進行介紹；2）對改進部分進行介紹；3）通過對比試驗證明其可行性。

1 RetinaFace 人臉檢測算法

1.1 總體概述

RetinaFace 是帝國理工、倫敦米德爾塞克斯大學、InsightFace 等團隊在2020 年提出的One-Stage 的人臉檢測算法，它利用自我監督和聯合監督的多任務學習，在不同的人臉尺度上能夠執行像素方面的人臉定位。有RetinaFace-Resnet 和RetinaFace-MobilenetV1(0.25)共2 個版本，其中基于Resnet 的有很高的精度，基于Mobilenet 的檢測速度更快。RetinaFace 由主干提取網絡、特征金字塔(feature pyramid networks，FPN)、單極無頭(single stage headless，SSH)特征提取和檢測層(Head)共4 部分組成，其中RetinaFace(骨干網絡選Mobilenet 為例)網絡結構如圖1 所示。

1.2 特征提取層Backbone

RetinaFace 的特征提取層是MobilnetV1[11]，其采用了深度可分離卷積(depthwise separable convolution)，先用厚度為1 的3×3 的卷積核(depthwise)分層卷積，再用1×1 的卷積核(pointwise 卷積)調整通道數，將特征提取與特征組合分開進行，大幅度減少了運算量和參數量。其中MobilnetV1-0.25 是將MobilnetV1 的通道數壓縮為原來的1/4網絡，提高特征提取的速度。

1.3 FPN 特征金字塔

FPN[12]特征金字塔是利用1×1 的卷積對有效的特征層(featuremap)進行通道數的調整，然后利用Upsample 上采樣和Add 進行的特征融合。將MobilnetV1-0.25 中最后3 個有效特征進行FPN 操作。把高層的特征傳下來，補充低層的語義，可以獲得高分辨率、強語義的特征，有利于小目標的檢測。

1.4 SSH 特征提取

SSH 特征提取層采用了3 個并行結構，利用3×3卷積的堆疊代替5×5與7×7卷積的效果，主要包括3 部分組成：左邊的是3×3卷積；中間利用2 次3×3卷積代替5×5卷積；右邊利用3 次3×3卷積代替7×7卷積。SSH 通過在特征圖中引入上下文信息來提高小人臉的檢測。

1.5 Head 層

RetinaFace 的 Head 層輸出80×80、40×40、20×20共3 個不同尺寸的特征圖，第1 個用于分類預測(face or not)，判斷先驗框內部是否包含物體，利用SoftMax 進行二分類每個先驗框內部包含人臉的概率；第2 個用于人臉框的回歸(bbox)先驗框進行調整獲得預測框；第3 個用于人臉關鍵點回歸(landmarks) 對先驗框進行調整獲得人臉關鍵點；經過Head 完成調整、判斷之后，還需要進行非極大值抑制（即篩選出一定區域內屬于同一種類得分最大的框）。

2 改進的Retinaface 算法

2.1 特征網絡

Retinaface 的骨干網絡為MobileNetV1，雖然使用了深度可分離卷積極大地降低了模型的參數提高了檢測的速度，然而V1 的結構過于簡單，類似于1 個直筒結構，導致這個網絡的性價比不是很高。本文將骨干網絡替換為MobilNetV3，提高人臉檢測的性能和速度。MobilNetV3 更新了bneck結構如圖2 所示。

圖2 bneck 結構

由于激活函數對低維度的特征會造成更多的信息丟失，而對于高維度的特征的丟失會少一些，通過一般卷積進行升維，再通過深度可分離卷積操作，再通過一般卷積進行降維，最后再進行殘差相加的倒殘差網絡結構。此外，更新了網絡結構，加入輕量化的SE[13]（squeeze and excite）結構，在bottlenet 結構中加入了SE 結構，將其放在了depthwise filter 之后，在含有SE 結構中擴展層的通道數變為原來的1/4，這樣不僅沒有增加時間的消耗，還提高了精度。swish 非線性激活函數是谷歌團隊自研的激活函數，能夠有效提升網絡精度，其公式為

然而swish 的計算量太大，將swish 替換為改進的h-swish，改進的h-swish 函數如下：

改進的h-swish 非線性激活函數提高了計算的速度，對量化過程更加友好。

另外重新設計耗時層結構如圖3 所示。第1 個卷積層的卷積核的個數由32 降低為16，準確率保持不變時降低運算量。在原始的最后階段一般是先經過4 個卷積操作，然后再進行平均池化再經過卷積輸出，而在MobilNetV3 最后階段是卷積后直接進行平均池化然后再經過2 個卷積進行輸出，降低了很多層結構，在保證精度的情況下提高速度。

圖3 耗時層結構

MobileNetV3 如表1 所示，其中bneck 是網絡的基本結構，SE 表示在網絡結構中是否使用注意力機制，NL 代表激活函數的類行，包括改進的HS(h-swish)以及RE(ReLU)激活函數，在此網絡中輸入圖片的大小為2242×3，經過卷積池化后輸出的向量大小為12×1 280。

表1 MobileNetV3 網絡結構

本文將Retinaface 的骨干網絡MobileNetV1替換為更準確高效的MobileNetV3，提高對于人臉特征的提取。

2.2 ECA 注意力機制

為了提高對人臉特征信息的利用率，本文引入了ECA 注意力機制模塊，ECA 是對于SE 機制中降維產生的負面影響進行改進。SE 模塊如圖4 所示。

圖4 SE 模塊

圖4 中可以看出SE 是先降維然后在升維，對于通道注意力預測有一定的負面影響，ECA 是一種不降維的局部跨信道交互策略和自適應選擇一維卷積核大小的通道注意力機制，其中適當的跨信道交互可以在保持性能的同時降低模型的復雜度。在去除了原來SE 模塊中的全連接層，直接在全局平均池化之后的特征上通過一個卷積核大小為K的1D 卷積進行學習，然后再經過一個sigmod函數生成通道的權值。

其中卷積核k的大小與通道數相關，其公式為

式中：C為通道數； γ、b是非線性參數， γ設置為2，b設置為1。卷積核的大小受通道數所影響，C越大K的值越大。本文對Retinaface 網絡進行改進在主干網絡與FPN 之間加入ECA 模塊，加強對于骨干特征網絡信息提取的利用率提高對于小人臉的檢測能力[14]。ECA 模塊如圖5 所示。

圖5 ECA 模塊

2.3 Soft-NMS 非極大值

NMS 與Soft-NMS[15]都是對目標檢測中區域提取網絡和邊界回歸網絡候選區域的篩選過程。圖像中的目標具有多個候選的邊界框(bounding box)，要選取置信度(confident socre)最高的候選邊界框，同時盡量降低對同時存在的同一類別其他物體的影響。然而NMS 對于相鄰檢測框的交并比(Intersection over Union，IoU)[16]IoU直接設置為0，其中IoU 時交并比，表示2 個框的重合程度，其公式為

當IoU 越大表示2 個相鄰檢測框的重疊程度越高，當IoU 的值為0 時意味著2 個檢測框沒有重合，IoU 的值為1 時表示2 個檢測框完全重合。

如果2 個同類有重疊、相互遮擋時，對于這2 個目標的檢測框是重合程度很高相互靠近，即IoU 的值很高，使用NMS 算法后，會把2 個檢測框中socre 較低的設置為0 強制刪除。其公式為

為此Soft-NMS 在對于同類別重合時，對于相鄰檢測框的socre，不是像NMS 那樣強制的直接設置0，是降低相鄰檢測框的score，雖然利用一個基于與IOU 相關的函數導致score 被降低，但相鄰的檢測框仍在物體檢測的序列中。公式為

式中：Si為候選框得分，Nt是NMS 閾值，NMS 算法將IOU 大于閾值的窗口的得分置為0。

對于同一類別的檢測，在2 個或多個待檢測目標發生重合時，NMS 算法由于其強制將重合中較低的score 設置為0，很容易導致在最后的檢測目標的缺失，另外當待檢測目標周圍有其他遮擋物遮擋時也有可能會無法檢測出目標。Soft-NMS 算法不僅保留了交并比并不是最高的重疊物體的預測框，并通過相關函數給予這些預測框一個分數，使其保存在檢測序列中，之后再進一步篩選，有效地解決了物體被遮擋的問題。

3 實驗結果與分析

3.1 實驗環境

本文實驗環境為：英特爾Corei7-8 700@3.2 GHz 六核處理器，16 GB 內存；顯卡為NVIDIA GeFore GTX1070；Windows 10，64 位操作系統；學習框架為pytorch 1.10.1；Cuda 11.6。

3.2 實驗數據集

WiderFace 數據集是人臉檢測中主流的數據集，它是由香港中文大學發布的大型人臉數據集，該數據集的圖片來源于WIDER 數據集，從中挑選了32 203 張圖片進行人臉標注，總共標注了393 703 個人臉數據，其中158 989 個標注人臉用于訓練，39 496 個標注人臉用于驗證。在每一個子集下劃分了easy、medium、hard 共3 個級別的檢測難度，評價在不同難度的情況下的檢測精度。WiderFace 數據集40%、10%、50%分別作為訓練集、驗證集和測試集，數據集中的人臉在尺度、姿態、表情、遮擋和光照等方面又很大的變化范圍。本文選擇WiderFace 數據集作為實驗數據集。

3.3 評價指標

為了展現對于人臉檢測的效果，本文設置了每秒傳輸幀數(frames per second，FPS)和精度值(average precision，AP)2 個評價指標。相關公式為

式中：Pre為精度(precision)，R為召回率(recall)，NTP(true positive)代表的是預測框中預測為真實際也為真，NFP(false positive) 代表的是預測框預測為假實際為真，NFN(false negative) 代表的是預測框預測為假實際為假。以Pre作為縱坐標、R作為橫坐標把每一次的結果計算出來，并按照關系繪制出曲線，AP就是經過插值的precision-recall 曲線與x軸包絡的面積。對于FPS，一般來說當大于25 f/s 時可以具備實時性，對于AP 而言其值越大表示檢測效果越好。

3.4 實驗設置

本文選擇pytorch 深度學習框架訓練，采用SGD optimiser 作為模型的優化器，訓練150 個輪次（epoch）；批次大小（batch size）設置為8；初始學習率設置為0.01，經過150 個epoch 后達到0.001；動量(momentum)為0.9；權重衰減（decay）設置為5×10-4，Soft-NMS閾值設置為0.5，訓練集驗證集的輸入圖片均為640×640×3。

3.5 仿真特征圖與消融實驗

RetinaFace 人臉檢測由骨干網絡、FPN 特征金字塔、SSH 特征提取、head 共4 部分組成，其中骨干網絡、FPN 以及SSH 是提取人臉信息。以圖6為原始人臉圖片，經過各個階段后的特征圖可視化結果。

圖6 人臉圖片

圖7 為人臉圖片在經過沒有改進的RetinaFace后的特征圖可視化結果。

圖7 可視化圖

圖7 中，上面3 張圖是經過骨干網絡后3 個通道的可視化結果，網絡層越深提取的抽象；中間3 張圖是經過FPN 特征金字塔后的可視化結果，其中最左側的提取的有效信息很少；下面3 張圖是經過SSH 特征提取后可視化效果圖，由于FPN 提取的有效信息少，造成SSH 不能夠很好地利用人臉信息，如圖7 左側結果圖所示。

改進后的RetinaFace 在更換骨干網絡以及在FPN 之間加入了ECA 注意力機制。改善后的部分如圖8 所示。

圖8 改進后的可視化圖

圖8 上面2 張圖分別為更換骨干網絡MobileNetV3、ECA 注意力機制的可視化結果，下面2 張圖分別是FPN 金字塔以及SSH 的可視化結果，相比之下加入ECA 注意力機制后，FPN 特征金字塔以及SSH 特征提取能夠提取出關鍵的人臉特征，有效地改善了對于提取人臉信息的效果。

為了驗證改進算法對于RetinaFace 的優化效果，在widerface 數據集上，對比原始算法設置了1 組消融實驗，消融實驗包括3 個改進方面的對比：第1 個是替換骨干網絡簡記為V3；第2 個是加入ECA 注意力機制；第3 個是使用Soft-NMS非極大值抑制。逐步增加改進方式，通過對比其檢測的結果，驗證算法改進后的效果。如表2 所示，其中√表示在RetinaFace 人臉檢測網絡中用此種方法，Easy、Medium、Hard 分別是在數據集3 種模式下的檢測精度，檢測速率為每秒的傳幀數。

表2 消融實驗對比

表2 中可以看出，在更換網絡后，FPS 的值有很大提升，加入ECA 注意力機制和Soft-NMS 后檢測精度有所提升，由于加入新的模塊計算量增加，造成話檢測的速度FPS 的數值有所下降，但滿足實時性的要求。

3.6 實驗結果與分析

考慮到本文提出的改進網絡是用于人臉實時檢測的，在減少參數和計算量的同時要保留較高的檢測精度，故選擇Fast R-CNN 、 MTCNN、RetinaFace-Resnet50、RetinaFace-MobileNetV1 作為對比，所有算法均在Wider Face 數據集上進行的測試。可以看出本文提出的算法與其他算法相比有明顯的優勢。測試對比結果見表3。

表3 測試對比結果

由表3 可知，Fast R-CNN 在3 個樣本下的檢測精度都很高，但是由于它為two-stage 大型網絡計算量比較大，所以它的檢測速率非常的低，RetinaFace 作為one-stage 網絡平衡精度和檢測的速度，本文改進的網絡與RetinaFace-MobileNetV1相比無論是精度還是檢測速度都很大的提高，RetinaFace-Resnet50 雖然在檢測精度上略微高于本文檢測網絡，但是在檢測速度上本算法有絕對的優勢。

圖9 給出了RetinaFace-ResNet、 RetinaFace-MobileNetV1 以及本文改進算法的檢測效果，表4給出了圖9 中原始圖像經過改進Retinaface 后的部分人臉預測框的分數列表，Retinaface 在檢測上存在部分漏檢，能夠檢測出部分人臉，但是對于遮擋，hard 數據集上還是有改善的空間。

表4 預測框分數列表

圖9 檢測效果

4 結論

本文改進了Retinaface 人臉檢測網絡，使用MobileNetV3 網絡代替原版的Retinaface 的骨干網絡，相比較而言 MobileNetV3 減少了卷積參數的運算，大幅度減少了網絡的計算量提高檢測的速度，此外，在骨干網絡與特征層之間加入ECA 模塊，提高對于人臉特征信息的利用率，提高檢測精度，將Soft-NMS 代替NMS，改善了在人臉遮擋重合時的NMS 直接將相鄰檢測框直接設置為0，造成在檢測結果中某些目標的缺失。經過實驗證明，本文提出的改進型的RetinaFace 算法在提高AP 的同時，提高了FPS，能夠很好地完成實時情況下的人臉檢測任務。

此外，在研究時發現在人臉密集、遮擋嚴重的hard 樣本下檢測精度還有較大的提升空間。之后，本文將考慮進一步優化Retinaface 算法的網絡結構，考慮主干特征網絡優化，替換其他注意力機制模塊，提高人臉信息的利用率，增強對于hard 樣本的檢測能力。在保證網絡的實時檢測速率前提下，提高hard 樣本的AP。