曾其濤,韋娟,張津源,林 彬
(桂林理工大學 理學院,廣西 桂林 541004)
2019年12月,新型冠狀病毒感染的肺炎疫情開始爆發并迅速蔓延到我國多個地區,與病毒的斗爭成為一場持久戰。目前,人們佩戴口罩進出公共場所成為一種常態,而在當今眾多人臉識別應用中,佩戴口罩帶來的面部遮擋使識別準確度大大降低。在火車站、機場等安檢通道進行人臉認證時需要摘下口罩,這會帶來一定的安全隱患。在當前形勢下,開發快速高效的口罩人臉識別算法的需求日益迫切。目前,深度學習技術在目標檢測領域應用廣泛,本文通過梳理現有的口罩人臉檢測算法,對深度學習在口罩人臉檢測領域的應用進展進行綜述。
近年來,深度學習技術在圖像分類、圖像分割、目標檢測、目標跟蹤等計算機視覺領域中取得了巨大的成功。深度網絡模型以卷積神經網絡(Convolutional Neural Networks,CNN)為代表,網絡由多層神經元逐層連接構成,每層中的單個神經元與前一層的部分神經元相連接,并進行不同的操作,如卷積和池化。通過卷積和池化之間的交替,構造成一個初始的層次結構,之后通過設計全連接層來適應不同的視覺任務,再利用激活函數得到輸出神經元的響應,最后根據不同的目標函數來優化整個網絡結構。
目標檢測是計算機視覺的一個重要分支,基于深度學習的目標檢測本質上屬于分類任務,基本步驟為:先對圖片生成候選區域,再對候選區域提取特征進行分類與回歸,最后對檢測框進行合并得到檢測結果。相比于傳統的視覺圖像類算法,深度學習類算法,具有強大的特征提取能力,因此更加適合于處理口罩人臉檢測問題。
SSD 由Liu等[1]提出,其主干網絡基于VGG16。SSD采用多尺度特征圖檢測目標,通過卷積提取檢測結果,利用NMS(極大值抑制)篩選出正確的邊界框,損失函數使用Softmax Loss與Smooth L1 Loss。SSD的檢測速度快,穩定性高,但在小目標的檢測上表現不如大目標的檢測。阮士峰[2]對數據集中的人臉及口罩等進行尺度的信息統計并分析,對SSD的網絡結構與NMS做了改進,保留了多尺度特征圖的分析預測,在數據集上訓練測試后平均檢測精度可達到88%,提升了原SSD算法的檢測效果,檢測速度可達到46幀每秒,達到了實時檢測的需求。
YOLOv3 由Redmon等[3]提出,其主干網絡為DarkNet53,用來對目標進行多特征層的提取,其內部大量使用了殘差的跳層連接,使得能夠在加深網絡層數的同時又能解決梯度消失的問題。此外,DarkNet53在所有的卷積部分都使用了其特有的DarknetConv2D結構,每一次卷積的同時進行L2正則化,卷積完成后進行BatchNormalization標準化,激活函數與損失函數分別選擇Leaky ReLU和IOU。王藝皓等[4]在YOLOv3的基礎上對DarkNet53主干網、池化結構和損失函數做出了改進,提出了一種復雜場景下的人臉口罩檢測算法,并使用改進后的算法與YOLOv3分別進行了人臉的目標檢測和人臉佩戴口罩實驗,實驗結果表明,該算法在公開的人臉口罩數據集上達到了較好的準確精度,檢測速度達到了38幀每秒。
作為YOLOv3的改進版本,YOLOv4使用CSPDarknet53作為主干網絡進行特征提取;特征融合網絡采用SPP和PANet結構,對特征進行分離與融合,激活函數和損失函數替換為更高效的Mish和CIOU。管軍霖等[5]使用改進后的YOLOv4在口罩人臉數據集上進行訓練,檢測精度和檢測速度均得到了提升。
YOLOv5的網絡結構與YOLOv4非常相似,其主干網絡與特征融合網絡不變;隱藏層和檢測層的激活函數分別選擇Leaky ReLU和Sigmoid,損失函數使用GIOU,使得檢測框能夠更好地重合。肖博健等[6]在YOLOv5模型的基礎上對樣本輸入的尺寸、初始候選區域的參數和卷積層的計算做了一定的調整與改進,并在口罩人臉數據集上進行訓練,最后的準確率達到了95%以上,召回率在100%附近,表現出了一個高水平的檢測能力,在實時性方面表現突出,擁有較快的檢測速度,在使用更高性能的顯卡時,速度可以達到35幀每秒。
RetinaNet[7]由一主干網絡和兩個任務子網絡組成。主干網絡選擇VGGNet,ResNet等網絡對圖像進行特征提取,再由FPN中的每一層以不同尺寸檢測對象特征;兩個子網絡通過附加在FPN上分別負責分類和邊框回歸,損失函數使用Focal loss來解決正負樣本、難易樣本類別不均衡的情況。鄧黃瀟[8]在Keras深度學習框架的基礎上,分別訓練RetinaNet模型和YOLOv3模型,訓練后的RetinaNet在驗證集上得到86.45%的AP值。相比于YOLOv3,RetinaNet無論是在單張人臉還是多張人臉佩戴口罩的檢測上有更高的精度與更好的魯棒性。
本文對基于深度學習的口罩人臉檢測算法及其模型結構進行了詳細的闡述與分析。SSD模型的檢測速度快、穩定性高,適用于大目標的檢測;YOLOv3實時性與準確率都不錯,對大目標檢測效果一般,適用于人流量大時的口罩人臉檢測;YOLOv5在靈活性與速度上更勝一籌,訓練時間快,模型小,易部署;YOLOv4綜合性能優越,特別在遮擋目標檢測方面效果較好;RetinaNet在小目標檢測上準確率更好,適合于人臉密集情況下的檢測。