史健婷,張貴強,陶 金,吳林皓
(1 黑龍江科技大學 計算機與信息工程學院,哈爾濱 150022;2 黑龍江科技大學 研究生學院,哈爾濱 150022)
行人檢測技術結合了數字圖像處理、模式識別、計算機視覺和其他相關技術,無論是在智慧交通,還是在自動駕駛、人體行為分析等領域有著廣闊的發展前景[1]。行人檢測技術,是研究和判斷所給的圖像或在每幀視頻序列中,是否存在要檢測的行人目標。近年來,道路安全問題頻繁發生,在尋找降低交通事故發生方法的同時,行人檢測技術也受到人們的廣泛關注[2-3]。
行人檢測算法可分為傳統的算法和基于深度學習的算法。傳統的行人檢測算法有:Haar 小波特征[4]、HOG+SVM[5]、DPM[6]等等。傳統的行人檢測主要通過人工設計方法,對圖像特征進行提取,進行目標識別和檢測,但算法設計復雜,權值參數難以得到較準確的數值,泛化能力不強。
基于深度學習的算法,如卷積神經網絡(Convolutional Neural network,CNN)[7],通過大量的數據,能自動學習出目標的原始表征,相較于手工設計的特征而言,具有更強的判別能力和泛化能力[8]。之后出現了一系列改進算法,包括Fast RCNN[9-11]、Faster RCNN[12]、SSD[13]、YOLO[14]等算法。其中,YOLOv4網絡結構簡單高效,具有易部署、運用場景廣泛的特性。特別是針對紅外圖像下的小目標檢測,有很大的應用前景[15]。雖然YOLOv4 網絡采用多尺度進行預測,能夠結合更好的分類器,但是還存在識別物體的精準性差、召回率低等缺點。因此,本文對YOLOv4 算法進行了改進。通過與原YOLOv4 算法進行比較,將對紅外圖像行人的檢測精準度(MAP)提高了0.04%。
YOLOv4 算法以CSPDarknet53 作為主干網絡,在采用ResNet 短跳連接的同時,增加輸入輸出的維度拼接,更好的實現了深淺層特征的結合,在主干網絡的頂端,加入了SPP 模塊。采用1?1、5?5、9?9、13?13 最大池化的方式,進行多尺度特征融合。該模塊和PAN 結構相結合,使分辨率為76?76 的淺層特征向上傳播,保證每個檢測頭都可以接受淺層特征,極大的增加了網絡對小目標特征的表達能力。YOLOv4 的網絡結構如圖1 所示。

圖1 YOLOv4 網絡結構圖Fig.1 YOLOv4 network structure diagram
除了對主干網絡的改進之外,YOLOv4 還引入了其它tricks 來提升網絡性能。在激活函數方面,引入Mish激活函數,如公式(1)所示:

函數圖像如圖2 所示。

圖2 Mish 激活函數圖像Fig.2 Mish activation function
可以看出,Mish激活函數在x =0 處也是光滑可導的,具有較好的泛化能力和結果的有效優化能力。在數據增強方面,采用Mosaic 數據增強方式,對多張圖片以隨機縮放、隨機剪裁和隨機排布的方式進行拼接,大大豐富了數據集,可以讓網絡直接計算多張圖片的數據,增加模型泛化能力。

式中:D2表示預測框和目標框中心點距離,DC為最小外接矩形C的對角線距離。
注意力機制(Attention Mechanism)在文本分析、行人檢測、外界語音處理等方面有廣泛的使用。注意力機制就像人類注意力觀察一樣,通過相應的空間、通道等方面,從軟注意力和強注意力兩方面進行分析和處理。
2017 年,Jie Hu 等人通過研究,提出了一種新的框架結構——SENet(Squeeze- and- Excitation Network,即“壓縮和激勵”SE 塊)。SENet 通過加強所要研究的重要區域,把所要輸入的圖像進行卷積,然后得到feature map 進行分析,設計出一個一維向量,作為分數來進行評價。與所要研究的圖像通道一樣,該向量的每個評價分數采用乘法加權方式,得到原通道的大小,這樣處理提高了研究的重要區域。SE 模塊的結構圖如圖3 所示。

圖3 SE 模塊結構圖Fig.3 Se module structure diagram
在YOLOv4 中,主要采用3x3 大小的標準卷積進行特征提取操作。標準卷積由于其感受野的形狀和大小均為固定,在對小目標進行檢測時,同樣會對非目標區域進行特征提取操作,會導致最后卷積所提取到的特征中干擾因素較多,對檢測器的預測造成較多的干擾影響。因此,基于YOLOv4 的標準卷積思想,利用形變卷積為核心組件,構建形變特征提取模塊,提升對于目標特征提取的有效性。
形變卷積與標準卷積相比,具有3 點優勢:
(1)感受野有效性的提升,即特征圖在映射目標信息時針對性更高;
(2)卷積核能夠適配目標位置進行采樣,所提取到的特征信息與目標更匹配;
(3)由于形變卷積經過特征提取時,能夠有效針對目標所在區域進行提取,使得特征圖在網絡中傳遞時,其穩定性(即權值參數不會突變)優于標準卷積。
形變卷積與標準卷積在進行特征提取操作時的區別如圖4 所示。

圖4 形變卷積與標準卷積特征提取對比Fig.4 Comparison of feature extraction between deformation convolution and standard convolution
為了增強對于目標位置信息的復用,針對YOLOv4 的注意力機制思想,在每個尺寸的特征圖,經由形變特征提取模塊組后,加入Coordinate 坐標注意力機制模塊,對坐標信息進行加強。Coordinate坐標注意力機制模塊基于SE 通道注意力機制進行優化,提取出了特征圖橫向與縱向的特征權值信息,再通過聚合,以達到精確的目標位置坐標顯著性標記。Coordinate 坐標注意力機制模塊結構如圖5 所示。

圖5 Coordinate 坐標注意力機制模塊Fig.5 Coordinate attention mechanism module
在圖5 中,模塊的工作流程主要分為兩步:一是提取特征圖上X軸與Y軸的特征信息;二是對提取的特征信息進行激活加權。首先,輸入到模塊的特征圖由全局池化分解出兩個方向上的一維特征,該過程基于SE注意力機制壓縮操作進行優化。
標準全局池化計算過程為:

式中:Zc為全局池化輸出;H為特征圖的高;W為特征圖的寬;Xc為全局池化輸入。
Coordinate坐標注意力機制則將全局池化分解為:

完成分解后,再對兩個方向的特征圖進行聚合,以此獲得帶有坐標信息的特征圖。之后,將該特征圖分別由兩個二維卷積進行特征提取與激活加權計算,得到兩個坐標方向的加權特征信息。將該特征信息映射到特征圖中,即可反映目標在特征圖中的坐標信息。
對于影響網絡定位準確性的因素,最直觀的表現為YOLOv4 檢測器中的anchors 組件。檢測器通過anchors 判定目標是否存在及目標的位置,即anchors 能夠對特征圖的某個區域是否存在目標進行判定,同時預測目標位置。由于目標的形態大小具有不確定性,即通過手動設定的anchors 尺寸無法準確適配目標的位置,致使在檢測時存在一定的偏差。為優化anchor 的定位準確性,在YOLOv4 檢測層中加入“Guided Anchoring”機制,通過網絡自適應生成anchors,來提高anchors 及候選區域的質量。
不同于常規anchors 操作,在一個坐標點上對一組anchor 的尺寸進行預測并挑出最符合大小的一個,其值對一個anchor 的尺寸進行預測,使得對于不規則目標的擬合性更強,召回率也更高。本文設計的網絡命名為YOLO-sd。
本設計實驗環境配置為:軟件層次上,操作系統為Ubuntu 18.04,神經網絡框架為Darknet,CUDA 版本為10.0,cuDNN 加速包為7.6.4;在硬件層次上主要使用了RTX2080ti 型號的GPU 進行卷積計算加速。
關于紅外行人檢測算法評價的相關性能指標包括:交并比IOU、精度(precision)、召回率(recall)等。

式中:S1為紅外圖像預測的行人區域;S2為標注的行人區域;TP為紅外圖像下行人區域,預測為行人正確情況;FN為紅外圖像下行人區域,預測為不是行人錯誤情況;FP為實際不是行人區域,但是預測此區域有行人情況。
所采用的數據集來自OSU Thermal Pedestrian Database,通過數據清洗、預處理等操作,構成2 100張訓練集和500 張的測試集。將改進后的模型YOLO-sd 與YOLOv3、YOLOv4 以及SSD 算法進行對比測試,測試結果見表1。

表1 模型檢測性能對比Tab.1 Performance comparison of models
通過對比結果可以看出,本文提出的YOLO-sd算法,整體魯棒性要優于YOLOv3 和YOLOv4;在召回率的對比中,YOLO-sd 優于YOLOv3 和YOLOv4,說明對于目標的查全率更好,且IOU數值也更優。YOLO-sd 與SSD 對比,YOLO-sd 的精度、平均準確率(map)、F2-1Score 要優于SSD;其它指標,召回率和交并比略低于SSD,綜合反映了對于主干網絡及檢測網絡部分的優化,在提升網絡性能方面有巨大幫助。網絡優化性能pr 曲線如圖6 所示。

圖6 pr 曲線對比Fig.6 Comparison of PR curves
利用YOLO-sd 的實際測試結果如圖7 所示。

圖7 測試結果Fig.7 Test result
本文提出了一種基于YOLOv4 改進的紅外圖像行人檢測算法YOLO-sd,優化后的YOLO-sd 針對于灰度圖及小目標的檢測能力有明顯提升,提高了紅外檢測的實用性。該算法主要應用于低像素及小目標的檢測環境,主要采用形變卷積為核心組件,構建形變特征提取模塊提升對于目標特征提取的有效性,同時針對于形變卷積對特征提取網絡模塊進行優化,增強了特征信息的傳遞能力。經測試,優化后的YOLO-sd 在針對于紅外小目標的檢測場景下檢測精度有明顯的提高。整體精度提升1.05%,達到83.09%。本文的網絡對于夜間來往的行人、駕駛的車輛來說,有輔助參考價值,有助于提高安全性。