鄧天民,王 麗,劉旭慧
(重慶交通大學 交通運輸學院,重慶 400074)
行人目標檢測作為先進駕駛輔助系統和智能汽車領域的關鍵技術之一,是計算機視覺領域的研究熱點,與可見光成像相比,紅外成像不易受光照及惡劣天氣環境的影響,依靠檢測目標和檢測背景之間的溫差和輻射頻率差進行檢測,識別偽裝目標能力優于可見光成像,具有一定的真偽辨別的能力,紅外成像對夜間及惡劣氣候的環境適應性遠遠強于可見光成像,可以為行人檢測提供全天候的數據。基于深度學習的目標檢測方法具有強大的自適應能力和特征提取能力,越來越多的學者開始使用深度學習的方法來檢測紅外圖像中的行人,目前,基于深度學習的紅外圖像行人檢測算法主要分為兩類:
1) 兩階段檢測算法:此類算法需要先生成預選框,然后對預選框進行回歸和分類。典型算法有R-CNN[1]、Fast R-CNN[2]、Faster R-CNN[3]等。如車凱等[4]針對紅外圖像行人目標細節少,提取特征的計算量大等問題,結合Fast R-CNN提出了一種自適應的ROI區域提取算法,在保證紅外圖像行人識別準確率的同時適當減少網絡所生成的ROI區域的數量,大幅降低了計算量,加快了紅外圖像行人檢測的速度;然后選取3種不同尺度的先驗框計算其置信度,對結果的坐標進行加權。該特征融合算法較大程度提升了紅外圖像中行人檢測的可靠性和準確性。兩階段檢測算法雖然準確率高,但存在計算量大、運算速度慢等缺點,不能滿足紅外圖像行人檢測實時性的要求。
2) 一階段檢測算法:此類算法不生成預選框預測物體的位置與類別,典型的算法有YOLO(you only look once)系列算法[5-9]以及單擊多盒檢測器(single shot multi box detector,SSD)[10]等。一階段檢測算法提高了紅外圖像行人檢測的速度,促進了紅外圖像行人檢測技術的發展,如Heo等[10]針對夜間拍攝的遠紅外圖像中的行人檢測問題,將YOLOv2和自適應布爾圖構建的顯著性特征圖的先驗特征結合起來,使行人目標具有比背景更高的顯著性,在遠紅外圖像數據集上獲得了有競爭力的結果,并且檢測速度遠快于其他檢測算法;王殿偉等[11]針對YOLOv3網絡對紅外視頻進行行人檢測時存在漏檢率高、精度低的情況,提出了一種改進YOLOv3的算法。首先對候選框進行聚類分析,采用不同分辨率的圖像對訓練過的網絡進行微調,并使用不同尺寸的圖像對網絡進行訓練,通過實驗對比分析,該方法在紅外圖像行人檢測上取得了良好的效果。
針對紅外圖像行人檢測算法中復雜背景行人誤檢率高、密集行人目標檢測精度低、遠景小目標行人漏檢等問題,以及紅外圖像行人檢測算法需要較高檢測速度的需求,本文首先結合高效通道注意力(efficient channel attention module,ECAM)[12],提出意力特征提取模塊(Attention feature extraction module,AFEM),以此來抑制無關背景信息,加強關鍵特征信息的提取;其次,結合感受野模塊(receptive field block,RFB)[13]設計了多尺度特征融合模塊,實現不同尺度間特征信息的高效融合,提升密集行人目標的檢測精度;最后,增加檢測層,提取小目標行人的關鍵信息,加強目標檢測器對遠景小目標的特征提取能力。
本文以YOLOv5算法為基準,提出了基于注意力及特征融合的紅外行人檢測算法(AFFM-YOLO),通過提出的注意力特征提取模塊AFEM、多尺度特征融合模塊MFFM以及四尺度特征檢測方法來提升基準模型YOLOv5在紅外行人目標檢測任務中的表現,AFFM-YOLO整體結構如圖1所示,在主干網絡(Backbone)中融入由殘差網絡及高效通道注意力ECAM級聯而成的注意力特征提取模塊AFEM,能有效抑制紅外圖像中無關背景信息的干擾,提高基準算法的特征提取能力和檢測效率;在Neck中嵌入多尺度特征融合模塊MFFM,MFFM中引入感受野模塊RFB,RFB具有不同尺寸卷積核以及不同空洞率的空洞卷積,將兩者進行級聯組合,能夠有效融合不同尺度間的特征信息,獲得紅外圖像中不同尺寸的局部特征信息,同時增大路徑聚合網絡(path aggregation network,PAN)中模型的感受野,有效提升密集行人目標的檢測精度;最后,改進基線算法預測端,增加大尺度檢測層,采用4種不同尺寸的特征圖來檢測不同大小的紅外圖像行人目標,強化目標檢測器對遠景小目標的表征能力,提高紅外遠景小目標檢測準確率。

圖1 AFFM-YOLO網絡
特征提取網絡中,圖像經過多層卷積后,提取出目標特征位置信息與語義信息,對于復雜背景下的紅外圖像,目標檢測器由于受到無關背景信息的干擾,即使經過了多層卷積,也很難提取到目標的重要特征信息。
通道注意力機制能根據學習到的注意力權重進行加權處理,對相關性低的特征信息給予較低的權重,否則給予較高的權重,以此削弱圖像中不重要的背景信息的干擾,分離出重要信息。然而,現有通道注意力機制為實現更好的性能,大多致力于開發更復雜的注意模塊,不可避免地增加了模型的復雜度,高效通道注意力模塊ECAM能夠有效避免維度縮減,實現一種不降維的局部跨通道交互策略,并能自適應地選擇一維卷積核的大小,提升性能的同時降低了模型的復雜度。紅外圖像中背景相對復雜,為更好地提取紅外圖像中行人目標的特征信息,弱化無關背景信息的干擾,本文結合殘差網絡及高效通道注意力ECAM,提出了一種用于紅外圖像行人特征提取的注意力特征提取模塊AFEM,如圖2所示。

圖2 注意力特征提取模塊
注意力特征提取模塊AFEM中,輸入網絡的特征圖首先分為了2個分支,一個分支經過了多個殘差結構堆疊和2個標準卷積層,另一個僅經過一個基本卷積模塊,將2個分支進行concat操作,該模塊是對殘差特征進行學習的主要模塊。在不降低維度的情況下,將過concat操作后的特征輸入ECAM中,進行全局平均池化(global average pooling,GAP)操作,得到1×1×C的全局描述特征,增強關鍵信息的特征提取能力。在此基礎上,執行大小為k的快速一維卷積Conv1d來進行特征提取,實現局部跨通道交互學習,并采用sigmoid函數生成每個通道的權重比,對相關性較高的特征信息賦予較高的權重,否則賦予較低的權重。最后,將原始輸入特征與通道權重結合,得到具有通道注意力的特征。以此削弱圖像中不重要的背景信息的干擾,分離出重要信息。
殘差結構可以有效避免特征網絡中深度過深導致的梯度消散問題,結合ECAM,能夠進一步聚焦于圖像的判別性區域,從而提升特征網絡的整體性能。其中k與通道維數有關,表示局部跨通道交互的范圍,通道維數越大,交互的范圍就越大。通過與通道維數相關的函數自適應確定k值,即:
(1)
式中:c表示通道數;|t|odd為距離t最近的奇數;γ和b為超參數。
ECA運算表示為:
(2)
路徑聚合網絡PAN自下向上傳遞目標位置信息,將強位置特征從淺層傳遞到深層,使得網絡底層信息更容易傳遞到高層頂部,縮短了信息傳播路徑,同時利用低層特征的精準定位信息,其中C3結構由3個CBS模塊和Concat模塊構成,增加特征圖信息,提高模型學習目標中心位置信息的能力。人類視覺系統中,對于同一幅圖像的不同區域,視網膜的敏感程度不同,在注視區域中心,視覺敏感程度最高,在外圍區域,敏感度遠低于注視中心,可以突出注視區域的信息。受人類視覺感知系統的啟發,感受野模塊RFB考慮視覺感受野大小和偏心率之間的關系,模擬人類的視覺感知,以擴大網絡模型感受野,提取到網絡中的高判別性信息。
紅外圖像中行人目標中心位置信息很重要,基于此,將基線算法的路徑聚合網絡中每個參數和最后預測的P2、P3、P4與P5特征層的C3模塊與RFB組合,構成多尺度特征融合模塊(multi-scale feature fusion module,MFFM),MFFM如圖3所示,將C3模塊輸出特征圖輸入RFB中,RFB對特征圖進行1×1卷積操作來減少通道數,并分別進行1×1、3×1和3×3卷積運算以模擬不同尺度的感受野,在輸入至空洞率為1、3、5的3×3空洞卷積層后,將這些不同感受野特征進行融合,以提升紅外圖像中不同尺寸行人的細節紋理特征。最后,結合輸入特征圖與感受野擴展融合后的特征圖,輸送至網絡結構的目標預測模塊。MFFM利用不同大小感受野的卷積核捕獲特征圖中大量特征信息,以此來獲得網絡結構中不同尺寸的局部特征信息,有效融合不同尺度間的特征信息的同時,增大路徑聚合網絡中模型的感受野,提升感受野中心低層特征的重要性,進而提升整體網絡的檢測精度,更有利于檢測紅外圖像行人這類中心位置信息重要的目標。

圖3 多尺度特征融合模塊
紅外圖像中行人特征提取的豐富性和具體程度與其占用的像素尺寸基本成正比,而遠景紅外圖像中行人目標所占的像素尺寸小,基線算法中的下采樣倍數比較大,很難從較深的特征圖中學習到遠景小目標的特征信息,基線算法中的三尺度目標檢測難以滿足紅外圖像遠景行人小目標的檢測輸出,導致整體檢測精度下降,故在基線算法基礎上增加上采樣次數,使得特征圖繼續擴大,利用更低層的特征信息,增加了特征層之間的互補性。四尺度目標檢測如圖4所示,采用4個不同尺度(20×20,40×40,80×80和160×160)的特征圖來進行紅外圖像行人檢測,增加上采樣次數后,得到一個含有更多細節信息的大尺度特征圖,更多的語義信息將被利用,也能從網絡中較低層的特征映射圖中獲得檢測目標更細粒度的信息,增強模型對遠景紅外圖像行人小目標特征的敏感度,提升網絡對行人小目標的檢測能力。

圖4 四尺度目標檢測
本文實驗軟、硬件平臺配置如表1所示。

表1 實驗平臺配置
本文實驗在FLIR數據集上進行,該數據集采集于美國加州圣巴巴拉的街道和高速公路,數據集中包含雨、霧等多種氣候變化,以及60%日間圖像和40%的夜間圖像,背景有城市、山脈、隧道等,圖像背景相對復雜,且該數據集的場景中行人目標受到不同程度的遮擋,加大了檢測的難度。FLIR數據集中包括4個類別標簽:person、car、bicycle以及dog,本文實驗剔除無關標簽信息,僅保留所需的person標簽,在剔除無效數據以及多余標簽圖像后剩余10 219張圖片,并將數據集分為訓練集7 664張、驗證集1 021張和測試集1 534張。
本文實驗只包括一個類別,故采用平均精度(average precision,AP)及每秒檢測圖片的幀數(frames per second,FPS)來評估AFFM-YOLO算法的性能,AP值是指P-R曲線圍成的面積,用于評價目標檢測算法的檢測性能,P-R左下方的面積越大,AP值越高,表示算法對該數據集的效果越好;FPS指每秒檢測圖片的幀數,用于評價目標檢測算法的檢測速度,FPS值越大,表明算法檢測速度越快,在計算AP之前需要先計算準確率(precision)及召回率(recall),計算公式如下:
(3)
(4)
AP計算公式如下:

(5)
式中:AP表示P-R曲線面積;TP表示正確檢測框數量;FP表示誤檢框數量;FN表示漏檢框數量。
2.4.1實驗結果
實驗過程中模型參數設置如表2所示。

表2 實驗參數設置
實驗結果如圖5、圖6、圖7所示,從圖5中可以看出,相較于基線算法,AFFM-YOLO算法的總損失值明顯降低,且擁有更快的收斂速度,充分表明AFFM-YOLO算法能夠有效減少預測框與真實框之間的差距,更加精準地回歸預測框取得了較好的訓練結果;由圖6、圖7可知,相較于基線算法,AFFM-YOLO算法的召回率以及檢測精度均有提升,可以看出,AFFM-YOLO算法在整體性能上優于基線算法。
2.4.2對比實驗結果與分析
為驗證AFFM-YOLO算法對紅外圖像行人目標的檢測性能,在FLIR數據集上與兩階段目標檢測算法Faster R-CNN以及一階段目標檢測算法SDD、YOLOv3的AP值和檢測速率進行對比,結果如表3所示。

圖6 召回率變化曲線

圖7 AP變化曲線

表3 FLIR數據集實驗結果
從表3可以看出,與其他先進算法相比,AFFM-YOLO算法的綜合性能最優,對比FLIR數據集的AP值可以看出,AFFM-YOLO算法取得了89.1%的最高平均檢測精度,相比基線算法,AP值提升了2.4%;對比FLIR數據集的FPS值可以看出,AFFM-YOLO算法檢測速度雖然低于最高的基線算法,但其檢測速度遠高于其他常用紅外圖像行人檢測算法,且其檢測速度達到66.67 frames/s,滿足實時檢測的要求。相比于其他常用紅外圖像行人目標檢測算法,AFFM-YOLO算法在提升檢測精度的同時兼顧檢測速度,具有最佳的檢測效果,更有利于應用在實際相關領域中。
圖8、圖9、圖10為基線算法及AFFM-YOLO算法在FLIR數據集上的部分檢測對比圖,可以看出,AFFM-YOLO算法在復雜背景、密集行人目標以及遠景紅外行人小目標的檢測效果均優于基線算法。

圖8 復雜背景檢測結果
對比圖8(a)、圖8(b)可以發現,當圖像中背景較為復雜時,基線算法存在誤檢的問題,AFFM-YOLO算法在減弱噪聲干擾的同時增強網絡中感興趣的特征,具有較強的抗干擾能力,并從大量特征信息中分離出更有利于紅外圖像行人目標檢測的信息,有效改善了誤檢的問題。

圖9 密集遮擋人群檢測結果
對比圖9(a)、圖9(b)可以發現,當紅外圖像中行人較為密集,且行人間存在相互遮擋時,基線算法檢測精度較低,且容易出現誤檢的情況,AFFM-YOLO算法則利用不同大小卷積核的感受野來獲取大量不同尺度行人的特征信息,并有效融合不同感受野間的特征信息,提升了網絡感受野中心低層特征信息的重要性,進而提升整體網絡對密集遮擋行人的檢測精度,避免誤檢。

圖10 遠景小目標檢測結果
對比圖10(a)、圖10(b)可以發現,對于遠景小目標行人檢測,基線算法存在較多漏檢情況,而AFFM-YOLO算法通過改善檢測尺度,增加大尺度檢測層,能夠進行精準識別。綜上所述,在處理紅外圖像行人檢測任務時,相較于基線算法,AFFM-YOLO算法有更明顯的優勢,對于背景復雜、密集行人目標以及遠景小目標行人圖像具備更強的檢測能力,有效減少了漏檢、誤檢等現象。
2.4.3消融實驗結果與分析
為驗證本文中所提出的注意力特征提取模塊AFEM、多尺度特征融合模塊MFFM以及四尺度目標檢測層在紅外圖像行人檢測任務中的有效性,以YOLOv5為基線算法,在FILR數據集上進行了驗證分析,召回率、AP、FPS為評價指標,消融實驗結果如表4所示。

表4 消融實驗結果
消融實驗結果表明:將注意力特征提取模塊AFEM嵌入基線算法的骨干網絡后,算法的AP值提升至87.1%,且檢測速度不變,證明AFEM模塊在一定程度上抑制了無關背景信息,能從大量特征信息中分離出更有利于行人目標檢測的信息。將多尺度特征融合模塊MFFM嵌入基線算法的頸部網絡后,算法的AP值提升至87%,召回率大幅提升,相比基線模型提高了1.7%,這表明MFFM能獲得不同尺度的局部特征信息,有效融合不同感受野特征,提升感受野中心低層特征的重要性,進而提升網絡的檢測精度。將四尺度目標檢測層添加至網絡目標檢測后,召回率及AP值相比于基線算法均有較大提升,AP值與召回率均提升了1.5%,充分表明四尺度目標檢測增加了特征層之間的互補性,增強紅外圖像底層特征圖對遠景小目標特征的描述能力,能從網絡中更深層次的特征圖中學習到遠景小目標行人的特征信息,提升網絡的檢測精度。AFEM與MFFM同時嵌入基線算法后,算法的AP值提升至87.9%,召回率大幅提升,相比基線模型提高了2.6%,增強關鍵信息的特征提取能力的同時提升了網絡感受野,抑制了無關背景信息的影響,有效融合了不同尺度間的特征信息。同時增加AFEM、MFFM以及四尺度目標檢測到基線算法中后,召回率及AP值相比于基線算法均有較大提升,AP值提升了2.4%,召回率提升了2.9%,AP值與召回率分別提升至89.1%與81.5%。綜上所述,在處理紅外圖像行人目標檢測任務時,相比于基線算法,AFFM-YOLO算法對于紅外圖像中背景復雜、密集行人及遠景小目標行人具備更強的檢測能力,有效減少了誤檢、漏檢等現象,能夠較好地指導紅外圖像行人目標檢測任務。
為有效提升紅外圖像行人目標檢測效果,以YOLOv5為基線算法,在主干網絡Backbone中融合注意力特征提取模塊AFEM,提高算法的特征提取能力,有效抑制無關背景信息;在頸部Neck的路徑聚合網絡PAN中嵌入多尺度特征融合模塊MFFM,利用不同感受野的卷積核捕獲不同尺度行人的豐富信息,融合不同尺度行人間的特征信息,提升密集行人目標的檢測精度。通過四尺度進行檢測,采用4種不同尺寸的特征圖檢測不同大小的目標,強化目標檢測器對遠景下小目標的表征能力,提高紅外小目標檢測準確率。在FLIR數據集的實驗結果表明,AFFM-YOLO算法達到89.1%的檢測精度和66.67 frames/s的檢測速度,能夠很好地應對紅外圖像中復雜背景、行人目標密集以及遠場景小目標行人的檢測任務。