張 睿,李允臣,王家寶,李 陽,苗 壯
(陸軍工程大學 指揮控制工程學院,江蘇 南京 210007)
目標檢測是指獲得圖像或視頻中物體的位置坐標,并判斷其類別。紅外目標檢測是目標檢測的一個重要分支,在自動駕駛、安防監控、軍事偵察等領域都有廣泛的應用。尤其是在軍事領域,紅外目標檢測可用于對武裝人員、軍事車輛等各類目標進行偵察監視,有著非常重要的軍事價值。
2014年以來,基于深度學習的目標檢測算法通過構建復雜的神經網絡,并運用反向傳播算法更新網絡參數,自動高效地提取物體的復雜特征,在目標檢測領域取得了巨大成功。基于深度學習的目標檢測算法通常可分為兩階段目標檢測算法和單階段目標檢測算法。兩階段目標檢測的代表算法主要有R-CNN(Region-based Convolutional Neural Network)系列,包括:R-CNN[1]、Fast R-CNN[2]、Faster R-CNN[3]、FPN[4]、Cascade R-CNN[5]等。其檢測流程為先將圖像輸入神經網絡提取特征,再采用一定算法生成大量候選區域并篩選,然后對篩選的區域內可能包含的目標進行分類和定位,如圖1(a)所示。兩階段檢測算法精度較高,但速度較慢。為了提高檢測速度,出現了以YOLO(You Only Look Once)系列[6-13]和SSD(Single Shot multi-box Detector)系列[14-15]為代表的單階段目標檢測算法。單階段目標檢測算法省去了候選區域生成階段,用神經網絡對圖像提取特征后,直接通過回歸分析得到目標的類別和位置坐標,如圖1(b)所示。單階段目標檢測算法精度雖然略低于兩階段目標檢測算法,但具有明顯的速度優勢,可進行實時檢測。

(a)兩階段目標檢測算法

(b)單階段目標檢測算法圖1 基于深度學習的目標檢測算法
上述深度學習算法最初均應用于可見光領域。近年來,人們開始將深度學習算法引入紅外目標檢測領域,并取得了不少成果。雖然在可見光目標檢測領域,已有較多文章對深度學習目標檢測算法進行了系統綜述,但在紅外目標檢測領域,相關綜述還比較缺乏。因此,該文主要圍繞針對紅外目標的深度學習檢測算法研究進展進行綜述,以促進紅外目標檢測技術的發展。
紅外圖像是由紅外成像設備通過測量物體向外輻射的熱紅外線得到的,與可見光圖像的成像原理差異較大。受紅外圖像的成像機制影響,紅外目標檢測面臨的困難和挑戰主要有五個方面:
(1)數據集資源缺乏。由于紅外成像設備價格較為昂貴,且紅外圖像數據集大多用于特殊領域,導致研究者可獲取的紅外圖像數據集資源較少。近年來,雖然有一些紅外目標檢測數據集公開發布,但數據規模與可見光數據集相比,差距還很大。
(2)背景干擾大。在城市環境中,背景熱源多,紅外目標與背景熱源難以區分,而在野外環境中,樹木植被的紅外影像較為雜亂,紅外目標的形狀輪廓等特征易被破壞,紅外目標很容易淹沒在背景中而難以辨別。
(3)圖像分辨率低。可見光成像設備大多采用高清攝像頭,拍攝的可見光圖像分辨率較高。而紅外圖像的分辨率一般在640×512像素甚至更低,導致紅外目標的像素分辨率較低,占有的像素面積小,可利用的目標特征少。
(4)紋理細節不足。由于紅外圖像類似于灰度圖,缺乏顏色信息,且物體的溫度分布大多是漸變的,導致紅外目標紋理細節信息不足,成像較模糊。
(5)弱小目標檢測難。在高空或遠距離拍攝條件下,紅外目標尺寸非常小,有時呈現為點狀或斑點狀,不僅缺乏顏色、紋理信息,還缺乏形狀信息,特征信息極少,導致漏檢及虛警率較高。
基于深度學習的目標檢測算法在誕生之初主要用于可見光目標檢測,而紅外目標與可見光目標成像差異較大,因此,相應的深度學習檢測算法并不完全適用。所以,在將可見光領域深度學習目標檢測算法用于紅外目標檢測時,應針對紅外數據集和紅外目標特點進行改進。
深度學習方法高度依賴大規模數據集,而紅外數據集規模一般較小,可供訓練的目標樣本少。對此,可進行數據增強處理,通過水平/垂直翻轉、旋轉、縮放、隨機裁剪、改變對比度、增加噪聲干擾、圖像混合和利用GAN生成偽紅外圖像等方法,設法增加圖像數量和目標樣本數量。
趙曉楓等[16]、Zhang X X等[17]在自建的小規模紅外目標數據集上,采用旋轉、裁剪、改變對比度等方法來擴充樣本數量。李北明等[18]則引入Mosaic和Copy-paste兩種方法進行數據增強。Mosaic數據增強是使用多張圖片經過隨機裁剪、縮放,拼接在一起,Copy-paste數據增強則是將原圖中的目標經過隨機尺度的縮放后,重新粘貼到圖像的任意位置,兩種方法均可有效增加訓練樣本數量。吳晗等[19]則嘗試使用CycleGAN通過風格遷移生成偽紅外圖像,并在CycleGAN中添加了通道和空間注意力,從而實現了紅外數據樣本的有效擴充。但基于GAN的圖像生成方法,還存在模型崩塌的問題,訓練較為困難,且生成的偽紅外圖像與真實紅外圖像存在一定差異。
數據增強的方法雖然可提升網絡模型的泛化能力和魯棒性,但可能改變數據的真實分布,引入數據噪聲,造成目標的誤檢。
對于規模較小的紅外數據集,即使經過數據增強,可能仍然無法滿足復雜的神經網絡對大量訓練數據的需求。對此,可采用遷移學習的方法來進一步彌補訓練數據的不足,提高模型的泛化能力和檢測精度。
遷移學習是將其他領域的知識轉移到新的領域的一種方法。通過將模型在大規模的數據集上預訓練,使模型具備一定的先驗知識,而后將預訓練模型在其他領域的數據集上進行再學習,進一步調整網絡參數達到最優,即可使模型適應新的任務。Zhang X X等先在大規模的航拍可見光車輛數據集上進行預訓練,然后將預訓練模型在航拍紅外車輛數據集上進行再訓練。由于所利用的數據均為航拍車輛數據,目標相似度較高,取得了較好的檢測效果。王悅行等[20]利用計算機仿真生成大量的邊緣、輪廓、紋理等特征相似的仿真紅外艦船,然后利用特征自適應遷移學習方法,實現從仿真紅外艦船到真實紅外艦船的跨域知識遷移。李維鵬等[21]在利用大規模的可見光數據集預訓練的基礎上,還進一步利用大量的未標注紅外圖像對網絡進行半監督學習調優,并提出了特征相似度加權的偽監督損失函數,從而更充分地利用了未標注紅外圖像數據。
遷移學習的方法能夠利用其他領域的數據,輔助提升模型在紅外領域的檢測性能。但在將其他領域的數據知識遷移到紅外領域時,需要考慮跨域知識的匹配問題,否則,可能將錯誤的知識引入模型,給模型帶來不確定性。
針對紅外目標特征較弱且背景干擾大的問題,引入視覺注意力機制,可較好抑制背景噪聲干擾。同時,注意力機制還能在一定程度上彌補數據樣本的不足,即使只有少量的數據樣本,也能提取到有效的紅外目標特征。
人類視覺在觀察整幅圖像時,會將注意力聚焦于某些關鍵目標區域,而忽略大部分背景區域。深度學習中的注意力機制通過模仿人類視覺,將重要的通道或位置區域賦予更大的權重,從而獲得通道或空間位置注意力,相關注意力模塊如圖2所示。
Hu J等[22]提出SE(Squeeze and Excitation)注意力模塊,也稱通道注意力模塊,如圖2(a)所示。其通過全局平均池化將特征圖壓縮,并通過全連接層和激活函數學習得到不同特征通道的權重,再對各通道加權,從而增強有效通道的信息。李向榮等[23]在YOLOv4的特征金字塔融合過程中加入SE模塊,來增加有效特征通道的融合比重。代牮等[24]則在YOLOv5的骨干網中添加SE模塊,在特征提取過程中抑制森林等復雜背景對紅外弱小目標的干擾。
SE注意力模塊只考慮了通道的重要程度,沒有考慮空間位置的重要程度,而位置信息是捕獲目標結構的關鍵。Woo S等[25]提出CBAM模塊(Convolutional Block Attention Module),如圖2(b)所示。其在通道注意力中增加了一個并行的最大池化層,進一步增強了通道注意力,而后在通道維度進行最大池化和平均池化壓縮,從而獲得空間注意力信息。陳皋等[26]在YOLOv3骨干網DarkNet-53中加入CBAM模塊,在僅使用小規模紅外數據集訓練的情況下,檢測精度超過了大規模數據預訓練的模型。Du S J等[27]將CBAM中的7×7普通卷積改為空洞卷積,設計了Dilated CBAM,減少了對目標紋理細節的依賴。

(a)SE注意力模塊 (b)CBAM注意力模塊 (c)CA注意力模塊
Hou Q B等[28]認為CBAM模塊無法獲得長程依賴關系,于是將通道注意力分解為水平和垂直注意力,并沿兩個方向獲取特征圖的遠程依賴關系,將空間坐標信息整合到通道注意力中,得到坐標注意力(Coordinate Attention)。胡焱等[29]在YOLOv5s中特征信息豐富的Dark5階段引入坐標注意力模塊,對低分辨率的紅外行人目標檢測取得較好效果。
除以上注意力機制外,楊其利等[30]模仿人類視覺,采用滑動窗口對圖像進行掃描采樣,以緩解弱小點狀紅外目標檢測中的正負樣本不平衡問題。楊子軒等[31]提出解耦注意力機制(Factor Decoupled Attention),其先通過分子因解機獲取全局通道注意力,再通過局部平均池化和局部最大池化獲取更細粒度的局部注意力,最后通過多尺度卷積獲取不同感受野的空間注意力。FDA方法通過將全局和局部注意力機制融合,對紅外弱小目標檢測效果較好。
相關注意力模塊可靈活嵌入網絡模型中,對提升模型性能有較好效果,而且其參數量和計算量成本也不大,性價比較高。但在模型不同位置,注意力模塊帶來的性能提升并不相同,有時效果提升并不明顯,還可能降低檢測速度。
由于紅外圖像本身分辨率低,紅外弱小目標特征少,而且神經網絡在提取特征的過程中,還會對圖像不斷進行下采樣處理,導致目標信息出現丟失,給紅外弱小目標檢測帶來不利影響。對此,采用多尺度特征融合的方法,可以有效增強紅外弱小目標的特征,提高對弱小紅外目標的檢測精度。
多尺度特征融合方法可分為兩類:一是將網絡模型不同層次的多尺度特征圖進行融合。在深度神經網絡中,深層次的特征圖包含豐富的全局語義信息,而淺層次的特征圖包含豐富的局部細節信息。通過將深層與淺層的特征圖融合,可兼顧獲取目標的全局語義信息和局部細節信息。二是在網絡同一層次中構建具有多感受野的多分支結構,提取目標的不同尺度的局部特征,然后將多尺度特征進行融合,從而更全面地捕獲目標特征。

圖3 特征金字塔網絡

圖4 路徑聚合金字塔
Lin T Y等提出特征金字塔網絡FPN(Feature Pyramid Network),如圖3所示。其將深層特征圖自上而下逐層上采樣后與淺層特征圖融合,并在高分辨率的淺層特征圖上檢測小目標,有效提高了小目標的檢測精度。Liu S等[32]提出路徑聚合網絡PANet(Path Aggregation Network),其在FPN自上而下融合的基礎上,增加了自下而上的融合路徑,將底層的細節位置信息進一步傳至上層特征圖。YOLOv4借鑒PANet結構,設計了PAFPN(Path Aggregation Feature Pyramid Network)結構,如圖4所示。劉楊帆等[33]、林健等[34]進一步將金字塔層數擴展為4層,以檢測紅外弱小目標。舒朗等[35]將特征金字塔中的殘差連接改為DenseNet式的密集連接,以保留更豐富的特征信息。朱子健等[36]則將特征金字塔的上采樣操作改為反卷積,以更好地還原紅外弱小目標的細節特征。盛大俊等[37]針對紅外裝甲車輛邊緣輪廓較清晰的特點,設計了語義特征提取模塊、上下文聚合模塊、邊緣感知融合模塊,對特征金字塔的多尺度特征進一步融合,以提取裝甲車輛的輪廓細節信息和邊緣語義信息。
Liu S T等[38]通過采用不同尺寸的卷積核和不同膨脹系數的空洞卷積構成多分支結構,提出感受野網絡RFBNet(Receptive Field Block Net),如圖5所示,有效增強了網絡的特征提取能力。顧燕等[39]在Faster R-CNN骨干網中使用膨脹系數為1、2、3的空洞卷積,從而獲得3×3、5×5、7×7三種不同大小的感受野。朱子健等在YOLOv3骨干網的殘差模塊中并行添加一個3×3最大池化分支和一個1×1卷積分支,提出了PaRNet(Parallel Residual Network)。蔣昕昊等[40]則在特征金字塔融合之后引入RFB模塊,并減少膨脹系數,以適應紅外弱小目標檢測任務。高凡等[41]則借鑒Inception網絡的多分支結構,設計了PMFPSNet(Parallel Multi Feature Path Network)。樓哲航等[42]將YOLOX的骨干網改為Swin Transformer,以獲取全局感受野特征,并在頸部和檢測頭采用卷積模塊提取局部特征,通過融合全局和局部特征,對紅外小目標檢測取得較好效果。

圖5 感受野網絡
多尺度特征融合的方法,雖然能夠有效增強紅外弱小目標特征,提高檢測精度,但多層金字塔結構和多分支結構都會增加模型的參數量和計算量,降低訓練和推理速度。
紅外目標受紅外成像機制的制約,其本身的特征信息不足。對此,通過融合可見光圖像或其他模態圖像,利用不同模態圖像的互補信息增強紅外目標的特征,可使紅外目標檢測更加準確可靠。

圖6 雙分支融合檢測網絡
Geng K K等[43]基于Faster R-CNN進行改進,設計了一個由紅外分支和可見光分支組成的雙分支融合檢測網絡,如圖6所示。其采取特征級的融合方式,將兩種模態圖像的特征圖拼接后,通過卷積模塊融合,有效提高了低辨識度條件下的紅外目標檢測精度。Liu J Y等[44]采用基于GAN的方法,設計了一個目標感知對抗學習網絡(TarDAL Network),實現了對紅外與可見光圖像的自適應融合。該網絡由一個生成器、兩個目標感知鑒別器以及YOLOv5檢測網絡組成。其中,生成器用于對紅外與可見光圖像融合,兩個鑒別器分別用來鑒別紅外圖像的目標信息和可見光圖像的紋理信息,實現了紅外特征和可見光特征的自適應融合。Sun Y M等[45]基于Faster R-CNN提出了一個由可見光分支、紅外分支和融合分支組成的三分支檢測網絡UA-CMDet。其同時采用特征融合和決策結果融合的方法,同時利用單模態分支和特征融合分支進行檢測,并根據檢測結果進行聯合決策,取得了最優效果。趙明等[46]則采用基于CycleGAN的方法,先利用紅外圖像生成偽可見光圖像,再對紅外和偽可見光圖像分別提取特征,并構建特征金字塔,而后對特征金字塔進行加權融合,在自動駕駛紅外目標檢測上取得了較好效果。趙興科等[47]則利用BASNet生成紅外圖像的顯著圖,再將顯著圖與紅外圖像融合。由于顯著圖有較清晰的邊界,融合后的圖像使紅外目標更加清晰,對復雜背景環境下的紅外目標檢測效果較好。
多模態圖像融合的方法,能夠有效彌補紅外圖像特征信息的不足,但成對的多模態數據集的采集、篩選、標注等工作量大,數據資源獲取成本較高。同時,多模態圖像融合檢測網絡一般由多個單模態檢測網絡構成,整體參數量和計算量較大,檢測速度較慢,在實際應用時存在一定局限性。
深度神經網絡雖然性能優異,但其模型復雜,參數量、計算量大。為了將紅外目標檢測模型部署在資源受限的移動端,就必須對模型進行輕量化改進。目前,研究者主要是借鑒MobileNet[48]、EfficientNet[49]、GhostNet[50]等輕量級網絡的設計方法,設法減少網絡深度和模型大小。
針對航拍紅外車輛實時檢測任務,Liu X F等[51]基于YOLOv3進行改進,除最大池化下采樣層外,Dark 1/2/3/4只保留1層卷積,Dark 5保留5層卷積,將53層的DarkNet壓縮為只有15層的極簡模型。秦鵬等[52]用EfficientNet代替YOLOv3骨干網,提出Effi-YOLOv3模型,其在FLIR數據集上的檢測精度超過了YOLOv3,而參數量僅為YOLOv3的1/3。李北明等則用GhostNet代替YOLOv5的骨干網,并運用特征知識蒸餾的方法,使用Scaled-YOLOv4[53]指導該網絡學習。其僅有1.9 M的參數量,但在紅外數據集上的精度和速度都超過了YOLOv5-s模型。趙興科等借鑒MobileNetv2網絡,提出了輕量的YOLOv3-MobileNetv2模型。
目前,相關輕量化改進方法雖然減小了模型規模,提高了檢測速度,但在模型精度和泛化能力上,與大模型仍有一定差距。
現有的目標檢測數據集多為可見光圖像數據集,例如PASCAL VOC數據集、MS-COCO數據集、UA-DETRAC數據集等,而紅外數據集資源相對較少,制約了紅外目標檢測的研究開展。為便于其他研究者開展研究,現將可公開獲取的紅外目標檢測數據集資源梳理匯總如下,如表1所示。
(1)OSU Thermal Pedestrian Database[54]:是美國俄亥俄州立大學制作的道路監控紅外行人檢測數據集。
(2)VEDAI[55]:是衛星航拍目標檢測數據集,提供了512×512和1 024×1 024兩種分辨率的圖像。
(3)KAIST[56]:是韓國科學技術高級研究院下屬實驗室制作的自動駕駛紅外行人檢測數據集。
(4)CVC-14[57]:是西班牙巴塞羅那自治大學發布的道路紅外行人檢測數據集。
(5)SCUT FIR Pedestrian Dataset[58]:是由華南理工大學制作的夜間道路行人檢測數據集。
(6)FLIR ADAS:是由生產紅外熱成像儀系統的FLIR SYSTEMS公司制作的夜間道路紅外目標數據集。
(7)NPU_CS_UAV[51]:是西北工業大學制作的無人機航拍車輛檢測數據集。
(8)LLVIP[59]:是北京郵電大學制作的微弱光線條件下的道路行人檢測數據集。
(9)Dim-small Aircraft[60]:是國防科技大學制作的小型無人機目標檢測數據集。
(10)DroneVehicle[45]:是天津大學制作的無人機航拍車輛檢測數據集。
(11)M3FD[44]:是大連理工大學制作的自動駕駛道路目標檢測數據集。
基于深度學習的紅外目標檢測研究雖取得一定進展,但距離滿足人們需求仍有差距,未來還有很大的發展空間。結合當前發展現狀,就未來發展方向展望如下:
深度學習的發展高度依賴大規模數據集,而目前公開的紅外目標檢測數據集規模還比較小,且種類較少,與可見光領域相比差距還很大,難以支持大型模型的學習訓練。因此,從紅外目標檢測的長遠發展來看,建立紅外目標檢測的大規模數據集基準是必不可少的基礎性工作,尤其是在自動駕駛、視頻監控、軍事偵察等重要應用領域。
在軍事等某些特殊領域,獲取紅外圖像的難度較大,可供訓練的數據樣本比較有限,采用遷移學習的方法可有效彌補數據的不足。但不同領域的數據通常有不同的域知識,如何實現跨域的知識遷移是遷移學習面臨的重要問題。因此,尋找不同數據域之間的某些共同特征,以及不同域知識自適應遷移的方法,將是未來應用遷移學習的關鍵。
多模態圖像融合的紅外目標檢測方法,可有效提高目標檢測的準確性和魯棒性,也是未來的一個重要發展方向。未來可關注以下幾個方面:(1)多模態圖像的跨域自適應融合。可見光圖像雖然可以為紅外圖像提供互補信息,但當可見光圖像質量較差時,如果盲目的融合,可能對檢測產生負面影響。未來可基于GAN的方法,或借鑒圖像融合領域的一些先進做法,探索多模態圖像的自適應融合檢測方法。(2)基于GAN的偽多模態圖像融合檢測。多模態圖像數據不僅獲取成本較高,而且在軍事等特殊領域,獲取目標的多模態圖像難度較大。對此,基于GAN的方法生成偽多模態圖像,而后進行融合檢測,有很大的發展潛力。(3)單分支的融合檢測網絡。多分支的融合檢測網絡,難以在移動端部署,單分支的融合檢測網絡在未來更有發展潛力。
在實際應用中,目標檢測模型往往需要部署在存儲及計算資源受限的邊緣終端設備上。目前,模型輕量化研究雖取得一定進展,但檢測精度較低,還有很大提升空進。因此,如何在保持較高檢測精度的前提下實現紅外目標檢測模型的輕量化,是未來應用部署的一個重要發展方向。對此,可借鑒可見光領域的輕量化改進方法,例如網絡剪枝、參數量化、重參數化方法、知識蒸餾等。
紅外目標檢測可適應弱光、無光、逆光等復雜光照環境,能夠有效彌補可見光目標檢測的不足,在民用、軍事的諸多領域都有非常重要的應用價值。該文對紅外目標檢測面臨的困難和挑戰進行了詳細分析,并從數據增強、遷移學習、視覺注意力機制、多尺度特征融合、多模態圖像融合和輕量化改進等方面,系統分析了基于深度學習的紅外目標檢測改進方向。在實際任務中,應根據任務需求和紅外數據集特點,靈活采用多種方法,以達到模型大小、精度和速度的均衡。針對紅外數據集資源獲取困難的問題,對現有的公開數據集資源進行了系統梳理匯總。最后,結合當前發展現狀和未來實際需求,對基于深度學習的紅外目標檢測發展方向進行了展望,可為其他研究者提供參考。