馬 野,吳振宇,姜 徐
(1. 東北大學,沈陽,110819;2. 北京宇航系統工程研究所,北京,100076)
目標檢測任務是找出圖像或視頻中人們感興趣的物體,并檢測出位置和大小。基于神經網絡的方法又發展出兩條技術路線:基于候選框的方法和不使用候選框的方法?;诤蜻x框的方法[1,2]使用滑動窗口在待檢測圖片上進行掃描,判斷窗口內是否有目標和目標具體定位。不使用候選框的方法是直接預測目標的關鍵點,例如文獻[3]預測目標的中心點和大小,以此達到定位的效果。
可見光圖像具有豐富的紋理細節信息,是做目標檢測的首選數據類型。但是,當遇到天氣不佳、夜晚等光線不充足或者光線過強的情況,圖片受影響較大,影響物體成像。紅外圖像根據熱輻射信息成像,抗干擾能力強,環境適應能力強,因此可以在夜間和惡劣天氣下全天候工作而不依賴于場景特性。但是由于熱輻射較弱,紅外圖像對比度低、邊緣模糊,圖像整體較暗,沒有色彩和陰影,因而分辨能力低??梢姽鈭D像在這些方面表現優異,可見光圖像可以與紅外圖像互補,融合后能適用于全天候全時段的目標檢測任務。
因此,為了充分利用可見光圖像提供的紋理信息和紅外圖像提供的熱輻射信息,提出一種基于特征融合的目標檢測方法。在融合時,能夠根據特征的不同,自動分配不同權重,得到比使用單一數據更好的效果。
根據融合的階段不同,可以把融合檢測算法分為3類:檢測前融合、檢測中融合以及檢測后融合。檢測前融合是指在目標檢測前將可見光圖像與紅外圖像融合成一張圖像,再經過目標檢測算法。這類方法的好處是融合和檢測完全分開,可以使用已有的各種圖像融合方法,文獻[4]介紹了多種圖像融合方法,以及融合后的各種應用。但也因為圖像融合與目標檢測無關,無法保證融合后的圖像適用于目標檢測任務。檢測后融合是指對可見光圖像和紅外圖像分別進行目標檢測,再將檢測結果融合在一起。這類方法最為簡單,但實際上不涉及圖像融合,算法效果往往不能得到大的提升。文獻[5,6]使用了檢測中融合的方法,既可以充分將可見光圖像與紅外圖像進行融合,又可以根據目標檢測效果對算法進行優化。這類方法的效果通常優于檢測前融合和檢測后融合算法。文獻[6]提出一種融合-精煉模塊,利用可見光圖像特征圖和紅外圖像特征圖直接融合成新的特征圖并進行精煉,新的特征圖又重新與可見光圖像特征圖和紅外圖像特征圖形成殘差網絡,進行多次循環。融合-精煉模塊能夠很好地融合及保留特征圖特征,但所需計算量較大。文獻[5]提出了一種單一加權方法,以原始圖片作為輸入,計算出單一權重對特征圖進行融合。輸入尺寸較大,同樣需要較大的計算量;單一權重不能很好地應對一張圖片不同區域情況不同的問題,也不能很好地解決不同類目標在一張圖片中的情況。提出的特征融合模塊所需計算量較小,并且通過計算權重圖的方式,對一張圖片不同位置使用不同權重,提高目標檢測精度。
以經典YOLO目標檢測算法為基礎,增加可見光圖像與紅外圖像特征融合模塊,既能利用可見光圖像提供的紋理信息,又能利用紅外圖像提供的熱輻射信息。可見光圖像與紅外圖像差異較大,因此采用兩套特征提取網絡分別處理得到特征圖,保證充分利用二者圖像的獨特特征。特征融合目標檢測算法如圖1所示。

圖1 特征融合目標檢測算法 Fig.1 Feature Fusion Object Detecion
由圖1可知,可見光圖像與紅外圖像分別輸入到不同Backbone+Neck中進行特征提取,得到的可見光圖像特征圖(FRGB)和紅外圖像特征圖(FIR)輸入到特征融合模塊,經過自動分配權重后,融合成新的特征圖(Ffusion)。最后經過Detection模塊進行目標預測。
YOLO是一種基于候選框的單階段目標檢測算法,基本思想是將輸入圖片分成多個網格,然后對每一個網格預測大小不同的多個候選框內存在目標的概率,同時預測目標類別及位置。YOLO算法主要包含Backbone網絡、Neck網絡以及Detection網絡,如圖2所示。表1中列出了YOLO v5網絡每一層的詳細參數。

圖2 YOLO算法 Fig.2 YOLO Algorithm

表1 YOLO v5 網絡結構 Tab.1 YOLO v5 Network Structure
Backbone主要有數個卷積模塊和殘差模塊(resnet)組成。利用多層卷積神經網絡對輸入圖片進行特征提取,隨著卷積層的增加,深層網絡得到的特征圖尺寸越來越小,得到的特征信息越來越復雜。尺寸較小的特征圖縮放比例高,具有較深層次的特征信息,因此通常用來預測較大的目標,較大的特征圖用來預測較小的目標。
Neck除了少量卷積模塊和殘差模塊還包含上采樣層。Neck網絡使用上采樣將特征圖逐漸放大,并與Backbone中的特征圖相結合,構成了特征金字塔網絡(FPN)[7]結構。通過上述采樣得到的特征圖來自深層網絡,具有較強的語義信息,有利于目標分類;而通過Backbone得到的特征圖分辨率較高,具有豐富的空間信息,有利于目標位置的預測。特征金字塔網絡使用較少的計算量將二者融合,能夠得到更準確的目標分類及位置預測。
Detection網絡對不同尺寸的特征圖進行處理,每種尺寸的特征圖只通過一層卷積層,輸出每個點的分類、位置信息及置信度。
利用YOLO算法,將可見光圖像與紅外圖像分別輸入到不同的YOLO算法中,利用Backbone網絡、Neck網絡分別得到可見光圖像與紅外圖像的特征圖。再通過特征融合模塊得到融合特征圖,最后利用Detection網絡預測目標。由此建立的神經網絡模型,可以實現端到端的訓練,同時優化特征提取、特征融合以及目標檢測。
特征融合模塊如圖3所示,輸入可見光圖像特征圖(FRGB)和紅外圖像特征圖(FIR),輸出融合特征圖(Ffusion)。特征融合模塊包含特征權重網絡(FWN),通過多層卷積神經網絡計算出可見光圖像特征圖權重(WRGB)和紅外圖像特征圖權重(WIR)。Ffusion通過式(1)及式(2)計算所得。


圖3 特征融合模塊 Fig.3 Feature Fusion Model
Ffusion的尺寸與FRGB和FIR保持一致。特征權重網絡如圖4所示,輸入FRGB與FIR的尺寸為(C×H×W),C表示特征通道數量,H、W分別表示特征圖的高度與寬度。首先通過Concat層在通道維度將特征進行合并,然后通過多層卷積的處理得到尺寸為(2×H×W)的權重,每個卷積層后需要批標準化及激活函數處理,最后在通道維度做Softmax處理,得到2個尺寸為(H×W)特征圖,分別為WRGB和WIR。WRGB+WIR=1。

圖4 特征權重網絡 Fig.4 Feature Weight Network
特征權重網絡(FWN)可以根據預測結果優化權重大小,自動選取可見光圖像或紅外圖像特征。比如在光線較暗的情況下,紅外圖像的權重就會比較大;而在熱輻射信息量少,可見光圖像較清晰的情況下,就會更多地使用可見光圖像進行目標檢測。FWN以圖像的特征圖作為輸入而不使用圖像本身,是為了減少圖像處理的復雜度。特征圖經過多層神經網絡的處理,具有更多深層信息,因此在FWN中可以采用較少的卷積層,達到復雜計算的效果。
在實際的可見光圖像與紅外圖像中,不同位置可能會需要不同的權重值。比如圖像左側熱輻射信息更豐富,那就應該更多利用紅外圖像信息;而右側可能沒有熱輻射信息,需要依靠高分辨率紋理信息,故應加重可見光圖像的權重。單一權重值的方式無法做到分別計算,因此采用了尺寸為(H×W)的權重圖來解決這一問題,權重圖可以為每一個位置不同的權重,充分利用可見光圖像和紅外圖像提供的不同信息。權重圖的方法適用于已經進行像素匹配的可見光圖像和紅外圖像數據。也就是說同一目標在可見光圖像和紅外圖像中的位置相同,才能利用權重圖的方法對相同位置的目標計算權重。
這一方法在多類別多目標檢測中也有一定作用,比如在對行人檢測時,熱輻射信息明顯,需要加大紅外圖像權重;對汽車等物體檢測時,更多需要依賴可見光圖像,需要加大可見光圖像權重。當行人和汽車在同一張圖片時,就可以利用權重圖進行不同權重的融合,更有利于精準的預測。
特征融合模塊本質上就是多層卷積神經網絡,可以靈活的插入到現有的目標檢測算法中??梢愿S目標檢測算法一同優化,不需要其他多余的操作。與一般先融合出一張圖片再檢測的方法比較,特征融合算法可以保留原始圖像的特征,并根據目標檢測的結果對特征進行挑選及融合,避免先融合圖像造成的信息損失。
通過使用文獻[8]的M3FD數據集,如圖5所示,該數據集通過一個光學攝像機和一個紅外攝像機同步采集數據。共包含4200對可見光與紅外圖像對,圖像大小為1024×768。圖像經過手工標注,共有34407個標簽,共有6個標簽類別:行人、汽車、公交、摩托車、信號燈、卡車。實驗使用80%的數據作為訓練集,其余20%作為驗證集和測試集。

圖5 M3FD數據集 Fig.5 M3FD Dataset
為了驗證特征融合的有效性,進行了3組實驗進行對比。分別為可將光圖像目標檢測,紅外圖像目標檢測,特征融合目標檢測。前兩組實驗使用傳統YOLO算法進行,特征融合算法流程如圖1所示。使用2套Backbone+Neck的網絡結構分別輸入可見光圖像及紅外圖像,使用3個特征融合模塊對不同尺寸的特征圖進行融合,使用1個Detection網絡進行目標預測。Backbone、Neck、Detection均來自YOLO算法v5版本。特征權重網絡結構如表2所示。

表2 特征權重網絡結構 Tab.2 Feature Weight Network Structure
實驗在搭載NVIDIA 3090顯卡的服務器上運行,訓練數據共有3360對可見光圖像和紅外圖像,訓練批次大小為16,共進行了300次迭代。驗證集共有840對圖片,最終選出在驗證集上表現最好的結果進行比較。
使用M3FD數據集分別進行了3組實驗,使用平均精度的平均值(mAP)對實驗結果進行評價,見表3。IOU取值0.5,表示預測目標范圍與實際目標范圍相交的面積比合并的面積大于等于0.5。第1組RGB僅使用可見光圖像進行目標檢測;第2組IR僅使用紅外圖像進行目標檢測;第3組Fusion使用可見光圖像和紅外圖像進行特征融合目標檢測。預測結果表示,3組實驗均能較好地進行目標檢測。

表3 實驗結果(0.5mAP) Tab.3 Result(0.5mAP)
從表3中可以看到,使用特征融合模塊的0.5mAP值達到0.883,高于單獨使用可見光圖像或紅外圖像的目標檢測結果。在對摩托車、信號燈的檢測中,特征融合方法的結果最優,在其他類目標檢測中,特征融合的方法也能接近最好結果。在對行人進行檢測時,具有熱輻射信息的紅外圖像抗干擾能力強,行人的特征更加清晰,所以紅外圖像的檢測結果更好。特征融合的結果0.870接近紅外圖像的檢測結果0.874,遠高于可見光對應的結果0.815。在對其他目標檢測時,熱輻射信息較少,所以可見光檢測結果高于紅外圖像檢測結果。此時,特征融合算法的結果能夠接近甚至超過可見光圖像檢測結果,說明融合算法能夠有效利用可見光圖像同時也能夠借鑒紅外圖像。
基于提出的特征融合檢測算法,可以同時使用可見光圖像和紅外圖像進行目標檢測,建立了一種端到端的神經網絡模型。利用目標檢測的結果進行優化,自動根據目標計算特征權重,使用權重將可見光圖像與紅外圖像進行融合。當可見光圖像效果好時,更多使用可見光圖像進行目標檢測,反之,更多使用紅外圖像進行目標檢測。實驗結果表明特征融合算法結果優于單獨使用可見光圖像或紅外圖像,證明此算法達到了預期,可以自動的為可見光圖像和紅外圖像分配權重,更好的進行融合,以達到更優的目標檢測效果。
可見光圖像和紅外圖像獲取成本較低,二者融合后蘊含大量信息并且抗干擾能力強,在遙感探測、醫療衛生、視頻監控等領域有著很好的應用前景。接下來要進一步提高檢測結果的準確性,充分利用圖像融合的優勢。另外還需考慮同時處理兩張圖片帶來的計算量增加,要如何提高計算效率。多目標檢測以及有遮擋目標檢測同樣是值得探究的技術難點,可以作為今后的工作內容。