郭 勇,張 凱
(1.福建信息職業(yè)技術(shù)學(xué)院 物聯(lián)網(wǎng)與人工智能學(xué)院,福建 福州 350003; 2.廈門(mén)大學(xué) 信息學(xué)院,福建 廈門(mén) 361005)
紅外探測(cè)系統(tǒng)利用物體熱輻射收集目標(biāo)信息,具有隱蔽性好、抗干擾能力強(qiáng)和受氣候、光線、煙霧影響小等特點(diǎn),已廣泛應(yīng)用于軍事偵察、視頻監(jiān)控和偽裝防護(hù)等領(lǐng)域[1]。目標(biāo)檢測(cè)作為紅外探測(cè)系統(tǒng)的核心技術(shù),主要完成目標(biāo)定位與分類,受到國(guó)內(nèi)外研究人員的深度關(guān)注。
近年來(lái),基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)目標(biāo)檢測(cè)算法在性能上取得了巨大突破。以深度學(xué)習(xí)為基礎(chǔ),文獻(xiàn)[2-6]將卷積神經(jīng)網(wǎng)絡(luò)的思想引入紅外目標(biāo)檢測(cè),探索出了一系列高效準(zhǔn)確的檢測(cè)算法。但此類方法主要集中于以復(fù)雜的模型結(jié)構(gòu)來(lái)提高目標(biāo)檢測(cè)精度,忽略了檢測(cè)速度的重要性。當(dāng)前,紅外系統(tǒng)逐漸小型化,常被搭載于無(wú)人駕駛汽車、無(wú)人機(jī)等智能設(shè)備上完成探測(cè)任務(wù),對(duì)檢測(cè)精度和速度均提出了較高要求,因此在硬件資源有限的條件下,實(shí)現(xiàn)檢測(cè)精度與速度的最佳均衡是一項(xiàng)實(shí)踐意義重大的研究工作。
基于以上分析,結(jié)合實(shí)際紅外應(yīng)用場(chǎng)景特點(diǎn),本文設(shè)計(jì)了基于特征增強(qiáng)的紅外目標(biāo)檢測(cè)(Infrared Object Detection based on Feature Enhanced YOLO,F(xiàn)EID-YOLO)模型。FEID-YOLO屬于輕量級(jí)快速檢測(cè)模型,以YOLOv3[7]為基礎(chǔ)框架,利用ResVGG-5主干網(wǎng)絡(luò)替代原來(lái)的DarkNet53,降低模型計(jì)算量和提升檢測(cè)速度的同時(shí),提取輸入圖像不同層次的特征,在此基礎(chǔ)上通過(guò)階梯式特征融合技術(shù)獲取魯棒和完備的預(yù)測(cè)特征圖,為末端目標(biāo)預(yù)測(cè)提供有力支撐。在訓(xùn)練階段,通過(guò)多尺度訓(xùn)練和數(shù)據(jù)增強(qiáng)提升模型對(duì)復(fù)雜背景和不同尺度目標(biāo)的適應(yīng)能力。在FLIR ADAS紅外數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,F(xiàn)EID-YOLO模型的檢測(cè)精度可達(dá)57.31% mAP,且保持了每秒檢測(cè)幀數(shù)(Frames per Second,F(xiàn)PS)68.93的檢測(cè)速度,為模型在小型系統(tǒng)端的部署打下了基礎(chǔ)。
目前,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法大多始于可見(jiàn)光領(lǐng)域,若要將其高效引入紅外圖像領(lǐng)域,對(duì)比可見(jiàn)光圖像與紅外圖像特性,并依此構(gòu)建適合紅外場(chǎng)景的目標(biāo)檢測(cè)模型十分重要。相較于可見(jiàn)光圖像,紅外圖像的質(zhì)量較低且目標(biāo)特征有限,導(dǎo)致紅外目標(biāo)的探測(cè)靈敏度、對(duì)比度和分辨率較低[8]。如果將在可見(jiàn)光領(lǐng)域中表現(xiàn)優(yōu)異的深度學(xué)習(xí)檢測(cè)模型直接用于紅外圖像目標(biāo)檢測(cè),勢(shì)必會(huì)導(dǎo)致性能急劇下降。因此,分析紅外圖像與可見(jiàn)光圖像特性,針對(duì)二者差異輔以特殊的特征處理手段是增強(qiáng)紅外目標(biāo)檢測(cè)系統(tǒng)性能的有力措施。
不同場(chǎng)景下配準(zhǔn)好的可見(jiàn)光與紅外圖像如圖1所示。通過(guò)對(duì)比可見(jiàn)光與紅外的原圖像可以看出,可見(jiàn)光圖像中包含豐富的場(chǎng)景細(xì)節(jié)信息,且各類目標(biāo)(車輛、行人和飛機(jī))的幾何輪廓完整、紋理細(xì)節(jié)豐富、顏色多樣,易于檢測(cè)識(shí)別。反觀紅外圖像,不僅場(chǎng)景模糊、信噪比低、分辨率差,而且所包含目標(biāo)的細(xì)節(jié)特征較弱、幾何結(jié)構(gòu)缺失嚴(yán)重(如圖1 場(chǎng)景B紅外圖像中的飛機(jī)),導(dǎo)致紅外目標(biāo)可利用的特征較少。由可見(jiàn)光與紅外圖像的三維分布圖可以看出,低溫目標(biāo)(如圖1場(chǎng)景A中的車輛)在可見(jiàn)光圖像中更加突顯,而高溫目標(biāo)(如行人和飛機(jī)尾翼部分)在紅外圖像中更加突顯,因此如何提取高魯棒性的目標(biāo)特征是提升紅外多目標(biāo)檢測(cè)性能的關(guān)鍵。分析二者的直方圖可以看出,相較于可見(jiàn)光圖像,紅外圖像的對(duì)比度更低,且其灰度分布與目標(biāo)反射特性無(wú)線性關(guān)系,這無(wú)疑增加了目標(biāo)檢測(cè)的難度。

(a) 場(chǎng)景A可見(jiàn)光圖像與紅外圖像對(duì)比

(b) 場(chǎng)景B可見(jiàn)光圖像與紅外圖像對(duì)比圖1 不同場(chǎng)景下的可見(jiàn)光圖像(子圖左上)、紅外圖像(子圖左下)及其三維分布圖(子圖中)和直方圖(子圖右)Fig.1 Visible images (upper left of sub-images), infrared images (lower left of sub-images) and 3D distribution maps (middle of sub-images) and histograms (right of sub-images) under different scenes
紅外圖像的特性使得主流的目標(biāo)檢測(cè)模型在應(yīng)用于紅外場(chǎng)景時(shí)表現(xiàn)不佳,而實(shí)時(shí)目標(biāo)檢測(cè)將更具挑戰(zhàn)性。分析紅外圖像特性可知,紅外目標(biāo)主要呈現(xiàn)出幾何結(jié)構(gòu)缺失、紋理細(xì)節(jié)不佳和像素強(qiáng)度分布較廣等特點(diǎn)。因此,構(gòu)建的檢測(cè)模型必須具備魯棒且完備的目標(biāo)特征提取能力,才能滿足后端的分類與定位需求。
基于前期分析,本文提出了FEID-YOLO紅外目標(biāo)檢測(cè)模型,主要由3部分組成:輸入端、特征提取網(wǎng)絡(luò)和目標(biāo)預(yù)測(cè)網(wǎng)絡(luò),其結(jié)構(gòu)如圖2所示。輸入端利用多尺度訓(xùn)練和數(shù)據(jù)增強(qiáng)技術(shù)提高網(wǎng)絡(luò)訓(xùn)練效率;特征提取網(wǎng)絡(luò)完成不同層次的特征提取;目標(biāo)預(yù)測(cè)網(wǎng)絡(luò)首先對(duì)特征進(jìn)行融合,而后輸入YOLO檢測(cè)層完成目標(biāo)分類和定位。

圖2 FEID-YOLO目標(biāo)檢測(cè)網(wǎng)絡(luò)Fig.2 FEID-YOLO object detection network
輸入圖像的尺寸對(duì)檢測(cè)模型的精度影響相當(dāng)明顯,而多尺度訓(xùn)練是提升檢測(cè)精度最有效的方法之一[9]。在特征提取網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)層的加深,原始圖像往往會(huì)被下采樣數(shù)十倍,導(dǎo)致小尺寸目標(biāo)在特征圖中的響應(yīng)有限,從而不易被檢測(cè)器捕獲。在訓(xùn)練過(guò)程中,通過(guò)輸入更大、更多尺寸的圖像,不僅能夠增大小尺寸目標(biāo)的特征響應(yīng),還能夠在一定程度上提高檢測(cè)模型對(duì)目標(biāo)尺度的魯棒性。因此,在訓(xùn)練階段FEID-YOLO每迭代10輪,即從{384,416,448,480,512,544,576,608}中隨機(jī)選擇一個(gè)新的數(shù)值作為下個(gè)10輪的圖像輸入尺寸。
為了提升檢測(cè)模型的泛化能力,在訓(xùn)練階段FEID-YOLO還引入了Mosaic[10]和PuzzleMix[11]兩種數(shù)據(jù)增強(qiáng)技術(shù)。Mosaic數(shù)據(jù)增強(qiáng)通過(guò)隨機(jī)縮放、隨機(jī)裁剪和隨機(jī)排布的方式將4幅圖像拼接成一幅圖像作為新的訓(xùn)練數(shù)據(jù),不僅豐富了圖像背景,并且變相提高了訓(xùn)練過(guò)程中的批量大小(Bach_size),節(jié)省了計(jì)算資源,整個(gè)過(guò)程如圖3所示。PuzzleMix數(shù)據(jù)增強(qiáng)首先隨機(jī)選擇2幅圖像并計(jì)算顯著性區(qū)域,通過(guò)裁剪出其中一幅圖像的顯著性區(qū)域并將其與另一幅圖像按比例相加混合,再經(jīng)精細(xì)優(yōu)化后構(gòu)建出新的訓(xùn)練數(shù)據(jù),整個(gè)過(guò)程如圖4所示。由于PuzzleMix加入了顯著性分析,因此避免了裁剪塊來(lái)源于原始圖像的非重要區(qū)域或者目標(biāo)圖像的重要區(qū)域被裁剪塊遮擋等問(wèn)題,保證了新生樣本的有效性,提升了訓(xùn)練效率。

圖3 Mosaic數(shù)據(jù)增強(qiáng)Fig.3 Data augment by Mosaic

圖4 PuzzleMix數(shù)據(jù)增強(qiáng)Fig.4 Data augment by PuzzleMix
特征提取網(wǎng)絡(luò)作為檢測(cè)模型的主要組成部分,通常包含較深的網(wǎng)絡(luò)層數(shù),以此來(lái)提升模型的擬合能力,進(jìn)而提取輸入圖像不同層次的特征圖[12]。但是隨著網(wǎng)絡(luò)的加深,其計(jì)算量也愈發(fā)龐大,進(jìn)而影響檢測(cè)速度。因此對(duì)于實(shí)時(shí)目標(biāo)檢測(cè)模型,在保證一定檢測(cè)精度的前提下減少網(wǎng)絡(luò)深度、降低計(jì)算量是特征提取網(wǎng)絡(luò)設(shè)計(jì)的關(guān)鍵。
基于以上分析,設(shè)計(jì)了一個(gè)輕量級(jí)特征提取網(wǎng)絡(luò)ResVGG-5,其是在VGG[13]基礎(chǔ)上改進(jìn)的5層卷積結(jié)構(gòu)。ResVGG-5相當(dāng)于將ResNet[14]中的精華思想應(yīng)用到了VGG中,即在VGG網(wǎng)絡(luò)中加入了恒等映射(Identity)和卷積核為1×1的卷積(Conv 1×1)殘差分支,三者的比較如圖5所示。待檢測(cè)圖像輸入ResVGG-5后,共經(jīng)歷5個(gè)階段的處理,每一階段由卷積和殘差以不同的結(jié)合方式組建,輸出特征圖的尺寸為輸入的1/2,同時(shí)為了保留更多的特征信息,其通道數(shù)增加一倍。

圖5 VGG,ResNet和ResVGG-5結(jié)構(gòu)Fig.5 The structures of VGG, ResNet and ResVGG-5
VGG在各特征提取階段均采用卷積核為3的卷積操作(Conv 3×3)提取圖像特征,Conv 3×3利于硬件部署和節(jié)省計(jì)算資源。ResNet在不同的特征提取階段分別引入了Identity和Conv 1×1兩種殘差塊,不僅解決了梯度消失問(wèn)題,而且增強(qiáng)了特征重用和特征圖的完備性。相較于ResNet,ResVGG-5的殘差塊并沒(méi)有跨層,且整個(gè)網(wǎng)絡(luò)包含2種殘差結(jié)構(gòu),如圖5(c)中的藍(lán)框和紅框所示,藍(lán)框中的殘差結(jié)構(gòu)僅僅包含Conv 1×1殘差分支,紅框中不僅包含Conv 1×1殘差分支還加入了Identity殘差分支。多分支的殘差結(jié)構(gòu)相當(dāng)于給網(wǎng)絡(luò)增加了多條梯度流動(dòng)路徑,訓(xùn)練一個(gè)這樣的網(wǎng)絡(luò),類似于訓(xùn)練了多個(gè)網(wǎng)絡(luò),并將多個(gè)網(wǎng)絡(luò)融于一體,有利于提取更深層次、更加魯棒的特征表達(dá)。
在實(shí)際工程應(yīng)用中,紅外系統(tǒng)探測(cè)的目標(biāo)尺寸通常分布比較廣[15]。如果僅依據(jù)特征提取網(wǎng)絡(luò)的最高層特征圖來(lái)預(yù)測(cè)目標(biāo),雖然高層語(yǔ)義信息充足利于目標(biāo)分類,但此時(shí)下采樣率為32,小尺寸目標(biāo)的特征響應(yīng)有限,甚至只占據(jù)特征圖的幾個(gè)點(diǎn),進(jìn)而影響目標(biāo)定位精度。如果降低下采樣率,利用包含空間信息更加豐富的淺層特征圖進(jìn)行目標(biāo)預(yù)測(cè),則會(huì)導(dǎo)致語(yǔ)義信息不足,進(jìn)而影響目標(biāo)識(shí)別精度。因此,為了充分利用高層特征的語(yǔ)義信息和淺層特征的空間信息,目標(biāo)預(yù)測(cè)網(wǎng)絡(luò)在目標(biāo)檢測(cè)之前首先進(jìn)行特征融合,具體過(guò)程如圖6所示(圖中輸入圖像尺寸為416 pixel×416 pixel)。特征融合采用的是階梯式(Stairstep)結(jié)構(gòu)[16],共需依次完成2組融合。由于每一組融合涉及到了不同尺度和通道數(shù)的2個(gè)階段的特征圖,因此每一組融合需要經(jīng)歷3個(gè)步驟。第1步,高階特征圖經(jīng)由一個(gè)Conv 1×1實(shí)現(xiàn)通道數(shù)量減半;第2步,通道變換后的高階特征圖通過(guò)步長(zhǎng)為2的上采樣(Upsampling)實(shí)現(xiàn)尺度增倍;第3步,尺度和通道數(shù)相同的高低階特征圖以疊加方式完成融合。通過(guò)2組融合,最終得到尺寸為輸入圖像1/8(下采樣率為8)的融合特征圖,實(shí)現(xiàn)高低階特征圖在語(yǔ)義和空間上的結(jié)合,進(jìn)一步增強(qiáng)了特征圖的表征能力。

圖6 Stairstep特征融合方式Fig.6 Stairstep feature fusion method
為了實(shí)現(xiàn)多尺度目標(biāo)檢測(cè),YOLOv3在3個(gè)不同尺度(下采樣率分別為8,16和32)的預(yù)測(cè)特征圖上獨(dú)立進(jìn)行目標(biāo)檢測(cè),雖然提高了多尺度目標(biāo)檢測(cè)的精度,但極易造成標(biāo)簽重寫(xiě)和無(wú)效邊框計(jì)算,從而影響檢測(cè)速度。因此,F(xiàn)EID-YOLO只保留了下采樣率為8的預(yù)測(cè)特征圖來(lái)進(jìn)行目標(biāo)檢測(cè)。此外,特征提取網(wǎng)絡(luò)中的雙殘差結(jié)構(gòu)和目標(biāo)預(yù)測(cè)網(wǎng)絡(luò)中的stairstep特征融合方式可匯總不同尺度目標(biāo)的特征信息,保證了預(yù)測(cè)特征圖的魯棒性和完備性。最后,預(yù)測(cè)特征圖經(jīng)由2層Conv 3×3后輸入YOLO檢測(cè)頭得到包括目標(biāo)位置坐標(biāo)、邊框置信度和分類概率的預(yù)測(cè)結(jié)果。訓(xùn)練階段,F(xiàn)EID-YOLO采用的損失函數(shù)與YOLOv3相同。
在預(yù)測(cè)特征圖上實(shí)現(xiàn)紅外目標(biāo)檢測(cè)的基本原理如圖7所示。其中,tx,ty,tw,th分別表示艦船目標(biāo)邊框的中心點(diǎn)橫縱坐標(biāo)、寬度和高度,Pobj表示邊框置信度,Pk表示目標(biāo)分類概率,k是目標(biāo)類別索引。待檢測(cè)圖像輸入特征提取網(wǎng)絡(luò)之前首先調(diào)整尺寸至416 pixel×416 pixel,經(jīng)特征提取和特征融合后輸出分辨率為52 pixel×52 pixel的預(yù)測(cè)特征圖,其每個(gè)像素點(diǎn)對(duì)應(yīng)輸入圖像8 pixel×8 pixel大小的區(qū)域,以每個(gè)像素點(diǎn)為錨點(diǎn)產(chǎn)生6種錨框,根據(jù)錨框在特征圖上的特征映射計(jì)算出邊框坐標(biāo)、置信度以及分類概率,從而得到目標(biāo)預(yù)測(cè)結(jié)果,再將預(yù)測(cè)結(jié)果映射至原始圖像完成目標(biāo)檢測(cè)。

圖7 目標(biāo)檢測(cè)原理Fig.7 Principle of object detection
FLIR ADAS紅外數(shù)據(jù)集[17]由FLIR公司于2018年發(fā)行,該數(shù)據(jù)集共包含14 452張圖像,其中9 214張含有目標(biāo)標(biāo)注框,場(chǎng)景為白天(60%)和夜間(40%)的加利福尼亞州圣巴巴拉市街道和公路,目標(biāo)類別主要由人(28 151個(gè))、汽車(46 692輛)和自行車(4 457輛)3類組成。實(shí)驗(yàn)中選用11 152張圖像樣本作為訓(xùn)練集,選用3 000張圖像樣本作為測(cè)試集。
算法基于Pytorch深度學(xué)習(xí)框架實(shí)現(xiàn),并在搭載Ubuntu操作系統(tǒng)、E5-2630v4 CPU、NVIDIA GTX1080Ti GPU (11 GB顯存)和64 GB RAM的硬件平臺(tái)上進(jìn)行訓(xùn)練和測(cè)試。網(wǎng)絡(luò)訓(xùn)練時(shí),設(shè)置初始學(xué)習(xí)率為0.001,Batch_size為8,訓(xùn)練輪次為150,并采用動(dòng)量為0.9的Momentum算法優(yōu)化訓(xùn)練過(guò)程。
為定量評(píng)估檢測(cè)模型性能,本文使用單類別的平均精度(Average Precision,AP)、平均精度均值(Mean Average Precision,mAP)和FPS三項(xiàng)指標(biāo)對(duì)模型進(jìn)行評(píng)估。
通過(guò)與Faster R-CNN[18],YOLOv3,YOLOv3-Tiny[19]進(jìn)行比較來(lái)驗(yàn)證所提模型的有效性。各檢測(cè)模型在FLIR ADAS紅外數(shù)據(jù)集上的檢測(cè)結(jié)果定量比較如表1和圖8所示。

表1 基于FLIR ADAS數(shù)據(jù)集的不同檢測(cè)模型實(shí)驗(yàn)結(jié)果Tab.1 Experimental results of different detection models based on FLIR ADAS datasets

(a) 所有類別

(b) 汽車

(c) 人

(d) 自行車圖8 不同檢測(cè)模型的各類別檢測(cè)精度與速度結(jié)果Fig.8 Detection accuracy and speed results of various categories of different detection models
由各檢測(cè)模型的性能定量比較可知,應(yīng)用廣泛的基準(zhǔn)模型Faster R-CNN的mAP值達(dá)到了59.96%,YOLOv3的mAP值較前者略低,達(dá)到了58.02%,但由于Faster R-CNN采用的是二階檢測(cè)模式,相比于YOLOv3的一階檢測(cè)模式,其在計(jì)算量和檢測(cè)速度上并不占優(yōu)勢(shì)。YOLOv3-Tiny在YOLOv3的基礎(chǔ)上簡(jiǎn)化了主干網(wǎng)和檢測(cè)頭,模型尺寸更小,檢測(cè)速度得以大幅提升,較YOLOv3其mAP值降低了5.77%,檢測(cè)速度提升了21.18幀/秒。FEID-YOLO的mAP值為57.31%,檢測(cè)速度達(dá)到了68.93幀/秒,與Faster R-CNN和YOLOv3相比,其在檢測(cè)精度上有一定損失,但是考慮到計(jì)算量的巨大差距(模型尺寸僅為Faster R-CNN的1/26,YOLOv3的1/12),因此該損失是可以接受的。此外,與同類檢測(cè)模型YOLOv3-Tiny相比,F(xiàn)EID-YOLO的mAP值提高了5.06%,檢測(cè)速度提升了9.29幀/秒,整體檢測(cè)性能提升幅度較大。
為了理解FEID-YOLO中采用的ResVGG-5雙殘差結(jié)構(gòu)和stairstep特征融合方式對(duì)檢測(cè)效果的影響,表2給出了逐步增加相關(guān)模塊的消融實(shí)驗(yàn)。其中,F(xiàn)EID-YOLO(VGG-5)的主干網(wǎng)絡(luò)為以VGG方式構(gòu)建的5層卷積,且利用最高層輸出作為預(yù)測(cè)特征層,其mAP值為42.72%,檢測(cè)速度為78.21幀/秒。FEID-YOLO(ResVGG-5)以文中所提的ResVGG-5為主干網(wǎng)絡(luò),較前者mAP提升了8.62%,說(shuō)明ResVGG-5的雙殘差結(jié)構(gòu)通過(guò)增加高低層的鏈接路徑,提升了特征圖的表征能力和魯棒性。在此基礎(chǔ)上,F(xiàn)EID-YOLO將stairstep特征融合結(jié)構(gòu)引入檢測(cè)模型,mAP提升了5.96%,驗(yàn)證了基于stairstep結(jié)構(gòu)的特征融合可有效融合特征提取網(wǎng)絡(luò)的高層語(yǔ)義信息和淺層空間信息,為后端目標(biāo)檢測(cè)提供完備的特征依據(jù)。

表2 基于FLIR ADAS數(shù)據(jù)集的消融實(shí)驗(yàn)Tab.2 Ablation experiment based on FLIR ADAS dataset
為了進(jìn)一步驗(yàn)證FEID-YOLO模型在實(shí)際應(yīng)用中的效果,圖9給出了不同場(chǎng)景下的目標(biāo)檢測(cè)可視化結(jié)果。得益于較強(qiáng)的特征提取和處理能力,盡管各類目標(biāo)處于不同的背景中呈現(xiàn)出不同的紅外特性,甚至存在遮擋問(wèn)題,所提模型能正確地識(shí)別和定位出圖像中存在的絕大多數(shù)目標(biāo)。但由于FLIR ADAS數(shù)據(jù)集的場(chǎng)景復(fù)雜度較高,在背景噪聲比較大且目標(biāo)比較小的情況下,還是存在背景被識(shí)別為目標(biāo)的問(wèn)題,此外當(dāng)目標(biāo)呈密集分布時(shí),也存在少量的虛警和重復(fù)檢測(cè)。總而言之,F(xiàn)EID-YOLO模型在68.93幀/秒的檢測(cè)速度下,能達(dá)到可觀的檢測(cè)效果,為模型在小型系統(tǒng)端的部署打下了基礎(chǔ)。




圖9 紅外目標(biāo)檢測(cè)可視化結(jié)果Fig.9 The visualization results of infrared object detection
為了滿足小型紅外探測(cè)系統(tǒng)實(shí)時(shí)檢測(cè)的應(yīng)用需求,提出了一種基于特征增強(qiáng)的快速紅外目標(biāo)檢測(cè)模型。在實(shí)現(xiàn)過(guò)程中,為了降低模型計(jì)算量和提高檢測(cè)速度,設(shè)計(jì)了輕量化特征提取網(wǎng)絡(luò),并利用雙殘差結(jié)構(gòu)提升特征圖的魯棒性;針對(duì)現(xiàn)實(shí)中紅外目標(biāo)尺度分布廣的問(wèn)題,采用基于stairstep結(jié)構(gòu)的特征融合方式充分融合高低層特征圖的語(yǔ)義信息和空間信息,提升預(yù)測(cè)特征圖的完備性。網(wǎng)絡(luò)訓(xùn)練階段,還采用了多尺度訓(xùn)練和數(shù)據(jù)增強(qiáng)技術(shù)來(lái)進(jìn)一步提升模型的檢測(cè)性能。在FLIR ADAS紅外數(shù)據(jù)集上進(jìn)行測(cè)試,與工業(yè)界廣泛應(yīng)用的快速檢測(cè)模型Tiny-YOLOv3相比,提出的模型在檢測(cè)精度提升了5.06%的情況下,檢測(cè)速度提升了9.29幀/秒,驗(yàn)證了其有效性和實(shí)用性。