王文霞,張 文,何 凱
(1.太原師范學(xué)院網(wǎng)絡(luò)信息中心,山西 太原 030619;2.北京郵電大學(xué)信息與通信工程學(xué)院,北京 100080;3.中國空間技術(shù)研究院西安分院,陜西 西安 710100)
目標(biāo)檢測作為計算機視覺領(lǐng)域的三大任務(wù)之一,被廣泛應(yīng)用于自動駕駛、視頻監(jiān)控、電力巡檢等場景中[1]。所謂目標(biāo)檢測主要根據(jù)目標(biāo)特征對圖像或視頻中的目標(biāo)進行分類并定位[2],前期的目標(biāo)檢測思路主要利用人工設(shè)計特征(HOG、Haar、DPM、LBP等)結(jié)合淺層分類器(SVM、Adaboost等)方式實現(xiàn)檢測[3],雖然有較高的計算效率,但特征設(shè)計過程復(fù)雜,且檢測效果較差,應(yīng)用場景有限。而隨著人工智能和計算機技術(shù)的發(fā)展,基于深度神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測以自主學(xué)習(xí)的方式提取特征,有效避免了人工設(shè)計特征的局限,并逐漸成為了目標(biāo)檢測主流方向[4]。雖然深度學(xué)習(xí)技術(shù)有效提升了目標(biāo)檢測效果,但現(xiàn)有大多數(shù)方法主要利用單一紅外或可見光圖像進行目標(biāo)檢測,對于日益復(fù)雜的檢測場景仍存在諸多困難[5]。因此,設(shè)計一種融合目標(biāo)多模態(tài)特征的檢測方法不僅能推動深度學(xué)習(xí)技術(shù)的發(fā)展,也能加速目標(biāo)檢測方法落地實際應(yīng)用。
對于深度學(xué)習(xí)多模態(tài)目標(biāo)檢測算法的研究,目前,已有部分學(xué)者進行了相應(yīng)的探索。顧晶晶等人[6]針對遙感圖像中的小目標(biāo)檢測,設(shè)計了一種基于紅外和可見光平衡多模態(tài)深度模型,通過融目標(biāo)淺層特征后再利用YOLOv4深層網(wǎng)絡(luò)實現(xiàn)小目標(biāo)檢測,但僅融合淺層特征的方式無法充分利用目標(biāo)雙模態(tài)信息,且淺層特征融合也會引入較多噪聲。鄺楚文等人[7]提出了一種自適應(yīng)的特征融合方法,將紅外圖像多維度特征以自主加權(quán)的方式融入可見光網(wǎng)絡(luò)中,彌補可見光信息的局限,提升檢測效果。該方式雖豐富了特征信息但缺乏對特征有效性的關(guān)注,容易導(dǎo)致融入較多無效特征。Banuls等人[8]利用深層神經(jīng)網(wǎng)絡(luò)分別對紅外和可見光圖像進行目標(biāo)檢測后將檢測結(jié)果融合,再利用非極大值抑制算法篩選出最優(yōu)目標(biāo)框,但網(wǎng)絡(luò)僅從決策層進行融合,并考慮特征層面融合,故檢測精度的提升有限。Ma等人[9]提出了一種基于顯著目標(biāo)檢測的紅外可見光融合網(wǎng)絡(luò),利用目標(biāo)掩碼來突出紅外和可見光圖像中的關(guān)鍵信息,以隱式的方式來融合增強目標(biāo)特征,提升網(wǎng)絡(luò)對顯著目標(biāo)的檢測,但該方式對于特征信息較少的小目標(biāo)檢測效果較差。可見,現(xiàn)階段的紅外及可見光融合檢測方法都相對存在一定局限,目標(biāo)檢測性能仍有較大提升空間。
針對上述目標(biāo)檢測方法存在的不足,本文從特征多樣性、注意力以及多尺度等角度,提出了一種基于雙模態(tài)特征增強的目標(biāo)檢測方法。該方法首先通過多種傳統(tǒng)圖像處理技術(shù)分別處理紅外和可見光圖像,豐富輸入圖像信息;其次,利用雙支路深層卷積神經(jīng)網(wǎng)絡(luò)提取目標(biāo)雙模態(tài)特征,并設(shè)計混合注意力機制提升可見光目標(biāo)類別信息以及紅外目標(biāo)空間位置信息;然后,以自適應(yīng)交叉融合的方式使紅外和可見光目標(biāo)信息相互補充,增加特征多樣性。最后,針對不同維度的目標(biāo)特征,設(shè)計了特征交替采樣以及自主選擇結(jié)構(gòu),充分融合目標(biāo)深層和淺層特征同時降低了不同維度特征之間相互干擾,保障網(wǎng)絡(luò)準(zhǔn)確高效地實現(xiàn)目標(biāo)檢測。
所提雙模態(tài)目標(biāo)檢測網(wǎng)絡(luò)整體結(jié)構(gòu)如圖1所示,主要分為圖像增強、特征提取、混合注意力、自適應(yīng)交叉融合、多尺度檢測結(jié)構(gòu)幾個模塊。圖像增強采用顏色空間轉(zhuǎn)化、邊緣檢測、濾波等方法對紅外和可見光原圖進行處理,以豐富輸入圖像的信息;特征提取利用卷積、激活、池化等操作構(gòu)建雙支路的深層神經(jīng)網(wǎng)絡(luò),分別提取紅外和可見光目標(biāo)特征;混合注意力結(jié)構(gòu)主要從特征顯著性角度,以多種方式獲取全局上下文信息,增強目標(biāo)空間位置信息以及所屬類別信息;自適應(yīng)交叉融合則通過自適應(yīng)加權(quán)方式將對應(yīng)維度的紅外特征和可見光特征交叉融合,使目標(biāo)雙模態(tài)信息相互補充;而多尺度檢測則針對不同維度目標(biāo),通過深度到淺層再淺層到深層的交替采樣融合方式充分捕獲目標(biāo)全局及局部特征,并綜合各維度特征,以自主選擇方法提取目標(biāo)相關(guān)特征,提升網(wǎng)絡(luò)尺度不變性;最后,利用單步檢測器結(jié)合非極大值抑制算法實現(xiàn)目標(biāo)的識別定位。

圖1 雙模態(tài)目標(biāo)檢測網(wǎng)絡(luò)框架
特征提取是計算機視覺任務(wù)的關(guān)鍵步驟之一,將輸入數(shù)據(jù)通過降維、卷積等方式挖掘出與目標(biāo)相關(guān)的有效信息,供后續(xù)任務(wù)模塊使用[10-11]。現(xiàn)階段大多數(shù)基于深度學(xué)習(xí)的目標(biāo)檢測網(wǎng)絡(luò)[12-15]主要針對單一輸入源,通常只需要一條骨干網(wǎng)絡(luò)進行特征提取,而所提方法針對目標(biāo)雙模態(tài)特征,故采用了對稱雙支路網(wǎng)絡(luò)結(jié)構(gòu)提取特征。而支路基本結(jié)構(gòu)主要在綜合現(xiàn)有網(wǎng)絡(luò)基礎(chǔ)上,通過豐富輸入信息并引入高效率特征提取單元完成構(gòu)建,支路基礎(chǔ)結(jié)構(gòu)如表1所示。

表1 特征提取支路基礎(chǔ)結(jié)構(gòu)
所提特征提取支路結(jié)構(gòu)主要由圖像增強部分、降維采樣操作以及一系列卷積模塊組成。圖像增強(Processing)主要利用傳統(tǒng)圖像預(yù)處理方式分別對紅外和可見光原圖進行處理,如圖2(a)所示。由于紅外圖像包含較多的目標(biāo)位置信息,故采用直方圖均衡化(Histogram Equalization,HE)、均值濾波(Mean Filter,MF)等方法增強;而可見光圖像包含較多細節(jié)信息,故采用了顏色空間轉(zhuǎn)化(HSV)、邊緣提取(Canny)、灰度轉(zhuǎn)化(Gray)等方式增強。降維采樣操作(Down sampling)如圖2(b)所示,主要對增強后的輸入圖像進行降維,減少后續(xù)模塊計算量。為避免降維過程造成信息丟失,分別采用了步長為2的標(biāo)準(zhǔn)卷積、深度可分離卷積、平均池化以及最大池化操作進行降維。而卷積模塊(Block)則

圖2 特征提取子模塊
是特征提取的基本單元,采用深度可分離卷積結(jié)合H-Swish激活函數(shù)的方式來使所構(gòu)建的特征提取網(wǎng)絡(luò)保持輕量化,并利用1×1的卷積核實現(xiàn)跨通道的信息交互,再通過殘差連接操作來緩解深層網(wǎng)絡(luò)訓(xùn)練時梯度消失等問題,基本結(jié)構(gòu)如圖2(c)所示。為避免雙支路網(wǎng)絡(luò)引入過多參數(shù),網(wǎng)絡(luò)特征通道數(shù)相對較少,雖可能造成部分信息丟失,但也減少了冗余特征,且缺失的特征也可通過雙模態(tài)特征融合得到補充。
通過特征提取可以分別獲取紅外和可見光圖像特征,但所提特征對目標(biāo)關(guān)注度較低,且未充分利用目標(biāo)多模態(tài)信息。因此,本文設(shè)計了混合注意力機制和自適應(yīng)交叉融合結(jié)構(gòu)來進一步增強目標(biāo)特征信息。
混合注意力機制主要從目標(biāo)類別和目標(biāo)所在圖像空間位置角度提升有效特征的權(quán)重,考慮到可見光圖像中包含豐富的細節(jié)和紋理信息,可以較好地區(qū)分不同類別目標(biāo);而紅外圖像根據(jù)目標(biāo)發(fā)射的熱輻射成像,有效屏蔽了背景信息并突出了目標(biāo)空間位置。因此,所提混合注意力機制以每個Block輸出特征作為輸入,對于可見光支路,注意力結(jié)構(gòu)從特征通道入手,通過最大值、均值以及標(biāo)準(zhǔn)差三個維度充分獲取每個通道目標(biāo)類別的全局信息,并通過1×1的點卷積融合特全局征后利用K×1的一維卷積提升通道間的信息交互。最后經(jīng)Sigmoid函數(shù)歸一化后與對應(yīng)通道相乘,提升目標(biāo)類別通道信息權(quán)重,并降低背景通道干擾。注意力結(jié)構(gòu)如圖3(a)所示。而對于紅外支路,混合注意力機制則聚焦空間位置特征,將所有通道在同一位置的特征作為輸入,利用與通道類似的操作計算出每個位置的權(quán)重進行加權(quán),增強目標(biāo)所在位置的特征信息,如圖3(b)結(jié)構(gòu)所示。混合注意力機制權(quán)重計算方式如式(1)~(4)所示。

圖3 混合注意力機制
X=[Max(x),Avg(x),Std(x)]
(1)
Wvisible=σ(ConvK×1(Conv3×1(X)))
(2)
Winfrared=σ(ConvK×K(Conv1×1(X)))
(3)
(4)
其中,x表示輸入的通道/空間位置信息;X表示分別計算最大值、均值和標(biāo)準(zhǔn)差;Conv3×1表示核為3×1的卷積操作;同理,ConvK×1表示K×1的卷積操作;σ表示利用sigmoid函數(shù)進行歸一化;Wvisible表示可見光特征權(quán)重;Winfrared表示紅外特征權(quán)重;d表示輸入特征信息維度;odd表示計算值取奇數(shù)。
自適應(yīng)交叉融合主要是將紅外和可見光支路所提的各維度特征信息進行融合互補,進一步豐富目標(biāo)特征。由于現(xiàn)有的多模態(tài)特征融合大都采用直接相加或拼接的方式,盡管也能提升特征多樣性,但引入了較多噪聲信息。因此,所提特征融合結(jié)構(gòu)引入了可訓(xùn)練的自適應(yīng)參數(shù),通過自主加權(quán)的方式將紅外和可見光對應(yīng)特征信息進行融合,計算方式如(5)(6)所示,訓(xùn)練時參數(shù)調(diào)整過程如式(7)所示:
(5)
(6)
(7)

通過特征提取、注意力增強、多模態(tài)融合模塊可以由淺到深逐步獲取紅外和可見光圖像局部以及全局特征。而在實際檢測任務(wù)中,目標(biāo)的形狀和尺寸通常大小不一,若僅用特征提取結(jié)構(gòu)最后一層的輸出進行預(yù)測,容易導(dǎo)致目標(biāo)漏檢情況。因此,為提升不同大小目標(biāo)檢測的準(zhǔn)確性,設(shè)計了多尺度特征檢測結(jié)構(gòu),利用多個維度的紅外和可見光融合特征,以交替上采樣和下采樣的方式將深層抽象類別信息與淺層邊緣細節(jié)信息充分融合,并通過自主選擇的方式提取目標(biāo)關(guān)聯(lián)維度特征進行預(yù)測,如圖4所示。

圖4 多尺度檢測結(jié)構(gòu)
多尺度檢測結(jié)構(gòu)主要分為交替采樣和自主選擇兩部分,交替采樣部分將紅外和可見光交叉融合后的特征作為輸入,通過上采樣操作將深層特征升維至相鄰特征維度后進行Eltwise融合,依次升維融合至最淺層,使淺層特征中包含深層信息;同理,為使深層特征中融入淺層信息,將淺層特征再依次進行下采樣降維并融合,如圖4(a)所示。特征自主選擇主要考慮到不同大小目標(biāo)通常集中在部分特征層,因此,為充分利用目標(biāo)所關(guān)聯(lián)特征層信息,同時避免其他層的影響,自主選擇結(jié)構(gòu)將不同維度的特征統(tǒng)一采樣至相應(yīng)維度,再通過加權(quán)融合的方式提取出目標(biāo)關(guān)聯(lián)的特征進行預(yù)測,如圖4(b)所示。加權(quán)計算方式如式(8)、(9)所示。
(8)
(9)

為驗證所提目標(biāo)檢測網(wǎng)絡(luò)的有效性和實用性,實驗利用標(biāo)準(zhǔn)數(shù)據(jù)集以及實際電網(wǎng)設(shè)備數(shù)據(jù)集進行訓(xùn)練測試。所提網(wǎng)絡(luò)基于PyTorch深度學(xué)習(xí)框架進行搭建,實驗平臺采用NVIDIA Jetson Xavier NX AI邊緣計算設(shè)備,網(wǎng)絡(luò)訓(xùn)練過程中超參數(shù)配置如表2所示。

表2 實驗環(huán)境及超參數(shù)設(shè)置
對于所提目標(biāo)檢測網(wǎng)絡(luò)的性能評估采用均值平均精度(mAP)和每秒處理圖像幀數(shù)(FPS)來衡量,計算公式如式(10)~(11)所示。同時,為評估不同尺度目標(biāo)的識別效果,分別以mAPl、mAPm、mAPs來表示大中小目標(biāo)的檢測精度。其中,大中小目標(biāo)劃分借鑒文獻[16]設(shè)置,以目標(biāo)標(biāo)注框中像素數(shù)量322和962為邊界劃分目標(biāo)。
mAP=∑APc/NClass
=(∑Pc/Nimage_c)/NClass
(10)
(11)
式中,Nclass表示目標(biāo)類別總數(shù);Nimage_c表示包含C類別的圖像數(shù);Pc表示一張圖像中C類別的識別精度;APc表示所有圖像中C類目標(biāo)的平均精度;Ti表示網(wǎng)絡(luò)處理第i張圖像消耗的時間,Nimage表示目標(biāo)檢測的總圖像。
為驗證所提雙模態(tài)目標(biāo)檢測方法的有效性,實驗首先利用了李成龍教授團隊公開的標(biāo)準(zhǔn)數(shù)據(jù)集RGBT[17]進行訓(xùn)練測試。該數(shù)據(jù)集主要由標(biāo)定好的紅外和可見光相機對上百個場景下的目標(biāo)采集構(gòu)成,包含不同時間段、不同天氣、不同光照強度下的紅外和可見光圖像對約210000張,目標(biāo)種類約20多種。由于數(shù)據(jù)集中的圖像多從連續(xù)的視頻幀中提取出來,重復(fù)度較高,且部分目標(biāo)數(shù)量較少。因此,為更好的驗證所提方法,本文只從中篩選出約10000張重復(fù)率較低的圖像對,并確定了8類目標(biāo),各目標(biāo)占比如表3所示。將圖像尺寸調(diào)整為512×512大小后以7∶1∶2的比例隨機劃分訓(xùn)練、驗證、測試集進行實驗。

表3 數(shù)據(jù)集各目標(biāo)占比
實驗首先針對支路的基礎(chǔ)網(wǎng)絡(luò)進行訓(xùn)練測試,基礎(chǔ)網(wǎng)絡(luò)即輸入為原圖、特征提取結(jié)構(gòu)無注意力模塊、檢測部分為FPN網(wǎng)絡(luò)檢測結(jié)構(gòu)。由于紅外支路和可見光支路基本對稱,故只對可見光支路進行了測試,并將測試結(jié)果與目前主流的輕量級目標(biāo)檢測網(wǎng)絡(luò)進行了對比,對比結(jié)果如表4所示。

表4 可見光支路基礎(chǔ)網(wǎng)絡(luò)測試對比
由表4可以看出,由于所提網(wǎng)絡(luò)針對目標(biāo)雙模態(tài)信息,為保證雙支路結(jié)構(gòu)的高效性,支路構(gòu)建采用了較少的特征通道來保障檢測效率,但也損失了部分特征信息,使檢測效果較差。而主流的輕量級主要針對單源輸入,網(wǎng)絡(luò)結(jié)構(gòu)相對雙源網(wǎng)絡(luò)的支路更為復(fù)雜,提取信息更多,故精度相對較高,但效率較低。為豐富支路特征信息,引入了圖像增強模塊,針對該模塊的有效性驗證,實驗通過依次引入不同圖像處理方法來對比檢測精度變化,結(jié)果如表5所示。

表5 圖像增強模塊測試對比
根據(jù)表5可以看出,不同的預(yù)處理方法對紅外和可見光支路檢測精度的影響也各不相同(紅外圖像為灰度圖,無法進行HSV和Gray處理)。其中,對于可見光圖像,HSV顏色空間轉(zhuǎn)換、Canny邊緣提取以及Gray灰度轉(zhuǎn)化方法提升較大;而對于紅外圖像,直方圖均衡化、均值濾波等方法的提升效果更佳。為進一步提升特征提取過程中關(guān)鍵特征貢獻,設(shè)計了混合注意力模塊,針對該模塊的有效性驗證,實驗基于可見光支路網(wǎng)絡(luò),分別對比了不同注意力機制對檢測性能的影響,結(jié)果如表6所示。其中,混合注意力在特征通道和特征空間位置上同時使用。
由上表可見,SE注意力機制僅針對通道特征,故在效率上相對較高,但精度提升相對較少;CBAM注意力機制雖同時考慮通道和空間位置特征,但僅通過特征最大值來表示全局信息過于局限,且全連接方式也引入了較多計算量;而所提混合注意力機制以多種方式對全局信息建模,并利用一維卷積替代全連接,提升精度的同時也保障了計算效率。為進一步驗證通道和空間混合注意力對紅外和可見光特征的影響,實驗對比了不同模態(tài)特征在不同注意力下網(wǎng)絡(luò)性能變化,結(jié)果如表7所示。

表7 通道和空間注意力對比
可見,通道混合注意力可以較好的聚焦可見光特征,空間位置混合注意力則更適用于增強紅外特征信息。因此,為保證網(wǎng)絡(luò)整體效率,在紅外支路中僅適用了空間位置注意力機制,而可見光支路中也只使用了通道注意力機制。由于圖像增強和注意力機制都是針對單支路特征,而多模態(tài)特征有效融合才能體現(xiàn)出雙支路網(wǎng)絡(luò)的優(yōu)越性。對于所提自適應(yīng)融合模塊的可行性驗證,實驗分別測試對比了不同融合方式下目標(biāo)檢測精度的變化,并通過特征可視化進一步體現(xiàn)所提融合模塊的有效性,實驗結(jié)果如表8和圖5所示。

表8 雙模態(tài)特征融合對比

圖5 Block3層特征融合可視化對比
根據(jù)表8結(jié)果可以看出,相較于直接相加和拼接的融合方式,自適應(yīng)融合對目標(biāo)檢測精度提升最大。同時,從特征可視化效果中也可看出,所提方法在豐富目標(biāo)信息的同時有效避免了無效特征的干擾,而相加和拼接方式雖然也增強了目標(biāo)信息,但也引入了較多的噪聲。對于多尺度檢測結(jié)構(gòu)的驗證,實驗分別與當(dāng)前主流的多尺度方法FPN、ASFF以及PANet進行了對比,實驗結(jié)果如表9所示。同時,為進一步體現(xiàn)所提多尺度結(jié)構(gòu)的有效性,將fuse3層對應(yīng)維度的多尺度特征圖進行可視化展示,如圖6所示。

表9 多尺度結(jié)構(gòu)對比

圖6 多尺度特征融合可視化對比
根據(jù)上述實驗結(jié)果可以看出,傳統(tǒng)的FPN結(jié)構(gòu)在不同維度特征融合時引入了較多無效信息,且不同維度目標(biāo)特征容易相互干擾;ASFF和PANet結(jié)構(gòu)雖然在一定程度上緩解了不同維度特征間的信息干擾,但仍存在一定局限;而所提方法在盡可能保證網(wǎng)絡(luò)效率的同時充分吸取了現(xiàn)有多尺度結(jié)構(gòu)優(yōu)勢,使網(wǎng)絡(luò)對不同大小目標(biāo)的檢測效果都有較大改善,檢測效果也達到了最優(yōu)。綜上實驗結(jié)果有效驗證了所提各個模塊的可行性,而對于整個網(wǎng)絡(luò)的有效性驗證,實驗與同類型紅外和可見光目標(biāo)檢測方法進行了對比,實驗結(jié)果如表10所示,檢測效果如圖7所示。

表10 同類型網(wǎng)絡(luò)測試對比

圖7 同類型網(wǎng)絡(luò)檢測效果對比
根據(jù)上述對比結(jié)果可見,文獻[6]方法通過融合淺層特征的方式雖然效率較高,但紅外和可見光信息融合有限,目標(biāo)檢測效果相對較差;文獻[7]雖采用了將紅外特征融入可見光網(wǎng)絡(luò)中來豐富目標(biāo)網(wǎng)絡(luò)特征信息,但融合過程相對簡單,對目標(biāo)多模態(tài)以及多尺度信息提取不夠充分,檢測精度提升相對有限;文獻[8]通過分別檢測再融合檢測結(jié)果的方式過于冗余,且僅是對檢測結(jié)果的融合,忽略了特性互補性,故在檢測精度及效率上都表現(xiàn)一般;而所提網(wǎng)絡(luò)從多個角度來增強目標(biāo)特征,并利用自適應(yīng)的融合方式來實現(xiàn)目標(biāo)不同模態(tài)、不同維度特征的互補,進而使網(wǎng)絡(luò)整體檢測效果達到最優(yōu)。
為進一步驗證所提網(wǎng)絡(luò)在實際場景中的檢測效果,實驗利用真實電網(wǎng)環(huán)境下的設(shè)備來測試目標(biāo)檢測網(wǎng)絡(luò)的實用性。對于實驗數(shù)據(jù)集的構(gòu)建,主要通過巡檢機器人搭載的紅外和可見光相機進行采集(紅外和可見光相機通過水平標(biāo)定后再利用裁剪使圖像對達到像素級對齊)。為更好的驗證所提網(wǎng)絡(luò),所采集的設(shè)備圖像涵蓋了不同光照、不同天氣等情況,并且設(shè)備間存在尺寸差距較大的目標(biāo)。實驗共篩選了約4000組大小為512×512的圖像對,包含變壓器、冷控箱、斷路器、絕緣子等6類目標(biāo),通過Labelimg工具對圖像中各目標(biāo)進行人工標(biāo)注后以7∶1∶2的比例隨機劃分訓(xùn)練驗證和測試集后進行訓(xùn)練測試,實驗結(jié)果如表11和圖8所示。

表11 實際電網(wǎng)設(shè)備測試對比

圖8 電網(wǎng)設(shè)備目標(biāo)檢測效果
根據(jù)實際場景中的檢測結(jié)果可以看出,由于數(shù)據(jù)集中目標(biāo)的復(fù)雜程度相對較低,各目標(biāo)檢測精度都有一定提升,而與同類型方法相比,所提雙模態(tài)目標(biāo)檢測方法在較大和較小目標(biāo)的檢測中表現(xiàn)更佳,且網(wǎng)絡(luò)整體檢測精度仍保持最優(yōu),有效驗證了該方法泛化性以及落地實際應(yīng)用的可行性。盡管檢測效率未達到最高,但在實際電網(wǎng)設(shè)備目標(biāo)檢測過程中,巡檢機器人行駛速度相對較慢,所提方法基本可以滿足其實時檢測的需求。
針對目前紅外和可見光雙模態(tài)目標(biāo)檢測方法存在的不足,本文從圖像輸入、特征提取、特征融合、多尺度特征角度進行了深入分析,提出了一種基于特征增強的目標(biāo)檢測網(wǎng)絡(luò)。該網(wǎng)絡(luò)針對紅外和可見光圖像,利用顏色空間轉(zhuǎn)換、邊緣提取、均值濾波等方法分別對原始圖像進行預(yù)處理操作,豐富網(wǎng)絡(luò)輸入信息。在特征提取階段,采用了相對較少的特征通道來降低冗余信息提取,保障整體網(wǎng)絡(luò)效率,并設(shè)計了混合注意力機制,從可見光通道特征和紅外空間位置特征角度提升目標(biāo)相關(guān)特征貢獻。同時,為充分互補目標(biāo)雙模態(tài)信息,引入了自適應(yīng)交叉融合結(jié)構(gòu),通過訓(xùn)練的方式自適應(yīng)加權(quán)紅外和可見光特征,降低了背景信息的干擾。目標(biāo)檢測階段,對于不同尺度目標(biāo),采用了兩次采樣充分融合目標(biāo)深層和淺層信息,并以自主選擇的方式提取目標(biāo)相關(guān)維度特征進行預(yù)測,避免了各目標(biāo)特征間相互干擾。通過實驗表明,所提方法有效增強了輸入圖像信息、特征多樣性信息以及多尺度特征信息,并且與同類型方法相比,該方法也體現(xiàn)出較高的魯棒性和實用性,可以準(zhǔn)確高效完成目標(biāo)檢測。雖然所提方法檢測效果較優(yōu),但效率上仍有較大的提升空間,在后續(xù)工作中將探索模型剪枝和知識蒸餾方法進一步優(yōu)化網(wǎng)絡(luò)。