
中圖分類號:TP391.41 文獻標識碼:A 文章編號:2096-3998(2025)03-0079-09
紅外小目標檢測(Infrared Small Target Detection,ISTD)由于其具備全天候工作、隱蔽性強和探測距離遠等優勢,在地面監測[1]、預警系統[2]以及精確制導[3]等多個領域中具有顯著的應用價值。與普通可見光目標相比,紅外小目標(Infrared Small Target,IRST)具有以下特點。首先,由于成像距離遠,目標在紅外圖像中的比例非常小,極端情況下通常只有幾個像素甚至一個像素。其次,紅外小目標分布稀疏,通常只包含一個或幾個實例,每個實例占據整個圖像的極小部分。因此,目標區域與背景區域之間出現了顯著的不平衡。此外,由于紅外成像的特性,小目標的亮度與背景之間的對比度通常較低,使得目標在背景中不易被分辨。這些獨特的特征使得紅外小目標檢測異常具有挑戰性。
為了有效地檢測紅外小目標,一些研究者提出了基于模型驅動的傳統方法。這些方法包括:基于濾波的方法[4],使用各種濾波器來增強目標特征或抑制背景噪聲;基于局部對比度的方法[5],利用局部區域內的對比度信息來檢測目標;基于低秩和稀疏矩陣恢復的方法[67],利用矩陣分解技術,通過將圖像矩陣分解為低秩矩陣和稀疏矩陣的和來實現目標檢測。然而,這些方法通常需要依賴手工設計的特征來描述目標和背景之間的差異,當面對復雜背景、多樣化的目標以及大規模數據等挑戰時往往表現不佳。
隨著深度學習的發展,研究者們提出了許多基于數據驅動的深度學習方法。Dai等[8]設計了一種稱為非對稱上下文調制的特征融合方法(AsymmetricContextualModulation,ACM),利用編碼器與解碼器對應層級的特征交互,提取上下文信息,提升了網絡的特征表達能力。然而,由于單層的特征表達能力有限,ACM在復雜背景干擾下檢測性能受限,導致檢測結果中的目標信噪比低,虛警率高。Zhang 等[9]提出了注意力引導上下文模塊(Attention-Guided Context Block,AGCB),該模塊通過對紅外小目標的上下文信息進行整合和挖掘,使網絡能夠更好地關注到目標。另一部分研究者則針對紅外小目標獨有的特征,提出了更具針對性的模型。Zhang 等[1]通過引人一種基于泰勒有限差分的邊緣塊(Taylor FiniteDiference,TFD),對不同層次的邊緣信息進行聚合和增強,以提高目標與背景的對比度。Wu等[1]構建了一種在標準U-Net框架內嵌入U-Net結構的模型,以減少因網絡深度增加而引發的信息衰減問題,從而增強紅外圖像中微弱目標的檢測性能。Li等[12]提出了一種密集嵌套交互結構(Dense Nested Interac-tive Module,DNIM),用于實現高層和低層特征之間的漸進式交互。通過DNIM中的重復交互作用,有效保留了深層目標的特征信息。與傳統方法相比,基于深度學習的紅外小目標檢測方法在檢測精度和魯棒性方面都有明顯提升。但它們大多只針對其中的某一個問題提出了解決方案,一定程度上都忽略了紅外小目標檢測中存在的目標分布稀疏,對比度低以及在深層網絡中易丟失等問題。
為了實現更加精確、魯棒的紅外小目標檢測,本文提出了一種基于局部對比和特征增強的目標檢測網絡(Object Detection Network Based On Local Contrast and Feature Enhancement,LCFE-Net)。
1 LCFE-Net網絡架構
LCFE-Net 整體架構與U-Net[13]類似,主要由編碼器和解碼器兩部分組成,如圖1所示。編碼器包括1個雙卷積模塊(DoubleConvolution,DC)和3個局部對比特征提取模塊,解碼器則由4個雙卷積模塊組成。特征增強模塊作為編碼器與解碼器之間的過渡層,且在編碼器和解碼器之間采用跳躍連接,以防止圖像特征丟失。最后,通過一個 1×1 卷積作為分割頭,生成分割結果。

1.1 局部對比特征提取模塊
由于紅外弱小目標隨機散布在整個圖像中,且占據像素較少,因此在較大范圍內深入挖掘圖像特征的語義信息以明確目標與背景之間的區別,對于增強檢測的魯棒性具有重要意義。
普通卷積感受野較小,可以有效地提取局部特征;空洞卷積感受野較大,能夠有效地獲取遠距離信息。如圖2所示,通過空洞卷積和普通卷積對輸人特征圖進行大范圍的特征粗提取,可以防止因目標稀疏而造成的漏檢問題。具體實現過程如下:
給定輸人特征 I∈RH×W×C ,分別通過普通卷積層和空洞卷積層計算得 IConv∈RH×W×C 和 IDConv∈RH×W×C Iconv 和IDConv 相加之后得到 f∈RH×W×C ,即:
目目 foutput100 00 中

普通卷積和空洞卷積只是對特征圖進行了粗略的特征提取,但紅外小目標存在低對比度問題,因此為了提取到更明顯的特征,還需進一步挖掘目標與背景的差異。
對比度信息是紅外目標的重要特征,并在以往的檢測方法中得到了廣泛應用[14]。受局部二進制模式在描述局部關系方面取得成功的啟發[15],紅外小目標的對比度信息可以通過減法或除法操作表示為目標與其周圍背景之間像素值的差異,如圖3所示。通過使用中心像素與其鄰域像素之間的差值來反映像素點的近似梯度,CDC 卷積則是利用這一原理聚合強度和梯度信息,以捕捉目標的細節特征。

本文在局部對比特征提取模塊中采用了中心差分卷積[16],如圖4 所示。輸出特征圖 y 表示為

式中,
是 p0 的相鄰集,其大小取決于卷積核的大小; ω 表示卷積核的權重; p0 表示輸入和輸出特征映射的當前位置; pn 為舉例
中的位置。超參數 α∈[0,1] 權衡了強度級和梯度級信息之間的貢獻。 α 值越高,表明中心差梯度信息越重要。CDC卷積通過對比目標與周圍區域的強度和梯度信息,捕捉細微的結構變化和邊緣信息,最終實現目標與背景的分離,提高檢測效果。

1.2 特征增強模塊
完成局部對比特征提取,需要經歷4次下采樣。適當的下采樣操作有助于提取高級語義特征,但次數過多就可能導致細粒度的特征信息丟失。因此在深層網絡中提出了特征增強模塊,該模塊由 SE 注意力機制[17]和混合空洞卷積(HierarchicalDilated Convolution,HDC)[18]組成,如圖5所示。SE 注意力機制通過對通道特征進行加權,使得網絡能夠自適應地增強有助于小目標檢測的通道特征,同時抑制冗余信息。HDC 通過在卷積核中引入間隙來擴大感受野,從而在不增加計算量的情況下捕獲更多的上下文信息。二者結合能夠有效地提取并增強紅外小目標的細微特征,進一步加深紅外小目標與周邊區域的對比度,防止深層網絡中的目標丟失。

特征增強模塊分為兩部分,第一部分,將輸入特征圖經過全局平均池化捕捉每個通道的全局信息,并生成一個描述符,表示該通道的重要性。再通過一個卷積塊和激活函數,生成每個通道的注意力權重。將這些權重應用到經過HDC 處理后的特征圖上,得到特征圖 fM ,

式中, H 和 W 分別表示特征映射 x 的高度和寬度, σ 表示Sigmoid函數, D=1,3,5 表示HDC的膨脹率為1、3.5。第二部分與第一部分類似,唯一不同的是將第一部分輸出的特征圖做全局最大池化,最終得到特征圖 fout ,
fout=σ(Conv1×1(GAP(fM)))?HDC(Conv3×3(fM))(D=1,3,5),
式中,GAP表示全局最大池化。HDC能夠有效地從不同尺度上提取特征,使網絡在應對目標大小和形態變化時更加魯棒。而SE機制通過權重調整來自適應地突出關鍵特征,從而進一步提高了對噪聲的抗干擾能力和對低對比度目標的檢測效果。
值得注意的是,在利用空洞卷積增加感受野的同時,也會隨之造成網格效應問題,如圖6所示。

可以觀察出,某些像素并未參與計算,這就可能導致局部信息丟失。Wang等[18]提出的 HDC 設計結構,有效地避免了網格效應的產生。HDC首先定義了兩個非零值之間的最大距離:

式中規定 Mn=rn , Mi 為第 i 層兩個非零值之間的最大距離; ri 為第 i 層的膨脹系數。HDC需滿足3個設計要求:1)空洞卷積組合的膨脹系數應該呈現鋸齒形狀,如[(1,3,5),(1,3,5)];2)空洞卷積組合的膨脹率不能具有除1以外的公約數;3)兩個非零元素之間最大的距離需滿足 M2?k,k 表示卷積核的大小。即在第二層中,兩個非零元素之間的最大間距不超過該層卷積核的大小。
設膨脹系數為 r=[1,3,5,…,2n-1] ,顯然,膨脹系數滿足鋸齒形狀和公約數只為1的要求,還需證明 M2?k ,具體證明過程如下:
根據定義可知 Mn=rn=2n-1 ,當 n=2 時, M2=3 ,滿足設計要求。
接下來討論 n?3 的情況:
(204號
。
由上述可知 Mn-a=2(n-a)-1 ,取 a=n-2 ,則 M2=3?k=3 ,滿足設計要求。
2 實驗
2.1 數據集與評價指標
本文在 NUAA[8]、IRSTD1k[10]、SIRSTAUG[9]和 NUDT[12]4 個數據集上進行實驗。其中,NUAA包含多種場景下的紅外小目標圖像,包括天空、地面、水面等,每張圖像中目標數量不多,且目標尺寸較小,背景復雜。IRSTD1k包含1000 張紅外圖像,目標大小和形狀各異,背景包含復雜的自然景物。SIRSTAUG是基于真實紅外圖像和目標,通過數據增強技術合成的紅外小目標數據集。NUDT數據集涵蓋了不同天氣條件、光照變化和視角下的紅外圖像。針對每個數據集,實驗過程采用 5:3:2 的比例分配,將其劃分為訓練集、測試集和驗證集。
本文采用像素級評價指標平均交并比 (mIoU) 歸一化交并比 (nIoU) 和 F1 分數來評估不同方法對紅外小目標檢測的性能。其中, mIoU 表示所有樣本中預測掩碼與真實掩碼的交集面積占兩者并集面積的比例, nIoU 則是針對每個樣本單獨計算交并比后,再求平均。 F1 分數則結合精確率和召回率,提供了對模型檢測性能的綜合評價。它們的定義為


式中, N 表示樣本總數, FP 表示假陽性像素, FN 表示假陰性像素, TP 表示真陽性像素。
2.2 實驗配置和實施細則
實驗在配備InterCorei5-12400F處理器、搭配一塊NVIDIARTX3060顯卡的Windows10系統環境下完成。利用Anaconda環境下的CUDA11.3、PyTorch1.12框架訓練本文所提出的網絡,并采用Adam優化器對模型進行優化,選擇 SoftIoU[19為損失函數。實驗選擇與具有代表性的深度學習方法(ACM[8]、AGPCNet[9]、DNANet[12] ISNet[10] )和傳統方法( IPI[6] 、 RIPT[7] 、PSTNN[20])進行比較。由于數據集的分辨率和分布存在差異,故根據不同數據集的特性設置了不同的參數,見表1。
2.3 實驗結果與分析
如表2所示,所提出的方法在4個數據集上與現有先進方法相比,在所有評估指標上均表現出最優性能。尤其在IRSTD1k數據集上,本文方法的mIoU,nIoU 和 F1 分數3個評價指標與第二名相比,分別提升了 1.73%.1.14%.1.13% 。基于手工特征的傳統方法在具有挑戰性的數據集上表現不佳,檢測結果遠低于基于深度學習的方法,主要是因為傳統方法在處理特定任務或簡單場景時可能有效,但由于其在特征提取、自適應性、非線性組合以及抗干擾能力上的限制,難以在復雜、動態和變化多端的紅外小目標檢測任務中與深度學習方法相媲美。然而,這些基于深度學習的方法并未充分考慮紅外小目標存在的低對比度和分布稀疏問題,也未能解決在網絡較深層目標特征易丟失的問題。與其他算法相比,本文算法因LCFEM模塊具備的大范圍特征提取與局部對比能力,有效應對了ISTD中的低對比度和分布稀疏問題。同時,FEM模塊通過增強特征和噪聲抑制能力,有效保留了網絡深層的目標特征,從而提升了檢測性能。所提方法在4個數據集上均達到了最優的檢測性能,表明模型具有較強的泛化性。


法的性能明顯優于其他方法。
圖8展示了紅外圖像在不同階段的特征圖可視化結果,其中紅色框標注了紅外小目標,黃色框標注了噪聲。第一張圖是原始紅外圖像;第二張圖是經過DC模塊處理后的特征圖,此時圖像中仍存在顯著的干擾噪聲;第三張圖是經過LCFEM模塊處理后的特征圖,可以發現大部分噪聲已被有效抑制,通過局部對比分析,目標與背景得以初步區分,但此時自標特征仍相對較為微弱;第四張圖是經過FEM模塊處理后的特征圖,此時噪聲已經基本被濾除,目標特征也較為明顯。
圖9是模型在NUAA數據集上 F1 分數隨訓練周期變化的曲線圖,從圖中可以看出,模型在1300輪左右就開始收斂。


圖10展示了不同方法在NUAA和IRSTD1k數據集上部分圖像的可視化結果,其中紅色框表示正確檢測,青色框表示漏檢,黃色框表示誤檢。可以看出,LCFE-Net的效果明顯優于其他方法。以第一張圖為例,當存在類似IRST的噪聲時,其他方法易產生假檢測,而LCFE-Net則得益于FEM模塊出色的特征增強,噪聲抑制能力,可以很好地避免誤檢。在第二張圖中,當目標分布稀疏,對比度低時,其他方法容易存在漏檢情況,但LCFE-Net得益于LCFEM模塊大范圍的特征提取能力以及獨特的局部對比能力,可以有效地檢測到非常小和微弱的目標,并且可以使整個分割結果更加準確。

2.4 性能分析
表3展示了不同方法在NUAA數據集上的計算復雜度對比結果,其中GFLOPs和FPS分別是通過thop庫和單張RTX3060測量所得。實驗根據輸入維度 c 的不同,將模型劃分為小型LCFE-Net_S(輸入維度 C=16 )、中型LCFE-Net_M(輸入維度 C=24 )和大型LCFE-Net_L(輸入維度 C=32 )。從表中可以看出,盡管ACM的GFLOPs最低且FPS最高,但其檢測性能相對較差。與AGPCNet和DNANet相比,LCFE-Net在保持較高檢測性能的同時,也實現了較低的GFLOPs和較高的 FPS 。


2.5 消融實驗
通過消融實驗驗證設計模塊在紅外小目標檢測中的有效性。實驗以UNet為基準模型,在NUAA數據集上分別評估所設計的局部對比特征提取模塊和特征增強模塊對檢測性能的提升作用,見表4。第二行是將CDC從LCFEM模塊中移除的結果,相當于LCFEM模塊只保留了大范圍粗略的特征提取能力。相反,第三行為僅保留局部對比特征提取能力后的結果。與基線相比,總體性能有所提高。但是,它們都沒有達到使用完整LCFEM模塊的性能。第四行顯示,使用完整的LCFEM模塊對模型的性能有很大的改善。實驗表明,LCFEM模塊能有效提取到目標特征,使目標與背景相分離,進而提高檢測性能。第五行可以看出當在UNet中使用FEM模塊時,模型性能有所提高,說明FEM模塊可以有效地處理網絡的深層特征。當LCFEM模塊和FEM模塊同時使用時,模型性能最優,表明兩者可以互補。

輸入維度 c 對模型性能的影響見表5,實驗中默認設置為32。表中顯示,當 c 設置為16、24、32時,模型性能呈現逐步提升的趨勢。然而,當 c 增加至48時,性能出現輕微下降。這可能是由于紅外圖像缺乏明確的語義信息,過大或者過小的輸入維度都可能導致模型的歸納偏置受到影響,進而影響其對目標特征的提取效果。

3 總結
本文提出了針對ISTD任務的基于局部對比和特征增強的檢測網絡,解決了檢測過程中紅外小目標存在的分布稀疏,對比度低以及在深層網絡中易丟失等問題。該網絡基于U-Net架構,主要包含局部對比特征提取模塊和特征增強模塊。局部對比特征提取模塊通過結合普通卷積、空洞卷積和中心差分卷積,利用全局特征提取和局部梯度信息,有效實現了目標與復雜背景的分離。特征增強模塊則通過注意力機制,自適應地調整通道響應,進一步增強深層網絡中的目標特征表示,防止特征丟失。在4個數據集上的大量實驗表明,本文算法在檢測性能和推理效率方面均具有良好表現。在未來的研究中,我們將進一步優化目標分離與特征增強策略以提升檢測精度,尤其是在處理更加復雜的背景環境和更小目標時,提升算法的魯棒性與準確性。
[參考文獻]
[1]MICHAEL T,WOLFGANG K.Clasificationofsmallboats in infrared images for maritime surveillance[C]//2010 International WaterSide Security Conference,2O10:1-7.
[2]MA T,YANG Z,WANG J,etal.Ifrared SmallTarget Detection Network with Generate Label and Feature Mapping[J]. IEEEGeoscience and Remote Sensing Letters,2O22,19:1-5.
[3]SUNY,YANGJ,ANW.InfraredDimand SmallTarget Detection via Multiple Subspace Leamingand Spatial-Temporal Patch-Tensor Model[J].IEEE Transactions on Geoscience and Remote Sensing,2021,59(5) :3737-3752.
[4]ANJUTS,RAJNRN.Shearlet transformbased image denoising using histogram thresholding[C]//2016 International Conference on Communication Systems and Networks,2O16:162-166.
[5] HANJH,LING K,ZHOUB,etal.Infraredsmalltarget detectionutilizing the multiscalerelative local contrast measure[J]. IEEE Geoscience and Remote Sensing Letters,2018,15(4) :612-616.
[6] GAO CQ,MEGNDY,YANG Y,etal.Infraredpatch-image model forsmalltarget detection inasingleimage[J].IEEE Transactions on Image Processing,2013,22(12):4996-5009.
[7]DAIYM,WUYQ.Reweighted infrared patch-tensormodel withboth nonlocalandlocalpriorsforsingle-framesmlltarget detection[J].IEEE Journalof Selected Topics inAppliedEarth Observationsand Remote Sensing,2017,10(8):3752.
[8]DAIYM,WUYQ,ZHOUF,etal.Asymmetriccontextual modulation forinfrared smalltarget detection[C]//Waikoloa: 2021IEEE Winter Conference on Applications of Computer Vision,2O21:949-958.
[9]ZHANGTF,LIL,CAOSY,etal.Atentionguded pyramidcontext networksfordetecting infraredsmalltargetunder complex background[J]. IEEE Transactions on Aerospace and Electronic Systems,2O23,59(4) :4250-4261.
[10] ZHANG M J,ZHANG R,YANG Y X,et al.ISNet:shape matters for infrared smalltarget detection[C]//New Orleans : 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition,2022:867-876.
[11] WU X,HONG DF,CHANUSSOT J.UIU-Net:U-Net in U-Net for Infrared Small Object Detection[J]. IEEE Transactions onImage Processing,2023,32(12):364-376.
[12] LIBY,XIAO C,WANGL G,etal.Dense NestedAttentionNetwork forInfrared SmallTarget Detection[J].IEEE Transactions on Image Processing,2023,32:1745-1758.
[13] RONNEBERGER O,FISCHER P. U-Net:Convolutional networks forbiomedical image segmentation[C]//Medical Image Computing and Computer-Assisted Intervention,Berlin:Springer,2O15:234-241.
[14] BOULKENAFET Z,KOMULAINEN J,HADID A.Face anti-spofing based on color texture analysis[C]//2015 IEEE International Conference on Image Processing,2015:2636-2640.
[15] HAN C,LIGENG Z,AND SONG H.Proxylessnas:Direct neural architecture search on target task and hardware[C]//International Conference on Learning Representations,2O19 :2-3.
[16] YU Z T,ZHAO C X,WANG Z,et al.Searching Central Diference Convolutional Networks for Face Anti-Spofing[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition,2020:5294-5304.
[17] HUJ,SHEN L,SUN G.Squeeze-and-excitation networks[C]//Proceeings of the IEEE Conference on Computer Vision and Pattern Recognition,2018:7132-7141.
[18] WANG PQ,CHENPF,YUANY,et al. Understanding convolution for semantic segmentation[C]//Lake Tahoe:2018 IEEE Winter Conference on Applications of Computer Vision,2018:1451-1460.
[19] RAHMAN MA,WANG Y.Optimizing intersection-over-union in deep neural networks for image segmentation[C]//International Symposium on Visual Computing,Berlin:Springer,2016:234-244.
[20] ZHANG L D,PENG Z M.Infrared small target detection based on partial sum of the tensor nuclear norm[J]. Remote Sensing,2019,11(4) :382.
[責任編輯:李莉]
Abstract:In response to the challenges of sparse target distribution,low contrast,and the potential loss of features in deep networks encountered in infrared small target detection under clutered backgrounds, this study proposes a detection network based on local contrast and feature enhancement,using the U-Net architecture as abaseline.First,a local contrast feature extraction module is introduced,which combines standard convolution with dilated convolution to explore semantic information across a wide area,enabling coarse extractionof targetfeatures.Then,the center-difference convolution isutilized to diffrentiatebetweensmall targets and the background through local contrast,achieving efective target-background separation.In adition,an attention-based feature enhancement module is designed,which adaptively calibrates feature responses along the channel dimension,further increasing the contrast between infrared smalltargets and surrounding regions,,thereby enhancing feature representation and preventing feature lossin deep networks. Comprehensive evaluations acrossfour publicly available datasets reveal that the proposed approach surpasses current leading methods and demonstrates strong generalization capability.
Key words:infrared small target detection;center-diference convolution; atention mechanism;deep learning