張云佐, 武存宇, 劉亞猛, 張天, 鄭宇鑫
(1.石家莊鐵道大學 信息科學與技術學院,河北 石家莊 050043;2.河北省電磁環境效應與信息處理重點實驗室,河北 石家莊 050043)
作為信息化時代的新型技術產物,無人機在遙感測繪、城市管理、災害預警等領域都展現出了巨大的價值和應用前景[1]。但無人機高空巡航、飛行高度不定等作業方式,使其所捕獲的圖像通常存在背景復雜、包含大量密集微小目標、目標尺度變化劇烈等特點[2-3],因此無人機圖像目標檢測仍然是一項具有挑戰性的任務。
傳統目標檢測方法通常可分為三步:首先通過區域選擇器以遍歷的方式選出候選區域;然后利用HOG(Histograms of Oriented Gradients)[4],Haar[5]等特征提取器進行特征提取;最后使用AdaBoost[6]、支持向量機[7]等分類器對提取到的特征進行分類。但該類方法通過窮舉候選框來得到感興趣區域,不僅時間復雜度高,而且會產生大量窗口冗余[8]。此外手工設計的特征提取器泛化能力不足以應對航拍圖像中的復雜場景和多類檢測任務[9]。
得益于硬件和算力的發展,基于深度學習的無人機圖像目標檢測算法逐漸代替傳統方法成為了主流。與傳統方法相比,基于深度學習的方法因其出色的特征表達和學習能力促進了無人機航拍圖像目標檢測的發展。Yang等[10]提出了一種集群檢測網絡ClusDet,將聚類和檢測過程統一到了端到端框架中,同時通過隱式地建模先驗上下文信息提高尺度估計的準確性。Yu等[11]對于無人機數據集中類別分布不均衡的問題進行了研究,并采用雙路徑方式分別處理頭部類和尾部類,這種處理方式有效提高了尾部類的檢測效果。Liu等[12]設計了一種針對高分辨率圖像的檢測模型HRDNet。該方法利用深層主干網絡和淺層主干網絡分別對低分辨率特征圖和高分辨率特征圖進行處理,解決了檢測高分辨率特征圖時計算開銷過大的問題。Wu等[13]從提高無人機目標檢測魯棒性的角度展開研究,通過對抗學習方式區分有效的目標特征和干擾因素,提高了單類目標檢測的魯棒性。Youssef等[14]將多層級聯RCNN與特征金字塔進行融合,在個別類別上提升了精度,但整體效果下降。Li等[15]提出了一種感知生成對抗網絡模型,用于實現小目標的超分辨率表示,使小目標具有與大目標相似的表達,從而縮減尺度差異。Tang等[16]設計了一種無錨框的檢測器,并將原始高分辨率圖像分割為多個子圖像進行檢測,這使得算法在精度上得到提高,但這也帶來了更多的計算負荷。Mekhalfi等[17]通過膠囊網絡對目標之間的關系進行建模,提高了網絡對于擁擠、遮擋情況下目標的解析能力。Chen等[18]提出了場景上下文特征金字塔,強化了目標與場景之間的關系,抑制了尺度變化帶來的影響,此外在ResNeXt結構的基礎上,引入了膨脹卷積增大感受野。這些方法從不同角度入手對密集微小目標檢測任務進行優化,但此類方法沒有考慮到復雜背景對航拍圖像目標檢測任務的影響,以及微小目標信息隨網絡層數增加而丟失的問題。
為了實現對無人機視角中微小目標的精準檢測,本文提出了一種聯合自注意力和分支采樣的無人機圖像目標檢測方法。首先,通過嵌套殘差結構將自注意力機制集成到主干網絡中,實現對于全局信息和局部信息的有效結合,提升網絡對全局信息和上下文信息的捕獲能力。其次,針對現存特征融合模塊的缺陷,設計了一種基于分支采樣的特征融合模塊,通過分支并行策略分別實現上、下采樣操作,而后對不同分支的采樣結果進行融合,有效強化模型的空間位置信息和特征表達能力,并緩解了小目標信息丟失問題。此外,將包含細粒度特征的淺層特征圖引入到特征融合序列中,改善小目標檢測效果。最后,構建了一種基于反殘差結構的特征增強模塊以提取具有鑒別性的小目標特征。
目前主流目標檢測算法可以分為兩大類:以R-CNN系列[19-20]為代表的雙階段算法和以Yolo系列[21-22]為代表的單階段算法,其中雙階段算法的精度更高,但檢測速度較慢,而單階段算法憑借簡潔快速的優點得到了更廣泛的應用。
本文選擇Yolov5算法作為基線模型,改進后的網絡結構圖如圖1所示,其中,主干部分由CSPDarkNet53和本文提出卷積和自注意力相結合的嵌套殘差模塊(Nested Residual combining Convolution and Self-attention, NRCS)構成,CSPDarkNet53用于提取局部特征,NRCS模塊獲取特征之間的全相關性,實現局部特征和全局特征的結合。Neck部分通過本文所提出的雙分支采樣的特征融合模塊(Double-Branch Sampling Feature Fusion model, DBS-FU)實現特征融合。該結構通過多分支并行策略生成更精細的特征以提高特征融合效果。Head中引入淺層特征,構建新的檢測頭(Head 1)。每個檢測頭通過編碼目標信息生成具有S2×B×(4+1+C)維度的張量。S2為特征圖中包含的網格數;B為每個網格上預設的預測框數量,在本文中被設置為3;S2×B×(4+1+C)中的數字4表示預測框的坐標信息(x,y,h,w),數字1表示置信度;C表示待檢測目標的類別數量。同時使用本文提出的反殘差結構的特征增強模塊(Feature Enhancement module of In-Residual,FE-IR)對新增的檢測頭進行特征增強。

圖1 本文所提算法整體結構圖Fig.1 Overall structure of the algorithm proposed in this paper
無人機所捕獲的高分辨率航拍圖像背景復雜,在通常情況下背景信息遠超目標信息。如果不予以處理,主干網絡在特征提取過程中就會提取到大量的無效背景信息。因此,需要讓模型聚焦在有效的目標信息上。
自注意力機制最初被廣泛應用在自然語言處理領域中。Dosovitskiy等[23]首次將自注意力機制引入到了計算機視覺領域,并取得了一定成效。隨著對自注意力機制研究的不斷深入,自注意力機制的作用已經在計算機視覺領域得到了廣泛認可。
在基于卷積神經網絡的主干網絡中,通過共享的卷積核進行特征提取,減少冗余參數的同時也帶來了兩種歸納偏好,即平移不變性和局部相關性,這使得卷積神經網絡在提取底層特征和視覺結構方面具有很大優勢,但這也導致卷積神經網絡受限于局部感受野,無法捕獲全局依賴關系。而自注意力機制則通過全局相似度計算像素之間的聯系,為不同像素點賦予不同權重,從而獲得全局相關性。自注意力相似度計算公式如下:
其中:X表示輸入序列,Wq,Wk,Wv分別表示三個隨機初始化矩陣,并且它們可以通過注意力進行動態調整,X與它們相乘得到Q,K,V。
其中:Q點乘KT,計算每個輸入序列和其他序列之間的相似程度。除以用于防止內積過大導致梯度消失。其中dk為隱藏層維度。通過Softmax進行歸一化計算得到權重系數后再與V相乘即可得到通過自注意力機制調整后的輸入序列。
卷積神經網絡擅長于對局部信息進行提取,而自注意力機制更擅長于對全局信息進行建模。綜上,基于卷積神經網絡和自注意力機制互補的思想,設計了卷積和自注意力相結合的嵌套殘差模塊NRCS,其結構如圖2所示。該結構是一種嵌套殘差結構,外層殘差邊對局部信息進行恒等映射,內層殘差結構中使用多頭自注意力模塊(Multi Head Self Attention module,MHSA)計算全局相關性。與卷積結構相比,所提出的NRCS模塊通過結合局部信息和全局信息提高模型對上下文信息的捕獲能力。

圖2 NRCS結構圖Fig.2 Structure diagram of NRCS
此外,無人機圖像分辨率遠超普通圖像,Sun等[24]研究發現,對分辨率較高的特征圖進行全局相關性計算會帶來過多的計算量和顯存開銷,并導致訓練過程難以收斂。實驗中發現目標檢測任務中淺層的高分辨率特征圖更依賴卷積的局部特征提取能力。而對經過多次下采樣的深層低分辨率特征圖進行全局相關性建模不僅可以保證主干網絡對局部信息和全局信息進行有效提取,而且所需的內存開銷和計算量也更符合應用需求。因此,本文方法僅在主干網絡末端使用NRCS結構,其余部分仍然使用卷積神經網絡。這樣做既保留了卷積神經網絡強大的局部特征提取能力,也通過自注意力獲取了全局信息。同時在深層低分辨率特征圖中使用NRCS模塊可以有效減少模型的參數量。
在特征融合階段,原始網絡結構中通過構建雙向特征金字塔實現信息交互,其中第一個特征金字塔通過線性插值進行上采樣,將淺層特征圖中的空間位置信息傳遞到深層特征圖。第二個特征金字塔則通過卷積進行下采樣,將融合后的信息逐步傳遞回淺層特征圖,保證每層特征層都有足夠的信息進行預測,但這種設計有兩個明顯的缺陷。首先,在深層特征圖向淺層特征圖傳遞信息的時候使用的采樣方法單一,導致深層語義信息并未有效傳遞。其次,在淺層特征圖向深層特征圖適配的過程中會出現嚴重的信息衰減的問題。而小目標攜帶的信息量本就遠小于常規目標,因此信息衰減問題對小目標檢測來說更加致命。針對這些缺陷,設計了一種基于雙分支采樣的特征融合模塊DBS-FU。具體來講,DBSFU包含DBUS和DBDS兩個主要模塊。其結構如圖3所示。

圖3 DBS-FU結構圖Fig.3 Structure diagram of DBS-FU
如圖3(a)所示,DBUS模塊通過構建Bilinear和Nearest兩條并行分支分別實現上采樣,其中Bilinear分支和Nearest中的采樣倍數(Scale_factor)均設為2。得到上采樣結果后使用歸一化(Batch Normalization, BN)分別對不同的上采樣結果進行處理,防止梯度消失。最后將各分支采樣結果進行逐元素加和,并使用SiLU激活函數引入更多非線性因素,得到最終的采樣結果。相較于單一的采樣方式,該結構通過生成高質量的上采樣結果強化淺層特征圖中的語義信息,從而提高模型對混淆目標的分類能力。該過程定義如下:
其中:Branch_Bi和Branch_Ne對應不同分支的上采樣結果,BN表示批處理歸一化層,⊕表示逐元素加和。
如圖3(b)所示,DBDS通過構建Conv和Maxpool兩條并行分支分別實現下采樣,其中,Conv分支中卷積核大小為3,填充量為1,步長為2;Maxpool分支中池化核大小為2,填充量為0,步長為2。Conv分支提取局部感受野內的整體特征,Maxpool分支則專注于池化核內最突出的信息。這兩種特性對小目標來說同樣重要,任意一種單一采樣方式都會導致某種信息的丟失。而分支并行策略可以有效緩解這一問題。每條分支都代表了原始特征圖中一部分特征。將下采樣結果融合后,可以對深層特征圖中的空間位置信息進行進一步強化,提高對小目標的定位能力,并保留更多的上下文信息。其公式如下:
其中:Branch_Conv和Branch_Max對應不同分支的下采樣結果,BN表示批處理歸一化層,⊕表示逐元素加和。
在基于卷積的深度學習網絡對圖像進行處理的過程中,特征圖的分辨率會隨著層數加深而逐漸變小。深層特征圖包含豐富的語義信息,但空間位置信息逐漸喪失。相比而言,淺層特征圖保留著較多的細粒度信息,更適合預測無人機圖像中大量的密集小目標。因此,本文選擇將較淺層的特征圖集成到特征圖融合序列中。所提算法將最終用于預測的特征圖分為S×S個單元格,每個單元格僅預測一個中心點落入該單元格內的目標。當多個目標的中心點落入同一個單元格時會導致大量目標漏檢。而淺層高分辨率特征圖將包含更密集的S,這降低了多個目標落入同一網格區域的概率,有效提高密集小目標的檢測精度。同時,我們通過將高分辨率特征圖的通道數由128提升至256,以提高特征融合過程中的淺層特征圖權重,該方法可有效提高模型對微小目標的敏感性。
此外,在輸出最終的檢測結果前,需要先對特征進行降維,但對無人機圖像中大量存在的小目標來說,低維特征不足以保留足夠的有用信息。并且特征通道數不足可能會阻礙梯度回傳,不利于模型訓練。因此本文設計了一個基于反殘差的特征增強模塊FE-IR。該結構先對特征進行升維,并利用深度卷積(Depthwise Convolution, DWConv)對高維特征進行特征提取以保證代表性。同時,我們將跳連路徑建立在升維后的特征上,將增強后的特征映射至下一層。激活函數ReLU會將分布小于0的特征截斷,導致信息損失。因此本文選擇在深層模型上效果更好的Swish作為激活函數,以提高FE-IR模塊性能。本文將該模塊嵌入到檢測層之前,用于對小目標特征進行增強。其結構圖如圖4所示。

圖4 FE-IR 模塊結構圖Fig.4 Structure diagram of FE-IR
損失函數用于度量網絡的預測結果與真實標簽之間的距離,通過使損失函數最小化,不斷修正網絡參數,實現精準預測。所提算法使用的損失函數由三部分組成:置信度損失表示檢測框內是否存在目標;回歸損失用于衡量預測框與真實框的誤差;分類損失表示預測類別和真實標簽的差異。總體損失函數定義如下:
其中:LossObj,LossRect,LossCls分別表示置信度損失、回歸損失和分類損失。A,B,C表示不同損失所占權重。
本文在計算回歸損失時考慮到預測值與真實值中心點坐標、重疊面積和寬高比之間的相關性,通過CIoU處理回歸損失。定義如下:
其中:ρ為預測框和真實框的中心點距離,c為兩者的最小包圍矩形的對角線長度,v為兩者的寬高比相似度,λ為v的影響因子。
本文置信度損失使用二值交叉熵(Binary cross entropy, BCE)。置信度損失定義如下:
其中:oi表示預測框i內是否存在目標,ci表示預測值。
BCE損失不僅適用于二分類任務,也可以通過多個二元分類疊加實現多標簽分類,故本文分類損失同樣采用BCE損失,分類損失定義如下:
其中:Oij表示預測框i內的目標是否為當前類別,Cij表示預測值。
本文實驗的運行環境為:操作系統CentOS7,顯卡型號NVIDIA Tesla V100S-PCIE-32GB,處理器Intel(R) Xeon(R) Gold 6226R CPU @ 2.90 GHz。采用Pytorch深度學習框架。實驗過程中,所有模型訓練均采用隨機梯度下降算法,初始學習率為0.001,動量因子為0.9,Batchsize為2。
VisDrone2019數據集[25]由AISKYEKY團隊制作,其中包含288個視頻片段,共包括261 908幀和10 209個靜態圖像,官方提供的數據集中選取了6 471張圖像作為訓練集,548張圖像作為驗證集。數據集中包含了11個類別,分別是行人、汽車、人、公交車、自行車、卡車、面包車、帶棚三輪車、三輪車、摩托車以及others,其中others是非有效目標區域,本次實驗中予以忽略。訓練過程中,輸入圖像分辨率為1 536×1 536。
UAVDT數據集[26]由Du等在2018年歐洲計算機視覺會議提出。數據集中包含50個視頻片段。本文按照通用標準,將前30個視頻片段中的22 919張圖像用于訓練,后20個視頻片段中的17 457張圖像用于測試。該數據集共包含汽車、貨車、公交車3類檢測目標,涉及十字路口、高速公路、街區等常見場景。訓練過程中,輸入圖像分辨率為800×800。
為了精準量化所提模型在無人機航拍圖像上的檢測性能,本文采用多類目標檢測任務中公認度最高的評估指標:平均精度均值(mean Average Precision, mAP)。其中mAP是通過按0.05為步長在0.5~0.95中取10個IoU閾值再取平均精度的過程,mAP50和mAP75則是分別以0.5和0.75的作為IoU閾值計算得到的平均精度,mAP計算過程如下:
其中:TP(True Positives)表示真正例,FP(False Positive)表示假正例,FN(Flase Negatives)表示假反例,n表示類別數量,J(Precision,Recall)k表示平均精度函數。
為了適應不同的需求,本文通過調整網絡的深度和寬度獲得了兩種不同規模的模型:m和s。其中m模型精度更高,但檢測速度相對較低。s模型檢測速度優于m模型,但精度相較于m模型有所下降。我們將兩種模型在VisDrone2019數據集上的表現和其他目標檢測算法進行比較,并在UAVDT數據集上驗證所提方法的泛化能力。
3.4.1 VisDrone數據集實驗結果
為了直觀地展示本文所提算法相較于基線模型的性能提升,我們在表1中顯示了兩種基線模型和本文所提算法對VisDrone2019數據集中各類目標的檢測性能。實驗結果表明,本文所提算法的兩種模型在全部類別上均實現提升,其中,行人、人、摩托車等小目標提升效果明顯。

表1 基線模型和本文算法在VisDrone2019上的性能對比Tab.1 Comparison of the results of the baseline and the algorithm in this paper on VisDrone2019(%)
為了客觀地展示本文所提方法的性能優勢,我們將兩種型號的模型與其他最先進的目標檢測方法在VisDrone2019數據集上的性能表現進行了比較和分析。結果如表2所示,其中所提方法的m模型的mAP50,mAP和mAP75分別達到62.1%,38.9%和39.5%,在所有對比算法中達到最優。此外,所提算法的s模型的mAP50,mAP和mAP75分別達到59.3%,37.1%和38.3%,其中mAP和mAP75達到次優。mAP50僅次于所提算法的m模型和HRDNet。值得注意的是,HRDNet算法的輸入圖像分辨率遠超本文所提方法,盡管這會提高精度,但這會嚴重影響檢測速度。本文所提方法的兩種模型在輸入圖像分辨率遠低于HRDNet的情況下,整體性能仍然取得了最優和次優的結果。因此,本文所提方法更適合處理無人機圖像目標檢測。

表2 不同算法模型在VisDrone2019上的結果對比Tab.2 Comparison of results of different algorithm models on VisDrone2019(%)
3.4.2 UAVDT數據集實驗結果
為了探究本文所提算法的泛化能力,我們測試了兩種型號的基線模型和本文所提算法在UAVDT數據集中的檢測性能。結果如表3所示,相較于基線模型,本文所提算法在全部類別上的檢測精度均實現提升。

表3 基線模型和本文方法在UAVDT上的性能對比Tab.3 Comparison of the results of the baseline and the algorithm in this paper on UAVDT(%)
表4列舉了本文所提方法和其他對比算法在UAVDT數據集上的性能表現。實驗結果表明,本文所提方法的m模型在UAVDT數據集上的mAP50,mAP和mAP75分別達到44.7%,25.3%和28.1%,相較于其他對比方法,m模型的三項指標均達到最優,而s模型的mAP50和mAP也達到次優。綜上,本文所提方法具有較高的檢測精度和泛化能力。

表4 不同算法在UAVDT數據集上的結果對比Tab.4 Comparison of results of different algorithm models on UAVDT(%)
本文提出的DBS-FU模塊通過并行分支分別進行采樣,以獲取高質量的特征融合結果。為了驗證單一采樣和并行采樣方式的性能差異,我們在VisDrone2019數據集上進行了相關測試,結果如表5所示。當使用基線模型默認的Nearest上采樣和Conv下采樣時,mAP50和mAP分別為53.7%和31.7%。相較于Nearest,Bilinear利用相鄰像素分別在兩個方向上進行插值。在替換Bilinear后,模型性能有所提升。而本文所提出的DBUS模塊通過不同分支分別進行上采樣,并在批處理歸一化后對不同的上采樣結果進行逐元素加,再由激活函數SiLU引入更多非線性因素。相較于單一方式的采樣結果,DBUS所得到的特征圖中攜帶更多的信息量,在特征融合過程中可以向淺層特征圖傳遞更豐富的語義信息,從而提高模型對目標的分類性能。因此,當使用DBUS時,模型精度優于任意一種單一采樣方法。在下采樣時,使用卷積或池化任意一種下采樣方式都會導致另一部分信息缺失,而本文所提出的DBDS模塊同時使用兩條采樣分支捕獲不同信息,有效減少信息損耗。

表5 不同采樣方式性能對比Tab.5 Performance comparison of different sampling methods(%)

表6 消融實驗結果Tab.6 Ablation experiment result
為了驗證本文所提出的各個模塊對模型整體性能的影響,本文選取6.0版本的Yolov5-s作為基線模型,通過消融實驗對所提出的各個模塊的有效性進行驗證。結果如表5所示。對于消融實驗結果的具體分析如下:
在未添加任何改進模塊時,基線模型的mAP50和mAP分別為53.7%和31.7%。在此基礎上,引入淺層高分辨率特征圖構建新的檢測頭,mAP50和mAP增長至54.8%和32.4%,但參數量有所上升。當提高特征融合序列中淺層特征圖權重占比,并通過加大深層特征圖中卷積步距來平衡參數時,mAP50和mAP進一步增長至56.1%和34.3%,并且參數量下降。NRCS模塊通過結合局部信息和全局信息,降低復雜背景對模型的影響。數據表明在加入NRCS模塊后,mAP50和mAP增長至56.9%和35.1%,參數量明顯下降。考慮到現有特征融合方法無法高效融合多尺度信息,信息衰減嚴重,構建DBS-FU特征融合模塊,該模塊通過并行分支生成高質量特征圖,提高信息傳遞效率。數據表明分別加入DBUS模塊和DBDS模塊后,mAP50和mAP均出現上升,證明采用分支并行策略生成的采樣結果在特征融合過程中效果更優。為了對小目標特征進行增強,設計了FE-IR模塊,數據表明加入3組FE-IR模塊后,mAP50和mAP增長至59.7%和37.1%,但檢測速度有所下降。鑒于FE-IR模塊即插即用,使用者可以根據需求靈活增加或減少FE-IR模塊的數量。綜上所述,消融實驗表明本文所提的四個改進點都可以提高無人機圖像目標檢測的精度。
為客觀表現本文所提算法相較于其他算法的優勢,本文在VisDrone2019和UAVDT數據集中選取了不同場景下的圖片作為測試對象,不同檢測結果中差異較大的區域被黃色線框標注(彩圖見期刊電子版)。
如圖5所示,我們在VisDrone2019數據集中選取了四種常見的無人機圖像,分別為高空視角、低空視角、密集小目標場景和夜間場景。圖5(a)展示無人機在城市高空捕獲的鳥瞰圖像,該類圖像分辨率較高,但背景信息復雜,容易對待測目標造成干擾。如圖5(a)結果所示,其他檢測算法不僅將圖像右上角中的形似物體(民房、小屋等)誤判為目標,而且部分待測目標并未被檢測,而本文所提算法可以通過引入全局信息對復雜背景進行有效抑制。圖5(b)中展示了無人機在低空作業環境下捕獲的圖像,該類圖像中目標尺寸差異明顯。觀察結果可發現,此類圖像中漏檢情況較為頻繁,而所提方法在檢測不同尺寸的目標時更具有優勢。圖5(c)展示了密集小目標場景中模型的檢測性能,其他算法中將特征圖分為若干網格單元,每個網格單元預測一個目標。當目標尺寸較小且排列密集時,多個目標落入同一網格單元的概率將大大增加,導致大量目標未被檢測。而所提方法通過改進后的檢測頭引入淺層特征層增加了網格單元的數量,減少了多個小尺寸目標落入同一網格的概率。圖5(d)中展示了夜間場景的檢測結果。目標檢測模型極易受到光線不足帶來的影響。該類圖像中,可用特征較少,目標難以與背景分離。其他算法的檢測結果中大量受到遮擋或處于暗處的目標未能被檢測。而本文所提算法可以提取到精細和具有鑒別性的特征,從而提高在此類場景中的檢測能力。

圖5 不同算法在VisDrone2019數據集上的檢測結果對比Fig.5 Comparison of detection results of different algorithms on VisDrone2019
圖6中展示了不同算法在UAVDT數據集上的檢測結果。結果表明,本文所提方法街道、路口、夜晚多種復雜場景中取得了顯著的檢測結果。

圖6 不同算法在UAVDT數據集上的檢測結果對比Fig.6 Comparison of detection results of different algorithms on UAVDT
不同數據集上的驗證結果表明,本文所提方法具有抗干擾性強、檢測精度高、泛化能力強等優勢,更適合于無人機圖像目標檢測任務。
無人機圖像中存在背景復雜、尺度變化劇烈、包含大量密集微小目標等問題,這對無人機圖像目標檢測任務帶來了一定挑戰性。針對上述問題,本文提出了一種聯合自注意力和分支采樣的無人機圖像目標檢測方法。首先,該方法在現有的目標檢測算法基礎上,構建卷積和自注意力相結合的嵌套殘差模塊NRCS,通過結合局部信息和全局信息提高模型對上下文信息的捕獲能力,緩解復雜背景帶來的干擾問題。其次,針對現有特征融合模塊的缺陷,通過分支并行策略構建DBS-FU特征融合模塊,提高特征融合質量。最后,將經過權重調整后的淺層細粒度特征圖引入到特征融合序列中,設置對應的檢測頭以適應尺度變化的影響,并利用提出的特征增強模塊FE-IR捕獲更具有鑒別能力的小目標特征。實驗結果表明,本文所提方法在不同場景中均表現出了良好的檢測性能。