中圖分類號:TP391.4 文獻標志碼:A
Abstract: The objects in aerial images are densely arranged,presenting challenges such as significant scale variations,blurred details,and susceptibility to background interference,which collectively contribute to the difficulty of small object detection.To address these issues,this paper proposes a small object detection algorithm named FE-DETR (Frequency Enhancement Detection Transformer) based on a pyramid Transformer architecture.First,a frequency-enhanced Transformer is introduced,which employs discrete wavelet transform to separate and enhance high-frequency information rich in detailed features. A pyramid-structured backbone based on the frequency-enhanced Transformer is designed to significantly reduce the number of parameters while minimizing the loss of small object features during extraction. Second,a dedicated LR-FPN (Location Refined Feature Pyramid Network) for small objects is embedded to extract low-level object information and achieve fine-grained contextual fusion during multi-scale feature fusion,thereby enhancing the model's generalization capability.Finally,by integrating Wasserstein distance with MPDIoU,a novel NWD-MPDIoU loss function is proposed to adapt to scale variations,reducing the sensitivity to positional deviations of small objects and improving regresson accuracy for densely arranged small object samples. The proposed algorithm achieves an mAP@0.5 of 51.1% on the VisDrone2Ol9 dataset,outperforming the baseline model by 5.2% and 4.1% in mAP@0.5 and mAP@[0.5-0.95] ,respectively,while reducing the parameter count by 28.1% . It also demonstrates competitive performance on the DOTA and AITOD datasets,indicating strong generalization ability and robustness,making it highly effective for small object detection in dense scenarios.
Key words:FE-DETR algorithm; frequency enhance Transformer; LR-FPN;NWD-MPDIoU loss function
0 引言
近年來基于無人機平臺的計算機視覺檢測技術發展迅速,無人機被廣泛應用于城市規劃、交通監控、農業等各個領域.然而,受限于飛行高度、視角變化以及復雜地形等因素,無人機捕獲的圖像數據中包含大量小尺寸自標,且伴隨著嚴重的遮擋,為小目標檢測帶來了巨大挑戰[1].
在目標檢測領域2],深度學習方法主要以傳統深度卷積神經網絡的算法和以Transformer為架構的算法為主.其中,深度卷積神經網絡的算法可進一步劃分為兩階段目標檢測算法與單階段目標檢測算法.兩階段目標檢測算法首先生成候選區域,隨后對這些區域進行分類和邊界框回歸,從而實現對目標的準確識別與定位.這類目標檢測方法往往檢測精度較高,但計算成本大,實時性差,主要代表算法有:Fast R-CNN[3]、Faster R-CNN[4]、CascadeR-CNN[5].而單階段目標檢測算法例如YOLO(YouOnlyLookOnce)系 列[和 SSD?7] (Single ShotMultiBoxDetector)則直接在圖像上預測自標類別和位置,與兩階段算法相比顯著提高了推理速度.但當同類小目標密集出現時,預測的邊界框受到非極大值抑制NMS8的負面影響,導致大量正確預測的邊界框被過濾,從而引發漏檢問題.
隨著Transformer模型在自然語言處理領域的流行,許多學者開始探索其在目標檢測領域中的應用.Carion等9提出首個端到端檢測模型DE-TR,通過摒棄先驗框和NMS后處理技術大大簡化了目標檢測模型,但DETR模型采用的Trans-former架構攜帶的大量參數,限制了其在處理復雜任務時的實時檢測性能.為解決DETR的實時性問題,Li等[1°]提出了Dino,使用新的預訓練策略,使得模型能夠通過自監督學習更快地收斂.
Zhu等[1]提出了DeformableDETR,通過引入局部注意力機制減少計算復雜度,從而提升模型的收斂速度.Zhao等[2]提出了RT-DETR,在模型中使用一種高效的混合編碼器,通過AIFI模塊(Atten-tion-basedIntrascaleFeatureInteraction)解耦尺度內相互作用和提升尺度間特征交互能力,顯著提高推理速度的同時保持推理精度.由于單層編碼器的使用大幅減少了計算量,使得RT-DETR在精度與速度上與同等規模的YOLO系列檢測模型具備顯著優勢,因此選用RT-DETR作為基礎模型.
當前,眾多學者在RT-DETR模型的基礎上提出了多種優化策略,以提升小目標檢測的精度.Jia等[13]為了減少超廣角圖像中背景帶來的冗余計算,提出了輕量架構的有效小物體檢測網絡ESD-Net,能夠保留小目標的詳細信息并減少不必要的計算.Wei等[14]針對高密度分布的小目標場景,提出在RT-DETR的頸部網絡中集成重校準注意力和可變形注意力機制,以增強多尺度特征融合能力并提高定位精度.Akyon等[15]將切片輔助超推理(SAHD方法論與RT-DETR模型相結合來增強對小尺度物體的檢測,為航拍圖像分析開辟了新途徑.張志豪等[16]提出可學習位置編碼器,通過動態位置編碼自適應調整目標特征的位置表示,降低了采樣過程中小目標的空間位置信息損失.向毅偉等[]提出了MSM-DETR 檢測器,在RT-DETR頸部網絡中引人DSSF特征融合結構,并結合維度感知選擇性整合(DASI)模塊以及尺度序列特征融合(SSFF)模塊豐富特征融合階段的小目標信息,提高檢測精度.沈燁等[18]提出將DySample上采樣算子與RT-DETR相結合,以此改善最近鄰插值法可能出現的細節丟失、鋸齒狀邊緣和圖像失真等問題.
盡管上述檢測算法在提升小目標檢測性能方面取得了一定進展,但仍未解決在特征提取階段小目標特征易丟失的難題.為此,本文旨在通過提取并增強圖像中細節區域所對應的高頻信息,以保持圖像的高分辨率.在RT-DETR 模型的基礎上,提出一種改進的小目標檢測模型FE-DETR,其主要改進包括如下幾個方面:
(1)通過離散小波變換分離并增強高頻信息,提出頻率增強Transformer,并引人通道縮減注意力,減少參數量;以頻率增強Transformer為基礎,提出金字塔結構的頻率增強Transformer主干,提高密集場景下的檢測性能,最大化降低提取過程中的小目標特征丟失.
(2)引入小目標專用的LR-FPN網絡,實現低層次特征信息的提取以及上下文細粒度的交互,幫助模型關注到小目標的關鍵區域和重要通道和空間特征,增強抗干擾能力.
(3)引人MPDIoU并借鑒NWD損失函數的思想進行改造,降低位置偏差的敏感性,提高檢測精度,
1 RT-DETR算法介紹
如圖1所示,RT-DETR是第一個實時端到端目標檢測器,采用CNN + Transformer的混合架構,由主干網絡、高效混合編碼器以及集成輔助預測頭的Transformer解碼器三部分組成.在特征提取階段,主干網絡采用輕量化的ResNetl8結構,以8、16和32的步長在三個不同的尺度上獲取特征,為后續編碼器提供多尺度語義信息輸人.隨后高效混合編碼器通過基于自我注意力機制的尺度內部特征交互模塊AIFI(Attention-IntegratedFeatureInteraction),專注于處理高級特征,在不影響性能的情況下顯著降低了計算負荷,提高了計算速度.此外,為增強不同尺度間特征的互補性,編碼器中還設計了跨尺度特征融合模塊(CCFM,Cross-ScaleFeatureFusionModule),將提取到的特征轉換為統一的圖像特征序列.該序列隨后通過IoU動態感知查詢選擇機制進行篩選,依據候選目標得分進行排序并保留Top-K項后提供給解碼器,解碼器通過內置的輔助預測頭進行多輪迭代優化,有效提升目標框的位置回歸精度和分類置信度,最終輸出目標類別及其對應的邊界框.
圖1 RT-DETR模型結構

2 FE-DETR算法介紹
面對包含重疊的多尺度小目標及復雜背景的航拍圖像,RT-DETR所采用的ResNet18主干網絡由于其基于卷積核的結構,難以捕捉細節與空間關系,限制了檢測精度的提升.針對以上難題,從優化主干特征提取過程、引入淺層信息以增強多尺度特征融合以及改進損失函數三方面入手,提出FE-DETR模型,具體結構如圖2所示.主干網絡采用金字塔結構的Transformer架構,以增強對多尺度目標的表征能力.為更有效地保留小目標特征,設計了頻率增強Transformer模塊,并在此基礎上引人通道縮減自注意力CRA(ChannelRe-ductionSelf-Attention),在保證模型精度的同時,顯著減少模型參數提高收斂速度.頸部網絡引入LR-FPN,將低層特征圖與高層特征圖進行跨層次融合,有效緩解高層特征圖空間分辨率下降的問題,增強高層特征對小目標的感知能力.在檢測頭部分,采用基于歸一化Wasserstein距離改進的NWD-MPDIoU損失函數,以緩解小目標檢測定位不穩定以及過度敏感的問題,從而提升整體性能.
圖2 FE-DETR模型結構

2.1 頻率增強Transformer主干
RT-DETR模型主干采用ResNetl8網絡,其下采樣過程包含大量卷積、池化操作,導致大量小目標相關特征信息丟失,阻礙了對小目標細微特征的準確捕捉.為解決這一問題,本文提出頻率增強Transformer主干,該主干借鑒完全由Transformer 組成的 PVT[19](Pyramid VisionTransformer),其漸進式收縮金字塔能大大減少特征圖的計算量,可以替代視覺任務中的CNN骨干網絡[20].如圖3所示,頻率增強Transform-er主干由四個階段組成,每個階段包含位置嵌入層和頻率增強Transformer模塊,頻率增強Transformer主干采用層次化的Transformer架構,通過層次化的Transformer架構逐級降低圖像的分辨率,設計類似金字塔式的多尺度特征結構,使網絡在多個尺度上擴展小目標的感知范圍.
圖3頻率增強Transformer主干結構

2.1.1二維離散小波分解
PVT在下采樣過程中易忽略反映對象細節信息的高頻分量,故隨著網絡層數的增加,占據像素較少的小目標特征丟失越發嚴重.為此在模型中引人二維離散小波分解 DWT[21] (Discrete WaveletTransform),DWT可將空間分辨率映射到空間頻率域,如圖4所示.
圖4 DWT原理示意圖

DWT可將給定圖像 F∈RH×W×D 分解為四個不同的小波子帶
,分解后的圖像高度、寬度為原圖像的一半,如式(1)所示:

式(1)中: XLL 在粗粒度級別反映對象的基本結構, XLH,XHL,XHH 分別表示水平細節、垂直細節和對角信息.
2.1.2 頻率增強Transformer
頻率增強Transformer模塊由頻率增強自我注意力機制和前饋神經網絡兩部分組成.頻率增強自我注意力如圖5所示,通過DWT分離出圖像的高頻信息并增強相關特征.該注意力模塊由三個分支組成,最左側分支捕獲空間依賴關系,中間分支高效提取通道表示,而最右側分支在值表示中突出了小目標邊界信息.由于DWT的使用導致了參數量的增加,為了不降低推算速度,引入通道縮減自注意力CRA[22]降低模型計算復雜度和內存占用.
圖5注意力改進對比圖

具體流程如下:首先將輸人特征圖進行線性變換以降低維度,接著使用離散小波變換進行下采樣,將得到的四個小波子帶在通道維度上拼接,并施加一個 3×3 卷積來提取局部上下文特征,得到下采樣特征圖 Xc ,如式(2)所示:
Xc=Conv3×3(DWT(Linear(x))
接著,特征圖 Xc 通過線性變換被映射為鍵Kw 和值 Vw ,同時,另一分支對子帶 XLH 、 XHL 、XHH 施加一個 3×1×1 卷積以調整通道和形狀,并引入高斯層次化邊界注意力[23]加強邊緣與輪廓信息,得到注意力圖 V? ,如式(3)所示:
V*=Bd(concat(XLH,XHL,XHH))
式(3)中: Bd 表示邊界注意力, XLH 、 XHL 、XHH 表示DWT分解出的三個高頻分量.
然后將值向量 Vw 與注意力圖 V? 相加,得到值向量 Vw* .接著將查詢向量Q、鍵向量 Kw 和更新后的值向量 VW* 送人CRA注意力中:CRA將鍵向量 Kw 、值向量 VW* 通過平均池化操作以降低維度;并將查詢向量Q和池化后的鍵向量 Kw 在通道維度上壓縮至一維,從而進一步降低計算成本,該過程如式(4)所示:

式(4)中: Ws 表示對輸入進行降維的線性投影矩陣, WV 表示線性變換的參數矩陣,AvgPool表示特征圖的平均池化操作.
最后,頻率增強Transformer由式(5)、(6)表示:
FETransformer(x)=
.oncat(Head0,…,Head0)Wo
Head=Attention(Q*,K*,V*)

式(5)、(6)中: head0 . headi ,…,head表示多頭注意力機制中的多個具有相同結構,但不同參數的注意力頭, Wo 表示輸出時進行線性變換的參數矩陣, dhead 表示注意力頭的維度.
與基于卷積神經網絡的主干相比,本文提出的主干通過多頭自注意力能有效捕捉小目標間的位置依賴關系;且通過離散小波變換能保留原始圖像高頻信息、邊緣細節,以供自我注意力學習.
2.2 頸部網絡改進
CCFM模塊通過融合相鄰尺度特征以增強模型對尺度變化的適應性,但是此類結構存在一定局限性,例如無法融合非相鄰層次的特征,限制了不同層次之間的信息共享[24].若直接融合這些特征,低層特征的細節可能會被高層特征的語義信息所掩蓋,導致信息損失;此外大量特征對齊與加權操作將額外增加計算開銷.值得注意的是,小目標主要存在于淺層特征圖中且多表現為局部信息,但在此類結構中并未得到充分挖掘與利用.為解決上述問題,引人LR-FPN[25],如圖6所示.
圖6 LR-FPN結構

該結構通過淺層信息提取模塊SPIEM(Shal-lowPosition Information Extraction Module)抽取S1特征圖中的低級視覺細節,并借助上下文交互模塊CIM(ContextInteraction Module)將其注人至其余高層特征圖中.S1特征圖中豐富的細節信息幫助網絡更精確地識別目標和背景,而高層特征中的語義信息則有助于從全局上理解目標的位置與類別,從而有效減少背景干擾.這一策略增強了模型對局部特征的感知能力,在遮擋、模糊等復雜背景下表現出更強的魯棒性.
如圖7所示,SPIEM模塊首先將輸入特征分別進行顯著性池化與位置信息池化操作,以捕獲不同類型的空間特征信息.隨后,將通過兩種池化策略獲得的特征圖進行逐元素加和,融合其互補性信息.最后,通過一個 1×1 卷積層對融合特征進行通道壓縮與特征整合,生成最終輸出特征 Fi* ,如式 (7)~(9) 所示:



式 (7)~(9) 中:
表示自適應權重, ? 表示哈達瑪積, AAP(?) 表示自適應平均池化層,AMP(?) 表示自適應最大池化層, Conv1×1 表示卷積核大小為 1×1 的卷積神經網絡.
圖7 SPEIM結構

如圖8所示,CIM模塊接收來自SPIEM模塊的輸出特征 Fi* ,并將其與其他層的高層語義特征進行逐元素加和,以實現不同層級特征的融合.隨后,融合后的特征分別通過空間融合分支與通道融合分支進行處理,從而在保持局部細節信息的同時增強全局上下文建模能力.
圖8 CIM結構
圖9 GIOU失效示意

在通道融合分支中,首先采用全局平均池化與最大池化技術操作以提取輸人特征的全局統計信息和關鍵響應特征.接著,通過一個全連接網絡 F C1 來聯合學習其共享的通道注意力權重,如式(10)、(11)所示:
f1(x)=W1(GAP(x))+b1
f2(x)=W1(GMP(x))+b1
式(10)、(11)中: W1 表示全連接層 FC1 的權重矩陣, b1 表示偏置向量, GAP 表示全局平均池化操作, GMP 表示全局最大池化操作.
然后將結果經過Relu激活函數并拼接在一起,并通過全連接網絡 FC2 和Sigmoid激活函數得到相應權重W,隨后進行通道交互,如式 (12)~ (14)所示:
f3(x)=concat(relu(f1)+relu(f2))
W=sigmoid(W2(f3)+b2)
Ai(x)=Wx+x
式 (12)~(14) 中: W2 表示全連接網絡 FC2 的權重矩陣, b2 表示偏置向量, Ai 表示通道交互操作.
LR-FPN通過空間和通道雙分支交互機制,將低層次特征圖中關于小目標的有效特征信息融合至原始FPN的各個層級,在捕捉細節的同時,加強了對目標上下文的理解,增強了小目標區域的表示,從而提高對小目標的識別精度.
空間融合分支利用深度卷積在每個通道內與局部信息進行交互;同時利用空洞深度卷積來擴展感受野,如式(15)所示:

2.3 損失函數改進

式(15)中: ConvDW 表示深度卷積, ConvDW* 表示空洞深度卷積.
最終,將空間融合分支與通道融合分支的輸出進行逐元素相加,并通過一個 1×1 卷積整合融合特征,生成最終輸出 fi(x) ,如式(16)所示:
RT-DETR模型使用GIoU損失函數作為邊界框回歸損失函數.如圖9所示,當真實框(綠色)完全覆蓋預測框時,GIoU會退化成IoU,無法區分相對位置.對小目標檢測來說,將導致定位不精準,造成誤檢.
式(16)中: Conv1×1 表示 1×1 卷積.
為克服上述局限性,本文引入更高效的MP-DIoU損失函數.同時,為緩解MPDIoU在小目標檢測中對位置偏差的敏感性,引入一種基于歸一化Wasserstein距離的點回歸損失函數NWD(Nor-malizedWassersteinDistance),以降低像素級偏移對定位精度的影響.從而得到NWD-MPDIoU損失函數,用于提升小目標檢測的魯棒性與精度.
MPDIoU是一種基于最小點距離的邊界框回歸損失函數,綜合考慮了現有回歸損失函數所涵蓋的多個因素,包括邊界框的形狀差異,重疊與非重疊區域,中心點距離以及寬高偏差.通過更全面地建模目標框之間的空間關系,MPDIoU有效提升了航拍密集小目標檢測任務中的邊界框回歸精度.計算過程如式 (17)~(20) 所示:
d12=(x1pr-x1gt)2+(y1pr-y1gt)2
d22=(x2pr-x2gt)2+(y2pr-y2gt)2


式 (17)~(20) 中:( x1pr , y1pr , x2pr , y2pr )、( ?x1gt , y1gt
表示預測框和真實框左上、右下坐標, d1 表示預測框和真實框左上角的歐式距離, δd2 表示預測框和真實框右下角的歐式距離, h 和 w 為輸人圖片的高度和寬度.
由于MPDIoU對尺度變化較敏感,故引入NWD來計算航拍圖像中小物體的預測框與真實框之間的相似度.NWD使用二維高斯分布計算預測框與真實框之間的相似度,并由式(21)得到歸一化Wasserstein距離:
W22(Na,Nb)=

式(21)中: Na 和 Nb 分別是由邊界框A(cxa,cya,wa,ha) 和邊界框 B(cxb,cyb ,wb , hb )建模得到的高斯分布.
最終,將Wasserstein距離與MPDIoU相結合,構建出損失函數,如式(22)、(23)所示:

Loss=α?LMPDIoU+(1-α)?NWD(Na,Nb)
式(22)、(23)中: W22(Na,Nb) )表示高斯分布二階Wasserstein 距離,參數 α 可以根據航空圖像中小物體的數量靈活調整,以達到最佳性能.
3實驗結果及分析
3.1 VisDrone2019數據集
本次實驗采用VisDrone2019-DET數據集[26],該數據集由天津大學機器學習和數據挖掘實驗室AISKYEYE團隊收集,包含10209張圖像,由無人機在不同環境以及光照下拍攝捕獲,適用于小目標檢測.該數據集中包含6471張訓練集,3190張測試集,548張驗證集,囊括自行車、行人、汽車等10個類別.
3.2訓練環境及參數
本次實驗在Linux系統下運行,所用環境為Pytorch2.1.2、Cudal1.8,所用硬件配置為NVIDIA GeForceRTX 3090 GPU,內存為32GB.輸人的圖像分辨率為 640×640 .模型超參數設置如表1所示.
表1實驗參數設置

3.3 評價指標
為準確評估模型在航拍圖像上的檢測性能,本文采用精確率(Precision)、召回率(Recall)、平均精度均值(mAP,meanAveragePrecision)、模型參數量(Params)、浮點運算量(FLOPs)以及FPS幀率作為評價指標.mAP最常見的有 mAP@0.5 和$\operatorname* { m A P } \ @ [ 0 . 5 \mathrm { - } 0 . 9 5 ] , \operatorname* { m A P } ( \varpi 0 . 5 \$ 指IoU設置為0.5時的所有類別平均檢測精度; mAP@[0.5-0.95] 表示IoU閾值從0.5到0.95,步長為0.05的所有類別平均檢測精度.計算公式如式 (24)~(26) 所示:



式 (24)~(26) 中:精確率 P 表示真正的正例占預測為正例樣本的比值,召回率 R 表示預測正確的正例占總實際正例樣本的比值.平均精度均值(mAP)表示以橫坐標為召回率,縱坐標為準確率,由兩者構成的 P-R 曲線與坐標軸圍成的面積, Ψc 表示某一類別, N 表示數據集中類別的總數量.
3.4 消融實驗
為驗證本文所提各種模塊對模型的實際改進效果,在VisDrone2019數據集上設計了消融實驗:以RT-DETR模型為基準,逐個將改進方法添加到基準模型中以及逐步增加改進方法.其中TS代表未添加CRA注意力的頻率增強Transformer主干,T代表添加CRA注意力的頻率增強Transformer主干,L代表LR-FPN,NM代表NWDMPD損失函數.實驗結果見表2所示.
表2消融實驗結果

表2中實驗 2~5 代表不同改進策略對基準模型的影響.實驗2中將骨干網絡替換為未添加CRA注意力的頻率增強Transformer主干,精確率提高 2.0% ,召回率提高 2.4% , mAP@0.5 提高2.8% ,參數量降低 24.1% ,FLOPs提高 68.4% 表明在主干中利用DWT分離并增強高頻信息這一策略是有效的,顯著減少了小尺度目標的特征丟失,增強了不同目標的特征辨別能力.實驗3在主干中引入CRA注意力機制,精確率提高 1.2% ,召回率提高 1.8% , mAP@0.5 提高 2.2% ,參數量降低 23.1% ,FLOPs降低 20% .與實驗2相比mAP@0.5 降低 0.6% ,但FLOPs降低 52.9% .FPS達到了80.2,表明在主干網絡中嵌入CRA注意力能有效平衡DWT帶來的計算量增加的問題.實驗4引入了LR-FPN,精確率提高 0.7% ,召回率提高 3.1% , mAP@0.5 提高 1.4% ,參數量降低6.8% ,FLOPs降低 8.2% ,表明LR-FPN 能增強模型對小目標所在區域的關注度,減少漏檢誤檢.實驗5采用NWD-MPDIoU損失函數,召回率提高 1.3% , mAP@0.5 和 mAP@[0.5-0.95] 也分別提高了 1.0% 和 0.9% ,證實了這種IoU公式減少了復雜背景下小目標被誤檢的概率.
表2中實驗 6~7 為不同改進策略的組合對基準模型的影響.實驗6中, mAP@0.5 提高 4.5% .mAP@[0.5-0.95] 提高 3.9% ,同時參數量降低28.1% ,計算量降低 12.2% ,表明FE-Transformer主干和LR-FPN相互成就,FE-Transformer主干促進模型對小目標的檢測精度提升,LR-FPN減少模型對小目標的誤檢,表明在淺層中加入位置信息提取機制和修改FPN以增強小目標特征融合的有效性.實驗7表明在納入所有優化策略后,FE-DETR模型實現了顯著改進, mAP@0.5 和mAP$\textcircled { \omega } [ 0 . 5 \textcircled { lt; } , 9 5 ]$ 分別增加了 5.2% 和 4.1% ,同時參數計數減少了 28.1% .雖然FPS 略低于原始RT-DETR算法,但改進后的模型在精度和參數效率方面都有了實質性的提高,滿足了實時空中檢測的要求.以上實驗結果表明,每項改進均在不同程度上提升了FE-DETR 模型的性能.
為進一步評估本文算法在檢測性能方面的提升效果,將其與基準模型進行對比分析.圖10列出了本文算法與基準模型在VisDrone2019測試集上每個類別的 mAP@0.5 值.對比結果顯示,10個類別均表現出不同程度的性能提升.其中提升最顯著的是公交車,精度提高了 12.3% ;其次為自行車、三輪車、卡車和摩托車,精度分別提高了 9.1% 、8.6%.7.9% 和 6.3% ,其余類別的精度提升也均超過 4% .通過對數據集中的圖像分析可知,相較于其他目標類別,公交車、自行車、三輪車、卡車和摩托車在圖像中通常具有較大的尺寸和較低的分布密度,因此其特征更易被提取與識別;相比之下,其余類別占據較小像素區域,目標特征較為模糊,識別難度較大.盡管如此,所有類別的檢測精度均有所提升,表明FE-DETR模型在提升小目標檢測能力方面具有顯著效果.
圖10改進前后不同目標精度對比

3.5 主干對比
為驗證主干的有效性,以RT-DETR模型為基準,選取2種基于神經網絡的骨干ResNet18、HG-Net和2種基于Transformer的骨干SwinTrans-former、PVT進行對比實驗,結果如表3所示.其中本文提出主干的 mAP@0.5 為 47.8% ,低于表現最好的HGNet網絡 0.5% ,但參數量僅為HG-Net的 46.4% ,且參數量低于評估的其他三種模型.綜上,本文提出的主干網絡參數量為 15.3M .FLOPs為45.1G,在所有候選模型中計算資源需求最低,凸顯其作為輕量級高效架構的實用性,使得FE-Transformer主干特別適用于部署在計算資源有限的設備中,能夠有效滿足無人機航拍場景下小目標檢測的實際需求.
表3主干消融實驗結果

3.6 損失函數對比
為驗證NWD-MPDIoU損失函數的有效性,以RT-DETR-R18為基準模型,將NWD-MPDIoU和其他幾種主流損失函數進行對比實驗,如表4所示.分析表中數據可以得知,當使用改進的NWD-MPDIoU作為損失函數時,模型表現出更好的性能,超過了MPDIoU和其他IoU指標.使用改進的 MPDIoU導致 mAP@0.5 比原始GIoU模型提高 1.0% ,證明了改進的有效性.
此外,本文設置了不同的 α 參數進行對比實驗.由表4可知,當
時,NWD-MPDIoU損失函數對模型性能的提升最為顯著.
表4損失函數消融實驗結果

3.7 模型對比
為驗證改進模型的優越性,本文選取了部分當前主流目標檢測方法和一些小目標專用檢測模型進行對比實驗,在相同的環境配置和超參數設置下,不設置預訓練權重,具體實驗結果如表5所示.
表5不同算法實驗性能對比

從表5所示的對比實驗結果可知,FE-DETR增強了對復雜背景中小物體的檢測,同時保持了較低的計算成本和參數計數.與YOLO系列和一系列基于RT-DETR改進的小目標檢測模型相比,FE-DETR在處理小尺度物體和多尺度復雜性方面表現出卓越的性能.
在輕量化方面,FE-DETR模型大小為 14.3M 比檢測效果較好的 YOLOv9m 小6M,小于DV-DE-TR(19.5M)和EMRT-DETR(24.8M),在減少存儲需求的同時保持了較高的模型精度,展現了良好的平衡性.在精度方面,FE-DETR模型的 mAP@0.5 和 mAP@[0.5-0.95] 分別達到 51.1% 和 32.2% 相比其他模型表現突出.在mAP $\textcircled { \omega } 0 . 5$ 方面,FE-DETR模型的表現分別優于 YOLOv8m 、YOLOv9m ! YOLOv10m 、YOLOvl1m、DV-DETR、EMRT-DETR、Drone-DETR、FNI-DETR 模型 8% 、6.9% 二 ,7.3%.7.1%.2.9%.2.3%.1.9%.2.4%. 這些結果強調了FE-DETR架構優化和設計的有效性,有助于提高其檢測精度.在速度方面,FE-DE-TR模型的檢測速度達到69FPS,能夠滿足實時檢測需求,雖然略低于 YOLOv9m 和 ΥOLOv10m (均超過100 FPS),但相比Drone-DETR(30 FPS)有明顯提升,兼顧了速度與精度的需求.綜上所述,本文所提出的模型在保持適中模型規模與較高檢測精度的同時,實現了較快的檢測速度,展現出優異的綜合性能,具有較強的密集小目標檢測應用潛力.
3.8 泛化實驗
為驗證改進算法的泛用性與適用性,在DOTA和AITOD數據集上進行對比實驗,結果如表6所示,其中R-18代表RT-DETR-R18模型.
表6 泛化實驗

從表6可以得知,本文算法在DOTA和AITOD數據集上的 P,R,mAP 等各項指標均取得了提升.在DOTA數據集上, P,R,mAP@0.5 和mAP@[0, 5-0, 95] 的提升幅度分別為 2.1% !1.5%.3.5% 和 2.6% .在 AITOD 數據集上,P、R,mAP(?0.5 和 mAP@[0,5-0,95] 分別提高了2.3%.3.2%.1.6% 和 1.9% .經過泛化實驗驗證,提出算法在不同數據集上均取得了不同的性能提升,展示了較強的泛用性和適應性,充分體現了FE-DETR在多種場景下小目標檢測的優越性.
3.9 可視化分析
為驗證模型改動的有效性,選取不同場景,使用Grad-CAM(Gradient-weighted Class Activa-tionMap)生成類激活熱力圖,該技術以熱力圖形式直觀展示網絡關注的特征區域,圖中顏色顯示越深,表明網絡對這些區域的關注度越高.圖11(a)為昏暗密集場景,本文算法不僅能夠準確檢測出右下角的摩托車目標,還對道路上密集分布的人群展現出更優的檢測性能;圖中方框標注為重疊的行人,本文算法能夠有效區分并準確識別該類重疊目標.圖11(b)為明亮密集場景,可以觀察到,本文算法精度更高,不僅正確檢測到目標更微小的行人和車輛,還檢測到處于人群中的遮陽三輪車;從圖中標注的方框可見,本文算法對車輛目標具有更高的關注度,且檢測結果覆蓋整車輪廓,而非局限于車輛的局部區域.圖11(c)展示了目標與背景高度相似的場景,在該場景下,改進前的模型將路邊燈光誤判為夜間開燈行駛的車輛,而本文算法能夠有效避免此類誤檢,未將背景燈光誤識為車輛目標.圖11(d)為存在明顯遮擋的場景,可以觀察到,本文算法對應的檢測效果熱力圖中,被明顯遮擋的目標仍然顯示高亮.上述四類典型場景下的檢測熱力圖結果充分驗證了本文所提出改進方法的有效性與魯棒性.
圖11熱力圖效果對比

為進一步展示改進效果,給出以上四種場景下的檢測圖對比圖,如圖12所示.圖12(a)為昏暗密集場景,如圖中帶箭頭的綠色方框所示,改進前的模型將遮陽三輪車識別為三輪車,將面包車識別為小轎車,而本文算法都正確識別,展示了強大的容錯率.圖12(c)為目標與背景高度相似場景,本文算法并未誤判,且正確識別到了行駛中的面包車(圖中紅色方框).圖 12(d)為遮擋場景,在此場景下可以觀察到出本文算法對于大部分面積藏匿于樹葉背后的車輛展現了強大的識別能力.
綜合以上情況,改進模型展現出了更強大的微小目標識別能力.不僅能準確捕捉復雜背景下的密集目標,也提高了遮擋、目標與背景相似情況下的正確識別率,證明了本文提出的模型具有很強的魯棒性.
圖12 檢測效果對比圖

為更直觀評估所提出算法FE-DETR在不同復雜場景下的檢測效果,本文選取不同算法進行分析對比,并展示其在多類典型場景中的檢測效果.如圖13所示,圖像場景按行區分,從上到下依次表示昏暗密集場景、明亮密集場景、背景相似場景、遮擋場景以及模糊場景.觀察以下不同算法檢測效果對比圖,本文算法在各類復雜場景中均表現出更高的目標識別準確率,且相同目標的置信度分數更高.值得注意的是,在背景相似、遮擋以及模糊場景下的小目標檢測任務展現出了更強的魯棒性與容錯能力.相比其他算法,FE-DETR能有效避免誤檢與漏檢問題,進一步驗證了其在復雜環境中小目標檢測任務中的優越性.
圖13 不同算法檢測效果對比

4結論
針對航拍視角下小目標難以檢測、漏檢誤檢嚴重等問題,在RT-DETR算法基礎上展開小目標檢測算法研究.首先提出頻率增強Transformer主干,加強高頻特征信息,解決了殘差網絡多次下采樣造成的小自標信息丟失問題;其次引入小自標專用的LR-FPN融合多尺度特征,實現低層次局部特征信息的提取,加強對小目標上下文的理解,從而增強扛背景干擾能力;最后引人NWD改進MPDIoU,降低位置偏差敏感性,提高樣本回歸精度.實驗結果表明:所提算法較基準模型,在Vis-Drone2019數據集上的精確率、召回率、mAP @ 0.5?mAP@[0.5-0.95] 指標分別提高了 3.1% 、4.9%.5.2% 和 4.1% ,參數量減少5.6M,檢測速度降低了 6.1f/s ,雖然略微犧牲了檢測速度,但整體性能得到顯著提升.改進后的算法在DOTA和AITOD數據集上的 mAP@0. 5 值也分別提升了3.5% 和 1.6% ,表明模型在多種小目標檢測場景中具有良好的適應性.
參考文獻
[1]Cao Z,KooistraL,WangW,etal.Real-timeobjectdetection based on UAV remote sensing:A systematic literaturereview[J].Drones,2023,7(10):620.
[2]Zou Z,ChenK,Shi Z,etal.Object detection in 2Oyears:A survey[J].Proceedings of theIEEE,2023,111(3):257-276.
[3]Girshick R.FastR-CNN[C]//2015 IEEEInternational Conference on ComputerVision (ICCV).Santiago,Chile: IEEE,2015:1 440-1 448.
[4]Ren SQ,HeK,GirshickR,etal.Faster R-CNN:Towards real-time object detection with region proposal networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1 149.
[5]Cai Z,Vasconcelos N. CascadeR-CNN:Delving into high qualityobject detection[C]//Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition (CVPR).Salt LakeCity,UT,USA:IEEE,2018:6154-6162.
[6] Redmon J,Divvala S,Girshick R,et al. You only look once Unified,real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).LasVegas,NV,USA:IEEE,2016:779-788.
[7] Liu W,Anguelow D,Erhan D,et al. SSD:Singleshot multibox detector[C]//Computer Vision-ECCV2016:14th European Conference.Cham,Switzerland: Springer International Publishing,2016:21-37.
[8] Xu H,Tang S,Wang J,et al. Rock fracture identification algorithm based on the confidence score and non-maximum suppression [J].Bulletin of Engineering Geology and the Environment,2024,83(6):213.
[9] Carion N,Massa F,Synnaeve G,et al. End-to-End object detection with transformers[C] //European Conference on Computer Vision. Cham,Switzerland:Springer International Publishing,202o:213-229.
[10] Li F,Zhang H,Xu H,et al. Mask dino:Towards a unified transformer-based framework for object detection and segmentation[C] // 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Vancouver,BC,Canada:IEEE,2023:3 041-3 050.
[11] Zhu X,Su W,Lu L,et al.Deformable DETR:Deformable transformers for end-to-end object detection [DB/OL]. https://arxiv.0rg/abs/2010.04159,2020-10-08.
[12] Zhao Y,Lv W,Xu S,et al. Detrs beat yolos on real-time object detection[C]//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Seattle,WA,USA:IEEE,2024:16 965-16 974.
[13]Jia S,Kong Y,Shang X. Drone-DETR:Efficient small object detection for remote sensing image using enhanced RT-DETR model [J].Sensors,2024,24(17):5 496.
[14] Wei X,Yin L,Zhang L,et al. DV-DETR:Improved UAV aerial small target detection algorithm based on RT-DETR[J].Sensors,2024,24(22):7 376.
[15]Akyon F C,Altinuc S O,Temizel A. Slicing aided hyper inference and fine-tuning for small object detection[C] // 2022 IEEE International Conference on Image Processing (ICIP).Bordeaux,France:IEEE,2022:966-970.
[16]張志豪,杜麗霞,郝紫微,等.多核上下文特征引導下的無 人機航拍圖像可信檢測算法[J/OL].北京航空航天大學 學報,1-15[2025-06-03].https://doi.org/10.13700/j.bh. 1001-5965. 2024.0548.
[17]向毅偉,蔣瑜,王琪凱,等.多尺度特征優化的實時 Transformer在無人機航拍中的研究[J].計算機工程與 應用,2025,61(9):221-229.
[18]沈燁,王泉,吳昊.FSSD-DETR自動駕駛場景實時 目標檢測算法[J].電子測量技術,2024,47(14):88-95.
[19]WangW,Xie E,Li X,et al.Pyramid vision transformer:A versatile backbone for dense prediction without convolutions[C]// 2021 IEEE/CVF International Conference on Computer Vision (ICCV).Montreal,QC,Canada:IEEE,2021:568-578.
[20]李翔,張濤,張哲,等.Transformer在計算機視覺領 域的研究綜述[J].計算機工程與應用,2023,59(1):1-14.
[21]FinderSE,Amoyal R,TreisterE,etal.Wavelet convolutions for large receptive fields[C] //European Conference on Computer Vision.Cham,Switzerland:Springer Nature Switzerland,2024:363-380.
[22] Kang B,Moon S,Cho Y,et al. MetaSeg:Meta formerbased global contexts-aware network for efficient semantic segmentation[C] //2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). Waikoloa,HI,USA:IEEE,2024:434-443.
[23]Polansky M,Herrmann C,Hur J,et al. Boundary attention: Learning to find faint boundaries at any resolution[DB/ OL].https://arxiv.org/html/2401. 00935vl,2024-01-01.
[24]江旺玉,王樂,姚葉鵬,等.多尺度特征聚合擴散和邊緣 信息增強的小目標檢測算法[J].計算機工程與應用, 2025,61(7):105-116.
[25]Li H, Zhang R,Pan Y,et al. LR-FPN:Enhancing remote sensing object detection with location refined feature pyramid network[C]//2o24 International Joint Conference on Neural Networks (IJCNN). Yokohama,Japan:IEEE,2024:1-8.
[26]Du D,Zhu P,WenL,et al.VisDrone-DET2o19:The vision meets drone object detection in image challenge results[C]//2o19 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW).Seoul,Korea (South):1EEE,2019:213-226.
[27]HeK,Zhang X,Ren S,et al.Deep residual learning for image recognition[C] //2o16 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas,NV,USA:IEEE,2016:770-778.
[28]Liu Z,LinY,CaoY,etal.Swin transformer:Hierarchical vision transformer using shifted windows[C]//2o21 IEEE/ CVF International Conference on Computer Vision (ICCV). Montreal,QC,Canada:IEEE,2021:10 012-10 022.
[29]Varghese R,Sambath M.Yolov8:A novel object detectionalgorithm with enhanced performance and robustness[C]//2o24 International Conference on Advances in Data Engineering and Intelligent Computing Systems (ADICS).Chennai,India:IEEE,2024:1-6.
[30] Wang C Y,Yeh I H,Mark Liao H Y . YOLOv9:Learning what you want to learn using programmable gradient information[C]//European Conference on Computer Vision. Cham,Switzerland:Springer Nature Switzerland,2O24:1-21
[31]WangA,Chen H,Liu L,etal.YOLOvlO:Real-time endto-end object detection[DB/OL].https://arxiv.org/html/2405.14458v1,2024-05-23.
[32]Khanam R,Hussain M.YOLOvl1:An overview ofthe key architectural enhancements [DB/OL]. https:// www.arxiv.org/abs/2410.17725,2024-05-23.
[33]姜貿翔,司占軍,王曉喆.改進RT-DETR的無人機圖像目 標檢測算法[J].計算機工程與應用,2025,61(1):98-108.
[34]Han Z,JiaD,ZhangL,et al. FNI-DETR:Real-time DETRwith farand near feature interaction for small object detection [J].Engineering Research Express,2025,7 (1):015 204.
【責任編輯:蔣亞儒】