基于深度學習的遙感圖像目標檢測模型研究

2025-04-20 00:00:00喻文豪陳鴻坤

物聯網技術 2025年8期

摘要：針對遙感圖像中背景復雜、目標小而密集，導致現有目標檢測算法對小目標檢測效果不佳，容易出現誤檢和漏檢的問題，在YOLOv8n模型的基礎上引入HA注意力機制，提出了YOLOv8n-HA模型改善上述問題。具體地，文章在YOLOv8n每個檢測分支的瓶頸端嵌入HA注意力模塊。實驗結果表明，YOLOv8n-HA模型在DOTAv1.5和Fiar1M子數據集上的mAP@0.5和mAP@0.5：0.95分別達到了0.797和0.597，相較于YOLOv8n模型分別提升了0.013和0.028。

關鍵詞：目標檢測；YOLOv8n；HA混合注意力機制；遙感圖像；小目標數據；深度學習

中圖分類號：TP751.1 文獻標識碼：A 文章編號：2095-1302（2025）08-00-06

0 引言

遙感圖像目標檢測是一項融合遙感技術與計算機視覺的檢測技術，旨在定位和識別遙感圖像中的特定目標，直觀地觀察和分析被檢測目標的大小、分布及類別信息，其應用領域十分廣泛。根據2023年《中國地理信息產業發展報告》，截至2022年底，我國在軌工作的民用遙感衛星數量達到了

294顆，其中商業遙感衛星189顆，占比超過60%。隨著科學技術的不斷進步，未來將有更多遙感衛星用于地球觀測任務。面對如此龐大的數據資源，如何快速、有效地從遙感圖像中提取關鍵信息，成為遙感領域目標檢測發展中亟待解決的問題。

2014年，文獻[1]首次將卷積神經網絡（Convolutional Neural Networks， CNN）應用于目標檢測領域。在遙感圖像目標檢測中，這種新型方法相較于傳統方法（如DPM[2]）展現出更卓越的性能。CNN能夠實現端到端的學習和自動化特征提取，減少了對手工設計特征的依賴，不僅能處理大規模數據，還能保持較高的準確性。以R-CNN（Region-based Convolutional Neural Network）[3]為代表的雙階段算法和以SSD（Single Shot Multibox Detector）[4]、YOLO（You Only Look Once）[5]為代表的單階段算法，是目前深度學習領域的主要目標檢測算法。然而，現階段的目標檢測算法在遙感圖像中仍存在不足，主要由于遙感圖像背景高度復雜、目標尺度變化劇烈，且存在大量小而密集的目標，容易導致誤檢和漏檢。針對上述問題，本文以YOLOv8模型為基礎，引入HA注意力機制，以提升模型對小目標和密集目標的檢測性能。本文的優勢如下：

（1）提出了YOLOv8n-HA模型，通過將HA（Hybrid Attention）注意力機制與YOLOv8n結合，使模型能夠更好地聚焦于圖像中的關鍵信息，從而提升其對小目標和密集目標的表征能力。

（2）本文提出的模型在遙感圖像數據集上的mAP@0.5和mAP@0.5：0.95指標分別達到了0.797和0.597，相較于YOLOv8n模型分別提升了0.013和0.028。

1 基于HA注意力機制的YOLOv8n模型

1.1 模型結構

YOLOv8n模型由三部分組成，分別為骨干神經網絡Backbone、瓶頸層Neck和檢測頭Head。

Backbone層作為模型的主干網絡，負責從輸入圖像中提取特征。隨著卷積層數的增加，它能夠提取特征金字塔網絡（Feature Pyramid Networks， FPN）[6]中不同感受野的特征圖，從而將圖像轉化為具有豐富語義信息的特征。

Neck層作為中間層，主要負責融合來自Backbone層的特征，整體結構結合了FPN和路徑聚合網絡[7]（Path Aggregation Network， PANet）。FPN主要將上層特征（小尺寸、空間感較弱但語義信息豐富）融合到淺層網絡特征（空間感較強但語義信息較少）中；而PANet則旨在將淺層的高精度位置信息有效傳遞至深層特征中。

Head層與先前YOLO模型的耦合結構（Coupled Head）不同，YOLOv8n的檢測頭采用了與YOLOx[8]相同的解耦合結構（Decoupled Head），將分類和檢測任務分離。這種解耦設計不僅提高了模型的收斂速度，還能有效避免過擬合現象的發生。此外，YOLOv8n采用無錨點（Anchor-Free）機制，無需設置每層的錨點數量、尺度、長寬比等超參數，只需對不同尺度特征圖的目標中心點及寬高進行回歸，從而顯著減少了計算量。

本文提出的基于HA注意力機制的YOLOv8n模型整體結構如圖1所示。在Neck端嵌入HA模塊，該模塊中的HA注意力機制是一種混合注意力機制，結合了通道注意力機制和自注意力機制。其中，通道注意力機制用于識別更為重要的通道，而自注意力機制則專注于圖像的內部信息，通過有效整合全局像素信息來提升模型的檢測能力。

1.2 損失函數

YOLOv8n的邊界框回歸損失函數采用CIoU（Complete Intersection over Union）。CIoU損失函數是在IoU[9]損失函數的基礎上改進而來，不僅考慮了預測框與真實框中心點之間的距離，還引入了長寬比，從而幫助模型提升對被檢測目標的定位準確性。

相比于傳統的IoU損失函數，CIoU會考慮邊界框中心的偏移和長寬比的變化，這使得模型在學習預測邊界框時能夠更加精確。

1.3 HA注意力模塊

注意力機制（Attention Mechanism）通過模擬人類的感知機制，對圖像重要的區域賦予更高的關注度，從而有效提升模型的效率和精度。本文參考了文獻[10]提出的結合混合注意力的變換器設計，提出了HA注意力模塊，該模塊結構如圖3所示。

HA模塊采用并聯方式結合通道注意力模塊 CAB（Channel Attention Block）和基于窗口的多頭自注意力模塊W-MSA（Window-based Multi-Head Self-Attention）。通過全局殘差連接，將淺層特征和深層特征進行融合。

首先接收來自前一層的淺層特征信息X，接著對X進行Layer Norm歸一化處理，然后利用CAB模塊和W-MSA模塊對被歸一化的特征信息進行注意力提取，并與原始輸入的特征信息X進行逐元素相加融合。

通道注意力模塊CAB包括兩部分，一部分由兩個標準卷積層和激活函數GELU（Gaussian Error Linear Unit）構成，另一部分則由通道注意力模塊CA（Channel Attention）構成。

基于窗口的多頭自注意力模塊（W-MSA）將輸入特征劃分為多個局部窗口，并在每個窗口內計算自注意力，從而捕捉局部特征信息。

2 實驗結果與分析

2.1 實驗環境與參數設置

本文實驗基于Pytorch框架完成，使用GTX1650（4G） GPU，實驗設置epochs為100代，批量大小為4，初始學習率為0.01，衰減率為0.937，使用SGD優化器，IOU閾值設置為0.5。

2.2 數據集的選擇和處理

本文從DOTAv1.5和Fair1M數據集中選取了763張遙感圖像，涵蓋14個類別，具體分布如圖4所示。從圖5中的樣本數量分布來看，小型車輛占比最高，其次是船只、大型車輛、港口和飛機；而其他類別（如足球場、籃球場等）的樣本數量較少。可以看出，該數據集中小目標樣本的占比最高。隨后，通過圖像切割方法生成了5 987張分辨率為

1 024×1 024的圖片，并按7∶2∶1的比例劃分為訓練集、驗證集和測試集，其中訓練集包含4 192張圖片，驗證集包含1 197張圖片，測試集包含598張圖片。樣本數量分布如圖5所示。

2.3 實驗評價指標

本實驗選擇精確率（Precision）、召回率（Recall）、mAP@0.5和mAP@0.5：0.95作為評估指標。其中，Precision表示預測為正的樣本中正確的樣本數，Recall表示實際為正的樣本中正確預測的樣本數。以Recall為x軸，Precision為y軸，繪制出P-R曲線。平均精度（AP）在P-R曲線的基礎上，進一步考慮了預測邊界框與真實邊界框之間的交并比（IoU）。平均精度AP的計算如下：

2.4 YOLOv8n-HA模型實驗分析

2.4.1 模型實驗對比

為了驗證改進模型的檢測性能，將改進模型YOLOv8n-HA與YOLOv8n在數據集上進行訓練測試，各樣本的P-R曲線如圖6所示。

平均精度均值對比如圖7所示，可以看出，YOLOv8n-HA整體優于YOLOv8n。

實驗結果見表1，對比結果見表2。從表1可以看出，在Small vehicle樣本上，YOLOv8n-HA的mAP@0.5和mAP@0.5：0.95達到了0.678和0.409，相較于YOLOv8n的0.667和0.394，分別提升了0.011和0.015；單從指標上看，提升最大的是Roundabouts，YOLOv8n-HA的mAP@0.5和mAP@0.5：0.95達到了0.902和0.820，相較于YOLOv8n的0.773和0.682，分別提升了0.129和0.138。由表2可以看出，YOLOv8n-HA的mAP@0.5和mAP@0.5：0.95達到了最高的0.797和0.597，相較于YOLOv8n的0.784和0.569，分別提升了0.013和0.028。

2.4.2 檢測效果可視化

YOLOv8n模型在訓練時對許多小目標存在漏檢現象，而添加了HA注意力機制的改進模型YOLOv8n-HA則表現較好。這一點在兩個模型訓練階段的混淆矩陣中也有所體現，在面對同一個小目標樣本Container crane時，YOLOv8n模型在訓練時把大部分Container crane樣本視作了背景圖，比例高達0.93，而YOLOv8n-HA有所改善，把Container crane樣本視作背景圖的比例為0.67，提升約0.28，對比如圖8所示。

3 結語

本文在YOLOv8n模型的基礎上引入了HA注意力機制，并在DOTAv1.5和Fair1M數據集的子集上進行了實驗。從實驗結果上來看，在拍攝高度升高和檢測目標體積較小的情況下，YOLOv8n模型在小目標檢測上存在漏檢問題，而YOLOv8n-HA模型則顯著改善了這一問題。實驗結果表明，YOLOv8n-HA模型在數據集上的mAP@0.5和mAP@0.5：0.95分別達到了0.797和0.597，較YOLOv8n模型分別提升了0.013和0.028。

參考文獻

[1] KIM Y. Convolutional neural networks for sentence classification [J]. Conference on empirical methods in natural language processing， 2014.

[2] FELZENSZWALB P F， GIRSHICK R B， MCALLESTER D， et al. Object detection with discriminatively trained part-based models [J]. IEEE transactions on pattern analysis and machine intelligence， 2010， 32（9）： 1627-1645.

[3] GIRSHICK R. Fast R-CNN [C]// 2015 IEEE International Conference on Computer Vision （ICCV）. Santiago， Chile： IEEE， 2015： 1440-1448.

[4] WEI L， DRAGOMIR A， DUMITRU E， et al. SSD： single shot multibox detector [J]. arXiv： 1512.02325 [cs.CV].

[5] REDMON J， DIVVALA S， GIRSHICK R， et al. You only look once：" unified， real-time object detection [C]// Computer Vision amp; Pattern Recognition （CVPR）. Las Vegas， NV， USA： IEEE， 2016： 779-788.

[6] LIN T Y， DOLLAR P， GIRSHICK R， et al. Feature pyramid networks for object detection [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Honolulu， HI， USA： IEEE， 2017： 936-944.

[7] LIU S， QI L， QIN HF， et al. Path aggregation network for instance segmentation [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Salt Lake City， UT， USA： IEEE， 2018： 8759-8768.

[8] GE Z， LIU S， WANG F， et al. YOLOx： Exceeding YOLO Series in 2021 [J]. arXiv： 2107.08430 [cs.CV].

[9] YU J H， JIANG Y N， WANG Z Y， et al. UnitBox： an advanced object detection network [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Las Vegas， NV， USA， 2016：516-524.

[10] CHEN X Y， WANG X T， ZHANG W L， et al. HAT： hybrid attention transformer for image restoration [J]. arXiv： 2309.05239 [cs.CV].