





摘 要:針對遙感圖像中背景復雜、目標小而密集,導致現有目標檢測算法對小目標檢測效果不佳,容易出現誤檢和漏檢的問題,在YOLOv8n模型的基礎上引入HA注意力機制,提出了YOLOv8n-HA模型改善上述問題。具體地,文章在YOLOv8n每個檢測分支的瓶頸端嵌入HA注意力模塊。實驗結果表明,YOLOv8n-HA模型在DOTAv1.5和Fiar1M子數據集上的mAP@0.5和mAP@0.5:0.95分別達到了0.797和0.597,相較于YOLOv8n模型分別提升了0.013和0.028。
關鍵詞:目標檢測;YOLOv8n;HA混合注意力機制;遙感圖像;小目標數據;深度學習
中圖分類號:TP751.1 文獻標識碼:A 文章編號:2095-1302(2025)08-00-06
0 引 言
遙感圖像目標檢測是一項融合遙感技術與計算機視覺的檢測技術,旨在定位和識別遙感圖像中的特定目標,直觀地觀察和分析被檢測目標的大小、分布及類別信息,其應用領域十分廣泛。根據2023年《中國地理信息產業發展報告》,截至2022年底,我國在軌工作的民用遙感衛星數量達到了
294顆,其中商業遙感衛星189顆,占比超過60%。隨著科學技術的不斷進步,未來將有更多遙感衛星用于地球觀測任務。面對如此龐大的數據資源,如何快速、有效地從遙感圖像中提取關鍵信息,成為遙感領域目標檢測發展中亟待解決的問題。
2014年,文獻[1]首次將卷積神經網絡(Convolutional Neural Networks, CNN)應用于目標檢測領域。在遙感圖像目標檢測中,這種新型方法相較于傳統方法(如DPM[2])展現出更卓越的性能。CNN能夠實現端到端的學習和自動化特征提取,減少了對手工設計特征的依賴,不僅能處理大規模數據,還能保持較高的準確性。以R-CNN(Region-based Convolutional Neural Network)[3]為代表的雙階段算法和以SSD(Single Shot Multibox Detector)[4]、YOLO(You Only Look Once)[5]為代表的單階段算法,是目前深度學習領域的主要目標檢測算法。然而,現階段的目標檢測算法在遙感圖像中仍存在不足,主要由于遙感圖像背景高度復雜、目標尺度變化劇烈,且存在大量小而密集的目標,容易導致誤檢和漏檢。針對上述問題,本文以YOLOv8模型為基礎,引入HA注意力機制,以提升模型對小目標和密集目標的檢測性能。本文的優勢如下:
(1)提出了YOLOv8n-HA模型,通過將HA(Hybrid Attention)注意力機制與YOLOv8n結合,使模型能夠更好地聚焦于圖像中的關鍵信息,從而提升其對小目標和密集目標的表征能力。
(2)本文提出的模型在遙感圖像數據集上的mAP@0.5和mAP@0.5:0.95指標分別達到了0.797和0.597,相較于YOLOv8n模型分別提升了0.013和0.028。
1 基于HA注意力機制的YOLOv8n模型
1.1 模型結構
YOLOv8n模型由三部分組成,分別為骨干神經網絡Backbone、瓶頸層Neck和檢測頭Head。
Backbone層作為模型的主干網絡,負責從輸入圖像中提取特征。隨著卷積層數的增加,它能夠提取特征金字塔網絡(Feature Pyramid Networks, FPN)[6]中不同感受野的特征圖,從而將圖像轉化為具有豐富語義信息的特征。
Neck層作為中間層,主要負責融合來自Backbone層的特征,整體結構結合了FPN和路徑聚合網絡[7](Path Aggregation Network, PANet)。FPN主要將上層特征(小尺寸、空間感較弱但語義信息豐富)融合到淺層網絡特征(空間感較強但語義信息較少)中;而PANet則旨在將淺層的高精度位置信息有效傳遞至深層特征中。
Head層與先前YOLO模型的耦合結構(Coupled Head)不同,YOLOv8n的檢測頭采用了與YOLOx[8]相同的解耦合結構(Decoupled Head),將分類和檢測任務分離。這種解耦設計不僅提高了模型的收斂速度,還能有效避免過擬合現象的發生。此外,YOLOv8n采用無錨點(Anchor-Free)機制,無需設置每層的錨點數量、尺度、長寬比等超參數,只需對不同尺度特征圖的目標中心點及寬高進行回歸,從而顯著減少了計算量。
本文提出的基于HA注意力機制的YOLOv8n模型整體結構如圖1所示。在Neck端嵌入HA模塊,該模塊中的HA注意力機制是一種混合注意力機制,結合了通道注意力機制和自注意力機制。其中,通道注意力機制用于識別更為重要的通道,而自注意力機制則專注于圖像的內部信息,通過有效整合全局像素信息來提升模型的檢測能力。
1.2 損失函數
YOLOv8n的邊界框回歸損失函數采用CIoU(Complete Intersection over Union)。CIoU損失函數是在IoU[9]損失函數的基礎上改進而來,不僅考慮了預測框與真實框中心點之間的距離,還引入了長寬比,從而幫助模型提升對被檢測目標的定位準確性。
相比于傳統的IoU損失函數,CIoU會考慮邊界框中心的偏移和長寬比的變化,這使得模型在學習預測邊界框時能夠更加精確。
1.3 HA注意力模塊
注意力機制(Attention Mechanism)通過模擬人類的感知機制,對圖像重要的區域賦予更高的關注度,從而有效提升模型的效率和精度。本文參考了文獻[10]提出的結合混合注意力的變換器設計,提出了HA注意力模塊,該模塊結構如圖3所示。
HA模塊采用并聯方式結合通道注意力模塊 CAB(Channel Attention Block)和基于窗口的多頭自注意力模塊W-MSA(Window-based Multi-Head Self-Attention)。通過全局殘差連接,將淺層特征和深層特征進行融合。
首先接收來自前一層的淺層特征信息X,接著對X進行Layer Norm歸一化處理,然后利用CAB模塊和W-MSA模塊對被歸一化的特征信息進行注意力提取,并與原始輸入的特征信息X進行逐元素相加融合。
通道注意力模塊CAB包括兩部分,一部分由兩個標準卷積層和激活函數GELU(Gaussian Error Linear Unit)構成,另一部分則由通道注意力模塊CA(Channel Attention)構成。
基于窗口的多頭自注意力模塊(W-MSA)將輸入特征劃分為多個局部窗口,并在每個窗口內計算自注意力,從而捕捉局部特征信息。
2 實驗結果與分析
2.1 實驗環境與參數設置
本文實驗基于Pytorch框架完成,使用GTX1650(4G) GPU,實驗設置epochs為100代,批量大小為4,初始學習率為0.01,衰減率為0.937,使用SGD優化器,IOU閾值設置為0.5。
2.2 數據集的選擇和處理
本文從DOTAv1.5和Fair1M數據集中選取了763張遙感圖像,涵蓋14個類別,具體分布如圖4所示。從圖5中的樣本數量分布來看,小型車輛占比最高,其次是船只、大型車輛、港口和飛機;而其他類別(如足球場、籃球場等)的樣本數量較少。可以看出,該數據集中小目標樣本的占比最高。隨后,通過圖像切割方法生成了5 987張分辨率為
1 024×1 024的圖片,并按7∶2∶1的比例劃分為訓練集、驗證集和測試集,其中訓練集包含4 192張圖片,驗證集包含1 197張圖片,測試集包含598張圖片。樣本數量分布如圖5所示。
2.3 實驗評價指標
本實驗選擇精確率(Precision)、召回率(Recall)、mAP@0.5和mAP@0.5:0.95作為評估指標。其中,Precision表示預測為正的樣本中正確的樣本數,Recall表示實際為正的樣本中正確預測的樣本數。以Recall為x軸,Precision為y軸,繪制出P-R曲線。平均精度(AP)在P-R曲線的基礎上,進一步考慮了預測邊界框與真實邊界框之間的交并比(IoU)。平均精度AP的計算如下:
2.4 YOLOv8n-HA模型實驗分析
2.4.1 模型實驗對比
為了驗證改進模型的檢測性能,將改進模型YOLOv8n-HA與YOLOv8n在數據集上進行訓練測試,各樣本的P-R曲線如圖6所示。
平均精度均值對比如圖7所示,可以看出,YOLOv8n-HA整體優于YOLOv8n。
實驗結果見表1,對比結果見表2。從表1可以看出,在Small vehicle樣本上,YOLOv8n-HA的mAP@0.5和mAP@0.5:0.95達到了0.678和0.409,相較于YOLOv8n的0.667和0.394,分別提升了0.011和0.015;單從指標上看,提升最大的是Roundabouts,YOLOv8n-HA的mAP@0.5和mAP@0.5:0.95達到了0.902和0.820,相較于YOLOv8n的0.773和0.682,分別提升了0.129和0.138。由表2可以看出,YOLOv8n-HA的mAP@0.5和mAP@0.5:0.95達到了最高的0.797和0.597,相較于YOLOv8n的0.784和0.569,分別提升了0.013和0.028。
2.4.2 檢測效果可視化
YOLOv8n模型在訓練時對許多小目標存在漏檢現象,而添加了HA注意力機制的改進模型YOLOv8n-HA則表現較好。這一點在兩個模型訓練階段的混淆矩陣中也有所體現,在面對同一個小目標樣本Container crane時,YOLOv8n模型在訓練時把大部分Container crane樣本視作了背景圖,比例高達0.93,而YOLOv8n-HA有所改善,把Container crane樣本視作背景圖的比例為0.67,提升約0.28,對比如圖8所示。
3 結 語
本文在YOLOv8n模型的基礎上引入了HA注意力機制,并在DOTAv1.5和Fair1M數據集的子集上進行了實驗。從實驗結果上來看,在拍攝高度升高和檢測目標體積較小的情況下,YOLOv8n模型在小目標檢測上存在漏檢問題,而YOLOv8n-HA模型則顯著改善了這一問題。實驗結果表明,YOLOv8n-HA模型在數據集上的mAP@0.5和mAP@0.5:0.95分別達到了0.797和0.597,較YOLOv8n模型分別提升了0.013和0.028。
參考文獻
[1] KIM Y. Convolutional neural networks for sentence classification [J]. Conference on empirical methods in natural language processing, 2014.
[2] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-based models [J]. IEEE transactions on pattern analysis and machine intelligence, 2010, 32(9): 1627-1645.
[3] GIRSHICK R. Fast R-CNN [C]// 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015: 1440-1448.
[4] WEI L, DRAGOMIR A, DUMITRU E, et al. SSD: single shot multibox detector [J]. arXiv: 1512.02325 [cs.CV].
[5] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once:" unified, real-time object detection [C]// Computer Vision amp; Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016: 779-788.
[6] LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017: 936-944.
[7] LIU S, QI L, QIN HF, et al. Path aggregation network for instance segmentation [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City, UT, USA: IEEE, 2018: 8759-8768.
[8] GE Z, LIU S, WANG F, et al. YOLOx: Exceeding YOLO Series in 2021 [J]. arXiv: 2107.08430 [cs.CV].
[9] YU J H, JIANG Y N, WANG Z Y, et al. UnitBox: an advanced object detection network [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA, 2016:516-524.
[10] CHEN X Y, WANG X T, ZHANG W L, et al. HAT: hybrid attention transformer for image restoration [J]. arXiv: 2309.05239 [cs.CV].