劉 輝,張琳玉*,王復港,何如瑾
(1.重慶郵電大學 通信與信息工程學院,重慶 400065;2.重慶郵電大學 數智化通信新技術應用研究中心,重慶 400065)
近年來,在深度學習的推動下,計算機視覺技術發展迅猛,目標檢測作為該領域的重要研究方向之一,主要對圖像中的物體類別進行標識,有著廣泛的應用場景。相較于傳統的檢測方法,現階段作為目標檢測研究主要技術的卷積神經網絡(Convolutional Neural Network,CNN)在特征提取能力和時間效率方面都具有顯著的優勢。目前,目標檢測算法主要包括雙階段和單階段兩類。前者以區域卷積神經網絡(Region-Convolutional Neural Network,R-CNN)[1-2]為代表,后者主要包括YOLO(You Only Look Once)[3-5]和SSD(Single Shot multibox Detector)[6-7]。其中,YOLO 系列網絡憑借檢測速度快的特點,在遙感圖像檢測、移動設備的物體檢測等實時檢測上應用廣泛。
現階段目標檢測算法在性能上已有很大突破,但隨著CNN 層數不斷加深,下采樣(subsampling)過程導致圖像分辨率不斷降低,算法結構也逐漸復雜化。大多數算法在增強特征表達能力的同時容易忽略恢復圖像時所必需的細節信息,造成小目標的漏檢和誤檢。針對上述問題,文獻[8]的方法通過早期添加殘差注意力機制實現小目標的聚集,使目標框定位到網絡感興趣的位置,抑制掉無用的信息,進而減少背景信息中不必要的淺層信息,提升網絡的特征提取能力。文獻[9]中利用混合空洞卷積(Hybird Dilated Convolution,HDC)增大淺層網絡的感受野,使淺層網絡與深層網絡能夠更好地融合,從而提高小目標檢測的精度。文獻[10]中提出了一種多級特征融合方法來引入上下文信息,并利用拼接模塊以及元素和模塊實例化該特征融合方法,提升了小目標的識別精度。文獻[11]中采用多尺度注意力融合不同層次的小目標特征信息,提升了小目標檢測的準確率。文獻[12]中利用Inception-SE(Inception-Squeeze-and-Excitation)結 構使網絡更快收斂,多尺度特征圖充分融合,從而提升目標檢測性能。文獻[13]中提出了一種基于注意力的特征交互方法,通過在常規特征提取器的每個模塊后添加一個小網絡來獲得注意力權重,減少沖突信息。文獻[14]中提出用不同尺寸大小的卷積核生成多尺度的特征圖,融合成具有全局信息的特征表達方式。這些算法在一定程度上提升了檢測的精度,但是沒有考慮到下采樣率過大導致小目標丟失、計算量過大等問題,無法有效地進一步提升檢測效果。
針對上述問題,本文基于YOLOv5[15-16]提出了一種基于注意力機制和上下文信息的目標檢測算法(YOLOv5 object detection algorithms based on Attention mechanism and Context information,AC-YOLO)。首先考慮到下采樣率過大會導致小目標部分信息丟失,在主干網絡中引入多尺度空洞卷積模塊,在保持分辨率的同時增大感受野以充分利用上下文信息;然后在通道注意力模塊中引入位置注意力,捕獲跨通道信息,加強感興趣區域的表示,從而優化網絡結構,提升小目標的檢測性能;最后為了調整待檢測目標的位置信息,減少目標漏檢現象,引入 Soft-NMS(Soft-Non-Maximum Suppression)算法,避免非極大值抑制(Non-Maximum Suppression,NMS)算法直接刪除兩個重疊過多的候選框中較低置信度的候選框,對錨框置信度進行優化以提高模型的準確率,在一般場景以及遙感圖像檢測中均具有較好的檢測效果。
YOLO 系列算法是一種單階段檢測方法,在訓練過程中,采用S×S個網格劃分輸入圖像,然后用目標所在的網格輸出預測邊框來完成預測。YOLOv5 結構如圖1 所示,其中:na為預測框的數量,nc為預測類的數量。相較于其他YOLO模型,YOLOv5 采用跨階段局部網絡(Cross Stage Partial Network,CSPNet)[17]對特征提取部分和Neck 部分進行了優化,該結構由復合卷積(Conv+BN+SiLU,CBS)模塊和殘差模塊組成,有利于降低計算量、增強網絡的學習能力。此外,YOLOv5 在骨干網絡前添加了Focus 模塊對圖片進行切片操作,能夠在不造成特征信息丟失的情況下進行下采樣,并增大其感受野。CBS 模塊由標準卷積層、批歸一化(Batch Normalization,BN)層和SiLU(Sigmoid weighted Liner Unit)激活函數層組成,該模塊可增強模型學習能力,獲得豐富的特征表達??臻g金字塔池化(Spatial Pyramid Pooling,SPP)[18]模塊使用不同的窗口,可以同時獲得不同尺寸的特征,再進行特征聚合,對于提升不同尺寸目標的檢測精度起到了積極作用。而Neck 網絡部分借鑒了特征金字塔網絡(Feature Pyramid Network,FPNet)[19]和路徑 聚合網 絡(Path Aggregation Network,PANet)[20]結構,通過自底向上和自頂向下的路徑提高信息傳遞效率,可以提取到多樣化的特征,增強了模型的魯棒性;并且得益于強大的GPU 處理能力,采用PyTorch 深度學習框架,訓練時間大幅減少,在現階段的目標檢測任務中取得了不錯的進展。

圖1 YOLOv5網絡結構Fig.1 YOLOv5 network structure
增大感受野是提升目標檢測性能的一種重要方法。在空洞卷積出現以前,大多數研究都是通過堆疊卷積層和引入池化操作來增大感受野,但增加卷積層會導致計算量增大,訓練速度降低;池化操作會降低圖像分辨率,造成檢測過程中小目標信息的丟失。而空洞卷積可以在不改變圖像尺寸大小的前提下獲得較大感受野,并能有效提取圖像細節信息。文獻[21]和文獻[22]分別提出了空洞殘差模塊以及空洞空間卷積池化金字塔,這兩種方法在特征融合時都采用了不同尺寸的空洞卷積,使網絡更好地從周圍像素中提取上下文信息,增大其感受野。與上述研究不同,本文采用多種不同空洞率的空洞卷積來捕獲多尺度特征信息,從而減少小目標的信息丟失。
注意力機制能夠根據目標的重要程度進行權重分配,突出某些重要特征,從而有效捕獲上下文信息,在多個計算機視覺任務中都取得了不錯的效果。文獻[23]中設計了通道注意力用于獲取通道間關聯,進而有效地構建通道間的相互依賴關系,提升網絡檢測的性能。隨后,卷積注意力機制模塊(Convolutional Block Attention Module,CBAM)[24]進一步推廣了這一思想,將空間和通道兩個維度的特征以級聯的方式進行連接來生成注意力圖,并將它與輸入特征圖相乘進一步修正獲取到的特征。Hou 等[25]提出了一種新的坐標注意力(Coordinate Attention,CA),考慮了位置信息對通道信息的影響,捕獲位置感知的信息,有助于模型更精準地定位?;谏鲜鲅芯浚疚姆椒ㄒ胱⒁饬C制旨在解決下采樣過程中小目標漏檢造成的定位不精準問題。
非極大值抑制(NMS)在大多目標檢測算法中起著至關重要的作用。在目標檢測過程中,NMS 不斷地將得分最高的邊框與其他邊框進行交并比(Intersection over Union,IoU)操作,然后刪除IoU 值超過給定閾值的邊框,此過程會抑制掉大量得分低且重疊度較高的錨框,造成漏檢從而影響檢測精度。針對此問題,后續研究產生了一系列算法的改進,如文獻[26]中提出了一種針對位置優先級進行NMS 過濾的方法,該方法在網絡中添加了IoU 預測分支,但容易增大計算量;文獻[27]中提出的加權法和方差加權求平均法用來優化邊框的位置和置信度得分。與上述方法不同,本文主要對過濾候選框的方法進行改進,利用Soft-NMS[28]替換原始的將分數設置為0 的NMS 算法,減少漏檢情況。
YOLOv5 算法使用CSPDarknet53 提取特征圖信息,在下采樣時,采用了3×3 大小的卷積核,并將步長設置為2,雖然在一定程度上增大了感受野,但是多次下采樣容易導致檢測過程中小尺寸目標丟失,檢測結果不佳。因此,為保留更多的細節信息,本文將在原有模型上減少一次下采樣操作,以獲得原圖1/16 的特征圖分辨率,然后利用本文設計的空洞可分離卷積模塊(如圖2(c)所示)進行密集特征提取。

圖2 不同類型模塊的比較Fig.2 Comparison of different types of modules
眾多研究表明,由于采樣稀疏,單一空洞率的空洞卷積得到的鄰近像素間缺乏依賴關系,會產生網格效應[29],即空洞率過大時,有些像素特征無法被提取到,造成關鍵信息的丟失;同時模塊中使用多個空洞卷積會增加計算量,不利于小目標檢測。為避免上述問題,本文堆疊多個不同空洞率的空洞卷積以獲取多尺度的特征信息。此外,為輕量化網絡結構,本文參考了一維非瓶頸卷積模塊(如圖2(a)所示)和Inception 基礎模塊(如圖2(b)所示)。圖2(a)采用了一個單分支結構,利用分解卷積代替標準卷積,能減少模型參數量、加快訓練,且該結構能夠解決“大而密”的特征提取問題,有利于平衡檢測精度和速度;圖2(b)采用多分支結構,使用不同卷積核進行卷積運算,提升了模型對不同尺度目標的自適應性。受以上思想的啟發,本文構建了多尺度空洞可分離卷積模塊(Multiscale Dilated Separable Convolutional Module,MDSCM),在該模塊中,采用多分支結構,在每個分支上均采用不同空洞率的空洞卷積,并且通過卷積分解實現高效計算。
MDSCM 采用不同空洞率的空洞卷積來擴大感受野,提高網絡對于多尺度特征的提取,有效地獲取豐富的上下文特征信息。MDSCM 主要由5 個分支組成,其中一條支路為殘差結構,只進行1×1 卷積;另外4 條支路由4 個空洞率分別為1、2、3、5 的3×1 和1×3 可分離卷積串聯3×1 和1×3 空洞可分離卷積層組成,首先分別通過3×1 和1×3 可分離卷積獲取更高層的語義信息,隨后利用鋸齒狀的空洞率同時實現對大小目標的特征提取,用不同空洞率的空洞卷積來關注遠近距離信息,提高模型的自適應能力。然而,模塊內堆疊多個空洞卷積會增加參數量,因此,MDSCM 考慮了深度可分離卷積的優勢,并將其與空洞卷積優勢互補,使計算量大幅降低。如圖2(c)所示,圖2 中“DConv”為深度可分離卷積,rate 為空洞率。特別地,在使用拼接操作合并分支后,采用1×1 卷積層進行多個分支間的特征融合,加強信息間的溝通,并將通道數降低到設定的大小,增強特征表達能力。
與圖2(a)和圖2(b)中模塊相比,改進后的模塊通過堆疊不同空洞率的空洞可分離卷積來有效獲取特征圖的上下文信息,在增大感受野的同時降低計算量,加快了訓練的進程,增強了模型的特征表達能力,同時也提高了模塊的兼容性。
結合1.3 節所述,本文利用CA 模塊將位置信息嵌入通道注意力中,可捕獲方向感知和位置感知的信息,改善通道注意力中位置信息缺失的問題,幫助模型獲取更加精準定位的細節信息。同時充分考慮全局特征,在CA 模塊的基礎上引入了全局平均池化(Global Average Pooling,GAP)來獲取全局上下文信息,在不增加計算量的情況下有效減少背景中不必要的信息,加強感興趣區域的特征表達。
GCA(Global Coordinate Attention)是一種新型移動網絡注意力機制,它不僅僅能夠捕獲跨通道信息,還能沿兩個方向聚合特征信息,靈活且輕便,可以很容易地插入經典網絡中。GCA 結構如圖3 所示。首先,對于輸入特征圖分別沿X、Y兩個方向進行自適應平均池化,以提取兩個空間方向上的權重信息;隨后將垂直和水平兩個方向上的輸入特征聚合為兩個獨立的方向感知特征映射,其中一個方向用來捕獲遠程依賴關系,另一個用來實現對目標的精準定位,每個元素都能體現感興趣對象是否存在于相對應的行和列中;最后再將X、Y方向上互補的特征信息應用于輸入特征圖中,防止采樣過程中的信息丟失。這種結構雖然能幫助定位到感興趣的目標位置,但卻沒有很好地整合全局上下文信息。因此,本文引入一個全局平均池化來獲取全局信息,增強模型對信道間的敏感性,并使用上采樣(upsample)來匹配輸入圖像的分辨率;然后將X、Y方向上的特征信息與CA 分支的輸出相乘,產生被關注特征;最后,得到的特征圖再與原特征圖相加,減少細節信息的損失,從而幫助模型更好地識別目標。如圖3所示。在該模塊中,將X和Y兩個方向平均池化以及全局平均池化所提取的特征重新融合來增強特征,并使用線性整流函數(Rectified Linear Unit,ReLU)和BN 層增強網絡的非線性能力。

圖3 GCA結構Fig.3 Structure of GCA
傳統NMS 算法根據置信度的大小選擇最優的預測值,然而置信度高的邊框不一定是最適合的框。一些特殊場景下的數據集往往包含大量密集圖像,例如遙感圖像中由于視角的上升導致小目標間的距離變小,使得傳統的NMS 算法通過強制刪除一些重疊的有效檢測框,造成檢測過程中出現漏檢、誤檢現象。因此,本文在YOLOv5 目標檢測網絡中引入Soft-NMS 替代傳統的NMS 算法,有效提升了檢測精度。
傳統的NMS 刪除了重復框的同時,也會誤將候選框中不同類物體得分較低的框刪除,導致召回率降低。NMS 計算公式如式(1)所示:
其中:Si為NMS 的計算結果;Ti為每個檢測物體邊框的得分;iou(A,Bi)表示A與Bi的交并比。NMS 設置了一個閾值Nt來決定是否應該從置信度最高框A的鄰域中刪除或保留一些框:如果任意框Bi與置信度最高框A沒有出現重疊的目標,那么在較低的檢測閾值下不會造成漏檢現象;但如果兩框重疊度較高,交并比大于一定的閾值Nt,則會因徹底刪除Bi而造成目標的漏檢現象。與NMS 算法相比,Soft-NMS 逐步降低Bi得分而不是直接刪除,避免了由于刪除任意框而出現漏檢的情況,使性能得以提升,具體方法如式(2)所示:
函數(2)重新定義了邊框的得分,衰減了大于閾值Nt的檢測框分數,優化了NMS 算法。但考慮到線性的分數重置并不連續,當達到Nt的閾值時,邊框的得分會使檢測序列突變,顯著影響檢測效果。因此Soft-NMS 提出了高斯重置函數來解決檢測序列帶來的跳變問題,改進方式如式(3)所示:
其中:σ為超參數,D為保存經過Soft-NMS 抑制的建議框。
針對傳統的NMS 算法存在目標漏檢問題,本文采用含高斯重置函數的Soft-NMS 算法替換原YOLOv5 中的NMS 算法,對錨框置信度進行優化,避免因強制刪除邊框而造成的目標漏檢現象,可有效提高預測的精確度。
為降低小目標的漏檢率,提升檢測精度,本文構建了一種新型的基于注意力機制和上下文的目標檢測算法ACYOLO。如圖4 所示,上采樣系數設置為2,Concat 為拼接操作,用于將深層和淺層維度的特征融合。假定給定一張大小為640×640 的圖像,4 次下采樣通過復合卷積模塊實現,通過下采樣可以獲得大小為40×40、80×80、160×160 的三種特征圖用于檢測,隨后對底層40×40 的特征圖進行上采樣,分別得到80×80、160×160 的特征圖,并利用Concat 將它們與淺層網絡進行同等尺寸大小的特征圖融合,增強多層次的語義信息。由于簡單的下采樣可能會濾除重要信息,相較于下采樣系數為5 的原始YOLOv5 網絡,本文采用4 倍下采樣,但同時會降低網絡對大目標的特征提取能力,為此,本文在CSP1_3后采用一個MDSCM 替代下采樣。利用堆疊的空洞卷積在不改變圖片分辨率的情況下引入上下文特征信息,增大其感受野,增強其推理能力;并在MDSCM 中引入深度可分離卷積以降低參數量,提升檢測速度;為獲得足夠的細節特征信息,在堆疊模塊中引入了殘差連接,再由批歸一化和SiLU 激活函數作為整體輸出。為了進一步減少背景信息,選擇聚焦位置,產生具有分辨率性的特征表示,在主干網絡引入GCA,捕獲跨通道信息,從而更好地定位到感興趣的目標。最后,利用Soft-NMS 將兩個物體框中得分低的框削弱,解決物體的遮擋問題,提高召回率和模型的檢測精度。

圖4 AC-YOLO網絡結構Fig.4 AC-YOLO network structure
為驗證本文所提出的網絡模型的性能,引入2007 和2012 的PASCAL VOC 數據集[30]、DOTA 航拍圖像數據集[31]和DIOR 遙感數據集[32]進行分析。PASCAL VOC 標注的數據有20 類,包括人、鳥、飛機、自行車等,共有21 502 張圖像,其中測試集、訓練集的劃分比例為1∶4。DOTA 是由武漢大學國家重點實驗室和華中科技大學聯合構建的一組航拍圖像數據集,標注的數據有15 類,包括輪船、飛機、港口等,共有21 046 張圖像,187 452 個實例,其中測試集、訓練集的劃分比例為1∶3。DIOR 數據集是由西北工業大學提出的一種光學遙感圖像數據集,標注的數據有20 類,圖像多樣性豐富,主要為飛機、橋梁、煙囪、風力發電機、高爾夫球場等,共有23 463 張圖像,其中測試集、訓練集的劃分比例為1∶3。為了達到對比實驗的效果,提高模型的泛化能力,滿足對不同場景下多尺度目標的檢測要求,本文所選數據集中目標尺寸大小不一,變化程度也不同。
本文實驗環境的配置如表1 所示。

表1 實驗環境配置Tab.1 Experimental environment configuration
實驗采用平均精度(Average Precision,AP)、平均精度均值(mean AP,mAP)、幀率即每秒傳輸幀數(Frames Per Second,FPS)評判目標檢測的性能。
AP 由橫軸為召回率、縱軸為精準率所構成的P-R 曲線在一定范圍積分求得,計算公式如式(4)所示:
在目標檢測中通常會對多目標進行檢測,那么對多個類別求平均AP 值,就得到了mAP 值,如式(5)所示:
FPS 是評價網絡檢測目標時常用的速度指標,值越大則圖像越流暢。
在實驗過程中均保持相同的超參數,以確保實驗的公平比較。實驗仍采用640×640 分辨率大小的圖像作為輸入,使用與原YOLOv5 一樣的數據增強方法。在PASCAL VOC 2007 和2012 數據集上分別進行實驗,驗證所提模塊的有效性,結果如表2 所示。

表2 PASCAL VOC數據集上的消融實驗結果Tab.2 Ablation experimental results on PASCAL VOC dataset
1)MDSCM 的有效性。為了進一步加強多尺度特征信息的表達能力,本文在主干網絡YOLOv5 中加入了MDSCM,降低了下采樣率,保留了更多的空間細節信息。第一組實驗對比了原YOLOv5 和YOLOv5+MDSCM 的檢測效果,由表2 可知后者的mAP 提升了0.90 個百分點,說明增強特征圖的感受野可以有效提高多尺度上下文信息的提取能力。
2)GCA 模塊的有效性。為了進一步增強模型關注全局信息的能力,本文考慮了將CA 注意力模塊級聯一個全局平均池化模塊,增強網絡的特征學習能力。第二組實驗對比了原YOLOv5 和YOLOv5+GCA 的檢測效果,由表2 可知后者的mAP 提升了2.30 個百分點,這是因為增加注意力機制可以捕獲跨通道信息,獲取空間位置間的依賴關系,有助于模型精確地定位,并抑制無用的信息。相較于CA 模塊,GCA 模塊以獲得一個更大的感受野,最終精度達到了81.40%;同時由于沒有增加額外的計算量,FPS 保持不變。
3)Soft-NMS 算法的有效性。為了降低模型的漏檢率,第三組實驗對比了原YOLOv5 和YOLOv5+Soft-NMS,由表2 可知后者的mAP 提升了0.50 個百分點,檢測精度得到一定提升。這是由于傳統的NMS 刪除了重復框的同時,也會誤將不同類物體中得分較低的框刪除,造成漏檢現象。而Soft-NMS 算法減弱了相應邊框的置信度,在一定程度上降低了漏檢率,有效地提升了檢測精度。
為驗證本文提出的網絡結構在不同數據集上的優勢,從推理速度和檢測精度兩方面進行對比,結果如表3~6 所示。

表3 不同網絡在PASCAL VOC數據集上的性能比較Tab.3 Performance comparison of different networks on PASCAL VOC dataset
由表3 可知,在相同數據集下,本文的AC-YOLO 算法在目標檢測任務中的mAP 達到了82.80%,與Faster-RCNN、SSD、YOLOv3、Tiny-YOLOv3、YOLOv5 算法相比,分別提升了9.48、5.14、10.46、9.52、3.70 個百分點。相較于原YOLOv5算法,AC-YOLO 算法雖在檢測速度上有微小下降,但是檢測精度卻得到了較大提升,遠遠超過大多數檢測器,說明過大的下采樣率對小目標的檢測并不友好。
表4 進一步列出了部分網絡結構在PASCAL VOC 數據集上的檢測精度,結果表明本文AC-YOLO 算法在20 個類別上的檢測精度超過了對比算法,說明融合注意力機制和上下文信息更利于多尺度有效特征的提取,有效地提升了網絡對各個類別的檢測能力。圖5 展示了在PASCAL VOC 數據集上可視化的結果。

圖5 PASCAL VOC數據集上的可視化檢測效果對比Fig.5 Visual detection effect comparison on PASCAL VOC dataset

表4 PASCAL VOC數據集上不同網絡結構在各類別上的精度對比 單位:%Tab.4 Comparison of precisions under different network structures on each category of PASCAL VOC dataset unit:%
為了驗證改進算法在遙感圖像應用場景中的檢測效果,將AC-YOLO 算法在航拍圖像數據集DOTA 上進行實驗,結果如表5 所示。和其他一些優秀的算法框架相比,AC-YOLO算法在DOTA 數據集上的mAP 達到了71.74%,相較于YOLOv5 算法提升了1.49 個百分點,并在大多類別上的檢測精度都高于其他算法。特別在Storage-tank、Helicopter、Bridge 等類別上的檢測精度提升明顯,說明本文算法對排列密集的小尺寸物體具有更好的檢測效果。從圖6 的可視化檢測結果也可以看出,AC-YOLO 可以檢測出原YOLOv5 中漏檢的飛機、儲油罐等小尺寸目標,對于排列密集的目標的檢測精度 也高于YOLOv5;但 對Harbor、Ground-track-field、Tennis-court 等背景化的物體檢測效果不佳,可能是由于遙感檢測場景下目標與背景顏色相近且目標形狀單一而導致誤判,造成檢測精度較低。綜合來看,本文的目標檢測算法表現更優。

圖6 DOTA數據集上的可視化檢測效果對比Fig.6 Visual detection effect comparison on DOTA dataset

表5 DOTA數據集上不同網絡結構在各類別上的精度對比 單位:%Tab.5 Comparison of precisions under different network structures on each category of DOTA dataset unit:%

表6 DIOR數據集上不同網絡結構在各類別上的精度對比 單位:%Tab.6 Comparison of precisionsunder different network structures on each category of DIOR dataset unit:%
此外,在DIOR 光學遙感數據集中,AC-YOLO 改進算法的mAP 達到了77.11%,平均精度提升了2.48 個百分點,在Airplane、Vehicle、Bridge、Expressway-toll-station 等小物體的檢測精度上取得了不錯的效果??梢暬Y果如圖7 所示。AC-YOLO 在復雜環境背景下的檢測精度高于YOLOv5,尤其是在檢測Airplane 時,通過目標周圍環境的信息來增強目標特征,達到精準定位,從而使檢測精度高達93.10%,遠超YOLOv5,并在Vehicle 和Ship 上的檢測精度分別提升了4.50個百分點和6.70 個百分點,增強了小目標的語義信息,更好地檢測出圖中的小尺寸目標。以上實驗結果表明,同YOLOv5 相比,改進算法更適用于含有大量密集排列的小目標的遙感圖像檢測。

圖7 DIOR數據集上的可視化檢測效果對比Fig.7 Visual detection effect comparison on DIOR dataset
為有效結合上下文信息,獲取多尺度特征,本文提出了一種基于YOLOv5 的改進算法AC-YOLO。針對原網絡中下采樣率過大造成小目標信息丟失的問題,提出MDSCM 增大感受野,增強多尺度信息的提取,減少有效信息的丟失;針對數據集中目標尺寸變化劇烈的問題,引入GCA 模塊,有效捕獲方向感知和位置感知的全局特征信息,幫助模型更精準地定位,提升檢測精度;為解決目標檢測中密集物體相鄰框造成的誤檢問題,利用Soft-NMS 算法計算錨框的置信度,降低模型的漏檢率。實驗結果表明,優化后的YOLOv5 算法在PASCAL VOC 數據集上表現良好,尤其對于遙感圖像中的小目標、密集目標等具有更好的檢測效果,并在DOTA 和DIOR兩個遙感圖像數據集上驗證了本文模型的有效性和優越性。之后的工作中,將繼續優化檢測算法:一方面在保持精度的同時,降低模型的參數量以提升檢測速度;另一方面,繼續提升背景化特征信息的敏感度,達到較高的檢測精度。