改進YOLOv4的密集遙感目標檢測

2021-11-26 07:22:22謝俊章唐健峰侯奕辰曾慶喜

計算機工程與應用 2021年22期

謝俊章，彭輝，唐健峰，侯奕辰，曾慶喜

成都信息工程大學軟件工程學院，成都610225

遙感目標檢測是當前目標檢測中的一個前沿和熱點，它在車輛檢測、遠程目標跟蹤、無人駕駛、空中偵察、軍事、航海、打撈等方面有著重要的意義和應用[1]。遙感圖像受高度、光照強度、陰影等因素影響，以及遙感圖像中目標分布密集、尺度較小和背景復雜等特點，使得遙感目標檢測困難。因此提高遙感目標檢測效果十分重要，同時也是后續進行視頻識別和軌跡跟蹤等高級視覺任務的基礎。

傳統目標檢測主要采用機器學習中的方向梯度直方圖（Histogram of Oriented Gradient，HOG）[2]、AdaBoost[3]算法框架和支持向量機（Support Vector Machine，SVM）[4]等方法，它通過選取圖像候選區域，使用滑動窗口來框住檢測圖像的一部分，然后使用人工預設計的特征提取框完成特征提取，最后通過支持向量機、可變形組件模型（Deformable Part Model，DPM）[5]等方法進行分類檢測。由于傳統算法提取的特征信息大部分是淺層的，它表達的信息量少，魯棒性和泛化性較弱，并且檢測時間復雜度高。Razakarivony 等[6]基于DPM、HOG、SVM 和局部二值模式（Local Binary pattern，LBP）[7]等傳統算法相結合對幾類遙感目標進行檢測，其檢測效果精確度低，漏檢率高而且耗時長。因此需要更好的方法提高遙感目標的檢測效果。

2012年深度卷積神經網絡被提出，其通過監督學習方式，逐層、自動地學習目標從低級到高級的特征表示，在圖像分類領域獲得巨大成功，證明了深度學習的可行性。之后基于深度學習的經典目標檢測算法誕生。基于神經網絡的目標檢測算法主要分為以R-CNN（Region-Convolutional Neural Network）系列[8-10]為代表的雙階段目標檢測算法和以SSD（Single Shot multibox Detector）[11]、YOLO（You Only Look Once）系列[12-15]為代表的單階段目標檢測算法。雙階段檢測算法先通過區域生成網絡（Region Proposal Network，RPN）[16]產生大量候選區域，再將候選區域送入神經網絡預測其目標的位置信息和類別概率，其目標檢測的精確率較高，但檢測速率較慢。單階段目標檢測算法不使用區域生成網絡產生候選區域，直接在卷積神經網絡中提取特征來預測物體分類和位置信息，屬于端到端的目標檢測算法，其檢測速度較快但精確度不高。

卷積神經網絡已被應用于遙感目標檢測領域。Lofqvist等[17]使用R-FCN網絡和SSD網絡分別對遙感數據集中DATA進行檢測對比，二者對遙感目標的檢測精確率均高于傳統目標檢測，SSD 網絡檢測速度遠快于R-FCN網絡，更適用于實時檢測。雖然研究人員在遙感目標檢測任務中使用現有的R-CNN 等目標檢測算法，但將這些模型應用于遙感目標檢測時，由于光照、目標較小和復雜背景等因素，其檢測速度較慢，檢測效果也較差。YOLOv3 算法引入了特征金字塔網絡（Feature Pyramid Networks，FPN）[18-19]、殘差網絡（ResNet）[20]等結構，其在速度和精確度方面取得了良好的性能。YOLOv3 有三種不同尺度的檢測層，增強了多尺度目標的檢測能力。Ju等[21]基于YOLOv3用了四個檢測層來增強檢測小目標的性能，降低了對小目標的漏檢率。Liu等[22]在YOLOv3特征提取網絡中兩個“殘差單元”之間加入了兩CBL（Convolution-Batch Normalization-Leaky ReLU）操作來增強信息特征提取網絡的性能，并用于航拍汽車檢測中。Xu等[23]采用在YOLOv3特征提取網絡中引入密集連接網絡（DenseNet）取締部分殘差連接，并和殘差連接網絡共同組成特征提取網絡對遙感目標進行檢測，其檢測效果比原始的YOLOv3 算法在遙感目標的檢測準確率上有所提高。He等[24]基于TF-YOLO算法簡化了特征提取網絡以獲得更快的檢測速度，并采用多層級聯來增強特征提取的性能，實現了航空小目標檢測性能的提升。

YOLOv4[25]算法在YOLOv3算法的基礎上，用CSPDarknet-53 網絡結構進行特征提取，同時引入SPP 和PANet網絡結構對淺層和深層特征信息反復融合再提取來增強網絡的特征提取能力，再次提升了目標檢測精度。Bochkovskiy等[25]使用MSCOCO數據集[26]將YOLOv4與YOLOv3和Faster RCNN進行了對比，在大中小目標檢測中，YOLOv4算法的檢測精度都高于YOLOv3和Faster RCNN。但是對于目標較小、目標分布密集、背景復雜的遙感圖像的檢測效果依然不理想。

本文選擇YOLOv4算法作為基礎，針對YOLOv4算法在密集遙感目標檢測中特征提取和特征表達能力的不足提出算法改進。所提的改進算法對遙感數據集中的飛機、汽車、油桶、立交橋和操場等五個不同目標進行實驗檢測，其結果表明，與YOLOv4算法相比，所提的改進算法對此五個類別目標檢測精確率都有顯著的提高。

1 YOLOv4算法介紹

1.1 YOLOv4檢測原理

YOLOv4 算法是Bochkovskiy 等[25]在2020 年4 月提出。YOLOv4算法框架主要分為四部分：第一部分為輸入端，輸入尺寸為608×608的三通道的訓練圖片。第二部分為BackBone主干網絡，該主干網絡以Darknet-53網絡框架為模型，選擇Mish激活函數和采用CSPDarknet-53網絡結構進行特征提取。為了防止由池化層引起的特征信息丟失，CSPDarknet-53 網絡依然采用全卷積神經網絡（Full Convolutional Network，FCN）方法，用卷積操作取締池化和全連接操作來進行特征提取。第三部分為Neck 模塊，位于BackBone 和最后的輸出層之間。該模塊包括采用最大池化方法的空間池化結構（Spatial Pyramid Pooling，SPP）和實例分割框架下的路徑聚合網絡結構（Path Aggregation Network，PANet），將三個特征層中的淺層信息和深層信息進行反復特征融合再提取。第四部分對生成的三個特征圖進行預測和預測解碼。YOLOv4算法的網絡結構如圖1所示。

圖1 YOLOv4算法框架Fig.1 YOLOv4 algorithm framework

YOLOv4 算法中網絡結構的卷積核大小采用1×1或者3×3 兩種，為了提取更多的特征和語義信息，CSPDarknet-53 網絡中采用CSP-ResNet 殘差連接結構來增強梯度和提取信息。YOLOv4 沿用特征金字塔網絡的思想，對每張輸入圖像縮放至608×608的大小再進行五次下采樣，用最后的三個下采樣層作為目標檢測的三個特征層。深層特征包含全局語義信息，而淺層特征包含局部特征信息，為了促進信息的流動，縮短淺層與深層特征之間的信息路徑，YOLOv4引入PANet網絡結構對三個特征層反復融合再提取，最后生成三個分別為19×19、38×38、76×76 的目標檢測特征圖來分別檢測大目標、中目標和小目標。

然后將特征圖劃分為S×S個網格，每個網格負責預測中心落入該網格的目標，并計算三個預測框。每個框對應5＋C個值，C表示數據集中的類別總數，5代表預測邊界框的屬性信息，即中心點坐標(x,y)，框的寬高尺寸(w,h)和置信度。網格預測類別置信度得分計算如式（1）所示：

其中，若有目標中心落入該網格，則Pr(object)=1，否則Pr(object)=0。Pr(classi|object)為網格預測第i類目標的置信概率。IOU（Intersection Over Union）為預測邊界框與真實框的交并比。

最后，使用非極大值抑制（Non-Maximum Suppression，NMS）算法篩選出置信度得分較高的預測框，則為目標檢測框。

1.2 YOLOv4在遙感目標檢測中存在的問題

雖然YOLO 系列最新YOLOv4 檢測算法已經在檢測精度和檢測速度之間取得了比較好的平衡，且因實現簡單和檢測速度較快等優點，成為許多目標檢測首選算法。但仍然存在以下缺點：

（1）YOLOv4算法引入的CSPDarknet-53網絡，由于特征提取層卷積層數較多，在應用于密集分布的小目標時，特征提取信息丟失嚴重。

（2）引入YOLOv4 算法，PANet 網絡將深度特征圖和淺層特征圖拼接來融合不同級別的特征信息，但其使用了五次連續全卷積，易出現梯度消失，且特征提取信息的表達能力和泛化性不強。

2 改進YOLOv4算法

YOLOv4算法雖然在MSCOCO等常規數據集上表現良好，但它不適合直接用于遙感目標檢測。因此，根據遙感目標的特點，需將YOLOv4 算法進行如下的改進，提升在遙感目標的檢測效果。

（1）為了提高密集小目標的特征信息提取能力，設計出輕量級的特征提取網絡，減少了特征提取網絡的卷積層數。

（2）為了避免梯度消失，將淺層和深層特征信息更有效地融合再提取，在非特征提取網絡中，使用殘差鏈接取締連續卷積層操作。

（3）為了提升更多非線性特征在網絡訓練中的性能，增加網絡的表達能力和泛化性，在Swish 激活函數的基礎上加入自適應激活與否的平滑因子β，加強特征提取的性能。改進的YOLOv4網絡如圖2所示。

圖2 改進YOLOv4算法框架Fig.2 Improved YOLOv4 algorithm framework

2.1 先驗錨框設計

YOLOv4算法使用anchor box機制。在目標檢測中，合理的anchor 框大小能有效提升目標檢測的精度和速度。YOLOv4 原始設定的先驗錨框尺寸主要面向自然界中通用目標檢測，不能滿足遙感目標檢測的需要。因此本實驗對遙感數據目標大小重新進行聚類，設計合適的anchor 參數大小進行更快更精確的預測。在目標檢測中，聚類的目的是使先驗框（anchor box）與真實框（ground truth）的重合度IOU 值盡量大，因此距離的度量函數不使用歐式距離，而是采用IOU 作為衡量標準，度量函數如式（2）所示：

其中，box 為樣本標簽的目標框，centroid 為聚類中心。IOU越大，距離越小。

按照上述方法，為增強錨框與目標邊框重合度，提高檢測精度，使用K-means算法重新對數據集中目標的邊框大小進行聚類分析，不同聚類數目對應的平均交并比如圖3所示。考慮到計算效率和準確率之間的平衡，實驗選擇了9 組anchor，其值為（8，7），（11，12），（18，17），（27，54），（27，26），（44，33），（61，58），（109，103），（234，245），平均分配到3 個預測尺度的特征圖。這些anchor按照面積從小到大的順序分配給3種尺度的特征圖，尺度大的特征圖使用尺度小的anchor框來計算每個網格的3個預測框坐標和尺寸信息。

圖3 聚類數目與平均交并比關系圖Fig.3 Relationship between number of clusters and average intersection ratio

通過網絡學習到的預測框信息的偏移量可以計算出預測框的坐標和尺寸信息，如圖4 所示，而網絡最后輸出的預測框的坐標、尺寸信息可以由式（3）計算：

圖4 預測框的位置信息Fig.4 Location information of prediction box

其中，cx和cy表示每個網格的左上角坐標；pw和ph表示anchor映射到特征圖中的寬高值；tx、ty、tw、th是網絡需要學習的目標。

2.2 改進激活函數

本實驗中，遙感目標分布密集，背景復雜，為了提升網絡的特征提取能力，嘗試通過改進激活函數，在特征提取網絡中加入自適應激活與否的激活因子，增強對物體特征的加強和減弱，進而提升網絡的非線性特征提取能力和網絡的泛化性。在改進算法的CSPDarknet-53網絡中引入β-Swish自適應與否的激活函數取締Mish激活函數，而在PANet結構網絡中用Mish函數取締Leaky ReLU激活函數。

如圖5（c）所示，Leaky ReLU函數生硬而不平滑，導致梯度下降效果存在缺陷。如圖5（b）所示，Mish 函數在負值的時候并不是完全截斷，而是允許比較小的負梯度流入，從而保證信息流動，激活函數無邊界特點，避免了飽和，并且每一點平滑不生硬，因此梯度下降效果比Leaky ReLU 激活函數效果更好，特征信息得到更好的訓練和收斂。而β-Swish 函數是一種自適應激活與否的新型激活函數。通過β來控制是否激活神經元，即當β為0時，不激活。同時它也具備Mish激活函數的無邊界、避免飽和和平滑的特點，但是它根據自學習參數β的結果對特征值進行不同強度的激活，如圖5（a）所示，當平滑因子β在不同值時，其激活后的特征結果差別明顯。因此，采用自適應激活與否的激活函數可以將背景特征進行不激活，進而突顯出前景的特征，可以將微小不明顯的特征進行放大激活，使特征更顯著。設計一個計算β的自適應函數，其中β是一個自適應激活的平滑因子，當β趨近于無窮大時，Sβ就變為標準的MAX函數，而當β為0 時，Sβ就是一個算術平均的操作。其自適應設計函數空間包含了層、通道和像素。x首先在H和W維度上求均值，然后經過兩層1×1 卷積，最后由sigmoid激活函數得到一個（0，1）的值，用于控制是否激活，如式（4）所示，其他激活函數如式（5）所示。

圖5 三種激活函數的函數圖像Fig.5 Function graphs of three activation functions

2.3 修改YOLOv4網絡結構

在CSPDarknet-53 中，加深特征提取網絡的深度可以提取更多的語義信息，但過多的卷積操作會導致較小目標的特征信息減少甚至消失。而對于遙感數據集來說，各目標之間的尺寸相對偏小而且分布密集，因此檢測精度與特征大小難以平衡，導致密集分布中的小目標漏檢大量存在和檢測精度不高。針對上述問題，簡化特征提取層網絡來提取更多淺層特征信息，同時在非特征提取網絡中融合淺層和深層特征信息再提取，利用殘差網絡取締連續的卷積操作防止網絡退化和梯度消失，將深層語義信息再一次加深提取，同時將淺層信息融合其中，使目標的類別信息和位置信息并行提取，提高目標檢測精確度。

在該算法中，圖片的輸入尺寸采用608×608的三通道圖像，修改主干特征提取網絡CSPDarknet-53的結構，采用輕量級網絡結構層數作為特征提取網絡層數，將原YOLOv4 算法特征提取網絡中的5 層網絡中每層殘差卷積次數對應由（×1，×2，×8，×8，×4）變為（×1，×3，×4，×6，×3）。再沿用空間金字塔池化和實例分割框架下的路徑聚合網絡PANet，在空間池化金字塔的輸入層和輸出層用一次殘差連接取締3 次連續卷積操作，在PANet網絡中采用5次殘差連接運算取締5次的連續卷積操作，最后生成3個不同尺度的特征圖進行預測。其結構改進如圖2所示。

3 實驗結果與分析

3.1 數據預處理

本文使用摘選于DIOR數據集[27]的部分目標物體進行實驗。DIOR 數據集是一種大規模、公開可用的光學遙感數據集。由于DIOR 數據集數據規模較大和實驗設備的局限，本實驗選取了文獻[27]中檢測效果有待提升的飛機、汽車、操場、儲蓄罐和立交橋5個目標物體構成一個實驗數據集來驗證所提算法的有效性。該數據集總共有5 275 張遙感圖像。將數據集分為訓練集4 746張、驗證集473張、測試集530張。分別對3個子數據集中每個類別的目標數量進行統計，如表1所示。

表1 不同類別物體數量統計Table 1 Statistics of numbers of different categories

3.2 實驗條件和評價指標

本實驗使用的操作系統為Windows10，處理器型號為Intel Core i5-10400F，顯卡型號為NVIDIA GeForce RTX 2060 SUPPER，采用NVIDIA CUDA10.0 加速工具箱。在網絡訓練階段使用了余弦退火衰減算法作為學習率迭代算法，該算法使用線性上升，以模擬cos函數下降。實驗參數如表2所示。

表2 實驗參數設置Table 2 Setting experimental parameters

為了評價網絡的性能和證明目標檢測網絡的有效性，選取下列指標進行評價。

（1）查準率（Precision，P）和召回率（Recall，R）。查準率是指網絡檢測到的正樣本數量占檢測到的所有樣本數量的比率；召回率指網絡檢測到的正樣本數量占標記真實樣本數量的比率。查準率和召回率的計算公式如式（6）所示：

其中，真樣本（True Positive，TP）表示檢測到的目標類別與真實目標類別一致的樣本；假樣本（False Positive，FP）為檢測到的目標類別與真實目標類別不一致的樣本；假負樣本（False Negative，FN）為真實目標存在但未被網絡檢測出來的樣本。

（2）平均準確率（Average Precision，AP）和平均準確率均值（mean Average Precision，mAP）。一個理想的目標檢測網絡應該在召回率增長的同時，查準率在很高的水平，但現實情況是召回率的提高往往需要損失查準率的值，因此通常情況下采用查準率-召回率（Precision-Recall，P-R）曲線來顯示目標檢測器在準確率和召回率之間的平衡。對每一個物體類別，該類別的平均準確率定義為P-R曲線下方的面積；平均準確率均值是所有類別的平均準確率的均值。AP 和mAP 的計算公式如式（7）所示：

其中，N表示所有類別的數量。

（3）幀率（Frames Per Second，FPS）。幀率指目標檢測網絡每秒中能夠檢測的圖片數量，用該指標評價目標檢測網絡的檢測速度。

3.3 實驗結果和分析

本文根據表2 的參數對數據進行訓練，圖5 為訓練過程中YOLOv4 和本文算法2 的Loss 變化對比曲線。其中黑色線條代表的是原始算法曲線，紅色線條代表的是改進算法曲線，橫坐標代表訓練輪數（epoch），縱坐標代表訓練過程中的Loss值。

由圖6 可以看出，YOLOv4 算法的初始損失值大約在640 左右，而改進后的算法初始損失值大約在630 左右，在最開始時二者的損失值均為下降狀態，隨著epoch數量在0 到60 批次之間，YOLOv4 算法和改進算法的Loss 損失值相近，最后YOLOv4 算法的損失值穩定在34左右，而改進后的算法的損失值在逐漸緩慢下降，最后穩定在20左右。

圖6 訓練損失對比曲線Fig.6 Training loss comparison curve

本文根據表1 中的數據測試集分別在YOLOv4 和本文算法2 中的預測結果對比如圖7 所示，橫坐標代表類別的數量，縱坐標代表類別種類。由圖7 所示，與YOLOv4算法相對比，本文改進的算法在檢測精確率和召回率上都有明顯的提升。

圖7 原算法和改進算法的預測結果對比Fig.7 Comparison of prediction results of original algorithm and improved algorithm

為了驗證激活函數和采用自適應激活函數對改進算法的影響，本文將改進網絡的特征融合層網絡的激活函數（Leaky ReLU）變為Mish函數，而將特征提取層的激活函數（Mish）設置為Swish（激活因子β為定值1，參數變量p為0）激活函數作為本文改進算法1，再將特征提取網絡中的激活函數設置為基于自適應激活與否的β-Swish 激活函數為本文改進算法2，其改進的算法和主流的算法對比結果如表3所示。

表3 不同目標檢測算法比Table 3 Comparison of different target detection algorithms

根據表3 所示，為進一步測試本文算法的效果，將改進YOLOv4 算法與目標檢測中常用的主流學習算法進行了對比實驗，其中包括單階段檢測算法YOLOv4、SSD、雙階段算法目標檢測算法Faster RCNN以及最新的RetinaNet、EfficientDet 和anchor free 的CenterNet 算法，其檢測結果如表3 所示。與原始YOLOv4 相比，本文算法1和本文算2在平均檢測精度分別有5.07個百分點和5.77 個百分點的提升。而本文算法2 是在本文算法1 的基礎上，將算法1 的特征提取網絡中的激活函數變為自適應與否的激活函數β-Swish。從表3 可以看出，在特征提取網絡中加入自適應激活函數后，算法的檢測效果再次提升，說明自適應激活函數增強特征提取網絡的健壯性。

表4 為原YOLOv4 算法和改進后的算法1 和算法2對數據集中各個類別的mAP 對比。可以看出，改進后比改進前的檢測精度有明顯提高，改進后的算法對操場（groundtrackfield）、立交橋（overpass）和飛機（airplane）的檢測精度較高。但是整體來看，改進后的算法對密集分布的飛機、相對密集分布的操場和自然環境下的立交橋的檢測精度較高，而對尺寸較小、分布密集的汽車（vehicle）和油桶（storagetank）的檢測精度提升較大，但檢測精度還沒達到高精度的水平，還需要繼續提升。

表4 各類別目標mAP對比Table 4 Comparison of target mAP of each category %

為了進一步分析本文提出的方法對YOLOv4 算法的影響，進行了消融實驗。將本文算法裁剪成7組分別進行訓練，其中第一組為YOLOv4 算法，最后一組為使用自適應激活與否的激活函數的本文算法2。為了獲得更高性能的訓練模型，在網絡訓練階段會使用多種有利于網絡訓練的方法，這些方法對神經網絡的影響效果如表5 所示。其中“√”表示使用了對應的方法。直接使用YOLOv4 進行訓練存在密集目標漏檢和檢測精度等問題，同時由于原始的先驗錨框尺寸與遙感目標形狀差異較大，得到的預測框的交并比值也較低。這導致對遙感目標定位不夠準確。

改進1算法更改了特征網絡結構，從而提高了網絡的魯棒性和泛化能力。改進2 算法進一步在網絡中引入了殘差結構，與改進的特征提取網絡和改進的錨框組合使用，使算法的精確率提升，說明引入殘差網絡使網絡的特征能力更強。改進3、改進4和本文算法1在前面改進的基礎上，在網絡的特征提取和特征表達階段分別引入不同的激活，而本文算法2 在Swish 激活函數上引入了自適應激活與否的激活因子β，通過實驗驗證了在特征提取網絡中引入β-Swish 激活函數增強了網絡對密集目標和小目標的特征提取能力和表達能力，進一步再增強網絡的泛化性和魯棒性，解決密集目標和小目標漏檢和精確率問題。從表5可以看出，使用改進后的算法提高了目標檢測的召回率，這意味著一些傳統YOLOv4 算法無法檢測出來的遙感密集小目標被檢測出來，網絡的檢測精度也有所提高。實驗使用了3種訓練方法的組合對改進YOLOv4算法進行訓練，得到的模型比原始的YOLOv4 模型的檢測精度和召回率有著明顯的提升，說明在網絡訓練階段使用了更改的特征提取網絡，重新設計錨框，引入殘差結構，以及特征提取階段和非特征提取階段使用不同的激活函數的組合訓練方法能夠有效提升網路的性能。

從表5 可以看出，改進1 實驗使用了改進的特征提取網絡模型，其mAP 從79.28%提升到了80.55%，這個實驗結果表明改進特征提取網絡可以提高遙感目標的檢測效果。改進2 實驗在基于改進的特征提取網絡模型上，在特征融合層引入殘差連接來替代連續的5次卷積操作，該算法模型的mAP與YOLOv4算法和改進1模型相比，分別提升了2.18個百分點和0.91個百分點。該實驗結果表明引入殘差結構替代連續的卷積操作避免梯度消失在目標檢測中的有效性。而改進3、改進4 實驗表明，算法的特征提取網絡和非特征提取網絡分別使用不同的激活函數可以提升目標的檢測效果，說明激活函數的選擇對目標檢測效果有重大影響，本文算法1提出的模型的mAP與YOLOv4和改進2相比，分別增長了5.07個百分點和2.89個百分點。而本文算法2是在本文算法1 的基礎上，將本文算法1 中的特征提取網絡中的激活函數變為自適應與否的特征激活函數（β-Swish），該算法的精確度再次提升了0.7 個百分點，說明了本文算法2的有效性和魯棒性。

表5 改進方法對算法的性能提升Table 5 Performance improvement of algorithms by using improved methods

本文對于密集分布場景下的4 個類別目標情況進行了具體檢測效果示例展示，包括復雜背景、尺度較小和排列密集等情況下的目標檢測，每一種場景都采用同一組相同的測試圖像。其中圖8（a）代表模糊背景下密集汽車檢測對比結果，雖然YOLOv4算法也能準確檢測大部分汽車目標，但本文算法2 的檢測精度更高，檢測效果更好；圖8（b）代表密集排列且目標較小下的飛機檢測，從該圖中可以看出本文算法2 的平均檢測結果為100%，而YOLOv4的平均檢測結果為80%左右。圖8（c）代表復雜背景下相對密集的操場檢測，與傳統的YOLOv4相比，本文算法2將傳統YOLOv4未檢測到的全部檢測召回。圖8（d）代表自然光照下密集排列的油桶檢測結果，雖然YOLOv4 算法的檢測效果不錯，但本文算法2將檢測效果再次提升。

圖8 不同背景下的檢測結果Fig.8 Detection results of different object detection algorithms

4 總結

本文將YOLOv4 算法應用到遙感圖像密集分布和混合分布的目標檢測中，針對遙感圖像中目標尺寸較小、目標分布密集、低分辨圖像和背景復雜的問題，使用K-means聚類方法優化參數、改進網絡結構和采用自適應激活函數等方法提出了改進YOLOv4算法，在保證實時的檢測速度的前提下，提升了密集遙感目標的檢測效果。改進的算法在密集分布目標（如飛機、存儲罐和汽車）和混合分布目標（如操場和立交橋）上的檢測效果的提升都較明顯。改進方法在提升了召回率的同時也明顯提升了準確性，mAP 值達到了85.05%。本文算法也存在不足，在存儲罐、汽車等背景復雜、圖像分辨率較低和目標分布密集場景下的檢測效果較YOLOv4 提升明顯，但依然無法達到較高精度的檢測效果，還需要做進一步的研究和改進。