

















摘" 要: 針對無人機航拍圖像目標密集、尺度小、特征信息易丟失、漏檢和誤檢嚴重,提出一種基于YOLOv8n改進的航拍小目標檢測算法GI?YOLOv8n。GI?YOLOv8n重新設計網絡結構,改進特征融合網絡,加入跨層連接,最大化保留小目標位置細節信息和語義信息,新增極小目標檢測層,提高檢測精度;引入基于注意力機制的動態檢測頭,并用輕量化卷積模塊GSConv進行改進,在尺度感知、空間感知、任務感知方面加強小目標的定位性能;最后引入Inner?CIoU損失函數,使用輔助邊界框計算損失,加快模型回歸速度,提高檢測性能。實驗結果表明,在VisDrone2019數據集上,GI?YOLOv8n的精確率、召回率、平均檢測精度分別為50.7%、39.8%、41.5%,相較于YOLOv8n分別提高了7.1%、7.4%、8.7%,檢測速度為81 f/s,滿足航拍目標檢測實時性要求。對比其他航拍目標檢測算法,檢測精度和速度均有提升。
關鍵詞: 無人機航拍; 特征融合; 小目標檢測層; 注意力機制; 動態檢測頭; 損失函數
中圖分類號: TN911.73?34; TP391.4" " " " " " " " "文獻標識碼: A" " " " " " " " " 文章編號: 1004?373X(2025)03?0026?09
Improved small object detection algorithm based on YOLOv8n
for UAV aerial photography
LEI Bangjun1, 2, 3, YU Ao1, 2, 3, WU Zhengping1, 2, 3, YU Kuai1, 2
(1. Hubei Key Laboratory of Intelligent Visual Monitoring for Hydropower Engineering, Yichang 443002, China;
2. College of Computer and Information Technology, China Three Gorges University, Yichang 443002, China;
3. Yichang Key Laboratory of Hydropower Engineering Vision Supervision, Yichang 443002, China)
Abstract: The UAV aerial photography image objects are dense, their scales are small, their feature information is prone to being lost, and the algorithm leakage and misdetection occur frequently, so an improved aerial photography small object detection algorithm GI?YOLOv8n based on YOLOv8n is proposed. In the GI?YOLOv8n, the network structure are redesigned, the feature fusion network is improved, the cross?layer connection is joined, the location detail information and semantic information of the small objects are preserved at a maximized level, and a new very small object detection layer is added to improve the detection accuracy. A dynamic detection head based on the attention mechanism is introduced and then improved with the lightweight convolutional module GSConv, so as to enhance the small object localization performance in terms of scale?awareness, spatial?awareness and task?awareness. The Inner?CIoU loss function is introduced and the auxiliary bounding box is used to compute the loss, which accelerate model regression and improve the detection performance. Experimental results show that, on the VisDrone2019 dataset, the precision rate, recall rate and mean average precision of the GI?YOLOv8n are 50.7%, 39.8% and 41.5%, which are improved by 7.1%, 7.4% and 8.7%, respectively, in comparison with those of the YOLOv8n, and the detection speed of the GI?YOLOv8n is 81 f/s, which meets the real?time requirements for aerial object detection. In comparison with the other aerial photography object detection algorithms, both the detection accuracy and speed of the GI?YOLOv8n are improved.
Keywords: UAV aerial photography; feature fusion; small object detection layer; attention mechanism; dynamic detection head; loss function
0" 引" 言
隨著科學技術的快速發展,無人機航拍在農業監測、城市規劃與建筑、電力巡檢、軍事情報采集等領域發揮了重要的作用。但是由于無人機飛行高度高、視野廣,拍攝目標密集、尺度小、相互遮擋、背景復雜,給檢測帶來了較大的困難,提高無人機檢測精度成為了一個亟待解決的熱點問題。
伴隨人工智能的進步,基于深度學習的目標檢測算法性能得到了極大改善。目前,基于深度學習的航拍目標檢測算法可以分為兩類:一類是以Mask R?CNN[1]、Faster R?CNN[2]為代表的兩階段目標檢測算法,首先生成候選目標區域,然后對這些區域進行分類和定位。該類算法的優點是精度高、漏檢和誤檢率低,但也存在計算復雜、推理速度慢等缺點;另一類是以SSD[3]、YOLO[4?9]系列為代表的一階段目標檢測算法,利用回歸的方式完成分類和定位,兼顧精度的同時實時性較高。文獻[10]提出一種基于加權感受野和跨層融合的遙感小目標檢測算法,解決遙感圖像中小目標特征易丟失等問題。文獻[11]提出一種基于YOLOv5的輕量化無人機航拍目標檢測算法,降低模型復雜度。文獻[12]針對無人機拍攝對象種類繁雜等問題,在YOLOv5s中加入CA注意力機制和雙向加權金字塔網絡(BiFPN),改善模型對小目標檢測的準確性。文獻[13]針對遙感圖像目標檢測精度低等問題,在YOLOX基礎上構建CBSPNet,并引入跳躍連接優化的特征融合網絡,增強特征的提取能力和優化對目標的邊緣檢測。盡管上述方法在小目標檢測任務上取得了不錯的表現,但也存在計算復雜度高、實行性不夠、復雜場景下目標難以定位等問題。當前航拍小目標檢測仍然存在以下難點:
1) 小目標尺度小,在特征提取過程中信息易丟失;
2) 相較于中、大目標,小目標定位困難;
3) 航拍場景復雜、目標密集。
對于上面航拍檢測任務存在的難點問題,本文提出了一種基于YOLOv8n的改進算法GI?YOLOv8n。GI?YOLOv8n改進特征融合網絡,加入跨層連接,保留小目標位置細節信息和語義信息,針對航拍圖像分辨率低、小目標尺度不敏感,合理增加極小目標檢測層,提高檢測精度;引入基于注意力機制的動態檢測頭,并用GSConv[14]輕量化卷積模塊進行改進,加強復雜背景下小目標的定位能力;使用輔助邊界框損失函數Inner?CIoU[15]加速模型收斂速度。
1" 改進算法GI?YOLOv8n
由于無人機飛行的高度較高與目標距離較遠,被拍攝的目標尺度差異較大,部分互相遮擋,給檢測帶來了較大的困難。原始YOLOv8n算法在無人機航拍檢測任務上,精度低、誤檢和漏檢嚴重。基于此,本文提出了一種YOLOv8n的改進算法GI?YOLOv8n。如圖1所示,GI?YOLOv8n網絡由Backbone、Neck、Head三部分構成。Backbone主干網絡主要負責提取輸入圖像的特征信息;Neck采用FPN?PAN結構[16?17]對來自主干網絡的語義信息進行特征融合;Head則生成最終的目標檢測結果。
1) Backbone:GI?YOLOv8n主干網絡主要包括CBS、C2f、SPPF模塊。CBS提取輸入圖像的局部特征信息。C2f通過split操作和跳層連接來加強特征信息流動減少計算量,增強網絡的學習能力。SPPF采用3個5×5的池化核在不同尺度上對特征圖進行池化,捕捉多尺度信息,提升模型的魯棒性。
2) Neck:采用FPN?PAN結構進行特征融合,其中FPN(Feature Pyramid Network)對來自主干網絡提取的深層語義信息進行自深到淺的傳遞,PAN(Path Aggregation Network)對來自FPN的信息進行自淺到深的傳遞。GI?YOLOv8n改進FPN?PAN,加入跨層連接,充分利用主干網絡中豐富的目標位置信息,提高模型的表達能力。
3) Head:在20×20、40×40、80×80三個特征層上進行檢測。GI?YOLOv8n設計GSDynamic Head在尺度感知、空間感知、任務感知方面加強復雜場景下小目標的定位能力,新增160×160極小目標檢測層,提高檢測精度。
1.1" 網絡重設計
1.1.1" 改進FPN?PAN網絡
在卷積神經網絡中,淺層特征圖感受野較小,往往包含目標更加豐富的位置信息和細節紋理特征。深層特征圖由于經過多次卷積操作提取特征,含有更加豐富的語義信息,但是目標細節信息丟失嚴重。YOLOv8n采用FPN?PAN結構在不同層次上融合多尺度特征信息,提高模型的適應性。但是頻繁的上下采樣操作會導致特征圖的尺寸在多次采樣過程中急劇增加或減少,從而造成細節信息的丟失。為了充分利用主干網絡原始特征圖而不經過FPN?PAN處理后的信息,GI?YOLOv8n改進FPN?PAN,增加跨層連接,強化小目標細節信息的保留。如圖2所示,將Backbone主干網絡輸出的80×80、40×40的特征圖額外與PAN網絡中相同尺寸特征圖進行跨層連接。改進后的特征融合網絡在保留深層語義信息的同時,攜帶更多小目標的位置和細節信息,進一步提高了檢測性能。
1.1.2" 增加極小目標檢測層
小目標檢測精度不高一直是無人機航拍檢測任務的一個難點。尺寸大小為640×640的圖像輸入網絡后,依次經過Backbone、Neck,最后在Head進行檢測。Head一共有三個檢測頭,對應特征圖空間大小分別為80×80、40×40、20×20,代表著檢測大、中、小目標。原始YOLOv8n小目標檢測頭最小能夠檢測像素在8 pixel×8 pixel以上的目標,但是實際上很多航拍目標尺寸比8 pixel×8 pixel更小,導致小目標檢測效果不好。基于此,GI?YOLOv8n新增160×160極小目標檢測頭,提高檢測精度。如圖3虛線框所示,在FPN網絡中80×80尺寸大小的特征圖后面增加一個上采樣操作,突破感受野極限,將特征圖尺寸轉換為160×160后,與Backbone相同尺度的特征圖進行融合。PAN網絡新增一個下采樣操作與之匹配,隨后將160×160特征圖信息傳遞到檢測頭中。經過改進后的網絡4種不同尺度的檢測頭更加適應無人機航拍圖像復雜尺度的劇烈變化。
1.2" 改進動態檢測頭
1.2.1" 引入GSConv
深度可分離卷積(Depthwise Separable Convolution, DSC)是一種輕量級的卷積模塊,被廣泛應用于移動端,可以有效降低模型的參數量和計算量,但是在一定程度上割裂了通道之間的聯系,帶來通道信息的丟失,無法捕捉全局信息。為了解決這個問題,引入鬼影混洗卷積GSConv有效提取特征信息,減少冗余信息的干擾,使得網絡更加輕量化。如圖4所示,GSConv由標準卷積、DSC、shuffle三部分組成。輸入通道數為[C1]的特征圖首先經過標準卷積作用,輸出通道數變為[C2 2],接著經過深度可分離卷積,提取特征信息的同時降低計算的復雜度。將深度可分離卷積輸出的特征圖與第一次卷積輸出的特征圖在通道維度上進行拼接,最后經過混洗將標準卷積提取的特征信息均勻地滲透到DSC的每一個部分,提供更加豐富的上下文信息。
1.2.2" 使用GSConv改進動態檢測頭
檢測頭起到分類和定位的作用。無人機航拍圖像目標密集、遮擋嚴重,高效的檢測頭可以加強小目標的邊界定位能力,提升檢測的性能。受動態檢測頭(Dynamic Head,DyHead)[18]啟發,GI?YOLOv8n使用GSConv改進DyHead,充分利用全局上下文信息,更加精確地捕獲小目標。如圖5所示,改進后的動態檢測頭在尺度感知、空間感知、任務感知三個方面運用注意力機制,其中,尺度感知注意力模塊學習各種語義級別的相對重要性,空間感知注意力模塊學習特征的一致性表達,任務感知注意力模塊指導不同的特征通道分別支持不同的任務,例如分類、框回歸、關鍵點學習等任務,三個注意力模塊構成了高效的檢測頭。
給定特征輸入張量[F∈RL×S×C],改進后的動態檢測頭數學表達過程如下:
[WF=πCπSπLF?F?F] (1)
式中:[πC?]表示任務感知注意力;[πS?]表示空間感知注意力;[πL?]表示尺度感知注意力。
1) 尺度感知注意力[πL?]的定義為:
[πLF?F=σf1SCS,CF?F] (2)
[σx=max0,min1,x+12] (3)
式中:[f(?)]是1×1卷積層近似的線性變換函數;[σ(x)]是Hard?Sigmoid激活函數。
2) 空間感知注意力[πS?]的定義為:
[πSF?F=1Ll=1Lk=1Kωl,k?Fl;pk+Δpk;c?Δmk] (4)
式中:[K]表示稀疏采樣的數目;[pk+Δpk]為自主學習的空間偏移量[Δpk]移動的位置,以聚焦判別區域;[Δmk]表示位置[pk]上自主學習的重要標量。
3) 任務感知注意力[πC?]的定義為:
[πCF?F=maxα1F?FC+β1F,α2F?FC+β2F] (5)
[θ?=α1,α2, β1, β2T] (6)
式中:[FC]表示[C]通道的特征切片;[θ?]表示控制激活閾值的可學習超函數。
1.3" 改進損失函數
YOLOv8回歸損失采用DFL Loss和CIoU Loss。CIoU損失函數綜合考慮了回歸框的寬高、縱橫比以及真實框和預測框之間的中心距離,在一定程度上加快了預測框的回歸收斂速度,但是也存在縱橫比修正復雜、正負樣本分配不均衡、魯棒性不足的缺點。CIoU計算公式如下:
[LCIoU=1-IoU+ρ2b,bgtc2+αv] (7)
式中:IoU為預測框與真實框的交并比,范圍為[0, 1];[b]、[bgt]分別為預測框和真實框的中心點;[c]為包含預測框與真實框的最小矩形對角線;[α]為權衡參數;[v]為評估寬、高比例一致性的參數;[ρ?]表示兩個中心點之間的歐幾里得距離。
針對上述情況,使用輔助邊界框損失函數Inner?CIoU改進CIoU。通過對邊界框損失函數進行分析,發現區分不同的回歸樣本,使用不同尺度的輔助邊界框來計算損失,可以加快邊界框的回歸速度,提高檢測性能。Inner?CIoU引入比例因子比率(ratio)控制計算損失的輔助邊界框的比例大小。對于高質量IoU樣本使用較小的ratio計算損失,對于低質量IoU樣本使用較大的ratio計算損失。航拍圖像分辨率低,模型對小目標尺度不敏感,邊界框回歸誤差大,ratio應該設置的較大。Inner?CIoU的計算公式如下:
[LInner?CIoU=LCIoU+IoU-IoUinner] (8)
[IoUinner]的計算公式如下:
[bgtl=xgtc-wgt?ratio2," " "bgtr=xgtc+wgt?ratio2] (9)
[bgtt=ygtc-hgt?ratio2," " "bgtb=ygtc+hgt?ratio2] (10)
[bl=xc-w?ratio2," " "br=xc+w?ratio2] (11)
[bt=yc-h?ratio2," " "bb=yc+h?ratio2] (12)
[inter=minbgtr,br-maxbgtl,bl?minbgtb,bb-maxbgtt,bt] (13)
[union=wgt?hgt?ratio2+w?h? ratio2 -inter] (14)
[IoUinner=interunion] (15)
式中:[xgtc]、[xc]分別表示真實框和預測框中心點橫坐標;[ygtc]、[yc]分別表示真實框和預測框中心點縱坐標;[wgtc]、[wc]分別表示真實框和預測框的寬;[hgtc]、[hc]分別表示真實框和預測框的高。
2" 實驗結果與分析
2.1" 實驗環境
本文實驗環境為:NVIDIA GeForce RTX 3090,顯存24 GB,Ubuntu 20.04操作系統,Python 3.8,CUDA 11.3,PyTorch 1.12.1,YOLOv8依賴庫ultralytics,版本為8.0.202。訓練詳細參數如表1所示。
2.2" 數據集
為了驗證改進算法GI?YOLOv8n的有效性,選取公開無人機航拍數據集VisDrone2019進行實驗驗證。VisDrone2019數據集由天津大學機器學習和數據挖掘實驗室發布,由無人機拍攝于中國14座不同的城市,涵蓋了城市和農村多種多樣的環境,目標密集、尺度小,遮擋嚴重,給檢測帶來了較大的困難。數據集一共8 629張圖片,其中訓練集6 471張,驗證集548張,測試集1 610張,包含10個目標類別,分別為pedestrian、people、bicycle、car、van、truck、tricycle、awning?tricycle、bus、motor。
2.3" 評價指標
本文使用精確率[P](Precision)、召回率[R](Recall)、平均檢測精度(mean Average Precision, mAP)、每秒幀數(Frames Per Second, FPS)作為評估模型性能的指標。精確率、召回率、平均檢測精度的計算如下:
[P=TPTP+FP×100%] (16)
[R=TPTP+FN×100%] (17)
[AP=01PRdR] (18)
[mAP=i=1kAPik] (19)
式中:TP表示模型正確檢測出目標類別的正樣本數量;FP表示模型錯誤將背景檢測為目標類別的負樣本數量;FN表示模型錯誤將目標類別檢測為背景的正樣本數量。
2.4" 改進模塊消融實驗分析
為了驗證本文提出的三個改進模塊的先進性,在VisDrone2019數據集上設計了幾組橫向消融實驗,進行對比分析。
2.4.1" 網絡重設計實驗分析
為了驗證重新設計網絡的優越性,與YOLOv8n以及YOLOv8n?p6進行實驗對比分析,其中YOLOv8n?p6表示在原始YOLOv8n網絡的三個檢測頭上新增一個10×10尺度的檢測頭,實驗結果如表2所示。
從表2可以看出:經過重新設計的網絡在[P]、[R]、mAP上相較于YOLOv8n分別提高了2.8%、3.8%、3.9%;對比YOLOv8n?p6,在[P]、[R]、mAP上分別提高了2.6%、3.4%、3.7%。說明GI?YOLOv8n算法改進了FPN?PAN特征融合網絡,在保留深層特征圖豐富語義信息的同時,充分利用了淺層特征圖的細節信息,新增160×160極小目標檢測層,顯著提高對小目標尺度的敏感性,提升檢測的效果。
2.4.2" 改進動態檢測頭實驗分析
將引入動態檢測頭的模型記為YOLOv8n?DyHead,使用GSConv改進動態檢測頭的模型記為YOLOv8n?GSDyHead,改進動態檢測頭橫向實驗結果如表3所示。
從表3可以看出:YOLOv8n?GSDyHead相較于YOLOv8n在[P]、[R]、mAP上分別提高了2.4%、1.9%、2.1%;對比YOLOv8n?DyHead在[P]、[R]、mAP上分別提高了0.1%、0.5%、0.5%。說明改進后的動態檢測頭可以加強低分辨率圖像中小目標的定位能力,從而提高檢測性能。
2.4.3" 改進損失函數實驗分析
為了驗證改進后的損失函數更加適合小目標的尺度,與CIoU、MPDIoU[19]損失函數進行對比實驗分析,實驗結果如表4所示。
從表4可以看出:使用Inner?CIoU損失函數改進后的模型相較于YOLOv8n在[P]、[R]、mAP上分別提高了0.4%、0.2%、0.3%;對比加入MPDIoU損失函數的模型在[P]、[R]、mAP上分別提高了1%、0.1%、0.4%。說明加入輔助邊界框來計算損失,更加符合小目標的特性,回歸更加高效。
2.5" 綜合消融實驗分析
以YOLOv8n為基線網絡,在VisDrone2019數據集上對三個改進模塊進行單獨添加和組合添加的綜合消融實驗分析,實驗結果如表5所示。其中“√”表示添加改進模塊,表中第一行表示原始YOLOv8n的實驗結果。
從表5可以看出,重新設計的網絡結構在[P]、[R]、mAP上相較于YOLOv8n分別提高了2.8%、3.8%、3.9%。說明改進FPN?PAN特征融合網絡,加入跨層連接,攜帶了更多小目標語義信息和位置信息,增加了極小目標檢測頭,提高了對小目標的捕獲能力。在此基礎上,加入GSConv改進的動態檢測頭,減少冗余信息,豐富全局上下文信息,增強復雜場景下小目標的定位能力,[P]、[R]、mAP分別提高了4.9%、2.7%、4.4%。最后使用Inner?CIoU損失函數改進CIoU,在不添加新損失項的情況下,加快模型回歸速度,[R]、mAP分別提高了0.9%、0.4%。綜合來看,改進的算法GI?YOLOv8n在[P]、[R]、mAP上相較于YOLOv8n提升了7.1%、7.4%、8.7%,顯著提高了航拍小目標檢測的精度,FPS為81 f/s,滿足實時性30 f/s的要求。改進后的算法與原始算法指標對比曲線圖如圖6所示。
分析圖6可得,改進后的算法在精確率、召回率、平均檢測精度指標方面明顯優于原始算法,魯棒性更好。
2.6" 對比實驗分析
為了驗證改進算法在無人機航拍任務上的優越性,將GI?YOLOv8n與其他主流算法在VisDrone2019數據集上進行實驗對比,實驗環境和參數設置均保持一致。對比實驗主要從各類別AP值和[P]、FPS等綜合指標進行全面的對比驗證。VisDrone2019數據集各類別AP值對比如表6所示。
從表6可以看出,GI?YOLOv8n在pedestrian、people、bicycle、car、van、awn?tricycle、bus、motor這八個類別上取得了最佳的檢測效果,AP值分別為46.9%、39.0%、15.9%、82.7%、46.8%、17.5%、56.1%、49.7%。相較于YOLOv8n,在小目標類別pedestrian、bicycle、tricycle、awn?tricycle上AP值分別提升了12.6%、8.1%、6.0%、5.6%。對比次優的YOLOX,mAP高出1.2%。相較于Faster R?CNN、RetinaNet經典目標檢測算法,mAP分別提高了19.8%、27.6%。實驗結果充分表明改進算法在面對復雜多樣的航拍環境時,能夠有效保留小目標的細節特征信息,精準定位目標邊界,有效提升檢測性能。
為了更進一步驗證改進算法的優勢,在VisDrone2019數據集上將改進算法與YOLOv5m、YOLOX等主流算法在[P]、mAP、FPS指標上進行全面實驗對比,實驗結果如表7所示。對比分析表7中數據可知,GI?YOLOv8n平均檢測精度最高,為41.5%,相較于Faster R?CNN、RetinaNet、YOLOX、YOLOv5s、YOLOv5m、YOLOv7?tiny、YOLOv8n分別提升了19.8%、27.6%、1.2%、8.5%、4.2%、6.0%、8.7%。相較于Anchor?free的YOLOX,P、FPS分別提升了2.1%、39.6%;對比Anchor?based的YOLOv5m,P、FPS分別提升了4.2%、47.3%。
綜合表6和表7的實驗結果來看,GI?YOLOv8n在無人機航拍檢測任務上優勢明顯、檢測精度高、漏檢率低,FPS滿足實時性要求。
為了更進一步驗證改進算法GI?YOLOv8n在無人機航拍場景中的檢測效果,選取VisDrone2019數據集中難度較大的圖片進行可視化檢測結果分析。如圖7所示,在高空小目標、遠距離密集小目標、夜間光照復雜背景、多尺度目標4個場景下,改進算法GI?YOLOv8n能夠檢測出更多更遠的車輛、行人、摩托車,誤檢和漏檢的目標大大減少,顯著提高了小目標檢測的精度,在無人機航拍檢測任務上具有較大優勢。
2.7" 模型泛化性實驗驗證
為了驗證改進算法在其他數據集上面依然適用,泛化性好,在公開數據集VOC2007上進行對比實驗,實驗結果如表8所示。
從表8可得,改進算法在召回率、平均檢測精度上相較于YOLOv8n分別提高了1.3%、0.4%,FPS為230 f/s,實時性較高。綜合以上實驗說明,改進算法不僅對航拍目標檢測效果好、精度高,在其他公開數據集上效果依舊優異,泛化能力強。
3" 結" 語
本文提出一種改進YOLOv8n的無人機航拍視角下小目標檢測算法。首先優化特征融合網絡,新增極小目標檢測層,加強小目標細節信息和語義信息的保留,提高檢測精度。其次,使用輕量化卷積GSConv改進動態檢測頭,從尺度、空間、多任務三方面加強目標的定位性能。最后使用Inner?CIoU損失函數,加快模型收斂速度。實驗表明改進后的算法在VisDrone2019數據集上精確率、平均檢測精度為50.7%、41.5%,相較于原始算法分別提高了7.1%、8.7%。顯著提高了航拍小目標的檢測精度。與其他先進目標檢測算法相比,綜合性能較好,能夠滿足航拍檢測任務精度和實時性的要求。但是改進算法對無人機小目標檢測仍有提升空間,下一步將探索知識蒸餾技術,更進一步提高檢測精度。
注:本文通訊作者為吳正平。
參考文獻
[1] HE K M, GKIOXARI G, DOLLáR P, et al. Mask R?CNN [C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2017: 2980?2988.
[2] REN S Q, HE K M, GIRSHICK R, et al. Faster R?CNN: Towards real?time object detection with region proposal networks [J]. IEEE transactions on pattern analysis amp; machine intelligence, 2017, 39(6): 1137?1149.
[3] LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot multibox detector [C]// Proceedings of 14th European Conference on Computer Vision. Heideberg: Springer, 2016: 21?37.
[4] REDMON J, FARHADI A. YOLO9000: Better, faster, stronger [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 6517?6525.
[5] REDMON J, FARHADI A. YOLOv3: An incremental improvement [EB/OL]. [2018?04?08]. https://arxiv.org/abs/1804.02767?context=cs.LG.html.
[6] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: Optimal speed and accuracy of object detection [EB/OL]. [2020?04?23]. https://arxiv.org/abs/2004.10934.
[7] 聶晶鑫.基于改進YOLOv5的鐵路接觸網絕緣子檢測方法[J].現代電子技術,2024,47(2):31?36.
[8] 韓曉冰,胡其勝,趙小飛,等.改進YOLOv7?tiny的手語識別算法研究[J].現代電子技術,2024,47(1):55?61.
[9] LOU H T, DUAN X H, GUO J M, et al. DC?YOLOv8: Small?size object detection algorithm based on camera sensor [J]. Electronics, 2023, 12(10): 2323.
[10] 張紹文,史衛亞,張世強,等.基于加權感受野和跨層融合的遙感小目標檢測[J].電子測量技術,2023,46(18):129?138.
[11] 王恒濤,張上,陳想,等.輕量化無人機航拍目標檢測算法[J].電子測量技術,2022,45(19):167?174.
[12] 劉展威,陳慈發,董方敏.基于YOLOv5s的航拍小目標檢測改進算法研究[J].無線電工程,2023,53(10):2286?2294.
[13] 王子健,王云艷,武華軒.基于改進YOLOX的遙感圖像目標檢測[J].揚州大學學報(自然科學版),2023,26(5):64?71.
[14] LI H L, LI J, WEI H B, et al. Slim?neck by GSConv: A better design paradigm of detector architectures for autonomous vehicles [EB/OL]. [2024?10?06]. https://doi.org/10.48550/arXiv.2206.02424.
[15] ZHANG H, XU C, ZHANG S J. Inner?IoU: More effective intersection over union loss with auxiliary bounding box [EB/OL]. [2023?11?08]. https://doi.org/10.48550/arXiv.2311.02877.
[16] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 936?944.
[17] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 8759?8768.
[18] DAI X Y, CHEN Y P, XIAO B, et al. Dynamic head: Unifying object detection heads with attentions [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2021: 7373?7382.
[19] MA S L, XU Y. MPDIoU: A loss for efficient and accurate bounding box regression [EB/OL]. [2023?07?25]. https://doi.org/10.48550/arXiv.2307.07662.
[20] YU W P, YANG T, CHEN C. Towards resolving the challenge of long?tail distribution in UAV images for object detection [C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. New York: IEEE, 2021: 3257?3266.
[21] GE Z, LIU S T, WANG F, et al. YOLOX: Exceeding YOLO series in 2021 [EB/OL]. [2022?04?05]. https://arxiv.org/abs/2107.08430.