














摘" 要: 為了提升無人機航拍影像目標檢測的準確率,并實現模型的輕量化,文中對YOLOv5目標檢測模型進行了多方面的改進。首先,對YOLOv5的骨干網絡進行了優(yōu)化重組,采用更高效的動態(tài)卷積結構和多通道并行處理策略增強特征提取能力和檢測精度,并顯著減少模型參數量;其次,改進了損失函數,引入Focal?EIoU損失函數,更適合無人機航拍圖像的特點,進一步提升了模型的檢測精度;此外,將原本耦合的檢測頭進行了解耦處理,設計了輕量級解耦頭,使分類、回歸和置信度任務解耦處理,提高了檢測精度和收斂速度,并合理控制了模型參數量。實驗結果表明,改進后的DEP?YOLO模型在mAP@0.5指標上提升了9.6%,同時模型大小和參數量分別降低了77.93%和83.82%。綜上所述,文中提出的綜合改進策略顯著提升了無人機航拍影像目標檢測的精度,并實現了模型的輕量化,驗證了其在航拍影像目標檢測領域的有效性。
關鍵詞: 目標檢測; 無人機航拍; YOLOv5; 模型輕量化; 動態(tài)卷積; 解耦檢測頭; Focal?EIoU損失函數; 特征提取
中圖分類號: TN911.73?34; TP391.41" " " " " " " " "文獻標識碼: A" " " " " " " " 文章編號: 1004?373X(2025)07?0072?07
YOLOv5 UAV aerial photography object detection model
based on multipath dynamic convolution
SONG Su1, WANG Fangzheng2, GAO Jian’an3, LIU Hongsen4
(1. Department of Mathematics and Information Technology, The Education University of Hong Kong, Hong Kong 999077, China;
2. School of General Education, Jiangsu Vocational College of Medicine, Yancheng 224005, China;
3. College of Artificial Intelligence, Nanjing Agricultural University, Nanjing 210031, China;
4. School of Computer Science and Engineering, Southeast University, Nanjing 211189, China)
Abstract: Multiple improvements are made to the YOLOv5 object detection model to enhance the accuracy of object detection in drone aerial images and achieve model lightweighting. Firstly, the backbone network of YOLOv5 is optimized and reorganized. A more efficient dynamic convolution structure and a multi?channel parallel processing strategy are employed to enhance feature extraction capabilities and detection accuracy while reducing model parameters significantly. Secondly, the loss function is improved by introducing the Focal?EIoU loss function which is more suitable for the characteristics of drone aerial images, which further enhances the detection accuracy of the model. Additionally, the originally?coupled detection head is decoupled, and a lightweight decoupled head is designed to decouple the classification, regression and confidence tasks, so as to improve the detection accuracy and rate of convergence, and control the model parameters reasonably. Experimental results show that the improved DEP?YOLO model increases the mAP@0.5 by 9.6%, while the model size and parameter count are reduced by 77.93% and 83.82%, respectively. In summary, the comprehensive improvement strategy proposed in this paper significantly enhances the accuracy of object detection in drone aerial images and achieves model lightweighting, verifying its effectiveness in the field of aerial image object detection.
Keywords: object detection; drone aerial photography; YOLOv5; model lightweighting; dynamic convolution; decoupled detection head; Focal?EIoU loss function; feature extraction
0" 引" 言
目標檢測是計算機視覺領域的重要任務,廣泛應用于安防監(jiān)控、無人駕駛[1]、醫(yī)療影像分析等各個領域[2]。傳統的目標檢測方法依賴于手工設計的特征提取器和分類器,通常需要大量的計算資源和時間,難以在復雜的場景中取得較好的檢測效果[3]。隨著深度學習技術的發(fā)展,基于卷積神經網絡(CNN)的目標檢測模型逐漸成為主流[4]。
一階段檢測模型和二階段檢測模型是目前目標檢測領域的兩大主流方法。一階段檢測模型,如YOLO(You Only Look Once)系列[6]和SSD(Single Shot MultiBox Detector),直接在整張圖像上進行目標分類和定位,具有較快的檢測速度,但通常檢測精度略低于二階段檢測模型;二階段檢測模型,如R?CNN、Fast R?CNN和Faster R?CNN[5],首先生成候選區(qū)域,然后對這些區(qū)域進行分類和定位,具有較高的檢測精度,但計算開銷較大,難以滿足實時應用的需求。
近年來,YOLO系列模型憑借其優(yōu)秀的實時檢測性能和相對較高的檢測精度[7],特別是YOLOv5作為YOLO系列的最穩(wěn)定版本,在保持高檢測精度的同時具備較小模型參數[8]。然而,面對無人機航拍圖像這種具有多視角拍攝、小目標居多且復雜背景的特殊數據集,YOLOv5仍難以控制模型大小,其目標檢測精度在一些特定場景下仍有提升空間[9]。
針對以上問題,本文提出了一種改進的目標檢測模型DEP?YOLO,旨在提升無人機航拍圖像的檢測準確率并實現模型輕量化。本文主要從以下幾個方面對YOLOv5進行改進:首先,優(yōu)化YOLOv5的骨干網絡,采用高效的動態(tài)卷積結構和多路徑并行處理策略,提高特征提取能力和檢測精度,同時顯著減少模型參數量;其次,改進損失函數,引入更適合航拍圖像的Focal?EIoU,進一步提升檢測精度;最后,將原耦合的檢測頭解耦,設計出輕量級解耦頭,獨立處理分類、回歸和置信度任務,從而提高檢測精度和模型收斂速度。
1" 基于YOLOv5改進目標檢測的方法
DEP?YOLO基于YOLOv5s(以下統稱YOLOv5)進行改進,YOLOv5網絡模型由輸入端、主干網絡、特征融合網絡和檢測頭四部分構成,其網絡結構如圖1所示。本文在YOLOv5的基礎上,分別對其骨干網絡、損失函數、檢測頭進行改進,最終得到DEP?YOLO網絡結構如圖2所示。
1.1" 重組骨干網絡
雖然YOLOv5的C3模塊通過Bottleneck結構增強了特征提取能力,但其在處理無人機航拍影像中存在的大尺度變化目標和復雜背景方面仍然存在明顯不足。主要是因為YOLOv5的骨干網絡將所有通道和位置信息等同對待,不僅引入大量干擾信息,且經過多次C3和Conv模塊的堆疊下采樣,導致無人機影像中特征丟失過多,同時網絡模塊的堆疊大大增加了模型的參數量,難以滿足實時檢測的需求[10]。
針對這些挑戰(zhàn),本文重新設計了YOLOv5的骨干網絡,提出了多路徑動態(tài)卷積模塊(Multipath Dynamic Conv Block, MDCB),如圖3所示。MDCB模塊采用多通道并行處理,通過將特征圖劃分為多個部分,并分別應用動態(tài)卷積(Dynamic Conv)結構來處理[11],如圖4所示。動態(tài)卷積結構通過自適應生成卷積核,可以處理不同尺度大小的目標,從而在增強特征表達的同時保持較低的計算成本。
MIRB模塊的創(chuàng)新之處在于其并行處理特征圖的四個部分:一部分直接傳遞以保留原始信息,余下三部分通過動態(tài)卷積結構處理,并與前一分支的輸出相加。這種設計實現了不同層級特征的融合與高級抽象特征的學習,滿足無人機圖像多尺度變化信息的需求。此外,并行處理操作不僅降低了計算負擔,提高了特征處理效率,還避免了梯度消失問題,非常適合無人機等資源受限設備,滿足其對實時性和精確性的雙重需求。
具體而言,本文在骨干網絡中用MDCB和C3模塊替換了原始YOLOv5的全部C3模塊。骨干網絡采取了兩次“MDCB和C3”組合,強化了特征的深度抽取;而在頸部網絡中,減少了層數和復雜度,專注于密集的中小目標檢測,同時實現了網絡模型的輕量化。這一改進不僅大幅度減少了模型的參數量和計算量,同時顯著提升了特征提取和融合的效果。
1.2" 損失函數優(yōu)化
盡管YOLOv5的CIoU損失函數在處理跨尺度目標檢測以及預測框與真實框長寬比例問題方面表現出色,但在處理邊框尺寸差異及樣本不均衡問題上仍存在不足[12]。為此,本文引入了EIoU損失函數和Focal [L1]損失函數的結合函數Focal?EIoU來進行優(yōu)化調整[13]。
為解決這一問題,本文采用EIoU損失函數將原始的CIoU損失函數的長寬比例損失改為寬高值回歸,解決CIoU損失函數無法區(qū)分相同中心、相同寬高比但尺寸不同的邊界框問題,具體來說,EIoU損失函數計算公式為:EIoU=IoU+中心點損失+寬損失+長損失,能夠更準確地反映邊界框尺寸差異,公式如下:
[CIoU=1-IoU+ρ2p,pgtc2+ρ2w,wgtc2w+ρ2h,hgtc2h] (1)
此外,為解決樣本不均衡,本文引入Focal [L1]損失函數。Focal [L1]基于Focal Loss,通過調整權重參數,分配給低質量樣本較小權重,高質量樣本較大權重,從而優(yōu)化訓練過程,使模型更多地關注高質量樣本。
最終,本文將EIoU和Focal [L1]兩個損失函數整合為Focal?EIoU損失函數。Focal?EIoU不僅能夠更精準地匹配預測框和真實框,還能有效解決樣本不平衡問題,滿足無人機圖像檢測任務的需求。Focal?EIoU的計算公式如下:
[Focal?EIoU=IoUγ*EIoU] (2)
式中參數[γ]用于調整對不同質量樣本的關注程度。經過多次實驗,本文選定參數[γ]=0.7為最佳參數。Focal?EIoU損失函數的引入顯著提升了無人機航拍影像的檢測效果。
1.3" 檢測頭解耦
YOLOv5模型檢測頭中的分類、回歸和置信度任務之間是存在沖突的,如圖5所示,檢測頭是耦合的。而YOLOX研究證明,將該耦合檢測頭進行解耦處理能夠顯著提升網絡的收斂速度和檢測精度[14]。
然后,由于YOLOX中的每個預測頭都包含全連接的多個卷積層,這使得每層的通道數獨立累加,從而導致總參數量大幅增加。本文綜合考慮檢測性能之間的平衡,設計了一種輕量的解耦頭——空間和通道混洗解耦頭(Spatial?Channel Shuffle Decoupled Head, SSD),如圖6所示。
首先,輸入特征通過1×1卷積進行通道降維,緩解后續(xù)計算復雜度;其次,特征分支前增加一個共享的空間和通道混洗(Spatial?Channel Shuffle, SCS)模塊,如圖7所示,省去了后續(xù)分支獨立重復處理特征信息的步驟,進一步降低了模型的參數量;最后,在分類、回歸和目標置信度分支中都使用了空間和通道混洗模塊。該設計借鑒了通道混洗(Channel Shuffle)和空間混合(Spatial Mixture)的思想,通過在通道維度重新排列特征圖,實現相鄰網絡層間的通道信息共享,同時通過空間混合模塊增強特征表達能力,保持了高精度的同時大幅降低了計算復雜度。
總之,本文設計的輕量化解耦頭SSD在將分類、回歸和置信度任務分開的同時,顯著提升了模型的檢測性能,相比原YOLOX的解耦頭,SSD在降低參數量的同時提升了檢測精度。表1對比了檢測頭為耦合頭的YOLOv5模型、拼接YOLOX解耦頭(Dhead)的YOLOv5和拼接SSD解耦頭的YOLOv5。
表1的數據表明,本文設計的SSD解耦頭對比YOLOX的解耦頭在精度上僅損失了1.4%,但模型減小了13.9 MB,推理時間減少了1.5 ms。在維持可接受精度的同時,降低了模型參數量和推理時間,平衡了解耦頭的效率與精度。
2" 實驗結果與分析
2.1" 實驗環(huán)境
本文采用深度學習框架PyTorch,實驗平臺為Ubuntu 20.04操作系統,Python版本為3.8。其他相關配置與參數如表2和表3所示。
此外,本文訓練時未使用YOLOv5的任何預訓練權重,從零開始訓練,以確保模型完全適應本文的數據和檢測需求。
2.2" 數據集介紹
本文采用了由天津大學AISKYEYE團隊發(fā)布的VisDrone2019數據集[15]。該數據集是一個大規(guī)模的無人機視覺數據集,均由無人機在不同角度拍攝所得,包含8 629幅靜態(tài)圖像,其中6 471幅訓練集,548幅驗證集,以及1 610幅測試集,總共約260萬個目標實例樣本。每幀圖像都經過手動標注,涵蓋10種目標類別,如行人、汽車、卡車等覆蓋了中國14個不同城市的多種場景,包括城市和鄉(xiāng)村環(huán)境,數據集中的目標類型多樣且以小目標為主,完全符合本文無人機航拍影像中的目標檢測難度設定。
2.3" 評估指標
本文采用精度([P])、召回率([R])、平均精度均值(mean Average Precision, mAP)、模型的參數量(單位為MB)和模型大小(單位為MB)、模型推理時間(單位為ms)和FPS(單位為f/s)等評估指標來衡量改進的YOLOv5模型的性能。[P]和[R]的計算公式分別如下:
[P=TPTP+FP] (3)
[R=TPTP+FN] (4)
式中:TP表示真正例;FP表示假正例;FN表示假負例。
mAP@0.5(即IoU閾值為0.5)的計算公式如下:
[mAP@0.5=1ni=1nAPi] (5)
式中:[APi]表示第[i]個類別的平均精度;[n]為類別總數。
2.4" 實驗結果
為了驗證本文算法改進策略的有效性,基于YOLOv5基線模型在訓練集上進行了8組消融實驗,實驗結果如表4所示。
通過對比表4中的第一行和第二行,引入MDCB模塊后,mAP@0.5從32.7%提升至39.2%,模型大小從14.5 MB大幅減少到2.4 MB,參數量也顯著降低。表明MDCB模塊在提升檢測精度的同時,實現了模型的輕量化。第三行和第四行的對比顯示,優(yōu)化損失函數后,mAP@0.5從32.7%略微提升至33.2%,但引入SSD模塊后,mAP@0.5進一步提升至34.7%。對比第四行和第六行,引入SSD解耦頭后,mAP@0.5從34.7%飆升至41.5%,模型大小和參數量雖有增加,但仍在合理范圍內。表明SSD輕量級解耦頭顯著提升了檢測精度。
最后一行表明,結合MDCB模塊、優(yōu)化損失函數和SSD解耦頭的綜合改進策略,mAP@0.5達到了最高的42.3%,模型大小和參數量也相比原YOLOv5降低至3.2 MB和1.14 MB,驗證了綜合改進策略的有效性。
為了驗證本文提出的DEP?YOLO算法在無人機航拍影像數據集中的性能優(yōu)勢,選取了當前具有代表性且性能優(yōu)異的算法在同一數據集進行訓練,實驗結果如表5所示。
通過表5對比實驗可看出,本文改進的DEP?YOLO算法在各項指標上均表現出顯著優(yōu)勢。在mAP@0.5方面達到42.3%,是目前所有主流模型檢測精度最高值。參數量僅為1.14 MB,模型大小僅為3.2 MB,是其他主流檢測模型中最小的。檢測速度為22.8 ms,FPS為23.4 f/s,已達到實時檢測需求。
為了進一步驗證改進算法的目標檢測性能,在測試集上進行了一系列實驗,以確保其有效性和可靠性。圖8為原YOLOv5與改進算法在不同場景下的檢測結果對比圖,分為3個對照組。
從以上三組檢測圖可以看出,本文的DEP?YOLO算法在不同光照、航拍角度和環(huán)境下的檢測結果均最優(yōu)。在暗淡光照和聚集小目標的條件下,DEP?YOLO相比YOLOv5具有更少的漏檢;在光照耀眼且俯拍角度的情況下,DEP?YOLO能夠檢測到YOLOv5漏檢的車輛;在接近垂直角度的情況下,DEP?YOLO能夠避免檢測誤差。總體而言,本文的DEP?YOLO在無人機航拍影像中表現出比原YOLOv5更好的檢測性能。
3" 結" 語
本文介紹了一種改進的目標檢測算法,旨在提高無人機航拍影像的檢測準確性并實現模型的輕量化。該算法對YOLOv5模型進行了多方面的改進,包括:重新設計了骨干網絡,引入了多路徑動態(tài)卷積模塊增強特征提取能力;引入了Focal?EIoU損失函數以進一步提高檢測精度;解耦了原本耦合的檢測頭,設計了輕量級解耦頭來提高檢測精度,加快模型收斂速度并合理控制了模型整體參數量。實驗結果表明,改進后的DEP?YOLO模型在mAP@0.5指標上提升至42.3%,同時模型大小和參數量分別降低到3.2 MB和1.14 MB,大幅度優(yōu)于原YOLOv5模型,DEP?YOLO模型在保持高精度的同時實現了模型的輕量化,適用于無人機航拍影像目標檢測任務。
參考文獻
[1] 汪赟杰,譚愛紅.基于深度學習的雷達交通目標檢測研究[J].現代電子技術,2023,46(21):134?140.
[2] 呂向東,彭超亮,陳治國,等.基于RSSD的遙感圖像目標檢測算法[J].現代電子技術,2024,47(7):49?53.
[3] 王兆豐年.基于數據增強和尺度歸一的小目標檢測系統研究與實現[D].北京:北京郵電大學,2023.
[4] 江靈杰.基于深度學習的無人機航拍圖像目標檢測算法研究及應用[D].西安:西京學院,2023.
[5] 文靖杰,王勇,李金龍,等.多頭自注意力機制的Faster R?CNN目標檢測算法[J].現代電子技術,2024,47(7):8?16.
[6] 高英,吳玉虹.基于YOLOv5s的輕量化行人檢測算法[J].現代電子技術,2023,46(22):151?158.
[7] JIANG P Y, ERGU D J, LIU F Y, et al. A review of Yolo algorithm developments [J]. Procedia computer science, 2021, 199: 1066?1073.
[8] 邱天衡,王玲,王鵬,等.基于改進YOLOv5的目標檢測算法研究[J].計算機工程與應用,2022,58(13):63?73.
[9] 彭繼慎,孫禮鑫,王凱,等.基于模型壓縮的ED?YOLO電力巡檢無人機避障目標檢測算法[J].儀器儀表學報,2021,42(10):161?170.
[10] 陳科圻,朱志亮,鄧小明,等.多尺度目標檢測的深度學習研究綜述[J].軟件學報,2021,32(4):1201?1227.
[11] 蔡黎明,杜吉祥,劉懷進,等.動態(tài)卷積的3D點云目標檢測算法[J].華僑大學學報(自然科學版),2023,44(1):111?118.
[12] 董恒祥,潘江如,董芙楠,等.基于YOLOv5s模型的邊界框回歸損失函數研究[J].現代電子技術,2024,47(3):179?186.
[13] 周敏.基于Focal?EIOU函數的被動式太赫茲圖像違禁物品識別[J].太赫茲科學與電子信息學報,2022,20(8):810?816.
[14] 劉毅,蔣三新.基于改進YOLOX的鋼材表面缺陷檢測研究[J].現代電子技術,2024,47(9):131?138.
[15] DU D W, ZHANG Y, WANG Z X, et al. VisDrone?DET2019: The vision meets drone object detection in image challenge results [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops. New York: IEEE, 2019: 213?226.
作者簡介:宋" 蘇(1991—),女,江蘇鹽城人,碩士研究生,講師,主要研究方向為ICT課程與教學方法、圖像處理。
汪方正(1981—),男,安徽安慶人,碩士研究生,副教授,主要研究方向為計算機大數據。
收稿日期:2024?06?01" " " " " "修回日期:2024?06?24