








收稿日期:2023-07-03
基金項目:四川省通用航空器維修工程技術研究中心資助課題(GAMRC2021YB11);民航飛行技術與飛行安全重點實驗室自主研究項目(FZ2021ZZ05)
DOI:10.19850/j.cnki.2096-4706.2024.03.018
摘" 要:據統計資料顯示,截至2017年全球已經售出無人機達300萬架。無人機具有體積小、成本低、數量大等特點,這也隨之引起了一系列的安全問題,對公共安全造成了嚴重威脅。傳統的對無人機的識別方法主要有雷達探測、聲波探測等。在分析了傳統識別方法的劣勢后,提出了基于改進YOLOv5的無人機識別方法,在原始YOLOv5模型的基礎上添加CBAM注意力機制,以增強目標特征提取的能力,增強網絡模型性能。并可引入DeepSORT跟蹤算法,為無人機的跟蹤提供檢測響應。經過測試集測試,改進后的模型較原始模型的精確度提升了5.24%,基本滿足識別要求。
關鍵詞:無人機;目標識別;YOLOv5;CBAM;DeepSORT
中圖分類號:TP183;TP391.4" 文獻標識碼:A" 文章編號:2096-4706(2024)03-0084-05
A Method for UAV Object Recognition Based on Improved YOLOv5
WEI Lin1, HE Junyi2, TAN Renxiang2, PENG Junrong2
(1.Institute of Flight Technology, Civil Aviation Flight University of China, Deyang" 618307, China;
2.Institute of Electronic and Electrical Engineering, Civil Aviation Flight University of China, Deyang" 618307, China)
Abstract: According to statistical data, as of 2017, over 3 million UAVs have been sold worldwide. UAVs have characteristics such as small size, low cost, and large quantity, which lead to a series of security issues and pose a serious threat to public safety. The traditional methods for UAV recognition mainly include radar detection and acoustic detection. After analyzing the drawbacks of these traditional recognition methods, this paper proposes an UAV recognition method based on improved YOLOv5. It incorporates the CBAM (Convolutional Block Attention Module) Attention Mechanism based on the original YOLOv5 model, so as to enhance the capability of target feature extraction and improve the performance of the network model. Furthermore, the DeepSORT tracking algorithm can be introduced to provide detection response for UAV's tracking. Through testing on the dataset, the accuracy of the improved model is improved by 5.24% compared to the original model, which meets the recognition requirements basically.
Keywords: UAV; object recognition; YOLOv5; CBAM; DeepSORT
0" 引" 言
無人機是一種可以遙控或自主飛行的飛行器,具有廣泛的應用前景和潛力。隨著科技的進步和成本的降低,無人機已經逐漸成為民用和商用領域中的一種重要工具。近年來,作為信息系統重要節點的民用無人機在農業植保、森林滅火、環境監控等方面憑借其高效率、低成本、多角度監測等優勢,為經濟建設與社會發展發揮著至關重要的作用。
據統計,2017年全球無人機市場的銷售規模達到了60億美元,售出無人機300萬架,相比2016年增長25%[1]。同時我國低空空域的逐步開放以及國家對無人機領域發展的正面政策支持,都使得我國民用無人機行業得到了飛速發展。據統計,2020年我國民用無人機的產值達到了200億元,新增的訂單超過500萬架[2]。預測到2025年,國內僅民用領域的無人機銷售額將會達到864.2億元,并且用作安全防護類型無人機的銷售額將達到150億元,用作電網等巡檢的無人機銷售額將達50億,用作農業領域的無人機將達200億元。
據統計資料顯示,截至2020年底無人機行業實名登記無人機共45.2萬架,而無人機駕駛員執照總數僅僅只有7.3萬個,駕駛員數量和無人機數量之前存在較大差距,大量的無人機操作者為“無證飛行”。
在無人機發展給我們生活和工作帶來便利的同時,也對公共安全等方面帶來了不良的影響。
由于小型無人機具有操作簡單,成本低的特點,且數量龐大,便造成無人機“黑飛”、非法入侵、偷拍隱私等事件屢見不鮮。例如,2017年,成都雙流機場因為無人機黑飛導致數十家航班延誤[3]。在2018年,位于西安的咸陽國際機場因為無人機入侵客機跑道,多架次的航班受到影響[4]。2021年一架無人機突然出現在重慶輕軌2號線正在行駛的列車旁,導致列車撞上正在飛行的無人機,不僅造成財產損失,更具有潛在的安全風險[5]。其次,在安全隱私領域,無人機的發展也對其造成了嚴重的影響。2017年,某明星舉行婚禮,他們要求的是不公開,保密進行,然而卻遭到無量媒體進行無人機全程直播,偷拍,這一行為嚴重破壞了公民的隱私權。
以上事件表明,目前無人機的濫用行為日發嚴重,無人機“黑飛”正在嚴重危害公共安全和人民權利,迫切地需要能夠在廣大場所對無人機進行監測和識別的新方法。
傳統的無人機檢測方法主要有:基于聲音的無人機監測技術、基于溫度的無人機監測技術、基于雷達的無人機監測技術等。具體方法具體分析,基于聲音和溫度的無人機監測技術目前也有人正在研究,南京信息工程大學的段同學進行了基于聲音的無人機被動探測方法的研究[6],雖然該方法有較高的識別能力,但其魯棒性較差,在人流密集的場所難以進行識別。基于雷達的無人機探測技術主要應于與機場、軍事基地等特殊地帶,對于廣場以及鐵路等地區因其高昂的成本和巨大的體積難以進行普及。基于光電探測的無人機探測技術主要是采用傳統的光電探測設備,包括可見光、激光以及紅外光等,通過成像技術來達到對無人機的探測,但在陰雨、沙暴等惡劣天氣下難以達到很好的探測效果。
隨著人工智能的快速發展,將人工智能技術應用于無人機的監測將會變成未來更多的選擇。本實驗將提出采用YOLOv5算法作為無人機的識別模型,并在原有的骨干網絡基礎上添加CBAM注意力機制,使得改進YOLOv5模型較之前平均精度提升5.24%
1" 原理介紹
1.1" YOLOv5算法原理
YOLO算法最初是由Joseph Redmon等于2016年提出來的一種目標識別方法,其創新性在于把檢測當作回歸問題處理,只需一階檢測,用一個網絡就可快速輸出目標位置和種類,其最大的優勢就是通過簡潔的算法可以獲得出色的識別效果[7]。
隨著研發人員不斷創新,更高版本的YOLO相繼問世,其功能也變得更加強大。2020年,YOLO的第5代版本YOLOv5問世。其核心原理依舊是利用深度卷積神經網絡(CNN)從圖像中直接預測對象的類別和位置。YOLOv5版本是基于YOLOv4版本改進的,采用了PyTorch框架代替了YOLOv4版本的Darknet框架,網絡部分未進行修改,僅對參數進行調整優化,使得檢測速度大幅提升。所以選用YOLOv5算法作為本實驗的識別模型。
YOLOv5的網絡結構較為簡潔,包括輸入端(Input)、骨干網絡(Backbone)、頸部網絡(Neck)以及頭部網絡(Head),其大致結構如圖1所示。
圖1" YOLOv5網絡結構圖
1.1.1" 輸入端(Input)
輸入端的主要作為是對輸入的圖像進行預處理,并將其轉換為卷積神經網絡(CNN)可以接收的張量形式。其預處理的步驟可以分為圖像縮放、顏色空間轉換、圖像增強等。
1.1.2" 骨干網絡(Backbone)
骨干網絡層主要由Focus結構、空間金字塔池化結構(SPP)、CSP結構組成,主要用于提取圖像特征,從而實現目標檢測[8]。其大致流程為:將原始的圖像輸入到模型中,利用卷積神經網絡(CNN)對輸入的圖像進行特征提取,得到高維的特征表示,然后使用CSP模塊實現兩個卷積分支之間的特征融合,再利用FPN對特征金字塔進行構建和上采樣,使得模型可以在不同的尺度下進行目標檢測,最后通過網絡的下采樣和下采樣操作,將不同尺度的特征圖像進行拼接和調整,實現對目標不同形狀、大小的檢測,具有一定的魯棒性。
1.1.3" 頸部網絡(Neck)
頸部網絡具有FPN、PAN結構,主要用于實現特征金字塔和特征融合等功能。其大致流程為:在Backbone網絡之后,Neck網絡會接收特征圖,通過進一步的卷積操作和池化操作等方式進一步提取特征,并通過FPN、PAN結構對不同尺度的特征圖進行特征融合,以實現跨尺度的目標檢測。
1.1.4" 頭部網絡(Head)
頭部網絡是目標檢測模型的輸出部分,主要用于預測目標的類別和位置信息。其工作流程可以分為特征解碼、邊界框回歸、目標分類幾個步驟,并對輸出的邊界框進行后處理,以提高模型的準確性和魯棒性。
1.2" DeepSORT算法
在上述YOLOv5無人機目標識別模型的基礎上,可將其嵌入于DeepSORT跟蹤算法中并作為檢測器,可為無人機的跟蹤提供檢測響應。在嵌入DeepSORT算法后的目標跟蹤方法大致的流程如圖2所示。
圖2" 嵌入DeepSORT后的流程
1.3" CBAM注意力機制
由于無人機數據集在收集時存在多種問題,如天氣、圖片清晰度、以及空中的遮擋物等,這些因素會影響訓練時的檢測精度,為解決這一問題,以此能夠更好地獲得圖片的關鍵特征,提升網絡模型的性能,可以加入CBAM注意力機制。
CBAM注意力機制是一種用于圖像分類和目標檢測等任務的注意力機制,其主要作用是對網絡中的特征進行加權,提高模型的表達能力和泛化性能。
CBAM注意力機制同時結合了通道注意力(channel attention module, CAM)和空間注意力(spatial attention module, SAM)兩種模塊[9]。CAM模塊的作用是提升網絡對不同通道之間的關系的關注程度,即在檢測目標時更加注重特征通道之間的相互作用,而不是簡單地將特征通道分別處理,是通過學習每個通道的權重來提升網絡對不同通道之間的關系的關注程度;SAM模塊的作用是提升網絡對空間位置的關注程度,即在檢測目標時更加注重目標所在的位置和上下文信息,而不是簡單地對整張圖片進行檢測,是通過學習每個空間位置的權重來提升網絡對空間位置的關注程度。CBAM網絡模型如圖3所示。
圖3" CBAM網絡模型
通過引入CBAM模塊,可以有效地提升網絡的特征表達能力和檢測精度,從而提升模型的準確性和魯棒性。
2" 識別實驗
2.1" 實驗環境
本實驗的實驗環境為Windows 11,64位操作系統,CPU為Intel(R)Core(TM)i7-10750H CPU @ 2.60GHz 2.59 GHz,GPU為NVIDIA GeForce GTX 1660 Ti;實驗環境為Python 3.8,并基于PyTorch的開源機器學習框架PyTorch版本為1.12,Cuda版本為11.7和Numpy版本為1.23。
2.2" 實驗數據集
本實驗采用自主采集數據集的方式,在網上搜索了不同天氣、不同距離、不同型號的無人機圖片。為了提高YOLOv5算法識別的精確度,可以采用隨機翻轉、隨機裁剪、隨機旋轉、調整亮度和對比度等方法對數據集進行數據增強,共得到10 000余張組成Drone數據集。其中訓練集共11 351張,驗證集共3 245張,測試集共1 621張,如圖4所示。
圖4" 無人機數據集
2.3" 實驗流程
本實驗首先通過攝像頭采集一定區域內無人機圖像,通過數據預處理后再將處理后的數據文件轉化為YOLOv5網絡對應的文件格式并輸入到網絡模型,隨后在網絡模型中進行模型訓練,最后輸出模型,得到訓練完成后的最終模型。具體的整體實驗流程如圖5所示。
網絡訓練、模型測試(基于YOLOv5的微小型無人機實時探測方法)
圖5" 實驗流程
3" 實驗結果和討論
3.1" 評價指標
本次實驗主要采用的衡量指標如下:
平均精度(mAP)[10]:是目標檢測領域最常用的衡量指標之一。它是對所有類別的精度值進行加權平均后得到的結果,能夠表示模型在檢測任務中的綜合性能和準確度。其計算公式如下:
精度和召回率(Precision and Recall):精度表示模型正確預測為正類的樣本(TP)數占所有預測為正類的樣本數的比例(TP+FP),而召回率則表示模型正確預測為正類的樣本數占所有實際為正類的樣本數的比例(TP+FN)。其計算公式如下:
3.2" 網絡訓練結果
設置如下的網絡模型參數:選擇YOLOv5s.pt官方訓練權重,初始YOLOv5s網絡參數,訓練批次大小設置為2,輸入的圖片尺寸為640×640,初始的學習率為0.01。網絡模型在訓練100輪次后得到的訓練結果如圖6所示。可以看到,精確度(Precision)和召回率(Recall)不太穩定,mAP0.5保持在94%左右。
(a)精確度
(b)召回率
圖6" 原始訓練結果
在引入CBAM注意力機制后,設置同樣的網絡模型參數,在訓練60輪次后得到的訓練結果如圖7所示。可以看到網絡模型的訓練在50輪次后開始收斂,精確率和召回率區域穩定,保持在99%左右,mAP0.5保持在0.997以上。
(a)精確度
(b)召回率
圖7" 改進后訓練結果
P-R曲線是用于評估二分類模型性能的一種常用方法,它將模型的精度和召回率繪制成一條曲線。P-R曲線下面積(AUC)是評價模型性能的一個重要指標,它的值介于0到1之間,數值越大代表模型的分類性能越好。總體可以看見識別的精確度達到99%以上,達到了不錯的效果。
表1給出了不同算法下對無人機識別的各個評價指標參數。
表1" 不同算法下各項指標
算法 mAP0.5 mAP0.5:0.95 Precision Recall
YOLOv3 0.881 0.520 0.890 0.900
YOLOv5 0.945 0.612 0.947 0.940
改進YOLOv5 0.997 0.788 0.997 0.995
3.3" 測試集驗證
為進一步測試基于改進YOLOv5算法對無人機的識別能力,本實驗通過在網上搜索非訓練集和驗證集的無人機圖片進行測試。可以達到如圖8所示的識別結果。可以看到在不同場景下,該模型都能識別出圖片中的無人機,且無人機的識別準確率基本大于80%,得到不錯的結果。
表2給出了訓練集與驗證集的損失函數變化曲線。
表3給出了訓練集與驗證集的錯誤率變化曲線。
圖8測試結果圖
表2" Loss函數
Loss函數 0 10 20 30 40
train 6.09 1.19 0.32 0.21 0.20
val 6.61 1.63 0.59 0.48 0.47
表3" top1err函數
top1err 0 10 20 30 40
train 0.96 0.32 0.06 0.03 0.01
val 0.98 0.41 0.13 0.12 0.11
DeepSORT算法的評價指標主要為Loss曲線和Top1err曲線。是表示訓練集和驗證集的損失函數和錯誤率變化的曲線圖。
Loss曲線記錄了每次迭代的損失函數值,生成的Loss曲線是衡量DeepSORT算法性能的重要指標之一。可以看出Loss曲線在訓練期間中體下降,說明網絡的性能在不斷提升。
Top1err曲線圖的橫軸代表分類器對無人機跟蹤預測為另一類的錯誤率,縱軸代表分類器選擇該類別預測輸出時的錯誤率,可以看出隨著訓練進行,錯誤率在慢慢降低,該曲線的下降區域越低,表示分類器的性能越好。
4" 結" 論
綜上所述本實驗基于深度學習的YOLOv5算法來達到對無人機進行識別,通過引入CBAM注意力機制、DeepSORT跟蹤算法的方式對原始YOLOv5模型進行改進,得到了改進YOLOv5算法的無人機識別跟蹤模型。實驗結果表明,該模型能有效識別出不同場景下的無人機,且提高了識別精度,具有一定的魯棒性,為未來無人機的識別技術提供一定的參考。
參考文獻:
[1] 朱超磊,金鈺,王靖嫻,等.2022年國外軍用無人機裝備技術發展綜述 [J].戰術導彈技術,2023(3):11-25+31.
[2] 張琛,金偉,郭佳.我國民用無人機產業發展與展望 [J].中國安防,2022(3):52-56.
[3] 王雪玉.工業級無人機飛行安全規制的反思與轉型 [J].行政與法,2022(10):121-129.
[4] 馮志軒,余嬌.淺談無人機飛行的空管保障措施 [J].科技資訊,2019,17(4):112-113.
[5] 曹春詩.民用無人機侵犯隱私權的立法研究 [D].西寧:青海師范大學,2022.
[6] 段儒杰.基于聲音的無人機被動探測方法及系統設計 [D].南京:南京信息工程大學,2022.
[7] REDMON J,DIVVALA S,GIRSHICK R,et al. You Only Look Once:Unified,Real-Time Object Detection [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR).IEEE,2016:779-788.
[8] 胡繼港,楊杰,祝曉軒.一種基于YOLOv5的家用物體檢測優化算法 [J].青島大學學報:工程技術版,2023,38(2):26-30+36.
[9] LIANG N,LIU Q,XU J,et al. Target-specific sentiment analysis based on multi-attention convolutional neural net work [J].Computer Research and Development,2017,54(8):1724-1735.
[10] 段必沖,馬明濤.基于改進YOLOv5算法的口罩檢測研究 [J].計算機工程與應用,2023,59(16):223-231.
作者簡介:魏麟(1972—),男,漢族,四川資陽人,教授,碩士,主要研究方向:人工智能飛行副駕駛、通用航空電子系統;通訊作者:何峻毅(1998—),男,漢族,四川成都人,碩士研究生在讀,主要研究方向:航空電子、航空器系統工程。