摘 要:紅外無人機目標檢測在軍民領域的應用前景廣闊。由于無人機目標尺度較小,空中環境復雜多變,目前普遍存在檢測率低和誤報率高的現象。針對復雜場景下紅外無人機目標檢測不良等問題,本文提出ST-YOLOA目標檢測模型。首先,使用Swin Transformer網絡架構和協調注意力(CA)機制搭建STCNet骨干特征提取網絡;其次,特征融合部分采用帶殘差結構的PANet路徑聚合網絡構建特征金字塔提升整體特征提取能力,同時改進了上下采樣方式以增強檢測能力;最后,使用解耦檢測頭預測無人機目標的位置。試驗結果表明,本文提出的模型檢測精度為92.8%,檢測速度達到了22幀/s,這表明該模型與其他模型相比具有較好的檢測效果,且基本滿足實時性檢測要求,對于多無人機目標場景下的檢測具有現實意義。
關鍵詞:紅外無人機; 目標檢測; Swin Transformer; 協調注意力機制; STCNet
中圖分類號:TP391.4 文獻標識碼:A DOI:10.19452/j.issn1007-5453.2024.02.005
基金項目: 國家自然科學基金(62276274);航空科學基金(201851U8012);陜西省自然科學基金(2023-JC-YB-528)
隨著無人機技術[1-2]的快速發展,無人機濫用的風險顯著增加,對公共安全[3-4]構成了相當大的威脅。有效對抗非合作無人機已成為一個緊迫的社會保障問題。作為反無人機系統的關鍵組成部分,實現非合作無人機的精確檢測是進一步對抗的基礎。紅外無人機弱小目標檢測技術是一種基于紅外技術的非接觸式無人機檢測技術,通過紅外傳感器對空中的無人機弱小目標進行實時監測和識別。
在早期研究中,研究人員根據紅外圖像特征,提出了背景估計的方法[5],結合紅外圖像目標與背景之間的差異特性,部分基于局部對比度的方法被提出[6-7]。董麗麗等[8]對L.Itti等[9]提出的人類視覺模型進行了修正,使之更適用于紅外弱小目標檢測。此外,D. J. Gregoris等[10]將小波變換引入紅外小目標檢測領域。吳一全等[11]提出了一種基于輪廓波變換的方法,在變換域中對背景頻段進行抑制,對目標頻段進行增強,以提高檢測能力。
隨著深度學習理論的蓬勃發展,卷積神經網絡在目標檢測領域取得了巨大進展,并表現出優異的檢測性能。基于深度學習的目標檢測算法大致可以分為雙階段目標檢測方法和單階段目標檢測方法[12]。雙階段目標檢測方法(如R-CNN[13]、Fast R-CNN[14]、Faster R-CNN[15]等)先進行區域生成得到預選框,再通過卷積神經網絡進行樣本分類和與邊框定位回歸,檢測精度高但檢測效率較低;單階段目標檢測方法(如YOLO[16]、SSD[17]、CenterNet[18]等)則通過主干特征提取網絡直接回歸得到目標的位置信息及分類結果,檢測速度快,但相比于雙階段檢測方法容易出現誤檢、漏檢的現象。目前,基于Transformer的目標檢測算法大多是在DETR[19]算法的基礎上進行改進,也有一些是將通用的Transformer主干網絡應用到目標檢測任務中,同樣取得了很好的結果。Zhu Xizhou等[20]提出了可形變的DETR模型,融合了可形變卷積[21]中稀疏空間采樣的優勢和Transformer強大的關系建模能力。此外,Dai Jifeng等[22]提出了一種無監督預訓練的UP-DETR目標檢測算法。
盡管以上研究人員對紅外目標多尺度、噪聲雜波大、背景復雜等問題進行了研究,但識別精度和計算速度仍然限制了這些技術在無人機目標檢測領域的應用。針對以上問題,本文選擇了Swin Transformer和YOLO檢測模型作為基礎模型,提出了一種更符合現實復雜環境的、更適應紅外圖像的無人機目標檢測模型。我們將其命名為ST-YOLOA。
1 ST-YOLOA目標檢測模型
首先對ST-YOLOA目標檢測模型進行總體概述,然后分別從特征提取(主干)、特征融合(頸部)、目標檢測(損失)三個部分對ST-YOLOA模型的設計思路和網絡架構進行詳細論述。ST-YOLOA網絡結構如圖1所示。圖1中,紅色虛線框為注意力模塊添加位置,Conv、BN和Silu分別表示卷積、批量歸一化和SILU激活函數,Concat表示全連接操作,Cls、Reg和Obj分別表示分類、定位以及置信度得分,H、W和C表示特征圖的寬度、高度和通道數。
1.1 概述
(1)骨干
在ST-YOLOA中,本文提出一個名為STCNet的骨干網絡。它整合了Swin Transformer和CA注意力機制的優勢。相比于傳統的基于CNN的骨干特征提取網絡在目標定位時僅利用區域提供的信息,STCNet具有動態注意和全局建模能力,考慮遠程依賴關系,具有良好的性能。STCNet網絡采用分層架構,由Patch Embedding層、Swin Transformer Block層和CA-Patch Merging層三部分組成。
(2)頸部
在ST-YOLOA的頸部,仍然使用PANet構建特征金字塔進行特征深度融合。此外,還在頸部引入SE和CBMA注意力機制,增強對目標信息的關注度,進一步提升模型性能。
(3)損失
損失函數的目的主要是使模型定位更準確,識別精度更高。因此,ST-YOLOA中使用更加先進的EIOU Loss,加速收斂并提升模型性能。
1.2 特征提取部分
1.2.1 Patch Embedding模塊
Patch Embedding模塊首先在特征提取網絡前端對圖像進行分塊處理,將圖像分割成4×4大小的互不重疊的圖像塊,使每個圖像塊的特征維數為4×4×3,再通過線性變換的方式投影特征維度到任意維度,使得原始的二維圖像轉換成一系列一維的嵌入矢量,轉換后的嵌入矢量輸入三個stage特征提取層生成分層特征表示。其結構如圖2所示,W和H為輸入特征圖的長和寬,d為通道維數,N為批量大小。


1.2.2 Swin Transformer模塊
Swin Transformer模塊采用移動窗口的形式計算像素之間的注意力,有助于前層窗口的連接,在降低原有注意力計算復雜度的同時克服了缺少全局效應的缺點,顯著增強了建模效果。

式中,z?i和zi分別為第i個窗口W-MSA模塊和MLP模塊的輸出。
1.2.3 CA-Patch Merging層
Patch Merging層在骨干網絡中起池化作用,能夠降低特征圖分辨率和調整通道數,從而形成分層設計,同時也能夠節省一定的計算量,其工作過程如圖4所示。




它通過精確的位置信息對長距離依賴性進行編碼,使本文模型能夠有效地利用全局上下文信息。與此同時,CA兼具通道域和空間域的注意機制。它的引入能夠更好地捕獲方向感知和位置敏感信息,以便更加準確地定位識別感興趣對象,進一步提高特征表達能力。
1.3 特征融合部分
1.3.1 改進的CSPLayer-SECSP
CSPLayer主要分為兩部分,其結構參照圖1。主干部分由卷積分支和殘差分支組成,其余部分通過一個1×1卷積層直接連接到CSPLayer輸出部分。殘差模塊的瓶頸層(bottleneck)結構是CSPnet的重要組成部分,其堆疊部分由一個1×1卷積和一個3×3卷積組成,并在最后使用捷徑連接將初始輸入直接添加到卷積層的輸出中。CSP網絡的特征提取過程大都是在殘差模塊中進行的,其應用極大地緩解了模型的梯度消失問題。



反卷積上采樣可以近似看作卷積的逆操作,它通過引入訓練參數進行學習,能夠較好地還原特征圖,但容易產生棋盤效應,使圖像中出現像素塊。插值法則不需要學習任何參數,根據已知像素點對未知的點進行預測估計,從而可以擴大圖像的尺寸,達到上采樣的效果。因此,本文使用雙三次插值算法代替反卷積進行上采樣,在保留圖像原始信息的基礎上減少了大量參數運算。
1.4 目標檢測部分
考慮到紅外圖像中復雜環境下無人機目標需提取更多特征信息的現實問題,常用的耦合檢測頭會影響模型性能,無法滿足復雜環境紅外圖像無人機檢測任務。故STYOLOA網絡模型將分類和回歸任務分開,采用解耦的檢測頭進行目標檢測實現目標位置和邊界框的預測輸出,大幅提升了收斂速度,提高了模型的精度。


綜合上述分析,本文提出的ST-YOLOA檢測模型適用于復雜環境下的紅外圖像無人機目標檢測,具有特征提取能力強、高低層特征信息利用率及信息融合度高、魯棒性能好等優點,更適用于現實條件下的無人機目標檢測。
2 試驗結果與分析
2.1 試驗環境
本文試驗數據基于自行構建的紅外無人機數據集,利用紅外相機拍攝無人機群多種飛行狀態下的序列視頻,對視頻進行截取,得到無人機群飛行圖像,再進行有效篩選,獲取6900張紅外圖像的無人機群數據集,自行構建的數據集具備無人機目標多、變化尺度大、分布密集等特點,同時還具有云霧遮擋、建筑物背景復雜等干擾因素。
試驗數據集按照8∶2的比例隨機劃分訓練集與測試集,并在訓練集中隨機選取20%作為驗證集。同時,為了增加數據的多樣性、保證模型具有更好的訓練效果,本文使用Mosaic、Mixup兩種數據增強方式對數據集進行數據增強操作。
本文試驗超參數參照參考文獻[23]~[25],主要設置為:訓練周期為300次迭代,模型最大學習率為0.01、最小學習率為0.0001,優化器選用“SGD”隨機梯度下降,權值衰減為0.0005,學習率下降方式采用“COS”余弦下降,并采用多線程數據讀取加快數據讀取速度。測試時的預測概率閾值為0.5,置信度為0.001,非極大值抑制閾值為0.65。
2.2 對比試驗
試驗選擇目標檢測的平均精度(mAP)、檢測速度(FPS)作為評價檢測算法性能的指標。為客觀評價STYOLOA模型的檢測效果,本文與其他現有目標檢測方法進行了對比試驗。對比算法范圍涵蓋廣泛,其中,Faster RCNN和SSD為經典目標檢測模型,YOLOv5、YOLOX是近年新公布的高性能目標檢測模型,YOLOv7為當前最先進的檢測模型之一。同時,本文將Swin Transformer在YOLOv5和Faster R-CNN框架下進行試驗驗證分別為STYOLOv5和ST-Faster R-CNN,對比試驗結果見表1。
雖然SSD檢測速度更快,但試驗證明其紅外無人機目標檢測能力較差,檢測準確率較低。Faster R-CNN檢測精確率僅僅稍好于SSD算法,仍有較大提升空間,即使是基于Swin Transformer的Faster R-CNN算法精確率提升也極為有限。ST-YOLOA算法的mAP@0.50、mAP@0.50:0.95在對比試驗中是最高的,檢測速度相比于原始的YOLOX算法有所降低,但是mAP@0.50相比于原始的YOLOX提升了8.03%。YOLOv5、YOLOv7和ST-YOLOv5都具有不錯的檢測準確率和檢測速度,但是和本文所提的ST-YOLOA算法相比,檢測準確率還有較大的提升空間。
針對云霧背景、目標重疊、目標密集、尺度較小等復雜空中環境,對部分典型算法進行試驗對比,結果如圖6所示。可以發現,在云霧背景干擾的情況下(如測試1、測試2),ST-YOLOv5、YOLOv7和YOLOX算法均存在較多漏檢的情況,當目標重疊且密集時(如測試3、測試4),此類算法難以實現紅外無人機群目標的檢測任務。綜合來看,本文提出的ST-YOLOA算法優于其他幾種對比算法。

3 結束語
針對紅外無人機目標檢測不良等問題,本文提出了STYOLOA 紅外無人機目標檢測模型。通過研究,得出以下結論:
(1) 本文提出STCNet骨干網絡提取無人機目標特征信息。該網絡不僅具有Swin Transformer出色的基于全局的信息建模能力,而且利用CA注意力捕獲位置信息和通道關系,有效地抑制紅外圖像中特征提取不足的問題,在不同環境下獲取更顯著的特征信息,增強特征信息處理能力。
(2) 基于改進的PANet構建特征金字塔網絡進行高低層特征深度融合,有效利用語義信息和定位信息,緩解了局部信息干擾和注意力分散的問題。使用雙三線性插值上采樣保留特征圖原始信息,增強了檢測的準確性。
(3) 將目標檢測的分類與回歸任務分開處理,有效減弱特征圖中的噪聲對檢測精度的影響。使用EIOU作為定位損失函數,加速收斂,解決了樣本不平衡問題,增強了模型泛化能力。在紅外無人機數據集上試驗并用測試集驗證,本文提出的模型檢測精度為92.8%,檢測速度達到了22幀/s。未來將對模型進行輕量化處理,在保證算法檢測精度的同時提升檢測速度。

參考文獻
[1]周龍,趙令公,王鋼林,等.固定翼有人飛機無人化改造進展研究[J].航空科學技術,2023,34(8):11-17. Zhou Long, Zhao Linggong, Wang Ganglin, et al. Research on the progress of unmanned transformation of fixed wing manned aircraft[J]. Aeronautical Science Technology, 2023, 34(8): 11-17.(in Chinese)
[2]陳宇恒,陳進朝,陳雪聰.基于改進貪心算法的無人機集群協同任務分配[J].航空科學技術,2022,33(4):13-18. Chen Yuheng, Chen Jinchao, Chen Xuecong. Collaborative task allocation of unmanned aerial vehicle clusters based on improved greedy algorithm [J]. Aeronautical Science Technology, 2022,33 (4): 13-18.(in Chinese)
[3]Svanstr?m F, Alonso-Fernandez F, Englund C. Drone detection and tracking in real-time by fusion of different sensing modalities[J]. Drones, 2022, 6: 317.
[4]Dewangan V, Saxena A, Thakur R, et al. Application of image processing techniques for UAV detection using deep learning and distance-wise analysis[J]. Drones, 2023, 7: 174.
[5]柯賢貴,陳正鑫,張越遷,等.基于多尺度寬激活殘差注意力網絡的圖像去塊效應[J].四川大學學報(自然科學版),2022,59(6): 89-98. Ke Xiangui, Chen Zhengxin, Zhang Yueqian, et al. Image deblocking effect based on multi-scale wide activation residual attention networks[J]. Journal of Sichuan University (Natural Science Edition), 2022, 59(6): 89-98.(in Chinese)
[6]Zhang Hong, Zhang Lei, Yuan Ding, et al. Infrared small target detection based on local intensity and gradient properties[J]. Infrared Physics Technology, 2018, 89: 88-96.
[7]姚慶安,張鑫,劉力鳴,等.融合注意力機制和多尺度特征的圖像語義分割[J].吉林大學學報(理學版),2022, 60(6): 1383-1390. Yao Qing’an, Zhang Xin, Liu Liming, et al. Image semantic segmentation based on fusion of attention mechanism and multi-scale features[J]. Journal of Jilin University (Science Edition), 2022, 60(6): 1383-1390.(in Chinese)
[8]Dong Lili, Wang Bin, Zhao Ming, et al. Robust infrared maritime target detection based on visual attention and spatiotemporal filtering[J]. IEEE Transactions on Geoscience Remote Sensing, 2017, 55(5): 3037-3050.
[9]Itti L, Koch C, Niebur E. A model of saliency-based visual at‐tention for rapid scene analysis[J]. IEEE Transactions on Pat‐tern Analysis and Machine Intelligence, 1998, 20(11): 1254-1259.
[10]Gregoris D J, Simon K W, Tritchew S, et al. Wavelet transformbased filtering for the enhancement of dim targets in FLIR images[C].Wavelet Applications. SPIE, 1994.
[11]Wu Yiquan, Luo Zijuan, Wu Wenyi. A method of small target detection in infrared image based on nonsubsampled contourlet transform[J]. Journal of Image and Graphics, 2009, 14(3): 477-481.
[12]Liu Li, Ouyang Wanli, Wang Xiaogang, et al. Deep Learning for generic object detection: A survey[J]. International Journal of Computer Vision, 2020, 128(2): 261-318.
[13]Girshick R, Donahue J, Darrell T, et al. Rich feature hierar‐chies for accurate object detection and semantic segmentation[C].IEEE Conference on Computer Vision Pattern Recogni‐tion, 2014: 580-587.
[14]Girshick R. Fast R-CNN[C].IEEE International Conference on Computer Vision, 2015: 1440-1448.
[15]Ren Shaoqing, He Kaiming, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis Machine Intelligence, 2017, 39(6):1137-1149.
[16]Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]. IEEE Conference on Computer Vision Pattern Recognition, 2016: 779-788.
[17]Liu Wei, Anguelov D, Erhan D, et al. SSD: Single shot multiBox detector[C]. European Conference on Computer Vision, 2016: 21-37.
[18]Duan Kaiwen, Bai Song, Xie Lingxi,et al. CenterNet: Keypoint triplets for object detection[C].IEEE/CVF International Confer‐ence on Computer Vision, 2019:6569-6578.
[19]Carion N, Massa F, Synnaeve G, et al. End-to-end object detec‐tion with transformers[C].European Conference on Computer Vision, 2020: 213-229.
[20]Zhu Xizhou, Su Weijie, Lu Lewei, et al. Deformable DETR: Deformable transformers for end-to-end object detection[C]. International Conference on Learning Representations, 2020.
[21]Dai Jifeng, Qi Haozhi, Xiong Yuwen, et al. Deformable convo‐lutional networks[C]. Proceedings of the IEEE International Conference On Computer Vision, 2017: 764-773.
[22]Dai Zhigang, Cai Boolun, Lin Yugeng, et al. UP-DETR: Unsupervised pre-training for object detection with transformers[C]//Proceedings of the IEEE Conference on Computer Vision And Pattern Recognition, 2021: 1601-1610.
[23]An Quanzhi, Pan Zongxu, Liu Lei, et al. DRBox-v2: An improved detector with rotatable boxes for target detection in SAR images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(11): 8333-8349.
[24]Yuan Yuan, Zhang Yuanlin. OLCN: An optimized low coupling network for small objects detection[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 19: 1-5.
[25]Wu Zhihao, Liu Chengliang, Wen Jie, et al. Selecting highquality proposals for weakly supervised object detection with bottom-up aggregated attention and phase-aware loss[J]. IEEE Transactions on Image Processing, 2022, 32:682-693.
Infrared UAV Detection Algorithm Based on Swin Transformer and Attention Mechanism
Wang Siyu1, Lu Ruitao1,2, Huang Pan3, Yang Xiaogang1, Xia Wenxin1, Li Qingge1, Zhang Zhenyu1
1. Rocket Force University of Engineering, Xi’an 710025, China
2. Science and Technology on Electro-optic Control Labotatory, Luoyang 471000, China
3. AVIC Xi’an Aeronautics Computing Technique Research Institute,Xi’an 710068,China
Abstract: Infrared drone target detection has broad application prospects in both military and civilian fields, and it is a hot research topic in the field of computer vision. Due to the small scale of drone targets and the complex and everchanging aerial environment, existing detection algorithms generally have low detection rates and high 1 alarm rates. Aiming at issues such as poor detection of infrared drone targets in complex scenarios, this article proposes a ST-YOLOA infrared unmanned aerial vehicle target detection model. Firstly, in order to improve model performance and effectively capture global information, an STCNet backbone feature extraction network is constructed using the Swin Transformer network architecture and coordinated attention (CA) mechanism; Secondly, in the feature fusion section, a PANet path aggregation network with residual structure is used to construct a feature pyramid to enhance the overall feature extraction ability, while improving the up and down sampling method to enhance detection ability; Finally, the decoupled detection head is used to predict the position of the drone target. The proposed model has a detection accuracy of 92.8% and a detection speed of 22frames/s, which is verified by experiments on an infrared drone dataset. This indicates that the model has better detection performance compared to other models, especially in complex environments, and basically meets the real-time detection requirements. It has practical significance for detection in multi drone target scenarios.
Key Words: infrared unmanned aerial vehicle; target detection; Swin Transformer; coordinated attention mechanism; STCNet