改進的YOLOv4-tiny算法及其在無人機目標檢測中的應用

2023-01-14 05:58:00楊銳，黃山

電光與控制 2022年12期

楊銳，黃山

(四川大學電氣工程學院，成都 610000)

0 引言

無人機在戰斗中承擔的任務比重和權限越來越大，為應對敵方無人機的威脅，建立有效的反無人機系統極具必要性。反無人機系統主要涉及探測、跟蹤、干擾和毀傷等技術，其中探測技術是關鍵。相比傳統算法，基于深度學習的目標檢測算法具有魯棒性強、精度高的優點，在對無人機的探測過程中可起到重要作用。檢測中面臨的主要難題有：移動設備算力的限制以及復雜的背景環境導致檢測效果不佳。因此，優化出更高精度的輕量級目標檢測模型是本文的研究目標。

1 相關工作

早期的目標檢測算法如R-CNN(Regions with Convolution Neural Network features)系列[1-2]只在單層特征圖上進行檢測，其性能落后于使用多尺度進行檢測的算法；YOLO(You Only Look Once)[3]和YOLOv2[4]也只使用主干網絡提取的最后一層特征來進行預測，雖然速度很快，但是精度并不理想。2016年提出的SSD(Single Shot Multibox Detector)[5]算法首次利用了不同尺度的特征圖進行預測，將不同層的預測結果進行匯總后，再通過NMS(Non-Maximum Suppression)濾除低質量邊框，由于SSD算法利用了淺層較高分辨率的特征圖，這些特征圖包含豐富的細節與位置信息，因而提高了小目標的檢測精度。在SSD算法中，特征圖之間是相互獨立的，而后來出現的FPN(Feature Pyramid Network)通過融合多個低分辨率和高分辨率特征圖，進一步提高了精度。此后，人們普遍認為FPN的成功依賴于多層特征的融合，由此產生了一系列對于特征融合方法的研究，包括自適應空間特征融合(Adaptively Spatial Feature Fusion,ASFF)[6]算法、路徑聚合網絡(Path Aggregation Network,PANet)[7]、雙向特征融合網絡(Bidirectional Feature Pyramid Network,BiFPN)[8]等，這些方法大多數是基于FPN來改進的，并且成為最先進目標檢測器的重要組成部分，如FCOS(Fully Convolutional detection One-Stage object detection)算法[9]和YOLOv3算法[10]采用了FPN，YOLOv4[11]算法采用了PANet，EfficientDet[8]算法采用了BiFPN。

近年出現的DETR(DEtection TRansformer)[12]算法通過引入Transformer來進行目標檢測，它只使用一個C5特征就可以達到先進的檢測效果，受此啟發，CHEN等[13]提出了YOLOF(You Only Look One-level Feature)算法，該算法依然采用了傳統的CNN(Convolutional Neural Networks)，但只用了一層C5特征，通過針對性的優化，達到了媲美YOLOv4算法的精度，并且模型結構更簡單，檢測速度更快。這給人一個新的啟發：利用較少的特征層依然可以達到理想的檢測精度。然而相比YOLOv4算法，YOLOF算法對于大目標的檢測精度有所提高，而對于小目標的檢測精度卻降低了。

YOLOv4-tiny算法是在YOLOv4算法的基礎上簡化而來的，其速度快，但精度并不理想。一些文獻通過增加一個特征層來對YOLO輕量化網絡進行改進，但是這樣會增加大量的錨框使得計算量增大，影響檢測速度。而保留YOLOv4-tiny算法的兩個尺度的特征層能夠保持精度與速度的平衡，起到折衷的效果，因此，本文在不增加特征層的基礎上對YOLOv4-tiny算法進行了特征融合策略的改進，同時對邊框回歸損失函數進行了改進，以此來提高模型檢測精度。

2 YOLOv4-tiny網絡結構

圖1所示為YOLOv4-tiny網絡結構。由圖1可知，YOLOv4-tiny的主干網絡(backbone)包含3個基本卷積模塊以及3個CSP模塊，每個基本卷積模塊包含卷積層、BN層與LeakyReLU激活函數，其中，步幅為2的卷積用來對上一層的特征圖進行下采樣。CSP模塊中首先通過一個卷積層對特征進行整合，再將特征層的通道分成兩部分，第2部分分別經過3×3卷積層、一個小的殘差結構和1×1卷積層，將得到的輸出與第1部分拼接，這使得梯度流可以在兩種不同的網絡路徑上傳播、梯度信息的相關性差異增加。每個CSP模塊后接一個步幅為2的2×2最大池化層進行下采樣，形成多尺度的特征。主干網絡提取特征后，采用FPN結構將不同層級的特征進行融合，在特征融合前先用步幅為1的1×1卷積將通道壓縮到與下一層一致，再采用最近鄰插值法進行上采樣。FPN輸出的特征經過檢測頭的3×3卷積，最終得到13×13和26×26兩個特征圖用于預測。

3 對特征金字塔網絡的改進

本文保留了YOLOv4-tiny頸部模塊兩輸入兩輸出的結構，旨在保證檢測速度，在這個基礎上提出了YOLO-L2網絡。首先通過主干網絡生成C5和C4兩種不同尺度的特征圖，C5經過ResBlock-L2模塊后得到的特征和C4作為輸入來構建PACAN (Path Aggregation with Coordinate Attention Network)特征金字塔，如圖2所示，Conv3是用來將通道數從512降為256的1×1卷積；Upsampling中，采用最近鄰插值進行上采樣；Downsampling中，采用雙線性插值進行下采樣。Head1與Head2中，首先采用3×3卷積，保持通道數為256，再采用1×1卷積將通道數壓縮為(5+n)×3，其中,n為類別數。

圖2 YOLO-L2網絡結構Fig.2 Network structure of YOLO-L2

3.1 PACAN路徑聚合網絡

(1)

(2)

(3)

式中:fattention表示協調注意力操作；fresize表示上采樣以及1×1卷積操作，用于使兩個待融合特征圖的分辨率和通道數一致；λ1和λ2是可學習的變量，在進行加權時，借鑒了EfficientDet的思想，先使用ReLU激活函數將λ1和λ2的值限定為非負數，再將λ1和λ2分別除以λ1+λ2+ε得到加權系數α和β，這樣能夠保證系數和為1，這種簡單的歸一化方式具有比Softmax函數更小的計算開銷；ε是一個極小的常數，本文取1×10-4，用來防止分母為0。

3.2 協調注意力機制

采用協調注意力機制對相加融合后的特征進一步整合，通過利用兩個坐標方向的池化特征來整合空間信息，不僅能捕獲跨通道的信息，還能捕獲方向和位置的信息。對于一個輸入特征圖，用C,W和H分別表示其通道數,寬和高，在每個通道上采用H×1和1×W大小的池化核分別沿著W方向和H方向進行平均池化操作，此過程可以表示為

(4)

(5)

f=δ(F1([zh,zw]))

(6)

式中:[·]表示沿著空間維度進行拼接操作；f的通道數為(C/r)·(H+W)；非線性激活函數使用了H-Swish。下一步是分離操作，沿著空間維度把f分離成為兩個張量,并分別通過1×1卷積把通道數擴展為輸入特征圖的通道數C，經過Sigmoid函數處理后，將得到的結果與輸入特征圖相乘，起到加權的作用。

3.3 級聯瓶頸殘差模塊

受YOLOF的啟發，本文提出了級聯的瓶頸殘差模塊ResBlock-L2(L表示大尺寸卷積核,2表示級聯模塊的個數)用來增大感受野，如圖3所示，輸入端為C5，輸出端為P5,ResBlock-L2由兩個殘差模塊(Residual Block)組成。

圖3 ResBlock-L2結構Fig.3 Structure of the ResBlock-L2

每一個殘差模塊是一個瓶頸結構，在第i個(i∈{1,2})殘差模塊中，首先使用逐點卷積降維為原來的一半以減少計算量，再經過卷積核大小為i×2+3的逐通道卷積提取具有大感受野的特征，最后使用逐點卷積升高維度，卷積層后面均有一個BN層和ReLU層。第1個殘差模塊中逐通道卷積核大小為5×5，第2個模塊中的逐通道卷積核大小為7×7。使用殘差結構的目的在于：1) 通過短路連接可以確保具有小感受野的特征也能保留，這樣得到的特征圖融合了多種具有不同感受野的特征，因此本質上ResBlock-L2也是一種特征融合結構；2) 殘差結構能克服增加深度帶來的退化問題，更容易優化。沒有在殘差結構中采用空洞卷積的原因在于：空洞卷積具有網格效應，卷積核的不連續會導致部分輸入像素沒有得到計算，為了克服這個問題需要多次堆疊不同空洞率的空洞卷積層(如YOLOF采用了4個空洞殘差塊)，而堆疊過多的網絡模塊會導致計算開銷增加，不利于輕量級模型，但如果減少空洞卷積次數，比如只使用兩個級聯的空洞殘差模塊，就難以克服網格效應帶來的問題。本文使用了具有大尺寸卷積核的逐通道卷積而不是空洞卷積，最大的 7×7 卷積具有的參數量僅有0.013×106，占整個模型的比例低于 0.22%，因此增加的參數量可以忽略不計。

4 對邊框回歸損失函數的改進

YOLOv4-tiny使用的CIoU(Complete loU)[15]損失函數中的ν只是反映了寬高比的差異，而不是hgt和h,wgt和w之間的真實關系，因此提出了MEIoU (More Efficient IoU)，其表達式為

(7)

式中:ρ2(b,bgt)為預測框與真實框中心距的平方；D為真實框與預測框之間的最小包圍框的對角線長度；max(w,wgt)項不會超過最小包圍框的寬度；懲罰項的目的在于使得預測框和目標框的長寬差值減小，讓預測框能夠快速接近真實框；系數設置為0.5是為了平衡重疊面積、中心點和邊長這3個幾何因素的權重，使得它們的取值范圍都在0與1之間。

為了模擬邊框回歸過程，設置初始框中心點坐標為x=4,y=5.5，寬和高為w=2.5,h=1；目標框固定不變，其中心點坐標為x=0,y=0，寬和高為w=0.5,h=0.5；實驗采用Adam優化器，學習率設置為0.002，共迭代6000次。圖4用了9組子圖來表示在模擬迭代過程中分別采用CIoU、EIoU[16]和MEIoU 3種損失函數時在第100次、第1000次和第5200次迭代時的邊框狀態。

圖4 不同損失函數下的邊框位置變化Fig.4 The change of the bounding box when using different loss functions

圖4中，每組子圖右上角的深色框代表初始框，左下角方框代表目標框，虛線框代表迭代過程中的邊框位置，w和h表示當前step下邊框的寬和高。

圖5所示為迭代過程中邊框回歸損失對比情況。

圖5 迭代過程中邊框回歸損失對比Fig.5 Comparison of BBR loss during iteration

圖5中，MEIoU用了最少的迭代次數將回歸損失值減到了最小，結合圖4可知，由于考慮了hgt和h,wgt和w之間的真實關系，MEIoU明顯能使預測框更快地接近真實框。此外，相比EIoU，當兩個框相距較遠時MEIoU能產生更大的懲罰項；當一個框被另一個框包含時，MEIoU相當于在EIoU的基礎上將懲罰項變為原來的1/2，此時MEIoU的值介于EIoU和DIoU之間。

5 消融實驗

5.1 實驗參數設置

本文實驗訓練環境如下：操作系統為Windows10，GPU為NVIDIA GeForce GTX1660，CPU為英特爾酷睿i5-9400F，Pytorch版本為1.2.0，CUDA版本為10.1，內存大小為16 GiB。訓練策略：訓練時主干網絡加載在COCO數據集上預訓練好的模型并且凍結這部分參數，這樣可加快訓練速度；Batchsize設置為32；采用余弦退火學習率，初始值為0.003，70個Epoch后下降到最小值0.000 1并保持；優化器采用Adam；采用標簽平滑策略，平滑因子設置為0.01；NMS中置信度閾值取0.01，IoU閾值取0.5；輸入圖像縮放為416像素×416像素。

5.2 數據集

1) 自制數據集：UAV-L。

UAV-L數據集包含固定翼無人機、單旋翼無人機、多旋翼無人機3個類別，圖片通過互聯網以及實地拍攝獲得，共有2300張。采用K-means算法對標注好的數據集進行聚類可以得到6個先驗框，其大小分別為(25,21),(54,43),(101,69),(176,115),(276,184)和(368,292)，平均IoU為71.7%。

2) 公開數據集：PASCAL VOC。

該數據集一共有20個類別，在VOC數據集上進行的實驗，是將VOC2007的trainval部分(共5011張)和VOC2012的trainval部分(共11 540張)的并集作為訓練集，VOC2007的test部分(共4952張)作為測試集。先驗框的設置和官方開源代碼保持一致。

訓練過程中，分別采用光度畸變和幾何畸變進行數據增強，其中,光度畸變采用了色域變換以及隨機調整亮度、對比度、飽和度等操作，幾何畸變采用了隨機水平翻轉、裁剪和隨機尺度縮放等操作。

5.3 評價指標

UAV-L和VOC數據集的平均精度均值(mAP)均按照VOC 2012對mAP的計算方法：對每一個召回率，找到該召回率下最大的準確率，然后求其均值得到AP(Average Precision)，將所有類別的AP取平均得到mAP。通過模型進行前向推理所花費的時間來評估速度，該值不包含檢測后的其他處理過程，由多次測量取平均值得到，測量時間采用的GPU為NVIDIA GeForce RTX 2060，CPU為英特爾酷睿i5-10200H。

5.4 定量分析

5.4.1 改進前后對比

在YOLO-L2的網絡結構上去掉ResBlock-L2模塊即可得到PACAN，采用相加的特征融合方式比拼接得到的特征通道數更少，因此參數量得以減少，整個PACAN模型的參數量只有4.99×106。在VOC和UAV-L數據集上，PACAN相比YOLOv4-tiny，mAP分別提高了2.07 %和1.92%，如表1所示。本實驗環境下測得YOLOv4-tiny的mAP為75.72%；使用CPU測試時，PACAN的速度和精度均超過YOLOv4-tiny；YOLO-L2在對比實驗中的mAP最高，比YOLOv4-tiny提高3.19%；雖然在GPU上前向推理耗時比YOLOv4-tiny多了0.8 ms，但也滿足實時性。

表1 算法性能對比(VOC數據集)Table 1 Performance camparison of algorithms(VOC dataset)

表2所示為UAV-L數據集中各類別的AP值。

表2 各類別的AP值(UAV-L數據集)Table 2 AP values of each category (UAV-L dataset) %

從表2可看到，改進后模型的mAP提升了3.95%，對于各個類別來說，模型對多旋翼無人機的檢測效果最好，而單旋翼無人機的AP值不高，這在一定程度上是由訓練樣本較少導致的。

實驗中還對比了幾種不同的損失函數。文獻[16]認為邊框回歸應該聚焦于高質量邊框，因此在EIoU損失前乘了一個動態系數Iγ(I代表交并比)，得到了Focal-EIoU。實驗過程中本文將動態系數中的變量設置為不更新梯度，γ取值為1。結果表明,在本文模型中Focal-EIoU的精度均超過了CIoU，而采用MEIoU效果更佳，能夠帶來mAP 0.2%～0.4%的提升。

5.4.2 級聯殘差模塊

1) 卷積核大小的影響。

首先，為了驗證ResBlock-L2模塊對于模型性能具有進一步的提升效果，在公開數據集VOC上進行了如下消融實驗：在PACAN的基礎上，只在C5特征層加入ResBlock-L2模塊，而其他部分保持不變。

表3所示為VOC數據集中ResBlock-L2設置不同參數時的實驗結果。

表3 ResBlock-L2設置不同參數時的實驗結果(VOC數據集)Table 3 Experimental results of the ResBlock-L2 with different parameters (VOC dataset)

表3中，大尺寸是指本文提出的ResBlock-L2模塊，其特點是殘差結構中逐通道卷積的核尺寸分別為5×5和7×7，可以看到mAP值為78.62%，相比CIoU的75.72%(見表1)提高了2.90%，對精度具有明顯改善效果。

其次，為了驗證卷積核尺寸大小的影響，將每個殘差模塊中的卷積全部替換成3×3卷積再次進行實驗，結果對應表3中的小尺寸，此時，相比基礎模型mAP只提高了2.39%，而二者的計算量并無明顯區別，不同之處在于大尺寸卷積能夠提取具有更大感受野的特征。由此說明，增大感受野是導致該模型精度提升的關鍵因素之一。

2) 卷積類型的影響。

正如前文提到的，由于空洞卷積具有網格效應，要解決這個問題需要多次堆疊空洞卷積，表3中的空洞卷積是指在殘差結構中的逐通道卷積的基礎上設置大于1的空洞率，因為如果采用普通空洞卷積，參數量會顯著增大(輸入、輸出通道數為256的情況下，每增加一個普通空洞卷積參數量大約增加0.86×106)，殘差模塊數目為2時，空洞率依次設置為2和3；殘差模塊數目為4時，空洞率依次設置為2，3，4，5；殘差模塊數目為6時，空洞率依次設置為2，3，4，5，6，7。實驗結果表明：只級聯2個空洞卷積時，mAP只有77.36%，即加入該模塊后模型的性能反而降低了；當級聯4個空洞卷積時，mAP提升到了77.87%；級聯6個空洞卷積后，mAP進一步提升到了78.32%，然而依然沒能超過采用大尺寸普通卷積時的78.62%，并且參數量提升到了6.60×106，超過了YOLO-L2的5.54×106，這體現了ResBlock-L2在設計上的合理性。實驗結果表明，采用具有大尺寸卷積核的殘差結構不能有效提高對小目標的檢測精度；過少的空洞卷積會導致性能降低，而空洞卷積過多會導致參數量的提升，不利于輕量級模型。

3) ResBlock-L2嵌入位置的影響。

為了驗證ResBlock-L2嵌入位置對模型性能的影響，在YOLO-L2的基礎上改變ResBlock-L2模塊的位置，保持其他結構不變進行了如下實驗。首先，將ResBlock-L2模塊單獨嵌入到C4處(設置輸入輸出通道數為256，中間通道數為128)，然后，將其同時嵌入到C5和C4處。結果顯示同時嵌入到第5層和第4層時起到反作用，mAP降到了78.46%，并且此時參數量更大了；單獨嵌入到第4層時效果最差，mAP僅有77.73%，因為這會導致該層特征丟失部分細節信息。只將ResBlock-L2嵌入到第5層而不是其他層的原因在于：不是每一層特征都需要增大感受野，根據尺度匹配規則，不同層級的特征負責預測不同尺度的目標，最深層級的特征是用來檢測大目標的，需要足夠大的感受野，而淺層的特征并不需要。

5.5 定性分析

為了更直觀地說明檢測算法的效果，選取了一些典型的樣張進行對比分析。圖6所示為UAV-L數據集訓練的結果。

圖6 YOLOv4-tiny算法與本文算法的檢測效果對比(UAV-L數據集)Fig.6 Comparison of detection effects of YOLOv4- tiny and the proposed method (UAV-L dataset)

圖6中：從左往右第1組對比圖中YOLOv4-tiny算法對大目標造成了誤檢；第2組對比圖反映了本文算法對于小目標的檢測能力與YOLOv4-tiny算法基本一致，但二者都漏掉了最小的目標；第6組對比圖中YOLOv4-tiny算法出現了漏檢；其他幾組圖反映了本文算法檢測出的目標置信度更高、邊框定位更加準確。

6 結束語

為了進一步提升模型的精度，本文改進YOLOv4-tiny算法后提出了YOLO-L2模型，并用來對無人機進行檢測，該模型保留2個尺度的特征圖，采用一種基于協調注意力機制與路徑聚合策略的特征融合網絡，同時使用了一個殘差模塊ResBlock-L2來增大感受野以及融合具有不同感受野的特征。改進后的模型相比YOLOv4-tiny算法顯著地提高了檢測精度；采用MEIoU邊框損失函數來替換CIoU后，精度也有所提升。本文所提UAV-L數據集樣本數還比較少，未來需要對其進一步擴充。另外，輕量級模型對弱小目標的檢測效果不佳，如何在保證實時性的基礎上提升對小目標的檢測精度也是未來需要探索的方向。