基于改進YOLOv5的機場目標檢測方法

2023-06-09 06:52:02耿文博

現代計算機 2023年6期

董兵，耿文博，楊軻，吳悅

（中國民用航空飛行學院空中交通管理學院，廣漢 618300）

0 引言

圖像目標的視覺識別與精確定位是目前計算機視覺領域的研究重點之一。并且隨著衛星遙感技術的提高和空天技術的民用化發展，使用遙感圖像進行信息提取與利用成為可能。2012 年，卷積神經網絡Alexnet［1］在ImageNet 分類競賽中奪魁，推動了深度神經網絡的發展，VGG［2］、NIN［3］等基于機器視覺的檢測技術正式進入了深度學習階段，深度學習采用具有非線性信息處理單元的多層建模進行特征提取。作為一種黑盒分層的端到端屬性的系統，將圖像檢測中的特征提取和分類兩個基本要素，整合到了一個自適應學習框架中。目前，主流的目標檢測算法有以YOLO［4?6］系列為代表的一階段法和RCNN 系列的兩階段法。本文主要研究機場區域遙感圖像中的航空器的目標檢測與定位，并最終實現全天候復雜場景下的場面監視。此研究可以顯著提升機場監視水平和智能程度，減少所需的大量人力物力，對智慧民航中提出的建設智慧機場、發展智慧監視等目標有較大的實際意義。

隨著模型復雜度的增加，對數據集的體量和要求也進一步提高。傳統數據集標注需要花費大量人力和時間，對于大型模型的訓練和后續研究是極為不利的。為解決上述問題，GAN［7］（generative adversarial network）對抗式生成網絡被提出，該方法通過一對生成器和鑒別器學習樣本的分布，其設計初衷就是為了高效率、低成本地生成帶標注的訓練數據集，這個過程是在不斷優化、改進中自動完成的，最重要的是該算法生成的數據是全新的，因此，當數據量不足時，可以采用對抗式生成網絡進行擴充。

當前，在CV（computer vision）計算機視覺領域以CNN（convolutional neural networks）進行特征提取成為主流，隨著卷積神經網絡層數的加深和模型復雜度的提高，各類目標檢測算法的檢測精度和速度都有提高，但是網絡在特征提取過程中存在的底層信息丟失、特征間關聯弱化的情況也愈發嚴重。近年，transformer［8］一經問世，不僅推動NLP 自然語言處理領域的發展，也影響了計算機視覺領域的發展，VIT［9］的提出，改變了在圖像處理中唯CNN 的局面，同時也打通了CV 與NLP 兩大界的壁壘，該模型通過將圖像打散成一塊塊補丁的形式直接送入trans?former網絡，將傳統像素點式的圖像處理問題轉換成了文字處理問題，在降低任務復雜度的同時顯著增強先后特征之間的聯系，而這是卷積神經網絡難以實現的。

1 YOLOv5算法簡介

YOLOv5 目標檢測算法，較YOLOv4 算法的改進主要體現在加入了Focus 結構、SilU 激活函數和采用跨特征的CSPDarknet 網絡。其中Focus網絡結構就是將高寬信息整合到了通道信息，使得輸入通道數放大了四倍，堆疊后的RGB 圖像變成了十二個通道。類似于步長為2的二維卷積層，Focus 在像素級別以1 為間隔提取像素，并將獲得的獨立特征層進行堆疊。同時，這種將高寬平面的信息集合到通道維度的方式可以有效緩解采樣帶來的特征丟失。以原始輸入圖像640 × 640 × 3為例，Fucus結構會先采用切片得到320 × 320 × 12的特征層，再經過卷積核拼接后得到320 × 320 × 64的有效特征層。

SiLU 可以視作在Sigmoid 和ReLU 激活函數的基礎上添加了下界、平滑、非單調的特性。在深層深度神經網絡的訓練上采用SilU 作為激活函數的效果好于采用ReLU。 YOLOv5 采用CSPDarknet 作為主干特征提取網絡，可以從輸入圖像中抽取豐富特征的同時，也能有效緩解深度神經網絡中常出現的梯度重復計算的問題，大幅減少了模型參數量，有利于模型的端到端部署，YOLOv5網絡架構如圖1所示。

圖1 YOLOv5網絡架構

2 模型改進

2.1 Focal Loss

目標檢測本質上是一個密集采樣的過程，將標注的真實框與生成的大量預測框進行匹配，樣本配對成功的為正，反之為負。顯然，這個過程中的正負樣本存在比例失衡，同時也存在匹配難易程度上的不平衡。機場區域的飛機目標在遙感圖像中的占比面積小，即所述的正負樣本類別不平衡的問題。因此，提出采用一種Focal Loss 改善以上狀況，即控制正負樣本權重和難易樣本權重，并將置信度損失的量級增大到與回歸損失和分類損失相同的級別。Focal Loss 是一種有兩個方面的特點損失函數計算策略。分別是如何分配正負樣本的權重以及把握難易分類樣本的權重。正負樣本的定義如下：目標檢測任務本質上就是密集采樣，以單張圖像為例，將真實錨框與預先生成的大量先驗錨框進行配對，符合篩選門檻標準的先驗框就是正類樣本，反之為負類樣本。難易分類樣本的概念為：假設存在一個二分類問題的網絡預測結果，預測比較準確的是易分類的樣本，預測程度不夠好的是難分類樣本。二分類交叉熵與多分類交叉熵是有區別的，通常在做二分類工作時以Sigmoid 函數作為激活函數，若輸出結果為正類的概率為p，則樣本為負類的概率為1 -p，二分類任務交叉熵損失公式為

對于多分類任務，softmax 函數通常被作為激活函數，多個輸出結果都有對應的概率值且總和為1，其交叉熵損失函數公式為：

Pt用以表達樣本分類的難易程度，通常該值大于0.5 為易分類，反之為難分類，且值越大表示預測越準確，在模型訓練時，難分類樣本通常受到更多關注，因此選擇在損失函數中提升難分類樣本的權值比重，公式如下所示：

具有低Pt值的難分類樣本，將造成(1 -Pt)值的增大，同理，易分類樣本的(1 -Pt)值會減小，即較初始CE Loss，Focal Loss都產生了不同趨勢的衰減，但衰減程度的多少取決于樣本分類的難易程度，同時衰減的程度由超參數γ決定，γ值越大則損失下降的程度越明顯。

2.2 ECA注意力機制模塊

在SE 通道注意力機制施加的過程中，總是會學習所有通道數之間的聯系，導致模型運算量的增加，這也是性能和復雜性之間的矛盾。針對上述情況，提出ECA 注意力機制，采用適當的跨通道交互可以在顯著降低模型復雜度的同時保持性能。其架構如圖2所示。ECA注意力機制通過將全連接層轉變為一維卷積的形式有效減少了參數計算量，使得模型可以按輸入通道數進行卷積核大小的自適應計算，從而實現對SE注意力機制的改進。

圖2 ECA注意力機制

3 CycleGAN數據集改進

近三年，GAN對抗式生成網絡的提出極大推動了計算機視覺領域的發展，尤其在圖像修復、風格遷移等領域得到了廣泛應用。GAN 由一組配對的生成器和判別器構成，兩個模型通過對抗的方式學習樣本的底層分布，并不斷提高各自的性能，進而生成新的、從未出現過的標注數據。公式（4）反映了生成器G和判別器D通過不斷的交互迭代進行優化，并最終達到納什均衡的過程。

其中：Z是隨機噪音，Pz(z) 指隨機噪聲Z服從的概率分布，G(Z;θj) 生成器，x~Pdata是真實數據服從的概率分布，D(X;θd)判別器。

如圖3所示的CycleGAN 是在GAN 的基礎上提出的，不同于pix2pix 所提的成對數據風格遷移， CycleGAN 的優勢在于無需在場景圖像集與指定場景影像集間建立一一對應的映射關系。損失函數包括公式（6）所示的GAN的損失和循環一致性損失。

圖3 CycleGAN示意圖

LossGAN 的作用在于使得網絡學習到目標背景的風格，LossCycle 的目的就是保證在生成過程中主體內容的不變性。

4 訓練改進

4.1 優化器改進

隨機梯度下降作為神經網絡一種高效的梯度更新優化器，可以按照較快速度更新模型中的參數，為應對多樣化數據集、提高模型魯棒性，通常使用更小規模的批量隨機梯度下降，這會導致梯度下降過慢、延長模型收斂時間、容易陷入局部最優且無法逃脫的問題。動量優化器是一種學習慣性（動量）的梯度更新優化器，與累積梯度方向一致時加速模型收斂，反之減弱模型震蕩影響。Adam 正是在隨機梯度下降的基礎上，融合了動量累計梯度思想的一種有效的梯度更新優化器，有著計算高效、占用內存少、收斂快速的優點。

4.2 mosaic數據增強

近些年深度學習網絡不斷縱深發展的同時，也推動了計算機視覺領域進步，針對圖像的目標檢測、語義分割、人體姿態估計等復雜項目都有不同程度的進展，伴隨深度神經網絡層數的加深，模型的參數量也達到了千萬級甚至更高的水準，而這更容易導致過擬合的發生，因此需要相應地改進數據增強和正則化技術以提升卷積神經網絡的魯棒性與性能表現， Cutout［10］、Mixup［11］等方法應運而生，并且它們僅作用在數據集上且不改變網絡內部結構。Dropout 通過隨機刪除指定圖像特征來添加網絡噪音，Cutout的初衷是為了解決物體遮擋的問題，利用全零的矩形遮擋仿真生成新的虛擬圖像。Mixup是一種多圖的數據增強方式，在單個圖像區域上將兩張圖片及其標簽按線性插值的比例進行融合。Cutmix 方法結合了Cutout 和Mixup 各自特點，對單張圖片部分區域遮擋并以其他圖像進行填充。Mosaic 數據增強將Cutmix 拓展為四個填充融合區域，極大改善了模型的魯棒性和整體表現。

Mosaic 數據增強是YOLOv4提出的一種可以顯著提高訓練效率的手段，其步驟如下：首先讀取圖片及其標簽并創建一張背景，按比例將四張圖片依次放在底圖四個角的位置并調整先驗框到相應位置；然后將四張圖片合并為一張圖片；最后刪除不合理位置的先驗框：例如部分超出邊界的先驗框以及調整后不在其原先圖像中的檢驗框。Mosaic 數據增強通過依次隨機放縮、隨機拼接的方式增加了許多小尺度目標，極大豐富了數據集，進而提高了模型的魯棒性和泛化能力，同時檢測四張圖片的策略也減少了對minibatch 的需求，使得在單GPU 條件下也可以獲得良好的訓練效果，為后續搭建端到端便攜目標檢測平臺奠定了基礎。

4.3 標簽平滑

神經網絡的梯度反向傳播機制會迫使預測結果不斷趨于先驗結果，例如二分類問題會不斷逼近0 和1 兩個極端，這將使得模型對數據及其標簽過于自信和陷入過擬合情況的出現，同時對于數據集中的錯誤標簽有較大波動和損失。提出采用一種為抵抗網絡模型極端趨勢的、且能夠同時解決過擬合和過度自信兩方面問題的正則化技術，即標簽平滑［12］。被視為正則化技術的原因在于標簽平滑可以削弱softmax 輸入值的極端化。

出發點是默認數據集中存在比例為e的錯誤標簽，使模型對真實的錯誤標簽有更好的適應力。同樣以二分類為例，交叉熵損失函數公式如下：

將上式加權平均并取yi =1- yi以簡化，最終可以得到與原交叉熵函數相同形式的表達式：

我們把上面兩個式子按概率加權平均，就可以得到：

為了簡化上面的式子，我們令yi'=ε(1 -yi)+( 1 -ε)yi'，可以得到：

標簽平滑前后的概率p分布如下：

其中：ε為超參數，通常取0.05等，通過上述概率分布的變化可見，標簽平滑的核心在于以一個大于零的較小數ε和小于但接近1 的1-ε替換掉直接取0 和1 的趨勢，對于多類別如k個分類問題則以ε/k- 1代替0。

4.4 余弦退火

通常模型進行梯度下降的最后階段往往需要更小的學習率完成收斂，余弦退火學習率的下降體現了余弦函數半周期先緩陡再緩的特點，原理類似于帶重啟的隨機梯度下降，按周期規律模仿SGD 的熱重新啟動，重啟的目的是避免傳統隨機梯度下降可能陷入的局部最優，關鍵之處在于余弦退火學習率的重啟并非從零開始，而是以很大的學習率模擬，且使用先前通過梯度下降計算損失函數得到的值作為初始值，公式如下所示。

ηmax、ηmin分別代表學習率上下限，規定了學習率的范圍。Tcur表示已運行的epoch 數，Ti代表訓練模型的epoch數。

如圖4 代表了當設置ηmax=0.1，ηmin=0.0001且令每10輪epoch調整一次的共計50個epoch學習率余弦退火示意，簡言之，余弦退火通過大于傳統的學習率下降，到達局部最優記錄后重啟，再按余弦周期性變化以得到多于常規隨機梯度下降的局部最優解，也獲得更優的全局結果。

圖4 余弦退火示意圖

5 實例驗證

5.1 數據集與評價指標

數據集來源于武漢大學RSOD［13?14］航空遙感數據集和手工標注數據集，共有12134個飛機目標在內的1526 張航空遙感圖像。針對復雜環境的目標檢測能力下降問題，本文通過采用所提SR-CycleGAN 依次進行風格遷移和超分辨率的方式進行數據集增廣，樣例如圖5所示。

圖5 數據集樣例

評價指標是指在目標檢測任務中反饋識別結果好壞的指標，主要包括精確率（precision）、查全率（recall）、F1 值、平均精度（average preci?sion，AP）和顯示檢測速度的FPS值組成，其中，F1 值是衡量算法的有效性的重要指標，通過計算精確率和查全率的調和平均數獲得；由精確率和查全率組成的曲線被稱為PR 曲線，AP 值是PR 曲線圍成的面積，用以反映檢測模型對某一類的識別效果。FPS 表示每秒檢測圖像的幀數，當檢測的FPS值大于25時被視作實時檢測。

其中：TP、FP、FN依次為選中正類、選中負類和未選正類。FN表示正類未被選，所提PR曲線由p(r) 表示，MAP是多類別的平均AP值，P與R分別表示精確率與查全率。

5.2 算法對比

為驗證所提改進策略的有效性，設計了如表1 所示的算法對比，按行依次為Faster?RCNN、SSD、YOLOv4、YOLOv5s、YOLOv5sf 和本文算法。其中，Faster?RCNN 目標檢測算法是經典的兩階段算法，由于需要先提取候選區域后分類識別，檢測效果優于SSD 算法，但FPS僅有14.17，無法滿足實時檢測的需求。SSD目標檢測算法的檢測速度很好，但缺乏特征融合的架構設計，導致算法檢測精度不足。YOLOv4目標檢測算法由于SPP池化層和PAnet加強特征提取網絡的結構，具有良好的檢測效果。YOLOv5s 是輕量級YO?LOv5 網絡，得益于Focus 結構等多種策略，其檢測能力優于YOLOv4 算法。YOLOv5sf 是本文在原YOLOv5s 網絡基礎上添加Focal loss 機制后的模型。由于該方法緩解了正負樣本不平衡的狀況，使得較原模型的檢測精度提高了0.77%。最后，所提算法是指在YOLOv5sf 模型的基礎上繼續添加ECA 注意力機制，本文算法較原YOLOv5s 目標檢測算法的MAP 值提高了2.79%，其中精確率提高了2.55%，召回率提高了0.49%，檢測速度和模型參數量基本不變。各算法的PR 曲線圖和實際檢測效果圖如圖6、圖7所示。

表1 對比實驗結果

圖6 PR曲線圖

圖7 實際效果對比圖

6 結語

為提升機場場面監視能力、提高復雜環境檢測能力，基于YOLOv5s 目標檢測算法提出了改進：第一，提出采用CSP-Darknet53作為主干特征提取網絡，并以深度可分離卷積替代普通卷積，大幅減少模型參數量。第二，為改善復雜環境檢測能力，采用CycleGAN 仿真夜間場景。第三，融合transformer模塊，增強模型在深層訓練中對語義的關注。最后，以ROSD航空遙感數據集為例，證實了所提算法的有效性。下一步將對霧霾場景及遮擋等問題進行研究，為復雜場景下的機場監視問題提供更優的解決思路。