基于深度學習的無人機航拍視頻多目標檢測與跟蹤研究進展

2023-10-17 04:00:46苑玉彬吳一全趙朗月陳金林趙其昌

航空學報 2023年18期

苑玉彬，吳一全，趙朗月，陳金林，趙其昌

南京航空航天大學電子信息工程學院，南京 211106

多目標檢測與跟蹤作為遙感領域的重要課題之一，廣泛應用于智慧城市、環境監測、地質探測、精準農業和災害預警等民用和軍事領域［1-4］。傳統的遙感數據獲取主要基于衛星和載人飛機平臺，這類平臺運行在固定軌道上或遵循預定路徑，其成本及飛行員的安全問題限制了應用范圍。隨著電子通信技術的發展，無人機（Unmanned Aerial Vehicle，UAV）以輕便性、易操作、低成本等優勢得到快速推廣，彌補了傳統手段受天氣、時間等限制造成的部分信息缺失。同時，相比固定攝像頭，UAV的高機動性可以使航拍范圍更為靈活可變。UAV獲取的視頻數據無論在內容上還是在時間上信息量都極大，推動了無人機航拍視頻在目標檢測和跟蹤多個領域中發揮著日益重要的作用［5-7］：① 智能交通流量監控與紅綠燈配時控制，提升交通通行能力；② 對特定區域內的人群或車輛進行安防監控、跟蹤及定位；③ 對水面艦船檢測、識別與跟蹤；④ 檢測野生動物的數量并跟蹤其運動軌跡；⑤ 分析體育運動員動作與軌跡，實現相應戰術分析；⑥ 農業區域繪圖，自動繪制飛行路線。但是，無人機航拍視頻與普通視角視頻中的多目標檢測和跟蹤任務相比，面臨諸多挑戰，例如圖像退化、目標分布密度不均勻、目標尺寸小，以及實時性等問題，近年來引起學術界和工業界的廣泛關注和大量研究。

作為計算機視覺的基本問題之一，多目標檢測和跟蹤經歷了從傳統方法階段到基于深度學習方法階段的演變。傳統方法需要手動設計特征，過程繁瑣且準確率低［8-9］。隨著UAV與深度學習技術的發展，航拍視頻的數據采集愈加便捷，易于獲得海量數據，而深度神經網絡能夠學習到具有足夠樣本數據的分層特征［10］。自2015年以來，深度神經網絡已成為多目標檢測和跟蹤的主流框架［11-12］。多目標檢測和跟蹤包括多目標檢測和多目標跟蹤2個部分。經典的深度目標檢測網絡分為2大類：雙階段網絡和單階段網絡。其中，雙階段檢測算法檢測精度高，但運行速度慢；單階段檢測算法運行速度快，但誤報率高。雙階段網絡，如RCNN（Region-CNN）［13］、Fast R-CNN［14］、Faster R-CNN［15］和Cascade RCNN［16］等，首先需要生成候選區域，然后對候選區域進行分類和定位，適于具有更高檢測精度要求的應用；單階段網絡，如SSD（Single Shot Multi Box Detector）［17］、YOLO（You Only Look Once）［18-22］系列和CenterNet［23］，直接生成坐標位置和類概率，比雙階段網絡更快。因此，更快的單階段網絡在具有高速要求的UAV實際應用中極具優勢。

本文以無人機航拍視頻的雙階段和單階段目標檢測算法為主線，回顧了2類算法的發展歷程，總結了其代表性工作，重點介紹了應對無人機視角引起的小目標增多、目標尺度跨度大、數據集頭尾分類不均衡等問題，以及提升檢測精度，采取的網絡結構優化、引入注意力機制、多種特征融合、多種網絡綜合等措施。將多目標檢測從靜態圖像擴展到視頻連續幀的范圍時，延展到了多目標跟蹤（Multiple Objects Tracking，MOT）課題。基于深度學習的MOT方法可分為基于檢測的跟蹤（Tracking Based Detection，TBD）和聯合檢測的跟蹤（Joint Detection Tracking，JDT）2類［11］。TBD算法的多階段設計結構清晰，容易優化，但多階段的訓練可能導致次優解；JDT 算法融合了檢測模塊和跟蹤模塊，達到了更快的推理速度，但存在各模塊協同訓練的問題。TBD策略可分別優化檢測和跟蹤，更加靈活，適用于復雜場景，但推理時間長。相反，JDT將檢測與跟蹤模型合并到一個統一的框架中，通過添加跟蹤分支來修改檢測器，并根據目標的共性實現檢測和跟蹤。在普通視角下的應用中，JDT在簡單場景中比TBD表現得更好更快，但處理復雜的場景時效果不佳，因此UAV視角下的多目標跟蹤多遵循TBD模式。本文以TBD模式為主要框架，闡述了基于目標特征建模、基于目標軌跡預測、基于單目標跟蹤（Single Object Tracking，SOT）輔助、基于記憶網絡增強等多目標跟蹤算法。

除了針對具體問題對多目標檢測與跟蹤算法改進之外，基于無人機航拍視頻的多目標檢測與跟蹤數據集的構建與挑戰賽的舉辦也推動了其快速發展，其中數據集正向大規模、長時間、多樣化的方向進一步發展。本文全面梳理和比較了近年來無人機航拍視頻的多目標檢測與跟蹤任務的數據集，對面向無人機視角的多目標檢測與跟蹤的標桿挑戰賽VisDrone Challenge的主要結果進行了對比與分析。盡管在無人機視角下多目標檢測與跟蹤算法在上述數據集上取得了較高的精度，但距離實際應用還存在一定的差距，為此本文最后從諸多方面詳盡探討了未來的發展趨勢。

目前可查閱到的關于無人機視角下的多目標檢測與跟蹤的綜述有文獻［24-29］。文獻［24］介紹了深度學習在無人機航拍圖像中的目標檢測、視頻中的目標檢測和視頻中的目標跟蹤3個方向的應用，并對一些先進的方法使用4個基準數據集進行了性能評估，但在對UAV視角下的算法介紹中糅雜了普通視角下的算法。文獻［25］梳理了基于無人機的深度學習算法在環境監測、城市治理和農業管理不同領域中的應用。文獻［26］總結了利用無人機航拍圖像進行地面車輛檢測的深度學習技術。文獻［27］介紹了UAV視角下2D目標檢測的最新進展，重點關注普通視角與UAV視角之間的差異。文獻［28］綜述了無人機視角下的基于相關濾波的跟蹤算法和基于深度學習的跟蹤算法研究現狀。文獻［29］綜述了普通視角和無人機視角中目標檢測的算法，發現YOLO系列是應用最廣泛的網絡。但現有文獻仍然缺乏對多目標檢測與跟蹤最新進展的全面綜述。本文以UAV航拍視頻為研究對象，全面回顧了基于深度學習的無人機航拍視頻多目標檢測和跟蹤算法，通過系統地總結最新公開的研究論文，討論需要解決的關鍵問題和面臨的難點，并展望了未來的發展方向。本文其余部分組織如下：第1節概述了普通視角下多目標檢測與跟蹤算法進展，第2節闡述了基于深度學習的無人機航拍視頻的多目標檢測算法，第3節總結了基于深度學習的無人機航拍視頻的多目標跟蹤算法，第4節介紹了無人機航拍視頻多目標檢測與跟蹤常用數據集并對標桿挑戰賽Vis-Drone Challenge的結果進行了分析，第5節指出了基于深度學習的無人機航拍視頻多目標檢測與跟蹤面臨的困難與挑戰，第6節結合研究現狀對后續的研究方向進行了展望。

1 多目標檢測與跟蹤方法基礎

普通視角下的多目標檢測與多目標跟蹤之間存在諸多聯系。多目標檢測只需檢測出所有指定類別的目標，無需關注多個目標之間的關系；多目標跟蹤需要記錄所有目標在時間序列圖像中的關系，也就是目標的運動路徑。本節對普通視角下多目標檢測和多目標跟蹤的主要發展路線與框架進行回顧，介紹了其主要聯系與區別。

1.1 傳統目標檢測器與基于深度學習的目標檢測器

多目標檢測算法的發展脈絡可劃分為2個時期：傳統目標檢測算法時期和基于深度學習的目標檢測算法時期。而基于深度學習的目標檢測算法又分別沿著單階段與雙階段算法2條主要技術路線發展。圖1展示了從2001―2022年目標檢測的發展路線圖。

圖1 目標檢測發展路線Fig.1 Development route of target detection

1.1.1 傳統目標檢測器

以往的傳統目標檢測算法主要基于手工提取特征，代表性的檢測器主要有VJ（Viola Jones）檢測器［30］、HOG （Histogram of Oriented Gradients）檢測器［31］、DPM （Deformable Parts Model）檢測器［32］等。傳統檢測算法的流程通常為：選取感興趣區域→定位包含目標的區域→對目標進行特征提取→檢測分類。

基于自動提取特征的傳統目標檢測算法主要以幀差法為代表，通過對視頻圖像序列中相鄰幀作差分運算來獲得運動目標輪廓。Abughalieh等基于運動和顏色直方圖投影濾波器找到目標，并使用幀差法檢測運動目標，以便實現UAV視角下的目標跟蹤［33］。Baykara等采用幀差法實現運動目標檢測，對每個單獨的目標應用形態學膨脹，提升檢測精度［34］。Jiang等利用三幀差分法和中值背景減法相結合實現目標檢測，達到檢測響應和現有的軌跡假設之間有效關聯的目的［35］。然而幀差法也存在明顯的問題，其對環境穩定性要求較高，易造成目標范圍內相鄰幀差的目標重疊。

上述傳統目標檢測算法主要有以下3個缺點：準確率不高、運算速度慢、可能產生多個結果。

1.1.2 基于深度學習的目標檢測器

傳統目標檢測算法發展陷入瓶頸，性能低下。直到2012年卷積神經網絡（Convolutional Neural Network，CNN）的興起將目標檢測領域推向了新的階段。基于CNN的單階段和雙階段檢測算法，其優缺點對比如表1所示。

表1 單階段和雙階段檢測算法的優缺點對比Table 1 Comparison of algorithms for one-stage and two-stage detection

基于深度學習的目標檢測算法最初以圖像分類算法為基準，將圖像進行切塊分類，圖像塊的位置和類別作為檢測結果。隨著基于分類的算法出現了邊界目標無法檢測、定位不準確、目標多尺度等問題，相應地提出了滑動窗口、增加邊界框回歸任務、圖像金字塔等解決方法，誕生了如圖2所示的雙階段多目標檢測框架，在一定程度上緩解了部分問題。由于待分類的圖像較多，導致速度慢，難以滿足實時檢測的需求。隨著具備層次結構的選擇性搜索策略的引入，將空間相鄰且特征相似的圖像塊逐步合并到一起，快速地生成可能包含目標的區域，RCNN隨之問世。RCNN首先通過區域提議找出可能包含目標的框，對于每一個提議區域，將其拉伸或者縮放到固定的尺寸，送入卷積神經網絡得到其特征，最后對邊界框進行修正和分類。

圖2 雙階段多目標檢測框架Fig.2 Two-stage multi-object detection framework

RCNN算法在提取特征操作中存在大量冗余，運行緩慢。Fast RCNN在RCNN的基礎上加入了 ROI（Region of Interest）池化，將特征映射到每個輸入ROI區域，提升了運行速度。由于使用了選擇性搜索來預先提取候選區域，Fast RCNN并沒有實現端到端模式。Faster RCNN使用區域生成網絡（Region Proposal Networks，RPN）提取候選框，將候選區域生成、特征提取、分類器分類、回歸全都交給深度神經網絡來做，大幅提高了效率。在此基礎上衍生出眾多雙階段檢測器。

由于雙階段檢測器在第2階段僅針對候選區域內容進行處理，造成了目標在整幅圖像中位置信息的缺失。單階段多目標檢測器的提出彌補了這一缺陷，其流程框圖如圖3所示。單階段目標檢測算法無需區域提議階段，直接產生目標的類別概率和位置坐標值，經過一個階段即可直接得到最終的檢測結果，因此有著更快的檢測速度。

圖3 單階段多目標檢測框架Fig.3 One-stage multi-object detection framework

將靜態圖像中的目標檢測結果應用到多目標跟蹤時，需要首先實現視頻目標的精確檢測。與靜態圖像目標檢測不同的是，目標在視頻中是動態變化的，即其自身屬性諸如顏色、形狀、尺寸、紋理等會動態地改變，檢測過程中視頻序列需要在時間和空間維度保持一致以防檢測目標丟失，這成為視頻目標檢測任務的研究難點。

1.2 單目標跟蹤與多目標跟蹤

目標跟蹤是給定目標的一個初始狀態，然后在視頻序列中估計目標每一時刻的狀態。為了實現目標跟蹤，對于初始幀，通過檢測算法，得到一系列目標的位置坐標，在視頻流中的后續幀之間進行目標關聯。理想化的目標跟蹤算法具有以下特點：僅在起始幀中進行目標檢測處理；滿足實時處理；在目標淡出或超出畫面、重新進入視圖、目標被遮擋等特殊情況下能夠穩定跟蹤。

目標跟蹤又分為單目標跟蹤與多目標跟蹤，單目標跟蹤旨在僅當目標的初始狀態已知時，估計未知的視覺目標軌跡，不依賴于其他任何約束。跟蹤方式有2種主流方向：第1種是判別式跟蹤，通過在線刻畫樣本特征，屬于基于參數的機制，能夠非常好地區分前景與背景，并且可以在線隨時更新；第2種是生成式跟蹤，依據某種相似性度量離線構建一個泛化性較強的嵌入空間。這2種方式在元學習的框架下達到統一，前者可理解為參數回歸；后者可視為無參的最近鄰分類。

多目標跟蹤是在目標數量與類別未知的情況下，對視頻中的行人、汽車、動物等多個目標進行檢測并賦予ID，實現后續的軌跡預測、精準查找等。多目標跟蹤主要解決帶有ID分類的目標跟蹤中的數據關聯問題，運動特征、外觀特征等可用于輔助解決關聯問題。多目標跟蹤既要面對單目標跟蹤存在的遮擋、變形、運動模糊、擁擠場景、快速運動、光照變化、尺度變化等挑戰，又要面臨如軌跡的初始化與終止、相似目標干擾等復雜問題。

在任務設定上，SOT、MOT、視頻目標檢測（Video Object Detection，VOD）都屬于目標檢測問題。VOD在目標檢測上添加了時序信息的推廣；單目標跟蹤類似于視頻層次的小樣本目標檢索任務，并在一個局部小區域上操作；而多目標跟蹤則是視頻層級的實例檢測問題，可以理解為VOD加上幀間ID數據關聯，并在視角全局進行操作。SOT領域近期效果較好的框架，均將單目標跟蹤看作全局條件檢測，未來關聯會更加緊密。

1.3 無人機航拍視角下的區別

普通視角下的多目標檢測與跟蹤算法采用的數據集，大部分數據由人手持相機或固定機位拍攝，因此絕大多數圖像為側視圖。而無人機航拍視頻與普通視角視頻相比，采集到的視頻數據為俯瞰圖，具有不同的特征，導致普通視角下的多目標檢測與跟蹤算法不能直接應用到無人機航拍視角，主要表現在以下幾個方面。

首先，無人機航拍過程中，受限于設備的精度與穩定性以及環境的變化，獲取的視頻存在抖動、模糊增加、分辨率降低、光線干擾、畫面畸變等問題，導致視頻質量低，需要增加更多的預處理來提升檢測與跟蹤精度。

其次，航拍視角下的目標分布密度不均且尺寸小得多。行人、汽車之類的目標可能在普通視角下占據大量像素，但在航拍視角下可能僅有幾個像素并且分布不均，導致目標失真，增加了多目標檢測與跟蹤的難度，需要設計針對性的網絡模塊進行特征提取。

最后，在普通視角和航拍視角下的遮擋不同。在普通視角下，目標可能被另一目標遮擋，例如汽車前面的人。但航拍視角中的遮擋多為環境遮擋，如樹木、建筑物等。

綜上，通過普通視角視頻數據集訓練得到的多目標檢測和跟蹤算法，無法直接應用到無人機航拍視頻，需要針對無人機航拍視頻的特點，設計相應的算法，以滿足任務需求。

2 基于深度學習的無人機航拍視頻多目標檢測方法

UAV視角給多目標檢測帶來了小目標增多、單維度信息包含特征不足、目標類別分布稀疏及不均勻帶來的檢測效率低、目標檢測干擾、尺度變化帶來的目標漏檢和誤檢、推理速度慢等問題。為了使檢測器更好地適應UAV視角下的多目標檢測，眾多學者進行了諸多針對性的改進。本節將從雙階段檢測器和單階段檢測器2個角度分別針對上述問題各學者提出的改進方式進行闡述。

2.1 雙階段無人機航拍視頻多目標檢測算法

雙階段目標檢測算法在第1階段就針對目標檢測任務進行了獨特設計，直接將常規視角下的算法遷移到無人機航拍視頻的效果較差，需要根據無人機航拍視頻的目標特點，進行優化。

1）針對UAV造成的小目標增多問題。Avola等構建了一種多流結構，模擬多尺度圖像分析。將此結構作為Fast R-CNN網絡的主干，設計了MS-Faster R-CNN目標檢測器，能夠持續穩定地檢測UAV視頻序列中的目標［36］。Stadler 使用Cascade R-CNN網絡作為目標檢測器，將默認錨框的大小減半以考慮較小的目標，并將預估的目標數量增加了1倍［37］。Huang等提出HDHNet用于提取小目標特征，作為主干網絡與HTC（Hybrid Task Cascade）、Cascade RCNN等方法相結合，在檢測不同類型和規模的目標過程中提取到更為有效和全面的特征［38］。Zhang等采用多種特征融合方法構建目標特征，引入顏色直方圖和HOG描述算子進行特征提取，同時充分利用ResNet-18中第1和第3卷積層的特征，緩解了UAV場景的復雜性和小目標帶來的挑戰［39］。Liu等提出一種高分辨率檢測網絡HRDNet，采用多分辨率輸入，具有多種深度主干。同時，設計了多深度圖像金字塔網絡（Multi-Depth Image Pyramid Network，MD-IPN）和多尺度特征金字塔網絡（Multi-Scale Feature Pyramid Network，MS-FPN）。MD-IPN使用多個深度主干維護多個位置信息，從高分辨率到低分辨率提取各種特征，解決了小目標上下文信息丟失的問題，并保持對中大型目標的檢測性能［40］。Liu等提出多分支并行特征金字塔網絡（Multi-branch Parallel Feature Pyramid Networks，MPFPN），旨在以較小的尺寸提取更豐富的目標特征信息，并行分支能夠恢復深層中缺失的特征，同時采用監督空間注意力模塊（Supervised Spatial Attention Module，SSAM）來削弱背景噪聲推理和聚焦目標信息的影響［41］。

2）針對單維度信息包含特征不足問題。Azimi等使用Siamese網絡提取視覺特征，并與LSTM（Long Short-Term Memory）和圖卷積神經網絡進行配合，融合了目標的外觀、時間和圖形信息［42］。Du等提出基于HTC網絡的檢測器DetectorRS，引入遞歸特征金字塔，代替原來的特征金字塔網絡［43］。T?ttrup等提出Track R-CNN網絡，結合檢測、跟蹤和分割的思想，擴展了具有3D卷積的Mask R-CNN，將目標檢測的分辨率提升到了像素級［44］。Albaba等為了解決UAV引起的目標變化及紋理特征差異的問題，在Cascade RCNN中引入CenterNet，降低了誤報率，提高了檢測質量［45］。Cao等提出D2Det網絡，同時實現了精確定位和分類，設計了一種密集局部回歸網絡，不限制固定區域的關鍵點集，用于預測目標提議的多個密集盒偏移，實現精確定位［46］。

3）針對無人機視角下目標類別分布稀疏及不均勻帶來的檢測效率低的問題。Yang等將聚類思想引入目標檢測，提出ClusDet網絡，先由聚類網絡CPNet生成目標簇區域，使用ScaleNet網絡估計這些區域的目標比例，最后再將聚類區域送入DetecNet網絡進行目標檢測，減少了檢測運算量，提升了檢測效率［47］。Zhang等提出GDF-Net （Global Density Fused convolutional Network ）網絡，由FPN （Feature Pyramid Network）主干網絡、全局密度模型（Global Density Model，GDM）和目標檢測網絡組成。GDM通過應用擴展卷積網絡來細化密度特征，提供更大的感受野并生成全局密度融合特征［48］。Yu等提出DSHNet（Dual Sampler and Head detection Network）網絡，包括類偏置采樣器（Class-Biased Samplers，CBS）和雙邊箱頭（Bilateral Box Heads，BBH），以雙路方式處理尾類和頭類目標，顯著提高了尾類的檢測性能［49］。

4）針對無人機視角下目標的視角變化、光線變化、目標遮擋等帶來的檢測干擾問題。Zhang等設計了Cascade ResNet50網絡，在ResNet網絡加入可變形卷積層（Deformable Convolution Layer，DCN）進行特征提取，結合FPN組合不同尺度的特征，同時集成RPN以提取感興趣區域，在VisDrone 2019數據集中達到了22.61的平均精度［50］。Yang等提出一種針對UAV視角的車輛檢測體系結構，包括相鄰連接模塊（Adjacent Connection Module，ACM）、錨點細化模塊（Anchor Refinement Module，ARM）和目標檢測模塊（Object Detection Module，ODM）。ACM提供了有效的上下文信息并減少干擾，ARM實現二分類和默認框粗略回歸，ODM則細化選定的框以執行分類，能夠準確實時地檢測小型車輛［51］。Wu等采用對抗式學習框架，提出滋擾分離特征變換（Nuisance Disentangled Feature Transform，NDFT）框架，無需任何額外的領域適配或采樣/標記，并與Faster-RCNN網絡相結合，有效地降低了因無人機高度變化、天氣變化、角度變化等對目標檢測帶來的影響［52］。Zhang等設計多尺度和遮擋感知網絡（Multi-Scale and Occlusion Aware Network，MSOA-Net），該網絡包括多尺度特征自適應融合網絡（Multi-Scale Feature Adaptive Fusion Network，MSFAF-Net）和基于區域注意力的三頭網絡（Regional Attention based Triple Head Network，RATH-Net）。MSFAF-Net從多個層次自適應地聚合層次特征圖，以幫助FPN處理目標的比例變化；RATH-Net引導位置敏感子網絡增強感興趣的車輛，并抑制遮擋引起的背景干擾［53］。

5）針對無人機平臺上因尺度變化帶來的目標漏檢和誤檢問題。Chen等提出Ada Resampling增強策略，將圖像輸入預訓練的語義分割網絡，并與Hour Glass模塊相結合，設計了RRNet網絡，在VisDrone2019 Challenge中，達到AP50、AR10和AR100的最優性能［54］。Wang等以FPN網絡為基礎，提出空間優化模塊（Spatial-Refinement Module，SRM）和感受野擴展模塊（Receptive Field Expansion Block，RFEB）來細化多尺度特征。RFEB增加高級語義特征的感受野大小，并將生成的特征通過SRM修復多尺度目標的空間細節，將模塊與Cascade RCNN網絡相結合，驗證了有效性［55］。Tang等提出點估計網絡（Points Estimated Network，PENet），使用掩碼重采樣模塊（Mask Resampling Module，MRM）來增強不平衡數據集，使用粗檢測器來有效預測目標簇的中心點，使用精細檢測器來精確定位小目標［56］。Dike等對Faster RCNN框架進行改進，包括關鍵參數的校準、多尺度訓練、使用線性單元卷積來挖掘空間-光譜特征［57］。Lin等在Cascade RCNN的基礎上設計ECascade RCNN（Enhanced Cascade RCNN），提出Trident-FPN網絡用來提取多尺度特征并進行特征融合，同時設計雙頭注意機制來提高檢測器的性能，在處理UAV目標檢測任務中的多尺度問題上取得較好效果［58］。Youssef等采用FPN生成多尺度特征表示，結合Cascade RCNN網絡，產生了更穩健的區域建議，實現了在不同的空間分辨率下目標的檢測和分類［59］。

6）為了緩解由于特征提取與目標檢測分開執行導致推理速度較低的問題。Lee等開發了同時執行目標檢測和嵌入提取的單次激發方法，以EfficientDet-D0網絡作為特征網絡，使用BiFPN作為特征嵌入網絡，在保持較高推理速度的同時，擁有較高的準確性［60］。

表2展示了基于雙階段的UAV視角下多目標檢測主要方法對比。

表2 基于雙階段的UAV視角下多目標檢測主要算法對比Table 2 Comparison of main multi-object detection algorithms for UAV based on two-stage detection

2.2 單階段無人機航拍視頻多目標檢測算法

在UAV視角下的多目標檢測，單階段檢測器YOLO系列和SSD系列因優勢明顯得到了廣泛的應用。Makarov等采用YOLO V2網絡，實現了UAV視角下汽車、大型車輛、建筑物、飛機、直升機和船舶等6類物體的識別［61］。Hossain等將YOLO V3與SSD遷移到邊緣端板載GPU Jetson TX2、Jetson Xavier上實現了UAV對地目標的檢測，提供了精確的目標位置及類別信息［62］。Li等利用YOLO V3檢測UAV視角中的車輛，通過光流法獲取匹配特征點，精確計算單應矩陣［63］。Emiyah等使用YOLO V4實現了UAV視角下的人員與車輛檢測［64］。Yang等以YOLO V3-608網絡實現目標檢測，并使用NMS算法過濾多個檢測邊界框得到最優檢測結果［65］。

除了將原始的單階段檢測器直接應用到UAV視角下的多目標檢測以外，還有不少學者針對UAV視角引入的各項問題，從網絡模型優化、引入注意力機制、多尺度特征融合、多種網絡綜合等多個方面進行改進。

1）針對UAV造成的小目標增多問題。Liu等使用Res Unit_2對YOLO中的ResNet單元和主干網絡進行改進，連接Darknet的Resblock中具有相同寬度和高度的2個ResNet單元，提出UAV-YOLO網絡，同時預測多個邊界框和這些框的類概率，減少了因感受野受限導致的小目標漏檢問題［66］。Ning等提出YOLO V5m-opt網絡，通過將小目標檢測分支的通道尺寸加倍，并減少大目標檢測分支的一半通道來優化YOLO V5m網絡，實現了精度與速度的平衡［67］。Kapania等聯合YOLO V3和RetinaNet，利用RetinaNet網絡在處理小目標擁擠情況下的優良性能，提升了UAV視角下的檢測精度［68］。Tian等借鑒雙階段設計理念，提出一種DNOD方法，利用VGG網絡提取UAV圖像的特征圖，和疑似區域的位置信息結合起來進行二次識別，降低了小目標的漏檢率，分別與YOLO V4和EfficientDet-D7相結合，驗證了算法的可靠性和有效性［69］。引入其他網絡的方法能夠對無人機航拍視頻多目標檢測的不同場景特點，選擇不同的結構。但此類方法在處理包含多場景的任務時，遷移能力與泛化性較差。

2）針對單維度信息包含特征不足問題。Zhang等在YOLO V3網絡的3個檢測頭前的第5和第6卷積層之間，插入3個空間金字塔池化（Spatial Pyramid Pooling，SPP）模塊，設計出SlimYOLO V3-SPP3網絡，豐富深層特征［70］。劉芳等設計了TA-ResNet，添加卷積注意力模塊的主干網絡。提取了目標在多個維度上的注意力信息，精簡了網絡參數并有效融合了卷積核不同位置的注意力信息［71］。Saetchnikov等通過改進YOLO V4網絡提出YOLO V4eff網絡，使用4組Cross-stage-partial進行主干網絡與頸部網絡的連接，使用Swish函數作為激活函數，Letterbox 設為1以保持使用效率［72］。注意力機制通過不同的權重分配學習通道間的特征信息，加強特征的提取能力。但如何合理地使用注意力機制仍值得研究。

3）針對無人機視角下目標類別分布稀疏及不均勻帶來的檢測效率低的問題。Li等提出DS YOLO V3，增加了連接到主干網絡不同層的多個檢測頭來檢測不同規模的目標，并設計了一個多尺度通道注意力融合模塊，利用通道信息互補［73］。

4）針對無人機視角下目標的視角變化、光線變化、目標遮擋等帶來的檢測干擾問題。Liang等在F-SSD的基礎上添加反卷積模塊的額外分支和平均池化來調整特征融合模塊，反卷積模塊為網絡引入非線性，增強了網絡的表示能力；平均池化抑制了因減少參數總數和背景信息帶來的網絡過擬合［74］。Wang等設計SPB（Strip Bottleneck Module）模塊，可以更好地捕捉目標的寬度-高度依賴關系，達到特征增強的目的，并將其嵌入到YOLO V5網絡，得到SPBYOLO網絡，具有較好的檢測多尺度目標的能力［75］。

5）針對無人機平臺上因尺度變化帶來的目標漏檢和誤檢問題。Liu等提出擴展卷積和注意力機制相結合的D-A-FS SSD。在特征提取主干網絡中使用擴展卷積，增強了網絡對目標分布的特征表達；將負責檢測小目標的低級特征圖與包含更多語義信息的高階特征圖相結合，提高了小目標的檢測精度［76］。Zhang等在YOLO V3的基礎上進行改進提出DAGN網絡，通過注意力模塊與特征連接相結合，以區分2個尺度上重要和不重要的特征。將一些標準卷積替換為深度可分離卷積，以抵消注意力模塊帶來的額外計算，并提出聯合引導Gaussian NMS來提高密集區域的性能［77］。Jadhav等提出DAN網絡，將RetinaNet每個階段的最后一個殘差塊的特征通過SE（Squeeze and Excitation）模塊傳遞，自適應地校準信道響應，然后將其送到特征金字塔網絡，產生更好的檢測結果［78］。Pi等利用FCOS模型在檢測小目標方面的出色性能，并將多尺度特征融合技術應用于原始SSD，設計了F-SSD網絡。分別從不同層的多個特征圖中生成目標位置信息并識別目標類別，通過多尺度特征融合模塊，融合了包含精細細節的淺層特征和具有語義信息的深層特征［79］。Liang等設計了特征對齊注意網絡（Feature-aligned Attention Network，FAANet），以RepVGG網絡作為主網絡，融合空間注意力模塊和特征對齊聚合模塊，集成了多尺度特征［80］。Zhang等以RetinaNet50網絡為基準，在FPN的P3和P4中添加一個CONV層，將高層特征添加到低層特征，實現了特征融合［81］。Wu等將YOLO V3網絡的輸入圖像分辨率從224更改為320、416和608這3個可選比例，同時使用金字塔方法檢測3個尺度的目標［82］。多尺度特征融合能夠結合各多層級特征信息，最大限度地利用了多尺度輸出，但在融合過程中常采用串聯操作，并未客觀地反映各層級之間的信息相關性，缺少信息交互。如何高效地進行特征融合仍是未來的研究方向。

6）為了緩解由于計算量大導致推理速度較低的問題。Kyrkou等設計DroNet網絡，以Tiny-YOLO網絡為基準，減少了網絡層數和每層濾波器的數量，以提升檢測速度，并隨著網絡加深，逐漸增加濾波器的數量，以保持計算需求［83］。Balamuralidhar等提出MultiEYE 網絡，將YOLO V4網絡的主干網絡替換為CSPDarkNet53（Lite），參數量降為原始的1/4，選用ENet做分割頭，增加3組跳躍連接，在減少參數量的同時提取足夠多的特征［84］。為了減少模型參數和計算成本，Li等提出ComNet，刪除MobileNetv2中的平均池化層和最后一個卷積層，用改進的Mobile-Netv2替換YOLO V3網絡中的DarkNet53［85］。Zhang等在SSD網絡之前加入PeleNet，以較少的層數降低了計算量，設定更寬的網絡層補償檢測精度，并在最終預測層之前加入殘差塊，有助于主干網絡獲得更強的表示能力。殘差塊中使用1×1卷積核替代3×3卷積核減少了21.5%的計算成本，從而加快了模型的推理過程［86］。Wu等以YOLO V5為基準網絡，與寬殘差CNN網絡相結合，只使用YOLO V5檢測的目標斑塊作為目標特征提取的輸入，在提取到足夠多的目標特征的同時，降低了參數量［87］。

表3展示了基于單階段的UAV視角下多目標檢測算法對比。

表3 基于單階段的UAV視角下多目標檢測算法對比Table 3 Comparison of main multi-object detection algorithms for UAV based on one-stage detection

2.3 多目標檢測算法進展小結

回顧近年來UAV視角下基于深度學習的多目標檢測算法進展，可以總結得到以下幾點：

1）雙階段目標檢測算法發展迅速，檢測精度也在不斷提高，但是自身體系結構的問題限制了檢測速度。單階段目標檢測算法沒有候選區域推薦階段，訓練過程也相對簡單，可以在一個階段直接確定目標類別并得到位置檢測框。

2）針對UAV視角，進行的改進措施：① 修改網絡結構，擴大感受野；②網絡輕量化設計，減少參數量，提升檢測速度；③ 引入注意力機制，加強特征提取；④ 多尺度特征融合，結合淺層與深層的特征信息。

3）發展趨勢：更多新的方法技巧，如注意力機制、無錨框策略、上下文關系等，開始應用于無人機航拍視頻的多目標檢測任務，但并未形成完整體系，主流方法仍然是以基于雙階段和基于單階段的算法。在后續的研究中，雙階段目標檢測算法一是要實現參數共享以提升運行速度，另一方面是提出新的訓練策略使得算法走向端到端的演化。單階段的多目標檢測算法需構建具有更強表征能力的主干網絡以提升算法的精度，以及解決目標檢測過程中遇到的樣本不均衡等問題。此外，2類網絡都無法完全有效解決UAV視角帶來的小目標問題，因此研究面向UAV視角的小目標檢測的深度學習算法框架具有重要意義。

3 基于深度學習的無人機航拍視頻多目標跟蹤方法

多目標跟蹤已成為近年來計算機視覺的研究熱點，基于無人機航拍視頻的多目標跟蹤（Multi Object Tracking Based on UAV Aerial Video， MOT-UAV）技術也得到迅速發展，目前，TBD已成為MOT-UAV任務最有效的框架。TBD的跟蹤步驟通常由2個主要部分組成：① 運動模型和狀態估計，用于預測后續幀中軌跡的邊界框；② 將新的幀檢測結果與當前軌跡相關聯。處理關聯任務的主要思想有2種：① 目標的外觀模型和解決重新識別任務；② 目標定位，主要是預測軌跡邊界框和檢測邊界框之間的交并比。這2種方法都將關聯內容量化為距離，并將關聯任務作為全局分配問題進行求解。本節分別對基于目標特征建模、基于目標軌跡預測、以及其他方法對無人機視角下的多目標跟蹤的研究進展進行綜述。

基于檢測的MOT-UAV其基本流程如圖4所示，TBD通過檢測器獲得目標檢測結果后，將其進行關聯，分配與前一幀檢測目標相關數據的ID。該類型算法能夠聯合最新的高性能檢測算法，跟蹤部分則被視為數據關聯問題，旨在提高關聯過程的質量。

圖4 基于檢測的MOT-UAV框架Fig.4 MOT-UAV framework based on detection

3.1 基于目標特征建模的多目標跟蹤

基于目標特征建模的多目標跟蹤算法是在UAV視角下應用最廣泛的TBD方法，通過提取目標的顏色、紋理、光流等特征，實現多目標跟蹤。提取的這些特征必須是唯一的，以便在特征空間中區分目標。一旦提取出特征，即可利用相似性準則，在下一幀中找到最相似的目標。

1）基于外觀特征的目標建模

Al-Shakarji等提出SCTrack目標跟蹤系統，使用三階段數據關聯方案，基于目標外觀模型，結合空間距離以及顯式遮擋處理單元。不僅依賴于被跟蹤目標的運動模式，還取決于環境約束，在處理遮擋目標上取得較好效果［88］。Wang等設計了OSIM網絡，通過VeRi數據集訓練寬殘差網絡，提取目標外觀特征。使用檢測到的邊界框馬氏距離作為運動度量；計算邊界框內的像素最小余弦距離作為外觀相似性度量。將2個度量指標加權融合，使用級聯匹配進行數據關聯，實現了多目標的穩健跟蹤［89］。Yu等為了解決外觀和運動之間的融合比例常由主觀設置的問題，提出融合外觀相似性和運動一致性的自適應方法，在最新一幀中，計算目標與其周圍目標之間的外觀相似性，利用Social LSTM網絡預測目標的運動，使用加權外觀相似性和運動預測生成當前目標和前幀目標的關聯［90］。Makarov等將Kuhn-Munkres算法用于建立幀間目標一對一的對應關系，算法中矩陣的元素是2個連續幀上目標邊界框之間的歐氏距離，并比較目標的顏色直方圖來處理目標在視野中消失和出現的情況。若直方圖的Bhattacharya距離度量低于某個閾值，則判定此目標重新進入視野［61］。Dike等為了解決目標物體外觀信息獲取不穩定的問題，應用深度四元組網絡（Deep Quadruplet Network，DQN）來跟蹤從擁擠環境中捕獲的目標軌跡。基于四元組損失函數來研究特征空間，使用具有6層連接的深度CNN來挖掘空間-光譜特征［57］。

2）基于光流特征的目標建模

光流是圖像中亮度模式的表觀運動，光流算法計算亮度模式在相鄰幀之間的位移，估計圖像中特定像素的位移張力。一些研究人員基于光流進行目標建模。Ahn等將CNN和光流相結合，CNN進行特征提取和分類，同時計算像素的光流矢量，其與運動目標對應，使用KLT（Kanade Lucas-Tomasi）特征實現多目標跟蹤［91］。Li等通過光流法獲取匹配特征點，消除檢測目標時帶來的誤差，精確計算單應矩陣，確定當前幀中的真實運動軌跡［63］。Lusk等使用KLT跟蹤算法提取光流特征，生成目標的測量值；采用基于單應性的圖像配準方法，將測量值映射到同一坐標系中，允許檢測獨立移動的物體；引入R-RANSAC算法使用視覺測量提取雜波中的目標［92］。Li等為了解決因攝像機運動導致的檢測精度降低的問題，融合光流信息，設計了Flowtracker跟蹤器。使用光流網絡降低攝像機運動干擾，采用輔助跟蹤器處理檢測缺失的問題，同時融合外觀和運動信息來提高匹配精度［93］。Yang等為了解決在目標位置變化過大的低幀速率情況下引起的跟蹤丟失問題，提出基于密集軌跡投票的方法，將問題建模為密集光流軌跡到目標ID的投票問題，計算相鄰幀中的密集光流，根據每個檢測邊界框中光流軌跡的結果測量相鄰幀中目標之間的相似性，并通過數據關聯獲得跟蹤結果［65］。Ard?將多目標跟蹤問題模擬為網絡流優化問題，引入廣義圖差（Generalized Graph Differences，GGD），從數據中有效地學習此類問題的權重，使用稀疏光流特征點生成KLT軌跡，將目標錨點與目標框連接起來，通過加入上述長連接將完整的跟蹤分解為單個跟蹤，解決了因遮擋導致的特征點跳躍問題［94］。

3）基于多維特征的目標特征建模

除了將單獨維度特征應用于多目標跟蹤，同時應用外觀特征、位置信息、時間信息等進行多目標跟蹤也是一條技術途徑。Fu等提出一種多車輛跟蹤模型，使用改進的ResNet-18網絡提取車輛的重識別特征，結合軌跡信息和位置信息構建相似矩陣，獲得幀間車輛目標的最佳匹配［95］。Zhang等提出Tracklet Net多目標跟蹤算法，利用時間和外觀信息來跟蹤地面目標。基于多視圖立體技術估計的組平面來定位跟蹤的地面目標，最大限度地減少跨幀間的光度誤差，生成準確平滑的運動軌跡［81］。He等受注意力機制的啟發，利用語境注意、維度注意和時空注意等多級視覺注意力，將上下文信息合并到濾波器訓練階段，同時感知目標和環境的外觀變化，利用響應圖的維度和時空注意力來增強特征，以更好地抑制噪聲［96］。Stadler等設計了PAS跟蹤器，考慮了目標的位置、外觀和大小信息，計算所有檢測結果和預測軌跡之間的相似性度量，并將其收集在成本矩陣中，用匈牙利方法求解分配問題［97］。

4）相關濾波器

相關濾波源自信號處理領域，相關性用于表示2個信號的相似程度。通過對下一幀的圖像與指定濾波模板做卷積操作，將響應最大的區域判定為預測的目標，實現多目標跟蹤。其流程為：候選樣本獲取→特征提取→目標定位→模型更新。

Li等設計了一種基于時隙的跟蹤算法，將跟蹤過程劃分為多個時隙。為了利用真實背景信息，采用背景感知相關濾波器（Backgroundaware Correlation Filter，BACF）擴大搜索區域，從背景中提取真實的負訓練樣本［98］。Li等以BACF作為基準濾波器，融合上下文學習策略，提出基于相關濾波器的Keyfilter感知跟蹤器，利用上下文信息賦予濾波器更強的識別能力，有效地緩解了背景雜波、描述不足、遮擋、光照變化等問題。從周期性關鍵幀中生成Keyfilter，抑制了當前濾波器的損壞變化，充分提高了跟蹤效率［99］。Balamuralidhar等使用相關濾波器以較高的計算速度和精度估計被跟蹤目標的位置，將最小輸出平方誤差和（Minimum Output Sum of Squared Error，MOSSE）算法用于目標跟蹤［84］。使用前2幀進行初始化，檢測邊界框裁剪自序列的第1幀，使用自然對數變換和離散傅里葉變換對其實現對比度的增強并轉至頻域表示，此后生成一個合成目標用于初始化跟蹤器并在跟蹤過程中更新濾波器［70］。

基于目標特征建模的多目標跟蹤算法在無人機航拍視頻上取得了穩健的跟蹤，但在處理長時跟蹤、消失又重現的特殊目標時仍存在問題。

表4展示了基于目標特征建模的UAV視角下多目標跟蹤主要算法對比。

表4 基于目標特征建模的UAV視角下多目標跟蹤主要算法對比Table 4 Comparison of main algorithms for multi-object tracking for UAV based on target feature modeling

3.2 基于目標軌跡預測的多目標跟蹤

基于目標軌跡預測的方法將跟蹤描述為估計問題，通過目標的位置狀態向量描述目標的動態行為。其一般框架取自貝葉斯濾波器，包含預測和更新2步。預測步驟使用狀態模型估計目標在下一幀中的位置，而更新步驟基于觀測模型由當前觀測值更新目標的位置。常用的基于目標軌跡的方法主要有卡爾曼濾波與DeepSORT框架。

1）基于卡爾曼濾波的目標軌跡預測

卡爾曼濾波是遞歸貝葉斯估計在誤差為高斯分布時的一種特例，通過卡爾曼濾波（Kalman Filter，KF）預測下一幀中的目標軌跡邊界框，再將其與檢測邊界框相關聯實現跟蹤。Baykara等采用Squeeze Net網絡檢測目標，使用卡爾曼濾波進行目標跟蹤，實現了UAV視角下多目標的跟蹤與分類［34］。Xu等在概率數據關聯的基礎上聯合卡爾曼濾波，提出JPDA（Joint Probabilistic Data Association）方案。估計每個目標所有可能的匹配情況，基于聯合概率數據關聯似然方法，將更新后的狀態作為下一幀的前一個目標狀態，但未建模運動可能導致目標虛假跟蹤［100］。Lee等將移動目標的質心作為跟蹤的輸入，采用卡爾曼濾波估計目標的動態狀態［101］。王旭辰等使用 Car-Reid數據集訓練殘差網絡提取目標外觀信息，使用卡爾曼濾波提取目標運動信息，2種信息經整合得到成本矩陣，最后由匈牙利匹配算法得到跟蹤結果［102］。Luo等將YOLO V5用于特征提取，卡爾曼濾波器提取目標運動信息并更新預測，利用匈牙利匹配算法得到跟蹤結果［103］。

除了將卡爾曼濾波直接應用到目標軌跡預測之外，也有不少學者對其進行了改進或融合其他方法。Wu等為了解決因UAV導致的目標偏移，基于卡爾曼濾波和單應性變換（Kalman Filter and Homography Transformation，KFHT）設計了運動補償模型，預測目標位置并補償位置偏移。利用目標的特征相似性和位置關聯匹配完成目標識別，減少了目標ID交換的數量［87］。Khalkhali等提出SAIKF（Situation Assessment Interactive Kalman Filter），利用從同一環境的交通歷史中提取的態勢評估信息，來提高跟蹤性能［104］。

2）基于DeepSORT的目標軌跡預測

以卡爾曼濾波為基礎的DeepSORT框架是現階段在UAV視角下多目標跟蹤中應用最多的框架，其假設目標運動為勻速狀態，如圖5所示［105］。Kapania等在MARS數據集上預訓練CNN模型生成深度關聯矩陣，結合外觀特征和運動信息，通過減少ID交換的數量，提高軌跡準確性，在DeepSort框架中實現多目標跟蹤［68］。Emiyah等使用YOLO V4進行目標檢測，在DeepSORT框架下實現了UAV視角下的目標跟蹤［64］。Ning等采用YOLO V5獲得目標實時位置，聯合DeepSORT框架實現了目標的速度測量［67］。Jadhav等設計深度關聯網絡，根據深度特征相似性對目標評分，同時跟蹤相似類的多個目標，將檢測器提供的置信度與深度關聯度量融合，傳遞到DeepSORT網絡中，生成目標軌跡，提升了對目標置信度較高但深度關聯較低的目標的跟蹤準確率［78］。Avola等利用從邊界框得到的視覺外觀，結合Deep SORT描述UAV航拍視頻序列中的目標軌跡［36］。

圖5 DeepSORT框架［105］Fig.5 DeepSORT framework［105］

除了將DeepSORT直接應用于UAVMOT，眾多學者針對UAV視角下多目標跟蹤出現的問題做出了各種相應改進。Huang等通過不同的預測網絡生成目標邊界框，對所有軌跡和檢測結果進行級聯匹配，通過GIOU匹配進行未匹配跟蹤和檢測，生成最終軌跡［38］。Du等以Deep-SORT為基礎框架，采用全局信息和一些優化策略，設計了GIAO Tracker。用OSNet替換Deep-SORT中的簡單特征提取器，利用全局線索將其關聯到軌跡中，并提出EMA（Exponential Moving Average）策略，實現小軌跡和檢測結果之間更精確的關聯［43］。Wu等針對DeepSORT預訓練的外觀提取模型未包含車輛外觀信息的問題，利用輕型ShuffleNet V2網絡對VeRi數據進行車輛重識別訓練，提取外觀信息，加入到DeepSORT中［106］。Wu等將YOLO V4 Tiny與DeepSORT網絡相結合，設計了SORT-YM網絡，利用目標在被遮擋前的信息，通過多幀信息來預測目標的位置，一定程度上解決了目標遮擋的問題［107］。

表5展示了基于目標軌跡預測的UAV視角下多目標跟蹤主要算法對比。

表5 基于目標軌跡預測的UAV視角下多目標跟蹤算法對比Table 5 Comparison of multi-object tracking algorithms for UAV based on target trajectory prediction

3.3 其他基于深度學習的多目標跟蹤

除了上述基于目標特征與軌跡預測的多目標跟蹤算法以外，基于單目標跟蹤輔助、記憶網絡增強、交并比（Intersection over Union，IOU）、聯合檢測與跟蹤等方法也被應用于無人機航拍視頻的多目標跟蹤。

1）基于單目標跟蹤輔助的UAV-MOT

基于單目標跟蹤輔助的算法分別對單個目標實行完整的跟蹤策略，相對于檢測類算法，SOT使用的跟蹤器包含了當前目標外觀特征和位置等時序更新的信息，已成功應用于多種場景。Chen等提出四階段級聯框架用于UAV航拍視角下的多目標跟蹤，將基于數據關聯與使用壓縮的多目標跟蹤算法相結合。在每個關聯階段，將不同的軌跡集合和檢測結果關聯起來，同時單目標跟蹤與假設匹配結合后，用于目標重識別，在處理小目標跟蹤、目標遮擋時取得較好效果［108］。Yu等將目標和UAV運動分別視為個體運動和全局運動。利用Social LSTM網絡來估計個體運動，構建連體網絡來生成全局運動，利用Siamese網絡提取相鄰幀的視圖變化進行全局運動分析，個體運動與全局運動信息輸入生成對抗網絡，獲得了穩健的MOT性能［109］。Pan等結合SOT和卡爾曼濾波提出HMTT （Hierarchical Multi Target Tracker）方法，使用具有學習全尺度特征能力的OSNet網絡提取ReID特征以表示邊界框，計算每對邊界框與兩條軌跡的歐氏特征距離。盡管緩解了遮擋問題，但在目標長期消失的情況下跟蹤效果差［110］。Bahmanyar等提出基于卷積神經網絡的方法SMSOT-CNN來跟蹤UAV航拍視頻中的多個車輛和行人，利用Micro CNNs負責單個目標跟蹤任務，使用雙流CNN從每個目標的連續幀中提取特征，預測目標在當前幀中的位置［111］。

2）基于記憶網絡增強的UAV-MOT

MOT可以通過歷史軌跡信息判斷新的目標狀態。因此，可以設計一個能夠記憶歷史信息的網絡結構，并基于該歷史信息學習匹配相似性度量，從而提高MOT的性能。在所有RNN中，LSTM網絡在處理序列問題上表現出了可靠的性能。LSTM的特殊結構使其能夠長時間保留信息，并且可以克服傳統RNN的梯度消失和爆炸問題。Azimi等設計AerialMPTNet網絡，使用LSTM獲取時間信息，通過信道自適應加權，采用GSD自適應歐氏距離進行連續幀中的目標關聯［42］。Saetchnikov等為了能夠同時保留目標的特征信息和軌跡的長時信息，設計了雙向LSTM，分別用于前向序列和后向序列，能夠更好地理解視頻序列。將LSTM中的完全連接層替換為卷積層，解決了標準LSTM網絡通過全連接層進行矢量化和編碼造成的空間信息丟失的問題［72］。

3）基于IOU的TBD的方法

除了上述2類基于檢測的UAV-MOT方法，也有應用IOU擴展的方法。Marvasti-Zadeh等為了解決小目標的問題，引入一種上下文感知IOU引導跟蹤器，利用多任務雙流網絡和離線參考建議生成策略，網絡僅從ResNet-50的block3和block4中提取特征，以利用空間和語義特征，同時減少了參數數量，通過多尺度特征學習和注意力模塊充分利用目標相關信息［112］。Youssef等使用匈牙利算法生成最優軌跡，替代原始使用的貪婪方法進行軌跡分配，并使用特定閾值篩選假陽性軌跡，但沒有利用到目標檢測器提取的豐富圖像特征，在最終的跟蹤效果上有一點劣勢［59］。

4）基于聯合檢測與跟蹤的UAV-MOT

JDT框架以及計算機硬件發展迅速，其受到了UAV視角下多目標跟蹤研究者的重視，并得到了推廣應用。Zhang等將目標跟蹤中關注的特定實例替換為同類目標，設計了BES（Boundingbox Estimation State）網絡，含2個子網絡：實例感知注意力網絡用于對給定目標基于實例的先驗知識進行建模，實例感知IOU網絡則根據不同提議估計IOU分數。跟蹤過程中通過梯度上升使得分值最大化來獲得最終的限定框［39］。Lee等以FairMOT網絡為基礎設計了能夠同時執行目標檢測和特征提取的Single-Shot MOT網絡，提高了推理速度，以EfficientNet作為主干生成3個多尺度特征圖，特征通過雙向特征金字塔網絡進行特征融合，完成目標的匹配［60］。Liang等設計了特征對齊注意網絡（Feature Aligned Attention Network，FAANet），以RepVGG網絡為主網絡，融合空間注意模塊和特征對齊聚合模塊，集成了多尺度特征，同時采用JDT框架和結構重參數化技術提升了實時性［80］。

表6展示了其他UAV視角下多目標跟蹤算法對比。

表6 其他UAV視角下多目標跟蹤算法對比Table 6 Comparison of other multi-object tracking algorithms for UAV

3.4 多目標跟蹤算法進展小結

回顧近年來UAV視角下基于深度學習的多目標跟蹤進展，經分析總結得到以下幾點：

1） TBD框架的優點：檢測器與特征提取應用深度學習對多目標跟蹤效果提升明顯。基于深度學習的特征提取器提取到了更加精確的外觀特征，在處理目標遮擋、目標重現、背景干擾等問題上表現良好，獲得了穩定的多目標跟蹤性能。

2） TBD框架的缺點：運行效率低。TBD模式不能同時執行目標檢測和特征提取，導致基于TBD模式的多目標跟蹤算法難以實現精度和速度的均衡。

3） TBD框架的改進方法：① 進一步發揮深度特征的優勢，將更有效的特征與TBD框架相結合；② 融合多種特征，提取更多的有效信息，包括外觀、時間、圖形等特征；③ 與LSTM相結合，借助其能夠長時間保留信息的能力。

4） UAV視角下基于深度學習的多目標跟蹤發展趨勢：近年來的主流框架仍然為TBD框架。JDT框架、循環神經網絡、動態記憶網絡等更多新的網絡結構和注意力機制、無錨點策略、上下文關系等方法技巧，開始應用于UAV視角下多目標跟蹤任務。此外，無論是早期的算法還是后來的網絡，都無法有效應對長時間多目標跟蹤任務，因此面向長時間多目標跟蹤的深度學習算法框架將對多目標跟蹤領域具有重要意義。

4 數據集與結果評估

4.1 數據集

隨著基于數據驅動的深度學習方法的發展，研究人員為數據集的構建做出了巨大貢獻，促進了相關課題的算法驗證與性能對比。

Stanford Drone 數據集［113］：Stanford大學于2016年公布的大規模目標跟蹤數據集，使用無人機在校園擁擠的時間段以俯視的方式收集了8個不同的場景下20 000個物體的軌跡交互信息，每個物體的軌跡都標注唯一的 ID，包含10種目標類型，19 000多個對象，包括112 000名行人、64 000輛自行車、13 000輛汽車、33 000名滑板手、22 000輛高爾夫球車和11 000輛公共汽車，均可用于多目標檢測與跟蹤。數據集重點關注了目標與目標之間、目標與環境之間的交互信息。當2個目標有交集時，目標的軌跡將發生變化，標注了185 000個目標之間的交互信息。當目標在其周圍沒有其他目標的情況下軌跡偏離線性軌跡時，目標會與空間發生交互作用，標注了大約40 000個目標與環境的交互。

UAVDT （UAV Detection and Tracking）數據集［114］：中國科學院大學于2018年設計的大型車輛檢測和跟蹤數據集，包含100段視頻和80 000個視頻幀，大約2 700輛車和84萬個邊界框，圖像分辨率為1 080×540，包括廣場、主干道、收費站、高速公路、路口等場景，可用于車輛目標檢測、單車跟蹤、多車跟蹤等任務。針對MOT數據集涵蓋了各種天氣條件（白天、夜晚和霧）、目標遮擋和距地高度。特別的，在日光下拍攝的視頻會引入陰影的干擾，夜景下幾乎沒有任何紋理信息，在霧中拍攝的幀缺少清晰的細節，因此目標的輪廓在背景中消失。在高海拔視角下，大量的目標則不太清晰。針對多目標檢測還標記了另外3個屬性，包括車輛類別、車輛遮擋率和截斷率。遮擋率表示目標被遮擋部分的占比，截斷率表示目標出現在幀外部分的占比。車輛類別包括轎車、卡車和公共汽車；車輛遮擋率分為無遮擋（0%）、小遮擋（1%～30%）、中等遮擋（30%～70%）和大遮擋（70%～100%）4檔；車輛在視野邊緣的截斷率分為無截斷（0%）、小截斷（1%～30%）和中等截斷（30%～50%）3檔，當視野外占比＞50%時，目標將被丟棄。

VisDrone2018數據集［115］：天津大學、GE全球研究院和天普大學于2018提出的大型視覺目標檢測和跟蹤數據集，包含263段視頻，共計179 264個視頻幀和10 209個靜態圖像，標注有超過250萬個目標信息，涵蓋行人、汽車、自行車和三輪車等多個目標。圖像分辨達到了3 840×2 166，能夠應用于目標檢測、單目標跟蹤和多目標跟蹤等任務。刪除了目標較少區域的標注

VisDrone 2019數據集［116］：與VisDrone2018相比，VisDrone 2019增加了25段長跟蹤視頻，共82 644幀，12個視頻采集與白天，其余在晚上采集，提升了數據集小目標數量和背景干擾。Vis-Drone2019共計包含了288段視頻，共計261 908個代表幀和10 209個靜態圖像。數據集還提供了遮擋率和截斷率，如果目標的截斷率＞50%，則在評估期間跳過該目標。

BIRDSAI數據集［117］：哈佛大學于2020年使用TIR攝像頭在多個非洲保護區采集的數據集，包含48段TIR視頻和124段由AirSim-W生成的合成航空TIR視頻，分辨率為640×480。該數據集包含具有尺度變化、背景雜波、角度旋轉和運動模糊等變化，目標類別包括人和動物（獅子、大象、鱷魚、河馬、斑馬和犀牛）。如果圖像中存在偽影，則將對象標記為包含噪聲。若目標完全無法區分（例如，多個人類或動物靠近在一起，在熱成像中無法區分），則不標記它們。同時，目標超過50%的部分不在幀中，則不會對其進行標記。

CARPK（Car Parking Lot Dataset）數據集［118］：臺灣大學于2017年提出的大規模車輛檢測和計數數據集，是無人機視角的第1個停車場數據集，覆蓋了4個不同停車場的近90 000輛汽車。單幀圖像中的最大車輛尺寸?64×64，單個場景中的最大車輛數為188，所有標記的邊界框都采用左上角點和右下角點進行標注。只要確定目標是1輛車，包括位于圖像邊緣的汽車，均對其進行標注。

DAC-SDC（Design Automation Conference-System Design Contest）數據集［119］：University of Notre Dame于2018年提出的目標檢測數據集，它包含95個類別和150 000個不同視角拍攝的圖像，分辨率640×360，大多數目標大小占比圖像的1%～2%。在該數據集中，圖像亮度和信息量仍然保持良好的平衡，大多數圖像具有中等亮度/信息量，小部分圖像包含太大或太小的亮度/信息，類似于高斯分布。

MOR-UAV（Moving Object Recognition in UAV Videos）數據集［120］：Malaviya National Institute of Technology Jaipur于2020年提出的用于運動目標檢測的大型視頻數據集，包含30段視頻，10 948個代表幀，標注了約89 783個運動目標，分辨率從1 280×720到1 920×1 080不等。收集場景包括大量車輛出現的立交橋、停車場和交通信號交叉口的目標稠密地區以及森林、農業和其他背景復雜的目標稀少地區。數據集涵蓋了各種場景，包括遮擋、夜間、天氣變化、相機運動、變化的高度、不同的相機視圖和角度等各種具有挑戰性的場景，可用于多目標檢測與跟蹤任務。目標最小標注框為6×6，最大為181×106。

Drone Vehicle數據集［121］：天津大學于2020年提出的目標檢測和計數數據集，由配備攝像頭的無人機捕獲RGB和熱紅外圖像，包含15 532對圖像，涵蓋照明、遮擋和比例變化，分辨率為840×712，拍攝范圍包括城市道路、住宅區、停車場、高速公路等。

AU-AIR （A Multi-modal Unmanned Aerial Vehicle）數據集［122］：Aarhus University于2020年通過多模式傳感器（即視覺、時間、位置、高度、IMU、速度）進行采集到的數據集，包含8段視頻，共計32 823個提取幀，分辨率1 920×1 080。數據集8種目標類型，包括人、汽車、公共汽車、面包車、卡車、自行車、摩托車和拖車，均可用于靜態或視頻目標檢測。數據集涵蓋了一天中所有時間段和天氣條件（陽光充足、部分陽光充足、多云）導致的各種照明條件。飛行高度在10、20和30 m之間變化，相機角度從45°調整到90°（垂直于地球）。同時在注釋時將邊界框重疊超過75%的目標進行合并。

MOHR （Multi-Scale Object Detection in High Resolution UAV Images）數據集［123］：該數據集在郊區、山區、雪地和沙漠地區采集。包括3 048幅分辨率為5 482×3 078的圖像、5 192幅分辨率為7 360×4 912的圖像和2 390幅分辨率為8 688×5 792的圖像。標注了90 014個帶有標簽和邊界框的目標，其中包括25 575輛汽車、12 957輛卡車、41 468棟建筑、7 718處洪水破壞和2 296處坍塌，包含了目標的尺度變化。建筑類別注釋側重于臨時建筑，這些建筑可能是未經批準的建筑項目，通常有顏色鮮艷、高度較低的鐵屋頂。洪水破壞的陰影總是小于崩塌圖像中的。數據集將覆蓋0.05%或更少像素的目標定義為微小目標，低于0.5%的目標定義為小目標。數據集中97.08%的汽車、77.10%的卡車、31.21%的建筑、86.93%的坍塌和62.37%的洪水破壞為小目標。

UVSD （UAV based Vehicle Segmentation Dataset）數據集［53］：基于UAV的車輛分割數據集，該數據集包括5 874幅圖像，具有多個格式注釋，其中98 600個目標實例具有高質量的實例級語義注釋。圖像分辨率從960×540到5 280×2 970像素不等。目標包含視點變化、大規模變化、局部遮擋、密集分布、照明變化等特點。數據集除了常規的像素級實例注釋和水平方向邊界框的注釋格式外，還增加了OBB（Orientated Bounding Box）格式的標注，其邊界框為相對于坐標軸方向任意的最小的長方形，方向具有任意性，可以根據被包圍目標的形狀特點盡可能緊密地包圍目標。若車輛目標的截斷率超過80%，則無需對該車輛進行標記和測試。

表7列舉了面向UAV視角的多目標檢測與跟蹤的主流數據集。部分數據集樣例如圖6所示，MTD代表多目標檢測任務，MOT代表多目標跟蹤任務。

表7 面向UAV視角的多目標檢測與跟蹤的主流數據集Table 7 Main data set of multi object detection and tracking for UAV

圖6 常用數據集示例Fig.6 Example of common datasets

4.2 評價指標

混淆矩陣是深度學習模型問題的評價基礎，可更全面地評價預測結果，統計正確和不正確預測的數量，并按照類別進行細分。混淆矩陣在進行預測結果判定時不僅能展示模型的缺點，還能了解發生錯誤的類型，降低僅使用分類準確率所帶來的制約。混淆矩陣如圖7所示。

圖7 混淆矩陣Fig.7 Confusion matrix

TP：檢測值與真實值相同，均為正樣本；TN：檢測值與真實值相同，均為負樣本；FP：檢測值與真實值不同，檢測值為正樣本；FN：檢測值與真實值不同，檢測值為負樣本。在混淆矩陣的基礎上，針對多目標檢測與多目標跟蹤的具體問題，衍生出了多種更高級的評價指標。

4.2.1 多目標檢測評價指標

評價多目標檢測算法的優劣時，主要遵循2個原則，一是能否正確地預測框內目標的類別，二是預測的框和人工標注框的重疊比例。在此基礎上設計的評價指標如表8所示，所有指標均是值越大，效果越好。

表8 多目標檢測評價指標Table 8 Multi object detection evaluation index

4.2.2 多目標跟蹤指標

多目標跟蹤的主要目的是在所有視頻幀中找到正確數量的目標，并盡可能精確地估計每個目標的位置，還應該隨著時間的推移保持對每個目標的一致跟蹤：應該為每個目標分配一個唯一的跟蹤ID，該ID在整個序列中保持不變。因此多目標跟蹤的評價指標主要遵循以下設計標準：

1）判斷跟蹤器在確定精確目標位置時的精度。

2）反映出其隨時間一致跟蹤目標配置的能力，即正確跟蹤目標軌跡，每個目標只產生一條軌跡。

針對此標準，Bernardin等提出MOTP、MOTA指標［124］。為了判斷跟蹤器是否能夠長時間地對某個目標進行準確地跟蹤，Ristani等引入IDF1、IDP和IDR指標，以衡量跟蹤器的ID維持能力［125］。Luiten等基于Jaccard相似系數設計了HOTA，將精確檢測、關聯和定位的效果綜合到統一的度量中，同時分解為一系列子度量，能夠單獨評估多種基本錯誤類型［126］。多目標跟蹤評價指標對比如表9所示，帶有“↑”的指標表示數值越大效果越好，帶有“↓”的指標表示數值越小效果越好。

表9 多目標跟蹤評價指標Table 9 Multi object tracking evaluation indicators

4.3 VisDrone Challenge挑戰賽

VisDrone Challenge挑戰賽由計算機視覺會議ICCV（International Conference on Computer Vision）與ECCV（European Conference on Computer Vision）舉辦，數據集由天津大學機器學習與數據挖掘實驗室的AISKYEYE團隊收集，設置了針對無人機視角下的目標檢測與跟蹤的多條賽道，VisDrone數據集也成為無人機領域標桿數據集，業界多篇論文也采用此數據集進行實驗驗證與性能對比。VisDrone挑戰賽側重于不同特點的無人機目標檢測與跟蹤問題。包括：① 基于圖像的目標檢測，旨在從無人機拍攝的單幅圖像中檢測預定類別的目標；② 基于視頻的目標檢測，該任務與基于圖像的目標檢測類似，但需從視頻中檢測目標；③ 單目標跟蹤，估計單個目標在后續視頻幀中的狀態；④ 多目標跟蹤，旨在恢復每個視頻幀中目標的軌跡。表10和表11分別展示了VisDrone挑戰賽2018―2021年多目標檢測與多目標跟蹤賽道排名前5的算法與評估結果。

表10 VisDrone挑戰賽多目標檢測競賽結果評估Table 10 Evaluation of multi object detection competition results of VisDrone Challenge

多目標檢測競賽結果表明，多個網絡的組合可有效提高目標檢測的準確性。Cascade RCNN和YOLO V5分別成為雙階段和單階段的最優檢測框架。在此基礎上采用了一些有效的策略來獲得更好的精確度，如注意機制、雙頭網絡、分層設計等。精確度最高的檢測網絡基于Cascade R-CNN實現，通過級聯細化框獲得更好的定位性能。此外，將卷積替換成Transformer的TPH-YOLO V5與Swin-T網絡也取得了不錯的成績。但mAP的最佳分數仍低于40%，在實際應用中要取得優異的性能還任重道遠。此外，由于無人機平臺上的資源有限，需進一步考慮網絡的計算復雜度。

多目標跟蹤競賽提交的結果顯示，成績最好的跟蹤框架都是以TBD框架，并對特征處理進行了一些修改。成績最優的目標檢測器都是基于雙階段檢測器Cascade R-CNN的檢測結果。為了適應具有眾多小目標的VisDrone數據，不僅利用了目標的外觀特征表示，還利用了單個目標跟蹤器或其他低級運動模式的時間一致性信息。因此，基于相似性計算的重識別結果對于開發高性能MOT算法至關重要。同時由于TBD框架的性能在很大程度上受檢測器的影響，構建一個性能優異的檢測器非常重要。

5 面臨的問題與挑戰

近年來，隨著深度學習及計算機硬件的發展，基于無人機航拍視頻的多目標檢測與跟蹤取得了長足進步，但仍面臨著多種挑戰：

1）原始視頻中的噪聲干擾。UAV視角下的視頻容易因目標交互、UAV移動、環境變化等原因引入大量噪聲，視頻中的噪聲可能會嚴重影響目標檢測過程或MOT以及視頻處理的其他階段。

2）目標形狀及運動復雜。由于形狀和位置的不同，目標可能會根據其在現實世界中的規則進行不同的運動或呈現多種姿態。例如，行人可以走、跑、站或坐。同時UAV的高度變化，易造成相同的目標在視覺畫面中尺度的變化，對目標的檢測與跟蹤造成干擾。

3）光照陰影。當目標受到來自照明源的直射光的阻礙時，陰影會出現，陰影也可能會由于交互或其他目標而產生，提升了目標的識別難度。

4）光照強度與視點變化。在像素級別上，亮度的變化會對目標的識別造成干擾，目標在各種光照條件下顯示各種顏色，將會導致檢測錯誤并降低模型的性能。此外，從不同視點看到的目標可能看起來完全不同。

5）目標遮擋。在復雜場景和擁擠的環境中，單個目標有可能會被完全遮擋，或者被背景的一部分遮擋，對目標的檢測與跟蹤造成干擾，尤其是在長時跟蹤過程中，目標有可能重新進入視野，對模型的長時跟蹤帶來更大挑戰。

6）網絡復雜度高，實時性差。在UAV平臺上為了滿足視頻處理的實時性需求，多目標檢測和跟蹤算法需要有較高的處理速度，對網絡的參數量和計算復雜度有了更加嚴苛的要求。

7）數據集受限。當前可用于UAV視角的多目標檢測與跟蹤的帶注釋數據集較少，成為限制網絡性能的一大瓶頸。

6 總結與展望

本文通過總結及對比分析，梳理了近年來UAV視角下多目標檢測與跟蹤領域的研究成果，梳理了近年來在多目標檢測與跟蹤領域的主要技術路線及最新方法，對比了各類方法在UAV視角下的應用優勢及缺點，并介紹了該領域的數據集及評估方法。通過以上總結和分析，對后續的發展趨勢和進一步研究方向進行展望，期望可以提供有價值的參考。

目前面向UAV視角的多目標檢測與跟蹤效果良莠不齊，在將傳統視角的優秀算法遷移到UAV視角時仍存在較多有待改進之處，在性能提升上仍有較大空間。后續的研究工作可以多關注以下幾個方面：

1）依托無監督或半監督訓練模式。現有的面向UAV視角的多目標檢測與跟蹤數據集較少，標注成本大。基于無監督學習與半監督的深度學習網絡訓練模式取得了較快發展，其網絡訓練方式對標注數據集需求較少，在處理缺少對應數據集的UAV多目標檢測與跟蹤問題上，此方向值得深入研究。

2）設計有效的跨幀傳播信息機制。無論是多目標檢測還是跟蹤算法，跨幀傳播信息都是提高它們性能的一個有效策略。對跟蹤場景內的各目標進行編碼標注，并在幀間傳遞這些物體的信息，可以與更新策略有效聯合，進一步避免引入噪聲。研究跨幀傳播信息機制是克服長時目標檢測與跟蹤困難挑戰的一個未來研究方向。

3）引入對算力要求較低的模型。基于Anchor-free的檢測算法與JDT多目標跟蹤算法擁有更少的模型參數，能夠在硬件資源較少的移動端與邊緣端取得較好效果，更適用于算力受限的UAV平臺，如何將其更好地應用到UAV平臺值得深入研究。

4）搭建輕量級高效的目標特征提取網絡。在進行多目標跟蹤時，如何在提取到盡可能多的目標特征的同時，降低網絡的復雜度，將是高效準確地實現多目標跟蹤數據關聯的重要環節。

5）借助多模態數據。在進行無人機航拍視頻的多目標檢測與跟蹤時，對于數據的類別選擇上，除了使用常規的視覺單模態視頻數據之外，可以借助UAV平臺能夠搭載的慣性處理單元、紅外相機、景深相機等多模態傳感器，實現多模態數據的采集與應用，獲取到更多的數據信息，提升檢測與跟蹤精度。