




關鍵詞:無人機圖像;多目標檢測;小目標檢測;圖像超分辨率;深度學習
中圖分類號:TP751.1;TP391.41 文獻標識碼:A
0 引言
無人機遙感系統在各個領域展現出了巨大的潛力和應用前景。然而,無人機圖像的目標檢測依然是一個重要且具有挑戰性的任務[1]。目標檢測旨在識別數字圖像中特定類別的視覺對象,并確定其在圖像中的位置。在無人機圖像數據檢測中,小目標檢測因其識別難度大、應用價值高而備受關注[2]。對于小目標的檢測,通常有兩種提升模型檢測精確度的途徑,分別為模型內特征融合機制和區域搜索策略[3]。
模型內特征融合機制可以結合不同層次的特征信息,使模型更好地捕捉小目標的細微特征[4]。例如,竇同旭等[5] 提出的改進型算法模型YOLOADOP,其通過調整檢測分支、設計解耦頭以及優化損失函數和標簽分配策略,顯著提高了無人機影像中小目標的檢測效果。該模型在VisDrone 數據集上的表現優于YOLOv5 模型,具有更好的檢測效果。韓興勃等[6] 在YOLOv5 的基礎上引入了殘差連接與跨層注意力,提升了模型對遙感圖像中小目標的檢測能力,驗證了底層特征圖和注意力機制在提升小目標檢測性能方面的重要作用。楊慧劍等[7]針對航拍圖像中小目標檢測準確率不高的問題,提出了基于YOLOv5 的改進算法。該算法通過整合卷積塊的注意力模塊(convolutional block attentionmodule,CBAM), 將空間金字塔池化(spatialpyramid pooling,SPP)替換為空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP),在特征金字塔網絡(feature pyramid network,FPN)結構中添加檢測頭,有效提升了小目標的檢測精度,mAP_0.5指標增加了6.9%,證明其可以有效檢測航拍圖像中的小目標。Tan 等[8] 提出的MFF-FPN 模型,利用ResNet50 作為骨干網絡并引入注意力機制,顯著提升了該模型在臨床胸主動脈夾層及其并發癥檢測中的小目標檢測精度。然而,只為小目標設置特征融合的方法僅能夠在圖像噪聲分布與模型預訓練相似的場景下,使模型檢測的表現有所提升,但模型難以應用到所有場景。
針對上述方法泛化能力較弱的問題,部分學者考慮在模型內設計區域搜索策略,將計算資源聚焦于最有可能包含目標的圖像區域,降低小目標檢測的難度。Lu 等[9] 利用鄰接矩陣和縮放預測將計算資源自適應地定向至小目標所在的子區域,從而集中處理更有可能包含目標的區域。Alexe 等[10] 引入了一種上下文驅動的搜索方法,利用對象的上下文關系和其在圖像中的典型分布,預測目標可能存在的位置。上述搜索策略的制定,偏向于模型關注訓練集上目標的典型分布模式,而在無人機航拍圖像的檢測任務中的目標通常會隨機分布,因此當前區域搜索策略還具備一定的提升空間。
1 粒度檢測引導的多目標檢測算法
本文提出的粒度檢測引導的多目標檢測算法檢測流程為:首先,對降采樣的低分辨率圖像進行目標檢測,標記潛在目標所在區域,再對這些區域進行重采樣和超分辨率處理,并且由細粒度檢測器進一步精確識別小目標。其次,使用目標識別模塊對潛在目標區域進行多目標識別。最后,通過后處理算法融合粗、細粒度檢測結果。該算法主要包含3 個關鍵模塊:重采樣與超分辨率處理模塊、多目標識別模塊、后處理模塊。總體模型架構如圖1 所示。
1.1 重采樣與超分辨率處理模塊
重采樣與超分辨率處理模塊連接了多粒度圖像特征。在粗粒度目標識別階段,采用該模塊對圖像進行降采樣,以減少對計算資源的消耗;在細粒度目標識別階段,采用該模塊可增強興趣區域的圖像質量,在細粒度檢測階段能夠更清晰、準確地識別小目標。
本文選用單一圖像超分辨率技術(single imagesuper resolution,SISR)網絡[11] 作為重采樣與超分辨率處理模塊,且令重采樣與超分辨率模塊在網絡中共享參數,以實現對本地數據集具有較好的重建效果。
1.2 多目標識別模塊
在多目標識別模塊中,采用目標檢測器對圖像中的物體進行識別與標記。目標檢測器在模型中有兩種不同的應用場景,對于粗粒度圖像,其可以對大型個體目標與包含多個小目標的興趣區域位置進行標記;對于細粒度圖像,其可以識別小目標并標記相對位置。本文采用Faster R-CNN 作為多目標識別模塊。首先,通過對圖像中的前景和背景內容進行判別,并利用區域提議網絡生成高概率包含目標的提議框。其次,這些提議框被進一步送入分類及回歸的檢測頭部網絡中,以確定提議框的具體類別及其精確的邊界框坐標。
本文設計的算法在Linux 系統且版本為Ubuntu18.04 的環境下運行, 選用了2 塊NVIDIA RTX2080Ti 11 GB GPU,CPU 型號為Intel Core i9 10980XE,其擁有系統內存為64 G 的實驗平臺。
在模型超參數設置上,檢測器特征提取階段選用預訓練的CNN ResNet101 殘差網絡參數。模型訓練時選用隨機梯度下降(stochastic gradient descent,SGD)優化器,設置學習率為0.001,訓練20 個訓練輪次。
3 模型效果驗證
在保持特征提取網絡、圖像處理尺寸以及其他關鍵超參數一致的前提下,將本文模型與傳統的多階段目標檢測策略進行比較,評估本文提出的模型在無人機航拍圖像識別任務上的性能。在模型驗證試驗中,特征提取階段均采用預訓練的ResNet101網絡作為基礎。不同模型在VISDrone2019 測試集上的檢測結果如表1 所示。其中,AP、AP、AP 分別表示IoU 為0.5 時的mAP、IoU 為0.75時的mAP 和IoU 為0.5 ~ 0.95 時以0.05 步長遞進的所有IoU 閾值下的mAP 平均值。
由表1 可知,本文模型在多目標檢測任務中表現優于極限模型及當前主流目標檢測算法,本文模型的AP、AP 和AP指標分別比YOLOv5 模型高了1.49%、5.16% 和3.27%。
本文還探究了模型在對同類別目標的識別表現,如表2 所示。相較于Faster R-CNN(基線),本文模型在大目標的識別方面具有更大優勢,而小目標識別性能優勢較小,但其整體識別性能仍有較大提升。
4 結論
本文提出的方法在處理尺寸中等至較大的物體時具有明顯的優勢,而對于極小尺寸的物體,盡管挑戰依然存在,但該方法仍能實現一定程度的準確率提升,證明了其在航拍圖像小目標檢測領域的有效性和先進性。