胡 俊,顧晶晶,王秋紅
基于遙感圖像的多模態小目標檢測
胡 俊,顧晶晶,王秋紅
(南京航空航天大學計算機科學與技術學院,江蘇 南京 210016)
由于遙感圖像目標往往較小且容易受光線、天氣等因素的影響,所以單一模態下基于深度學習的遙感圖像目標檢測的準確度較低。然而,不同模態間的圖像信息可以相互增強提高目標檢測的性能。因此,基于RGB和紅外圖像,提出了一種適用于遙感圖像多模態小目標檢測的平衡多模態深度模型。相比簡單地相加、點乘和拼接的方式融合2個模態的特征信息,設計了一種平衡多模態特征的方法增強目標特征,以彌補單一模態信息不足的缺點。首先分別對RGB和紅外圖像進行淺層特征提取;其次,融合2個模態的特征信息并進行深層的特征提?。蝗缓?,基于YOLOv4方法,構建了多模態小目標檢測模型。最后,基于VEDAI數據集,在遙感圖像多模態小目標檢測實驗結果中驗證了該方法的有效性。
遙感圖像;平衡多模態深度模型;小目標檢測;融合;VEDAI數據集
遙感圖像在實時、動態、宏觀等特點的基礎上,為軍事偵察、地質災害調查與救治等方面提供了一種新的探測手段。近些年,隨著衛星遙感技術和深度卷積神經網絡(deep convolutional neural network,DCNN)技術的快速發展,遙感圖像目標檢測在軍事、情報、商業、經濟、規劃等領域有著重要的應用。
早期基于傳統機器學習方法的檢測工作[1-3],其檢測性能十分有限。隨著發展,DCNN在目標檢測任務中占據著主導地位,根據網絡階段可分為one-stage (YOLO[4],SSD[5])和two-stage (R-CNN[6],Fast RCNN[7],Faster RCNN[8])。2種方法在一般的目標檢測任務中分別具有速度和精度上的優勢,但面向由衛星、遙感器、無人機等設備采集的遙感數據時,由于遙感數據目標較小,這些算法容易受到光線、天氣等因素影響,性能往往達不到預期,因此和一般的目標檢測任務存在一定差異性,給檢測任務帶來了許多挑戰。雖然已經開展了很多的遙感圖像目標檢測工作[9-17],但大部分還是僅針對RGB圖像的目標檢測。現今,用于航空目標檢測的多模態數據的可用性顯著增加,如高光譜、合成孔徑雷達(synthetic aperture radar,SAR)和紅外(infra-red,IR)圖像,其均有自身的優勢,為RGB圖像提供了補充信息??紤]到RGB圖像通常無法在較差的亮度條件下捕獲信息,利用紅外模式捕獲更長的熱波長,以完成不同天氣條件下檢測物體,有助于補償特征信息損失來擴展RGB的能力。所以也有一小部分工作是關于RGB和IR圖像相結合的目標檢測,但只是通過特征提取[18-20]并簡單地運用早期融合方式或相加、拼接[13, 21-23]等中期融合方式進行目標檢測。
為了解決以上問題,本文結合了RGB和IR圖像信息,提出一種適用于遙感圖像多模態小目標檢測的平衡多模態深度模型(balanced multimodal deep model,BMDM)。考慮到簡單地相加、點乘和拼接的方式融合2個模態的特征信息往往達不到理想效果,本文設計了一種平衡多模態特征的方法增強目標特征,彌補了單一模態信息不足的缺點。
如圖1所示,首先輸入RGB和IR圖像。在第1階段,分別對輸入的2種圖像提取淺層特征(low-level feature),使用平衡多模態融合方法(balanced multimodal fusion,BMF)對提取的淺層特征進行融合,再經過深層網絡提取深層特征(deep-level feature)。第2階段,對第1階段的特征進行空間金字塔池化(spatial pyramid pooling,SPP)和路徑聚合網絡(path aggregation network,PAN)處理。第3階段,輸出目標信息,并與真實數據計算損失來訓練模型。

圖1 平衡多模態深度模型框架結構
遙感小目標檢測網絡結構基于YOLOv4實現,整體分為主干、頸部和頭部3部分。主干用于RGB和IR圖像特征提取和融合。頸部是位于主干和頭部的一些網絡層,通常用來收集不同階段的特征圖。頭部是目標的檢測器,包括目標在圖像的位置、置信度和目標類別信息。其中主干又包括淺層特征提取層(low-level layer)、中間特征融合層(mid-level fusion layer)和深層特征提取層(deep-level layer)。淺層特征提取層由1個卷積層和1,4,8個跨階段局部殘差塊組成。中間特征融合層由一個全局平均池化層、全連接層和Softmax激活函數組成。深層特征提取層由8個跨階段局部殘差塊組成。主干網絡結構如圖2所示。為了使網絡獲取更多小目標的特征信息,提高其檢測率,BMDM在CSPDarknet53的基礎上對網絡結構進行改進,將該網絡中的第2個殘差塊增加2個,同時去除第5個殘差塊。跨階段局部殘差塊結構如圖3所示。

圖2 主干網絡結構

圖3 跨階段局部殘差塊結構
(1) 淺層特征提取層。低層特征映射可保留小目標的位置信息,而高層特征映射可包含高層語義線索。網絡輸出2個3D張量,分別表示RGB和IR圖像的低層特征。
(2) 中間特征融合層。為了平衡融合2個模態的局部特征信息,提出的BMF方法。
(3) 高層特征提取層。為了更好的豐富目標特征信息,將2個模態的特征信息融合后,再對其特征進行高層特征的提取。
(4) 頸部層。為了使輸入的頭部信心更豐富,將自底而上的數據流信息進行聚合,以使低層信息能更好地使用。頸部層使用了SPP池化層和PAN層。
(5) 頭部層。輸出預測目標的信息,與真實標注數據計算損失來優化網絡。輸出2個3D的張量,每個張量均包含檢測出目標的位置、置信度和目標類別。
候選框是一組寬高固定的初始框,對其選擇會直接影響網絡對目標的檢測精度與速度。K-means聚類算法具有可解釋性強、聚類效果較優、收斂速度快等優勢。本文利用K-means聚類算法對遙感圖像車輛檢測數據集中的目標框進行聚類。對數據集進行聚類分析,度量方法采用均值交并比方法(average intersection over union,avg IOU),其目標函數為

其中,為樣本號;為聚類中心的序號;為樣本;為簇的中心;n為聚類中心樣本的第個數;為樣本的總個數;I(,)為簇的中心框和聚類框的交并比;聚類數分別選取=2,3,···,10進行聚類,得到與均值交并比的關系圖(圖4)。隨著值的增大,目標函數也在變化,而=6后的曲線逐漸趨于平穩,因此選取候選框的數量為6,以加快損失函數的收斂,并消除候選框帶來的誤差。由于本文方法采用2個尺度對目標進行檢測,所以尺度1和2分別對應的候選框為(22,10),(11,22),(20,19)和(22,40),(40,17),(47,43)。
圖4 K-means聚類分析結果圖
Fig. 4 K-means clustering analysis result




鑒于遙感圖像數據受環境和拍攝器等因素影響,使得圖像不可避免的存在各種噪聲,尤其是遙感圖像中相對一般的檢測目標要小得多,受這些噪聲的影響更是嚴重。為了更好地訓練模型,采用數據增強來減小噪聲并且使得數據集“更強”,從而使目標檢測器獲得更好的精度且不增加推理成本,同時使模型在不同環境獲得的圖像具有更高的魯棒性。數據增強包括:
(1) 幾何變換,包括旋轉、翻轉、裁剪。
(2) 圖像增強,包括高斯噪聲、模糊處理、擦除、填充和顏色擾動。
(3) 混合削減,將圖像的部分區域剪掉并填充上訓練集中其他數據的區域值像素值。
(4) 馬賽克數據增強,將4張訓練圖像組合成1張圖像用于訓練,使模型能夠訓練到小的目標。如圖5所示,圖5(a)為原圖,經數據增強后得到圖5(b)增強圖。
本文方法將整個圖像分割成一個網格,且根據2.2節選擇2個尺度,每個尺度有3個候選框。網絡整體輸出是2個3D張量(64×64×42,32×32×42),張量包含了位置、置信度和類別信息,2個張量分別對應32×32和16×16的網格。
對于第個網格,預測輸出3×14維的向量對應3個候選框,每個候選框的輸出為

其中,(x,y)為預測框的中心點,相對于該網格的左上角;為該預測框里目標的置信度,取值為0到1,越高說明置信度越大;,=1,2,···,9為預測框里目標的類別,類別對應于汽車、卡車、拖拉機、露營車、客貨車、其他車、皮卡、船、飛機。同時,輸出的評估方式采用平均正確率均值,即


方法的損失函數類似于YOLOv4,分為類別、置信度和位置損失,損失函數為

(1) 類別損失。預測框中存在目標時才進行類別損失計算,根據候選框與實際框的交并比判斷是否存在目標。本文采用2個特征尺度,分別對應于8倍和16倍下采樣。類別損失計算采用交叉熵損失計算,對每個類別計算交叉熵損失并進行求和運算,類別損失函數為


(2) 置信度損失。區分有目標和無目標的置信度損失,采用交叉熵損失,置信度損失函數為

(3) 位置損失。采用完全交并比損失(complete intersection over union,CIOU)[24],即





其中,,分別為預測框和真實框;,分別為2個框的中心點;為2個框的最小包圍矩形框的對角線長度;為預測框和真實框的中心端距離;和分別為真實角度值和預測角度值。
將本文方法在遙感圖像車輛檢測庫(vehicle detection in aerial imagery,VEDAI)中進行測試。實驗條件:操作系統為Red Hat 4.8.5,深度學習框架為PyTorch,CPU為i7-5930 K,內存為64 G,GPU為GeForce RTX 3090,GPU內存為16 G。
VEDAI (https://downloads.greyc.fr/vedai/)是一個用于遙感圖像中車輛檢測的數據集,是在無約束環境中對自動目標識別算法進行基準測試的工具。數據庫中包含的車輛除了體積小之外,還表現出不同的問題,如多個方向、照明陰影變化、鏡面反射或遮擋。此外,每幅圖像均有多個光譜波段和分辨率。該數據集包含1 272張1024×1024的遙感圖像,對應于1 272張512×512遙感圖像,空間分辨率為12.5 cm。所有圖像均是從同一高度拍攝的,每幅圖像有2種模態:RGB和IR圖像。數據集劃分為汽車、卡車、拖拉機、露營車、客貨車、其他車、皮卡、船和飛機9個類別。本文使用的是512×512的圖像,所有類別均包括在內,見表1。
訓練集和測試集的劃分比例為9∶1,即1 146張圖像用于訓練集,126張圖像用于測試集。模型總共訓練300次迭代,每次訓練的最小批量為4張圖像,梯度累計間隔為4次最小批量迭代。使用Adam優化器進行訓練,初始學習率為0.001,權重衰減系數為0.000 5,動量參數為0.93。在訓練模型中,每一次訓練迭代均計算了測試集的平均正確率均值。
在該數據集中,正負樣本十分不均衡,負樣本數量太大,占總損失的大部分,且多是容易分類的,因此使得模型的優化達不到理想,導致檢測準確度不理想。因此在損失函數中采用了focal損失函數,該函數可以通過減少易分類樣本的權重,使得模型在訓練時更專注于難分類的樣本來提升檢測的精確度。在實驗中,本文分別設置focal損失參數為=0,1,2,3,由此選取更適合的focal損失參數。實驗結果如圖6所示,同時本文還對比了YOLOrs模型不同focal損失參數的訓練結果。根據實驗結果可知=1和=2時,測試集的平均正確率均值相差不大,但是在接近300次迭代時=2的平均正確率均值有下降趨勢,因此本文選取了=1作為focal的參數。
在對比試驗中,為了不讓模型受focal損失參數的影響,本文統一設置=1。本文對比了YOLOrs (4通道)[13]、改進的YOLOv4 (RGB)、改進的YOLOv4 (IR)、改進的YOLOv4 (點乘融合)、SSD[5](4通道)、RetinaNet (4通道)(注:RGB是3通道圖像,IR是1通道圖像,4通道表示將2個模態的圖像合并為4通道作為模型的輸入;RGB表示只輸入RGB圖像;IR表示只輸入IR圖像;點乘融合表示使用BMF網絡,融合方式采用點乘方式)。YOLOrs是專為多模態遙感圖像實時目標檢測而設計的,采用中期拼接方式融合。SSD為經典的一階段目標檢測算法,使用focal損失函數。RetinaNet使用ResNet+FPN作為主干,是一種使用focal損失參數的一階段目標檢測模型。實驗結果見表2。實驗結果表明融合方式十分重要,這是因為2種模態圖像均包含著豐富的特征信息,模型能夠利用不同模態中有用的信息作為補充信息。表3給出了本文模型對9個類別的準確率和召回率。

圖6 Focal參數對比結果圖((a) YOLOrs的不同focal參數結果圖;(b)本文方法的不同focal參數結果圖)

表2 測試集上精度對比
注:加粗數據為最優值

表3 平衡多模態方法的準確率和召回率(%)
(1) 定量對比。本文方法在平均正確率均值結果中有著不俗的表現,達到71.5%,排名第1,相比第2名提高了11.0%。是因為在模態融合時2種模態的信息互補,增強了模型對目標的檢測。其中卡車、露營車、客貨車、其他車、船類別均優于其他模型。
(2) 定性對比。圖7第1~3列分別為本文、YOLOrs和Improved YOLOv4(multiplication)方法的檢測結果,數字1,2,···,9對應9個類別,其中所標出的紅色框為多檢和錯檢結果。YOLOrs模型容易出現多檢的情況,Improved YOLOv4 (multiplication)模型容易出現多檢和錯檢的情況,而本文模型能夠精準地檢測出目標。
本文設計了一系列的消融實驗以分析平衡多模態方法和其每一部分的優勢,并對比了使用該網絡的單模態RGB實驗。
(1) 數據增強。對于遙感圖像的目標檢測任務是十分重要的。實驗中本文對比了使用和不使用數據增強的單模態和多模態方法,從實驗結果可知數據增強會大幅度提高檢測的精確度。
(2) 平衡多模態。相比單模態RGB圖像檢測,平衡多模態目標檢測受環境等因素的影響更低,由此泛化性也更高。表4展示了該方法在遙感圖像小目標檢測的精度上更高。

圖7 可視化檢測結果圖((a)本文方法;(b) YOLOrs方法;(c)改進的YOLOv4(點乘)方法)

表4 消融實驗的平均正確率均值
注:加粗數據為最優值;√為使用本模塊;- 為未使用本模塊
(3) 正則項矩陣。其為了防止過擬合,從而增強模型的泛化能力。實驗結果也表明了正則項矩陣的優勢。
為提升目標檢測中小目標的檢測精度,以解決光線弱、能見度低等環境下目標檢測效果不理想的問題,本文聯合挖掘了RGB和IR圖像2種模態數據之間的相關性及可實現互補增強,并基于改進的CSP-DarkNet53網絡提出了基于YOLO的平衡多模態多類檢測網絡,以實時檢測遙感圖像中的小目標。該方法不僅對遙感圖像小目標更敏感,且通過BMF方式利用2種模態信息互補增強,進一步提升網絡的小目標檢測精度和魯棒性。同時,算法采用數據增強減弱噪聲的影響,進一步優化了訓練數據集。在公開的VEDAI數據集上進行驗證,相比其他方法,本文方法在多個類別的mAP均處于領先,總體上也實現了最好的性能表現。
綜上所述,本文提出的BMDM方法通過融合圖像的多模態信息而實現對遙感圖像中小目標的精確檢測,有效提升了小目標的檢測性能,并為后續其他融合方法的選取與嘗試提供了參考。雖然目前本文的BMDM方法在小目標檢測精度上有了較明顯地提升,但由于網絡需要對2個模態的圖像進行特征提取并融合,致使網絡計算速度上受到限制,且融合方式有待進一步挖掘。因此,如何進一步加速計算、改進融合方法、提高精度,是下一個階段需要探索的目標。
[1] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.
[2] VIOLA P, JONES M J. Robust real-time face detection[J]. International Journal of Computer Vision, 2004, 57(2): 137-154.
[3] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2005: 886-893.
[4] BOCHKOVSKIY A, WANG C Y, LIAO H Y. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. [2021-07-26]. https://xueshu.baidu.com/usercenter/paper/show? paperid=1q0h0p70e95d0ej0sj1202x0em679337.
[5] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[M]//Computer Vision – ECCV 2016. Cham: Springer International Publishing, 2016: 21-37.
[6] GIRSHICK R, DONAHUE J, DARRELL T, et al. Region-based convolutional networks for accurate object detection and segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(1): 142-158.
[7] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[8] HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.
[9] ETTEN A V. You only look twice: rapid multi-scale object detection in satellite imagery[EB/OL]. [2021-07-26]. https:// xueshu.baidu.com/usercenter/paper/show?paperid=196ddb2c129916b9f930a718f09e6348&site=xueshu_se.
[10] YANG X, YANG J R, YAN J C, et al. SCRDet: towards more robust detection for small, cluttered and rotated objects[C]// 2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 8231-8240.
[11] ZHANG G J, LU S J, ZHANG W. CAD-net: a context-aware detection network for objects in remote sensing imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(12): 10015-10024.
[12] LONG H, CHUNG Y, LIU Z B, et al. Object detection in aerial images using feature fusion deep networks[J]. IEEE Access, 2019, 7: 30980-30990.
[13] SHARMA M, DHANARAJ M, KARNAM S, et al. YOLOrs: object detection in multimodal remote sensing imagery[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 14: 1497-1508.
[14] KOESTER E, SAHIN C S. A comparison of super-resolution and nearest neighbors interpolation applied to object detection on satellite data[EB/OL].[2021-07-26]. https://xueshu.baidu. com/usercenter/paper/show?paperid=1c520t20gw6f0m60e80u0g106f040545&site=xueshu_se&hitarticle=1.
[15] XIA G S, BAI X, DING J, et al. DOTA: a large-scale dataset for object detection in aerial images[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 3974-3983.
[16] LU X C, JI J, XING Z Q, et al. Attention and feature fusion SSD for remote sensing object detection[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1-9.
[17] YANG X, LIU Q Q, YAN J C, et al. R3Det: refined single-stage detector with feature refinement for rotating object[EB/OL]. [2021-07-26]. https://xueshu.baidu.com/ usercenter/paper/show?paperid=133q0vw0wg7w04w0pq150pm0kn019941&site=xueshu_se.
[18] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(4): 640-651.
[19] SZEGEDY C, IOFFE S, VANHOUCKE V, et al. Inception-v4, inception-resnet and the impact of residual connections on learning[EB/OL]. [2021-07-26]. https://xueshu.baidu.com/ usercenter/paper/show?paperid=e405c047319275f1026702182776bfdc&site=xueshu_se.
[20] IANDOLA F, MOSKEWICZ M, KARAYEV S, et al. DenseNet: implementing efficient ConvNet descriptor Pyramids[EB/OL]. [2021-07-26].https://xueshu.baidu.com/ usercenter/paper/show?paperid=db44736c4000d1544d02905c43dbf413&site=xueshu_se&hitarticle=1.
[21] 邢素霞, 肖洪兵, 陳天華, 等. 基于目標提取與NSCT的圖像融合技術研究[J]. 光電子激光, 2013, 24(3): 583-588.
XING S X, XIAO H B, CHEN T H, et al. Study of image fusion technology based on object extraction and NSCT[J]. Journal of Optoelectronics Laser, 2013, 24(3): 583-588 (in Chinese).
[22] 王春華, 馬國超, 馬苗. 基于目標提取的紅外與可見光圖像融合算法[J]. 計算機工程, 2010, 36(2): 197-200.
WANG C H, MA G C, MA M. Fusion algorithm for infrared and visible light image based on object extraction[J]. Computer Engineering, 2010, 36(2): 197-200 (in Chinese).
[23] YANG D F, LIU X, HE H, et al. Air-to-ground multimodal object detection algorithm based on feature association learning[J]. International Journal of Advanced Robotic Systems, 2019, 16(3): 1-9.
[24] ZHENG Z H, WANG P, LIU W, et al. Distance-IoU loss: faster and better learning for bounding box regression[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 12993-13000.
Multimodal small target detection based on remote sensing image
HU Jun, GU Jing-jing, WANG Qiu-hong
(College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing Jiangsu 210016, China)
Since targets in remote sensing images are relatively small and easily affected by illumination, weather, and other factors, deep-learning based target detection methods from single modality remote sensing images suffer from low accuracy. However, the image information between different modalities can enhance each other to improve the performance of target detection. Therefore, based on RGB and infrared images fusion, we proposed a balanced multimodal depth model (BMDM) for multimodal small target detection from remote sensing images. As opposed to simple element-wise summation, element-wise multiplication, andconcatenation to fuse the feature information of the two modalities, we designed a balanced multimodal feature method to enhance target features to make up for the shortcomings of single modal information. We first extracted low-level features from RGB and infrared images, respectively. Secondly, we fused the feature information of the two modalities and extracted deep-level features. Thirdly, we constructed a multimodal small target detection model based on the one-stage method. Finally, the effectiveness of the proposed method was verified by the experimental results of multimodal small target detection performed on the public dataset VEDAI of remote sensing images.
remote sensing images; balanced multimodal deep model; small target detection; fusion; VEDAI dataset
TP 753
10.11996/JG.j.2095-302X.2022020197
A
2095-302X(2022)02-0197-08
2021-08-26;
2021-11-26
國家自然科學基金項目(62072235)
胡 俊(1994–),男,碩士研究生。主要研究方向為數字圖像處理與數據挖掘。E-mail:hujunyn@163.com
顧晶晶(1986–),女,教授,博士。主要研究方向為網絡數據挖掘、智能系統等。E-mail:gujingjing@nuaa.edu.cn
26 August,2021;
26 November,2021
National Natural Science Foundation of China (62072235)
HU Jun (1994–), master student. His main research interests cover digital image processing and data mining. E-mail:hujunyn@163.com
GU Jing-jing (1986–), professor, Ph.D. Her main research interests cover data mining, intelligent system, etc. E-mail:gujingjing@nuaa.edu.cn