








摘要:基于深度學習的遙感圖像檢測在農業生產、軍事打擊等領域都有所應用。但深度學習模型有計算復雜度高和參數量大的問題,而實際部署深度模型的邊緣設備計算性能有限。文章以高分辨率遙感圖像作為研究對象,對單階段的實例分割網絡算法進行改進,在Yolact(You Only Look At CoefficienTs)網絡的基礎上提出一種融入注意力機制和可變形卷積的輕量級實例分割算法。使用NWPU VHR-10遙感圖像數據集對所提算法進行性能評估,實驗結果表明,該算法能在保持性能的情況下減少計算復雜度和參數量。
關鍵詞:深度學習;Yolact;輕量化;注意力機制;可變形卷積
中圖分類號:TP39
文獻標志碼:A
0 引言
基于深度學習的遙感圖像識別是當前一個熱點研究方向。諸如Yolact及其改進的實例分割網絡也被廣泛地應用在遙感圖像的識別上[1]。實例分割目的是將圖片中的目標檢測出來,并對檢出目標進行掩膜標記。其技術可廣泛應用于汽車自動駕駛、機器人控制、輔助醫療和遙感影像等領域[2]。在將實例分割網絡應用在遙感圖像領域時,會遇到終端設備性能不足的情況,這就對模型的計算復雜度和參數量提出了要求。從Zhao等[1]的研究可以知道,雖然Yolact相比于如Mask-RCNN(Mask Region-based Convolutional Neural Network)的二階段網絡模型更小,計算復雜度更低,但是其構成網絡的各個模塊依然可以進一步進行降低計算復雜度的操作,本文將使用輕量級網絡對Yolact網絡進行進一步輕量化,在保證一定精確度的情況下,比Yolact模型的內存占用和計算復雜度更小。
1 Yolact網絡的改進
Yolact是一種基于單階段目標檢測網絡的實例分割網絡,其在單階段目標檢測網絡上添加了Mask模板生成分支,類似經典的兩階段實例分割模型Mask-RCNN是在兩階段目標檢測模型Faster-RCNN(Faster Region-based Convolutional Neural Network)上添加掩模分支[1]。Yoalct將實例分割任務分成了兩個并行的過程,首先使用prototype mask分支生成一個雛形的Mask,然后再預測每個實例的掩膜系數,最后通過將原型與掩模系數線性組合來生成實例掩膜。Yoalct不需要使用RPN(Region Proposal Network)生成建議區域,因此Yolact的速度高于兩階段的實例分割網絡[1]。
1.1 特征提取網絡的改進
Yolact使用了ResNet網絡進行特征提取,但是ResNet網絡使用了大量的普通卷積。為了減少模型的計算量并增強對目標信息的感知,本文將ResNet網絡替換為YOLOX(You Only Look Once X)使用的CSPDarkNet。該網絡大量使用了殘差連接,同時可以避免過深的網絡帶來的梯度問題,并且使用了Focus模塊,具體是在圖片中每隔一個像素點進行取值來獲得4個獨立的特征層,然后將4個特征層進行堆疊,來實現沒有信息丟失的下采樣[3]。同時CSPDarknet使用SiLU激活函數,其特定為有下界無上界、平滑并且是非單調,在深層模型上的效果優于ReLU,CSPDarknet最后還使用了SPP(Spatial Pyramid Pooling)結構,將不同大小的特征圖進行統一并融合,提高了網絡的感受野[3]。
本文在CSPDarkNet的基礎上使用了CBAM (Convolutional Block Attention Module)注意力機制,在每一個CSPLayer后添加一個CBAM模塊。CBAM是一個輕量的注意力模塊,可以嵌入其他的卷積網絡而無需關心帶來的計算量[4]。
如圖1所示,可以看出添加CBAM注意力機制模塊后的特征圖能夠更好地獲得輸入圖片的目標信息,如圖中箭頭所示,添加注意力機制的網絡能更精細地獲得輸入圖片中飛機目標的信息。
1.2 特征金字塔結構
Yolact所使用的特征金字塔網絡通過自上而下的路徑,將低分辨率高語義的特征圖和低語義高分辨率的特征圖進行融合,以此來增強特征圖表征能力[1]。但其高層特征圖由于是通過了多個網絡層,其特征信息只包含少部分的淺層信息。NAS-FCOS在FCOS(Fully Convolutional One-Stage Object Detection)搜索特征金字塔網絡[5]。本文將NAS-FCOS搜索的特征金字塔網絡替換Yolact的特征金字塔網絡,該結構能更好地融合各層之間的特征信息,可以獲得更好的特征圖。
1.3 Prediction Head分支的改進
Prediction Head分支的網絡是在RetinaNet的基礎上改進得到,該Head結構要更淺。并且添加了一個mask coefficient分支,同時通過采用共享卷積網絡來提高速度,達到實時分割的目的[1]。本文在Class預測分支上添加了DCNv2(Deformable Convolutional Networks v2)的可變形卷積,可變形卷積是指卷積的位置是可變形的,卷積核能自適應調整自身的形狀。Dai 等[6]在卷積核上的采樣點增加了一個方向參數,卷積核在訓練過程中可以進行擴展,從而適應目標形狀的變化。DCNv2在其基礎上引入權重系數,通過增加每個采樣點的權重,區分引入的區域是否為感興趣的區域[7]。最后改進得到的結構如圖2所示。
2 實驗結果分析
為驗證本文算法的有效性,在NWPU VHR-10遙感數據集中進行實驗[9-11],同時與基準算法Yolact進行比較。
2.1 實驗環境與參數配置介紹
本文算法是基于MMDetection框架實現[8],操作系統為Ubuntu20.04,64 G內存,CPU為Intel i9-10900k,顯卡為24 GB顯存的NVIDIA GeForce RTX 3090。
本算法在NWPU VHR-10數據集進行訓練及其測試。NWPU VHR-10 數據集包含了飛機、艦船、油罐、棒球場、網球場、籃球場、田徑場、港口、橋梁和汽車共計10種類別,800張圖片,其中650張包含目標的圖片以及150張背景圖片[9-11]。并且Su等[12]將NWPU VHR-10數據集按照coco格式進行掩膜打標。
本文將NWPU VHR-10 數據集隨機按照6∶2∶2的比例將圖像分為訓練集、驗證集和測試集,圖片大小為1024x1024。
2.2 評價指標
本文算法使用平均精度均值(mean Average Precison,mAP)分別對模型的目標檢測和實例分割識別性能測試指標,mAP是各類別AP的平均值,AP值就是PR曲線下的與坐標軸包圍的面積[13]。其中P是精確率(Precision),R是召回率(Recall)。
精確率 (Precision):
表示模型預測的所有目標中,預測正確的比例。
召回率 (Recall):
表示所有真實目標中,模型預測正確的目標比例。
其中,TP(True Positive)為IoU (Intersection over Union) >0.5的檢測目標、FP(False Positive)為IoU≤0.5的檢測目標、FN(False Negative)為沒有檢測到的GT(Ground Truth)的數量。IoU的計算公式如下,A,B分別是兩個不同的目標。
并且使用浮點運算次數(FLoating-point Operations,FLOPs)和參數量(Params)來度量模型的時間復雜度和空間復雜度。
2.3 實驗分析
將本文算法在NWPU VHR-10 數據集上與Yolact,Mask-RCNN進行性能比較,表中的APS,APM ,APL 為coco數據集定義的不同尺度目標的AP值,其中APS為面積<322的目標AP值,APM為面積>322且<962目標AP值,APL為面積>962的目標AP值。AP50和AP75為IOU閾值為0.50和0.75下的AP值,mAP為所有類別的AP平均值[14]。如表1、表2所示,可以看出Yolact和本文算法的AP值在整體上低于Mask-RCNN,但本文算法在目標檢測上的效果要好于Yolact網絡,本文mAP為0.531,高于Yolact算法的0.466。但實例分割的mAP要低于Yolact網絡。
本文也計算了各個算法的計算復雜度和參數量,如表3所示。可以發現,本文算法在計算復雜度和參數量要低于其他算法,計算復雜度分別是Mask-RCNN的0.589倍和Yolact的0.806倍,而參數量分別是Mask-RCNN的0.613倍和Yolact的0.768倍。綜合表1、表2的性能表現,本文算法相比于其他的算法能夠在保證低計算復雜度和參數量的情況下,具備一定的檢測性能。
2.4 消融實驗
為了驗證本文算法對各個模塊的改進效果,進行了相關實驗,實驗結果如表4所示。其中,Backbone表示是否將ResNet替換為本文所構造的骨干網絡,FPN表示是否替換為NAS-FCOS搜索得到的特征金字塔模塊,Head表示Head分支是否替換為本文所改進的Head分支。
由表4可以看出,使用本文所構造的骨干網絡,浮點運算數和參數量都有所減低,但目標檢測和實例分割的mAP也隨之減低。而在使用NAS-FCOS搜索得到的特征金字塔模塊后,參數量少幅度提升,但是目標檢測的mAP提高了0.027,浮點運算數略為減低。最后使用本文構建的Head分支后,目標檢測和實例分割的mAP均有上升。綜上,本文所構建的模塊均表現出了一定的作用,本文的骨干網絡能在大幅減少計算復雜度和參數量情況下,保證目標檢測的性能。本文構建Head分支能在少量提升浮點計算數和參數量的情況下增加目標檢測和實例分割的性能。但是本文算法的實例分割的mAP相對于Yolact并沒有提升,而是有所降低。
3 結語
本文提出了一種融合注意力機制與可變形卷積的輕量化Yolact網絡。模型以融合注意力機制CBAM的CSPDarkNet作為特征提取網絡,使用NAS-FCOS搜索得到的特征金字塔,以此來保證模型進行輕量化的同時性能下降不明顯;模型使用融入可變形卷積的Prediction Head分支使得模型檢測精度進一步提高。實驗表明,本文提出的算法在計算復雜度和參數量上均低于基準網絡Yolact,并且在目標檢測上的性能高于原Yolact網絡,但在實例分割上的性能下降了9%。
參考文獻
[1]ZHAO Z, TONG X, SUN Y, et al. Large scale instance segmentation of outdoor environment based on improved Yolact[J]. Concurrency and Computation: Practice and Experience, 2022(28): e7370.
[2]蘇麗,孫雨鑫,苑守正.基于深度學習的實例分割研究綜述[J].智能系統學報,2021(1):16-31.
[3]GE Z, LIU S, WANG F, et al. Yolox: exceeding yolo series in 2021[EB/OL]. (2021-08-06) [2023-03-07]. https://arxiv.org/abs/2107.08430.
[4]WOO S, PARK J, LEE J Y, et al. Cbam: convolutional block attention module[C]. Berlin: Proceedings of the European conference on computer vision (ECCV), 2018.
[5]WANG N, GAO Y, CHEN H, et al. Nas-fcos: fast neural architecture search for object detection[C]. Piscataway: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2020.
[6]DAI J, QI H, XIONG Y, et al. Deformable convolutional networks[C]. Piscataway: Proceedings of the IEEE International Conference on Computer Vision, 2017.
[7]ZHU X, HU H, LIN S, et al. Deformable convnets v2: more deformable, better results[C]. Piscataway: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019.
[8]CHEN K, WANG J, PANG J, et al. MMDetection: open mmlab detection toolbox and benchmark[EB/OL]. (2019-06-17) [2023-03-07]. https://arxiv.org/abs/1906.07155.
[9]CHENG G, HAN J, ZHOU P, et al. Multi-class geospatial object detection and geographic image classification based on collection of part detectors[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2014(98): 119-132.
[10]CHENG G, HAN J. A survey on object detection in optical remote sensing images[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016(117): 11-28.
[11]CHENG G, ZHOU P, HAN J. Learning rotation-invariant convolutional neural networks for object detection in VHR optical remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016(12): 7405-7415.
[12]SU H, WEI S, YAN M, et al. Object detection and instance segmentation in remote sensing imagery based on precise mask R-CNN[C]. Piscataway: IGARSS 2019-2019 IEEE International Geoscience and Remote Sensing Symposium. IEEE, 2019.
[13]涂銘,金智勇.深度學習與目標檢測:工具、原理與算法[M].北京:機械工業出版社,2021.
[14]LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft coco: common objects in context[C]. Berlin: Computer Vision-ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13. Springer International Publishing, 2014.
(編輯 沈 強)
Research on remote sensing image detection based on lightweight Yolact
Fang Yuze, Song Yanan, Xu Ronghua*, Dai Ang
(School of Automation, Guangdong University of Technology, Guangzhou 510006, China)
Abstract: Remote sensing image detection based on deep learning has been applied in agricultural production, military attack and other fields. However, the deep learning model has the problems of high computational complexity and large number of parameters, while the actual deployment depth model has limited computational performance of edge devices. Taking high-resolution remote sensing images as the research object, this paper improves the one-stage instance segmentation network algorithm. Based on the Yolact(You Only Look At CoefficienTs) network, a lightweight instance segmentation algorithm is proposed which integrates the attentional mechanism and deformations convolution. The performance of the proposed algorithm is evaluated using the NWPU VHR-10 remote sensing image dataset, and the experimental results show that the algorithm can reduce the computational complexity and the number of parameters while maintaining the performance.
Key words: deep learning; Yolact; lightweight; attention mechanism; deformable convolution