特征增強的多尺度視覺轉換器在遙感圖像場景分類中的應用

2023-09-05 12:06:22齊晶胡敏張京波

航天返回與遙感 2023年4期

齊晶胡敏張京波

齊晶1,2胡敏2張京波3

（1 航天東方紅衛星有限公司，北京 100094）（2 航天工程大學航空宇航科學與技術學院，北京 102206）（3 北京空間科技信息研究所，北京 100094）

傳統的基于卷積神經網絡的衛星遙感圖像場景分類方法忽略了場景圖像的全局語義特征以及遙感圖像在多個尺度上的鑒別特征。針對此問題，文章在視覺轉換器和多尺度特征的基礎上，提出了一種基于特征增強型多尺度視覺轉換器的遙感圖像場景分類方法。該方法采用雙分支結構在2個尺度上對遙感圖像進行分塊，獲取到不同大小的圖像塊，首先利用位置編碼和轉換器分別對2個尺度下的圖像塊進行特征學習，再利用通道注意力機制對轉換器輸出的圖像塊進行特征增強，最后將2個尺度上學習出的分類標記和增強后的特征進行融合決策，從而實現遙感圖像場景分類。采用國際公開的光學遙感圖像數據集AID和NWPU-RESISC45進行實驗驗證，結果表明該方法在AID數據集的場景分類準確率達到（95.27±0.39）%，在NWPU-RESISC45數據集的場景分類準確率達到（92.50±0.14）%，其分類性能優于CaffeNet、VGG、GoogLeNet和ViT等基準方法。該研究成果提升了模型對全局語義和多尺度特征的感知能力，對于提升衛星遙感圖像場景分類技術在土地監測、城市規劃等方面的應用具有重要意義。

遙感圖像場景分類深度學習視覺轉換器多尺度特征通道注意力

0 引言

場景分類是衛星遙感圖像解譯應用中的關鍵技術，該技術旨在根據衛星遙感圖像場景內容自動地對場景進行語義分類，為衛星遙感圖像解譯提供輔助判讀。傳統的衛星遙感圖像場景分類方法多是使用人工特征進行場景的特征描述，難以解決高層語義信息與低層特征之間的語義鴻溝，進而難以提取出能夠應對衛星遙感圖像場景復雜多變的特征表示。

隨著卷積神經網絡（Convolutional Neural Networks, CNN）在自然語言處理和計算機視覺等領域中的廣泛應用，基于CNN的衛星遙感圖像場景分類方法也被深入研究。文獻[1]提出了AID航空場景分類數據集，驗證了CNN較傳統人工特征方法的優勢與有效性。文獻[2]提出了NWPU-RESISC45遙感衛星圖像場景數據集，在更大規模數據量和更復雜多變條件下比較了CNN與人工特征方法的場景分類性能。文獻[3]提出了多層堆疊協方差池化（Multilayer Stacked Covariance Pooling，MSCP）方法，該方法將CNN提取的多層特征層進行堆疊，再計算堆疊特征的協方差，最后利用支持向量機進行分類。文獻[4]提出了多尺度深度特征表示（Multi-Scale Deep Feature Representation，MDFR）方法，該方法從預訓練的卷積神經網絡提取多尺度的深度特征并進行特征融合用于最終的遙感場景分類。文獻[5]采用多實例學習方法，提出了一種多實例密集連接卷積神經網絡（Multiple-Instance Densely-Connected ConvNet，MIDC-Net），該網絡在深度特征學習過程中考慮了場景內容的局部語義信息，增強了遙感圖像場景深度特征的表征能力。文獻[6]提出了一種基于殘差注意力的密集連接卷積神經網絡（Residual Attention based Dense Connected Convolutional Neural Network，RADC-Net），該方法使用注意力機制和密集鏈接關注到與遙感圖像場景語義相關的局部特征，從而學習出更具鑒別性質的特征。文獻[7]使用了基于ReLu激活函數的特征融合（ReLU-Based Feature Fusion，RBFF）策略，利用遷移學習實現了遙感場景分類。文獻[8]提出了基于自注意力的深度特征融合（Self-Attention-based Deep Feature Fusion，SAFF）方法，該方法首先使用預訓練的卷積神經網絡模型提取卷積特征，再利用空間維度和特征維度上的特征響應進行加權融合，最后用于遙感場景分類。文獻[9]設計了一種多級雙工融合網絡（Multi-Stage Duplex Fusion Network，MSDF-Net），該模型融合了殘差和密集鏈接，以雙工形式增強了場景語義特征的表示能力。這些方法在衛星遙感圖像場景分類中取得了較好的分類性能，但是沒有考慮場景圖像內部的長距離依賴關系，這些關系對于提升遙感圖像場景的語義特征表達具有重要作用。

最近，轉換器（Transformer）模型的興起為探索圖像內部長距離依賴關系提供了新的思路。文獻[10]通過將一些卷積層替換為自注意力（Self-attention）層來增強深度特征的全局感知能力，驗證了長距離依賴關系有助于提升圖像分類性能。文獻[11]提出了視覺轉換器（Vision Transformer，ViT）模型，該模型將圖像分塊，引入一個可學習的分類標記，利用基于多頭自注意力機制的Transformer編碼器將其與圖像塊一起進行特征學習，將學習到的分類標記作為整個圖像的最終特征表示，同時挖掘了圖像的長距離依賴關系，取得了較CNN更好的分類能力。需要指出，該模型已成為計算機視覺領域最具代表性的轉換器方法。文獻[12]在ViT的基礎上引入了多尺度特征學習并在自然場景圖像分類中取得較好的應用效果。盡管這些方法取得了較CNN明顯的優勢，但這些方法更多是利用分類標記作為最終特征表示，忽略了特征學習后圖像塊之間的相互關系，而這些圖像塊之間的相關關系很大程度上能夠進一步增強圖像的特征表示能力。

因此，本文提出一種基于多尺度視覺轉換器的衛星遙感圖像場景分類方法，該方法旨在利用視覺轉換器挖掘衛星遙感場景圖像的多尺度特征表示能力，同時使用視覺轉換器學習出的圖像塊特征及其依賴關系補充轉換器的分類標記進行決策，從而提升整個場景圖像的特征鑒別能力。具體地，首先使用大尺度和小尺度的雙分支結構對遙感場景圖像進行分塊，利用轉換器編碼器對2個尺度下的圖像塊和分類標記進行特征學習，并使用SE通道注意力[13]對學習出的圖像塊特征進行進一步特征增強，最終同時使用分類標記和增強后的圖像塊特征聯合進行衛星遙感圖像的場景分類。

1 研究方法

考慮到整個遙感場景圖像在2個尺度上變化較明顯，因此，本文所提遙感圖像場景分類方法的處理流程由2個尺度分支構成，即大尺度和小尺度分支，如圖1所示。

圖1 本文方法的處理流程

在2個分支上分別進行圖像分塊處理，獲得各個尺度下對應的圖像塊，對各圖像塊及其對應的空間位置和分類標記（class token）進行嵌入，再利用個多尺度Transformer編碼器對嵌入的圖像塊和分類標記進行特征學習。每個多尺度Transformer編碼器包含個大尺度編碼器、個小尺度編碼器和個交叉注意力模塊。每個編碼器由歸一化層、多頭注意力和多層感知機構成，用于學習各嵌入圖像塊和分類標記的特征表示。為了學習2個尺度上圖像塊標記（Patch Token）和分類標記的潛在依賴關系，利用交叉注意力模塊（Cross Attention Module）實現2個尺度分支上的特征交互，從而捕獲圖像的多尺度全局語義特征。不同于傳統ViT只適用于將分類標記用于分類，本文還考慮了2個尺度分支上的各圖像塊標記特征。為進一步挖掘有利于分類的圖像塊標記特征分量，本文使用SE通道注意力[13]學習出顯著的特征分量，增強各圖像塊標記特征，最終通過池化層處理得到2個尺度上該場景圖像的特征表示，通過串聯融合方式送入交叉熵損失函數用于訓練。此外，對于2個尺度輸出的分類標記，利用多層感知機進行處理，最后也通過串聯融合方式送入交叉熵損失函數。由此，整個模型通過基于圖像塊標記（Patch Token）的交叉熵損失函數和基于分類標記（Class Token）的交叉熵損失函數進行模型訓練。

1.1 圖像塊嵌入

1.2 多尺度轉換器編碼器

圖2 交叉注意力模塊

同理，可獲得通過交叉注意力模塊處理的小尺度分支最終輸出

1.3 特征增強及分類

2 實驗結果與分析

2.1 數據集

實驗使用了2個國際公開的衛星遙感場景圖像數據集AID[1]和NWPU-RESISC45[2]用于評估所提方法的分類性能。這2個數據均具備數據量大、類別多、場景變化大等特點，其中AID數據集共10 000張衛星遙感場景圖像，包含30個場景類別，每個圖像大小為600像素×600像素，空間分辨率變化范圍在0.5至8 m。NWPU-RESISC45衛星遙感場景圖像數據集包含45個場景類別，每類有700個場景圖像，每個圖像大小為256像素×256像素，空間分辨率變化范圍在0.2～30 m。

2.2 實驗設置

為了對比試驗，本文和以往基準方法[1-9]保持了相同的訓練-測試比率，即從AID數據集中每個類別的圖像中隨機選擇20%進行訓練，其余80%作為測試，此外還將AID的訓練測試集比率設為50%︰50%。對于NWPU-RESISC45數據集，選取10%當作訓練集剩余90%當作測試集，此外還將NWPU-RESISC45數據集的訓練測試比率設置為20%︰80%。與基準方法一致，本實驗采用總體準確率和標準差來評價分類結果。對每個訓練測試集重復實驗10次，并將測試集上分類結果的總體準確率和標準差作為最終算法比較結果。

對于大小尺度2個分支，本文根據文獻[12]的參數設置，大尺度分支的輸入圖像通過裁剪后尺寸為224像素×224像素，圖像塊尺寸為16，小尺度分支的輸入圖像通過裁剪后尺寸為240像素×240像素，圖像塊尺寸為12，多尺度Transformer編碼器數目為3，大尺度編碼器數目為5，小尺度編碼器數目為1，交叉注意力模塊數目為1，多頭注意力的個數為6。該實驗使用PyTorch深度學習計算框架，硬件環境為Intel Core i7-9700X CPU（3.60 GHz）以及NVIDIA GTX 2080Ti GPU。

2.3 對比實驗分析

表1列出了所有方法在AID數據集上的實驗結果。可以看到相比較傳統的CaffeNet、VGG和GoogLeNet在遙感圖像場景分類的結果，MSCP、MDFR、MIDC-Net、RADC-Net、RBFF、SAFF和MSDF-Net在訓練比率為20%和50%的條件下均取得了較好的分類效果，表明特征融合以及注意力機制均提升了CNN深度特征的表示能力。同時，ViT整體優于這些方法，說明Transformer學習出的長距離依賴關系有助于增強特征的鑒別能力。值得注意的是，本文方法在訓練比率為20%和50%的條件下取得了（92.07±0.31）%和（95.27±0.39）%的分類準確率，優于其他方法，表明該方法通過融合多尺度視覺Transformer特征，提升了模型對多尺度圖像內部長距離依賴關系的挖掘，同時通過各尺度上分類標記和圖像塊標記特征進行聯合學習決策，增強了場景圖像特征的表征能力，產生了較好的分類效果, 提升了衛星遙感圖像場景分類的應用能力。

表1 AID數據集中20%和50%訓練比例下的總體準確率和標準差

Tab.1 STDs and overall accuracies of different methods under 20% and 50% training ratios in the AID dataset 單位：%

表2是訓練比率為10%和20%條件下所有方法在NWPU-RESISC45數據集的分類結果。相比較AID數據集，NWPU-RESISC45數據集數據量較大、場景變化條件更大，因此所有方法的分類識別結果均整體低于AID數據集結果。由表2可以看到，MSCP、MDFR、MIDC-Net、RADC-Net、RBFF、SAFF和MSDF-Net在訓練比率為10%和20%條件下的分類性能整體優于經典的場景分類方法CaffeNet和GoogLeNet。特別地，VGG的分類效果優于CaffeNet、GoogLeNet、MSCP、MDFR、MIDC-Net、RADC-Net、RBFF、SAFF和MSDF-Net，這表明在NWPU-RESISC45數據集上VGG特征具有較強的鑒別能力。此外，ViT的分類效果優于以上基于CNN的場景分類方法，說明在分辨率、場景內容及場景類別等變化因素更多的條件下，Transformer學習到的特征更加有效。同時，本文方法依然優于其他方法，在2種訓練比例上分別達到了90.17%和92.5%的準確率，分別優于其他方法4.45%～6.8%和3.57%～5.56%，說明本文方法充分考慮了遙感場景圖像在多尺度上的長距離依賴關系以及Transformer編碼器中分類標記和圖像塊標記聯合表征能力，因此取得了較好的分類識別結果。另外，本文方法識別結果的標準差較小，也反映出所提方法更加穩定魯棒，有助于衛星遙感圖像場景分類的實際工程應用。

表2 NWPU-RESISC45數據集中10%和20%訓練比例下的總體準確率和標準差

Tab.2 STDs and overall accuracies of different methods under 10% and 20% training ratios in the NWPU-RESISC45 dataset 單位：%

2.4 泛化能力分析

為了驗證所提方法在真實遙感場景分類應用中的泛化能力，本文使用GID[14]數據集進行實驗驗證，該數據集包含了建筑物、耕地、森林、草地和水體5個場景大類共150張圖像，大小為6 800×7 200。為進一步研究場景更細粒度分類，該數據集對5個場景大類進行了15個場景子類的細分，即田、灌溉地、旱耕地、花園地、喬木林地、灌木林地、天然草地、人工草地、工業用地、城市住區、農村住區、交通用地、河流、湖泊和池塘。每個類別包含2 000張遙感圖像。針對GID數據集的15個子類，本文分別選取每類的10%和20%用于訓練，剩下的90%和80%用于測試，實驗結果如表3所示。可以看出，本文方法不同訓練比率下優于VGG和ViT方法，說明該方法所學習出的多尺度全局語義特征更有利于分類，同時，基于圖像塊標記的通道注意力機制進一步提升了模型的特征表示能力。

表3 GID數據集中10%和20%訓練比例下的總體準確率

Tab.3 Overall accuracies of different methods under 10% and 20% training ratios in the GID dataset 單位：%

3 結束語

本文提出了一種多尺度視覺轉換器的衛星遙感圖像場景分類方法，該方法使用大小尺度雙分支結構對場景圖像分塊，利用視覺Transformer編碼器對大小尺度分支上的圖像進行特征編碼，同時將2個分支上學習出的分類標記和圖像塊標記聯合建模用于融合決策，從而實現衛星遙感圖像場景分類。在國際公開的2個場景圖像分類數據集AID和NWPU-RESISC45上表明所提方法具有較好的場景分類能力，同時也驗證了多尺度遙感場景圖像內部長距離依賴關系以及分類標記和圖像塊標記的聯合學習有助于提升場景圖像特征的表征能力。

[1] XIA G S, HU J W, HU F, et al. AID：A Benchmark Data Set for Performance Evaluation of Aerial Scene Classification[J]. IEEE Transactions on Geoscience and Remote Sensing，2017, 55(7): 3965-3981.

[2] CHENG G, HAN J W, LU X Q. Remote Sensing Image Scene Classification: Benchmark and State of The Art[J]. Proceedings of the IEEE, 2017, 105(10): 1865-1883.

[3] HE N J, FANG L Y, LI S T, et al. Remote Sensing Scene Classification Using Multilayer Stacked Covariance Pooling[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(12): 6899-6910.

[4] ZHANG J, ZHANG M, SHI L K, et al. A Multi-Scale Approach for Remote Sensing Scene Classification Based on Feature Maps Selection and Region Representation[J]. Remote Sensing, 2019, 11(21): 2504-2523.

[5] BI Q, QIN K, LI Z L, et al. A Multiple-Instance Densely-Connected Convnet for Aerial Scene Classification[J]. IEEE Transactions on Image Processing, 2020, 29: 4911-4926.

[6] BI Q, QIN K, ZHANG H, et al. RADC-Net: A Residual Attention Based Convolution Network for Aerial Scene Classification[J]. Neurocomputing, 2020, 377: 345-359.

[7] AREFEEN M A, NIMI S T, UDDIN M Y S, et al. A Lightweight ReLU-Based Feature Fusion for Aerial Scene Classification[C]//2021 IEEE International Conference on Image Processing, September 19-22, Anchorage, AK, USA, 2021: 3857-3864.

[8] CAO R, FANG L Y, LU T, et al. Self-Attention-Based Deep Feature Fusion for Remote Sensing Scene Classification[J]. IEEE Geoscience and Remote Sensing Letters, 2020, 18(1): 43-47.

[9] YI J J, ZHOU B C. A Multi-Stage Duplex Fusion Convnet for Aerial Scene Classification[C]//2022 IEEE International Conference on Image Processing, October 16-19, Bordeaux, France, 2022: 166-170

[10] BELLO I, ZOPH B, VASWANI A, et al. Attention Augmented Convolutional Networks[C]//2019 IEEE/CVF International Conference on Computer Vision, October 27–November 2, 2019, Seoul, Korea, 2019: 3285-3294.

[11] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale[J]. arXiv 2020, arXiv: 2010.11929.

[12] CHEN C R, Fan Q F, PANDA R. CrossVIT: Cross-Attention Multi-Scale Vision Transformer for Image Classification[C]//2021 IEEE/CVF International Conference on Computer Vision, October 10-17, Montreal, Canada, 2021: 347-356.

[13] HU J, SHEN L, ALBANIE S, et al. Squeeze-and-Excitation Networks[C]//2018 IEEE/CVF International Conference on Computer Vision, June 18-23, Salt Lake City, UT, USA, 2018: 7132-7141.

[14] TONG X，XIA G，LU Q, et al. Land-cover Classification With High-Resolution Remote Sensing Images Using Transferable Deep Models[J]. Remote Sensing of Environment, 2020, 237: 111322.

Enhanced Multi-Scale Vision Transformer for Scene Classification of Remote Sensing Images

QIJing1,2HU Min2ZHANG Jingbo3

（1 DFH Satellite Co., Ltd., Beijing 100094, China）（2 School of Aerospace Science and Technology, Space Engineering University, Beijing 102206, China）（3 Beijing Institute of Space Science and Technology Information, Beijing 100094, China）

Traditional Convolutional Neural Network (CNN)-based methods for scene classification of satellite remote sensing images fail to explore the global semantic features within the scene image and the features at different scales. To address this problem, according to vision transformer (ViT) and multi-scale features, an enhanced multi-scale vision transformer method for scene classification of remote sensing images is proposed in this paper. The two-branch structure is used to divide the entire remote sensing image into patches with different sizes from two scales, and the position encoding and ViT are firstly performed on the patches from at the two scales for feature learning respectively. Then channel attention mechanism is used to enhance the discriminant ability of features generated by patch tokens of ViT. Finally, the class tokens from at the two scales and the enhanced patch features are fused for final scene classification. Experiments on the public optical remote sensing image datasets (AID and NWPU-RESISC45) validate that our method obtains the accuracy of (95.27±0.39)% on AID dataset and the accuracy of (92.50±0.14)% on NWPU-RESISC45 dataset and outperforms other deep learning-based scene classification methods (e.g. CaffeNet, VGG, GoogLeNet and ViT). The researd results improves the awareness capability of model to global semantics and multi-scale features. It is of great importance to satellite remote sensing images scene classification application (e.g. land monitoring and urban planning).

remote sensing image; scene classification; deep learning; vision transformer; multi-scale feature; channel attention

V445

1009-8518(2023)04-0079-09

10.3969/j.issn.1009-8518.2023.04.009

2023-01-05

齊晶, 胡敏, 張京波. 特征增強的多尺度視覺轉換器在遙感圖像場景分類中的應用[J]. 航天返回與遙感, 2023, 44(4): 79-87.

QIJing, HU Min, ZHANG Jingbo. Enhanced Multi-Scale Vision Transformer for Scene Classification of Remote Sensing Images[J]. Spacecraft Recovery & Remote Sensing, 2023, 44(4): 79-87. (in Chinese)

齊晶，男，1987年生，2012年獲北京航空航天大學控制科學與工程專業碩士學位，高級工程師。主要研究方向為航天任務分析與設計。E-mail：qijing_004@163.com。

胡敏，男，1983年生，2012年獲航天工程大學裝備學院發射工程專業博士學位，教授。主要研究方向為航天任務分析與設計。E-mail：jlhm09@163.com。

張京波，男，1984年生，2007年獲北京理工大學機械電子工程專業學士學位，高級工程師。主要研究方向為航天軟環境研究管理。E-mail：172296668@qq.com。

（編輯：毛建杰）