999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

特征增強的多尺度視覺轉換器在遙感圖像場景分類中的應用

2023-09-05 12:06:22齊晶胡敏張京波
航天返回與遙感 2023年4期
關鍵詞:分類特征方法

齊晶 胡敏 張京波

特征增強的多尺度視覺轉換器在遙感圖像場景分類中的應用

齊晶1,2胡敏2張京波3

(1 航天東方紅衛星有限公司,北京 100094)(2 航天工程大學航空宇航科學與技術學院,北京 102206)(3 北京空間科技信息研究所,北京 100094)

傳統的基于卷積神經網絡的衛星遙感圖像場景分類方法忽略了場景圖像的全局語義特征以及遙感圖像在多個尺度上的鑒別特征。針對此問題,文章在視覺轉換器和多尺度特征的基礎上,提出了一種基于特征增強型多尺度視覺轉換器的遙感圖像場景分類方法。該方法采用雙分支結構在2個尺度上對遙感圖像進行分塊,獲取到不同大小的圖像塊,首先利用位置編碼和轉換器分別對2個尺度下的圖像塊進行特征學習,再利用通道注意力機制對轉換器輸出的圖像塊進行特征增強,最后將2個尺度上學習出的分類標記和增強后的特征進行融合決策,從而實現遙感圖像場景分類。采用國際公開的光學遙感圖像數據集AID和NWPU-RESISC45進行實驗驗證,結果表明該方法在AID數據集的場景分類準確率達到(95.27±0.39)%,在NWPU-RESISC45數據集的場景分類準確率達到(92.50±0.14)%,其分類性能優于CaffeNet、VGG、GoogLeNet和ViT等基準方法。該研究成果提升了模型對全局語義和多尺度特征的感知能力,對于提升衛星遙感圖像場景分類技術在土地監測、城市規劃等方面的應用具有重要意義。

遙感圖像 場景分類 深度學習 視覺轉換器 多尺度特征 通道注意力

0 引言

場景分類是衛星遙感圖像解譯應用中的關鍵技術,該技術旨在根據衛星遙感圖像場景內容自動地對場景進行語義分類,為衛星遙感圖像解譯提供輔助判讀。傳統的衛星遙感圖像場景分類方法多是使用人工特征進行場景的特征描述,難以解決高層語義信息與低層特征之間的語義鴻溝,進而難以提取出能夠應對衛星遙感圖像場景復雜多變的特征表示。

隨著卷積神經網絡(Convolutional Neural Networks, CNN)在自然語言處理和計算機視覺等領域中的廣泛應用,基于CNN的衛星遙感圖像場景分類方法也被深入研究。文獻[1]提出了AID航空場景分類數據集,驗證了CNN較傳統人工特征方法的優勢與有效性。文獻[2]提出了NWPU-RESISC45遙感衛星圖像場景數據集,在更大規模數據量和更復雜多變條件下比較了CNN與人工特征方法的場景分類性能。文獻[3]提出了多層堆疊協方差池化(Multilayer Stacked Covariance Pooling,MSCP)方法,該方法將CNN提取的多層特征層進行堆疊,再計算堆疊特征的協方差,最后利用支持向量機進行分類。文獻[4]提出了多尺度深度特征表示(Multi-Scale Deep Feature Representation,MDFR)方法,該方法從預訓練的卷積神經網絡提取多尺度的深度特征并進行特征融合用于最終的遙感場景分類。文獻[5]采用多實例學習方法,提出了一種多實例密集連接卷積神經網絡(Multiple-Instance Densely-Connected ConvNet,MIDC-Net),該網絡在深度特征學習過程中考慮了場景內容的局部語義信息,增強了遙感圖像場景深度特征的表征能力。文獻[6]提出了一種基于殘差注意力的密集連接卷積神經網絡(Residual Attention based Dense Connected Convolutional Neural Network,RADC-Net),該方法使用注意力機制和密集鏈接關注到與遙感圖像場景語義相關的局部特征,從而學習出更具鑒別性質的特征。文獻[7]使用了基于ReLu激活函數的特征融合(ReLU-Based Feature Fusion,RBFF)策略,利用遷移學習實現了遙感場景分類。文獻[8]提出了基于自注意力的深度特征融合(Self-Attention-based Deep Feature Fusion,SAFF)方法,該方法首先使用預訓練的卷積神經網絡模型提取卷積特征,再利用空間維度和特征維度上的特征響應進行加權融合,最后用于遙感場景分類。文獻[9]設計了一種多級雙工融合網絡(Multi-Stage Duplex Fusion Network,MSDF-Net),該模型融合了殘差和密集鏈接,以雙工形式增強了場景語義特征的表示能力。這些方法在衛星遙感圖像場景分類中取得了較好的分類性能,但是沒有考慮場景圖像內部的長距離依賴關系,這些關系對于提升遙感圖像場景的語義特征表達具有重要作用。

最近,轉換器(Transformer)模型的興起為探索圖像內部長距離依賴關系提供了新的思路。文獻[10]通過將一些卷積層替換為自注意力(Self-attention)層來增強深度特征的全局感知能力,驗證了長距離依賴關系有助于提升圖像分類性能。文獻[11]提出了視覺轉換器(Vision Transformer,ViT)模型,該模型將圖像分塊,引入一個可學習的分類標記,利用基于多頭自注意力機制的Transformer編碼器將其與圖像塊一起進行特征學習,將學習到的分類標記作為整個圖像的最終特征表示,同時挖掘了圖像的長距離依賴關系,取得了較CNN更好的分類能力。需要指出,該模型已成為計算機視覺領域最具代表性的轉換器方法。文獻[12]在ViT的基礎上引入了多尺度特征學習并在自然場景圖像分類中取得較好的應用效果。盡管這些方法取得了較CNN明顯的優勢,但這些方法更多是利用分類標記作為最終特征表示,忽略了特征學習后圖像塊之間的相互關系,而這些圖像塊之間的相關關系很大程度上能夠進一步增強圖像的特征表示能力。

因此,本文提出一種基于多尺度視覺轉換器的衛星遙感圖像場景分類方法,該方法旨在利用視覺轉換器挖掘衛星遙感場景圖像的多尺度特征表示能力,同時使用視覺轉換器學習出的圖像塊特征及其依賴關系補充轉換器的分類標記進行決策,從而提升整個場景圖像的特征鑒別能力。具體地,首先使用大尺度和小尺度的雙分支結構對遙感場景圖像進行分塊,利用轉換器編碼器對2個尺度下的圖像塊和分類標記進行特征學習,并使用SE通道注意力[13]對學習出的圖像塊特征進行進一步特征增強,最終同時使用分類標記和增強后的圖像塊特征聯合進行衛星遙感圖像的場景分類。

1 研究方法

考慮到整個遙感場景圖像在2個尺度上變化較明顯,因此,本文所提遙感圖像場景分類方法的處理流程由2個尺度分支構成,即大尺度和小尺度分支,如圖1所示。

圖1 本文方法的處理流程

在2個分支上分別進行圖像分塊處理,獲得各個尺度下對應的圖像塊,對各圖像塊及其對應的空間位置和分類標記(class token)進行嵌入,再利用個多尺度Transformer編碼器對嵌入的圖像塊和分類標記進行特征學習。每個多尺度Transformer編碼器包含個大尺度編碼器、個小尺度編碼器和個交叉注意力模塊。每個編碼器由歸一化層、多頭注意力和多層感知機構成,用于學習各嵌入圖像塊和分類標記的特征表示。為了學習2個尺度上圖像塊標記(Patch Token)和分類標記的潛在依賴關系,利用交叉注意力模塊(Cross Attention Module)實現2個尺度分支上的特征交互,從而捕獲圖像的多尺度全局語義特征。不同于傳統ViT只適用于將分類標記用于分類,本文還考慮了2個尺度分支上的各圖像塊標記特征。為進一步挖掘有利于分類的圖像塊標記特征分量,本文使用SE通道注意力[13]學習出顯著的特征分量,增強各圖像塊標記特征,最終通過池化層處理得到2個尺度上該場景圖像的特征表示,通過串聯融合方式送入交叉熵損失函數用于訓練。此外,對于2個尺度輸出的分類標記,利用多層感知機進行處理,最后也通過串聯融合方式送入交叉熵損失函數。由此,整個模型通過基于圖像塊標記(Patch Token)的交叉熵損失函數和基于分類標記(Class Token)的交叉熵損失函數進行模型訓練。

1.1 圖像塊嵌入

1.2 多尺度轉換器編碼器

圖2 交叉注意力模塊

同理,可獲得通過交叉注意力模塊處理的小尺度分支最終輸出

1.3 特征增強及分類

2 實驗結果與分析

2.1 數據集

實驗使用了2個國際公開的衛星遙感場景圖像數據集AID[1]和NWPU-RESISC45[2]用于評估所提方法的分類性能。這2個數據均具備數據量大、類別多、場景變化大等特點,其中AID數據集共10 000張衛星遙感場景圖像,包含30個場景類別,每個圖像大小為600像素×600像素,空間分辨率變化范圍在0.5至8 m。NWPU-RESISC45衛星遙感場景圖像數據集包含45個場景類別,每類有700個場景圖像,每個圖像大小為256像素×256像素,空間分辨率變化范圍在0.2~30 m。

2.2 實驗設置

為了對比試驗,本文和以往基準方法[1-9]保持了相同的訓練-測試比率,即從AID數據集中每個類別的圖像中隨機選擇20%進行訓練,其余80%作為測試,此外還將AID的訓練測試集比率設為50%︰50%。對于NWPU-RESISC45數據集,選取10%當作訓練集剩余90%當作測試集,此外還將NWPU-RESISC45數據集的訓練測試比率設置為20%︰80%。與基準方法一致,本實驗采用總體準確率和標準差來評價分類結果。對每個訓練測試集重復實驗10次,并將測試集上分類結果的總體準確率和標準差作為最終算法比較結果。

對于大小尺度2個分支,本文根據文獻[12]的參數設置,大尺度分支的輸入圖像通過裁剪后尺寸為224像素×224像素,圖像塊尺寸為16,小尺度分支的輸入圖像通過裁剪后尺寸為240像素×240像素,圖像塊尺寸為12,多尺度Transformer編碼器數目為3,大尺度編碼器數目為5,小尺度編碼器數目為1,交叉注意力模塊數目為1,多頭注意力的個數為6。該實驗使用PyTorch深度學習計算框架,硬件環境為Intel Core i7-9700X CPU(3.60 GHz)以及NVIDIA GTX 2080Ti GPU。

2.3 對比實驗分析

表1列出了所有方法在AID數據集上的實驗結果。可以看到相比較傳統的CaffeNet、VGG和GoogLeNet在遙感圖像場景分類的結果,MSCP、MDFR、MIDC-Net、RADC-Net、RBFF、SAFF和MSDF-Net在訓練比率為20%和50%的條件下均取得了較好的分類效果,表明特征融合以及注意力機制均提升了CNN深度特征的表示能力。同時,ViT整體優于這些方法,說明Transformer學習出的長距離依賴關系有助于增強特征的鑒別能力。值得注意的是,本文方法在訓練比率為20%和50%的條件下取得了(92.07±0.31)%和(95.27±0.39)%的分類準確率,優于其他方法,表明該方法通過融合多尺度視覺Transformer特征,提升了模型對多尺度圖像內部長距離依賴關系的挖掘,同時通過各尺度上分類標記和圖像塊標記特征進行聯合學習決策,增強了場景圖像特征的表征能力,產生了較好的分類效果, 提升了衛星遙感圖像場景分類的應用能力。

表1 AID數據集中20%和50%訓練比例下的總體準確率和標準差

Tab.1 STDs and overall accuracies of different methods under 20% and 50% training ratios in the AID dataset 單位:%

表2是訓練比率為10%和20%條件下所有方法在NWPU-RESISC45數據集的分類結果。相比較AID數據集,NWPU-RESISC45數據集數據量較大、場景變化條件更大,因此所有方法的分類識別結果均整體低于AID數據集結果。由表2可以看到,MSCP、MDFR、MIDC-Net、RADC-Net、RBFF、SAFF和MSDF-Net在訓練比率為10%和20%條件下的分類性能整體優于經典的場景分類方法CaffeNet和GoogLeNet。特別地,VGG的分類效果優于CaffeNet、GoogLeNet、MSCP、MDFR、MIDC-Net、RADC-Net、RBFF、SAFF和MSDF-Net,這表明在NWPU-RESISC45數據集上VGG特征具有較強的鑒別能力。此外,ViT的分類效果優于以上基于CNN的場景分類方法,說明在分辨率、場景內容及場景類別等變化因素更多的條件下,Transformer學習到的特征更加有效。同時,本文方法依然優于其他方法,在2種訓練比例上分別達到了90.17%和92.5%的準確率,分別優于其他方法4.45%~6.8%和3.57%~5.56%,說明本文方法充分考慮了遙感場景圖像在多尺度上的長距離依賴關系以及Transformer編碼器中分類標記和圖像塊標記聯合表征能力,因此取得了較好的分類識別結果。另外,本文方法識別結果的標準差較小,也反映出所提方法更加穩定魯棒,有助于衛星遙感圖像場景分類的實際工程應用。

表2 NWPU-RESISC45數據集中10%和20%訓練比例下的總體準確率和標準差

Tab.2 STDs and overall accuracies of different methods under 10% and 20% training ratios in the NWPU-RESISC45 dataset 單位:%

2.4 泛化能力分析

為了驗證所提方法在真實遙感場景分類應用中的泛化能力,本文使用GID[14]數據集進行實驗驗證,該數據集包含了建筑物、耕地、森林、草地和水體5個場景大類共150張圖像,大小為6 800×7 200。為進一步研究場景更細粒度分類,該數據集對5個場景大類進行了15個場景子類的細分,即田、灌溉地、旱耕地、花園地、喬木林地、灌木林地、天然草地、人工草地、工業用地、城市住區、農村住區、交通用地、河流、湖泊和池塘。每個類別包含2 000張遙感圖像。針對GID數據集的15個子類,本文分別選取每類的10%和20%用于訓練,剩下的90%和80%用于測試,實驗結果如表3所示。可以看出,本文方法不同訓練比率下優于VGG和ViT方法,說明該方法所學習出的多尺度全局語義特征更有利于分類,同時,基于圖像塊標記的通道注意力機制進一步提升了模型的特征表示能力。

表3 GID數據集中10%和20%訓練比例下的總體準確率

Tab.3 Overall accuracies of different methods under 10% and 20% training ratios in the GID dataset 單位:%

3 結束語

本文提出了一種多尺度視覺轉換器的衛星遙感圖像場景分類方法,該方法使用大小尺度雙分支結構對場景圖像分塊,利用視覺Transformer編碼器對大小尺度分支上的圖像進行特征編碼,同時將2個分支上學習出的分類標記和圖像塊標記聯合建模用于融合決策,從而實現衛星遙感圖像場景分類。在國際公開的2個場景圖像分類數據集AID和NWPU-RESISC45上表明所提方法具有較好的場景分類能力,同時也驗證了多尺度遙感場景圖像內部長距離依賴關系以及分類標記和圖像塊標記的聯合學習有助于提升場景圖像特征的表征能力。

[1] XIA G S, HU J W, HU F, et al. AID:A Benchmark Data Set for Performance Evaluation of Aerial Scene Classification[J]. IEEE Transactions on Geoscience and Remote Sensing,2017, 55(7): 3965-3981.

[2] CHENG G, HAN J W, LU X Q. Remote Sensing Image Scene Classification: Benchmark and State of The Art[J]. Proceedings of the IEEE, 2017, 105(10): 1865-1883.

[3] HE N J, FANG L Y, LI S T, et al. Remote Sensing Scene Classification Using Multilayer Stacked Covariance Pooling[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(12): 6899-6910.

[4] ZHANG J, ZHANG M, SHI L K, et al. A Multi-Scale Approach for Remote Sensing Scene Classification Based on Feature Maps Selection and Region Representation[J]. Remote Sensing, 2019, 11(21): 2504-2523.

[5] BI Q, QIN K, LI Z L, et al. A Multiple-Instance Densely-Connected Convnet for Aerial Scene Classification[J]. IEEE Transactions on Image Processing, 2020, 29: 4911-4926.

[6] BI Q, QIN K, ZHANG H, et al. RADC-Net: A Residual Attention Based Convolution Network for Aerial Scene Classification[J]. Neurocomputing, 2020, 377: 345-359.

[7] AREFEEN M A, NIMI S T, UDDIN M Y S, et al. A Lightweight ReLU-Based Feature Fusion for Aerial Scene Classification[C]//2021 IEEE International Conference on Image Processing, September 19-22, Anchorage, AK, USA, 2021: 3857-3864.

[8] CAO R, FANG L Y, LU T, et al. Self-Attention-Based Deep Feature Fusion for Remote Sensing Scene Classification[J]. IEEE Geoscience and Remote Sensing Letters, 2020, 18(1): 43-47.

[9] YI J J, ZHOU B C. A Multi-Stage Duplex Fusion Convnet for Aerial Scene Classification[C]//2022 IEEE International Conference on Image Processing, October 16-19, Bordeaux, France, 2022: 166-170

[10] BELLO I, ZOPH B, VASWANI A, et al. Attention Augmented Convolutional Networks[C]//2019 IEEE/CVF International Conference on Computer Vision, October 27–November 2, 2019, Seoul, Korea, 2019: 3285-3294.

[11] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale[J]. arXiv 2020, arXiv: 2010.11929.

[12] CHEN C R, Fan Q F, PANDA R. CrossVIT: Cross-Attention Multi-Scale Vision Transformer for Image Classification[C]//2021 IEEE/CVF International Conference on Computer Vision, October 10-17, Montreal, Canada, 2021: 347-356.

[13] HU J, SHEN L, ALBANIE S, et al. Squeeze-and-Excitation Networks[C]//2018 IEEE/CVF International Conference on Computer Vision, June 18-23, Salt Lake City, UT, USA, 2018: 7132-7141.

[14] TONG X,XIA G,LU Q, et al. Land-cover Classification With High-Resolution Remote Sensing Images Using Transferable Deep Models[J]. Remote Sensing of Environment, 2020, 237: 111322.

Enhanced Multi-Scale Vision Transformer for Scene Classification of Remote Sensing Images

QIJing1,2HU Min2ZHANG Jingbo3

(1 DFH Satellite Co., Ltd., Beijing 100094, China)(2 School of Aerospace Science and Technology, Space Engineering University, Beijing 102206, China)(3 Beijing Institute of Space Science and Technology Information, Beijing 100094, China)

Traditional Convolutional Neural Network (CNN)-based methods for scene classification of satellite remote sensing images fail to explore the global semantic features within the scene image and the features at different scales. To address this problem, according to vision transformer (ViT) and multi-scale features, an enhanced multi-scale vision transformer method for scene classification of remote sensing images is proposed in this paper. The two-branch structure is used to divide the entire remote sensing image into patches with different sizes from two scales, and the position encoding and ViT are firstly performed on the patches from at the two scales for feature learning respectively. Then channel attention mechanism is used to enhance the discriminant ability of features generated by patch tokens of ViT. Finally, the class tokens from at the two scales and the enhanced patch features are fused for final scene classification. Experiments on the public optical remote sensing image datasets (AID and NWPU-RESISC45) validate that our method obtains the accuracy of (95.27±0.39)% on AID dataset and the accuracy of (92.50±0.14)% on NWPU-RESISC45 dataset and outperforms other deep learning-based scene classification methods (e.g. CaffeNet, VGG, GoogLeNet and ViT). The researd results improves the awareness capability of model to global semantics and multi-scale features. It is of great importance to satellite remote sensing images scene classification application (e.g. land monitoring and urban planning).

remote sensing image; scene classification; deep learning; vision transformer; multi-scale feature; channel attention

V445

A

1009-8518(2023)04-0079-09

10.3969/j.issn.1009-8518.2023.04.009

2023-01-05

齊晶, 胡敏, 張京波. 特征增強的多尺度視覺轉換器在遙感圖像場景分類中的應用[J]. 航天返回與遙感, 2023, 44(4): 79-87.

QIJing, HU Min, ZHANG Jingbo. Enhanced Multi-Scale Vision Transformer for Scene Classification of Remote Sensing Images[J]. Spacecraft Recovery & Remote Sensing, 2023, 44(4): 79-87. (in Chinese)

齊晶,男,1987年生,2012年獲北京航空航天大學控制科學與工程專業碩士學位,高級工程師。主要研究方向為航天任務分析與設計。E-mail:qijing_004@163.com。

胡敏,男,1983年生,2012年獲航天工程大學裝備學院發射工程專業博士學位,教授。主要研究方向為航天任務分析與設計。E-mail:jlhm09@163.com。

張京波,男,1984年生,2007年獲北京理工大學機械電子工程專業學士學位,高級工程師。主要研究方向為航天軟環境研究管理。E-mail:172296668@qq.com。

(編輯:毛建杰)

猜你喜歡
分類特征方法
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 成年人视频一区二区| 亚洲精品国产成人7777| 狠狠综合久久久久综| 国产精品第一区在线观看| 四虎影视库国产精品一区| 国内精品九九久久久精品| 中文国产成人精品久久| 青草视频久久| 国产丝袜第一页| 亚洲制服中文字幕一区二区| 亚洲精品视频在线观看视频| 国产91丝袜| 国产sm重味一区二区三区| 国产区成人精品视频| 午夜爽爽视频| 国产一级在线观看www色 | 亚洲第一视频区| 国产麻豆另类AV| 国产精品手机视频| 免费一级大毛片a一观看不卡 | 18黑白丝水手服自慰喷水网站| 毛片三级在线观看| 亚洲综合色婷婷| 国产成人在线无码免费视频| 精品乱码久久久久久久| 国内精品久久久久久久久久影视| 亚洲成人高清无码| 国产情侣一区| 免费黄色国产视频| 一区二区三区在线不卡免费 | 99久久性生片| 国产成人精品日本亚洲| 成人国产精品2021| 久久久久无码精品| 国产欧美另类| 亚洲最猛黑人xxxx黑人猛交| 亚洲va在线观看| 国产视频自拍一区| 国产精品yjizz视频网一二区| 2021国产精品自产拍在线| 五月激情综合网| 亚洲欧洲自拍拍偷午夜色| 欧美成人第一页| 亚洲天堂区| 99青青青精品视频在线| 国产欧美日韩综合一区在线播放| 在线国产欧美| 在线播放精品一区二区啪视频 | 色有码无码视频| 好紧好深好大乳无码中文字幕| 青青热久麻豆精品视频在线观看| 精品国产免费人成在线观看| 黄网站欧美内射| 国产欧美精品一区aⅴ影院| 就去色综合| 毛片视频网址| 天天干天天色综合网| 欧美性久久久久| 国产超碰一区二区三区| 香蕉蕉亚亚洲aav综合| 亚洲国产综合精品一区| 国产精品永久久久久| 三级视频中文字幕| 成人av手机在线观看| 国产第一页屁屁影院| 午夜啪啪福利| yjizz视频最新网站在线| 国产精品林美惠子在线播放| 免费在线看黄网址| 国产视频自拍一区| 丁香六月激情婷婷| 欧美日韩高清| 国产精品一区二区国产主播| av一区二区三区在线观看| 亚洲精品波多野结衣| 午夜人性色福利无码视频在线观看| 夜夜操天天摸| 国产美女免费| 亚洲人成网站18禁动漫无码| 黄色成年视频| 一本二本三本不卡无码| 婷婷丁香在线观看|