基于多通道自注意力網絡的遙感圖像場景分類

2023-04-29 15:07:11岳泓光韓龍玫王正勇卿粼波

四川大學學報(自然科學版) 2023年2期

岳泓光韓龍玫王正勇卿粼波

高分辨率遙感圖像場景分類廣泛應用于土地監測、環境保護及城市規劃等諸多領域.現有場景分類方法不能很好地結合局部紋理信息和全局語義信息，同時各通道特征之間的關系沒有得到有效挖掘.因此，本文提出了一種基于多通道自注意力網絡的遙感圖像場景分類模型.通過卷積網絡提取遙感圖像的多尺度特征；隨后采用特征融合單元建立多尺度特征間的局部-全局關系，基于多頭自注意力機制的Inter-Channel Transformer在通道維度對融合后的特征建模，并推導特征在通道間的關系，進一步擴大全局感受野，以捕捉其語義結構信息，有效提高了網絡的分類精度.在數據集AISC和SIRI-WHU上，本文所提算法的整體分類準確率（OA）分別為95.70%和94.00%，超過了當前最新的研究算法，證明了所提模型在高分辨率遙感圖像場景分類任務中的有效性.

高分辨率遙感圖像場景分類；卷積神經網絡；自注意力機制；多通道特征

TP391.4A2023.023002

收稿日期： 2022-05-24

基金項目：國家自然科學基金（61871278）

作者簡介：岳泓光（1996-），男，四川巴中人，碩士研究生，研究方向為計算機視覺. E-mail： 610381446@qq.com

通訊作者：王正勇. E-mail： 690728634@sina.com

Remote sensing image scene classification based on multi-channel self-attention network

YUE Hong-Guang1， HAN Long-Mei2， WANG Zheng-Yong1， QING Lin-Bo1

（1.College of Electronics and Information Engineering， Sichuan University， Chengdu 610065， China;

2.Chengdu Institute of Planning & Design， Chengdu 610041， China）

High resolution remote sensing image （HRRSI） scene classification is widely used in many fields such as land monitoring， environment protection， urban planning and so on. The existing scene classification methods cannot fuse the local-texture and global-semantic information well， and the relationship between the features of each channel has not been effectively explored. Therefore， this paper proposed a new method based on multi-channel self-attention network for HRRSI scene classification. Firstly， the multi-resolution features are extracted by Convolutional Neural Network（CNN）; then， a feature fusion unit is used to establish the local-global relationship between multi-scale features. In addition， Inter-Channel Transformer， which is based on multi-head self-attention mechanism， models the merged representations in the channel dimension， and reasons the relationship between the features of each channel， further expands the global receptive field to capture its semantic structure information. Finally， the proposed method improves the classification accuracy. This paper also designs series of experiments on AISC and SIRI-WHU datasets to demonstrate the validity of the proposed algorithm for HRRSI scene classification task. The OA（Overall Accuracy） performance are 95.70% and 94.00% on AISC and SIRI-WHU respectively. It has surpassed the state-of-the-art algorithms.

HRRSI scene classification; Convolutional neural network; Self-attention mechanism; Multi-channel feature

1 引言

遙感技術主要是通過衛星等現代化設施捕捉地表物體的電磁輻射信息，進而產生包含大量紋理特征、光譜信息及顏色信息等多種復雜特征的遙感圖像［1，2］.得益于遙感技術的高速發展，高分辨率遙感圖像被廣泛應用于土地監測［3-6］、環境保護［7］、自然災害檢測［8］和城市規劃［9］等眾多領域.

研究表明，相對于傳統自然圖像，遙感圖像包含了大量的淺層紋理特征和顏色信息［10］、中層語義信息及高層的視覺信息等［11］.同時圖像中地物目標尺度不一，前/背景特征豐富，如何表達并在特征空間中有效地傳遞特征信息，成為遙感圖像實現精準場景分類的關鍵.基于CNN的深度學習方法如VGG［12］、ResNet［13］等由于其強大的特征提取能力而不斷興起，并廣泛應用于圖像分類［13］、目標檢測［14］等機器視覺領域，如張意等［15］學者通過注意力機制及感知損失，構建了基于殘差自編碼器的遙感圖像去噪網絡.考慮到光譜域的非線性特征的提取對于高光譜圖像分類至關重要，因此池濤等［16］學者基于多層感知器卷積層和批歸一化層構建了七層網絡結構，在不同類別物體的光譜特征提取上取得了較好的結果.然而CNN不能很好地對全局信息進行建模，從而對圖像語義信息的挖掘不夠深入.得益于Visual Transformer（ViT）［17］捕捉長距離特征依賴關系的能力，使其經過海量數據訓練后的性能超越了CNN，但ViT在全局建模時會損失局部信息，對圖像精準分類有一定的損失.

2 相關工作

大量學者通過不斷挖掘卷積神經網絡的潛力，一定程度上提升了模型對于遙感圖像場景分類任務的性能［18-30］.如李彥甫等［18］在殘差網絡中融合了自注意力機制，對圖像的全局信息建模，實現了較好的分類性能.Li［19］根據圖卷積神經網絡和神經結構搜索的思想，設計了隨機拓撲器和隨機映射單元這一輕量級模型用于提高分類精度.遙感圖像中場景的幾何形變較大，對深度網絡的學習能力有一定的影響，因此，施慧慧等［20］通過引入可形變卷積，構建了深度遷移可變形卷積神經網絡（Deep Transfer Deformable Convolutional Neural Networks， DTDCNN），一定程度上增強了對空間位置的采樣能力.王李祺等［21］在遙感圖像空間特性如紋理特征的提取上引入了灰度共生矩陣（Gray-Level Cooccurrence Matrix， GLCM）和局部二值模式（Local Binary Pattern，LBP），隨后采用AlexNet對淺層特征進一步抽象，提取更具表達能力的深層特征，最后融合淺層特征與深層特征用于場景分類.為了解決傳統機器學習在提取圖像特征效率較低以及對圖像中的空間信息和通道信息無法精準把握等問題，喬星星等［22］應用ResNet101［13］為基礎網絡，并在其中融入了空間注意力和通道注意力，進而高效地完成了特征的提取與重建.然而遙感圖像中地物目標的尺度變化較大，上述方法并未考慮在圖像特征的學習中引入多尺度學習.王協等［25］為實現輸入圖像和特征圖像的多尺度學習，引入了多尺度神經網絡和空洞卷積；劉美等［26］提出了基于卷積神經網絡的多分辨率特征融合網絡（Multi-Resolution Feature Network，MRFN），并在AISC［26］和SIRI-WHU［27］數據集上取得了較好的性能.上述學者雖然在模型的設計之初考慮了多尺度特征對模型性能的影響，但是對于多尺度特征的融合依然有所欠缺，未充分利用大尺度特征中所蘊含的紋理信息以及小尺度特征中的語義信息.因此不能很好地對多尺度特征進一步挖掘其中的深層次屬性，同時也不能在各層通道中對特征建模，以此長距離捕捉特征依賴關系.

為解決上述問題，本文充分融合基于多尺度特征的卷積神經網絡和基于自注意力機制的通道間Transformer（Inter-Channel Transformer， ICT）模型，提出了多通道自注意力網絡.采用MRFN［26］作為基礎網絡提取初始多分辨率特征圖（Feature Map， FM）；其次，為更好地捕捉圖像中多尺度地物目標的特征信息，本文設計了多尺度特征生成器（Multi-Scale Generator， MSG）；最后利用ICT模塊對多尺度特征進行融合，并推理融合后的特征圖在不同通道間的關系，以此增強模型的特征表達能力和長距離捕捉能力.為驗證模型在遙感圖像場景分類任務中的有效性，本文分別在數據集AISC［26］和SIRI-WHU［27］上開展大量實驗，證明了所提模型的良好性能.

3 算法設計

3.1 整體結構

針對遙感圖像空間信息多樣化、地物目標較小以及類間多樣性等特點，本文提出了多通道自注意力網絡，其總體結構如圖1所示.首先通過卷積和瓶頸殘差塊（Bottleneck）提取高分辨率遙感圖像的初始特征，為了防止梯度消失/爆炸，對殘差塊重復堆疊四次，并采用串行連接的方式，對特征進行降維減少計算量；然后利用兩個并行連接的支路以不同的卷積步長提取不同分辨率的特征，抽象出圖像的紋理信息、顏色信息及輪廓信息等，這類特征能很好地描述圖像的表層屬性.隨后在兩個分支的基本殘差塊（BasicBlock）中分別嵌入通道注意力和空間注意力模塊（Convolutional Block Attention Module，CBAM）［28］，為更好地構建深度神經網絡，以便學習多分辨率特征中的空間信息和通道信息，對CBAM BasicBlock重復堆疊4次；利用多尺度特征生成器（Multi-Scale Feature Generator，MSFG）進一步提取多分辨率特征中的語義信息，并產生三組多尺度特征圖F1、F2、F3；最后通過基于自注意力機制的ICT對多尺度特征進行融合并推理各通道特征間的關系，以此長距離捕捉特征依賴關系，最終通過全連接網絡（Fully Connection， FC）實現遙感圖像的場景分類.

3.2 多尺度特征挖掘

為了更好地感知遙感圖像中不同尺度地物目標的語義信息，本文設計多尺度特征生成器（Multi-Scale Feature Generator，MSFG），如圖2所示.對前文提取的高/低分辨率特征圖FH和FL采用卷積和轉置卷積（TransConv）以不同的平滑步長stride下采樣，擴展特征圖的感受野.感受野表征的是特征圖的一個圖點對應初始圖像上某個區域的映射，在深度神經網絡中，較大的感受野能提煉出圖像中抽象的語義信息，從全局視角下描述圖像的本質屬性.本文針對FH和FL分別采用不同的降采樣方式產生三組多尺度特征圖，為完整保留從FH和FL中抽樣出的特征信息，采用張量拼接Concatenate方式將6個特征圖兩兩融合構成新的特征矩陣，最終產生三個多尺度特征圖F1、F2及F3.

3.3 多尺度特征融合及推理

對前文提出的多尺度特征以加權求和的方式進行融合，充分利用各個尺度特征中所聚合的信

息，如圖3中特征融合（Feature Fusion Unit）部分所示.首先對多尺度特征F1、F2及F3采用自適應最大池化將空間維度降為一致，最大池化可以很好地保留圖像的紋理信息，因此下采樣后的特征圖不僅聚合了大量的空間信息，同時有效降低了模型的計算量；其次，相同尺度的特征在各個通道的表達能力各不相同，因此對池化后的特征矩陣采用Sigmoid激活函數計算各通道的權重W1、W2及W3.將權重矩陣與下采樣后的特征圖相乘，即可得到經通道重校準后新的特征表示F′1、F′2和F′3，增強了特征圖在通道中的表達能力；最后對加權后的特征圖求和得到Ff，有效融合了低層幾何信息和高層語義信息.相較于本文所提模型，劉美等［26］提出的多分辨率特征融合網絡則采用了較為常見的卷積方式，將多分辨率的特征圖下采樣至尺度一致，然后相互疊加，以實現特征的融合，如此一來便損失了高分辨特征圖中所蘊涵的空間幾何信息，卷積的引入也帶來了額外的參數量；此外未經通道校準的特征也會帶來大量的信息冗余，不能突出通道表達能力更強的特征，同時多尺度特征中的語義信息及幾何信息未能得到充分的利用，降低了特征的表征能力.本文所提出的特征融合階段的計算如式（1）所示.

Ff=（σ（MaxPool（［F1，F2，F3］）））×

（MaxPool（［F1，F2，F3］））T（1）

其中，［F1，F2，F3］表示多尺度特征矩陣，MaxPool（［F1，F2，F3］）表示計算通道權重后的矩陣［W1，W2，W3］，Ff為加權后的特征.MaxPool表示最大池化，σ表示激活函數Sigmoid.

融合多尺度特征后，對Ff作點卷積變換映射到高維空間，充分融合通道信息，產生多通道特征圖（Multi-Channel Feature Maps， MCFM）.類似于Transformer在自然語言處理領域中將輸入切分為多個詞向量，在本文中將MCFM按通道切分為多個patches，同時增加一個用于分類輸出的可學習向量class token（Xclass），為降低模型的學習成本并保留各個patch在通道中的位置關系，加入了可學習的位置編碼Position Embedding，將Xclass與patches拼接之后加上位置編碼構成新的輸入特征矩陣Ft.在Transformer Encoder中，對輸入特征進行層歸一化（Layer Normalization， LN）處理，利用多頭自注意力模塊（Multi-Head Self-Attention）在高維空間中對特征建模，產生全局感受野，有效捕捉圖像中的長距離依賴關系，多頭自注意力機制的計算過程如式（2）所示.多層感知機（Multi-Layer Perception， MLP）將經注意力加權后的特征圖通過線性映射提取其中的高層視覺信息，增強模型的表達能力.編碼器中的殘差連接保證了信息流的無損傳輸，最終實現從低層到高層的跨越.最后通過聚合了全局語義特征和高層視覺信息的Xclass作最后的分類器.

Atten（Q，K，V）=SoftmaxQ·KTdkV（2）

Q=Ft×WTQ+b0（3）

K=Ft×WTK+b1（4）

V=Ft×WTV+b2（5）

式（2）中，Q、K、V分別表示由特征矩陣Ft通過不同的權重線性映射得到的Query（查詢矩陣）、Key（鍵矩陣）和Value（值矩陣），Attn為注意力機制的輸出矩陣；式（3）～式（5）中的W0、W1、W2為不同的權重矩陣，采用隨機初始化并可學習，dk代表K的維度，b0、b1、b2表示偏置，Q·KT即為矩陣Q在矩陣KT上的投影，Softmax為權值生成函數.

4 實驗結果與分析

4.1 實驗數據集

本文采用的實驗數據集來源于數據集AISC［26］和SIRI-WHU［27］.其中AISC由劉美等［26］提出，數據集覆蓋中國二十多個城市，共計6種類別，分別為：residential、administration、industrial、road、commercial以及green space，圖4展示了部分場景圖.數據集共有17 831張高分辨率遙感圖像，每個類別分別有大約2900張圖片，其空間分辨率為0.6 m，每張圖片為200×200像素.SIRI-WHU［27］數據集由武漢大學的RE-IDEA團隊設計并于2016年發布，數據集包括agriculture、commercial、industrial等12個場景類別，共計2400張圖片，每類200張圖片，每張圖片的像素尺寸為200×200，空間分辨率2 m，部分場景圖如圖5所示.

為避免由實驗數據的差異對實驗帶來的影響，本文在訓練集、驗證集、測試集的分配與［26］保持相同.在AISC［26］數據集中，隨機采用每個類別中60%的圖片作為訓練集用于擬合模型，20%的圖片作為驗證集以驗證模型的性能，剩下的20%作為最終的測試集，測試模型的泛化能力.在SIRI-WHU［27］數據集中隨機選取每個場景80%的圖片作為訓練集，20%的圖片作為測試集.并對兩個數據集采用數據預處理，包含隨機旋轉、隨機裁剪及歸一化等.

4.2 實驗環境及參數配置

為驗證本文所提出的模型在高分辨率遙感圖像場景分類任務上的有效性，本文在AISC［26］數據集和SIRI-WHU［27］數據集上開展大量實驗.實驗采用64位Ubuntu、Intel（R） Core（TM） i7-9700@3.00 GHz CPU、64 GB內存以及11 GB顯存的NVIDIA RTX2080Ti顯卡，深度學習框架采用的是PyTorch 1.7.1.本文采用交叉熵損失函數計算預測值與真實標簽間的損失值，并通過Adam優化器對模型進行優化，每批次樣本的輸入量（batch size）設置為32，總共訓練次數（epoch）為300輪，初始學習率為0.0001，每訓練150輪，學習率乘以0.5.

4.3 實驗結果及分析

4.3.1 所提模型在AISC［26］和SIRI-WHU［27］數據集上的結果及分析為驗證本文所提出的模型在高分辨率遙感圖像場景分類任務中的性能，分別在AISC［26］和SIRI-WHU［27］數據集上開展與現有經典算法的對比實驗.表1和表2分別展示了在AISC［26］數據集和SIRI-WHU［27］數據集上與現有方法在總體分類準確率上的對比.如表1和表2所示，本文所提算法在兩個數據集上的整體分類準確率達到最高，相較于baseline網絡［26］在AISC［26］和SIRI-WHU［27］上分別提高了7.53%和9.83%.而相對于ResNet-50［13］和ViT［17］算法，也有顯著的提高.由此可見，本文所提算法中的CBAM模塊能捕捉多尺度特征中的位置信息和空間信息從而將特征精細化，而通過特征融合模塊能夠有效聚合多尺度特征中的局部紋理信息和全局語義信息，從而產生多通道特征，最后通道間Transformer對不同通道的特征信息進行有效的位置推理，在高維空間中捕捉其局部-全局特征間的依賴關系，實現了較好的分類精度.在參數量、計算量以及推理速度方面，本文所提出的多通道自注意力網絡由于引入了Transformer Encoder，而Transformer Encoder主要由多頭自注意力機制以及多層感知機（Multi-Layer Perception， MLP）構成，在多頭自注意力機制中模型的復雜度與tokens的HW成二次關系，其中HW表示特征圖的高和寬，同時MLP主要由全連接層構成，所以帶來了一定的計算量及參數量，但是實驗結果表明，多頭自注意力機制更有利于在高層視覺任務中對全局語義信息的挖掘，從而有效提升了模型性能.文獻［19］引入了圖神經網絡，由于圖神經網絡獨特的結構，以節點和邊界傳遞特征信息，所以只涉及基本的線性計算，因此不會帶來大量的參數.在推理速度方面，本文計算出了在測試過程中推理一張圖片所需要的時間，結果如表1［26］及表2［27］所示.RTRMM［19］由于作者未公開源碼所以推理時間無法計算.

圖6和圖7分別展示了本文所提算法在AISC［26］和SIRI-WHU［27］數據集上的混淆矩陣.主對角線表示每類場景的分類準確率，即召回率（Recall）.Kappa系數可用于驗證模型的一致性，由混淆矩陣計算得出.由圖6可以計算得出，本模型在AISC［26］上的Kappa=0.949，表明本模型的多分類精度較高，一致性較強.同時，在AISC［26］數據集上每個場景正確分類的準確率都達到了93%以上，但是residential和industrial分別被錯分為commercial和road的比例均為3%，對數據樣本仔細分析后發現，residential和commercial具有相似的紋理和顏色，同時其地物目標的排列方式也有相同的規律，這就導致了極大的類間相似性，使得模型對這兩類場景的識別造成了一定的困難；其次，對比industrial樣本和road樣本時，發現兩者的顏色特征近乎一致，同時其industrial的圖像內也包含了眾多road的特征，這也就造成了少許比例的誤判.

在圖7中，Kappa=0.934，同樣表明了本文所提算法在公開數據集SIRI-WHU［27］上的多分類性能較好，一致性較強，所有場景的分類準確率都在83%以上，其中agriculture和water的準確率達到了100%，表明這兩種場景與其他場景表現出了不同的紋理布局和特殊的顏色及結構特征，然而對于harbor場景，與water和river的顏色信息極為相似，分別導致了4%的錯分率，而overpass在結構上與harbor相似，同樣有4%的錯分率.由于river與pond有較大的類間相似性，具體表現在整體結構、場景目標以及顏色分布，導致了分類準確率僅有83%，被錯分為harbor的比例達到8%.除此之外，其余十類場景都表現出了較高的分類準確率，均達到90%以上.

4.3.2通道推理對比實驗為驗證基于多頭自注意力的通道間Transformer（Inter-Channel Transformer， ICT）和通道注意力（Convolutional Block Attention Module， CBAM）［28］在推理性能及推理速度方面的差異，本文設計了相關的對比試驗，實驗結果如表3所示.在驗證通道注意力時，本文采用CBAM中的通道注意力部分替換ICT中的Transformer Encoder，通道注意力模塊首先對融合多尺度特征后的特征表示做全局平均池化和最大池化處理，隨后通過多層感知機（Multi-Layer Perception， MLP）以及激活函數求得通道注意力權重，將融合后的特征與權重矩陣相乘得到經通道注意力加權后的特征表示.由于在通道注意力中為了降低計算量采用了池化操作，因此會損失較多的信息，同時針對場景分類這一高層視覺任務，語義信息對于精準區分類間差異性有著較大的作用，而語義信息的獲取與特征圖中的感受野有直接關系.較大的感受野能有效捕捉場景中的語義類，然而通道注意力不能顯著增加特征圖的感受野，因此在全局語義特征的獲取上較ICT有一定的差距.實驗結果證明，ICT得益于Transformer Encoder中的多頭自注意力機制，在建立長距離特征依賴關系時有著明顯的優勢，同時通過恒等映射及矩陣縮放點乘產生注意力權重時不會帶來信息的大量損失.在AISC［26］中，由于數據集較為簡單，語義類別僅有6類，類間差異性較大.因此ICT和通道注意力在推理性能方面相差不大.在總體分類準確率（OA）上采用ICT的模型僅比采用通道注意力的高0.4個百分點.但是在數據集SIRI-WHU［27］中，由于場景類別較多，達到12類，同時類間的差異性相對較小，對于精準分類帶來了較大的困難，因此對模型的推理能力也帶來了更大的考驗.此時采用通道注意力相比于采用ICT，OA低了5.42個百分點.由此可見，在相對復雜的數據集中，通道間Transformer（ICT）較于通道注意力在通道推理上有著更強的性能.

4.3.3 消融實驗本文設計了系列消融實驗，以此驗證模型中CBAM和ICT模塊的有效性.如表4和表5所示.

（1）即僅使用多分辨率特征融合網絡（Multi-Resolution Feature Network，MRFN），整體分類準確率分別僅為88.17%和84.17%.

（2）在MRFN中的BasicBlock模塊中添加CBAM后，可以看出其OA分別增加了4.54個百分點和6.45個百分點，由此可見CBAM有效聚合了特征空間中的通道信息和空間信息，增強了模型的特征表達能力.

（3）當僅用ICT對多通道特征在高維空間中建模時，OA分別從88.17%和84.17%提升到了91.70%和91.04%，由此可見，ICT模塊有效實現了從局部特征到全局特征的跨越，其捕捉的高維語義結構信息表達了圖像最本質的屬性，因此提高了整體分類精度.注意到，在CBAM和ICT的雙重加持下，使得本文模型的性能在baseline的基礎上提升較大，整體分類準確率超過了一些經典算法.

5 結語

遙感圖像具有分辨率高、場景信息復雜且地物目標分辨率差異較大等特點.考慮到現有方法不能很好地聚合遙感圖像中復雜的空間信息和通道信息，也不能捕捉長距離依賴關系，本文充分融合基于多尺度特征的卷積神經網絡和基于自注意力機制的通道間Transformer（Inter-Channel Transformer， ICT），提出了多通道自注意力網絡.利用卷積神經網絡提取精細化的多尺度特征，對多尺度特征加權融合之后產生多通道特征，通過ICT建立全局感受野捕捉高維結構信息，有效提升了模型的性能.同時在AISC和SIRI-WHU數據集上分別達到了95.70%和94.00%的優異性能，證明了本文所提模型在高分辨率遙感圖像場景分類上的可行性.但是對于類間相似性較大的場景，例如結構、顏色信息接近的場景，本文算法會造成一定的誤判幾率.如何針對相似的場景精確捕捉其中細微的差別，以及融合其他多源大數據設計新的分類模型，從而進一步提高分類精度是下一步研究方向.

參考文獻：

［1］楊帆.航測遙感技術探析［J］. 科技創新與應用， 2017， 27： 43.

［2］張裕，楊海濤，袁春慧. 遙感圖像分類方法綜述［J］. 兵器裝備工程學報，? 2018，? 39： 108.

［3］ Fauvel M，Tarabalka Y，Benediktsson J A，et al. Advances in Spectral-Spatial classification of hyperspectral images ［J］. P IEEE，? 2013，? 101： 652.

［4］ Martha T R， Kerle N， van Westen C J， et al. Segment optimization and data-driven thresholding for knowledge-based landslide detection by object-based image analysis ［J］. IEEE T Geosci Remote，? 2011，? 49： 4928.

［5］ Cheng G，? Guo L，? Zhao T，? et al. Automatic landslide detection from remote-sensing imagery using a scene classification method based on BoVW and pLSA ［J］. Int J Remote Sens，? 2013，? 34： 45.

［6］ Lv Z Y， Shi W， Zhang X， et al. Landslide inventory mapping from bitemporal high-resolution remote sensing images using change detection and multiscale segmentation［J］. IEEE J-Stars，? 2018，? 11： 1520.

［7］ Zhang Y S，? Wu L，? Ren H Z，? et al. Mapping water quality parameters in urban rivers from hyperspectral images using a new self-adapting selection of multiple artificial neural networks［J］. Remote Sens-Basel，? 2020，? 12： 336.

［8］ Veraverbeke S，? Dennison P，? Gitas I， et al. Hyperspectral remote sensing of fire： state-of-the-art and future perspectives［J］. Remote Sens Environ，? 2018，? 216： 105.

［9］ Cheng G，? Han J W，? Lu X Q. Remote sensing image scene classification： benchmark and state of the art［J］. Proc IEEE，? 2017，? 105： 1865.

［10］ Li W M，? Liu H Y，? Wang Y，? et al. Deep learning-based classification methods for remote sensing images in urban built-up areas ［J］. IEEE Access，? 2019，? 7： 36274.

［11］趙理君，唐娉，霍連志，等. 圖像場景分類中視覺詞包模型方法綜述［J］. 中國圖象圖形學報， ?2014，? 19： 333.

［12］ Simonyan K，? Zisserman A. Very deep convolutional networks for large-scale image recognition ［EB/OL］. ［2014-09-04］. https：//arxiv.org/abs/1409.1556.

［13］ He K，? Zhang X，? Ren S，? et al. Deep residual learning for image recognition［C］//Proceedings of the IEEE conference on computer vision and pattern recognition.Las Vegas，? USA： IEEE，? 2016.

［14］ Han J，? Zhang D，? Cheng G， et al. Advanced deep-learning techniques for salient and category-specific object detection： a survey［J］. IEEE Signal Proc Mag，? 2018，? 35： 84.

［15］張意，闞子文，邵志敏，等. 基于注意力機制和感知損失的遙感圖像去噪［J］. 四川大學學報：自然科學版，? 2021，? 58： 042001.

［16］池濤，王洋，陳明. 多層局部感知卷積神經網絡的高光譜圖像分類［J］. 四川大學學報：自然科學版，? 2020，? 57： 103.

［17］ Dosovitskiy A，? Beyer L，? Kolesnikov A，? et al. An image is worth 16x16 words： Transformers for image recognition at scale ［EB/OL］. ［2020-10-22］. https：//arxiv.org/abs/2010.11929.

［18］李彥甫，范習健，楊緒兵，等. 基于自注意力卷積網絡的遙感圖像分類［J］. 北京林業大學學報，? 2021，? 43： 81.

［19］ Li J，? Weinmann M，? Sun X，? et al. Random topology and random multiscale mapping： an automated design of multiscale and lightweight neural network for remote sensing image recognition［J］. IEEE T Geosci Remote，? 2021，? 60： 1.

［20］施慧慧，徐雁南，滕文秀，等. 高分辨率遙感影像深度遷移可變形卷積的場景分類法［J］. 測繪學報，? 2021，? 50： 652.

［21］王李祺，張成，侯宇超，等. 基于深度學習特征融合的遙感圖像場景分類應用［J］.南京信息工程大學學報：自然科學版，? 2022，? 15： 1.

［22］喬星星，施文灶，劉芫汐，等. 基于ResNet雙注意力機制的遙感圖像場景分類［J］. 計算機系統應用，? 2021，? 30： 243.

［23］常洪彬，李文舉，李文輝. 基于注意力機制的航空圖像旋轉框目標檢測［J］. 吉林大學學報：理學版， 2022， 60： 1363.

［24］郁強，王寬，王海. 一種多尺度YOLOv3的道路場景目標檢測算法［J］. 江蘇大學學報：自然科學版， 2021， 42： 628.

［25］王協，章孝燦，蘇程. 基于多尺度學習與深度卷積神經網絡的遙感圖像土地利用分類［J］. 浙江大學學報：理學版，? 2020，? 47： 715.

［26］劉美，卿粼波，韓龍玫，等. 基于遙感影像和神經網絡的城市用地功能分類［J］. 太赫茲科學與電子信息學報，? 2021，? 19： 132.

［27］ Zhu Q，? Zhong Y，? Zhao B， et al. Bag-of-visual-words scene classifier with local and global features for high spatial resolution remote sensing imagery［J］. IEEE Geosci Remote S，? 2016，? 13： 747.

［28］ Woo S，? Park J，? Lee J Y， et al. Cbam： convolutional block attention module［C］//Proceedings of the 2018 European conference on computer vision. Cham： Springer，? 2018.

［29］ Szegedy C，? Vanhoucke V，? Ioffe S， et al. Rethinking the inception architecture for computer vision［C］// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway，? NJ： IEEE，? 2016.

［30］ Liu Y，? Zhong Y，? Fei F， et al. Scene classification based on a deep random-scale stretched convolutional neural network［J］. Remote Sens-Basel，? 2018，? 10： 444.