















摘要:針對遙感場景圖像中背景復雜、類內差異大以及類間相似度高問題所導致的分類效果欠佳情況,提出一種基于有監督對比學習的注意力機制和殘差收縮單元算法。首先對有效通道注意力機制(ECA)進行改進,優化對待識別圖像特征的提取;然后提出一種協同殘差收縮單元算法,利用算法對圖像進行冗余信息的篩選消除;再用有監督對比學習算法,增強算法的泛化能力。最后在遙感圖像數據集進行實驗,并與最新算法如增強注意算法、尺度注意力機制算法進行對比。實驗表明,該算法在20%訓練比例的AID數據集中分類精度提高了1.75%和2.5%。
關鍵詞:深度學習;遙感圖像分類;注意力機制;深度殘差收縮網絡;有監督對比學習
中圖分類號:TP391.41文獻標志碼:A
文章編號:1001-3695(2022)08-051-2532-06
doi:10.19734/j.issn.1001-3695.2021.12.0665
Attention mechanism combined with residual shrinkage network to classify remote sensing images
Che Sitao,Guo Rongzuo,Li Zhuoyang,Yang Jun
(College of Computer Science,Sichuan Normal University,Chengdu 610101,China)
Abstract:Aiming at the poor classification effect caused by complex background,large intra-class difference and high inter-class similarity in remote sensing scene images,this paper proposed an attention mechanism and residual contraction unit algorithm based on supervised contrast learning.Firstly,the algorithm improved the effective channel attention mechanism(ECA),and optimized the extraction of image features to be recognized.Then,this paper proposed a cooperative residual shrinkage unit algorithm,which was used to filter and eliminate redundant information of images.In addition,it used supervised contrast lear-ning algorithm to enhance the generalization ability of the algorithm.Finally,this paper carried out experiments with remote sensing image dataset and compared with the latest algorithms such as enhanced attention algorithm and scale attention mechanism algorithm.Experimental results show that the proposed algorithm improves the classification accuracy by 1.75% and 2.5% in AID dataset with 20% training ratio.
Key words:deep learning;remote sensing image classification;attention mechanism;deep residual shrinkage network;supervised contrastive learning
遙感圖像具有價格低廉、拍攝范圍廣、拍攝數量多等特點,深受遙感圖像的眾多研究領域關注,在各領域有越加廣泛的應用。由于遙感圖像有其特殊性[1,2]:a)尺度多樣背景復雜,遙感圖像拍攝高度可存在數倍的差距,使得同類別的地面目標大小差異大,且由于遙感圖像視野比較大,包含復雜的背景,會對目標辨別產生較強干擾;b)存在目標尺寸小的問題,遙感圖像中分類目標存在尺寸很小甚至只有幾十個像素,這會導致目標信息量少,很難分類判斷。伴隨著高分辨率遙感圖像數據集的產生,遙感圖像場景分類已成為研究熱點,已有較多遙感圖像分類方法。但在復雜場景、類內多樣性和類間相似性等情景下,已有分類方法的精度需要進一步提升。
1相關工作
深度神經網絡在硬件計算能力飛速提升的情況下取得了巨大的進展和突破,He等人提出具有殘差模塊的ResNet[3]、Huang等人[4]提出殘差網絡(DenseNet)。深度殘差網絡在圖像分類領域與深度神經網絡相比,能更有效地對場景分類圖像中不同維度的特征進行提取。已有眾多研究將深度殘差網絡運用于遙感圖像場景分類任務[5~7]中,但深度殘差網絡中交叉熵損失函數有泛化性能欠缺和魯棒性差等問題[8]。Khosla等人[9]提出用有監督對比學習算法來解決上述問題,該算法改進于自監督對比學習算法,允許多圖像特征進行對比相互學習,使模型算法泛化能力更強。本文引入有監督對比學習算法來解決類內多樣性和類間相似性場景識別問題,并使用多種數據增強方法增加正負樣本數量,提升算法分類性能。
深度學習注意力機制借鑒于人類注意力機制,本質上為一種傾向性的資源分配機制,被應用于圖像處理、語音識別和自然語言處理等領域的不同類型任務中。Hu等人[10]提出使用squeeze-and-excitation(SE)模塊在圖像分類任務中對圖像重要特征進行數據增強操作,使算法提取的特征指向性更強。但該方法存在較為復雜的降維操作和未進行跨通道信息交互問題,Wang等人[11]針對SE模塊的上述問題進行優化,提出efficient channel attention(ECA)結構,相較于SE模塊結構,ECA結構增加模型參數量更少的同時提升精確度更高。Cao等人[12]對SE模塊和非局部(non-local)模塊[13]的優勢點進行提煉結合,提出了global context net(GCNet)模塊。受到上述方法的啟發以及對多種模型的優缺點進行分析后,本文基于ECA注意力機制進行優化,為了解決該模塊所存在的不能充分利用全局上下文和僅關注通道注意力問題,對ECA模塊中部分結構進行修改,設計出一種基于全局感受野的空間與通道結合注意力機制(non-local spatial and efficient channel attention,NSECA)模塊。
深度殘差收縮網絡[14](deep residual shrinkage networks,DRSN)是一種基于殘差收縮結構改進的深度神經網絡,常應用于信號去噪領域,也適用于二維圖像特征處理來消除圖像冗余信息。由于遙感圖像背景復雜等問題導致已有殘差收縮網絡消除冗余性能欠佳,本文對深度殘差收縮網絡進行優化,設計出一種協同殘差收縮單元(coordinate residual shrinkage unit,CRSU)。該結構相較于原本的深度殘差收縮網絡而言,將背景的位置關聯信息嵌入圖像背景權重分配,能更好地辨別圖像背景冗余信息進行消除,有效改善圖像復雜背景影響分類性能的問題。
綜上所述,本文設計了一種非局部空間特征融合的注意力協同過濾網絡(collaborative filtering network based on non-local spatial feature fusion channel attention,CFN-NSFCA),主要工作如下:a)提出一種NSECA機制模塊來對圖像重要特征進行增強處理;b)提出一種協同殘差收縮單元(CRSU)對遙感圖像背景的冗余信息進行有效剔除;c)運用自監督學習中的學習損失算法,引入有監督對比損失函數,使同類別圖像的樣例特征的范式距離拉近,增強模型泛化能力;d)利用ImageNet預訓練模型來對ResNet50進行初始化權重信息,加強遙感圖像特征識別能力。結合上述工作,在AID dataset[15]和NWPU-RESISC45[16]數據集的兩種不同訓練比例上進行多次實驗,驗證了所提算法的有效性。
2CFN-NSFCA描述及實現
基于非局部空間特征融合的注意力協同過濾網絡(CFN-NSFCA)采用ResNet50為基本框架,將ResNet中的瓶頸塊(bottleneck block)進行結構上的改進優化。本文實驗的ResNet50網絡中除對輸入特征預處理的部分外,包括四個階段(stage),每個階段(stage1、stage2、stage3、stage4)分別由3、4、6、3個瓶頸塊組成。由于模型高層信息難以找到遠距離關聯信息,按照文獻[17]對注意力模塊嵌入建議,本文將NSECA模塊嵌入全部階段的每個瓶頸塊中,而CRSU模塊僅嵌入到stage1的所有瓶頸塊中。如圖1所示,除ResNet50原有的結構外,在stage1的每個瓶頸塊的第三個batch normalization(BN)層后加入NSECA模塊和CRSU模塊。將CRSU模塊放置于NSECA模塊后能通過自適應學習確定閾值,并將圖像非重要特征進行篩選刪除,對重要特征保留。
2.1NSECA機制
注意力機制使得網絡在分類過程中聚焦到信息最豐富的區域而非整個圖像,ECA注意力機制如圖2(a)所示,是一種通道注意力機制,但僅利用每張特征圖(通道)的重要性來聚焦關注區域時,由于遙感圖像有背景復雜、目標尺度差異大等特殊性,模型容易將注意力聚焦到沒有辨別性的區域,導致推理退化等問題,因此判斷單個特征圖重要性之前引入特征圖之間關聯信息來獲取更多整體特征信息并聚焦到最有辨別性區域是必要的。NSECA模塊將ECA結構中全局平均池化層(global AVG pooling,GAP)改進為簡易非局部結構塊(simplified non-local block),這樣既未大幅增加模型計算量,也通過該算子將空間特征信息有效嵌入通道信息提取中,如圖2(b)所示。
GAP層如圖3(a)所示,其計算每張特征圖中所有像素點的均值并將其求得的權重信息相互獨立輸出,如式(1)所示。g(χ)中卷積塊的輸入為χ∈Euclid Math TwoRApW×H×C,W、H和C為寬度、高度和通道尺寸(濾波器數量)。
g(χ)=1W×H∑W,Hi=1,j=1χij(1)
NSECA模塊采用的SNL block如圖3(b)所示,其上分支在空間維度對所有特征圖進行融合操作,將其壓縮為單張同尺寸特征圖,該特征圖包含所有特征圖對應位置的相關性信息,實現全局上下文信息響應;與下分支實現相乘操作,輸出值為每個特征圖上全部像素的權值之和,如式(2)所示。
δ(χ)=∑W,Hi=1,j=1exp(Lχij)∑W,Hk=1,l=1exp(Lχkl)χij(2)
其中:L代表線性變換矩陣(即圖3(b)中的卷積操作)。
相較于g(χ)由特征圖獨立提取信息,未充分利用不同特征圖之間的相關性信息,δ(χ)通過聚焦不同特征圖的關聯信息來表示圖片中某位置對全局位置的響應權重,有效結合空間維度實現全局特征的提取,可將空間信息嵌入后續的通道交互。
NSECA模塊后續使用卷積核大小為k的一維卷積來完成通道相互之間的信息交流:
ω=σ(C1Dk(δ(χ)))(3)
其中:1Dk指的是一維卷積,k為1D卷積核的大小;C為通道維數;σ是一個sigmoid函數,輸出ω為先后經過空間和通道維度提取的權重。通道維數為2的指數,因此k和C之間存在非線性映射關系,其中γ和b為線性映射參數,參考文獻[11]分別設為2和1,odd是指取值最近的奇數。
k=ψ(C)=log2(C)γ+bγodd(4)
根據式(4)可以在網絡中加入NSECA模塊時自適應1D卷積核大小k值而非人為操作。改進特征信息提取方式,使NSECA較于ECA模塊具有更大范圍獲取全局上下文信息和長距離捕捉相關性依賴的能力,進一步提升遙感分類性能。
2.2協同殘差收縮單元
遙感圖像中影響判別分類性能的復雜背景信息可稱為噪聲信息,深度殘差收縮網絡模塊可將噪聲信息置為零而丟棄掉,并保留當前重要的特征信息。其結構如圖4(a)所示,具有近似SE模塊[10]的通道維度權重分配功能,具體說明如下:左分支(紫色線,見電子版)保留每張特征圖的權重均值,其絕對值標記為Ac,C為特征圖位置;右分支使得特征圖經過通道維度信息提取權重,記為系數權值ac。兩分支輸出相乘,獲得所有特征圖的自學習閾值τc=ac×Ac。該閾值使特征圖具有不同的閾值(后續通過軟閾值函數進行去噪),但該閾值提取方法有所不足。
在遙感圖像去噪領域,關鍵點在于如何確定信息為噪聲,并避免將有效信息當做噪聲信息進行消除,影響遙感圖像分類性能。在遙感圖像中僅憑圖像中最關鍵的地物特征難以實現精確分類,如圖5(a)所示,三個建筑物分別為工廠、火車站、教堂三種地物類別的核心建筑,但僅憑此難以分辨圖像類別。
殘差收縮單元的閾值權重分配功能是通過特征圖通道維度權重進行分配,但容易導致將圖像中強相關信息進行消除,如圖5(b)所示,圖中黃色區域理論上應與關鍵性建筑有強關聯性的特征信息,影響著圖像分類準確率(見電子版)。因此,應在閾值權重分配時引入位置關聯信息提取能力,避免將強關聯信息當做噪聲而被消除。為此本文對閾值權重分配部分進行改進,提出了協同殘差收縮單元,如圖4(b)所示。為了促使權重提取功能中引入空間上捕獲位置信息能力,本文采用兩個空間范圍的池化核(H,1)和(1,W)分別沿水平坐標方向和垂直坐標方向對每個特征圖進行編碼,模塊如圖2(b)中CRSU結構所示。
首先,任意特征張量X=[x1,x2,…,xC]∈Euclid Math TwoRApC×H×W作為輸入和輸出的一個特征圖變換張量,在w處的第c個特征圖的輸出可表示為
zhc(h)=1W∑0≤i≤Wxc(h,i)(5)
同樣,在w處的第c個特征圖的輸出可表示為
|zwc(w)=1H∑0≤j<Hxc(j,w)|(6)
由式(5)(6)對位置信息進行編碼后,給定式(7)生成聚合特征映射,并共享到1×1卷積變換函數L1,即
f=δ(L1([zh,zw]))(7)
其中:δ為非線性激活函數,[·,·]表示按空間維度串聯操作;f∈Euclid Math TwoRApC/r×(H+W)為不同方向的中間空間信息特征圖,其中r為SE[10]模塊的擠壓率來減少f通道數,然后將f按空間維度分為兩個獨立張量fh∈Euclid Math TwoRApC/r×H和fw∈Euclid Math TwoRApC/r×W,并采用兩個1×1卷積變換Lh和Lw將fh和fw變換為相同通道數的張量:
gh=σ(Lh(fh))(8)
gw=σ(Lw(fw))(9)
其中:σ為sigmoid函數。然后將gh和gw展開相乘記為權重系數ac。
ac(i,j)=ghc(i)×gwc(j)(10)
后續操作與DRSN結構類似,左分支(紫色線,見電子版)為每張特征圖權重平均值的絕對值,記為Ac=averagei,j|xc(i,j)|,并求得自學習閾值τc=ac×Ac。
最后采用軟閾值函數進行降噪處理步驟,其將絕對值小于某個閾值τ的特征去除掉(置為0),將絕對值大于該閾值的特征朝向零進行收縮操作。軟閾值函數如式(11)和圖6(a)所示,依據每個特征圖權重分布來刪除某個取值范圍外的特征。根據其偏導數可以看出,如式(12)和圖6(b)所示,偏導值為0或1,有利于梯度的方向傳播,避免高計算復雜度。
y=x-τxgt;τ
0-τ≤x≤τ
x+τxlt;-τ(11)
yx= 1xgt;τ
0-τ≤x≤τ
1xlt;-τ (12)
本文對DRSN模塊的權重分配功能進行優化改進,提出了CRSU模塊,該模塊有效避免了DRSN模塊可能將強關聯信息當做噪聲而刪除,進一步優化殘差收縮網絡對遙感圖像復雜背景冗余信息消除的性能。
2.3有監督對比學習損失
深度學習廣泛采用的交叉熵損失函數存在部分問題,例如對噪聲的魯棒性差以及存在差裕度使得模型泛化性能不足。為緩解在復雜背景下損失函數的上述問題,借鑒文獻[9]的思想,引入有監督對比學習算法(supervised contrastive learning,SCL),采用有監督對比損失函數來緩解傳統損失函數的上述問題。
有監督對比學習可使每個錨點存在多個正樣例,從而有效地采用類標簽實現同類別的樣例距離拉近,且使不同類別的樣例相互拉遠,這樣可解決自監督對比學習中同類特征相關性問題,提高類間可分性和類內多樣性的性能,實現遙感場景分類精度的提升。采用的有監督對比損失函數,即
L=∑2NiLi(13)
Li=-12Ny~i-1∑2Nj=11i≠j·1y~i=y~i·logexp(zi·zj(i)/τ)∑2Nk=11i≠k·exp(zi·zj(i)/τ)(14)
其中:τ為正數的調節參數;i表示錨點,同時j(i)表示錨點i的正樣例;Nyi表示同批次中與錨點i為同類別yi的數量,分子中 exp(zi·zj(i)/τ)在i≠j,yi=yj時表示為同批次中與i相同的圖像,此處為單個的錨點i,分母為除i以外的所有圖像,即負樣例含有2N-1項,相當于每個樣本視為單獨的類別進行計算,通過每個錨點累加來獲取該批次的總損失和,如式(13)所示。
對比學習實驗需要采用的視圖增廣方式會影響實驗結果,因此本文根據文獻[17]中的參數設置對數據進行視圖增強來保證增廣視圖有效且實現監督對比學習預想結果。
3實驗結果與分析
3.1數據集描述
本文實驗使用的遙感圖像數據集為航空遙感的AID[15]和NWPU-RESISC45[16]兩種遙感圖像數據集。AID共10 000張圖像,總計30個地物類別和標簽,每個類別220~420張圖像不等,圖像來自不同的遙感成像傳感器多源采集的,傳感器采集時不同高度拍攝會使得地面像素分辨率均不相同,因此像素分辨率對應的地物尺寸大小在0.5~8 m不等(每個像素展示的地物尺寸不同),且每張圖像固定為600×600像素。NWPU-RESISC45數據集有31 500張圖像,總計45個地物類別和標簽,每個類別700張圖像,每張圖片均為256×256像素。圖7、8分別給出了兩個數據集的部分樣本展示。
為了與不同文獻的方法進行公平性能對比,根據文獻[18]為兩種數據集設置相同的訓練集與測試集比例,即本文實驗對AID數據集的每種類別圖像中采用隨機抽取的方式,取20%數量的圖像作為訓練集,其余80%圖像作為測試集。此外,增加訓練比例為50%的數據集進行額外實驗對比。NWPU-RESISC45數據集也采用隨機抽取比例為10%和20%作為訓練集和測試集,具體說明如表1所示。
3.2參數設定
實驗訓練均使用隨機梯度下降(SGD)優化器,數據的批大小為64,動量設置為0.9,權重衰減率設置為0.000 1,均200個訓練輪次(epoch)完成。實驗中將輸入圖片尺寸縮小到224×224像素大小。為增強監督學習效果,監督對比損失函數τ設置為文獻[17]的默認值0.07,對視圖按照文獻[17]進行增廣設置,對數據集進行尺度參數為0.2的隨機剪裁,隨機模糊參數設置為0.5,水平翻轉和垂直翻轉幾率設置為50%。
3.3實驗設備
為驗證算法的有效性,在數據集上的兩種比例下進行綜合實驗。在PyTorch框架下使用Python 3.8進行編譯。硬件平臺為Ubuntu 16.04.7系統的Linux服務器,其配置為Intel Xeon CPU E5-2660 v4 @ 2.00 GHz的CPU和兩塊NVIDIA Tesla 40 GB顯存的 A100的GPU。
3.4評價指標
分類算法評價指標主要采用以下三種:總體分類精度(overall accurracy,OA)、分類精度標準差和混淆矩陣(confusion matrix,CM)。OA的定義為在不考慮樣本具體所屬類別情況下,分類正確的樣本個數占所有樣本個數的百分比,標準差是用來度量OA變化程度的指標。為獲得可靠的實驗結果,實驗在隨機采樣的訓練集上執行5次取平均值(其中每次結果均為測試集上最佳準確率)和標準差作為最終的實驗結果,并做出混淆矩陣。
3.5不同文獻方法性能比較
表2中列出不同文獻方法在AID和NWPU-RESISC45數據集上訓練的性能與本文CFN-NSFCA網絡的比較結果。從表2可以看出,訓練樣本比例為20%和50%的AID數據集測試中,CFN-NSFCA在ResNet50的總體精度分別為95.39%和97.42%。在20%的訓練比例下,比表中的次優方法ECA-ResNeXt-8[23]高出了1.27%;在50%的訓練比例下,比次優方法ResNet50EAM[21]高出了0.80%,充分體現了本文方法的先進性。在NWPU-RESISC45數據集中,測試精度相較于次優方法FAC-CNN[22]分別高出0.27%、0.36%。從圖9可以看出,在20%訓練比例的AID數據集實驗結果中,30個類別僅有四種類別精度低于90%,有五種類別精度達到100%。為了更直觀顯示每類場景的分類精度,進一步驗證所提方法的性能,本文CFN-NSFCA網絡在20%訓練比例的AID數據集下生成混淆矩陣,如圖10所示(由于代碼生成混淆矩陣時,求比例時存在四舍五入的情況,導致部分行比例值之和不等于1)。圖中表格邊緣的序號表示場景分類編號(按照場景類別名稱字母升序編號,圖左邊緣的垂直列編號表示真實標簽,圖底邊緣水平列編號表示預測標簽,其余表格中的比例數值指預測概率)。
從圖10可以看出,在圖7(a)中展示的場景13(meadow)、29(viaduct)、26(square)、20(port)、24(school)、23(river)的精度分別達到100%、99%、86%、99%、84%、97%。在眾多不同類別的相似場景比較中,如圖7(b)中展示的部分場景1(bareland)和9(desert)、16(park)和22(resort)、24(school)和12(industrial),精度分別達到了95%和98%、92%和79%、84%和92%。以上數據均充分說明本文方法可有效處理遙感圖像中復雜的分類場景,證明本文方法的有效性。
3.6消融實驗
本文方法主要包含NSECA注意力模塊、CRSU模塊和SCL模塊分支。為進一步證明每個實驗分支的有效性,本節對上述三個分支進行消融實驗,并分為四種情況,即僅采用NSECA模塊、僅采用CRSU模塊、僅采用SCL模塊、所有模塊均不采用。上述四種變體實驗均在AID和NWPU-RESISC45數據集不同比例下進行,結果如表3所示。從表3可以看出,在AID和NWPU-RESISC45數據集上與ResNet50準確率相比,在僅采用NSECA模塊的情況下,分別提升了2.32%和1.9%、3.12%和2.99%;在僅采用CRSU模塊的情況下,準確率分別提升了2.26%和1.54%、2.95%和2.87%;在僅采用SCL模塊的情況下,準確率分別提升了0.96%和0.85%、0.6%和0.62%。
綜上可知,對比ResNet50準確率,三種實驗分支均有所提升,說明每個實驗分支均有效。此外,根據提升程度可以看出,僅采用NSECA模塊提升的性能比僅采用CRSU模塊效果較好,僅采用SCL模塊提升相對前兩者較小。
3.7參數對比實驗
在參數設定時,會依據視圖按照文獻[17]進行多種增廣設置來增強對比學習效果,如隨機剪裁(RandomCrop)、隨機模糊(RandomBlur)、水平和垂直翻轉(VerticalFlip/Horizontal Flip,VF/HF)等。本節對以上三個關鍵參數在20%訓練比例下AID數據集進行不同參數值的對比實驗,結果如圖11所示。
文獻[17]中指出,在有監督對比函數訓練設置合適增廣參數能增強訓練效果。通過隨機模糊、水平和垂直翻轉(VF/HF)的實驗結果可看出:RandomBlur較于VF/HF而言對模型精度影響略大,這兩個參數設置為0.5時分類精度均獲得四個參數值中最大提升,而參數達到0.75時精度卻有下降情況;此外可以看出,隨機剪裁對實驗結果影響最大,其參數值參考文獻[17]中對比實驗設置的,當參數為0.2時獲取最佳分類效果,但僅變為0.25時精度有較大下滑,0.4時網絡模型精度退化嚴重。
經過關鍵參數的不同取值實驗對比,證明了依據文獻[17]的參數設置能夠獲取對數據進行較好的預處理操作結果。
3.8有效性驗證實驗
為進一步證明所提方法的有效性,本節進行兩組有效性驗證實驗,第一組實驗采用ECA模塊、CBAM注意力模塊、GCNet模塊與NSECA模塊進行對比實驗,驗證NSECA模塊對分類準確率的提升優于ECA模塊,且與同為結合空間與通道注意力機制的CBAM、GCNet模塊相比性能更佳。
第二組實驗采用DRSN和CRSU模塊進行對比,驗證CRSU模塊的有效性。上述實驗均基于ResNet50模型,并用訓練比例分別為20%和50%的AID數據集。
實驗結果如表4所示,在第一組實驗中,NSECA模塊的分類精度高于ECA模塊,分別高出0.86%和1.15%,與CBAM和GCNet模塊相比,NSECA模塊仍有更優的性能表現。第二組實驗中,CRSU模塊通過對背景冗余信息剔除功能的優化,促使模型性能較DRSN模塊有更好的提升。
最后對兩組有效性驗證實驗模型進行特征圖可視化,采用Grad-CAM作為可視化工具生成熱力圖(圖中顏色越暖色代表關注程度越高,見電子版),如圖12所示。
從圖12(a)可以看出,NSECA較ECA模塊,不僅對感興趣的區域定位同樣準確,且由于引入了空間注意力機制使得關注區域更廣;NSECA模塊與同樣結合空間與通道注意力機制的GCNet模塊相比能夠更精確地定位感興趣的對象區域。DRSN和CRSU模塊是對圖像的冗余信息進行消除,在熱力圖中,其關注的區域應是將被軟閾值函數消除的冗余信息。圖12(b)中,最后一行的熱力圖為本文方法所生成,從中可看出,DRSN模塊由于缺乏對位置關聯信息的權重分配能力,其確定為噪聲信息的區域明顯多于CRSU模塊,而CRSU模塊保留了更多的關聯性區域;本文CFN-NSFCA模型生成的熱力圖與CRSU模塊感興趣區域趨于互補(取并集接近整個圖像),也充分證明了CRSU模塊的有效性。
4結束語
針對遙感圖像復雜場景分類效果欠佳的問題,本文提出一種基于有監督對比學習的NSECA注意力機制結合CRSU殘差收縮單元算法。將NSECA與ECA相比較,其優勢在于前者不僅能從通道維度提取不同特征圖各自的權重特征,且能從空間維度提取不同特征圖融合后的特征信息;CRSU模塊能有效避免DRSN模塊在消除圖像背景噪聲時將位置關聯特征信息消除,優化冗余信息剔除性能。而有監督對比學習的引入,能優化同類別圖像的特征提取,增強本文算法的泛化能力。本文方法在AID和NUPW-RESISC45數據集上取得比文獻[20~24]更好的分類性能。
參考文獻:
[1]Li Jun,Benediktsson J A,Zhang Bing,et al.Spatial technology and social media in remote sensing:a survey[J].Proceedings of the IEEE,2017,105(10):1855-1864.
[2]Huang Hong,Shi Guangyao,He Haibo,et al.Dimensionality reduction of hyperspectral imagery based on spatial-spectral manifold learning[J].IEEE Trans on Cybernetics,2020 ,50(6):2604-2616.
[3]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[EB/OL].(2015-04-15).https://arxiv.org/abs/1409.1556.
[4]Huang Gao,Liu Zhuang,Van der Maaten L,et al.Densely connected convolutional networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:2261-2269.
[5]Guo Donggen,Xia Ying,Luo Xiaobo.Scene classification of remote sensing images based on saliency dual attention residual network[J].IEEE Access,2020,8:6344-6357.
[6]Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:3-19.
[7]石彩霞,趙傳鋼,龐蕾.基于超像素統計量的隨機森林遙感圖像分類[J].計算機應用研究,2018,35(12):3798-3802.(Shi Caixia,Zhao Chuangang,Pang Lei.Research on random forest remote sensing image classification based on superpixel statistics[J].Application Research of Computers,2018,35(12):3798-3802.)
[8]Elsayed G F,Krishnan D,Mobahi H,et al.Large margin deep networks for classification[C]//Proc of the 32nd International Confe-rence on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2018:850-860.
[9]Khosla P,Teterwak P,Wang Chen,et al.Supervised contrastive lear-ning[EB/OL].(2021-03-10).https://arxiv.org/pdf/2004.11362.pdf.
[10]Hu Jie,Li Shen,Sun Gang,et al.Squeeze-and-excitation networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:7132-7141.
[11]Wang Qilong,Wu Banggu,Zhu Pengfei,et al.ECA-Net:efficient channel attention for deep convolutional neural networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:11531-11539.
[12]Yue Cao,Xu Jiarui,Stephen L,et al.GCNet:non-local networks meet squeeze-excitation networks and beyond[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019.
[13]Wang Xiaolong,Girshick R,Gupta A,et al.Non-local neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:7794-7803.
[14]Zhao Minghang,Zhong Shisheng,Fu Xuyun,et al.Deep residual shrinkage networks for fault diagnosis[J].IEEE Trans on Industrial Informatics,2019,16(7):4681-4690.
[15]Xia Guisong,Hu Jingwen,Hu Fan,et al.AID:a benchmark data set for performance evaluation of aerial scene classification[J].IEEE Trans on Geoscience and Remote Sensing,2017,55(7):3965-3981.
[16]Cheng Gong,Han Junwei,Lu Xiaoqiang.Remote sensing image scene classification:benchmark and state of the art[J].Proceedings of the IEEE,2017,105(10):1865-1883.
[17]Tian Yonglong,Sun Chen,Poole B,et al.What makes for good views for contrastive learning?[EB/OL].(2020-12-18).https://arxiv.org/pdf/2005.10243.pdf.
[18]Zhang Zhilu,Sabuncu M.Generalized cross entropy loss for training deep neural networks with noisy labels[C]//Proc of the 32nd Confe-rence on Neural Information Processing Systems.2018.
[19]Li Jun,Lin Daoyu,Wang Yang,et al.Deep discriminative representation learning with attention map for scene classification[J].Remote Sensing,2020,12(9):1366.
[20]Bian Xiaoyong,Fei Xiongjun,Mu Nan.Remote sensing image scene classification based on scale-attention network[J].Journal of Computer Applications,2020,40(3):872-877.
[21]Zhao Zhicheng,Li Jiaqi,Ze Luo,et al.Remote sensing image scene classification based on an enhanced attention module[J].IEEE Geoscience and Remote Sensing Letters,2020,18(11).
[22]宋中山,梁家銳,鄭祿,等.基于雙向門控尺度特征融合的遙感場景分類[J].計算機應用,2021,41(9):2726-2735.(Song Zhong-shan,Liang Jiarui,Zheng Lu,et al.Remote sensing scene classification based on bidirectional gated scale feature fusion[J].Journal of Computer Applications,2021,41(9):2726-2735.)
[23]屈震,李堃婷,馮志璽.基于有效通道注意力的遙感圖像場景分類[J].計算機應用,2022,42(5):1431-1439.(Qu Zhen,Li Kun-ting,Feng Zhixi.Remote sensing image scene classification based on effective channel attention[J].Journal of Computer Applications,2022,42(5):1431-1439.)
[24]朱淑鑫,周子俊,顧興健,等.基于RCF網絡的遙感圖像場景分類研究[J].激光與光電子學進展,2021,58(14):76-86.(Zhu Shuxin,Zhou Zijun,Gu Xingjian,et al.Scene classification of remote sensing images based on RCF network[J].Laser amp; Optoelectronics Progress,2021,58(14):76-86.
收稿日期:2021-12-29;修回日期:2022-02-24基金項目:國家自然科學基金資助項目(11905153,61701331)
作者簡介:車思韜(1995-),男(通信作者),四川樂山人,碩士研究生,主要研究方向為視覺圖像、模型壓縮(codecst@163.com);郭榮佐(1973-),男,四川達州人,教授,碩導,博士,主要研究方向為嵌入式系統、物聯網感知;李卓陽(1996-),男,四川南充人,碩士研究生,主要研究方向為視覺圖像、模型壓縮;楊軍(1977-),男,四川岳池人,副教授,博士,主要研究方向為機器學習、計算機視覺.