


















摘 要:針對(duì)現(xiàn)有基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的遙感圖像場(chǎng)景分類方法存在上下文信息關(guān)注不足及特征表達(dá)能力不強(qiáng)的問題,提出了一種基于多層次雙分支特征增強(qiáng)與融合的遙感場(chǎng)景分類方法.首先以MobileNetV2為主干網(wǎng)絡(luò)提取多尺度層次特征;然后利用跨尺度連接分別對(duì)淺層細(xì)節(jié)特征和深層抽象特征進(jìn)行雙分支特征融合,同時(shí)在淺層特征融合分支引入Atrous空間金字塔池化(ASPP)模塊捕獲低層多尺度細(xì)節(jié)信息,在深層特征融合分支嵌入注意力機(jī)制(CBAM)模塊提升模型對(duì)深層關(guān)鍵信息的捕捉能力;最后利用全局平均池化聚合低級(jí)空間細(xì)節(jié)特征和高級(jí)語義信息獲取全面的特征表達(dá),實(shí)現(xiàn)對(duì)遙感圖像場(chǎng)景的高效分類.在UCM和RSSCN7兩個(gè)遙感場(chǎng)景數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明所提方法的分類精度相較于MobileNetV2網(wǎng)絡(luò)分別提升了3.71%和3.57%,證明該方法能有效提升遙感場(chǎng)景的分類精度.
關(guān)鍵詞:
雙分支特征融合; 圖像分類; 注意力機(jī)制; MobileNetV2
中圖分類號(hào):TP183
文獻(xiàn)標(biāo)志碼: A
Remote sensing scene classification based on multi-level dual-branch
feature enhancement and fusion
ZHAO Wei1, CHENG Rong1, XU Ting1, BAI Yan-ping1,2*
(1.School of Mathematics, North University of China, Taiyuan 030051, China; 2.School of Information and Communication Engineering, North University of China, Taiyuan 030051, China
)
Abstract:
To address the problems of insufficient context information attention and weak feature expression ability in existing scene classification methods for remote sensing images based on convolutional neural networks (CNN),a scene classification method based on multi-level dual-branch feature enhancement and fusion is proposed.Firstly,MobileNetV2 is adopted as the backbone network to extract multi-scale hierarchical features.Then,cross-scale connections are utilized to conduct dual-branch feature fusion for shallow detail features and deep abstract features.Meanwhile,the Atrous Spatial Pyramid Pooling (ASPP) module is introduced in the shallow feature fusion branch to capture low-level multi-scale detail information,and the Convolutional Block Attention Module (CBAM) module is embedded in the deep feature fusion branch to enhance the model′s ability to capture deep-level key information.Finally,global average pooling is employed to aggregate low-level spatial detail features and high-level semantic information to obtain comprehensive feature representations,achieving efficient classification of remote sensing image scenes.Experiments on two remote sensing scene datasets,UCM and RSSCN7,show that the classification accuracy of the proposed method is improved by 3.71% and 3.57%,respectively,compared with the MobileNetV2 network,which proves that the proposed method can effectively improve the classification accuracy of remote sensing scenes.
Key words:
dual-branch feature fusion; image classification; attention mechanism; MobileNetV2
0 引言
遙感圖像場(chǎng)景分類是遙感研究領(lǐng)域備受關(guān)注的問題,其重點(diǎn)是根據(jù)遙感圖像的內(nèi)容劃分為一組語義類[1].隨著遙感技術(shù)的不斷發(fā)展,這一研究領(lǐng)域在城市規(guī)劃、自然災(zāi)害檢測(cè)、環(huán)境監(jiān)測(cè)、植被制圖以及地理空間目標(biāo)檢測(cè)等領(lǐng)域有著廣泛的應(yīng)用[2].然而,遙感圖像復(fù)雜的空間結(jié)構(gòu)、多樣化的語義級(jí)別、較高的類間相似性和類內(nèi)多樣性,使得傳統(tǒng)機(jī)器學(xué)習(xí)方法分類能力較低,無法取得較高的分類精度.
近年來,隨著卷積神經(jīng)網(wǎng)絡(luò)(CNN)的發(fā)展,遙感場(chǎng)景分類方法不斷完善.一些經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型[3]和基于CNN改進(jìn)的模型已經(jīng)出現(xiàn),并在遙感圖像場(chǎng)景分類任務(wù)中取得了優(yōu)異的性能.He等[4]提出了殘差網(wǎng)絡(luò)(ResNet)來降低多層CNN模型的訓(xùn)練難度,該模型在ImageNet數(shù)據(jù)集上取得了優(yōu)異的分類效果;Weng等[5]使用在ImageNet上預(yù)訓(xùn)練的AlexNet架構(gòu)提取深度特征,并使用極限學(xué)習(xí)機(jī)(ELM)分類器對(duì)其進(jìn)行分類;宋中山等[6]提出了一種基于改進(jìn)密集連接網(wǎng)絡(luò)(Ghost-Densenet)的分類模型,利用Ghost模塊增強(qiáng)模型特征提取能力的同時(shí)減少了特征冗余,有效提升了模型的分類性能;Woo等[7]基于注意力機(jī)制提出了通道注意力模塊和空間注意力模塊,并將其嵌入到CNN的不同層中,在ImageNet數(shù)據(jù)集上驗(yàn)證了該方法的有效性.雖然上述方法在遙感圖像場(chǎng)景分類中取得了較好的分類效果,但在多層卷積和池化過程中,會(huì)丟失大量的重要信息,導(dǎo)致提取的特征對(duì)目標(biāo)的表達(dá)能力不足.
為了增強(qiáng)特征表達(dá)能力,特征融合策略被引入到CNN中,以進(jìn)一步提升模型的分類性能.Liu等[8]提出了一種兩階段深度特征融合方法,該方法側(cè)重于組合來自深度網(wǎng)絡(luò)的各層特征;王威等[9]設(shè)計(jì)了一種頻率和空間特征融合的輕量級(jí)多尺度遙感圖像場(chǎng)景分類網(wǎng)絡(luò),以提高場(chǎng)景分類精度;Muhammad U等[10]用VGGNet模型的兩個(gè)卷積層和兩個(gè)全連接層構(gòu)建了一個(gè)四層特征表示,然后采用典型相關(guān)分析(CCA)進(jìn)行特征融合;Shi等[11]設(shè)計(jì)了一種多分支融合注意力模塊(MBFAM)用于遙感場(chǎng)景分類,相較于單線性卷積結(jié)構(gòu),通過多分支結(jié)構(gòu)提取特征,提高場(chǎng)景分類性能;Ma等[12]提出利用預(yù)訓(xùn)練的CNN模型獲得多層卷積特征,采用級(jí)聯(lián)或元素相加的方法得到多層特征的融合表示.Lu等[13]研究了一種雙向自適應(yīng)特征融合策略,采用遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)融合深度特征和SIFT特征.然而,上述方法的特征表達(dá)能力有限,沒有同時(shí)關(guān)注全局和局部關(guān)鍵特征,無法較好地理解遙感圖像上下文語義間的相關(guān)性.
為了更好地解決以上問題,本文提出一種基于多層次雙分支特征增強(qiáng)與融合的遙感圖像場(chǎng)景分類方法:(1)針對(duì)CNN模型進(jìn)行場(chǎng)景分類時(shí)忽略了淺層局部特征和空間信息的問題,提出雙分支特征融合結(jié)構(gòu),將淺層特征和深層特征通過相適應(yīng)的特征增強(qiáng)模塊后進(jìn)行聚合,以提升模型的特征表達(dá)能力;(2)在淺層特征增強(qiáng)方面,引入Atrous空間金字塔池化(ASPP)模塊,通過使用不同擴(kuò)張率的膨脹卷積捕捉更大范圍內(nèi)的上下文信息;(3)在深層特征增強(qiáng)方面,嵌入注意力機(jī)制(CBAM)模塊,通過關(guān)注特征圖通道和空間兩個(gè)維度上的重要信息,增強(qiáng)模型對(duì)深層關(guān)鍵特征的提取能力.
1 算法設(shè)計(jì)
1.1 模型框架
為了捕獲豐富的語義信息,提高模型對(duì)不同層特征的利用率.本文方法首先以輕量級(jí)網(wǎng)絡(luò)MobileNetV2為主干網(wǎng)絡(luò)提取多尺度層次特征,其次構(gòu)建雙分支特征融合結(jié)構(gòu):在淺層特征融合分支引入Atrous空間金字塔池化(ASPP)模塊捕獲不同尺度細(xì)節(jié)信息,在深層特征融合分支嵌入CBAM注意力機(jī)制模塊關(guān)注特征圖中顯著特征區(qū)域,接著將淺層高分辨率特征和深層語義信息進(jìn)行融合;最后使用全連接層進(jìn)行分類.網(wǎng)絡(luò)整體框架如圖1所示.
1.2 主干網(wǎng)絡(luò)(MobileNetV2)
MobileNetV2網(wǎng)絡(luò)是一種專注于移動(dòng)或嵌入式設(shè)備的輕量級(jí)CNN,由Google團(tuán)隊(duì)于2018年提出,具有體積小、參數(shù)小和計(jì)算少三大優(yōu)勢(shì).其結(jié)構(gòu)參數(shù)如表 1所示.
MobileNetV2網(wǎng)絡(luò)有17個(gè)瓶頸層,其核心是深度可分離卷積(DSC),包括深度卷積(DW)和逐點(diǎn)卷積(PW).與傳統(tǒng)卷積相比,深度可分離卷積(DSC)有效減少了模型的計(jì)算復(fù)雜度和參數(shù)數(shù)量.與MobileNetV1相比,MobileNetV2網(wǎng)絡(luò)模型引入了反向殘差和線性瓶頸.線性瓶頸模塊通過逐點(diǎn)卷積層后直接輸出信息,有效防止了ReLu函數(shù)在低維空間破壞信息.
反向殘差結(jié)構(gòu)與ResNet中的殘差結(jié)構(gòu)相反,其結(jié)構(gòu)如圖2所示.該結(jié)構(gòu)先使用逐點(diǎn)卷積操作,將特征通道的數(shù)量擴(kuò)展到初始通道數(shù)的t倍(MobileNetV2中t的值是6),再使用3*3的深度卷積提取各通道的特征,最后使用逐點(diǎn)卷積進(jìn)行特征降維,將特征通道的數(shù)量縮放到初始的通道數(shù).只有當(dāng)stride=1且輸入特征矩陣與輸出特征矩陣的形狀相同時(shí),才存在快捷連接,如圖2(a)所示;當(dāng)stride=2時(shí),直接使用線性結(jié)構(gòu),如圖2(b)所示.反向殘差結(jié)構(gòu)對(duì)通道數(shù)先進(jìn)行升維后進(jìn)行降維的設(shè)計(jì),使得網(wǎng)絡(luò)能夠適應(yīng)更小的輸入和輸出維度,因此可以降低網(wǎng)絡(luò)的計(jì)算量和參數(shù)量.此外,殘差連接有助于提高梯度的傳播效率,使得網(wǎng)絡(luò)能夠構(gòu)建的更深.
1.3 多層次雙分支特征增強(qiáng)與融合
在卷積神經(jīng)網(wǎng)絡(luò)中,淺層網(wǎng)絡(luò)輸出特征分辨率較高,包含更多的位置、細(xì)節(jié)信息,但由于經(jīng)過卷積層少,帶有較多噪聲;深層網(wǎng)絡(luò)輸出特征具有較強(qiáng)的語義信息,但分辨率較低,對(duì)細(xì)節(jié)的感知能力較差.MobileNetV2主干網(wǎng)絡(luò)輸出圖像的分辨率是原始輸入的1/16,丟失了很多初始的細(xì)節(jié)和位置信息,因此本文提出一種雙分支特征融合的方法以實(shí)現(xiàn)低層細(xì)節(jié)特征和高級(jí)語義特征的信息互補(bǔ).首先對(duì)每個(gè)分支采用跨層的特征融合方法,實(shí)現(xiàn)分層的特征交互和不同層語義信息的高效整合,其次結(jié)合低層特征的空間細(xì)節(jié)信息和深層特征的高級(jí)語義信息獲得有利于場(chǎng)景分類的融合特征.
1.3.1 基于Atrous空間金字塔池化(ASPP)的淺層特征增強(qiáng)
卷積神經(jīng)網(wǎng)絡(luò)淺層輸出特征包含更多精細(xì)的空間位置信息,然而網(wǎng)絡(luò)在最終的分類中卻忽略了這些低級(jí)特征.為了提高網(wǎng)絡(luò)對(duì)淺層特征的利用率,本文方法將不同層次的淺層特征進(jìn)行融合后利用ASPP模塊增強(qiáng)特征表達(dá).如圖1所示,在淺層特征融合分支首先將MobileNetV2網(wǎng)絡(luò)Bottleneck3的輸出特征和Bottleneck2的輸出特征分別經(jīng)過4倍上采樣操作、2倍上采樣操作生成更高分辨率的特征圖,之后將其與Bottleneck1的輸出特征圖進(jìn)行聚合得到包含紋理與空間信息的淺層特征.然而在上采樣的過程中會(huì)丟失大量有用信息,但使用atrous convolution可以系統(tǒng)地聚合多尺度上下文信息而不損失分辨率,故本文在淺層特征后引入Atrous空間金字塔池化(ASPP).
ASPP模塊結(jié)合了Atrous卷積技術(shù)和空間金字塔池化技術(shù).使用ASPP模塊能夠使網(wǎng)絡(luò)同時(shí)關(guān)注整體和細(xì)節(jié)特征,從而提高模型的特征提取能力.圖3顯示了本文所使用的ASPP模塊,首先將MobileNetV2提取到的不同層次的淺層特征圖輸入該模塊,然后使用2個(gè)1*1卷積、3個(gè)擴(kuò)張率分別為6、12和18的3*3膨脹卷積分別對(duì)其進(jìn)行卷積操作,得到不同尺度空間的特征表示并進(jìn)行跨通道級(jí)聯(lián),最后采用1*1卷積輸出多尺度語義增強(qiáng)特征圖.
1.3.2 基于CBAM注意力機(jī)制的深層特征增強(qiáng)
深層特征能夠捕捉圖像的全局特征和更多的上下文信息,卷積神經(jīng)網(wǎng)絡(luò)通過全局上下文信息可以有效推斷出場(chǎng)景類別,淡化背景干擾.如圖1所示,在深層特征融合分支首先將MobileNetV2網(wǎng)絡(luò)Bottleneck7的輸出特征經(jīng)過2倍上采樣,接著將所得特征與Bottleneck5的輸出特征進(jìn)行聚合得到具有更好泛化能力的深層特征,之后再經(jīng)過CBAM注意力機(jī)制模塊得到關(guān)注顯著特征區(qū)域的高級(jí)語義特征信息.
圖4為所采用的CBAM注意力機(jī)制模塊,該模塊由通道注意力模塊(CAM)和空間注意力模塊(SAM)組成.通道注意力模塊首先在空間維度上壓縮輸入特征,分別根據(jù)寬度和高度執(zhí)行全局最大池化和全局平均池化.其次,將兩個(gè)池化的一維向量輸入到共享多層感知器(MLP)模型中,并將MLP輸出特征的相應(yīng)元素一一相加.最后,通過sigmoid激活函數(shù),得到通道注意力.
將通道注意力與初始特征圖進(jìn)行內(nèi)積運(yùn)算得到空間注意力模塊所需的輸入特征圖.空間注意力模塊首先基于通道進(jìn)行全局最大池化和全局平均池化,并將得到的兩個(gè)特征圖在基于通道的維度上合并.其次,執(zhí)行7*7卷積運(yùn)算.最后通過sigmoid激活函數(shù),對(duì)輸出特征圖和空間注意力模塊輸入的特征圖進(jìn)行內(nèi)積運(yùn)算,得到最終生成的特征.
2 實(shí)驗(yàn)結(jié)果與分析
2.1 數(shù)據(jù)集
為了驗(yàn)證本文方法的有效性,選用公開的遙感圖像數(shù)據(jù)集UC Merced Land Use數(shù)據(jù)集[14](UCM)和RSSCN7數(shù)據(jù)集[15]進(jìn)行實(shí)驗(yàn).
UCM數(shù)據(jù)集包含21個(gè)場(chǎng)景類別,每類有100幅圖片,總共2 100張圖像,每幅圖片大小為256像素×256像素,空間分辨率為0.3 m;UCM數(shù)據(jù)集中圖像的角度、方向、光照等各不相同,增加了分類的難度.圖5顯示了21個(gè)土地覆蓋類別的示例圖像.
RSSCN7數(shù)據(jù)集包含2 800張遙感圖像,這些圖像來自于7個(gè)典型的場(chǎng)景類別,分別是草地、田地、工業(yè)、河流湖泊、森林、居民區(qū)和停車場(chǎng);其中每個(gè)類別包含400張圖像,分別基于4個(gè)不同的尺度進(jìn)行采樣.與UCM數(shù)據(jù)集相比,RSSCN7的場(chǎng)景圖像是在不同季節(jié)和天氣下捕獲的,尺度的差異給場(chǎng)景分類帶來了很大的挑戰(zhàn).圖6顯示了7個(gè)場(chǎng)景類別的示例圖像.
2.2 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)在python3.10和pytorch2.4環(huán)境下進(jìn)行,處理器型號(hào)為:E5-2620 v4,顯卡型號(hào)為:TITAN RTX.實(shí)驗(yàn)中參數(shù)設(shè)置為epoch:100、batchsize:16、初始學(xué)習(xí)率為:0.001,使用隨機(jī)初始化網(wǎng)絡(luò)參數(shù)的方法進(jìn)行實(shí)驗(yàn).選取UCM數(shù)據(jù)集的80%、RSSCN7數(shù)據(jù)集的50%作為訓(xùn)練集,其余作為測(cè)試集.
2.3 性能評(píng)價(jià)指標(biāo)
在實(shí)驗(yàn)中,采用了分類精度(Overall Accuracy,OA)、精確度(Precision)以及Kappa系數(shù)作為評(píng)價(jià)指標(biāo).以下是這些指標(biāo)的計(jì)算公式:
OA=TP+TNTP+FN+FP+TN(1)
Precision=TPTP+FP(2)
Kappa=p0-pe1-pe(3)
式(1)~(3)中:TP表示模型將正樣本預(yù)測(cè)為正樣本的數(shù)量,TN表示模型將負(fù)樣本預(yù)測(cè)為負(fù)樣本的數(shù)量,F(xiàn)P表示模型將負(fù)樣本預(yù)測(cè)為正樣本的數(shù)量,F(xiàn)N表示模型將正樣本預(yù)測(cè)為負(fù)樣本的數(shù)量.P0是觀察到的一致性比例,Pe是偶然一致性的比例.P0可以通過混淆矩陣中的對(duì)角線元素來計(jì)算,而Pe是基于每個(gè)類別的邊緣總數(shù)計(jì)算的預(yù)期一致性.
2.4 實(shí)驗(yàn)結(jié)果
為了驗(yàn)證本文方法在場(chǎng)景分類中的有效性,與MobileNetV2進(jìn)行對(duì)比實(shí)驗(yàn),其結(jié)果如表 2所示.
由表 2可知,本文方法在UCM和RSSCN7數(shù)據(jù)集上均取得了最佳的分類精度,分別達(dá)到了96.43%和91.07%,相較于初始的92.86%和87.36%分別提升了3.71%和3.57%;在精確率和Kappa系數(shù)上也都有明顯提高.圖7(a)、(b)為MobileNetV2網(wǎng)絡(luò)模型和本文方法在UCM和RSSCN7數(shù)據(jù)集上的準(zhǔn)確率變化曲線對(duì)比圖.由圖可以看出,在兩個(gè)數(shù)據(jù)集上該模型的初始準(zhǔn)確率和最終準(zhǔn)確率均比MobileNetV2網(wǎng)絡(luò)模型高;由于模型的初始學(xué)習(xí)率為0.001,在迭代初期曲線的波動(dòng)較大,但隨著迭代次數(shù)的增加,曲線的波動(dòng)比基礎(chǔ)網(wǎng)絡(luò)MobileNetV2小,由此可看出本文模型的性能要優(yōu)于MobileNetV2網(wǎng)絡(luò).
圖8、圖9是本文方法在UCM數(shù)據(jù)集和RSSCN7數(shù)據(jù)集上的混淆矩陣.由圖8可知,建筑物、中型住宅、稀疏住宅、網(wǎng)球場(chǎng)4個(gè)類別的分類精度略低于數(shù)據(jù)集整體精度,主要原因是這些類別的圖像具有復(fù)雜的特點(diǎn),并且建筑物、中型住宅、稀疏住宅的場(chǎng)景內(nèi)容存在很強(qiáng)的相似性,從而導(dǎo)致了較高的誤分率.其中建筑物類別中分類錯(cuò)誤的圖像被誤分類為移動(dòng)房屋、儲(chǔ)油罐和網(wǎng)球場(chǎng).由圖9可知,工業(yè)和江流湖泊的分類精度較低.工業(yè)類別中誤分入居民區(qū)類別的占工業(yè)類別錯(cuò)分總數(shù)的51.51%.江流湖泊類別中多數(shù)被誤分為森林和草地兩類,主要是因?yàn)榻骱磁c森林、草地兩類含有相似的紋理結(jié)構(gòu)信息.
2.5 消融實(shí)驗(yàn)
為了評(píng)估模型的性能,本文進(jìn)行了一系列消融實(shí)驗(yàn).在消融實(shí)驗(yàn)中,主要以模型在測(cè)試集中的分類精度為指標(biāo),消融實(shí)驗(yàn)包括Atrous空間金字塔池化(ASPP)模塊、雙分支特征融合結(jié)構(gòu)和CBAM注意力機(jī)制模塊.通過逐一調(diào)整模型的結(jié)構(gòu),來驗(yàn)證它們對(duì)模型性能的影響.
根據(jù)表 3、圖10所示實(shí)驗(yàn)結(jié)果,可以得出以下結(jié)論:在保證實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置一致的情況下,具有雙分支特征融合結(jié)構(gòu)時(shí)模型的分類精度可達(dá)95.24%,與基礎(chǔ)網(wǎng)絡(luò)MobileNetV2相比提升了2.38%,主要原因是特征融合可以獲取圖像不同程度的細(xì)節(jié)特征,使得上下層語義信息更加緊密,進(jìn)而有效提升模型分類精度.當(dāng)淺層特征融合分支中嵌入Atrous空間金字塔池化(ASPP)模塊時(shí)分類精度可達(dá)95.71%,深層特征融合分支添加CBAM注意力機(jī)制模塊時(shí)分類精度可達(dá)95.48%,說明兩個(gè)模塊對(duì)模型的分類精度在不同程度上都有所貢獻(xiàn).而本文所提的方法分類精度可達(dá)96.43%,說明有效融合不同模塊可以進(jìn)一步提升模型的分類性能.
2.6 不同注意力機(jī)制對(duì)比
為了研究常用的注意力機(jī)制(SE-Net、SC-SENet、CA-Net、SPANet)以及CBAM對(duì)模型性能的影響,將嵌入深層特征融合分支的CBAM注意力機(jī)制模塊分別替換為上述的注意力機(jī)制,使用兩個(gè)數(shù)據(jù)集上的分類精度進(jìn)行比較,其實(shí)驗(yàn)結(jié)果如表 4所示.從表中可以看出,本文所采用的CBAM顯著提升了模型對(duì)關(guān)鍵信息的捕捉能力,主要表現(xiàn)在兩個(gè)數(shù)據(jù)集上的性能和穩(wěn)定性都比其他同類注意力機(jī)制有所提高.然而在UCM數(shù)據(jù)集中CA-Net的分類精度優(yōu)于本文方法,但是網(wǎng)絡(luò)的泛化能力較差,在RSSCN7數(shù)據(jù)集上未取得較好的分類效果.總之,就性能和泛化能力而言,本文方法所采用的CBAM注意力機(jī)制優(yōu)于其他的注意力機(jī)制.
2.7 與經(jīng)典算法對(duì)比分析
為了驗(yàn)證所提模型的性能,將本文方法與一些經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)和基于CNN的方法進(jìn)行比較.UCM和RSSCN7數(shù)據(jù)集的結(jié)果分別如表5和表6所示.文獻(xiàn)[16]提出了一種基于Siamese CNN的旋轉(zhuǎn)不變特征學(xué)習(xí)和聯(lián)合決策(R.D)的分類方法,在訓(xùn)練樣本為80%的UCM數(shù)據(jù)集上本文方法的分類精度比該方法高1.67%.在相同訓(xùn)練比率下本文方法比文獻(xiàn)[17]中所使用的ResNet50分類精度高2.16%.文獻(xiàn)[18]針對(duì)遙感圖像中場(chǎng)景類型復(fù)雜多樣、背景復(fù)雜的問題采用一種基于完全交叉模式和Fisher向量的多分辨率塊特征(MRBF)分類方法.與MRBF相比較,本文方法在UCM數(shù)據(jù)集中以80%的樣本進(jìn)行訓(xùn)練時(shí),分類精度提升了2.24%.與傳統(tǒng)的GoogLeNet網(wǎng)絡(luò)進(jìn)行對(duì)比,本文方法在UCM數(shù)據(jù)集和RSSCN7數(shù)據(jù)集上的分類精度分別提升2.12%和5.23%.由表 5、表 6可以看出,本文利用ASPP模塊和CBAM模塊增強(qiáng)了模型的特征表達(dá)能力,融合互補(bǔ)低級(jí)特征和高級(jí)語義信息,極大地提高了分類精度.
3 結(jié)論
本文提出了一種基于MobileNetV2的多層次雙分支特征增強(qiáng)與融合的場(chǎng)景分類方法.利用Atrous空間金字塔池化(ASPP)模塊和CBAM注意力機(jī)制模塊捕獲淺層多尺度特征和深層抽象語義信息以提升模型的特征表達(dá)能力.通過融合高分辨率低級(jí)特征和低分辨率高級(jí)語義信息,有效解決了遙感場(chǎng)景分類中主體目標(biāo)不清晰、易于與背景混雜的問題.在UCM數(shù)據(jù)集和RSSCN7數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,提出的方法有效提高了場(chǎng)景分類的精度.
參考文獻(xiàn)
[1] Guanzhou C,Xiaodong Z,Xiaoliang T,et al.Training small networks for scene classification of remote sensing images via knowledge distillation[J].Remote Sensing,2018,10(5):719-739.
[2]Gong Z,Zhong P,Yu Y,et al.Diversity-promoting deep structural metric learning for remote sensing scene classification[J].IEEE Transactions on Geoscience and Remote Sensing,2017,56(1):371-390.
[3]Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutio-ns[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston:IEEE,2015:1-9.
[4]He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:770-778.
[5]Weng Q,Mao Z,Lin J,et al.Land-use classification via extreme learning classifier based on deep convolutional features[J].IEEE Geoscience and Remote Sensing Letters,2017,14(5):704-708.
[6]宋中山,彭 丹,鄭 祿,等.基于改進(jìn)密集連接網(wǎng)絡(luò)的遙感圖像場(chǎng)景分類[J].激光雜志,2023,44(10):71-78.
[7]Woo S,Park J,Lee J Y,et al.CBAM:Convolutional block attention module[C]//European Conference on Computer Vision.Munich:Springer Nature Switzerland,2018:3-19.
[8]Liu Y,Liu Y,Ding L.Scene classification based on two-stage deep feature fusion[J].IEEE Geoscience and Remote Sensing Letters,2017,15(2):183-186.
[9]王 威,孫鈺潔,王 新.頻率和空間特征融合的輕量級(jí)多尺度遙感圖像場(chǎng)景分類網(wǎng)絡(luò)[J/OL].吉林大學(xué)學(xué)報(bào)(工學(xué)版),1-11[2025-03-26].https://doi.org/10.13229/j.cnki.jdxbgxb.20240054.
[10] Muhammad U,Wang W,Chattha S P,et al.Pre-trained VGGNet architecture for remote-sensing image scene classification[C]//2018 24th International Conference on Pattern Recognition (ICPR).Beijing:IEEE,2018:1 622-1 627.
[11]Shi J,Liu W,Shan H,et al.Remote sensing scene classification based on multibranch fusion attention network[J].IEEE Geoscience and Remote Sensing Letters,2023,20:1-5.
[12]Ma C,Mu X,Sha D.Multi-layers feature fusion of convolutional neural network for scene classification of remote sensing[J].IEEE Access,2019,7:121 685-121 694.
[13]Lu X,Ji W,Li X,et al.Bidirectional adaptive feature fusion for remote sensing scene classification[J].Neurocomputing,2019,328:135-146.
[14]Yang Y,Newsam S.Bag-of-visual-words and spatial extensions for land-use classification[C]//18th SIGSPATIAL International Conference on Advances in Geographic Information Systems.New York:Association for Computing Machinery,2010:270-279.
[15]Zou Q,Ni L,Zhang T,et al.Deep learning based feature selection for remote sensing scene classification[J].IEEE Geoscience and Remote Sensing Letters,2015,12(11):2 321-2 325.
[16]Zhou Y,Liu X,Zhao J,et al.Remote sensing scene classification based on rotation-invariant feature learning and joint decision making[J].Eurasip Journal on Image and Video Processing,2019(1):1-11.
[17]Liu X,Zhou Y,Zhao J,et al.Siamese convolutional neural networks for remote sensing scene classification[J].IEEE Geoscience and Remote Sensing Letters,2019,16(8):1 200-1 204.
[18]Wang C,Lin W,Tang P.Multiple resolution block feature for remote-sensing scene classification[J].International Journal of Remote Sensing,2019,40(18):6 884-6 904.
[19]Yan P,He F,Yang Y,et al.Semi-supervised representation learning for remote sensing image classification based on generative adversarial networks[J].IEEE Access,2020,8:54 135-54 144.
[20]Xia G S,Hu J,Hu F,et al.AID:A benchmark data set for performance evaluation of aerial scene classification[J].IEEE Transactions on Geoscience and Remote Sensing,2017,55(7):3 965-3 981.
[21]王李祺,高 翔,程 蓉,等.基于注意卷積模塊的遙感圖像場(chǎng)景分類應(yīng)用[J].陜西科技大學(xué)學(xué)報(bào),2023,41(2):199-206.
【責(zé)任編輯:陳 佳】