劉春容, 寧 芊,2*, 雷印杰, 陳炳才
(1.四川大學(xué)電子信息學(xué)院, 成都 610065; 2.新疆師范大學(xué)物理與電子工程學(xué)院, 烏魯木齊 830054; 3.大連理工大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院, 大連 116024)
隨著遙感技術(shù)的飛速發(fā)展,獲取大量高分辨率的遙感圖像越來越容易,這些高質(zhì)量的遙感圖像在實際生產(chǎn)生活中有著廣泛的應(yīng)用,如精細(xì)農(nóng)業(yè)、森林火災(zāi)檢測、城市規(guī)劃[1]等。高分辨率遙感圖像包含了非常豐富的地物紋理信息和空間語義信息,如何將大量的遙感圖像進(jìn)行準(zhǔn)確分類是遙感圖像解析的重要研究內(nèi)容。
遙感圖像場景分類方法根據(jù)特征提取的層次可分為低層特征處理和中層特征處理兩大類方法。低層特征通常采用場景圖像的顏色[2]、方向梯度[3]、密度特征[4]、特征點[5]、變換域的紋理[6]等進(jìn)行描述。這些低層特征不能很好地對中層語義進(jìn)行描述,難以跨越低層到高層語義的鴻溝,泛化能力差。目前遙感圖像分類算法主要集中于中層語義特征建模,如視覺詞袋(bag of visual words,BoVW)模型[7]、空間金字塔匹配(spatial pyramid matching,SPM)模型[8]、概率潛在語義分析(probabilistic latent sementic analysis,pLSA)模型[9]等方法,雖然這些方法能一定程度地縮小低層到高層語義的鴻溝,但其對圖像深層特征的提取和場景的尺度變化缺乏有效的處理措施,難以在復(fù)雜場景分類中取得較高精度。
近年來隨著深度學(xué)習(xí)的快速發(fā)展,以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度神經(jīng)網(wǎng)絡(luò)[10]在圖像識別、自然語言處理等領(lǐng)域中取得了較好的結(jié)果,也有不少研究人員將其應(yīng)用到遙感圖像場景分類任務(wù)中[11]。經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型有VGG[12](visual geometry group)、AlexNet[13]、GoogleNet[14]、ResNet[15]等。Tianshun Z[16]等對AlexNet模型進(jìn)行了改進(jìn),將改進(jìn)后的模型與遷移學(xué)習(xí)結(jié)合進(jìn)行遙感圖像分類實驗,在不增加訓(xùn)練時間的同時提升了分類精度。Muhammad[17]等選擇預(yù)訓(xùn)練的VGGNet作為深度特征提取器,采用典型相關(guān)分析對不同層的特征進(jìn)行融合,該方法在遙感圖像場景分類任務(wù)中取得了較好的結(jié)果。Li等[18]提出了一種自適應(yīng)多尺度深度融合殘差網(wǎng)絡(luò),自適應(yīng)特征融合模塊通過學(xué)習(xí)權(quán)值來突出有用信息,有效地抑制了無用信息。王改華等[19]提出了一種基于多分辨率和殘差注意力機(jī)制相結(jié)合的圖像分類模型,通過在DenseNet網(wǎng)絡(luò)稠密塊中添加多分辨率因子來控制瓶頸層層數(shù),此外還在模型中引入了殘差注意力機(jī)制,能有效地從大量信息中篩選出少量重要的信息。張桐等[20]提出了一種深度多分支特征融合網(wǎng)絡(luò)的方法進(jìn)行遙感圖像場景分類,利用多分支網(wǎng)絡(luò)結(jié)構(gòu)提取中、高、低三個層次的特征信息,將三個層次的特征進(jìn)行基于拆分-融合-聚合的分組融合,提升了模型的表征能力。王雨瀅[21]等提出一種深度學(xué)習(xí)和支持向量機(jī)相結(jié)合的圖像分類模型,基于實際圖像改進(jìn)卷積神經(jīng)網(wǎng)絡(luò),并提取訓(xùn)練集的圖像特征,通過使用訓(xùn)練集的深度特征來訓(xùn)練支持向量機(jī)(support vector machine, SVM)分類器。史文旭[22]等提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)的多尺度方法結(jié)合反卷積網(wǎng)絡(luò)的特征提取算法并對腺癌病理圖像進(jìn)行分類,利用反卷積操作實現(xiàn)不同尺度特征的融合,然后利用Inception結(jié)構(gòu)不同尺度卷積核提取多尺度特征,最后通過Softmax方法對圖像進(jìn)行分類。藍(lán)潔等[23]提出一種基于跨層精簡雙線性池化的深度卷積神經(jīng)網(wǎng)絡(luò)模型,首先根據(jù)Tensor Sketch算法計算出多組來自不同卷積層的精簡雙線性特征向量,然后將歸一化后的特征向量級聯(lián)送至softmax分類器,最后引入成對混淆對交叉熵?fù)p失函數(shù)進(jìn)行正則化以優(yōu)化網(wǎng)絡(luò)。
正如上述所言,越來越多的深度學(xué)習(xí)方法被運用到遙感圖像分類任務(wù)中,這些方法與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比有了很大提升,但針對遙感圖像空間信息復(fù)雜,圖像中關(guān)鍵物體小并且尺度變化大等問題,這些方法還不能夠?qū)b感圖像信息進(jìn)行很好的描述。同時隨著神經(jīng)網(wǎng)絡(luò)的加深,網(wǎng)絡(luò)變得更加復(fù)雜和難以訓(xùn)練,導(dǎo)致分類準(zhǔn)確率飽和甚至下降。
針對上述問題,提出一種改進(jìn)的ResNet50網(wǎng)絡(luò)模型,在殘差塊中引入分組卷積和可分離卷積,以減少網(wǎng)絡(luò)的參數(shù)量和計算量,加速模型的收斂。同時在每一個大的卷積組后嵌入多尺度縮聚與激發(fā)模塊(squeeze and excitation block, SE block),將不同尺度的特征進(jìn)行融合,提高通道間的依賴性,并以此進(jìn)行模型訓(xùn)練,以驗證本文方法對遙感圖像的分類有效性。
隨著深度神經(jīng)網(wǎng)絡(luò)層數(shù)的不斷增加,網(wǎng)絡(luò)的學(xué)習(xí)能力越來越強,但相對的網(wǎng)絡(luò)的收斂速度會減慢,梯度在傳播過程中會消失,導(dǎo)致無法對前面網(wǎng)絡(luò)層的權(quán)重進(jìn)行有效調(diào)整。傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)中除了第一層外,每一層的輸入都來源于上一層的輸出,而殘差神經(jīng)網(wǎng)絡(luò)采用跳躍式結(jié)構(gòu),使得深度殘差網(wǎng)絡(luò)可以越過中間幾層直接將參數(shù)傳遞給后面的層,降低了網(wǎng)絡(luò)的復(fù)雜度,解決了深層次網(wǎng)絡(luò)的退化問題,促進(jìn)了網(wǎng)絡(luò)性能的提升。
殘差神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,該網(wǎng)絡(luò)借鑒了高速網(wǎng)絡(luò)的跨層連接思想。在圖1所示的殘差單元結(jié)構(gòu)中,x為網(wǎng)絡(luò)的輸入,H(x)為最優(yōu)解映射,F(xiàn)(x)代表殘差項,直接把輸入x傳到輸出作為初始結(jié)果,輸出H(x)=F(x)+x,當(dāng)F(x)=0時,H(x)=x,即恒等于映射。殘差神經(jīng)網(wǎng)絡(luò)的訓(xùn)練目標(biāo)就是要使得殘差項F(x)=H(x)-x的結(jié)果逼近于0。讓網(wǎng)絡(luò)學(xué)習(xí)F(x)=0相比于更新該網(wǎng)絡(luò)的參數(shù)來學(xué)習(xí)H(x)=x更簡單,該層學(xué)習(xí)F(x)=0的更新參數(shù)能夠更快收斂。該種結(jié)構(gòu)的殘差網(wǎng)絡(luò)與沒有采用跳躍式結(jié)構(gòu)的網(wǎng)絡(luò)模型相比,其輸入的數(shù)據(jù)更加清晰,能最大程度的保留數(shù)據(jù)的準(zhǔn)確性。

圖1 殘差網(wǎng)絡(luò)單元示意圖
分組卷積最早在AlexNet中出現(xiàn),由于計算資源有限,通常將卷積操作分配給多個圖形處理器(graphics processing unit,GPU)分別進(jìn)行處理,最后將多個GPU的結(jié)果進(jìn)行融合。分組卷積的原理如圖2所示,假設(shè)輸入尺寸為H×W×C,卷積核的個數(shù)為N,大小為k×k,將輸入特征圖分為G個組,在圖2中G=2,則每一組的輸入特征圖數(shù)量為C/G,每組的卷積核個數(shù)為N/G,每組卷積核只與其所對應(yīng)組的輸入進(jìn)行卷積。

圖2 分組卷積
對于普通卷積來說,卷積核的總參數(shù)量為
p1=k×k×N×C
(1)
分組卷積所對應(yīng)的卷積核參數(shù)總量為
p2=k×k×(N/G)×(C/G)×G
(2)
從計算結(jié)果可以看出,經(jīng)過分組卷積可將總參數(shù)量降為原來的1/G,其用少量的參數(shù)量和計算量就能產(chǎn)生大量的特征圖。
深度可分離卷積分為深度卷積(depthwise convolution)和逐點卷積(pointwise convolution)兩個過程,在進(jìn)行卷積操作時將通道和空間區(qū)域分開考慮,對于不同的輸入通道采取不同的卷積核進(jìn)行卷積。深度卷積過程如圖3所示,假設(shè)輸入大小為H×W×C,C為通道數(shù),在圖3中C=3。假設(shè)卷積核個數(shù)為m,大小為k×k×1。則在深度卷積中,將輸入分為了C組,每一組做k×k×1的卷積,每一個卷積核只提取其所在通道的空間特征。

圖3 深度卷積
逐點卷積的原理如圖4所示,其將經(jīng)過逐通道卷積后的特征做m個普通的1×1卷積,經(jīng)過逐通道卷積核逐點卷積后的輸出為H×W×m。

圖4 逐點卷積
對于普通卷積來說,在相同參數(shù)設(shè)置的情況下輸出為H×W×C,其計算量為
p=H×W×C×m×k×k
(3)
深度卷積的計算量為
p1=H×W×C×k×k
(4)
逐點卷積的計算量為
p2=H×W×C×m
(5)
則深度可分離卷積相當(dāng)于將普通卷積的計算量壓縮為

(6)
從上述計算結(jié)果可以看出,深度可分離卷積相比于普通卷積,在深度一樣的情況下大大減少了模型的計算量。
SENet(squeeze and excitation networks)是一種輕量級的網(wǎng)絡(luò)結(jié)構(gòu),它通過對特征通道間的依賴關(guān)系進(jìn)行建模來獲取每個特征通道的重要程度,然后依照這個重要程度提升有用的特征通道并抑制對當(dāng)前任務(wù)不重要的特征。SENet對輸入特征進(jìn)行Squeeze和Excitation兩個重要的操作,通過Squeeze操作對輸入的每個通道進(jìn)行全局平均池化得到通道描述子,Excitation操作利用兩層全連層為每個通道生成權(quán)重,最后將Excitation的輸出權(quán)重與先前特征進(jìn)行重新加權(quán),完成在通道維度上對原始特征的校準(zhǔn)。
殘差神經(jīng)網(wǎng)絡(luò)由多個bottleneck block殘差塊和convolution block殘差塊堆疊構(gòu)成。bottleneck殘差塊的主路徑包含三個卷積層,第一部分1×1的卷積核用于減少特征通道的數(shù)量;第二部分3×3的卷積核用于進(jìn)行特征的提取,同時減少了參數(shù)的數(shù)量;第三部分的1×1卷積核可以保證輸出通道數(shù)等于輸入通道數(shù),在保證數(shù)據(jù)可靠性的同時增加了網(wǎng)絡(luò)的深度,可以對數(shù)據(jù)進(jìn)行充分的提取,進(jìn)而提高模型的性能。同時殘差塊中引入了BN(batch normalization)算法,加快了網(wǎng)絡(luò)的收斂。convlution殘差塊結(jié)構(gòu)與bottleneck殘差塊結(jié)構(gòu)相似,區(qū)別之處在于其分支上增加了一個1×1的卷積層,用于調(diào)整輸入特征的尺寸。
對殘差神經(jīng)單元進(jìn)行了改進(jìn),改進(jìn)后的bottleneck block和convolution block結(jié)構(gòu)分別如圖5、圖6所示。

圖5 改進(jìn)后bottleneck block結(jié)構(gòu)(SGBB)

圖6 改進(jìn)后convolution block結(jié)構(gòu)(SGCB)
bottleneck block中第一部分和第二部分的普通卷積替換為深度可分離卷積,第三部分普通卷積替換為分組數(shù)為2的分組卷積。convolution block中的第一部分保持不變,第二部分卷積采用深度可分離卷積,第三部分卷積采用分組數(shù)為2的分組卷積,分支上的卷積保持不變。改進(jìn)后的殘差塊大大減少了整個網(wǎng)絡(luò)的參數(shù)量和計算量,加快了網(wǎng)絡(luò)的收斂,在通道數(shù)不變的情況下加強了模型的特征提取能力。
在常規(guī)SE block中的全局平均池化前先對輸入分別做1×1和3×3的卷積,將兩組卷積結(jié)果相連接,再進(jìn)行Squeeze和Excitation操作。其結(jié)構(gòu)如圖7所示。多尺度SE block有效地將不同尺度的特征進(jìn)行融合, 通過全連層和非線性激活層得到多尺度特征圖的權(quán)重,然后將學(xué)習(xí)得到的權(quán)重與輸入特征圖相乘,通過對通道特征的重校準(zhǔn)提升了有效特征的權(quán)重,增強了網(wǎng)絡(luò)的特征表達(dá)能力,使得遙感圖像場景分類精度得到提升。

圖7 多尺度SE block(MSEB)
采用ResNet50作為基礎(chǔ)模型,其bottleneck block和convolution block分別使用上文所對應(yīng)的改進(jìn)結(jié)構(gòu),即SGBB和SGCB,本文中對網(wǎng)絡(luò)的層數(shù)進(jìn)行了調(diào)整,在conv3_x和conv4_x上分別去掉了1個和3個bottleneck block殘差塊,由于分組卷積和深度可分離卷積的引入,大大減少了網(wǎng)絡(luò)的參數(shù)量和計算量,有利于加快模型的收斂。同時在每一個大的卷積組后嵌入多尺度SE模塊(MSEB),自動獲取每個遙感圖像特征通道的重要程度,有效增強有用特征,抑制用處不大的特征,進(jìn)一步提升了網(wǎng)絡(luò)的性能和泛化能力。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示。

圖8 本文網(wǎng)絡(luò)結(jié)構(gòu)
實驗數(shù)據(jù)集1為航空圖像數(shù)據(jù)集(aerial image dataset, AID[24]),該數(shù)據(jù)集由華中科技大學(xué)與武漢大學(xué)聯(lián)合制作并于2017年發(fā)布,其中包含機(jī)場、森林、學(xué)校等30類遙感場景圖像,每類遙感圖像的樣本數(shù)量為200~420張不等,尺寸均為600×600像素,該數(shù)據(jù)集共計10 000張圖像。各類圖像部分示例如圖9所示。

圖9 AID數(shù)據(jù)集部分場景圖像
實驗數(shù)據(jù)集2為UCMerced_Land Use(UCMLU)[25]數(shù)據(jù)集,選自美國地質(zhì)調(diào)查局國家城市地圖航空遙感圖像,包含建筑、飛機(jī)、棒球場、海灘等21類遙感場景圖像,每類包含100張大小為256×256像素的圖像,該數(shù)據(jù)集共計2 100副圖像,空間分辨率為0.3 m,各類圖像部分示例如圖10所示。

圖10 UCMLU數(shù)據(jù)集部分場景圖像
在以上兩個數(shù)據(jù)集中,分別從每類遙感場景圖像中隨機(jī)選取80%的圖像作為訓(xùn)練數(shù)據(jù)集,剩余20%的圖像作為測試數(shù)據(jù)集。同時為了達(dá)到更好的測試效果,對兩個數(shù)據(jù)集都采用在線數(shù)據(jù)增強的方式進(jìn)行數(shù)據(jù)集擴(kuò)充,增強方式包括隨機(jī)旋轉(zhuǎn)、隨機(jī)縮放、隨機(jī)裁剪、垂直變換等操作,并將所有圖像尺寸統(tǒng)一為256×256像素大小。
本文中采用Adam優(yōu)化器對模型進(jìn)行優(yōu)化訓(xùn)練,初始學(xué)習(xí)率設(shè)置為0.001,當(dāng)測試集的損失值持續(xù)5個epoch不再下降時,將學(xué)習(xí)率調(diào)整為原來的0.1倍,學(xué)習(xí)率的最小值設(shè)置為0.000 01。更小的batch_size有助于增強模型的泛化能力,將batch_size設(shè)置為20,網(wǎng)絡(luò)一共經(jīng)過100個epoch進(jìn)行充分訓(xùn)練,損失函數(shù)采用交叉熵。
本文中實驗的環(huán)境為:Windows10操作系統(tǒng),2.90 GHz Intel(R) Core(TM) i7-10700 CPU,內(nèi)存為16 GB,GPU使用NVIDIA GeForce RTX 2070,顯存為8 GB。神經(jīng)網(wǎng)絡(luò)訓(xùn)練使用keras框架。
本文中采用總體分類精度(overall accuracy)、混淆矩陣(confusion matrix)和每秒浮點運算次數(shù)(floating-point operations per second,FLOPS)這三種評價指標(biāo)對所提出方法的分類性能進(jìn)行分析評估。總體分類精度指被正確分類的樣本個數(shù)占總樣本數(shù)的比值,能夠很好地表征分類精度。混淆矩陣能更直觀地展現(xiàn)每一類場景圖像的分類準(zhǔn)確率以及該類被錯分為其他類的情況。計算量指浮點運算數(shù),可以用來衡量模型的復(fù)雜度,精度越高,計算量越小,則網(wǎng)絡(luò)的性能越好。本文中所有分類準(zhǔn)確率值均為5次獨立重復(fù)實驗結(jié)果的平均值。
3.4.1 網(wǎng)絡(luò)分組數(shù)對比實驗
為了更合理地選擇分組卷積的分組數(shù),本文將網(wǎng)絡(luò)分組數(shù)分別設(shè)置為2、4、8組進(jìn)行對比實驗,在AID和UCMLU兩個數(shù)據(jù)集上的實驗結(jié)果分別如表1所示。

表1 分組數(shù)對AID、UCMLU數(shù)據(jù)集分類精度的影響
從實驗結(jié)果可以看出,分組數(shù)為2相比分組數(shù)為4和8在兩個數(shù)據(jù)集上都能取得更高的分類精度,因此本文中將分組數(shù)設(shè)置為2。
3.4.2 AID數(shù)據(jù)集結(jié)果分析
為了分析本文改進(jìn)殘差神經(jīng)單元和引入多尺度SE block對分類精度的影響,分別對傳統(tǒng)CNN(ResNet50)、在殘差結(jié)構(gòu)引入分組卷積和可分離卷積的方法(SG_ResNet50)以及在SG_ResNet50基礎(chǔ)上嵌入多尺度SE block的方法在AID數(shù)據(jù)集上進(jìn)行了實驗。三種方法平均分類精度隨迭代次數(shù)的變化關(guān)系如圖11所示。從圖11中可以看出,使用未做任何改進(jìn)的ResNet50做全訓(xùn)練的分類精度最低;對殘差單元結(jié)構(gòu)進(jìn)行改進(jìn)后,由于引進(jìn)了分組卷積和可分離卷積,減少了網(wǎng)絡(luò)的參數(shù)和計算量,改進(jìn)后的模型SG_ResNet50比ResNet50準(zhǔn)確率增長速度更快,模型更快收斂,并且分類準(zhǔn)確率達(dá)到了90.42%,高于ResNet50準(zhǔn)確率1.88%;最后在SG_ResNet50的基礎(chǔ)上嵌入多尺度SE block,分類精度有了進(jìn)一步提升,達(dá)到了91.92%,說明多尺度SE block的引入有效地提升了模型性能。

圖11 ResNet50、SG_ResNet50、本文模型分類精度對比
表2中給出了ResNet50、SG_ResNet50、SG_ResNet50_SE和本文模型四種網(wǎng)絡(luò)結(jié)構(gòu)的性能對比,從結(jié)果可以看出,SG_ResNet50相比于ResNet50的計算量降低了60%,平均精度提升了1.88%,表明在殘差結(jié)構(gòu)中引入分組卷積和深度可分離卷積大大降低了網(wǎng)絡(luò)的計算量,同時分類準(zhǔn)確率有了較大的提升。在SG_ResNet50的基礎(chǔ)上引入多尺度SE block,在計算量幾乎不變的情況下分類精度有了進(jìn)一步提升(提升了1.5%)。同時本文模型的平均精度比SG_ResNet50_SE提高了0.6%,表明引入多尺度SE的模型效果優(yōu)于標(biāo)準(zhǔn)SE模型。

表2 AID數(shù)據(jù)集上不同模型性能對比
在測試集上進(jìn)行5次獨立重復(fù)試驗平均分類準(zhǔn)確率的混淆矩陣如圖12所示,總體平均分類準(zhǔn)確率為91.92%。由圖12可以看出,30類場景圖像中有22類的分類精度均高于90%,說明本文提出的方法對復(fù)雜場景圖像具有較好的分類性能。同時從實驗結(jié)果可以看出學(xué)校和廣場的分類精度最低,分別只有78%和67%,其中學(xué)校容易被劃分為工業(yè)區(qū)和密集住宅區(qū),廣場容易被劃分為中心區(qū)域和公園,說明本文所提出的方法對存在二義性的場景圖像分類性能還有待進(jìn)一步提高。

圖12 AID場景分類混淆矩陣
為了驗證本文方法的優(yōu)勢,將本文方法在AID數(shù)據(jù)集上的分類精度與近幾年具有代表性的幾種方法進(jìn)行對比,各方法的分類精度如表3所示。由表3可以看出,文提出方法的分類精度相比于中層特征提取方法BoVW(SIFT)提升了23.55%,相對于以深度卷積神經(jīng)網(wǎng)絡(luò)為特征提取框架的VGG-VD-16和GoogLeNet,分類精度分別提升了2.28%和5.53%。同時與未做任何改進(jìn)的ResNet50相比提升了3.38%,證明本文所提出的模型在遙感圖像場景分類中有一定優(yōu)越性。

表3 AID數(shù)據(jù)集上不同方法的平均分類準(zhǔn)確率
3.4.3 UCM數(shù)據(jù)集結(jié)果分析
為了進(jìn)一步驗證本文提出模型的有效性,在UCMLU數(shù)據(jù)集上進(jìn)行了實驗,21類場景圖像分類結(jié)果如圖13所示,總體平均分類精度達(dá)到了93.52%。由圖13可以看圖,大部分場景圖像類別分類準(zhǔn)確率在90%以上,其中農(nóng)業(yè)、棒球場、海灘等九類場景圖像的分類準(zhǔn)確率達(dá)到了100%,可見該方法對紋理差異較小的場景類別分類準(zhǔn)確率較高。
為了更加直觀地分析每一類場景圖像的分類效果,圖14給出了每一類場景分類準(zhǔn)確率柱狀圖。從圖14中可以看出仍有部分類別場景圖像分類準(zhǔn)確率較低,如高速公路和立交橋,其分類準(zhǔn)確率分別只有78%和84%。結(jié)合圖13的混淆矩陣分析可知,高速公路分類準(zhǔn)確率較低是因為其和十字路口以及立交橋的場景十分相似,易造成誤分。此外,中等密度住宅區(qū)與密集住宅區(qū)地物信息高度相似,造成部分中等密集住宅區(qū)被錯分為密集住宅區(qū)。

圖14 UCMLU每類場景圖像準(zhǔn)確率柱狀圖
UCMLU數(shù)據(jù)集上不同模型的性能對比如表4所示,可以看出本文提出的模型相比于未做任何改進(jìn)的殘差網(wǎng)絡(luò)大大降低了網(wǎng)絡(luò)的計算量,同時擁有更高的分類準(zhǔn)確率,體現(xiàn)了其強大的特征提取能力。

表4 UCMLU數(shù)據(jù)集上不同模型性能對比
表5列出了本文提出方法在UCMLU數(shù)據(jù)集上的分類精度與一些現(xiàn)有方法的對比結(jié)果,由表5可以看出,傳統(tǒng)的低中層特征提取方法如視覺詞袋(bag of visual word,BOVW)的分類精度最低,而卷積神經(jīng)網(wǎng)絡(luò)由于其強大的特征提取和學(xué)習(xí)能力,使用其進(jìn)行場景圖像分類相比于傳統(tǒng)方法有進(jìn)一步提升。而本文提出的改進(jìn)殘差網(wǎng)絡(luò)模型與以下幾種較為流行的方法相比得到了最高分類精度(93.52%),相對于直接使用ResNet50進(jìn)行分類訓(xùn)練,本文方法的分類精度提升了10.24%。

表5 UCMLU數(shù)據(jù)集上不同方法的平均分類準(zhǔn)確率
針對遙感場景圖像空間信息復(fù)雜、圖像中關(guān)鍵物體小并且尺度變化大等問題,提出一種改進(jìn)殘差網(wǎng)絡(luò)的場景圖像分類方法。該方法以殘差神經(jīng)網(wǎng)絡(luò)ResNet50為基礎(chǔ)框架,在殘差單元中引入分組卷積和可分離卷積,有效減少了網(wǎng)絡(luò)的參數(shù)量和計算量。同時引入多尺度SE block模塊,通過對多尺度特征的校準(zhǔn)提升了有效特征的權(quán)重,進(jìn)一步提升了模型的性能。在AID和UCMerced_Land Use兩個數(shù)據(jù)集上的分類精度分別達(dá)到了91.92%和93.52%,相比于常規(guī)的殘差網(wǎng)絡(luò)ResNet50分別提升了3.38%和10.24%,證明本文方法在遙感場景圖像分類上的可行性和有效性。但本文方法對地物信息及其相似的場景類別分類效果一般,如何對模型進(jìn)行改進(jìn)以適應(yīng)場景信息更豐富、規(guī)模更大的數(shù)據(jù)集是下一步研究方向。