陳德海 潘韋馳 丁博文 黃艷國
(江西理工大學(xué)電氣工程及自動化學(xué)院 江西 贛州 341000)
目前全球?qū)Φ赜^測系統(tǒng)(EarthObservingSystem,EOS)的快速發(fā)展,使得大量的遙感影像數(shù)據(jù)成為人類了解地球信息的重要信息來源,從而導(dǎo)致影像數(shù)據(jù)中所包含的空間信息越來越豐富,影像分辨率越來越高,使得影像場景中復(fù)雜的語義信息難以提取。而這些信息在城市規(guī)劃、自然災(zāi)害中有著不可或缺的作用。此外,類內(nèi)差異性和類間相似性等問題的存在對遙感影像場景分類帶來了巨大的挑戰(zhàn)。雖然目前有許多研究方法被提出[1-4],但大部分的方法是基于圖像的低、中層特征,因此在遙感影像場景樣本有限甚至沒有的情況下,如何有效地提取遙感影像場景的高層語義特征,并研究出能有效提升大規(guī)模遙感影像場景分類性能的方法是目前遙感信息領(lǐng)域亟待解決的問題。
近幾年,深度學(xué)習(xí)因其強(qiáng)大的學(xué)習(xí)能力被應(yīng)用到諸多領(lǐng)域[5-7],同時也被不少學(xué)者應(yīng)用于遙感影像場景分類[8-13]中,取得了不錯的效果。然而,在使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行遙感影像場景分類時,通常只是單一地通過堆疊卷積層來提取遙感影像場景的高層特征,由于遙感影像中存在著復(fù)雜的空間特征信息,使得遙感影像在場景分類中分類精度不理想。文獻(xiàn)[14]利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行場景分類,同時在訓(xùn)練過程中通過整合額外的光譜信息計算出深度特征,進(jìn)而可以進(jìn)行高分辨率遙感圖像中建筑物以及非建筑物的識別。文獻(xiàn)[15]針對遙感場景分類,分析了三種卷積神經(jīng)網(wǎng)絡(luò)策略用以提高分類精度,降低訓(xùn)練參數(shù)。文獻(xiàn)[16]通過聯(lián)合顯著性采樣和卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行遙感場景分類,但對于類內(nèi)差異性和類間相似性等問題,顯著性算法無法識別。遙感影像場景分類的域適應(yīng)方法在近幾年也有學(xué)者進(jìn)行研究[17-20],其在域適應(yīng)問題上的特點(diǎn)在于:其一,源域與目標(biāo)域遙感影像場景特征空間分布不同;其二,遙感影像場景中含有的特征復(fù)雜,也就意味著需要大量的遙感影像場景樣本支持。
針對上述情況,本文提出了一種重校準(zhǔn)特征融合對抗域適應(yīng)的分類方法,該方法首先將SEblock嵌入VggNet16中學(xué)習(xí)遙感影像場景的細(xì)粒度特征,然后利用對抗域適應(yīng)方法減少源域和目標(biāo)域遙感影像場景的特征差異,提高模型對目標(biāo)域遙感影像場景的分類精度以及泛化能力。實(shí)驗中構(gòu)建一個大型遙感影像場景數(shù)據(jù)集作為源域并利用UCMerced_LandUse和SIRI-WHU兩個通用數(shù)據(jù)集作為目標(biāo)域,用來驗證本文方法的有效性。
文獻(xiàn)[21]通過研究網(wǎng)絡(luò)結(jié)構(gòu)中通道之間的關(guān)系,提出一種新的結(jié)構(gòu)單元——縮聚與激發(fā)模塊(SqueezeandExcitationblock)。其目標(biāo)是通過卷積特征通道之間的相互依賴性來提高網(wǎng)絡(luò)生成的特征圖的質(zhì)量,允許網(wǎng)絡(luò)執(zhí)行特征重新校準(zhǔn)。通過該機(jī)制,它可以學(xué)習(xí)使用全局信息來選擇性地強(qiáng)調(diào)有效的信息特征并抑制干擾特征。SEblock分為3個步驟。首先通過縮聚操作用全局平均池化(GAP)將輸入的特征圖進(jìn)行統(tǒng)計求和,獲取全局信息。具體公式如下:
式中:Z∈RC,H、W表示特征圖的高度和寬度;Zc表示經(jīng)過全局平均池化后特征圖的集合。
其次,使用激發(fā)操作捕獲通道之間的依賴性,對縮聚操作中的特征圖進(jìn)行處理。具體公式如下:
s=σ(W2δ(W1z))

最后,進(jìn)行對特征的重校準(zhǔn)操作,公式如下:
yc=Fscale(uc,sc)=sc·uc
式中:yc表示經(jīng)過重校準(zhǔn)后的二維矩陣。通過將特征圖uc與權(quán)重sc相乘,得到第c個通道的輸出矩陣yc。
生成式對抗模型GANs(Generative adversarial networks)是Goodfellow等[22]提出的一種深度學(xué)習(xí)框架,其在圖像處理和計算機(jī)視覺領(lǐng)域中的應(yīng)用尤為成熟。GANs的核心思想來源于博弈論,由生成器G與判別器D組成。生成器從圖像的特征分布采樣出隨機(jī)噪聲并輸入到生成器中,產(chǎn)生生成樣本,然后通過判別器辨別樣本的真實(shí)性,生成器和判別器二者進(jìn)行相互對抗更新迭代,使生成器能夠擬合真實(shí)樣本的特征。GANs的實(shí)質(zhì)是一個極大極小博弈(minimax game)優(yōu)化問題,其數(shù)學(xué)描述如下:
Ez~pz(z)[log(1-D(G(z)))]
式中:x表示來自真實(shí)樣本Pdata(x)中的真實(shí)圖像;z表示來自采樣噪聲Pz(z)中的向量;E為數(shù)學(xué)期望值;D(x)表示數(shù)據(jù)通過判別器D后的輸出;G(z)表示生成的圖像。通過訓(xùn)練判別器D以盡可能地去分配真實(shí)樣本與生成器G中生成樣本的標(biāo)簽,同時訓(xùn)練生成器G以最小化log(1-D(G(z))),即最大化判別器的損失值。
在給定生成器G的條件下,需要極小化V(G,D)來求得最優(yōu)解。可將V(G,D)寫成積分形式:

式中:pdata(x)與pg(x)分別是真實(shí)樣本與生成樣本的概率密度函數(shù)。此時求解上式的極小值。解的最優(yōu)解如下所示:

2·JS(pdata(x)‖pg(x))-2log2
由上述推導(dǎo)可知,極大極小博弈問題此時已轉(zhuǎn)化為真實(shí)樣本與生成樣本分布之間的JS散度問題,當(dāng)pdata(x)=pg(x)時,模型達(dá)到最優(yōu)。所以,以V(G,D)作為損失函數(shù),最終G(z)的輸出將趨近于真實(shí)樣本分布。為此,本文將對抗學(xué)習(xí)方法引入到遙感影像場景分類的對抗域適應(yīng)中,最小化源域遙感影像場景和目標(biāo)域遙感影像場景的特征分布差異。
對抗域適應(yīng)方法需要對源域影像特征與目標(biāo)域影像特征進(jìn)行差異性訓(xùn)練,而遙感影像具有地理特征復(fù)雜、空間信息豐富等特點(diǎn),往往忽略了一些細(xì)粒度特征,增加場景分類的難度,而僅通過單一的堆疊卷積層,無法獲得遙感影像場景的重要特征,從而導(dǎo)致分類不精確。因此受到SE block啟發(fā),通過將SE block嵌入到VggNet中,提高SE block提取有效遙感場景影像特征抑制場景中干擾特征的效果,提高網(wǎng)絡(luò)提取影響場景細(xì)粒度特征的能力。網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計如圖1所示。

圖1 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計
網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計步驟為:在每個Vgg block的卷積變換之后嵌入SE block,對每個遙感場景特征通道的信息進(jìn)行權(quán)重自動分配;通過Scale操作加權(quán)到最初遙感場景特征圖中,以增強(qiáng)整個模型的分類性能。
通過該結(jié)構(gòu),既可以學(xué)習(xí)影像場景的全局信息,獲得遙感場景特征的健壯性表示,還可以根據(jù)每個特征通道的重要程度去增強(qiáng)有效特征權(quán)重并抑制干擾特征權(quán)重,從而實(shí)現(xiàn)特征通道的自適應(yīng)校準(zhǔn),提高遙感影像場景的分類精度,使得對抗域適應(yīng)方法訓(xùn)練得到的差異性特征更加有效。


圖2 本文總體框架
對于源域遙感影像場景部分,訓(xùn)練過程中本文使用標(biāo)準(zhǔn)監(jiān)督損失函數(shù),公式如下:
式中:Xs表示源域的遙感影像場景數(shù)據(jù)集;Ys表示數(shù)據(jù)集的標(biāo)簽;Ms表示源域的特征映射;C表示為源域分類器。Ⅱ[·]是一個指示函數(shù),取值規(guī)則為:[表達(dá)式為真]=1,[表達(dá)式為假]=0。
為了最小化源域與目標(biāo)域遙感影像場景特征差異,判別數(shù)據(jù)點(diǎn)來自于源域還是目標(biāo)域。在對抗域適應(yīng)中,判別器D與最小化特征映射M的損失函數(shù)如下式所示:
Ext~Xt[logD(Mt(Xt))]
式中:Xt為目標(biāo)域遙感影像場景;Mt為目標(biāo)域的特征映射;D為判別器。在對抗域適應(yīng)階段,主要目的是正則化SE-VggNet提取到的源域與目標(biāo)域的遙感影像場景特征,然后最小化兩者的映射分布,通過源域分類器C對目標(biāo)域特征進(jìn)行分類。判別網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。

表1 判別網(wǎng)絡(luò)結(jié)構(gòu)
目前還未有公開適用于對抗域方法的數(shù)據(jù)集,因此需要一個大型的源域數(shù)據(jù)集。本文的源域數(shù)據(jù)集由RSI-CB256[23]與NWPU-RESISC45[24]構(gòu)成。RSI-CB256數(shù)據(jù)集利用眾包的OSM的POI數(shù)據(jù)標(biāo)注了全球范圍內(nèi)的大規(guī)模遙感影像,該數(shù)據(jù)集包含35類影像場景,共36 000幅圖片,每類約為690幅,數(shù)據(jù)來源于Google Earth和Bing Maps,空間分辨率為0.22~3 m。NWPU-RESISC45數(shù)據(jù)集包含45類場景圖片,每類700幅,與RSI-CB256數(shù)據(jù)集相比只有14個類別是重復(fù)的,其余31個類別是不重復(fù)的,該數(shù)據(jù)集分辨率為0.2~30 m。以上2種數(shù)據(jù)集共同構(gòu)成本文的源域數(shù)據(jù)集,總計67 500幅,影像場景,所有影像場景統(tǒng)一尺寸為224×224,部分影像場景示例如圖3所示。

沙漠 高爾夫球場 海港 森林圖3 源域數(shù)據(jù)集部分示例
實(shí)驗數(shù)據(jù)集1為UCMerced_LandUse data set(University of California Merced Land-Use data set),選自美國地質(zhì)勘探局國家城市地圖航空遙感影像。數(shù)據(jù)集含有停車場、森林、高爾夫球場等21類影像場景,每類含有100幅尺寸為256×256的遙感影像,空間分辨率為0.3 m,部分圖像示例如圖4所示。

農(nóng)田 飛機(jī) 棒球場 海灘圖4 UCMerced_LandUse數(shù)據(jù)集部分示例
實(shí)驗數(shù)據(jù)集2為SIRI-WHU數(shù)據(jù)集,選自Google Earth遙感影像數(shù)據(jù),共12類,每類包含200幅尺寸為200×200的遙感場景影像,空間分辨率為2 m,部分圖像示例如圖5所示。

工業(yè)區(qū) 商業(yè)區(qū) 海港 居民區(qū)圖5 SIRI-WHU數(shù)據(jù)集部分示例
本文實(shí)驗在Tensorflow框架下進(jìn)行,硬件環(huán)境為Amazon EC2的P2.xlarge實(shí)例,該實(shí)例的GPU型號為Nvidia Tesla K80。
實(shí)驗采用3個指標(biāo)用于評價本文方法的分類性能:總體分類精度、混淆矩陣、Kappa系數(shù)。
總體分類精度定義為:
式中:N代表總體樣本數(shù)量;S代表分類正確的樣本數(shù)量。
混淆矩陣用于評估各類遙感影像場景之間的混淆程度,矩陣的行和列分別代表真實(shí)與預(yù)測的遙感場景,矩陣中任意一個元素xij代表將第i種遙感場景預(yù)測為第j種遙感場景的數(shù)量占該類別總數(shù)的比例。
Kappa系數(shù)由混淆矩陣計算得出,公式如下:
式中:N為總體樣本數(shù);K為遙感影像場景類別數(shù);xii是混淆矩陣的對角元素;ai是該矩陣第i行元素總和;bi是該矩陣第i列元素總和。
UCM_LandUse數(shù)據(jù)集實(shí)驗結(jié)果如圖6所示,總體分類精度為89.45%,Kappa系數(shù)為0.882。從混淆矩陣可以看出21類遙感影像場景,18類場景分類精度能達(dá)到84%以上,其中10類場景分類精度能達(dá)到95%以上。由于農(nóng)田與高爾夫球場包含植被、土地等特征信息,導(dǎo)致分類精度僅有81%和82%,而由于密集住宅區(qū)包含大量的空間特征信息,如建筑物、街道等,易與其他場景影像產(chǎn)生特征交叉容易產(chǎn)生混淆,導(dǎo)致分類精度僅有51%,但大部分影像場景分類精度較高,表明本文方法能夠有效減少源域和目標(biāo)域遙感影像場景的特征差異并且能夠提高對于目標(biāo)域遙感影像場景數(shù)據(jù)集的分類精度。

圖6 UCM_LandUse數(shù)據(jù)集混淆矩陣
SIRI-WHU數(shù)據(jù)集實(shí)驗結(jié)果如圖7所示,總體分類精度為98.12%,Kappa系數(shù)為0.978。由混淆矩陣可以看出12類遙感影像場景的分類精度均在95%以上,其中農(nóng)田、商業(yè)區(qū)、水源場景達(dá)到了100%的分類精度,立交橋與池塘場景的分類精度與其他場景相比分類精度較低,分別為95%與96%,但總體上表明本文方法對該數(shù)據(jù)集的分類性能好,能夠有效克服源域和目標(biāo)域遙感影像場景的特征分布問題。UCM_LandUse數(shù)據(jù)集與SIRI-WHU數(shù)據(jù)集相比分類精度較低,主要是因為居民區(qū)場景的特征相似程度高以及農(nóng)田與高爾夫球場存在特征相似的情況,容易使模型產(chǎn)生混淆。綜上所述,本文針對遙感影像場景分類提出的結(jié)合校準(zhǔn)特征與對抗域適應(yīng)的方法分類精度高,能夠有效解決源域和目標(biāo)域遙感影像場景特征分布不同導(dǎo)致目標(biāo)域數(shù)據(jù)集分類精度較低的問題。

圖7 SIRI-WHU數(shù)據(jù)集混淆矩陣
為了進(jìn)一步說明方法的有效性,將本文方法與現(xiàn)有方法進(jìn)行對比分析。對比的方法有:(1) Source Only利用源域數(shù)據(jù)集和卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)場景影像的特征,利用該特征直接對目標(biāo)域數(shù)據(jù)進(jìn)行分類,不使用對抗域適應(yīng)方法;(2) MMD[25]使用MMD損失函數(shù)最小化源域和目標(biāo)域的特征分布差異,使用最后一個全連接層輸出計算MMD損失;(3) DANN[26]利用對抗學(xué)習(xí)方法最小化源域與目標(biāo)域的特征分布,在域分類器之前加入了一個梯度反轉(zhuǎn)層。各方法精度如表2所示。

表2 各方法分類精度 %
由表2可知,在UCM_LandUse和SIRI-WHU中,本文方法的分類精度要優(yōu)于其他方法,與MMD方法相比分類精度提高了6.01%和3.29%,與DANN方法相比分類精度提高了6.58%和4.29%。結(jié)果表明,結(jié)合校準(zhǔn)特征的對抗域適應(yīng)方法在遙感影像場景分類上有明顯的優(yōu)勢,具有較好的分類性能,同時對于不同數(shù)據(jù)集有較高的泛化能力。
本文提出結(jié)合校準(zhǔn)特征與對抗域適應(yīng)的遙感影像場景分類方法,利用在VggNet16中嵌入SE block進(jìn)行特征重校準(zhǔn),提高有效特征權(quán)重并抑制干擾特征權(quán)重,使得網(wǎng)絡(luò)訓(xùn)練出更能體現(xiàn)遙感影像場景的有效特征,然后利用對抗域適應(yīng)方法降低源域與目標(biāo)域遙感影像場景特征差異并實(shí)現(xiàn)遙感影像場景分類。在兩種公開數(shù)據(jù)集UCM_LandUse和SIRI-WHU上的實(shí)驗表明,本文方法可提取到遙感影像場景的有效特征,相較于其他方法在分類精度和泛化能力上有明顯的優(yōu)勢,也為未來的無監(jiān)督分類方法提供了一種新的思路。