袁小平,王小倩,何祥,胡楊明
(中國(guó)礦業(yè)大學(xué) 信息與控制工程學(xué)院,江蘇 徐州 221116)
變化檢測(cè)(change detection,CD)是遙感圖像分析中重要的研究課題之一.遙感圖像CD 是分析同一區(qū)域不同時(shí)期采集的多時(shí)相遙感影像之間變化的像素的技術(shù).該技術(shù)被廣泛應(yīng)用于土地利用、城市擴(kuò)張及災(zāi)害評(píng)估等領(lǐng)域.學(xué)者們主要采用直接比較法和分類后比較法[1-3]來實(shí)現(xiàn)像素級(jí)變化檢測(cè).以獨(dú)立的像素為檢測(cè)單元,逐個(gè)像素分析光譜差異和紋理信息并且生成差異圖,最后通過聚類分析或閾值分割的方法得到變化圖.
隨著機(jī)器學(xué)習(xí)的發(fā)展,支持向量機(jī)、隨機(jī)森林、決策樹等[4-6]方法不斷突破,也逐漸被學(xué)者們應(yīng)用于遙感影像中.由于傳統(tǒng)的地面像素分類往往會(huì)導(dǎo)致椒鹽效應(yīng),變化檢測(cè)的基本單位已經(jīng)從像素變成了對(duì)象,許多考慮到相鄰像素之間關(guān)系的方法也被引入到對(duì)象級(jí)的變化檢測(cè)中.Gu 等[7]設(shè)計(jì)了線性權(quán)重對(duì)差分圖像中的不變像素和不確定像素進(jìn)行分類,提出改進(jìn)的馬爾科夫隨機(jī)場(chǎng)方法用于變化檢測(cè).隨著深度學(xué)習(xí)在視覺領(lǐng)域的成功應(yīng)用,具有強(qiáng)大特征提取能力的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在遙感圖像中的應(yīng)用實(shí)現(xiàn)了質(zhì)的飛躍.Daudt 等[8]針對(duì)CD 任務(wù)提出FC-EF、FC-Siam-conc 和FC-Siam-diff 這3 個(gè)全卷積網(wǎng)絡(luò),以實(shí)現(xiàn)端到端的訓(xùn)練,其中FC-Siamconc 和FC-Siam-diff 是FC-EF 的孿生擴(kuò)展,更加適用于CD 的任務(wù).
基于全卷積網(wǎng)絡(luò)的CD 檢測(cè)方法大致可以分為預(yù)融合和后融合2 類.其中,預(yù)融合方法主要是將時(shí)序圖像串聯(lián)作為單分支網(wǎng)絡(luò)的輸入,然后直接生成二進(jìn)制變化圖.Peng 等[9]將配準(zhǔn)好的圖像級(jí)聯(lián)為一個(gè)整體,輸入到改進(jìn)后的Unet++網(wǎng)絡(luò)中.該方法利用全局和細(xì)粒度信息生成具有較高空間精度的預(yù)測(cè)圖,然后對(duì)不同層次的預(yù)測(cè)圖進(jìn)行融合,從而生成高精度的最終變化圖,并且在高分辨率(very high resolution, VHR)衛(wèi)星圖像上驗(yàn)證了該方法的有效性和可靠性.Peng 等[10]提出了可以在不同程度上關(guān)注空間背景信息和高低層特征之間聯(lián)系的密集卷積神經(jīng)網(wǎng)絡(luò),解決了傳統(tǒng)算法無法滿足大面積變化檢測(cè)需求的問題.與預(yù)融合的方法相比,后融合是由具有共享權(quán)重的雙分支網(wǎng)絡(luò)[11]同時(shí)對(duì)圖像進(jìn)行特征提取,然后將其映射到高維空間的特征圖進(jìn)行融合,最后通過上采樣得到變化圖.Zhang 等[12]提出密集跳躍連接網(wǎng)絡(luò),首先將雙時(shí)序圖像進(jìn)行特征提取和差值運(yùn)算,并將得到的顯示差分金字塔特征圖通過跳躍連接輸入編解碼網(wǎng)絡(luò).該網(wǎng)絡(luò)還采用了上采樣學(xué)習(xí)策略進(jìn)一步細(xì)化變化檢測(cè)的邊緣.郭海濤等[13]利用孿生殘差網(wǎng)絡(luò)作為編碼器分別提取時(shí)序圖像的特征圖,接著將特征圖輸入經(jīng)典的多尺度提取模塊即空洞空間卷積池化金字塔(atrous spatial pyramid pooling,ASPP)來進(jìn)一步提取雙分支中影像的多尺度特征并做差值,最后將特征差值圖與多尺度特征圖融合后輸入解碼器獲得檢測(cè)結(jié)果.Fang 等[14]提出基于Unet++的孿生網(wǎng)絡(luò),在特征提取部分使用普通卷積塊加殘差連接的方式充分提取影像特征,網(wǎng)絡(luò)整體使用密集連接和集成通道注意力模塊,以提高網(wǎng)絡(luò)變化檢測(cè)的性能.
眾多學(xué)者都基于預(yù)融合和后融合2 種方法進(jìn)行了有效的改進(jìn)[15-16],以適應(yīng)更加復(fù)雜的遙感圖像變化檢測(cè).基于后融合的雙分支網(wǎng)絡(luò)模型一直是雙時(shí)序遙感圖像變化檢測(cè)任務(wù)的首選[17],因此,本研究設(shè)計(jì)了一種新型的深度監(jiān)督網(wǎng)絡(luò)DSNet用于遙感圖像的CD 檢測(cè).
遙感圖像通常具有場(chǎng)景復(fù)雜、信息豐富的特點(diǎn).現(xiàn)有的大多數(shù)網(wǎng)絡(luò)在對(duì)遙感圖像進(jìn)行特征提取時(shí),沒有充分提取原始圖像信息并且忽略了不同層次間的語義關(guān)聯(lián)性,僅憑借單一模型的訓(xùn)練去匹配單個(gè)輸出,從而造成圖像的空間和光譜特征無法充分利用,導(dǎo)致變化檢測(cè)能力無法進(jìn)一步提升.針對(duì)以上問題,基于Unet++模型設(shè)計(jì)了新的端到端的編解碼網(wǎng)絡(luò)DSNet,其主要包括編碼器、解碼器和分類器,如圖1 所示,主要內(nèi)容如下.

圖1 DSNet 算法的總體結(jié)構(gòu)圖Fig.1 Overall structure of DSNet algorithm
1)編碼器部分.引入多尺度殘差模塊(MultiRes block)替代原始Unet++的普通卷積塊,將小卷積核映射的特征進(jìn)行級(jí)聯(lián), 不僅可以豐富特征語義信息,還降低了實(shí)驗(yàn)的內(nèi)存需求.
2)引入橫向輸出層完成輸出端由低級(jí)特征向高級(jí)特征聚合的深度監(jiān)督過程.通過目標(biāo)函數(shù)監(jiān)督不同上采樣分支的訓(xùn)練過程,并融合來自不同監(jiān)督層的學(xué)習(xí)信息的方式,將結(jié)果集成到高度融合分支上,減小編碼器和解碼器間的特征差異,提升遙感圖像的檢測(cè)效果.
3)高度融合分支部分.該部分重用來自上采樣過程中的特征圖,并與深度監(jiān)督的分支共享相同的隱藏層.內(nèi)部引入基于歸一化的注意力模塊(normalization-based attention module,NAM),通過批量標(biāo)準(zhǔn)化中的比例因子衡量通道信息重要性,進(jìn)一步抑制遙感圖像中的噪聲信息.在不引入任何參數(shù)量的前提下,完成知識(shí)提煉,并提高分割的精度.
編碼器部分由權(quán)值共享的孿生結(jié)構(gòu)與Unet++結(jié)合而成,其中Unet++的所有普通卷積塊均用設(shè)計(jì)的多尺度殘差模塊替代,如圖2 所示.雙時(shí)圖像Image1 和Image2 為孿生網(wǎng)絡(luò)的輸入,通過多尺度殘差模塊對(duì)輸入進(jìn)行連續(xù)的特征提取和下采樣,并將每層獲取的雙時(shí)相圖像的特征差異信息及前序節(jié)點(diǎn)的輸出串聯(lián)后作為后序所有節(jié)點(diǎn)的輸入.
從水平結(jié)構(gòu)上看,編碼器共包含5 條路徑,從上到下依次命名為L(zhǎng)1~L5.同一路徑中的卷積單元具有相同的特征輸出映射,不同路徑包含不同數(shù)量的卷積單元,L1~L5 通過卷積單元后的輸出通道數(shù)分別為32、64、128、256、512.卷積單元的輸出映射由Xi,j表示,i表示下采樣過程中第i條路徑,j表示第j個(gè)卷積單元以及跳躍連接方向.編碼器的每個(gè)節(jié)點(diǎn)輸出表達(dá)式如下:
式中:C(·) 為多尺度殘差模塊卷積運(yùn)算,D(·) 為下采樣操作,U(·) 為上采樣操作, [·] 為串聯(lián)操作.
編碼器部分作為網(wǎng)絡(luò)的主干被用于提取雙時(shí)相圖像的差異信息.淺層路徑獲取的特征圖包含豐富的紋理、顏色、邊緣等信息,而深層路徑獲取的特征圖更具有全局性,可以得到遙感圖像中的一些整體性信息.該編碼器通過密集的跳躍連接增加淺層和深層之間的特征流動(dòng)性,減少特征融合時(shí)的語義鴻溝.
2.1.1 多尺度殘差模塊 圖像特征提取的質(zhì)量對(duì)模型最終的分割效果起著決定性作用.在原始Unet++網(wǎng)絡(luò)中,每次下采樣都是通過簡(jiǎn)單的3*3卷積層提取特征,這往往會(huì)帶來以下幾個(gè)問題:遙感圖像的變化區(qū)域通常存在不規(guī)則并且大小不一的現(xiàn)象,使用單一大小的卷積核容易忽略建筑物中細(xì)節(jié)和位置信息,進(jìn)而出現(xiàn)分割邊界模糊的情況.高分辨率圖像中的建筑物相對(duì)較小, 目標(biāo)位置存在較大的差異,采用較大的卷積核提取容易造成圖像局部信息丟失,采用較小的卷積核提取則容易忽視全局信息分布,進(jìn)而出現(xiàn)目標(biāo)漏檢的情況.對(duì)建筑物的變化提取容易受到背景信息的干擾,充分提取遙感圖像中的光譜和邊界信息才能有效地區(qū)分建筑物和其他地物,進(jìn)而緩解目標(biāo)錯(cuò)檢的情況.盡可能從原始圖像中提取足夠多的信息,才能從根本上解決網(wǎng)絡(luò)無法穩(wěn)定地從雙時(shí)序圖像中區(qū)分出建筑物的變化區(qū)域的問題.
結(jié)合單尺度卷積無法滿足對(duì)高分辨率遙感圖像進(jìn)行復(fù)雜語義信息提取的問題,借鑒Inception 系列網(wǎng)絡(luò)的思想,設(shè)計(jì)非對(duì)稱的多尺度殘差模塊,來代替?zhèn)鹘y(tǒng)堆疊固定卷積層的方式,如圖3所示,具體實(shí)現(xiàn)如下.1)通過標(biāo)準(zhǔn)3 ? 3 大小的卷積層,提取出圖像的淺層信息與細(xì)節(jié)特征;2)通過1 ? 3、3 ? 1 大小的非對(duì)稱卷積層進(jìn)一步提取空間信息.非對(duì)稱卷積被證明能夠有效地增強(qiáng)網(wǎng)絡(luò)特征表達(dá)能力和魯棒性,并且相對(duì)標(biāo)準(zhǔn)卷積層可以減少一定的參數(shù)計(jì)算量.3)引入3 ? 3 大小的可分離卷積層,在二維平面上對(duì)非對(duì)稱卷積輸出的特征進(jìn)行逐通道卷積,并對(duì)得到的獨(dú)立通道在深度方向上進(jìn)行加權(quán)組合,進(jìn)而有效利用不同通道在相同空間位置上的特征信息,降低網(wǎng)絡(luò)的運(yùn)算成本.4)串聯(lián)上述3 個(gè)卷積層的輸出特征,用于提取不同尺度的語義信息.與此同時(shí),模塊中還使用了2 次1 ? 1 大小的卷積層,分別用于殘差連接和調(diào)整級(jí)聯(lián)之后的通道.5)將串聯(lián)輸出后的特征與殘差連接后的特征進(jìn)行相加,以獲得額外的空間信息.
在整個(gè)多尺度殘差模塊中,在設(shè)置濾波器數(shù)量時(shí)采用的是逐漸遞增的方式,以此來控制網(wǎng)絡(luò)的計(jì)算量和參數(shù)量,達(dá)到輕量化的效果.通過在指定位置上級(jí)聯(lián)3 ? 3 大小的卷積核,獲取到5? 5、7 ? 7 大小才具備的感受野.通過這樣的方式,不僅可以獲取到更多的圖像信息,還能有效避免內(nèi)存增加的問題.
2.1.2 橫向輸出層 編碼器的深層路徑提取到的高層次語義信息通過多次上采樣依次傳遞到淺層,而跳躍連接將雙時(shí)相圖像的差異信息直接傳輸至同一路徑的后序節(jié)點(diǎn)中.為了融合和監(jiān)督這2 部分信息,模型使用橫向輸出層,聚合來自不同路徑的低級(jí)和高級(jí)語義信息.編碼器部分對(duì)應(yīng)了4 個(gè)橫向輸出分支,分別通過每一層的最后一個(gè)輸出的特征節(jié)點(diǎn)X0,4、X1,3、X2,2、X3,1引出.如圖4所示,以L1 路徑的輸出節(jié)點(diǎn)X0,4分支為例,孿生網(wǎng)絡(luò)經(jīng)過第1 次下采樣之后獲得特征和,并通過差分運(yùn)算獲得特征差異X1,0.在密集跳躍連接中,差分特征X1,0經(jīng)過L2 路徑的上采樣與X0,0進(jìn)行融合.
通過橫向輸出層,編碼器分別構(gòu)建4 個(gè)不同尺度的特征圖X0,4、X1,3、X2,2、X3,1.對(duì)于上層路徑的輸出特征圖X0,4、X1,3,可以通過跳躍連接直接獲取雙時(shí)相差異圖的淺層細(xì)節(jié)信息如變化目標(biāo)的邊界,但是無法獲得充分的深層語義信息.深層的特征經(jīng)過逐層上采樣后語義信息容易衰減.雙時(shí)相圖像經(jīng)過多次下采樣之后,感受野逐漸增大,感受野之間重疊的區(qū)域增加,圖像信息被壓縮.對(duì)于下層路徑的輸出特征圖X2,2、X3,1,可以通過跳躍連接獲得差異圖的整體性信息如變化目標(biāo)在圖中的位置,但是無法獲得充分的細(xì)節(jié)特征.經(jīng)過多次下采樣后,上層路徑的特征圖損失很多遙感圖像底層的細(xì)節(jié)特征并且無法恢復(fù).融合和重用特征圖對(duì)于復(fù)雜變化場(chǎng)景來說尤為重要,為了有效提取小目標(biāo)和復(fù)雜目標(biāo)的變化區(qū)域,解碼器部分將不同尺度的特征圖進(jìn)行融合.
解碼器如圖5 所示,特征圖X0,4、X1,3、X2,2、X3,1經(jīng)過多尺度殘差模塊和轉(zhuǎn)置卷積操作后,分別映射至通道數(shù)均為32 的特征圖F1、F2、F3、F4.為了保證輸出的特征圖可以恢復(fù)至原圖大小,每條路徑均使用不同的上采樣率,即在轉(zhuǎn)置卷積中利用不同的步長(zhǎng)實(shí)現(xiàn)輸出的特征圖F1、F2、F3、F4維度均為256×256.多級(jí)語義特征融合有利于變化區(qū)域的提取,但是容易產(chǎn)生大量的冗余信息,因此直接對(duì)特征差異圖進(jìn)行融合將會(huì)帶來嚴(yán)重的信息干擾,須通過自動(dòng)選出權(quán)重比更大的信息來抑制語義差異、突出顯著特征.

圖5 解碼器生成的特征差異圖Fig.5 Feature difference map generated by decoder
在解碼器部分引入基于訓(xùn)練模型的歸一化注意力方法[18],利用權(quán)重的方差度量來抑制噪聲信息并突出顯著特征.主要實(shí)現(xiàn)方法如下:將不同路徑且大小相同的特征圖串聯(lián)成通道數(shù)為128 的融合特征圖Fc,先經(jīng)過批量歸一化BN,然后與權(quán)重系數(shù)Wγ相乘,最后經(jīng)過激活函數(shù)得到特征輸出F:
式中:γ 和β 分別為可學(xué)習(xí)的參數(shù); μB和 σB分別為小批量B的均值向量和標(biāo)準(zhǔn)差; ? 為一個(gè)很小的常數(shù),用來防止分母為零.
經(jīng)過解碼器,在所有尺度上都構(gòu)建了具有精確位置或細(xì)節(jié)信息的特征圖F1、F2、F3、F4及融合后且通過注意力機(jī)制的特征圖F.特征圖F1、F2包含更多的細(xì)節(jié)變化特征的檢出,有利于遙感圖像中的小建筑物變化區(qū)域的檢出;特征圖F3、F4紋理細(xì)節(jié)信息丟失嚴(yán)重,但是可以有效地抑制變化目標(biāo)區(qū)域的空洞現(xiàn)象,適用于建筑變化區(qū)域較大的目標(biāo).為了提高網(wǎng)絡(luò)的魯棒性,在分類器部分借助深度監(jiān)督的思想,設(shè)計(jì)了多尺度預(yù)測(cè)方法來提高網(wǎng)絡(luò)的分割精度,增強(qiáng)網(wǎng)絡(luò)對(duì)偽變化的檢測(cè)能力,進(jìn)而提高模型對(duì)變化區(qū)域的學(xué)習(xí)能力.深度監(jiān)督網(wǎng)絡(luò)可以對(duì)隱藏層和輸出層進(jìn)行早期監(jiān)督,以解決深度學(xué)習(xí)過程中網(wǎng)絡(luò)學(xué)習(xí)能力下降的問題.深度監(jiān)督主要是通過計(jì)算出真實(shí)標(biāo)簽和隱藏層分類器損失來實(shí)現(xiàn)對(duì)隱藏層的監(jiān)控與回傳.
如圖6 所示為深度監(jiān)督結(jié)構(gòu)圖.可以看出,整個(gè)網(wǎng)絡(luò)不僅對(duì)融合后的特征圖F進(jìn)行損失的計(jì)算,還對(duì)解碼器部分獲得的不同層次的特征圖F1、F2、F3、F4都進(jìn)行損失的計(jì)算和回傳.即F1、F2、F3、F4、F通過1 ? 1 大小的卷積層以及Softmax 激活函數(shù),分別生成二維的預(yù)測(cè)變化圖M1、M2、M3、M4、M5.最后將所有的預(yù)測(cè)變化圖分別與真實(shí)值對(duì)比計(jì)算損失,進(jìn)行有監(jiān)督訓(xùn)練.因此,分類器部分一共構(gòu)造了5 個(gè)不同深度的網(wǎng)絡(luò).將分類器獲得的M1、M2、M3、M4、M5分別與真實(shí)標(biāo)

圖6 深度監(jiān)督結(jié)構(gòu)圖Fig.6 Structure diagram of deep supervision
簽對(duì)比以計(jì)算整個(gè)網(wǎng)絡(luò)的損失:
式中:N為橫向輸出層的輸出數(shù)量,L為交叉熵?fù)p失函數(shù).
為了驗(yàn)證提出的變化檢測(cè)模型算法的有效性,實(shí)驗(yàn)選取LEVIR-CD 數(shù)據(jù)集.LEVIR-CD 是帶注釋的數(shù)據(jù)集,圖像對(duì)由專業(yè)人員進(jìn)行注釋,其中包含谷歌地球在不同季節(jié)拍攝的分辨率為0.5 m/像素的高光譜圖像.圖像時(shí)間跨度從2002 年—2018 年,來自美國(guó)德克薩斯州幾個(gè)城市的20 個(gè)不同地區(qū),主要用于識(shí)別5~14 a 重大城市變化,包含因季節(jié)和光線產(chǎn)生的大量變化信息,有助于訓(xùn)練變化檢測(cè)模型.
圖像預(yù)處理的主要目的是消除圖像中無關(guān)的信息,恢復(fù)有用真實(shí)的信息,增強(qiáng)有關(guān)信息的可檢測(cè)性和最大限度地簡(jiǎn)化數(shù)據(jù),使之更適合于模型的輸入.原始數(shù)據(jù)集共包含637 對(duì)1 024×1 024像素的圖片,通過裁剪和旋轉(zhuǎn)操作從原始圖像生成了10 192 對(duì)大小為256×256 像素的圖像,如圖7 所示.實(shí)驗(yàn)將數(shù)據(jù)集隨機(jī)分為3 個(gè)部分:70%的樣本用于訓(xùn)練、20%的樣本用于驗(yàn)證和10%的樣本用于測(cè)試.

圖7 LEVIR_CD 數(shù)據(jù)集圖像裁剪示意圖Fig.7 Schematic diagram of LEVIR_CD dataset image clipping
為了評(píng)估模型的性能,采用以下指標(biāo):召回率RE、精度PR、F1 及Kappa 系數(shù).表達(dá)式分別如下:
式中:TP、FP、TN、FN 分別為每個(gè)像素被預(yù)測(cè)為正樣本但預(yù)測(cè)是假的、被預(yù)測(cè)為正樣本且預(yù)測(cè)是真的、被預(yù)測(cè)為負(fù)樣本但預(yù)測(cè)是假的和被預(yù)測(cè)為負(fù)樣本但預(yù)測(cè)是真的.n為總像素點(diǎn);P為在給定類別分布下,真實(shí)值和預(yù)測(cè)值之間的比例;OA 為總體分類精度.
在變化檢測(cè)任務(wù)中,召回率越高表示模型發(fā)現(xiàn)更多變化像素的能力越強(qiáng),精度越高表示檢測(cè)到的變化像素越準(zhǔn)確.F1 綜合精度與召回率的結(jié)果,可以看作是模型精確率和召回率的一種調(diào)和平均,最大值為1.0,最小值為0.Kappa 系數(shù)越高表示模型變化檢測(cè)能力越強(qiáng).在DSNet 網(wǎng)絡(luò)中,訓(xùn)練周期為100 輪,批量大小設(shè)置為16,學(xué)習(xí)率采用間隔調(diào)整(StepLR),初始學(xué)習(xí)率為0.001,每10 輪衰減為原來的0.5 倍.
將所提出的方法與現(xiàn)有的基于深度學(xué)習(xí)的變化檢測(cè)方法進(jìn)行比較,不同方法的各種評(píng)價(jià)指標(biāo)的量化結(jié)果如表1 所示.表中,par 為參數(shù)量.FCEF、FC-Siam-conc 和FC-Siam-diff 是變化檢測(cè)領(lǐng)域的基礎(chǔ)模型,后兩者是Unet 的孿生拓展網(wǎng)絡(luò).由表1 可以看出,F(xiàn)C-EF 方法獲得的 F1 和Kappa 在所有對(duì)比方法中數(shù)值最低,分別為0.765 0 和0.747 8.主要原因可能是FC-EF 網(wǎng)絡(luò)使用的卷積核深度相對(duì)較小,無法充分提取圖像的高級(jí)語義信息.與FC-EF 相比,F(xiàn)C-Siam-conc 和FC-Siam-diff 使用的基于孿生網(wǎng)絡(luò)的方法在F1 數(shù)值中分別增加了7.37%和7.81%,Kappa 分別增加了7.23%和8.65%,共享權(quán)重的孿生編碼器是帶來改進(jìn)的主要因素.基于差分連接的雙分支網(wǎng)絡(luò)性能FC-Siam-diff 要優(yōu)于直接融合的FC-Siam-conc 網(wǎng)絡(luò),因?yàn)檫B接操作可能會(huì)增加冗余信息.DASNet 網(wǎng)絡(luò)與FC-Siamdiff 相比,F(xiàn)1 和Kappa 均提升了2.2%.在基于對(duì)比損失的孿生網(wǎng)絡(luò)中,DASNet 利用雙重注意力機(jī)制提升了特征的辨識(shí)度,能更好地用于變化檢測(cè).IFN方法使用vgg16 作為編碼器,并且提出多層次深度監(jiān)督和注意力機(jī)制來提高CD 的準(zhǔn)確率.SNUNet-C32 通過編碼器和解碼器之間緊密的信息傳輸和用于深度監(jiān)控的集成通道注意力模塊細(xì)化不同語義層次的代表性特征,最終實(shí)現(xiàn)更加準(zhǔn)確的分類效果.

表1 LEVIR 數(shù)據(jù)集上不同網(wǎng)絡(luò)的變化檢測(cè)結(jié)果Tab.1 Change detection results of different networks on LEVIR dataset
提出的CD 方法借鑒上述方法的優(yōu)點(diǎn),在復(fù)雜場(chǎng)景的變化檢測(cè)中獲得了優(yōu)異的性能.與性能最優(yōu)的SNUNet-C32 方法相比,除了Kappa 略低,其他指標(biāo)均優(yōu)于SNUNet-C32 的.所提模型利用多分辨率模塊提取多尺度的語義信息,并將提取到的細(xì)粒度差異和定位信息傳輸給深度監(jiān)督層,改進(jìn)變化目標(biāo)的邊緣和小目標(biāo)的檢測(cè).高度融合部分結(jié)合不同尺度的特征圖并利用通道注意力進(jìn)一步提高網(wǎng)絡(luò)對(duì)目標(biāo)尺度變化的魯棒性.由表1 可以看出所提網(wǎng)絡(luò)的參數(shù)量低于大部分的檢測(cè)網(wǎng)絡(luò)的.
對(duì)與本研究特征提取部分有著類似改進(jìn)的經(jīng)典網(wǎng)絡(luò)進(jìn)行對(duì)比分析.如圖8 所示為DifUnet++[12]、Sima-DeepLabV3+[13]、SNUNet-C32[14]及所提DSNet 網(wǎng)絡(luò)的F1 結(jié)果,實(shí)驗(yàn)表明所提算法的性能最好.Sima-DeepLabV3+的網(wǎng)絡(luò)利用不同采樣率的空洞卷積進(jìn)行特征提取,可以較好地獲得原始圖像的多尺度信息,但是只對(duì)某一個(gè)深度的時(shí)序特征圖進(jìn)行差值運(yùn)算,無法較好的突出變化目標(biāo)在特征圖中的信息.DifUnet++和SNUNet-C32 沒有使用多尺度特征提取模塊,但通過密集跳躍連接同時(shí)構(gòu)建了淺層和深層的特征差異圖,增強(qiáng)了網(wǎng)絡(luò)對(duì)大小不同目標(biāo)的魯棒性,可以較好地檢測(cè)出大、中、小及復(fù)雜場(chǎng)景中的建筑物變化圖,進(jìn)而提升檢測(cè)精度.本研究算法結(jié)合了上述網(wǎng)絡(luò)的優(yōu)點(diǎn),利用多尺度殘差模塊和密集跳躍連接,在充分提取原始圖像信息的同時(shí)針對(duì)每層路徑的特點(diǎn)構(gòu)建了相應(yīng)的特征差異圖且利用跳躍連接傳輸給解碼器部分,實(shí)現(xiàn)了更好的檢測(cè)結(jié)果.

圖8 不同模型的F1 值Fig.8 F1 values of different models
為了更直觀地評(píng)估DSNet 的性能,進(jìn)一步可視化表1 中具有代表性網(wǎng)絡(luò)在數(shù)據(jù)集LEVIR 上的不同分割結(jié)果圖,如圖9 所示.該實(shí)驗(yàn)一共選取4 組典型的航空?qǐng)鼍皥D,主要涉及大、中、小目標(biāo)場(chǎng)景及不同光照引起的前后時(shí)期圖像差異較大的場(chǎng)景圖,圖中用圓圈和正方形標(biāo)識(shí)出局部的分割細(xì)節(jié),便于觀察和比較.

圖9 不同方法在LEVIR 數(shù)據(jù)集上的建筑物提取結(jié)果Fig.9 Building extraction results of different methods on LEVIR dataset
如圖9(a)和(b)所示,對(duì)于大目標(biāo)和中目標(biāo)場(chǎng)景,所提方法相較于其他模型,沒有出現(xiàn)漏檢、錯(cuò)檢和邊緣模糊的情況,主要是由于所提的多尺度殘差模塊充分提取原始圖像的紋理和光譜信息,結(jié)合編碼器部分的差值運(yùn)算和跳躍連接,直接獲取了雙時(shí)相圖像之間的差異信息,可以較好地識(shí)別變化不明顯的區(qū)域,尤其是建筑物顏色和土地顏色相近的情況.如圖9(c)所示,對(duì)于大目標(biāo)和小目標(biāo)共存的復(fù)雜場(chǎng)景,其他模型可以較好地提取大目標(biāo),但是無法完整地檢測(cè)出小目標(biāo),原因是模型沒有從多層次上構(gòu)建和融合上下文信息,而所提算法在分類器部分通過深度監(jiān)督的思想促使解碼器生成更具辨識(shí)性的淺層和深層特征,還利用特征融合進(jìn)一步獲取具有精確定位和豐富語義的特征圖,提高模型對(duì)不同大小目標(biāo)變化檢測(cè)的魯棒性.如圖9(d)所示,前后時(shí)期的圖像光照差異較大,在變化檢測(cè)時(shí)須特別關(guān)注一些偽變化,對(duì)比其他模型,所提算法通過引入注意力機(jī)制對(duì)融合后的特征圖重新進(jìn)行權(quán)重分配,消除部分冗余的噪聲信息,強(qiáng)調(diào)目標(biāo)對(duì)象的重要信息,進(jìn)而使得網(wǎng)絡(luò)可以最大程度地克服不同光照或者氣候的無關(guān)變化對(duì)模型的影響.綜上,所提方法可以捕捉到細(xì)微的變化區(qū)域,更精確和更平滑出地檢測(cè)出建筑物的輪廓和位置.
為了驗(yàn)證所提模塊的有效性,對(duì)網(wǎng)絡(luò)中的多尺度特征提取模塊和深度融合監(jiān)督層設(shè)計(jì)相關(guān)的消融實(shí)驗(yàn),在實(shí)驗(yàn)過程中超參數(shù)保持不變.表2為MultiRes block 深度融合監(jiān)督對(duì)變化檢測(cè)指標(biāo)的影響.從表2 可以看出,所提的MultiRes block將F1 提升了1.4%,說明充分提取原始圖像特征能有效地提升網(wǎng)絡(luò)的性能.深度融合監(jiān)督部分在增加少量參數(shù)量的情況下,將F1 提升了2.1%,主要原因是多層次的深度監(jiān)督結(jié)合通道注意力促使解碼器生成更顯著的變化特征表示.

表2 MultiRes block 和深度融合監(jiān)督對(duì)變化檢測(cè)指標(biāo)的影響Tab.2 Influence of MultiRes block and deep fusion supervision on change detection indicators
深度監(jiān)督網(wǎng)絡(luò)結(jié)合5 個(gè)不同層次的檢測(cè)結(jié)果,包含從低到高維度的不同差異信息和通道注意力的融合特征.為了清晰和直觀地展示深度監(jiān)督部分的功能,對(duì)深度監(jiān)督部分進(jìn)行相關(guān)的測(cè)試,測(cè)試結(jié)果如圖10 所示,De-F1、De-Fc、De-F 和DSNet 分別表示網(wǎng)絡(luò)訓(xùn)練對(duì)象為特征圖F1輸出的變化圖、特征圖F1~F4特征融合后的Fc生成的變化圖、經(jīng)過NAM 后F生成的變化圖以及加入各層深度監(jiān)督及最終網(wǎng)絡(luò)的變化圖.深度監(jiān)督的網(wǎng)絡(luò)是由每個(gè)輸出分支輸出的檢測(cè)結(jié)果共同決定的,由數(shù)據(jù)可知,網(wǎng)絡(luò)中添加的深度融合監(jiān)督策略能逐步提高檢測(cè)的性能.

圖10 不同深度監(jiān)督方式下的F1Fig.10 F1 under different depth supervision modes
如圖11 所示為所提方法和對(duì)比方法的浮巨運(yùn)算(floating point operations, FLOPs).FLOPs 可以理解為計(jì)算量,最早是由Molchanov 等[21]提出的,其后被眾多深度學(xué)習(xí)模型引入用來衡量算法的復(fù)雜度,如經(jīng)典的Ghostnet 模型[22].由圖中數(shù)值可以看出,F(xiàn)C-EF、FC-Siam-conc 和FC-Siam-diff 的參數(shù)量最少,不過性能會(huì)較差.與前3 種模型相比DASNet、IFN 和SNUNet-C32 的FLOPs 均提高很多,大于100 G,不過相應(yīng)的性能也得到提高.所提方法的FLOPs 只有60 G 并且模型性能優(yōu)于其他方法.綜上,本研究所提方法可以實(shí)現(xiàn)網(wǎng)絡(luò)性能和計(jì)算量之間的平衡.為了更方便地觀察模型的訓(xùn)練過程,在LEVIR 數(shù)據(jù)集上繪制訓(xùn)練集和驗(yàn)證集的F1 指標(biāo)變化曲線圖,如圖12 所示.

圖11 不同算法的計(jì)算量對(duì)比結(jié)果Fig.11 Comparison results of calculation amount of different algorithms

圖12 在LEVIR 上訓(xùn)練集和驗(yàn)證集的F1Fig.12 F1 of training and verification set on LEVIR dataset
本研究提出深度監(jiān)督網(wǎng)絡(luò)DSNet,用于高分辨率遙感圖像的變化檢測(cè).為了學(xué)習(xí)不同尺度的特征和語義信息,在采樣過程中引入設(shè)計(jì)好的多尺度殘差模塊來替代普通卷積層,產(chǎn)生更具分辨率的特征表示.將下采樣過程中獲得的雙時(shí)序特征差異圖通過跳躍連接傳輸給深度監(jiān)督部分,利用橫向輸出層實(shí)現(xiàn)對(duì)差異圖的直接監(jiān)督.最后利用通道注意模塊,強(qiáng)調(diào)不同尺度的特征融合后重要的變化特征并且抑制無關(guān)特征,以生成更精確的變化圖.DSNet 在LEVIR 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,相比較于Unet++網(wǎng)絡(luò),本研究提出的多尺度殘差模塊和深度融合監(jiān)督部分將會(huì)使F1 提升了4.2%.在復(fù)雜場(chǎng)景的變化檢測(cè)中,DSNet 優(yōu)于現(xiàn)有的深度學(xué)習(xí)模型,可以有效地提升網(wǎng)絡(luò)變化檢測(cè)的能力且參數(shù)量低于大部分的檢測(cè)網(wǎng)絡(luò),實(shí)現(xiàn)了網(wǎng)絡(luò)性能和計(jì)算量之間的平衡.在實(shí)際應(yīng)用中,帶標(biāo)簽的樣本要耗費(fèi)大量的人工成本,引入無監(jiān)督、半監(jiān)督或者弱監(jiān)督的分割方法是未來的研究方向.