







摘" 要:遙感圖像變化檢測技術(shù)作為一項重要的應(yīng)用型技術(shù),在地表變化監(jiān)測領(lǐng)域有著廣泛的應(yīng)用。針對目前多數(shù)特征提取網(wǎng)絡(luò)無法兼顧空間信息與語義信息的問題,以殘差網(wǎng)絡(luò)為基礎(chǔ),提出一種用于遙感圖像變化檢測的特征提取結(jié)構(gòu)——CDResNet。使用該結(jié)構(gòu)對不同時間的遙感圖像進(jìn)行特征提取,可以平衡所提取特征圖中的空間信息和語義信息,還可以更準(zhǔn)確地識別和定位圖像中的變化區(qū)域。兩個公共數(shù)據(jù)集上的實驗驗證了所提方法的魯棒性和精確性。
關(guān)鍵詞:遙感圖像;變化檢測;特征提取;網(wǎng)絡(luò)架構(gòu)
中圖分類號:TP391.4;TP18 文獻(xiàn)標(biāo)識碼:A" 文章編號:2096-4706(2024)11-0040-05
Improvement of Feature Extraction Network Structure for
Remote Sensing Image Change Detection
WANG Haozhen, YANG Lei, ZHANG Chuangye
(School of Information and Communication Engineering, Zhongyuan University of Technology, Zhengzhou" 450007, China)
Abstract: Remote sensing image change detection technology, as an important applied technology, has a wide range of applications in the field of surface change monitoring. Aiming at the problem that most current feature extraction networks cannot balance spatial and semantic information, a feature extraction structure called CDResNet is proposed for remote sensing image change detection based on residual networks. Using this structure for feature extraction of remote sensing images at different times can balance the spatial information and semantic information in the extracted feature maps, and more accurately identify and locate the changing regions in the image. The robustness and accuracy of the proposed method are validated through experiments on two public datasets.
Keywords: remote sensing image; change detection; feature extraction; network architecture
0" 引" 言
遙感圖像變化檢測通過比較同一空間在不同時間拍攝的圖像,獲取地物變化信息,在農(nóng)業(yè)調(diào)查、土地利用等領(lǐng)域廣泛應(yīng)用[1,2]。卷積神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的識別能力,能夠從每幅圖像中提取關(guān)鍵的語義特征,從而判斷當(dāng)前區(qū)域是否發(fā)生變化。但是,要精確定位到發(fā)生變化的區(qū)域,則需要充足的空間信息[3]。然而,目前多數(shù)特征提取網(wǎng)絡(luò)主干是在圖像分類任務(wù)的主干上剪枝得到的,這類主干采用多次下采樣操作,以獲取在圖像分類任務(wù)中至關(guān)重要的語義信息。該操作雖然獲取了語義信息,但也損失了空間信息,這樣的設(shè)計不利于變化檢測性能的提升[4]。
針對當(dāng)前基于深度學(xué)習(xí)的變化檢測方法所采用的特征提取網(wǎng)絡(luò)均為通用網(wǎng)絡(luò)的現(xiàn)狀,提出了一種專用于遙感圖像變化檢測的特征提取結(jié)構(gòu)——CDResNet。
1" 常用的特征提取網(wǎng)絡(luò)結(jié)構(gòu)
1.1" VGG架構(gòu)
VGG網(wǎng)絡(luò)是一種具有較深結(jié)構(gòu)的深度學(xué)習(xí)算法,用于圖像分類任務(wù)。VGG網(wǎng)絡(luò)在ImageNet挑戰(zhàn)賽中取得優(yōu)異成績,這主要歸功于其網(wǎng)絡(luò)深度的增加[5]。VGG網(wǎng)絡(luò)采用的3×3的小卷積核,這有利于提升網(wǎng)絡(luò)的非線性表達(dá)能力,避免參數(shù)過多導(dǎo)致過擬合。VGG的輸入通常為三通道圖像,輸出為一維向量,向量中單個元素值為當(dāng)前圖像是某一類別的概率。為了使其適用于變化檢測任務(wù)刪去了全連接層,使其輸出變成通道數(shù)為512,大小為8×8的張量。
1.2" ResNet架構(gòu)
深度殘差網(wǎng)絡(luò)(Deep Residual Network, ResNet)通過引入殘差結(jié)構(gòu)來簡化學(xué)習(xí)過程,使之面對更為復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)時仍然具有良好的優(yōu)化能力[6]。常用的ResNet有18層結(jié)構(gòu)、34層結(jié)構(gòu)以及50層結(jié)構(gòu)。為增加變化檢測精度,此處選取ResNet50為特征提取網(wǎng)絡(luò),其結(jié)構(gòu)如圖1所示,其中fc為全連接層,avg為平均池化層。ResNet通過由多個卷積層及恒等映射共同構(gòu)成的“殘差塊”來進(jìn)行殘差關(guān)系的學(xué)習(xí)。在18層和34層中使用的殘差塊叫作BasicBlock。在50層以上的ResNet中叫作BottleNeck,在ResNet50中,共包含4個層級的BottleNeck。在與上一級BottleNeck相連的第一個殘差塊中使用Conv分支來調(diào)整通道數(shù),而其他殘差塊使用shortcut分支進(jìn)行恒等映射。若當(dāng)前BottleNeck需要下采樣時,該BottleNeck的第一個殘差塊的Conv分支將卷積的步距設(shè)為2進(jìn)行下采樣。殘差學(xué)習(xí)范式使得學(xué)習(xí)過程更加簡潔,并解決了梯度消失、梯度爆炸等問題。原始ResNet的輸出為一維向量,為了適用于變化檢測任務(wù),去除了其為分類任務(wù)設(shè)置的全連接層。最終的輸出張量為2 048×8×8。
2" CDResNet網(wǎng)絡(luò)結(jié)構(gòu)
遙感圖像與生活中普通圖像的特征存在一些顯著的差異。遙感圖像通常具有更大的尺寸,因此包含更多的細(xì)節(jié)信息,而且數(shù)據(jù)量也通常比普通圖像大得多[4]。但由于遙感圖像成像距離被觀測對象較遠(yuǎn),因此空間分辨率不會特別高,例如常見的遙感圖像中僅能辨析出建筑、道路和汽車等較大的物體。而普通圖像往往具有更高的空間分辨率,圖像中往往會出現(xiàn)更多的小目標(biāo)。同時遙感圖像中通常包含目標(biāo)信息和大量的背景信息,例如地形、土地覆蓋等,而普通圖像可能更多地聚焦于人物、物體等,故背景信息較少。因此,在對遙感圖像進(jìn)行特征提取時可能需要考慮如何有效地區(qū)分目標(biāo)和背景,防止背景信息干擾目標(biāo)信息,這同樣依賴充裕的空間與語義信息。
針對經(jīng)典特征提取網(wǎng)絡(luò)在遙感圖像變化檢測領(lǐng)域的不足,結(jié)合遙感圖像的特點。在ResNet的基礎(chǔ)上,設(shè)計了專用于遙感圖像變化檢測的特征提取網(wǎng)絡(luò)——CDResNet。CDResNet網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。所提出的網(wǎng)絡(luò)與ResNet的最大區(qū)別在最后一級Bottleneck中。為了在得到語義信息的同時,保留足夠的空間信息,從而準(zhǔn)確地定位出發(fā)生變化的區(qū)域,CDResNet取消了最后一個殘差塊中的下采樣操作,并且用間隔為1的空洞卷積層(Atrous Convolution, AConv)代替普通卷積層。在對遙感圖像特征提取過程中,圖像被送入CDResNet后先經(jīng)過7×7卷積層,接下來通過批歸一化層(Batch Normalization, BN)和線性激活單元(Rectified Linear Unit, ReLU),最后使用最大池化下采樣完成對圖像的預(yù)處理。然后經(jīng)處理后的遙感數(shù)據(jù)經(jīng)過三個普通的BottleNeck進(jìn)行特征提取得到1 024×16×16的特征圖,最后,經(jīng)過所改進(jìn)帶有空洞卷積的BottleNeck進(jìn)一步處理后,得到2 048×16×16帶有豐富空間和語義信息的特征圖。
3" 實驗過程與結(jié)果分析
在本節(jié)中,將詳述驗證所提出模型有效性的過程。首先,介紹了實驗數(shù)據(jù)集,包括CDD數(shù)據(jù)集和WHU數(shù)據(jù)集。然后,詳述了實驗實施的細(xì)節(jié),包括實驗設(shè)置以及評估指標(biāo)。隨后,對兩個公共數(shù)據(jù)集的實驗結(jié)果進(jìn)行了定量分析。
3.1" 數(shù)據(jù)集介紹
3.1.1" CDD數(shù)據(jù)集
Change Detection Dataset(CDD)數(shù)據(jù)集由Lebedev等人在2018年提出,該數(shù)據(jù)集空間分辨率在0.03到1米/像素之間[7]。其由11對多光譜圖像構(gòu)成,其中7對不同季節(jié)的4 725×2 200的圖像。包含無位移的合成圖像、微小位移合成圖像和不同季節(jié)真實遙感圖像三種數(shù)據(jù)。本文使用了其中真實遙感數(shù)據(jù),大小為256×256像素,包含16 000對雙時相遙感圖像,其中10 000對用于算法訓(xùn)練,3 000對用于驗證樣本,另外3 000對用作測試樣本。圖3為CDD數(shù)據(jù)集示例。
3.1.2" WHU數(shù)據(jù)集
WHU數(shù)據(jù)集由武漢大學(xué)提出,以建筑物的變化為重點,包括了約22 000座建筑物[8]。數(shù)據(jù)集中包含了2012年和2016年的兩張航拍遙感RGB圖像,每張圖像的空間分辨率為0.075米/像素,裁剪成7 620個256×256像素的遙感圖像塊。數(shù)據(jù)集被分為6 096個訓(xùn)練集、762個驗證集和762個測試集,以便于進(jìn)行網(wǎng)絡(luò)訓(xùn)練、驗證和評估。WHU數(shù)據(jù)集為建筑物變化檢測研究提供了重要的資源和平臺,但由于存在光照和陰影等噪聲,也對網(wǎng)絡(luò)的處理能力提出了挑戰(zhàn)。圖4為WHU數(shù)據(jù)集示。
3.2" 實驗環(huán)境
本次試驗環(huán)境設(shè)定如下:利用Ubuntu 20.04.6 LTS操作系統(tǒng)作為平臺,在PyTorch深度學(xué)習(xí)框架下用Python語言編寫算法。在模型的訓(xùn)練及測試時,利用了一臺裝備了兩塊NVIDIA RTX 2080 Ti顯卡的服務(wù)器完成。訓(xùn)練采用Adam優(yōu)化算法、動量設(shè)置為0.9,將模型在所有數(shù)據(jù)集上的初始學(xué)習(xí)率皆調(diào)整至0.000 1。每個數(shù)據(jù)集的訓(xùn)練周期設(shè)定為300個Epoch。對于CDD數(shù)據(jù)集來說,選取單個批次大小為4;至于WHU選取的批次大小則為2,以確保能夠達(dá)到網(wǎng)絡(luò)精度與內(nèi)存容量之間的平衡。模型訓(xùn)練過程如圖5所示,訓(xùn)練數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò),通過網(wǎng)絡(luò)前向傳播過程,得到輸出結(jié)果并與標(biāo)簽進(jìn)行比較,以衡量結(jié)果與標(biāo)簽的差異。接下來利用反向傳播算法,得到網(wǎng)絡(luò)參數(shù)梯度。最后使用優(yōu)化算法根據(jù)反向傳播得到的參數(shù)梯度更新神經(jīng)網(wǎng)絡(luò)的參數(shù),至此便完成了一個訓(xùn)練周期。
3.3" 模型評價指標(biāo)
變化檢測是確定像素的變化和未變化,可以看作是一個二分類問題。在實驗中使用的評價指標(biāo)有召回率(recall, R)、精確率(precision, P)、總體準(zhǔn)確率(overall accuracy, OA)、F1分?jǐn)?shù)(F1-score, F1)、變化區(qū)域交并比(Changed areas Intersection over Union, cIoU)、不變區(qū)域交并比(Unchanged areas Intersection over Union, ucIoU)和平均交并比(Mean Intersection over Union, mIoU)[9]。這些指標(biāo)數(shù)值越大,模型效果越好。這些指標(biāo)的計算公式如下:
其中,TP(True Positive)代表正確檢測到改變的像素點的數(shù)量,TN(True Negative)代表正確檢測到無改變的像素點的數(shù)量,F(xiàn)N(False Negative)代表實際發(fā)生改變但未被檢測到改變的像素點數(shù)量,F(xiàn)P(False Positive)代表實際上沒有改變但被檢測為發(fā)生改變的像素數(shù)量。
3.4" 實驗結(jié)果與分析
在CDD和WHU數(shù)據(jù)集上,使用兩種變化檢測方法進(jìn)行比較,并進(jìn)行結(jié)果的定量分析。為確保結(jié)果的準(zhǔn)確和公平,用相同的訓(xùn)練、驗證集來訓(xùn)練所有模型,并采用相同的測試集進(jìn)行測試[10]。每種方法在每個數(shù)據(jù)集上的評估結(jié)果如表1所示。
3.4.1" 在WHU數(shù)據(jù)集上的對比
不同方法在WHU數(shù)據(jù)集上的定量結(jié)果如表1所示。從表中可以得出,所提出的方法在OA、F1、Precision、cIoU、ucIoU和mIoU上均取得了最佳的性能,分別達(dá)到了98.81%、86.02%、77.99%、75.47%、98.77%和87.12%。盡管所提出的方法的Recall指標(biāo)較差,但這是為平衡Precision而造成的。在綜合評價Recall和Precision的F1指標(biāo)上,本文的方法仍然取得了最好的成績。
3.4.2" 在CDD數(shù)據(jù)集上的對比
CDD與WHU數(shù)據(jù)集不同,CDD數(shù)據(jù)集包含多種變化類型而不僅針對建筑的變化。因此其負(fù)樣本(未變化類像素)和正樣本(變化類像素)的不均衡率更低,變化檢測難度更低。在CDD數(shù)據(jù)集上所提出方法在cIoU與F1這兩個重要指標(biāo)上,有較大幅度領(lǐng)先,在整體精度上有小幅度領(lǐng)先。不同主干在CDD數(shù)據(jù)集的性能表現(xiàn)如表2所示。
4" 結(jié)" 論
當(dāng)前主流的特征提取網(wǎng)絡(luò)結(jié)構(gòu)主要基于圖像分類任務(wù)設(shè)計,這種設(shè)計雖然有利于獲取豐富的語義信息,但損失了空間信息,影響了變化檢測性能的提升。為了解決這一問題,本文提出了一種專用于遙感圖像變化檢測的特征提取結(jié)構(gòu)——CDResNet。該結(jié)構(gòu)在保持語義信息提取能力的同時,兼顧了圖像中的空間信息,實現(xiàn)了對變化區(qū)域的精確定位。實驗結(jié)果表明,CDResNet在遙感圖像變化檢測任務(wù)中具有優(yōu)異的性能,相較于主流方法,能夠更準(zhǔn)確地檢測出變化區(qū)域。未來的研究方向可以進(jìn)一步探索和改進(jìn)CDResNet結(jié)構(gòu),結(jié)合遷移學(xué)習(xí)、注意力機(jī)制等,進(jìn)一步提高變化檢測的準(zhǔn)確性。
參考文獻(xiàn):
[1] WEN D W,HUANG X,BOVOLO F,et al. Change Detection From Very-High-Spatial-Resolution Optical Remote Sensing Images: Methods, Applications, and Future Directions [J].IEEE Geoscience and Remote Sensing Magazine,2021,9(4):68–101.
[2] JIANG H W,PENG M,ZHONG Y J,et al. A Survey on Deep Learning-Based Change Detection from High-Resolution Remote Sensing Images [J].Remote Sensing,2022,14(7):1552-1552.
[3] SHAFIQUE A,CAO G,KHAN Z,et al. Deep Learning-Based Change Detection in Remote Sensing Images: A Review [J].Remote Sensing,2022,14(4):871-871.
[4] SHI W Z,ZHANG M,ZHANG R,et al. Change Detection Based on Artificial Intelligence: State-of-the-Art and Challenges [J].Remote Sensing,2020,12(10):1688-1688.
[5] SIMONYAN K,ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition [J/OL].arXiv:1409.1556 [cs.CV].[2023-09-06].https://arxiv.org/abs/1409.1556.
[6] HE K M,ZHANG X Y,REN S Q,et al. Deep Residual Learning for Image Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:770-778.
[7] LEBEDEV M A,VIZILTER Y V,VYGOLOV O V,et al. Change Detection in Remote Sensing Images Using Conditional Adversarial Networks [J].The International Archives of the Photogrammetry,Remote Sensing and Spatial Information Sciences,2018,XLII-2:565-571.
[8] JI S P,WEI S Q,LU M. Fully Convolutional Networks for Multisource Building Extraction From an Open Aerial and Satellite Imagery Data Set [J].IEEE Transactions on Geoscience and Remote Sensing,2019,57(1):574-586.
[9] 簡玉琳.針對不平衡數(shù)據(jù)集分類問題關(guān)鍵技術(shù)及其應(yīng)用研究 [D].成都:電子科技大學(xué),2021.
[10] LI Q Y,ZHONG R F,DU X,et al. TransUNetCD: A Hybrid Transformer Network for Change Detection in Optical Remote-Sensing Images [J].IEEE Transactions on Geoscience and Remote Sensing,2022,60:1-19.
作者簡介:王浩震(1997—),男,漢族,河南鶴壁人,碩士研究生在讀,主要研究方向:計算機(jī)視覺、深度學(xué)習(xí);楊蕾(1979—),女,回族,河南洛陽人,教授,博士,主要研究方向:圖像處理、計算機(jī)視覺;張創(chuàng)業(yè)(1998—),男,漢族,河南周口人,碩士研究生在讀,主要研究方向:計算機(jī)視覺、深度學(xué)習(xí)。
收稿日期:2024-03-11
基金項目:中原科技創(chuàng)新領(lǐng)軍人才(214200510013);校內(nèi)重大項目成果培育計劃(K2020ZDPY02)