徐勝軍,歐陽樸衍,郭學源,Khan Taha Muthar
(1.西安建筑科技大學 信息與控制工程學院,西安 710055;2.清華大學建筑設計院有限公司,北京 100084)
遙感圖像的分割是圖像分割領域中一項具有挑戰的任務。遙感圖像建筑物語義分割在國防安全、國土資源管理和土地規劃等方面有著重要的研究意義和應用價值。
遙感圖像建筑物分割的實質是通過提取有效的圖像特征,建立輸入圖像與輸出建筑物特征之間的映射關系。傳統遙感圖像分割方法[1-4]通過在特征空間的基礎上利用數學方法建立分割又模型,常用傳統方法有基于邊緣的分割方法、基于閾值的分割方法和基于區域的分割方法等。Li等[1]提出一種利用嵌入置信度的邊緣檢測器檢測邊緣信息,來提升對弱邊界的分割并有效減少遙感圖像建筑物的過度分割。Wang等[2]提出了一種基于多尺度特征區域融合和空間規則歸納的圖像特征提取方法,提升高空間分辨率遙感圖像分割精度。Deng等[3]提出了一種利用圖像的灰度直方圖確定閾值范圍的方法處理圖像,獲取遙感圖像分割結果。傳統方法分割遙感圖像過程中特征表達通常通過人工設計,對圖像表達多數為低層次特征,受多閾值選擇限制、圖像邊界信息不連續和遙感圖像空間關系應用較少等因素影響較大。
近年來,利用深度學習算法實現建筑物自動分割得到廣泛關注。與傳統方法相比,深度學習算法[5-14]可以有效克服人工目視解譯,人工勞動成本高和效率低等問題,針對具體的遙感圖像分割問題自主學習合適的圖像特征,自動建立圖像到分割目標間的映射關系。Lin等[5]提出了一種基于AlexNet[6]深度監督策略的方法來提高AlexNet遙感場景分類模型中間層的泛化能力,細化圖像特征,有效解決過擬合等問題實現遙感圖像分割目的。Wang等[7]提出了一種基于ResNet(residual network,ResNet)[8]豐富層次信息提取圖像特征的方法,充分描述遙感圖像中的豐富語義信息提升圖像分割精度。Li等[9]提出了一種基于UNet(Unity Networking,UNet)[10]的帶有收縮路徑和擴展路徑結構的深度卷積網絡模型,改進UNet結構模塊連接方式來提升遙感圖像分割精度。Yang等[11]等提出了一種基于SegNet[12]應用于遙感圖像建筑物提取的方法,實現高維特征的低維提取,解碼器網絡將低分辨率特征映射傳遞到高空間分辨率特征映射來實現遙感圖像建筑物的提取和分割。Xu等[13]提出一種基于端到端的全卷積神經網絡FCN(fully convolutional networks,FCN),將網絡通道分組,在不同任務通道上分別對圖像進行特征提取并共享特征再進行融合,提升圖像分割精度。
上述基于深度學習分割遙感圖像建筑物的幾種模型一定程度上可以提升圖像的分割效果,但對于遙感圖像中多尺度的建筑物無法完整自適應提取,建筑物邊界所提取的特征存在不清晰和丟失等現象。針對以上問題,提出一種利用膨脹卷積提取特征并多尺度特征融合的深度網絡模型(multiscale- feature fusion deep neural networks with dilated convolution,MDNNet),自動提取多尺度遙感圖像建筑物特征,解決傳統深度網絡模型提取遙感圖像建筑物受道路、樹木、陰影等因素影響提取目標邊界特征不清晰和丟失等問題,提升建筑物分割精度。
提出模型MDNNet以ResNet殘差網絡結構中的ResNet101為基礎網絡模型,主要由膨脹卷積網絡模塊,多尺度特征融合模塊和特征解碼模塊組成。首先利用不同擴張率的膨脹卷積獲取不同尺度的遙感圖像建筑物特征信息,提取過程不對圖像進行下采樣處理可以避免由于分辨率降低造成圖像細節信息損失;其次從不同尺度融合圖像特征來獲取不同尺度的上下文信息,加強模型對不同尺寸大小建筑物目標的提取能力;最終利用解碼模塊將經過特征融合模塊的各級特征綜合利用,恢復圖像原有分辨率輸出分割結果,實現對目標邊界的精細化分割。提出的MDNNet模型結構如圖1所示。

圖1 MDNNet模型結構
深度學習網絡結構中隨著網絡層數的逐漸增多,會出現誤差增高,梯度消失等現象,使得訓練效果變差。ResNet殘差網絡在深度神經網絡中增加殘差結構,學習目標是多個網絡層輸入和輸出間的殘差,其映射關系為:
fResNet(i,w)=fR(i,w)-i=hi-i
(1)
式中,i為網絡輸入,hi為網絡輸出,w為深度神經網絡權重,fResNet為ResNet網絡輸入圖像和輸出特征之間的映射關系,fR(i,w)是常規網絡結構入圖像和輸出特征之間的映射關系。訓練結果在保證信息完整性的同時簡化學習目標,輸入的變化可以反應損失函數的變化產生較大梯度,避免梯度消失,加快訓練過程中收斂速度。
ResNet的基礎模塊由Building block或bottleneck組成。Building block結構包含一個殘差支路和short-cut支路,與傳統結構相比多了一個short-cut支路。Building block結構如圖2。

圖2 Building block結構
Bottleneck通過一個1×1的卷積減少通道數,最后的1×1卷積來恢復通道數量,使結構中輸出通道數輸入通道數相同。Bottleneck結構如圖3。

圖3 Bottleneck結構
ResNet101網絡整體模型由1×1、3×3、1×1的卷積堆疊而成,整體模型結構如圖4。

圖4 ResNet101網絡結構
在利用ResNet101提取遙感圖像特征時,連續的池化和其他采樣操作通過降低圖像尺寸的方法增大提取特征,使圖像分辨率損失從而丟失大量局部細節信息,不利于圖像邊緣信息提取。為了解決以上問題,當利用殘差模塊使圖像分辨率縮小到原圖1/8時,在ResNet101中引入膨脹卷積模塊。模塊中利用不同擴張率的膨脹卷積代替普通卷積來依次增大卷積核感受野。
膨脹卷積與普通卷積相比增添了一個“擴張率(dilation rate,rate)”的參數,來定義卷積核處理數據時各值的間距,卷積內剩下點的權重用0填充,使得在增加卷積感受野的同時不增加卷積的參數量。擴張率的選取由圖像原始尺寸的大小和提取特征圖的大小來決定,分別以rate=6、rate=12、rate=18的擴張率的膨脹卷積來從多個角度提取建筑物特征信息,具體結構如圖5所示。

圖5 膨脹卷積結構
膨脹卷積提取特征圖的大小會因膨脹卷積的擴張率不同而改變,運算如下:
k′=d(k-1)+1
(2)
h′=(h+2p-k′)/s+1
(3)
式中,s為步長,d為膨脹率,k為原始卷積尺寸,k′為膨脹卷積尺寸,為輸入特征圖的分辨率大小,h′為輸出特征圖分辨率大小,p為填充大小。
為了在訓練過程中令每次權重的更新保持相同,克服隨著卷積層數增多,卷積運算帶來的輸入和輸出的數據分布變化,降低訓練難度,在每個卷積層輸入前增加BN(Batch Normalization)層,將數據轉化成均值為0和方差為1 的規范形式。BN層的運算如表1所示。

表1 BN層運算表

γ的初始值為1,β的初始值為0,變化率如下:
(4)
(5)
(6)
(7)
(8)
(9)
引入膨脹卷積后的ResNet101 卷積層通過依次增大擴張率使得卷積核的感受野依次增大,獲取不同尺度的遙感圖圖像特征信息;膨脹卷積在不增加參數量的基礎上擴大感受野,不需要下采樣降低圖像的分辨率,利于較高層語義特征的學習。
在遙感圖像建筑物特征提取時,在利用膨脹卷積提取的多尺度特征無法精確對不同尺寸大小的建筑物完成自適應的識別,為了進一步對膨脹卷積提取的多尺度特征分析,將膨脹卷積提取的特征放入多尺度特征模塊,對重疊的不同尺度特征通過全局平均池化進行特征融合生成不同空間分辨率的特征,有效利用圖像空間上下文信息。
多尺度特征融合結構包含1×1的普通卷積核采樣率rate分別為6、12、18的膨脹卷積,輸出通道為256,最后包含一個BN層。多尺度特征融合結構如圖6所示。

圖6 膨脹卷積結構
膨脹卷積提取的第i層特征的輸出為:
(10)
式中,第i層的卷積輸入為X(i),輸出為Z(i),權重參數為b(i)。膨脹卷積輸出的各級特征Z(i)經過多尺度特征融合多個層次特征,模塊中帶有4個基礎全局平均池化單元,根據遙感圖像的分辨率和被提取建筑物的分辨率大小的不同進行調整,全局池化后特征圖的分辨率大小分別為1×1、3×3、6×6和12×12。由于全局池化后獲取的特征權重較大,通過卷積核為1×1的卷積層減少輸出的通道數,減小權重后的特征圖通道數是經過N次多尺度特征融合的1/N。A(i)為第i層多尺度融合特征,各層輸出尺寸如表2。

表2 多尺度特征融合輸出表
遙感圖像通過膨脹卷積提取特征和多尺度特征融合對特征融合后,利用特征解碼模塊將各層特征圖的空間分辨率恢復到與輸入多尺度特征融合模塊相同的分辨率。特征解碼模塊為下采樣的逆過程。遙感圖像分割過程中,圖像的輸入為向量為X=x1,x2,…xmT,輸出向量為Y=y1,y2,…ynT,解碼模塊輸出的損失函數為Q,則卷積的方向傳播如下:
(11)
(12)
式中,C為遙感圖像輸入輸出的卷積矩陣,Cij為矩陣C第i行第j列元素,Call,i=C1,i…Cm,i,解碼模塊輸出為:
(13)
通過解碼模塊將不同尺度的特征圖和原始特征圖恢復到輸入圖像的原始尺寸,輸出遙感圖像建筑物分割結果。
實驗基于Linux操作系統,采用2個NVIDIA TitanV Volta 12 G顯卡作為GPU處理單元,32 G內存,CPU Inter E5處理器,pytorch-1.0.2的深度學習框架,Nvidia公司CUDA8.0GPU運算平臺及cuDNN6.0深度學習GPU加速庫。實驗選取WHU Building change detection dataset遙感圖像數據集驗證提出模型的有效性,數據集包含建筑物、樹木、道路、湖泊、草地等多類地表物,圖像的原始空間分辨率為0.075米。將原始圖片裁剪成像素大小為512×512的8 189張含有遙感圖像建筑物的圖片,為了避免選區樣本的偶然性并有效評估提出模型的泛化能力,將裁剪的圖片中4 736張作為訓練集,1 036張作為驗證集,2 416張作為測試集。
提出網絡模型初始化權值來自在ImageNet數據集上預訓練的結果,其他參數初始值為零,通過梯度下降法訓練模型,迭代總次數為250 000,基本學習率為0.01,每迭代5 000次學習率下降0.1倍,學習率變換如下:
lr′=lr×(1-i/m)power
(14)
式中,lr′為變換后的學習率,lr變換前的學習率,i當下迭代次數,m迭代總次數,power是多項式的冪來控制學習率衰減。
為了對提出模型進行量化分析,對比不同方法分割結果,采用像素準確率(pixel accuracy, PA)、平均交并比(mean Intersection over Union, mIoU)和召回率(Recall Rate,Recall)作為定量評價指標。
評價指標像素準確率PA表示正確識別出建筑物占真實建筑物的比例,指標的計算公式如下:
(15)
式中,k為識別類別總數,pij為像素類i被預測為像素類j的總量,pii為像素類i,的像素被預測為像素類i的總量。
評價指標平均交并比mIoU表示圖像真實值集合與圖像預測值集合的交集和并集的比例,指標的計算公式如下:
(16)
式中,k為識別類別總數,nii表示第i類實際類別預測結果為j的像素點數量,ti為i類的像素點總數,pi為i類預測結果的總像素數量。
評價指標召回率Recall表示在不考慮遙感圖像背景時,分割建筑物的像素點與真實標注像素點比例,指標的計算公式如下:
(17)
其中:Bseg為圖像分割中與標注圖像相比正確分割的像素點數量,Iunseg為與標注圖像系相比未正確分割的像素點數量。
為了驗證提出模型的有效性,對比幾種不同模型之間的量化指標差異,對比模型包括:FCN模型[15]、ResNet模型[8]和ResNetCRF(ResNet Conditional Random Fields,ResNetCRF)模型[16],訓練過程如圖7~9所示。

圖7 PA訓練過程

圖8 mIoU訓練

圖9 Recall訓練過程
不同方法網絡模型大小與訓練速度如表3所示。

表3 網絡模型大小與訓練時間
不同方法遙感圖像分割性能定量分析如表4所示。

表4 實驗結果性能評價指標對比
從表3、表4可以看出,提出模型與對比模型相比較取得了最高的像素準確率(PA)、最高的平均交并比(mIoU)和最高的召回率(Recall),且在訓練時長上僅高于ResNet模型。實驗結果表明,提出模型通過膨脹卷積增大遙感圖像感受野限制特征圖分辨率損失;通過多尺度特征融合獲取上下文特征信息形成不同分辨率的特征圖等可有效提升遙感圖像建筑物的分割精度。
不同方法建筑物分割結果圖如圖10所示。
圖中10(a)列為分辨率為512×512的遙感圖像,(b)列為地表真實值,(c)列為FCN模型分割結果,(d)列為ResNet模型分割結果,(e)列為ResNet模型分割結果,(f)列為MDNNet模型分割結果。

圖10 遙感圖像分割結果
FCN模型分割圖像主要是將模型網絡中間層的含有較高分辨率的特征圖和反卷積操作輸出的特征圖融合,對提取建筑物的細節信息不夠明顯,分割結果中建筑物之間存在多數粘連現象且該模型不能有效識別建筑物邊界,存在對樹木、道路等誤分割。ResNet模型分割圖像建立以解碼器-編碼器模塊為基礎的深度學習框架,解碼器模塊以自動提取建筑物的特征,編碼器模塊采用反卷積實現對特征圖的上采樣完成對建筑物的分割。分割結果表明該模型有效抑制建筑物間出現的粘連現象,但對目標提取結果細節表達不明顯,建筑物邊緣信息不夠完整。ResNetCRF模型在ResNet模型的基礎上增加全連接條件隨機場對參數同步訓練,分割結果中看出全連接條件隨機場可以有效彌補下采樣過程細節損失,使建筑物輪廓更清晰,但建筑物邊界細節上仍與真值圖相比差異較大,存在部分問分割現象,且模型訓練時間高于其他對比模型。以上3種模型由于對多尺度特征提取建模不充分,對不同尺寸大小建筑物的自適應提取能力有限。
MDNNet模型通過在ResNet101模型中引入膨脹卷積提取建筑物特征,有效抑制目標特征圖分辨率過低從而保留更多建筑物邊緣細節特征信息,利用多尺度特征融合模塊使得模型可以獲取多個尺度建筑物特征信息,對不同尺寸大小的建筑物完成自適應提取,分割結果表明對于較大型建筑物的分割也更加完整,與其他模型相比誤分割現象較少,建筑物邊界輪廓更加清晰完整。
本文提出的MDNNet模型應用于遙感圖像建筑物分割領域中,在ResNet101殘差網絡模型中增加膨脹卷積,并利用多尺度特征融合獲取多個尺度的建筑物特征信息。該模型有效提升建筑物邊緣輪廓特征分割精度,實現對不同尺寸大小建筑物的自適應提取。在WHU Building change detection dataset數據集進行實驗,實驗結果表明本文提出方法在分割精度上明顯優于FCN、ResNet和ResNetCRF對比實驗模型,分割結果圖中建筑物邊緣信息的完整性且對不同尺寸大小建筑物的分割效果均明顯提升。