面向遙感圖像的建筑物輕量化語義分割方法

2022-10-01 02:41:40王一琛王海濤錢育蓉

計算機工程與設計 2022年9期

王一琛，劉慧，王海濤，錢育蓉+

(1.新疆大學軟件學院，新疆烏魯木齊 830046；2.新疆大學信息科學與工程學院，新疆烏魯木齊 830046；3.新疆大學新疆維吾爾自治區(qū)信號檢測與處理重點實驗室，新疆烏魯木齊 830046；4.新疆大學軟件工程重點實驗室，新疆烏魯木齊 830046)

0 引言

基于遙感影像的建筑物解譯在城市規(guī)劃、地圖服務、自動駕駛、商業(yè)規(guī)劃、變化檢測等方面應用，語義分割在遙感圖像解譯中扮演重要角色，是低高層遙感圖像處理及分析的重要銜接[1]。語義分割是一種圖像像素級標注技術，指為圖像中的每一個像素分配對應的像素標簽，基于這些像素標簽將圖像分割為若干具有語義信息的區(qū)域[2]。

近年來，使用場論和集合論的語義分割方法[3-6]建立在數(shù)學模型的基礎之上，不同數(shù)據(jù)集上結果相差較大。Long等[7]提出的FCN模型將端到端的卷積神經(jīng)網(wǎng)絡框架結構引入語義分割任務中。基于編碼器-解碼器[8-11]和基于候選區(qū)域[12-15]的方法現(xiàn)在被廣泛使用，由于遙感圖像易受到類別分布不平衡、建筑物邊緣細節(jié)信息難以分割等因素的影響，Minh[16]使用卷積神經(jīng)網(wǎng)絡對道路和建筑物進行檢測。Li等[17]將密集連接添加到U-Net模型的編碼器和解碼器之中。Zhang等[18]使用層次密集連接的網(wǎng)絡用于提高網(wǎng)絡提取圖像特征能力。近年來注意力機制也被應用在遙感圖像語義分割領域，將注意力機制加入網(wǎng)絡以提升模型的靈敏度并降低無關區(qū)域的影響[19,20]。上述模型通過對模型添加密集連接模塊或注意力機制的方法用于增加圖像分割質(zhì)量，但也隨之增大了模型參數(shù)量，難以在大規(guī)模部署和實時環(huán)境下進行有效的應用。針對遙感圖像地物信息復雜導致模型分割完整度低和模型參數(shù)量大的問題，本文設計了以編碼器-解碼器為結構的輕量化語義分割模型LED-Net。

1 LED-Net

1.1 LED-Net結構

為了使網(wǎng)絡得到更準確的分割結果圖和更少的模型參數(shù)量，LED-Net采用端到端的編碼器-解碼器結構，結構如圖1所示，輸入圖像經(jīng)過網(wǎng)絡可以直接得到分割結果圖。

圖1 LED-Net結構

在編碼器部分使用含有通道注意力機制的ResNet網(wǎng)絡用于圖像的語義信息提取，提高模型對于建筑物的特征提取能力；為了使結果圖得到準確的建筑物分割預測，解碼器部分使用輕量化的DUpsampling模塊將編碼器生成的特征圖進行解碼操作，生成最終的預測結果。

1.2 高效通道注意力殘差網(wǎng)絡

語義分割編碼器中的骨干網(wǎng)絡可以自適應地從輸入圖像中學習到圖像的類別信息和位置信息，網(wǎng)絡提取特征的能力影響最后分割結果的精度和性能，語義分割基于編碼器-解碼器結構的模型中，通過添加注意力機制的模塊用于進一步提升模型獲取特征圖能力[21]。注意力機制主要分為通道(channel)注意力機制和空間(spatial)注意力機制，通道注意力機制相較于空間注意力機制，參數(shù)量少，節(jié)省網(wǎng)絡運行時間。

ECA-Net[22]中的通道注意力ECA模塊通過一維卷積來獲取特征圖中通道間的交互信息，這種模塊在圖像分類和目標檢測領域被證明能提升網(wǎng)絡特征提取能力并且不會增加過多的額外參數(shù)，ECA模塊可以由式(1)～式(3)表示

(1)

式中：Ic為輸入的特征圖，c為輸入模塊內(nèi)的通道數(shù)。式(1) 將H×W×C的特征圖通過Fga全局平均池化模塊進行全局平均操作，其中H、W、C代表特征圖的高、寬、通道數(shù)量，輸出Zc特征圖的大小為1×1×C

Qc=σ(Dk(Zc))

(2)

式中：Dk代表為一維的卷積核，k為卷積核的大小。σ為Sigmoid激活函數(shù)。特征圖Zc經(jīng)過卷積和Sigmoid激活函數(shù)之后得到各通道的權值Qc

Oc=Ic·Qc

(3)

式中：將注意力模塊的輸入特征圖Ic與通道權值Qc相乘，最終得到與Ic大小相同的輸出特征圖Oc。

LED-Net采用改進的ResNet網(wǎng)絡作為骨干網(wǎng)絡，去除了ResNet中的全連接層，并在其中加入ECA模塊和空洞卷積，網(wǎng)絡結構如圖2所示。高效通道注意力殘差網(wǎng)絡主要由1個7×7卷積、1個最大池化層(Max Pooling)和4個高效通道注意力殘差塊(efficient channel attention residual block，ECARB)構成。每個ECARB進行不同數(shù)目1×1、3×3的卷積(convolution，Conv)操作，每個Conv由BN(batch normalization)、ReLU(rectified linear unit)和卷積核(Convolution Kernel)共同組成。通過ECARB使得網(wǎng)絡的每一層都可以獲得前面?zhèn)鬟f下來的特征圖，實現(xiàn)特征傳遞，提高每層之間像素特征和梯度流的傳遞。由于語義分割任務與分類任務的不同，語義分割任務需要進行上采樣恢復到與輸入圖像分辨率相同的大小，并兼顧圖像分割目標的類別信息和位置信息提取，與PSPNet[23]和DeepLabV3+[24]網(wǎng)絡相同，本文在ResNet的第3個和第4個ECARB中將標準3×3卷積核的空洞率分別改為2和4。

圖2 編碼器骨干網(wǎng)絡結構

1.3 DUpsampling模塊

語義分割模型在編碼器部分通常將輸入圖像縮小為原始尺寸的1/8或1/16，解碼器部分常使用雙線性插值算法或堆棧式反卷積，將圖像分辨率擴大8倍或16倍，兩種方法的優(yōu)劣勢各在于：雙線性插值算法模型參數(shù)量小，但圖像邊緣分割能力較弱；而使用反卷積對于目標的邊緣信息恢復能力強，但模型參數(shù)量較大。為解決解碼器的精度和模型參數(shù)量平衡問題，LED-Net使用數(shù)據(jù)依賴上采樣(data-dependent upsampling，DUpsampling)模塊[25]用于替代傳統(tǒng)的解碼器。

DUpsampling是一種將編碼器輸出特征圖進行語義編碼的模塊，如圖3所示，F(xiàn)為編碼器輸出尺寸大小為H×W×C的特征圖，之后將特征圖中每個1×1×C大小的像素轉變?yōu)?×C矩陣，并將其乘上C×N大小的待訓練矩陣W，乘積結果生成1×N的特征，通過重新排列(Rearrange)將1×N的特征變?yōu)镽×R×(N/R2) 的特征，其中R代表DUpsampling輸出所擴大分辨率的倍數(shù)，經(jīng)過對輸入特征圖F內(nèi)每個像素點進行DUpsampling操作，最終得到 (R×H)×(R×W)×(N/R2) 大小的輸出分割圖像O。

圖3 DUpsampling結構(圖中R=2)

DUpsampling模塊的損失函數(shù)被定義為

P=Sigmoid(DUpsampling(F))

(4)

BCELoss(P,T)=-TlogP-(1-T)log(1-P)

(5)

其中，F(xiàn)為輸入的特征圖(feature map)，T代表target的二分類值，其中T=1代表此像素點為建筑物，T=0為背景。DUpsampling模塊將F的分辨率擴大到與T相同的尺寸，并經(jīng)過Sigmoid激活函數(shù)進行類別預測，將分割圖中每個像素值P歸一化到0～1之間，之后使用二分類的交叉熵(binary cross entropy，BCE)損失函數(shù)P越接近于1代表網(wǎng)絡判斷此像素點時建筑物的概率更大，反之則代表網(wǎng)絡判斷像素點為背景的概率更大。DUpsampling模塊通過網(wǎng)絡訓練迭代，將輸出分割圖和標簽圖的損失減少，使解碼器DUpsampling模塊輸出更加準確的分割預測圖。

由于LED-Net中高效通道注意力殘差網(wǎng)絡將輸入圖片下采樣到1/8分辨率大小，而語義分割結果圖需要與輸入圖片保持相同的分辨率大小，所以LED-Net將DUpsampling擴大倍率R設為8，以獲取最終的分割結果圖。

2 數(shù)據(jù)集和預處理

2.1 INRIA Aerial Image 數(shù)據(jù)集

INRIA Aerial Image數(shù)據(jù)集[26]由按像素手工標記的航空圖像組成。數(shù)據(jù)集由3波段正射RGB圖像組成，標簽由含有兩個語義類別的地面真實數(shù)據(jù)組成：建筑物和非建筑物。數(shù)據(jù)集涵蓋了Austin、Chicago、Kitsap、Western Tyrol和Vienna的城市區(qū)域，空間分辨率為30 cm，每個城市各有36張5000×5000像素分辨率的高分遙感圖像和標簽，每個高分遙感圖像和標簽中包含地面1500×1500 m2的區(qū)域。數(shù)據(jù)集作者將每個城市的前5張圖片作為測試集，剩余圖片作為訓練集，由此我們共可獲得155張訓練圖片，25張測試圖片用于網(wǎng)絡的訓練和測試對比。

2.2 Massachusetts Buildings數(shù)據(jù)集

Massachusetts Buildings數(shù)據(jù)集[16]由波士頓城市和郊區(qū)的航拍圖像組成。每張航拍圖像拍攝面積為2.25平方公里，標簽圖由OpenStreetMap項目中獲得的建筑標簽獲得的，該數(shù)據(jù)平均遺漏噪聲水平僅約為5%，圖像的標簽由含有建筑物和非建筑物這兩類的地面數(shù)據(jù)組成。數(shù)據(jù)集包含151張1500×1500像素分辨率的高分遙感圖像，每個高分遙感圖像和標簽中包含地面2250×2250 m2的區(qū)域。訓練集包含137張圖像及標簽，測試集包含10張圖像及標簽。

2.3 數(shù)據(jù)切分和增廣

由于數(shù)據(jù)集中圖像和標簽均為高分辨圖像，若模型直接使用這些圖像和標簽進行訓練，會因高分辨率遙感圖像尺寸較大，導致訓練過程出現(xiàn)內(nèi)存不足而導致無法訓練，所以需要對數(shù)據(jù)集圖片進行切分。切分使用重疊切片(overlap-tile)策略，對于INRIA Aerial Image數(shù)據(jù)集，首先將圖像和標簽邊緣處進行188像素的鏡像填充，以確保等分切分，之后將遙感圖像及標簽切分成384×384大小的小尺寸圖像，每張圖片由此可以切分成196張小尺寸圖像，數(shù)據(jù)集被切分為30 380張圖片用于訓練和4900張圖片用于測試。對于Massachusetts Buildings數(shù)據(jù)集，將圖像和標簽邊緣進行18像素的鏡像填充，之后將遙感圖像及標簽同樣切分成384×384大小，每張圖片由此可以切分成16張小尺寸圖像，此數(shù)據(jù)集被切分為2192張訓練圖片和160張測試圖片。

為增加模型的魯棒性，本文在訓練過程中加入了數(shù)據(jù)增廣操作，對訓練集中切分好的圖像和標簽隨機進行逆時針旋轉90度旋轉180度、270度、沿X軸上下翻轉和沿Y軸左右翻轉的處理。

3 建筑物語義分割實驗

3.1 實驗環(huán)境

本實驗在NVIDIA TeslaV100 GPU服務器上搭建基于Pytorch的語義分割框架，操作環(huán)境為64位Windows 10，編程語言為Python3.7，主要函數(shù)庫包括OpenCV、PIL、Numpy等。模型訓練過程使用的優(yōu)化器Adam，訓練參數(shù)設置見表1。當訓練次數(shù)進行到50次時，學習率減少為0.005。

表1 訓練參數(shù)設置

3.2 性能指標

為了公平的比較LED-Net與同研究模型在兩個數(shù)據(jù)集上的準確率，本文使用與數(shù)據(jù)集相關文獻一致的評價指標。對于INRIA Aerial Image Dataset使用Acc.(overall accuracy)和IoU(intersection over union)這兩個評價指標，用于在對比實驗中進行模型準確率的比較[26]，Acc.如式(6)所示，IoU如式(7)所示。標簽圖中的正類代表建筑物，負類代表背景，TP(true positive)表示正類被判定為正類；FP(false positive)表示負類被判定為正類；FN(false negative)表示正類被判定為負類；TN(true negative)表示負類被判定為負類

(6)

(7)

而Massachusetts Buildings Dataset采用了一種松弛(relaxed)F1-score用于評價各模型的分割性能，寬松系數(shù)(relaxed factor)ρ代表在預測圖中的每一個像素點在四周范圍允許有ρ個像素點的誤差，當ρ=0及代表傳統(tǒng)的F1-score，我們在對比實驗使用ρ=0和ρ=3的F1-score對各模型的準確率進行比較[16]。F1-score如式(8)所示

(8)

在建筑物語義分割實際應用任務中，不僅需要對比模型的準確率，而且還要考慮模型的大小，為此我們計算了LED-Net與其它模型的參數(shù)量進行綜合性能對比。

3.3 消融實驗

為了驗證LED-Net中所設計的ECA模塊和DUpsampling模塊的有效性，我們使用編碼器骨干網(wǎng)絡為加入空洞卷積的ResNet-50，解碼器為雙線性插值的網(wǎng)絡模型作為基礎模型，并分別對基礎模型的編碼器網(wǎng)絡添加ECA模塊和解碼器替換為DUpsampling模塊。值得注意的是，與對比實驗不同，消融實驗為說明ECA模塊和DUpsampling模塊在兩個數(shù)據(jù)集中的效果差異，實驗中的各模型使用F1-score、Acc.、IoU這3個評價指標對比準確率，并對各模型的參數(shù)量做綜合性能考量。

表2展示了在INRIA Aerial Image 數(shù)據(jù)集消融實驗的準確率和模型參數(shù)量對比，相較于基礎模型1、模型2和模型3分別添加ECA模塊與DUpsampling模塊，對于準確率的提升基本相同，其中IoU指標提升0.68%。LED-Net通過同時添加兩個模塊使得IoU指標提升1.67%，表明了我們設計的模塊在準確率提升方面的有效性。圖4為INRIA Aerial Image 數(shù)據(jù)集上各模型的分割結果，3張圖片塊的建筑物均包含大小和形狀不同的建筑物模型1，存在建筑的誤分類和邊緣分割效果差的情況，而添加了ECA模塊的結果圖誤分類現(xiàn)象更少，使用DUpsampling模塊增加了建筑物邊緣的分割精確度，同時使用兩種模塊在可視化效果圖中達到了最優(yōu)。

表2 INRIA Aerial Image數(shù)據(jù)集消融實驗性能對比

圖4 INRIA Aerial Image數(shù)據(jù)集消融實驗分割結果

Massachusetts Buildings數(shù)據(jù)集的消融實驗準確率結果對比見表3，添加我們設計的兩個模塊同樣在3個指標上都取得了提升。添加DUpsampling模塊的IoU指標增加4.04%，而添加ECA模塊IoU指標增加1%。可視化分割結果如圖5所示，添加ECA模塊的模型2減少了城市中密集建筑物之間的誤分類像素，與INRIA Aerial Image數(shù)據(jù)集不同，Massachusetts Buildings數(shù)據(jù)集中的建筑物數(shù)量更多且更加密集，模型3和模型4在此數(shù)據(jù)集上的分割準確率和可視化結果圖效果更好，這是由于DUpsampling模塊通過可學習的上采樣矩陣，對建筑物的邊緣和細節(jié)特征進行精確的分割，從而達到準確率和可視化效果的提升。

表3 Massachusetts Buildings數(shù)據(jù)集消融實驗性能對比

圖5 Massachusetts Buildings數(shù)據(jù)集消融實驗分割結果

在表2和表3參數(shù)量對比中，添加ECA模塊的編碼器網(wǎng)絡僅通過增加很少的參數(shù)數(shù)量達到了準確率的提升，而解碼器使用DUpsampling可以在減少28.2%參數(shù)量情況下增加分割準確率。結合準確率和參數(shù)量對比，ECA模塊和DUpsampling模塊達到了預期的設計效果。

3.4 對比實驗

我們選擇了一些最先進的研究，包括語義分割和建筑物檢測領域的FCN-50[7]、U-Net[8]、Building-A-Net[17]、PSPNet[23]、DeepLabV3+[24]、E-FCN[26]。本文與數(shù)據(jù)集文獻和Building-A-Net使用的評價指標相同，使用3.2節(jié)中的Acc.和IoU這兩個評價指標用于在INRIA Aerial Image Dataset比較準確率、松弛(Relaxed)F1-score指標，用于評價各模型在Massachusetts Buildings數(shù)據(jù)集上的準確率，并計算出各模型參數(shù)量用于綜合性能對比。

3.4.1 INRIA Aerial Image數(shù)據(jù)集對比實驗

INRIA Aerial Image數(shù)據(jù)集上各模型的準確率和模型參數(shù)量對比結果見表4，LED-Net在城市數(shù)量更多且地物信息更加復雜的遙感圖片上，相較于其它模型在Acc.和IoU兩項指標上取得了最高的準確率，相較于次優(yōu)準確率的DeepLabV3+，模型參數(shù)減少41%。可視化分割預測圖對比如圖6所示，其中LED-Net對比其它模型，在建筑物的邊緣處分割效果更加精細和準確，PSPNet和DeepLabV3+由于直接采用雙線性插值算法，對于圖片中形狀不規(guī)則的建筑物分割效果較差，LED-Net使用DUpsampling增加了模型對于建筑物邊緣和細節(jié)信息的處理能力。相對于U-Net，LED-Net通過在骨干網(wǎng)絡增加ECA模塊使得特征提取能力增強，分割圖中的建筑物誤分類像素也更少。

表4 INRIA Aerial Image數(shù)據(jù)集上各模型性能對比

圖6 INRIA Aerial Image數(shù)據(jù)集上各模型分割結果

3.4.2 Massachusetts Buildings數(shù)據(jù)集對比實驗

Massachusetts Buildings數(shù)據(jù)集上各模型的準確率和模型參數(shù)量對比結果見表5，LED-Net在建筑物數(shù)量更多且更加密集的遙感圖片上，相較于其它模型在ρ=3的Relaxed F1-score取得了最高的準確率，在ρ=0的Relaxed F1-score取得了次優(yōu)的準確率，且相對于使用GAN網(wǎng)絡的Building-A-Net，模型參數(shù)量減少84萬個。我們在測試集中挑選3張圖片作為可視化分割預測圖對比，如圖7所示，LED-Net對建筑物的誤分類像素更少，邊緣細節(jié)分割效果也更好。

表5 Massachusetts Buildings數(shù)據(jù)集上各模型性能對比

圖7 Massachusetts Buildings數(shù)據(jù)集上各模型分割結果

綜合兩個數(shù)據(jù)集上的實驗，表明了我們設計的LED-Net模型可以在減少的參數(shù)量的情況下，增加分割準確率，并且可以生成可視化效果更好的分割預測圖，以滿足實際應用需求。

4 結束語

本文針對高分遙感圖像建筑物語義分割模型，存在建筑物的整體和邊緣分割完整度低和模型參數(shù)量大的問題，提出了一種輕量化的遙感建筑物語義分割網(wǎng)絡LED-Net。LED-Net使用編碼器-解碼器結構，其中編碼器骨干網(wǎng)絡使用帶有ECA模塊的ResNet網(wǎng)絡，提高模型在遙感圖像中的特征提取能力；解碼器使用輕量化的DUpsampling模塊，通過這個模塊提高建筑物的邊緣分割能力并減少模型參數(shù)量。實驗結果表明，與同研究模型相比，LED-Net在INRIA Aerial Image Dataset和Massachusetts Buildings Dataset均取得了更好性能。LED-Net對于背景復雜和邊緣信息要求高的目標物分割效果較好，且模型參數(shù)量較少，后續(xù)考慮推廣到遙感圖像的道路、水域、農(nóng)田等語義分割實際應用中去。