于 文 玲,劉 波,2*,劉 華,2,杜 梓 維,鄒 時 林,蘇 友 能,劉 娜 娜
(1.東華理工大學測繪工程學院,江西 南昌 330013;2.自然資源部環鄱陽湖區域礦山環境監測與治理重點實驗室,江西 南昌 330013)
近年來,深度語義分割算法在遙感影像建筑物提取時效果良好[1-5],其中,U-Net模型[6]通過組合解碼層、編碼層的方法,提高了遙感影像建筑物的提取精度。為進一步提高模型精度,Chhor等[7]在U-Net模型訓練時,用Adam優化算法代替SGD優化算法,并添加批量標準化處理,使用基于Dice系數的損失函數;Ji等[8]利用特征金字塔網絡與U-Net模型相結合,以降低遙感影像中建筑物尺度不一致對提取結果的影響,提高建筑物提取精度;任欣磊等[9]提出一種低維特征增強改進的U-Net模型,通過引入特征金字塔中的低維特征圖增強網絡傳遞過程中低維細節信息的特征表達,能在后向傳遞過程中防止細節信息丟失,提高模型對建筑物細節的獲取能力;Kim等[10]將空間金字塔池模塊集成到U-Net模型中,解決了U-Net模型在多次特征融合后地物邊界特征損失的問題;Ranjan 等[11]將MRA結構運用于U-Net模型中,提升了遙感影像地物信息提取的精度;顧煉等[12]將FlowNet中的細化結構運用于U-Net模型中,建筑物提取結果的F1分數高達0.943;Abdollahi等[13]結合SegNet與U-Net提取馬薩諸塞州高分辨率遙感影像建筑物,精度達92.73%;Alom等[14]基于U-Net模型、殘差網絡及遞歸卷積神經網絡提出R2U-Net模型,該模型相比U-Net及其改進模型,加深了網絡結構,增強了特征提取和特征表達能力,提取精度更高。
綜上,雖然U-Net、R2U-Net等眾多U-Net改進模型展現了深度卷積神經網絡在遙感影像特征提取中的巨大優勢,但多數模型特征表達能力有限,多尺度泛化能力較弱,特別是在提取特征時,較多的卷積池化操作會造成提取的建筑物邊緣信息不完整、內部信息缺失、建筑物與非建筑物特征混淆等問題。為此,本文提出基于Attention Gates(AG)和R2U-Net的遙感影像建筑物提取方法(AGR2U-Net),利用改進后的AG模型強化R2U-Net的多尺度特征信息,以提高R2U-Net模型對建筑物特征的響應及靈敏度,增強其多尺度泛化能力,從而提升該模型的遙感影像建筑物提取精度。
R2U-Net模型[14]與U-Net模型結構類似,由編碼路徑和解碼路徑組成(圖1)。編碼路徑和解碼路徑中的卷積塊被循環殘差卷積模塊(Recurrent Residual Convolutional Units,RRCU)代替,RRCU的卷積層由3×3的卷積核、批標準化(Batch Normalization,BN)、線性整流函數(Rectified Linear Unit,ReLU)組成。R2U-Net模型的優勢在于:1)在U-Net模型之外進行逐元素特征求和,在保留U-Net優勢的同時,融合了高維抽象特征信息與低維細節特征信息;2)RRCU結構內部的特征積累能確保更強大的特征表示,并有效增加網絡結構的深度;3)從U-Net 模型中刪除裁剪單元,僅使用復制串聯操作,從而形成一種簡潔實用、性能更好[15,16]的體系結構。

圖1 R2U-Net模型結構[14]Fig.1 Structure of R2U-Net model


圖2 AG模型結構[17]Fig.2 Structure of AG model
為保證所有AG模型輸出的特征圖與R2U-Net模型初始輸入影像大小一致,并減少重采樣操作造成的特征損失,本文對原始AG模型進行改進(圖3),即將原始AG模型中的重采樣操作移至模型輸出前。為更詳細地表示AG模型的特征輸出情況,以初始影像維度為(3,256,256)為例,將R2U-Net模型第二層與第三層輸入至改進后的AG模型,得到的輸出圖像維度如表1所示。

圖3 改進的AG模型結構Fig.3 Structure of the improved AG model

表1 改進的AG模型輸出的圖像維度Table 1 Image dimension output by the improved AG model
AGR2U-Net模型(圖4)首先將原始R2U-Net模型中每層的分類結果直接輸出,代替原模型只在第一層輸出分類結果;其次將每層輸出的特征圖與其相鄰層的特征圖輸入至改進的AG中,由于R2U-Net模型輸出的相鄰兩層特征圖大小不一致,因此需將其下層的特征圖上采樣至上層特征圖大小后再輸入至改進的AG中,最終得到與初始輸入影像圖大小一致的特征圖;最后對由改進的AG模型得到的特征影像進行融合,獲取最終分類結果。該方法在不破壞R2U-Net內部結構的情況下,利用改進的AG模型強化R2U-Net模型所得特征,可得到更精確、完整的建筑物特征信息,最終輸出的分類結果影像也包含多個尺度信息,可增強模型多尺度泛化能力。

圖4 AGR2U-Net模型結構Fig.4 Structure of AGR2U-Net model
為驗證本文方法精度,與U-Net、Improved U-Net[9]、SegU-Net[13]和R2U-Net 4種模型進行精度對比試驗,同時對比分析實驗結果的局部特征。使用交并比(Intersection over Union,IOU)、像素準確率(Pixel Accuracy,PA)和召回率(Recall)對實驗精度進行評價[18],計算公式分別為:
IOU=TP/(FP+TP+FN)
(1)
PA=(TP+TN)/(FP+TP+FN+TN)
(2)
Recall=TP/(TP+FN)
(3)
式中:TP表示實際為正樣本、預測為正樣本的樣本數;TN表示實際為負樣本、預測為負樣本的樣本數;FP表示實際為負樣本、預測為正樣本的樣本數;FN表示實際為正樣本、預測為負樣本的樣本數。
實驗數據為武漢大學季順平團隊[8]基于衛星遙感影像制作并發布的WHU satellite dataset Ⅰ數據集(簡稱數據集Ⅰ)和基于航空影像制作并發布的WHU aerial imagery dataset數據集(簡稱數據集Ⅱ)。
2.1.1 數據集Ⅰ 數據集Ⅰ共有204張512×512大小的遙感影像和對應的標簽圖像,來自ZY-3號、IKONOS、Worldview系列衛星的不同傳感器和不同空間分辨率(0.3~2.3 m)影像,涵蓋了歐洲、中國、南北美洲以及非洲的不同城市區域,能對建筑物提取算法的魯棒性進行有效檢驗,數據集Ⅰ部分示例如圖5所示。為增加樣本數量,本文首先將原始數據集影像裁剪為256×256大小的子圖集,然后對子圖集進行旋轉、沿y軸鏡像處理、均值濾波、椒鹽噪聲增強以及高斯噪聲增強處理,共得到20 094張影像。最后將處理后的數據集按照8∶1∶1的比例劃分成訓練集、驗證集與測試集,影像數量分別為16 076、2 009、2 009,其中訓練集用于擬合模型,驗證集用于調試超參數以及監控模型是否發生擬合,測試集用于評估最終的模型泛化能力。

圖5 WHU衛星影像數據集Ⅰ部分示例Fig.5 Examples of WHU satellite dataset Ⅰ
2.1.2 數據集Ⅱ 數據集Ⅱ位于新西蘭的克萊斯特徹奇市(圖6),該數據集中①區域為訓練區域,②區域為驗證區域,③、④區域為測試區域,影像空間分辨率為0.075 m,將數據下采樣到0.3 m,并裁剪為512×512大小影像,其中訓練集、驗證集、測試集分別有4 736、1 036、2 416張影像以及對應標簽圖。為防止內存溢出并增加樣本容量,將其進一步裁剪為256×256大小,得到訓練集、驗證集、測試集影像數量分別為18 944、4 144、9 664。

圖6 WHU航空影像數據集Fig.6 WHU aerial imagery dataset
根據本文實驗環境(表2),本文方法及其對比模型選取多次實驗后效果最佳的訓練參數(表3),并依據數據集規模及反復實驗結果,將數據集Ⅰ、數據集Ⅱ實驗的迭代次數最終分別設置為20和12。

表2 實驗配置Table 2 Configuration of experiment

表3 模型訓練參數Table 3 Model training parameters
3.1.1 精度對比分析 使用U-Net、Improved U-Net、SegU-Net、R2U-Net及AGR2U-Net 5種模型分別提取數據集Ⅰ測試集遙感影像中的建筑物,選取其中5個地區進行精度評價,結果(表4)表明,本文AGR2U-Net的IOU均值比U-Net、Improved U-Net、SegU-Net、R2U-Net分別提高7.36%、4.56%、4.34%、2.68%,PA均值分別提高5.2%、3.85%、3.69%、2.2%,Recall均值分別提高4.65%、4.54%、4.04%、3.08%,可見本文方法在5個地區的建筑物提取精度均屬最高。

表4 5種模型的衛星影像建筑物提取精度對比Table 4 Comparison of building extraction accuracy in satellite imagery of five models
3.1.2 局部特征對比分析 為更好地展示本文方法的優越性,在U-Net、Improved U-Net、SegU-Net、R2U-Net和AGR2U-Net 5種模型的遙感影像測試集提取結果中隨機選取若干建筑物提取結果進行對比(圖7),結果顯示:1)數據1建筑物表面特征單一且分布均勻,5種模型均能識別此類建筑物,但選取的對比模型對建筑物形態檢測效果較差,部分區域有明顯椒鹽噪聲,AGR2U-Net模型不僅能減少噪聲干擾,還能精確識別建筑物輪廓。2)數據2建筑物大小不一、形狀多樣,且存在陰影干擾,5種模型均能識別此類建筑物,但均出現陰影部分漏檢情況。相較于其他模型,AGR2U-Net模型對建筑物的檢測更敏感,能更好地傳遞尺度信息,不僅能完整檢測出較大建筑物的內部信息,而且能檢測出小建筑物的邊緣信息。3)數據3建筑物分布零散,4種對比模型未能準確識別此類建筑物的輪廓,且易出現誤檢、漏檢現象,AGR2U-Net模型雖然也出現誤檢、漏檢現象,但對建筑物輪廓的識別能力優于其他模型。4)數據4建筑物分布較緊密,4種對比模型對此類建筑物的邊緣識別不靈敏且粘連情況較嚴重,出現建筑物內部漏檢情況,AGR2U-Net模型能更準確地檢測出建筑物的邊緣。整體而言,本文方法優于U-Net、Improved U-Net、SegU-Net和R2U-Net模型。

圖7 衛星影像建筑物提取結果的局部特征Fig.7 Local features of building extracted using different models in satellite imagery
3.2.1 精度對比分析 從基于數據集Ⅱ測試集的分類結果精度(表5)可以看出,本文方法的精度最高,其IOU、PA、Recall比表現次優的R2U-Net模型分別高2.07%、2.17%、2.10%,說明在數據集較大的情況下,本文方法也能達到很好的效果。

表5 5種模型的航空影像建筑物提取精度對比Table 5 Comparison of building extraction accuracy in aerial imagery of five models
3.2.2 局部特征對比分析 為更直觀地展示本文方法在數據集Ⅱ的良好表現,從該數據集的測試集實驗結果中選取部分提取結果與其他方法進行對比(圖8)。從數據1和數據3的結果可知:本文方法對大型建筑物的輪廓檢測更靈敏、準確,不易受建筑物周邊物體干擾;在不規則建筑物(如數據2)識別上,受噪聲干擾較少,識別出的建筑物邊緣更平滑;在小型建筑物(如數據4和數據5)的識別上,能解決建筑物內部漏檢、邊界模糊及相鄰建筑物邊緣粘連等問題,且建筑物提取精度更高。

圖8 航空影像建筑物提取結果的局部特征Fig.8 Local features of building extracted using different models in aerial imagery
為解決R2U-Net在遙感影像建筑物提取任務中多尺度泛化能力弱、特征提取信息易損失等問題,本文提出一種基于AG和R2U-Net的遙感影像建筑物提取方法。通過基于WHU衛星影像數據集(數據集Ⅰ)和WHU航空影像數據集(數據集Ⅱ)對本文方法與U-Net、Improved U-Net、SegU-Net和R2U-Net模型進行對比,得出以下結論:1)本文方法中,AG模型能利用R2U-Net模型特征提取時得到的多尺度特征信息,增強了建筑物特征的表達能力,提升了模型靈敏度和建筑物提取精度。2)基于數據集Ⅰ和數據集Ⅱ的建筑物提取精度表明,本文方法的IOU、PA、Recall均優于U-Net、Improved U-Net、SegU-Net和R2U-Net模型。3)從提取結果的局部特征看,在不同環境的遙感影像建筑物提取任務中,本文方法提取的建筑物邊緣最完整,減少了建筑物漏檢和誤檢情況,而且在提高精度的同時,能精準識別出建筑物的細節信息。但本文方法提取結果仍存在建筑物邊緣粘連情況,有待進一步研究。