李賀鵬,張連蓬
(江蘇師范大學 地理測繪與城鄉規劃學院,江蘇 徐州 221116)
隨著地空觀測技術的不斷成熟,通過高分辨率遙感影像可以獲取更加豐富的地物信息。建筑物作為組成城市的關鍵要素之一,是與人類生活密切相關的人工地物目標,快速、準確地完成建筑物提取在數字化城市建設、人口預測評估、城市遠景規劃等領域應用意義重大[1]。在高分辨率遙感影像中,建筑物具備較為明顯的形狀特征和紋理特征,基于人工解析推測時間周期長,難以滿足即時性需求。
近年來,卷積神經網絡在圖像分類和語義分割等領域表現出眾,且已成功應用于遙感影像智能處理。Long等[2]首次提出端到端的全卷積神經網絡(Fully Convolutional Neural Networks,FCN)對圖像進行像素級分類。Ronneberger等[3]提出Unet是對FCN的改進,通過跳躍連接接收低層次特征,輸出并保留邊界信息。Chen等[4-6]提出了DeepLab系列,DeepLabV3采用空洞空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)模塊對目標進行多尺度特征提取[5],利用解碼器融合多尺度的特征進行精細分割。Shao等[7]提出一種建筑物剩余細化網絡BRRNet,添加預測模塊和殘差細化模塊,進一步提高了建筑物提取精度。然而,復雜的網絡結構導致網絡推理時間減緩,限制了模型在許多計算資源有限場景下的部署和使用。為了克服計算開銷和內存容量限制問題,許多學者提出具備實時性且輕量化的網絡。Paszke等[8]提出輕量化網絡ENet,舍棄下采樣最后階段來減少參數量,但信息提取不完整。Howard等[9]提出的MobileNets使用深度可分離卷積,可以降低網絡參數但會對檢測精度產生影響,在此基礎上改進的MobileNetv2模型體量更小且性能更優。Tan等[10]設計跨尺度連接的特征融合模塊Bi-FPN并使用聯合縮放方法,提出了EfficientNet,網絡參數少且推理速度較快。Han等[11]提出Ghost模塊,構建了全新的輕量級神經網絡GhostNet。上述模型在推理速度上更快且具備更少參數,但精度與非輕量化網絡相比仍然有很大上升空間。本文基于FastSCNN網絡[12],提出一種雙分支策略融合的輕量化語義分割網絡,包含全局信息提取分支和空間信息提取分支。全局信息提取分支使用帶殘差的bottleneck塊并利用空洞空間金字塔池化模塊獲取多尺度信息;空間信息提取分支內添加卷積塊注意力模塊,提高對建筑物目標的識別精度。將本文方法在航空遙感圖像數據集上進行對比,經過實驗分析,本文設計的模型大小僅1.19 M,正確建筑物提取精度可達92.09%,IoU可達86.28%。
為盡可能降低模型參數量以及計算量的同時確保模型分割精度,本文在FastSCNN網絡基礎上,改進提出新的雙分支融合策略的輕量級卷積神經網絡,網絡整體結構如圖1所示。

圖1 雙分支融合策略網絡模型
網絡對輸入圖像的底層特征高效提取,雙分支共享圖像底層特征。全局信息提取分支連續使用卷積塊并添加ASPP模塊代替下采樣,最后利用雙線性插值上采樣恢復空間分辨率。空間信息提取分支將卷積塊注意力模塊融進殘差結構內。雙分支特征融合兩部分語義特征信息,從而更加準確快速完成遙感影像中建筑物的提取。
卷積層數較深的網絡包含大量參數且學習和推理速度較慢,會帶來梯度彌散和爆炸等網絡退化問題。Sandler等[13]在MobileNetV2網絡中基于原始的殘差結構重新設計了反向殘差瓶頸結構。將其引入到本文的網絡中,每個結構內分別包含2個、3個殘差塊。
當輸入和輸出大小相同時,對瓶頸殘差塊進行短路連接。該結構逆轉原始通道維度,利用深度可分離卷積減少參數和浮點數運算數量。在最后利用空洞空間金字塔池化聚合多尺度上下文信息。
在進行全局信息提取過程中,下采樣操作可有效降低網絡層數增加帶來的計算量,但下采樣增大感受野的同時降低空間分辨率,這會直接導致對目標提取精度降低。改進后的ASPP模塊包含3個空洞率分別為6、12、18的空洞卷積層和1個1×1卷積層以及全局平均池化層。空洞卷積可以在獲取較大感受野的同時減少分辨率損失,1×1卷積層可用于提取更細小的目標,而全局平均池化層能夠整合特征信息。從不同尺度提取特征融合,得到最終結果。改進的ASPP模塊利用并行濾波器有效增強了語義分割效果。
卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)是一種簡單有效的前饋卷積神經網絡注意模塊[14]。CBAM組合通道注意力機制和空間注意力機制,將得到的權重與輸入特征圖相乘進行自適應特征細化。
1.4.1 通道注意力
通道注意力模塊(channel attention module,CAM)使用一個新的神經網絡結構計算特征圖像各個通道的權重。Squeeze操作進行全局平均池化,將特征圖從[H,W,C]壓縮為[1,1,C]的特征向量;Exciatation操作給每個特征通道生成一個權重值,輸出的權重值數目與特征圖通道數相同,大小均為[1,1,C],最后將歸一化權重加權到每個通道的特征上,生成加權后的特征圖。利用兩個全連接層學習特征權重,會增加更多參數,ECANet做了進一步提升,通過一維卷積來完成跨通道之間的信息交互,卷積核的大小通過自適應函數進行變化,可以使得通道數較多的層進行更多跨通道交互。自適應函數為:

1.4.2 空間注意力
空間注意力模塊(Spatial attention module,SAM)保證空間維度不變的同時,壓縮通道維度,使網絡更加聚焦目標位置信息,提高對目標顯著特征的篩選能力。SAM沿通道分別應用平均池化和最大池化操作,連接后生成有效的特征描述符,大小為[H,W,2]。對此特征描述符進行卷積操作,經激活函數后得到空間注意特征圖。計算公式如下所示:
Ms(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))

為驗證本文設計網絡模型的有效性,本文采取WHU數據集。經滑動窗口處理后,圖像被分為4 736張、2 416張、1 036張的訓練集、測試集和驗證集。
實驗平臺為i5-12490F@3.00 GHz八核處理器,NVIDIA GeForce RTX 3060 12 GB顯卡。Python版本3.7,PyTorch版本1.7.1。選用交叉熵損失函數、Adam優化器,批處理大小為8,學習率為1e-3。
為檢驗設計模型性能以及分割效果,本文將設計網絡與其他深度學習網絡模型在WHU建筑物數據集上進行實驗。實驗結果如圖2所示。

圖2 各網絡模型提取結果
從左到右依次為原始圖像、標簽、ContextNet結果、SegNet結果、FastSCNN結果、DeepLabV3+結果以及本文網絡結果。如圖,在WHU數據集上,本文提出改進網絡針對大小尺寸不同的建筑物模型均有較好的識別效果。圓環標注區域(1-2行)的對比發現,ContextNet、SegNet以及FastSCNN對較為緊密的大型建筑物識別會出現空洞、不連續等現象,本文的網絡一定程度上弱化了這些問題,但并未完全解決,DeepLabV3+模型相對表現較好。從圓環標注區域(3行)可以得出,ContextNet、SegNet、FastSCNN都存在邊緣不連續的問題,本文所改進的網絡和DeepLabV3+一定程度上表現較好。圓環標注區域(4行)可觀察到網絡整體沒有出現太多漏檢的現象,但對于小型建筑物,本文設計網絡更貼合實際形狀。從方形標注區域(2行)可以看出,在建筑物提取過程中,除DeepLabV3+之外均存在對于部分建筑物連續識別能力不夠。方形標注區域(3行)則表明在建筑物提取過程中,均存在建筑物邊角不清晰,邊角小范圍內形成錯分等現象。
如表1所示為不同模型在WHU數據集上的精度對比。通過對比可得,本文改進網絡與其他多路徑網絡FastSCNN、ContextNet相比,精度分別提升了0.47%、0.38%,IoU分別提升了3.51%、2.81%,模型大小較為接近。對比之下,DeepLabV3+網絡性能效果較好,但其模型參數量達到64.4 MB,推理速度慢。本文所改進的網絡在Precision上取得最優,但模型大小僅為1.19 MB,能很好地克服計算開銷和內存容量,表明對于建筑物樣本的提取效果最好。

表1 各模型評價指標
卷積神經網絡層數的增多帶來更高精度分割效果的同時也對計算機硬件提出了更高的要求,本文設計的雙分支策略輕量化語義分割網絡,有效提升了建筑物分割效果,模型參數較小且具備較快的推理速度。在公開的航空遙感圖像數據集上進行實驗,結果表明具有較高精度的同時參數量較小,更適合快速提取高分辨率遙感影像建筑物信息。