黃 杰,蔣 豐
(廣東工業大學 自動化學院,廣州 510006)
建筑物是人們在工作和學習中不可或缺的活動場所,從遙感影像中提取建筑物相關目標對于GIS數據庫更新、土地利用、城市規劃和自然災害探測等工程具有重要意義[1].因此研究人員針對建筑物的提取提出了許多基于傳統或者深度學習的分割方法.
建筑物目標豐富的直線、直角和陰影等特性可被傳統方法作為建模和分割的依據.然而傳統方法的構建需強烈依賴于對特定目標的先驗知識,過程費時費力,因此近年來,更多基于深度學習語義分割的建筑物提取方法被研究人員所提出.Zhong等人[2]利用預訓練參數對網絡進行訓練,通過對比分析FCN網絡中解碼器的特征融合層數對模型精度的影響,提出了改善后的網絡模型,但由于其較為簡單的網絡結構調整,得到的遙感影像仍存在信息缺失問題.尚群鋒等人[3]針對遙感影像中小物體特征在高緯度難以被提取的問題,提出了改進的DeconvNet網絡,該網絡通過記錄編碼過程的池化索引并將其應用到解碼恢復過程的方式改進網絡解碼部分,從而減少了圖像恢復的盲目性,并最終提高了對小物體的分割效果,但該方法需占用較大的機器內存,對于大物體容易出現邊緣不平滑的情況.趙斐等人[4]提出了一種端到端的語義分割模型.該模型秉承Unet算法中編解碼結構的思想,通過引入注意力機制調整金字塔中各個通道中特征的權重,提取具有信息側重的多尺度特征,解決物體邊緣分割模糊的問題,同時小目標漏檢情況也得到了改善.蘇健民等人[5]專注于像素間的聯系問題,引入神經網絡中常被人們忽略的后處理操作并提出了一種基于Unet的改進方法,其首先采用集成學習的策略,為建筑、道路和水體等每一類地物目標訓練一個二分類模型,隨后將各預測的子圖進行組合以生成最終的分割結果,該模型性能雖獲得一定的提高,但是“分類訓練+后處理”的分割策略在操作上仍稍顯繁瑣,且部分空間信息仍存在丟失問題.
盡管上述方法相比傳統方法能更便捷地實現對遙感影像中建筑物等目標的分割,但他們未能綜合考慮建筑物目標輪廓的多樣性、網絡編碼過程空間和細節信息的丟失以及深層語義信息間上下文聯系存在不足等問題,導致了網絡模型在面對建筑物邊緣以及對應的分割完整性上仍有提升的空間.為此本文基于經典Unet算法[6],通過設計下采樣旁路網絡和聯合變形卷積的殘差金字塔網絡,提出了多尺度融合的變形殘差金字塔網絡方法,有效提高了模型的分割精度.
本文所提多尺度融合的變形殘差金字塔網絡模型(Multi-scale fusion of Deformation Residual Pyramid Network,MDRP-Net)如圖1所示.其主要包含3個部分:下采樣旁路主干網絡、聯合變形卷積的殘差金字塔網絡結構和級聯上采樣解碼器.下采樣旁路主干網絡由VGG16[7]主干網絡和下采樣旁路網絡組成,主干網絡主要用于挖掘建筑物深層次特征; 下采樣旁路網絡結構則把輸入影像進行不同程度的下采樣,用于對VGG16網絡獲取的多層次特征圖進行融合補充.對于VGG16主干網絡次末端的卷積層輸出,其既作為提取網絡最深層特征的卷積層輸入,也作為聯合變形卷積的殘差金字塔網絡結構的初始輸入,以并行融合方式增加深層語義的豐富程度.網絡的級聯上采樣解碼器,接收綜合下采樣旁路主干網絡和聯合變形卷積的殘差金字塔結構兩部分的多層次、多尺度特征信息圖,然后把獲取的多特征融合圖向前上采樣逐步恢復圖像尺寸與細節,最后將其送入網絡的末端判別器實現對遙感建筑物影像的預測和分割

圖1 多尺度融合的變形殘差金字塔網絡模型
1.2.1 下采樣旁路主干網絡
經典Unet模型被廣泛地應用醫學圖像分析的領域,但由于簡單的編碼結構,使其無法適應背景信息更為復雜、干擾信息更多的對象.而VGG網絡相比18個主流特征提取網絡具有更優的遷移性[8],因此本文把網絡的編碼結構使用VGG16網絡將其替換并作為主干網絡,同時,對修改后主干網絡進一步添加一個下采樣旁路結構作為網絡補充.
在該旁路網絡中,本文使用最大池化操作將網絡最初輸入影像分別下采樣至原大小的1/4、1/16、1/64和1/256倍,此時能得到4種不同尺寸的圖像,并將其記錄為scale1-scale4.在主干網絡中,每個包含卷積池化的blockl(l=1,2,3,4)塊也能得到4種不同分辨率的輸出圖像,這些輸出圖像剛好與scalel圖像大小相同.我們將blockl塊的輸出圖像和scalel的圖像進行相加融合,分別作為下一層網絡的輸入進而使下一層卷積層獲得兩個尺度的特征信息.
1.2.2 聯合變形卷積的殘差金字塔結構
根據變形卷積方法的思想[9],其可通過訓練獲取卷積核偏移坐標從而指導卷積核采樣點的選取.這意味著利用該偏移坐標網絡可以更針對性地對建筑物輪廓特征進行模擬與提取.然而偏移坐標存在著偏移大小的限制,這使得變形卷積核的感受野與傳統卷積核相差不大,導致變形卷積在面對多尺度目標時仍存在不足,因此本文引入金字塔池化結構以擴大變形卷積對不同尺度特征的捕獲能力.同時,在Deeplab[10]系列中,作者強調空洞卷積的使用和提出ASPP模塊來聚合不同模塊和不同尺度間的上下文信息.這些方法雖然有效,但是他們僅簡單地對尾部特征進行拼接的方式會導致上下文間仍存在語義鴻溝的問題.綜合上述問題,本文設計一種聯合變形卷積的殘差金字塔模塊(Deformation Residual Spatial Pyramid,DRSP),如圖2所示.

圖2 聯合變形卷積的殘差金字塔結構
與DeepLabV3+[11]方法使用金字塔結構的方式相比,本文提出的DRSP模塊是基于主干網絡block4特征圖作為輸入的,其首先經過變形卷積獲取變形特征,再進一步對變形特征提取多尺度上下文信息.同時,為了減少上下文語義信息的差距,不同尺度特征之間使用殘差模塊來逐層聚合它們.在形式上可描述為式(1).

其中,Xraspp為DRSP模塊的最終聚合特征,dn為卷積核膨脹率,H([.])為通道串聯操作,Xn代表從變形特征獲取的不同尺度特征,f代表殘差模塊[12],⊕表示元素求和.在DRSP模塊逐層聚合上下文信息的過程中,卷積核膨脹率逐漸增大,同時其膨脹率大小根據Wang等人[13]的公式推薦以及實驗的嘗試,設定為1、2、5、9、13.
本實驗數據集選取遙感建筑物影像Massachusetts Buildings[14].數據集中包含了137張訓練影像數據、4張驗證影像數據、10張測試影像數據,每張圖像尺寸為1500×1500像素.為了適應硬件條件和便于訓練,本文對原圖按256×256像素大小進行裁剪.裁剪后按隨機旋轉、引入高斯噪聲、隨機縮放策略對訓練數據進行擴增,最終獲得訓練集大小為11 664張,測試集大小為360張,驗證集大小為144張.
實驗設計部分,選用兩個使用了金字塔池化結構的網絡方法PSPNet[15]和DeepLabV3+與本文方法進行對比,同時,另設計3組實驗對比各改動方法對網絡性能的影響.實驗1:在經典Unet算法基礎上,單獨添加下采樣旁路主干網絡; 實驗2:在經典Unet算法上,單獨添加DRSP模塊; 實驗3:在經典Unet算法上,同時添加下采樣旁路主干網絡和DRSP模塊.
訓練樣本輸入大小為256×256,batchsize大小為4,訓練100代.網絡訓練過程,不同網絡模型使用超參數相同:初始學習率為0.01,學習率衰減率為1e-2,動量值為0.9.訓練過程中使用監測器對測試集損失值進行監測,當損失值連續50代沒有下降,則認為模型訓練完畢,訓練提前停止.
對于建筑物遙感影像語義分割,是屬于二分類的任務,網絡模型在訓練過程中將使用交叉熵作為損失函數,其表達式如下:

其中,n表示類別數量,yi表示真值,?i表示當前像素預測的值.
實驗結果評價指標采用均交并比MIoU[2]和可用于衡量二分類模型精確度的指標F1-score[16],計算公式如下:

式中,Pii表示預測正確的像素,Pij表示預測為建筑物,實際為非建筑物的像素,Pji表示預測為非建筑物,實際為建筑物的像素,Precision表示精確率,Recall表示召回率.
圖3和表1分別是各實驗模型損失值對比曲線和模型測試結果的匯集.

表1 模型測試結果匯集

圖3 損失函數值對比曲線
PSPNet與DeepLabV3+是語義分割網絡中具有代表性的方法,兩者曾在PASCAL VOC-2012數據集獲得過優異的成績,盡管在面對遙感建筑物數據集時其損失函數曲線相比Unet更加平滑,然而兩者在最終的評價指標以及可視化結果上的表現均不如經典的Unet網絡.
實驗1通過將VGG16主干網絡與下采樣旁路網絡兩者特征按層次融合的方式,使得網絡在挖掘更深層特征的同時具備與淺層特征信息的聯系.相比改進前的網絡,改進后網絡損失函數值波動幅度明顯減小,整體損失值降低了約0.02,且訓練迭代約75次時損失值再度降低并最終進入穩態.經測試,改進后網絡最終在F1-score和MIoU指標分別獲得了1.1%和1.4%的提升.
實驗2將DRSP結構與主干網絡兩者的輸出特征進行融合,盡管該網絡損失值函數曲線沒有實驗1平滑,但相比改進前網絡其損失函數波動浮動和損失值均有一定程度地改善,經測試,實驗2網絡在F1-score和MIoU指標獲得了0.6%和0.8%的提升.
實驗3通過把實驗1與實驗2改進方法共同作用于原網絡,圖3中對應的曲線顯示表明改進后的網絡緩解了單獨引入DRSP模塊時存在的損失函數曲線的波動,且訓練至大約20代時就達到此前實驗最優損失值附近,同時在迭代約60代時進入穩態.最終測試結果也比兩組單獨的改進實驗效果更好,最終其在F1-score和MIoU指標上相比Unet算法分別提升了1.6%和2.1%.
為了更直觀感受模型的改進對分割性能所帶來的影響,本文把個各實驗模型語義分割的部分預測圖進行了可視化,如圖4所示.圖中展示了本文所提方法的優勢,其主要體現在建筑物與背景模糊分界的區域以及對中大型建筑物分割的完整性這兩個方面.受光線和陰影影響,建筑物邊緣與背景區域區分度低,如圖4(a)-圖4(d)中建筑物邊緣存在綠植、陰影或者顏色相似的道路等干擾,導致建筑物與背景出現分界模糊的情況,但相較原Unet網絡,本文所提方法能更好地區分此類建筑物的邊界區域,以改善對建筑物邊緣分割的準確性.另一方面,由于原始模型僅使用單一規則的卷積核和較簡單主干網絡,致使其對不同尺寸特別是較大型建筑物特征信息捕獲能力存在一定限制,如圖4(e)-圖4(g)中建筑物中間部分出現的漏空現象.可以看出,相對未改進的方法,本文所提方法擁有更強的多尺度目標的適應能力和特征信息保留的能力,從而在面對中大型建筑物時具有更完整的分割.

圖4 各實驗模型建筑物分割效果對比
本文研究了相關語義分割網絡在遙感建筑物影像中的應用,針對網絡中傳統卷積核模擬幾何結構特征能力存在不足、對目標尺寸適應能力不足和編碼網絡中特征信息容易丟失的問題,提出了下采樣旁路主干網絡和多尺度融合的變形殘差金字塔卷積網絡.該網絡模型融合下采樣旁路主干網絡、變形殘差金字結構和級聯上采樣解碼器3部分特征,實現了對原模型網絡結構的優化.最后,本文在Mnih遙感建筑物數據集上進行了對照實驗,其實驗指標和可視化結果均驗證了本文改進措施的有效性.