林娜,黃韜,孫鵬林,王玉瑩
(重慶交通大學(xué) 智慧城市學(xué)院,重慶 400074)
近年來,高空間分辨率遙感影像的獲取越來越便捷,建筑物作為最常見、最復(fù)雜的地物信息之一,基于高分遙感影像的建筑物提取對遙感影像制圖、地理信息系統(tǒng)的數(shù)據(jù)獲取和智慧城市建設(shè)具有重要的應(yīng)用價值。
傳統(tǒng)建筑物提取方法需要人工設(shè)計特征。2014年,胡榮明等[1]提出了增強形態(tài)學(xué)建筑物指數(shù),利用該指數(shù)和幾何形狀約束提取了高分辨率建筑物輪廓。2017年,林雨準等[2]綜合利用光譜、形狀、紋理特征和多尺度分割的建筑物分級提取方法進行建筑物提取。傳統(tǒng)建筑物提取方法難以適用于復(fù)雜場景且提取精度較低。
卷積神經(jīng)網(wǎng)絡(luò)擁有強大的特征提取能力,能夠通過訓(xùn)練大量的數(shù)據(jù)集自動學(xué)習(xí)特征,使得建筑物自動提取成為可能。2015年,出現(xiàn)了全卷積神經(jīng)網(wǎng)絡(luò)[3](fully convolutional networks,F(xiàn)CN),將全連接結(jié)構(gòu)改為卷積結(jié)構(gòu),可以處理任意尺寸的圖像。2018年,張歡等[4]提出一種深層密集反卷積神經(jīng)網(wǎng)絡(luò),實現(xiàn)了像素級別的建筑物提取。2020年,宋廷強等[5]基于SegNet網(wǎng)絡(luò),增加了空間注意力融合模塊和增強的空間金字塔池化模塊,對建筑物進行提取。
上述都是基于全卷積網(wǎng)絡(luò)的建筑物提取,采用語義分割提取建筑物的二值圖。2017年,Ren[6]提出Faster-RCNN網(wǎng)絡(luò),利用區(qū)域生成網(wǎng)絡(luò)(region proposal network,RPN),減少了候選框的數(shù)量,提高了檢測速度。而He等[7]提出的Mask-RCNN是在Faster-RCNN的基礎(chǔ)上,添加了掩膜分支,能夠?qū)崿F(xiàn)檢測與提取的并行處理,精度更高。2020年,何代毅等[8]在Mask-RCNN網(wǎng)絡(luò)的設(shè)計中添加了路徑聚合網(wǎng)絡(luò)和特征增強功能。2020年,徐勝軍等[9]提出了多尺度特征融合的空洞卷積殘差網(wǎng)絡(luò),改善了復(fù)雜場景下建筑物分割邊界不清晰等問題。2020年,瑚敏君等[10]在Mask-RCNN的基礎(chǔ)上,在特征金字塔后再增加一層卷積操作,以降低混疊效應(yīng),但是大小不一的建筑物仍存在輪廓不完整的情況。
綜上,基于Mask-RCNN的相關(guān)改進能夠?qū)崿F(xiàn)檢測與提取的并行處理,提高建筑物提取精度。本文制作了高分遙感影像建筑物提取數(shù)據(jù)集,并提出基于Mask-RCNN的優(yōu)化算法,解決尺寸不一的建筑物提取輪廓不清晰、不完整的問題。
本文以重慶市渝北區(qū)為研究區(qū),WorldView-2高分辨率遙感影像為數(shù)據(jù)源,其多光譜數(shù)據(jù)空間分辨率為1 m,全色數(shù)據(jù)空間分辨率為0.5 m。影像預(yù)處理及數(shù)據(jù)集制作流程如圖1所示。
本文選擇均勻分布、類別充分、具有代表性的區(qū)域制作標簽。圖2為代表區(qū)域的數(shù)據(jù)集可視化效果對比圖,其中,每個子圖的上圖為原圖,下圖為標簽圖。
本文對原圖和黑白二值圖標簽同步進行數(shù)據(jù)增強,圖3為數(shù)據(jù)增強后的原圖與標簽對比圖。
Mask-RCNN是一種結(jié)構(gòu)清晰的分割網(wǎng)絡(luò),分為特征提取部分、RPN生成候選框、頭部預(yù)測分支3個部分,包含邊界框回歸、分類預(yù)測和二值掩膜。整體網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
特征提取部分由ResNet與特征金字塔網(wǎng)絡(luò)(feature pyramid networks,F(xiàn)PN)構(gòu)成。ResNet網(wǎng)絡(luò)通過添加批量歸一化層和恒等映射結(jié)構(gòu),良好地解決了網(wǎng)絡(luò)退化問題,即當網(wǎng)絡(luò)只使用卷積層和池化層,網(wǎng)絡(luò)層數(shù)不斷加深時,經(jīng)過梯度反向傳播,梯度消失或梯度爆炸的情況。
FPN特征金字塔網(wǎng)絡(luò)主要在特征提取的基礎(chǔ)上增加了自上而下的結(jié)構(gòu),讓不同尺度的特征圖之間進行特征融合,來增強特征圖表征能力,輸入和輸出的特征圖都是多個不同尺度的特征圖。
1)優(yōu)化FPN結(jié)構(gòu)。FPN在特征融合之前,特征提取主干網(wǎng)絡(luò)的不同階段提取到的特征先經(jīng)過1×1卷積進行降維,降到通道數(shù)相同后進行特征融合。但是,不同階段的特征感受野大小不一樣。感受野即特征圖上的點對應(yīng)回原圖上的大小,包含的語義信息不同,將他們的特征直接相加,會減弱特征提取能力,特別是尺度差別較大的場景,提取效果下降。
因此,本文提出了一種優(yōu)化特征金字塔網(wǎng)格,添加了更多的橫向連接、恒等連接、自上而下和自下而上的路徑。圖5為優(yōu)化特征金字塔網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)圖,在每個特征圖上使用1×1卷積來與相鄰路徑中的相應(yīng)特征融合,藍色虛線部分為恒等連接,橫向的藍色實線表示經(jīng)過1×1的卷積改變通道數(shù)。豎向的藍色實線是自下而上的路徑,為了縮短從淺層路徑中的低層特征到深層路徑中的高層特征的路徑,低層特征圖通過步長為2的3×3卷積降采樣為一半大小,然后與高級特征圖融合。綠色實線為跨層上采樣連接,使用最鄰近上采樣對高層特征圖進行上采樣,然后使用3×3卷積使上采樣特征圖與低層特征圖相融合。最后和FPN類似,輸出5個特征圖送入后續(xù)RPN網(wǎng)絡(luò)和ROI Align層。比起傳統(tǒng)FPN,優(yōu)化FPN將更多的低層幾何信息與高層語義信息相融合,提高尺度較小建筑物的識別精度與尺度較大建筑物的定位精度,并且避免了直接相加造成的特征表達能力減弱。
2)優(yōu)化NMS算法。非極大值抑制(non-maximum suppression,NMS)的作用是去除預(yù)測階段產(chǎn)生的重疊檢測邊界框。NMS的不足是當建筑物較為密集的時候,由于重疊度很高的兩個建筑物會被當作是同一個物體,導(dǎo)致刪除掉其中得分較低的建筑物而出現(xiàn)漏檢。
本文用Soft-NMS替換原始NMS算法。Soft-NMS算法是在每輪迭代時,先選擇分數(shù)最高的預(yù)測框作為M框,并對每一個有重疊度相鄰檢測邊界框bi分數(shù)重新計算,越是與M框重疊度高的檢測邊界框,得分減少越多,當該框的新分數(shù)低于某設(shè)定閾值時,將該框刪除。重新計算分數(shù)用到的高斯權(quán)重函數(shù)如式(1)所示。
(1)
式中:bi為待處理的邊界框;si為bi框更新得分;σ為設(shè)置的超參數(shù)。
Soft-NMS可以在不增加計算量的前提下改善NMS的不足。
本次實驗的硬件環(huán)境如下:中央處理器為AMD R7 3700X @ 3.60 GHz,內(nèi)存為16 GB,顯卡為NVIDIA RTX2060。
采用遷移學(xué)習(xí)與交叉驗證的方法,使用ImageNet數(shù)據(jù)集上的ResNet-50預(yù)訓(xùn)練模型的參數(shù),節(jié)省訓(xùn)練時間。交叉驗證可以有效地避免因數(shù)據(jù)集劃分的隨機性而引起的模型不穩(wěn)定問題,提升模型的魯棒性。
實驗數(shù)據(jù)采用自制的重慶市渝北區(qū)數(shù)據(jù)集,一共有大小為1 024像素×1 024像素的圖片2 900張。本次實驗選取5折交叉驗證,即利用固定隨機種子將原圖和標簽圖同時化分成5等份,即每份為580張影像,每次輪流將其中4份作為訓(xùn)練集,1份作為驗證集,一共進行5次實驗,每次實驗都會得出相應(yīng)的模型和精度,5次結(jié)果的平均值作為對算法精度的估計。依據(jù)經(jīng)驗初始學(xué)習(xí)率設(shè)為0.002 5,訓(xùn)練過程使用SGD優(yōu)化方法,迭代次數(shù)設(shè)為30 000次。
選取準確率ACC、平均精確率AP、損失值Loss為評價指標,Mask-RCNN的損失函數(shù)分為分類損失函數(shù)、回歸損失函數(shù)與mask損失函數(shù),表達式如式(2)至式(5)所示。
Loss=Lcls+Lbbox+Lmask
(2)
(3)
(4)

(5)
式中:TP是預(yù)測為正,實際為正的數(shù)目;TN是預(yù)測為負,實際為負的數(shù)目;FP是預(yù)測為正,實際為負的數(shù)目;FN是預(yù)測為負,實際為正的數(shù)目;ACC準確率為所有的預(yù)測中預(yù)測正確的占比;Precision精確率是從預(yù)測角度來看,正類被預(yù)測為正類的個數(shù)占總的正類預(yù)測個數(shù)的比例,也叫查準率;AP為在不同IoU下的平均精確值。
本次實驗將原始的以ResNet-50為特征提取主干網(wǎng)絡(luò)的Mask-RCNN稱為Mask-RCNN+ResNet-50,將本文提出的優(yōu)化FPN結(jié)構(gòu)與優(yōu)化NMS算法稱為優(yōu)化Mask-RCNN,二者共同在數(shù)據(jù)集上進行實驗。
圖6為訓(xùn)練過程損失值變化曲線圖,圖中藍色線為Mask-RCNN+ResNet-50算法,橙色線為優(yōu)化Mask-RCNN算法。可以看出,優(yōu)化Mask-RCNN的曲線震蕩幅度更小,最后得到的損失值更低,說明優(yōu)化后的算法提升了穩(wěn)定性,得到了更高的提取精度。
圖7為兩種算法在同一測試集上的結(jié)果對比圖,上面為Mask-RCNN+ResNet-50算法的建筑物提取結(jié)果,下面為優(yōu)化Mask-RCNN算法的建筑物提取結(jié)果,黃色邊框為檢測的類別與得分,內(nèi)部紫色為建筑物輪廓掩膜。圖7(a)為尺度較大的廠房區(qū),Mask-RCNN+ResNet-50算法存在漏檢且邊界超出廠房范圍,導(dǎo)致掩膜不準確,優(yōu)化后的算法很好地解決了此問題。圖7(b)為高層建筑物區(qū),算法都很好地進行了提取,優(yōu)化后的算法邊界框得分更高,表示精度更高,且沒有出現(xiàn)建筑物粘連的情況。圖7(c)為尺度較小的別墅區(qū),Mask-RCNN+ResNet-50算法存在漏檢的建筑物,優(yōu)化算法在添加更多的路徑融合后,提升了特征提取的能力,漏檢數(shù)明顯減少。圖7(d)為密集的鄉(xiāng)鎮(zhèn)區(qū),背景復(fù)雜,土地紋理特征類似,建筑物尺寸小且密集,Mask-RCNN+ResNet-50算法存在較多誤檢和漏檢,優(yōu)化算法漏檢數(shù)減少,在面對復(fù)雜背景區(qū)域的影響下,魯棒性更強。
表1為算法在數(shù)據(jù)集上交叉驗證實驗的定量結(jié)果對比。從表1可以看出,本文提出的優(yōu)化Mask-RCNN算法準確率為93.01%,與Mask-RCNN+ResNet-50相比提高了4.84個百分點,在IoU閾值為0.5時,優(yōu)化Mask-RCNN算法的平均精確率為88.4%,與Mask-RCNN+ResNet-50相比提高了4.9個百分點,IoU閾值越大,對算法定位的準確性要求越高,所以平均精確率有所下降,但是依然優(yōu)于原始Mask-RCNN算法,優(yōu)化算法的整體分類、定位與掩膜精度更高。

表1 交叉驗證測試結(jié)果對比 %
本文針對國內(nèi)高分辨率遙感影像建筑物數(shù)據(jù)集不足的情況,選取了重慶市渝北區(qū)0.5 m分辨率的遙感影像,制作了實地面積約70 km2建筑物提取數(shù)據(jù)集。本文在Mask-RCNN的特征融合階段,融合更多的橫向連接、自下而上和自上而下路徑,更有利于大建筑物和小建筑物的統(tǒng)一識別。對于在數(shù)據(jù)集上的交叉驗證實驗結(jié)果,本文所提出的優(yōu)化Mask-RCNN算法平均精度AP為88.4%,與Mask-RCNN+ResNet-50相比提高了4.9個百分點,漏檢更少,邊界框更貼合,建筑物輪廓掩膜效果更好。
本文的不足之處為采用的二階段檢測計算量大,相比一階段檢測計算速度慢、顯存占用大。如何在保證精度的前提下,對高分遙感影像建筑物進行實時檢測與分割是研究的重點與難點。