張 艷,王翔宇,張眾維,孫葉美,劉樹東
(天津城建大學 計算機與信息工程學院,天津 300384)
遙感影像建筑物提取在城市規劃、人口估計、土地利用分析、地形圖制作和更新、建筑物變化檢測等應用中都具有極為重要的意義,但遙感影像特征復雜、分辨率高、數據量大等特點給建筑物提取研究帶來了極大的挑戰。
建筑物提取可以看成是一種特定的圖像分割任務——將建筑物從周圍的背景中分割出來。其算法主要分為4類:基于閾值、基于邊緣、基于區域和基于分類的方法。基于閾值的方法通過手動或自動選擇的閾值,將具有不同值的像素分配到不同的部分[1],但不能在灰度值相似的不同區域之間進行區分;基于邊緣的方法采用Gaussian[2]和Sobel[3]等邊緣檢測濾波器,檢測相鄰像素之間的突變并生成邊界進行分割;基于區域的方法通過聚類[4]或形狀分析[5]分割圖像的不同部分,但由于圖像的亮度和紋理條件的多樣性,基于邊緣或基于區域的方法無法提供穩定和通用的結果;基于分類的方法將圖像分割視為對每個像素進行分類的過程[6],因此該方法可以通過適當的特征提取和分類器來產生更精確的分割。
傳統的特征提取方法利用經驗設定特定的特征來表示建筑物,通常包括像素[7]、光譜[8-9]、邊緣[10-11]、形狀[12-13]、語義[14]等在內的相關指標,但這些指標會隨著季節、光照、尺度、建筑物風格和環境發生較明顯的變化。因此,這種憑經驗設計特征的方法特征表征能力較差,依賴先驗信息較多,只能處理特定環境的建筑物提取。
隨著深度學習的發展,能夠自動學習并提取深層次特征的卷積神經網絡在目標檢測[15-17]、圖像分類[18-20]、顯著性目標檢測[21-22]等領域的應用越來越廣泛,其在遙感影像的處理方面也取得了一定進展。MAGGIORI等[23]和YUAN[24]基于全卷積神經網絡(Fully Convolutional Network,FCN)框架改進用于建筑物的像素級語義分割,但分割結果較粗略,分割區域不均勻、不完整;許慧敏[25]利用 U-Net 模型結合歸一化數字表面模型(normalized Digital Surface Model,nDSM)數據進行高分辨率遙感影像分類,并在此基礎上采用全連接條件隨機場(Conditional Random Fields,CRFs)進行影像后處理,得到了較好的結果,但是在建筑物提取方面存在邊界不準確的問題;WU等[26]提出了多約束全卷積網絡(MC-FCN)進行建筑物提取,通過不同顏色標注了漏檢和誤檢情況,但對于背景復雜的情況,存在誤檢和漏檢情況;季順平等[27]提出尺度不變性遙感影像建筑物提取網絡(SU-NET),將建筑物提取推進到一個新的自動化水平,但是由于遙感成像機理、建筑物自身、背景環境的復雜性,仍然存在邊界模糊和提取區域不完整的問題;張春森等[28]構造了稀疏約束語義分割模型(LSPNet),在提取速度上有所提高,但是出現了對小型建筑未能識別、誤檢地物以及一些建筑物的邊緣未能很好分割的情況。綜上所述,遙感影像建筑物提取仍存在小目標漏檢、分割邊界模糊和區域不完整的問題。
針對上述問題,筆者提出了一種用于建筑物提取的邊界感知網絡(Boundary-Aware Network,BANet)。該網絡不依賴于任何先驗條件,可直接輸入遙感影像,通過特征融合、特征增強和特征細化網絡提取特征,在復雜背景下能有效地降低建筑物的誤檢和漏檢,提高了建筑物提取的魯棒性和準確率。特征融合網絡采用編碼-解碼結構,為獲得更具判別力的特征,設計了交互聚合模塊(Interactived Aggregation Module,IAM)來實現特征信息的深度融合,不僅融合了高層語義特征和低層局部特征,而且融合了全局上下文特征,提高了特征的利用率。為增強建筑物區域特征,設計了特征增強網絡,通過逐像素相減和級聯操作增強對漏檢區域的學習,提取了更加完整的建筑物特征和小建筑物特征。此外,為進一步細化邊界,采用特征細化網絡提取細節信息以獲得更加豐富的建筑物邊界特征。為了使得網絡更加穩定且有效,將二值交叉熵損失和結構相似性損失相結合,從像素和圖像結構兩個層次監督模型的訓練學習,以更好地學習建筑物區域和邊界。
筆者提出的端到端的邊界感知網絡(BANet)包括特征融合網絡、特征增強網絡及特征細化網絡3個部分,整體網絡框架如圖1所示。特征融合網絡是以編碼-橋接-解碼組成的密集監督網絡,對輸入圖像進行特征提取與融合,其中設計交互聚合模塊配合短連接的使用對提取特征加以融合,得到了粗略的特征;特征增強網絡是為解決大建筑物圖像內部區域不完整和小建筑物漏檢問題而設計的,通過逐像素相減的方式對漏檢區域和目標加強學習;特征細化網絡以多尺度殘差結構對邊界特征和細節特征進一步學習,得到最終的提取結果。給該網絡輸入彩色圖像,通過特征融合網絡、特征增強網絡和特征細化網絡,進行特征的提取融合、區域增強和邊界細化,得到了提取的二值圖像結果,其中黑色像素標注的區域代表背景,白色像素標注的區域為提取的建筑物。

圖1 邊界感知網絡整體結構


圖2 特征融合網絡
對于背景雜亂、前景干擾、多個建筑物提取等場景,簡單地將低層特征和高層特征融合,無法準確地檢測建筑物區域。全局上下文有利于從全局的角度推斷不同建筑物或同一建筑物不同部分之間的關系,故在編碼模塊后設計橋接模塊。橋接模塊由膨脹率為2的3個卷積層組成,提高了網絡的有效感受野,提取了全局上下文特征:
(1)



(2)

(3)


(4)
(5)


(6)
(7)
最后,將3個層次特征級聯起來,通過一個3×3卷積獲得最終的綜合特征:
(8)
其中,°表示級聯操作。
特征融合網絡的整體表達式為
fFF=Fc(FD(FB(FE(Fc(IRGB))))) ,
(9)
其中,FE表示編碼模塊的操作,FB表示橋接模塊的操作,FD表示解碼模塊的操作。

圖3 特征增強網絡
遙感影像背景復雜且建筑物尺度不一。大建筑物圖像內存在多種結構外觀,導致很難被當成一個完整的建筑物分割,進而造成區域提取不完整;而小建筑物則容易被復雜場景湮沒,造成漏檢。因此,為加強對不同尺度特征的提取,設計了特征增強網絡,如圖3所示。
通過對fG和fFF特征圖的逐像素差值的學習,可實現對漏檢區域的單獨學習,以強化小目標和漏檢區域特征,補全建筑物區域,起到特征完善的作用。將訓練得到的結果與特征融合網絡的提取結果進行級聯,得到最后的預測結果。特征增強網絡表達式為
fSUB=fG-fFF,
(10)
fFE=FR(FR(fSUB)°fFF) ,
(11)
其中,fSUB表示漏檢目標特征圖,fFE表示特征增強網絡得到的特征圖,FR表示包含批歸一化和ReLU激活函數的卷積操作。
為進一步細化提取到的輪廓,采用特征細化網絡將特征增強網絡的輸出進一步細化,網絡結構如圖4所示。

圖4 特征細化網絡
首先將特征增強網絡的輸出fFE送入帶有下采樣的殘差塊,提取細節特征;然后利用上采樣層將特征圖映射回輸入大小,得到特征增強網絡的輸出與真實標簽之間的殘差值fRES,使提取的建筑物邊界更加清晰;最后利用逐像素相加得到建筑物提取結果fFR。該網絡的表達式為
fFR=fFE+fRES。
(12)
二值交叉熵損失可廣泛應用于建筑物提取中,有利于加速模型收斂。但是二值交叉熵損失不考慮鄰域信息,應用在遙感影像建筑物提取中時模型將會嚴重偏向背景,使得最后的預測結果不準確。而結構相似性損失考慮了像素的局部領域,賦予邊界更高的權重,即使邊界上的預測概率和前景的其余部分是相同的,邊界附近的損失也相對更高。故為得到更高質量的區域分割效果和更清晰的邊界,筆者結合了二值交叉熵損失函數和結構相似性損失,從像素和圖像結構兩個層次監督模型的訓練學習:一方面使模型關注單一像素點預測的準確性,另一方面結合結構信息可得到更為全面準確的提取結果。使用該損失函數對整個網絡模型進行迭代訓練,指導整個過程收斂。損失函數L定義為
(13)

二值交叉熵損失定義如下:
LBCE=-∑[G(r,c)log(P(r,c))+(1-G(r,c))log(1-P(r,c))] ,
(14)
其中,G(r,c)∈(0,1),表示像素(r,c)的真實標簽;P(r,c)表示預測為建筑物的可能性。令x={xj:j=1,…,N2},y={yj:j=1,…,N2},x,y分別表示從預測圖和二進制真實標簽中裁剪出來的兩個大小為N×N的對應圖像塊的像素值。x和y的結構相似性損失定義如下:
(15)
其中,μx,μy和σx,σy分別是x和y的均值和標準偏差;σxy是它們的協方差;C1=0.000 1和C2=0.000 9,分別表示常數,以避免分母為零。
采用公共數據集WHU building dataset進行訓練測試。該數據集是于 2019年公開的高分辨率遙感影像數據集,適用于建筑物提取。訓練數據集包含4 736張遙感影像建筑物RGB圖像和對應的4 736張二值標簽圖;測試集包含2 416張遙感影像建筑物圖像以及對應的2 416張二值標簽圖。利用交并比(Intersection over Union,IoU)、準確率(Precision,P)和召回率(Recall,R)對實驗結果進行評估。交并比指算法檢測到的建筑物像素與真實的正像素的交集以及它們的并集之間的比值,定義如下:

(16)
其中,TP表示正確檢測的建筑物特征;FP表示被錯誤檢測為建筑物特征的非建筑物特征;FN表示被錯誤檢測為非建筑物特征的建筑物特征。
準確率指算法檢測到的建筑物像素中真實像素的百分比,定義如下:

(17)
召回率指算法檢測到的建筑物像素占真實標簽正像素的百分比,定義如下:

(18)
為驗證文中算法的有效性,首先對BANet進行總體性能分析,然后與U-Net、SegNet、MC-FCN、SU-Net、LSPNet算法進行對比分析。實驗硬件環境為Intel(R) Core(TM) i7-7700 CPU @ 3.60 GHz,16 GB內存,Nvidia GeForce GTX 1080。實驗在Windows10 64 bit系統下進行。選用Pytorch深度學習框架搭建網絡,并通過Python實現算法的編程,使用Adam優化器來訓練網絡。實驗中初始學習速率為0.000 1,設置了16批次,迭代次數為478 336次。
為了驗證筆者提出的邊界感知模型BANet中交互聚合模塊、特征增強網絡和結構相似性損失函數的有效性,針對不同模型進行了消融實驗。模型1未添加交互聚合模塊和特征增強網絡,采用二值交叉熵損失函數與結構相似性損失函數的結合進行訓練;模型2在模型1的基礎上添加了交互聚合模塊,損失函數與模型1相同;模型3在模型2的基礎上添加特征增強網絡,采用二值交叉熵損失函數訓練;模型4是筆者提出的模型,采用二值交叉熵損失函數和結構相似性損失函數的組合。所有實驗在WHU數據集上進行測試,通過定量計算,以客觀評價指標比較不同網絡模型性能。結果如表1所示,視覺效果比較如圖5所示。

表1 不同網絡模型實驗結果客觀指標對比
由表1可看出,模型2的交并比相比模型1提高了約1.8%,準確率提高了約1%;模型4比模型2測試圖像的客觀評價指標,即交并比、準確率分別提高了約1.9%、1.1%。所以加入特征融合模塊和特征增強網絡后,筆者提出的方法對于測試圖像的客觀評價指標均有提升。模型4相比模型3,交并比和準確率分別提高了約1.3%和0.9%,在使用二值交叉熵損失的基礎上驗證了結構相似性損失函數的有效性。

圖5 不同網絡模型視覺效果比較(圖中圓圈表示誤檢區域,矩形框表示漏檢區域)
從圖5中可以看出,模型1存在較多的漏檢和誤檢情況;模型2相比模型1誤檢情況明顯減少,但仍然存在較多的漏檢情況以及建筑物內部區域不完整的情況;而模型3則邊界十分模糊,不能準確地分割出建筑物的輪廓。相比之下,模型4達到了較好的提取效果,邊界更加明晰,輪廓更加分明,建筑物內部區域也更加完整。通過客觀指標比較以及主觀視覺效果比較,驗證了筆者設計的網絡結構和損失函數的有效性。
為了驗證文中方法的優越性,與目前主流的U-Net,SegNet,MC-FCN,SU-Net,LSPNet等建筑物提取方法進行了客觀指標比較。實驗同樣在WHU數據集上訓練,訓練過程中采用ReLU作為激活函數,利用Adam算法進行網絡優化。初始學習率為0.000 1,所有參數使用正態分布進行初始化。對WHU測試集圖片進行測試,客觀評價指標結果如表2所示,并截取尺度不一且背景復雜的兩個圖像,對提取結果進行視覺效果比較,如圖6所示。

表2 BANet與經典方法的客觀指標對比

圖6 文中方法與經典方法的視覺效果比較(圓圈表示誤檢區域,矩形框表示漏檢區域)
由表2可以看出,現有方法中SU-Net和LSPNet的客觀評價指標值較高,而文中方法的交并比和準確率比SU-Net分別高出約8.1%和2.8%,比LSPNet高出約11.1%和11.0%。文中方法的召回率評估指標由于要平衡準確率,而略有下降。由圖6可看出,圖6(b)列所示的U-Net提取結果出現了大量的誤檢現象;圖6(c)列所示的SegNet提取結果誤檢減少,但存在邊界模糊以及區域不完整的問題;從圖6(d)列圖像看出,SU-Net提取結果準確度提高了,但仍然存在邊界不夠明晰且存在誤檢的情況;從圖6(e)列圖像看出,用文中方法提取的圖像邊界更加清晰,建筑物區域更加完整。通過視覺效果可知,相比其他方法存在誤檢以及提取區域不精細的情況,筆者提出的方法改善了視覺效果,同時評價指標也得到提高。
為進一步驗證文中方法的有效性,圖7給出了BANet在不同背景下部分建筑物提取結果,其中圖7(a)是在背景復雜、建筑物尺度不一時的提取結果;圖7(b)是在背景單一、有建筑物以及一些汽車時的提取結果。從圖7可以看出,對于這兩種情況,筆者提出的方法都可以較好地完成建筑物提取,而且圖7(b)結果中沒有出現誤檢汽車為建筑物的情況。但對于場景復雜、建筑物極小的情況下(如圖7(a)第2行),仍存在少量的漏檢。綜上所述,從客觀評價指標和主觀視覺效果上來看,筆者提出的方法準確率有所提升,建筑物提取結果邊界更加清晰,區域更加完整。

圖7 BANet在不同背景下部分建筑物提取結果
針對目前建筑物提取存在的邊界模糊且提取結果不準確,以及建筑物漏檢、地物誤檢的問題,筆者提出了不依賴于任何先驗條件的基于邊界感知的建筑物提取網絡。設計了交互聚合模塊,提高了特征融合網絡的多尺度特征融合性能;利用特征增強網絡學習漏檢目標的特征,以提高預測結果的準確性;采用特征細化網絡,對特征增強后的結果做進一步的邊界細化和區域精確;最后為了加快模型收斂且更好地學習邊界信息,給出將二值交叉熵損失和結構相似性損失相結合的損失函數。筆者設計的網絡提高了建筑物提取的魯棒性和準確率,得到了邊界更清晰、區域更完整的結果。在此建筑物提取的基礎上,可以進行諸如建筑物變化檢測等相關行業應用,以方便對土地資源進行有效的管理。另外,該網絡可延伸到類似的圖像檢測與二值分割方面,如應用到其他地物提取等。