吳仁哲,蔡嘉倫,劉國祥,2,李勇,張瑞,2
(1.西南交通大學 地球科學與環境工程,成都 611756;2.西南交通大學 國家鐵路高速鐵路安全空間信息技術聯合工程實驗室,成都 611756)
道路是極為重要的地理要素,對于經濟建設、城市規劃有著決策性作用。隨著我國大力發展城鄉建設,道路的矢量生產工作日益增多。人工矢量化更新效率低下,且隨著道路的新增和擴建通常無法獲得最新道路矢量數據,因此道路數字信息的自動提取和快速更新一直是相關領域的研究熱點[1]。通過遙感影像獲取道路網絡信息,具有客觀高效的優勢,也能夠為導航、規劃等相關領域提供基礎數據[2]。近年來隨著高分辨率傳感器的發展和廣泛應用,一方面能夠更詳細地反映地物的特征信息[3-4],另一方面因地物細節化、差異性的增大導致影像分類離散化和不規則化,且較中低分辨遙感數據更為顯著。如何在更為復雜的數據場景中實現穩定、可靠的圖像分割,是限制其應用拓展的主要瓶頸。近年來,深度學習作為一種有效的遙感圖像語義分割方法,被看作是突破瓶頸的可行思路,受到國內外學者的廣泛關注[5-6]。
高效的圖像表示是遙感圖像分割任務的核心[7]。因高分衛星圖像的道路周邊存在大量的自然和人造地物,對于道路信息的提取干擾非常明顯[8-9]。基于無監督特征學習的特征編碼方法采用小波變換增強道路信息,實現多分辨率顯示[10],基于具有少量人工標注特征的特征編碼方法采用SVM提取道路信息,較好提取出道路主干信息[11],但是這些傳統求解方法生成的圖像特征都極少,從本質上阻礙了遙感影像特征的提取。目前,深度學習已逐漸成為機器學習領域中的熱點,尤其是全卷積神經網絡(full convolutional neural network,FCN)利用編碼與解碼卷積實現影像特征的提取[12],具有較好的性能。Zhong等[13]使用FCN方法,針對馬薩諸塞州道路和建筑數據集,成功實現了語義分割。然而,FCN分類方法難以回避定位和識別精度權衡的問題,路網識別精度將隨著定位精度的提升而發生損失。經算法改進后,Ronneberger等[14]提出了U-Net (U型網絡) 網絡模型,能夠較好地平衡定位和識別精度權衡問題,僅通過30張圖片并輔以數據擴充就達到了非常低的錯誤率。Sun等[15]通過堆疊U-Net模型大幅度提升了網絡的深度,應用于城市道路提取取得較好的結果。但是,U-Net卷積運算時沒有進行填充,而是采用鏡像操作處理邊界像素,后續卷積運算仍然存在尺度單一、層與層之間常發生信息丟失的問題,導致識別和定位精度大幅度下降。
本文采用長短連接、Tversky系數、空洞卷積相結合的策略,在增大模型感受野的同時減少下采樣引起的信息損失,將恒等映射轉換為更適合機器學習的差值計算防止模型退化,并通過批標準化強制神經元輸入輸出符合正態分布,避免梯度消失,從而基于少量的訓練樣本結合數據擴充方法,獲得一個性能較好的RDU-Net(殘差空洞卷積U型網絡)道路提取模型。為了論證模型與算法的可行性及精度、回調率,選取內江市羅泉鎮鄉村道路典型研究對象開展實驗,提取公路以及機耕道信息,并通過形態學閉運算、種子填充法、節點替換的方法連接道路,消除獨立圖斑。最后,針對RDU-Net與U-Net模型獲得的路網提取結果,開展了比較驗證與精度差異分析。
U-Net在FCN的模型架構之上進行了修改和擴展,旨在以較少的訓練圖像產生更精確的圖像分割模型,其網絡結構如圖1所示。在上采樣部分,該模型擁有大量功能通道,這些功能通道允許網絡將上下文信息傳播到更高分辨率的層。上采樣路徑與下采樣路徑形成對稱,產生了U形結構。U-Net在靠近輸入的較淺層提取的是相對小尺度上的簡單特征,而在靠近輸出的較深層提取的則是相對大尺度上的復雜特征。它同時具備了捕捉上下文信息的收縮路徑和允許精確定位的對稱擴展路徑,這使得網絡將上下文信息向更高層分辨率傳播,融合多尺度信息進行判斷。本文將U-Net鏡像裁邊方法更改為在卷積運算時進行填充,因此無需對輸入圖像進行邊緣擴充。

圖1 本文使用的U-Net模型
在復雜場景的遙感圖像中,道路信息的占比通常極小(<3%)。由于使用數量不平衡的數據進行訓練將導致預測結果相對準確但是靈敏度很低,另外如果沒有平衡這些標簽,學習過程可能會收斂到局部損失函數的最小值,預測值與標簽值之間會存在偏差,因此,常規的損失函數(如交叉熵誤差、均方誤差等)難以適用于此類正負樣本不平衡的訓練數據。最終的圖像分割模型若僅能保證結果準確而在靈敏度方面不能達標,是無法滿足圖像分割要求的。
為解決上述問題,本文引入Tversky系數以平衡模型精度和靈敏度之間的矛盾。Tversky系數在設計之初主要應用于醫學病灶區檢測,通過平衡假陰性與假陽性,提高函數的回調率從而在精度和靈敏度之間獲得更好的平衡。應用于道路提取,可有效降低圖像分割時前景和背景像素數量差異造成的影響[16]。Tversky系數的計算方法如式(1)所示。
(1)
式中:A為預測集,B為真實標簽集;|A∩B|為成功預測,|A-B|為假陽性(背景識別為道路),|B-A|為假陰性(道路識別為背景);α和β分別控制假陽性和假陰性,根據文獻[16]結果,通常采用α=3和β=0.7定義損失函數。
本文使用的RDU-Net模型的Tversky系數由式(2)計算得出。
(2)

通常情況下,增加卷積神經網絡的網絡深度可以提升網絡的準確率,但是很深的網絡層,由于參數初始化一般更靠近0,這樣在訓練的過程中更新淺層網絡的參數時,很容易隨著網絡的深入而導致梯度消失,使得淺層的參數無法更新。同時,隨著網絡深度的增加,求解器難以利用多層網絡擬合同等函數,最終使得準確度變得飽和、網絡退化。殘差網絡(residual network,ResNet)利用殘差結構通過直接將輸入信息繞道傳到輸出,保護信息的完整性,將擬合同等函數轉化為使F(xi,ωi)趨于0的優化函數,簡化學習目標和難度,解決了深層神經網絡出現的網絡退化以及梯度爆炸的問題[17-18]。殘差結構原理如式(3)所示。
(3)
式中:y為非線性層需要擬合的復雜函數;x為上一層輸入;ω為權重參數;W為線性投影函數。
為了更好地應對下采樣時參數量大幅度增加的問題,同時增大RDU-Net的感受野,采用空洞卷積,以較少的運算量獲得更細致的紋理信息[19-20]。空洞卷積的定義如式(4)所示。

(4)
式中:d為空洞率;x、y分別為輸入、輸出;h為波器;K為波器大小。通過空洞卷積將下采樣過程中信息損失降低到最小。空洞卷積時感受野的計算如式(5)所示。
(5)
式中:r為感受野大小;K為波器大小;S為卷積運算時的步長。由圖2可以看出,RDU-Net通過在最底層采用2個空洞分別為3和5的卷積,感受野隨之大幅增加,從而有效提升了輸出特征圖對原始圖像的映射范圍。

圖2 感受野變化
為彌補傳統分割算法層與層之間信息丟失、梯度消失、錯分漏分現象頻繁的問題,本文采用批標準化、空洞卷積、Tversky損失函數、殘差結構與長短連接相結合,在正負樣本極度不均衡的情況下,依然能夠保證訓練正常進行,防止隨著網絡深度增加出現的退化問題,保護信息的完整性從而使用較少的訓練數據獲得一個魯棒性更好的模型RDU-Net(圖3)。根據輸入影像和道路標簽特征圖,使用步長為2的3×3卷積代替U-Net中的2×2最大池化進行下采樣。每一次下采樣和上采樣之間都加入了殘差結構,通過殘差結構將上下采樣層進行連接、轉換擬合函數,使用更容易計算的優化函數取代同等函數。在下采樣最底層采用空洞卷積,大幅度增加感受野,以提升RDU-Net網絡模型對影像全局信息的把握。

圖3 RDU-Net網絡模型
整體實驗流程如圖4所示。實驗數據采用高分二號衛星覆蓋內江市羅泉鎮的遙感影像,通過目視解譯進行道路矢量化建立道路標簽圖層。由于訓練樣本有限,故通過影像與道路標簽進行匹配、分割、旋轉、變換亮度等操作擴充訓練數據。考慮到純背景的標簽缺乏意義并且會削弱網絡的訓練速度、靈敏度,實驗舍棄了完全背景的數據,最終打包成二進制文件的訓練數據集。將數據集分為2個部分,第一部分為訓練數據共60 000幅圖像,第二部分為驗證數據共16 400幅圖像,道路標簽圖像共3 185幅。預測數據選擇影像另一區域僅進行圖像的分塊處理,共150幅圖像。本文模型訓練的硬件采用實驗室提供的Nvidia Quadro P2000 6 GB顯卡。RDU-Net中卷積核參數使用高斯初始化,每一次卷積運算都進行批標準化。使用Tversky指導梯度下降方向,通過訓練數據對RDU-Net進行迭代訓練,調整卷積核參數,進而使用調整參數后的RDU-Net對預測數據進行預測,并計算各種指標分數。由于圖像分割屬于像素級別的預測分類,在利用卷積神經網絡對目標區域進行檢測時,提取結果易受到與目標對象特征相似的其他地物的影響,會使得預測結果中存在大量的獨立小斑塊[21-22]。此外,實驗選擇的地區為鄉村,有較多樹木、灌木遮擋道路,易出現斷點。如何將道路連通以及刪減錯誤圖斑非常重要,故在道路信息提取后,進行圖像合并、膨脹—濾波—腐蝕、節點替換進行道路全局連接,以及種子填充進行濾波。

圖4 實驗流程
為驗證RDU-Net在高分辨率遙感影像中提取復雜路網的能力,本文選擇高分二號遙感圖像作為實驗數據。高分二號衛星擁有0.8 m的全色分辨率,以及3.2 m的多光譜分辨率,成像幅寬45 km,為道路的識別和提取提供了良好的圖像信息。實驗采用的影像條帶號為25,行編號166,影像日期為2017年9月12日,覆蓋內江市羅泉鎮研究區。該區域屬于典型鄉村地區,道路受房屋、草木、田埂等多種信息干擾,且有田埂信息作為線狀目標嚴重干擾機耕道提取,需要結合周邊環境進行判斷,完整提取道路信息更加困難。
實驗結果圖5表明:RDU-Net相較于U-Net擁有更好的道路提取能力且錯分現象明顯減少;同時,RDU-Net擁有更好的泛化能力,訓練樣本中機耕道的訓練數據較少,但RDU-Net仍然能夠完整地提取機耕道信息。圖5中第一行為道路標簽與影像疊加,第二行為RDU-Net道路提取結果,第三行為U-Net提取結果。在使用交叉熵誤差作為損失函數時,由于前景(道路)與背景像素個數極度不平衡,導致損失函數值非常小,模型收斂于局部最優解,無法進行模型訓練,因此對比實驗使用的U-Net網絡模型(圖1)也采用批標準化、Tversky函數。根據A1、A2所示,對于道路與背景有明顯差異的遙感影像,2種模型均能夠很好地提取道路信息,但是A1相較于A2信息保留更完整,在道路拐點處連接更為平滑。B1、B2顯示,在道路情況較為復雜有少量樹木遮擋的情況下,道路的主干信息也能夠被很好地提取,且都能在受到較小的干擾時保證道路的連通,但B2包含有更多的噪聲并有錯分現象。C1、C2圖像上方道路由于陰影遮蓋導致提取差異較大,C1對于陰影遮蓋的道路也能較為完整地提取。D1、E1、D2、E2為機耕道信息的提取,顯然D1、E1道路信息提取效果優于D2、E2,D1、E1中機耕道主干信息已被提取,只有少量的錯分漏分現象。

注:紅框內為差異部分。圖5 RDU-Net與U-Net預測結果對比
由圖6(a)可知,RDU-Net能夠較完整地提取道路主干信息,但是由于遙感影像中道路受樹木、房屋等遮擋,存在有較多的斷點,所得道路信息難以用于生產。因此采用形態學閉運算結合方框濾波將道路進行閉合處理,所得結果如圖6(b)所示,斷點信息大多數已經連接,但是道路交叉口由于圖像閉運算出現了大量節點且有許多噪聲點也被放大化,不僅影響道路信息的準確度而且影響美觀。為了消除噪聲點以及道路間節點,通過種子填充法監測連通區域結果如圖6(c)所示,每一個連通區被填充為一種顏色,當連通區像素數小于100時,該連通區被標記為噪聲進行去除。利用腐蝕算法對圖6(c)處理,獲得縮小后節點信息,得到最終道路提取結果如圖6(d)所示,其中綠色線條代表通過限定連通區像素閾值最終得到的道路信息,紅色為標簽數據,小路仍有遺漏但道路主干信息提取較為完整且連貫性較好。

圖6 道路連通處理
為定量評估道路分割的精度,本實驗引入IoU分數與F1分數作為評價指標,分析結果如表1所示。IoU分數是對象類別分割問題的標準性能度量。給定一組圖像,IoU測量給出了在該組圖像中存在的對象的預測區域和地面實況區域之間的相似性。F1分數是統計學中用來衡量二分類模型精確度的一種指標,它同時兼顧了分類模型的精確率和召回率。
根據表1對比分析可知,RDU-Net的精度和回調率都優于U-Net模型,RDU-Net相比于U-Net在復雜道路網絡提取具有更好的性能,尤其是感受野一項,優勢尤為突出。相比常見的面狀要素提取,IoU得分較低,主要是由于IoU分數對線性要素的位移有較高敏感度,當提取結果與道路標簽存在位移時,IoU分數亦會隨之發生降低。另外,在建立標簽時樹木與房屋遮蓋處并未斷開,這樣雖然能夠更好地訓練模型的抗干擾能力,但是也會使得預測值與標簽值不對應(預測值在有遮擋地方斷開,而標簽值連續),從而導致IoU分數大幅下降。

表1 RDU-Net與U-Net性能參數對比
根據植被覆蓋的復雜場景重點開展比較分析可知,RDU-Net與U-Net都有假陽性提取,錯誤地將背景識別為道路,但對比這些錯誤識別的道路信息發現,大多數即使人工也難以分辨(如圖5(b)中所對應的池塘上方,難以確定是道路或堤壩)。U-Net使用的是卷積與最大池化進行下采樣,在此過程中影像信息丟失較多,且感受野較小網絡難以對全局信息進行分析,這導致U-Net在復雜場景下提取機耕道的正確率偏低,往往受到背景的干擾或在草木較茂盛的區域出現道路斷開的問題,難以完整提取。而在此類復雜場景下,RDU-Net擁有更好的魯棒性,在稀疏草木遮擋區域道路斷開情況較少出現,而草木茂盛的區段存在有少量斷點,可以結合道路連通方法加以消除,故所得道路信息較為準確、完整。總地來看,本文所使用的RDU-Net在鄉村道路提取效果優于傳統的U-Net網絡,道路提取較為完整且錯分現象較少。
道路作為重要的地理要素之一,對于經濟建設、地貌研究、城鄉規劃等都有著至關重要的作用。而深度學習作為當前人工智能領域的前沿方向,盡管在道路提取方面已有很多研究,但在高分辨率影像復雜場景下的路網提取方面尚有不足。為此,本文提出了RDU-Net模型,選取內江市羅泉鎮為研究對象,采用高分二號衛星影像數據進行鄉村復雜場景下的路網提取,并與U-Net模型進行對比實驗。
本文選取內江市羅泉鎮的鄉村道路典型研究對象,充分考慮到鄉村道路與背景更容易混淆,存在有樹木、房屋、田埂等多種干擾源,且高分辨率遙感影像中地物細節化差異性增大、影像離散化和不規則化、提取時容易得到大面積假陰性等問題,借助批標準化、長短連接、空洞卷積、Tversky損失函數構建了感受野和回調率更高的RDU-Net道路分割模型。通過與現有的U-Net模型進行橫向對比,RDU-Net的錯分率和漏分率大幅降低,道路信息更加連貫完整,模型的泛化能力顯著增強,且模型的IoU、F1分數提升均超過10%,在不同的區域均能夠準確提取道路信息。另外,少量的遮擋不會導致道路斷裂,模型抗干擾能力亦有較大提升,保障了基于深度學習實現鄉村路網提取的可靠性。
本文提出的RDU-Net模型僅通過少量的訓練樣本輔以數據擴充,便能夠滿足基于高分辨率遙感影像提取鄉村路網信息的要求,較現有模型與算法具有更好性能。相關算法流程及實驗結果可為相關領域研究和應用拓展提供參考。