胡煦航,程小龍,朱濱,傅靜雅
(1.江西理工大學 土木與測繪工程學院,江西 贛州 341000;2.福建省測繪院,福州 350001)
道路信息作為遙感信息的重要組成部分,在搶險救災、智能駕駛、導航地圖中展現著重要的作用,如何從高分辨率遙感影像中提取完整的道路信息也成為了遙感領域的熱點與難點之一。
傳統的方法[1-3]在道路信息的提取上已經初見成效,但是對于抗遮擋問題和環境適應性問題很難克服。深度學習的方法則是近些年發展的方向,越來越受到國內外學者的重視,研究如何將深度學習的方法運用到遙感圖像道路提取中具有重大的價值[4]。戴激光等[5]針對神經網絡在訓練中分辨率降低以及梯度消失的問題,提出了基于多尺度卷積神經網絡的方法,相對于UNet與傳統方法取得了較大的優勢;Zhong等[6]使用全卷積神經網絡(fully convolutional network,FCN)在馬薩諸塞州道路數據集上進行道路提取,獲得了不錯的成果;賀浩等[7]提出了一種基于編碼器-解碼器網絡的遙感影像道路提取方法,通過對稱的結構以及極少數的下采樣,保留了更多的道路局部信息;王舒洋等[8]提出了航拍圖像跨數據域特征遷移道路提取方法,針對與新數據泛化能力不足的問題所提出的方法,對于沒有遷移的結果,獲得了很大的提升,但是遷移過程是不可控的,可能會導致道路信息的損耗;Wang等[9]提出一種坐標-密集-全局模型的道路信息提取改進方法,將坐標加入特征圖之中,結合密集塊與注意力模塊,可以達到增強邊界信息的效果;針對道路邊界信息提取不完整、質量差的問題,赫曉慧等[10]提出了EDRnet,運用兩組EDR組合提升了提取結果的完整性;Zhang等[11]結合殘差學習框架[12]以及UNet網絡[13],提出了深度殘差UNet運用于遙感影像道路信息的提取;相較于深度殘差學習框架,Huang等[14]提出了一種緊密連通的卷積網絡DenseNet,減輕了消失梯度的問題,增強了特征傳播,鼓勵了特征重用,并大大減少了參數數量,改善了整個網絡中的信息流和梯度,這使得模型易于訓練。
在ResUnet運用殘差塊傳遞信息過程中會造成信息的損耗甚至丟失,殘差塊中通過跳過本層卷積模塊而直接達到下一層的“高速”路徑被稱為“恒等映射”,恒等映射這種保留特征的方式會限制網絡的表達能力,影響分割的精確度以及準確性。針對這種情況,受到了DenseNet和ResUnet的啟發,本文對ResUnet進行改進,使用4個Dense塊堆疊的結構作為編碼器的主要結構。DenseNet使用密集的連通來連接多級特征圖,能夠形成輸入層與其他層之間直接的連接通道,從而減少了在信息傳遞過程中的損耗。當具有相當的計算能力時,密集塊比殘差塊所需的訓練參數量要少[15],在Dense塊之間加入空間通道壓縮與激活模塊,從空間與通道兩方面并行對輸出的特征圖進行重新校準,增強有意義的特征,抑制無意義特征;在橋接部分加入注意力機制,擴大感受野,捕獲多尺度信息。感受野是指特征映射到輸入空間區域的大小。感受野越大,則對應的全局信息越豐富,更有助于神經網絡的識別與推斷。
UNet是生物醫學分割任務中非常受歡迎的網絡結構,它編碼器-解碼器的對稱結構以及對應編碼器與解碼器之間存在直接連接結構,使得UNet能夠捕獲更多的上下文信息和只需要少數樣本就能取得優秀的結果。基于網絡越深性能越好的觀點,殘差網絡能夠通過恒等映射跳過卷積層,直接將上一層的信息傳遞到下一層從而保留特征,殘差塊的結構如圖1所示。由殘差單元構成的UNet,同時保留了殘差網絡和UNet的優點。殘差網絡簡化了網絡訓練,使得梯度爆炸問題得到了緩解,能夠建立更深層的網絡結構;殘差單元中所設計的恒等映射能夠促進UNet的低層信息到高層信息的傳遞,使得能在減少參數的同時達到更好的分割效果,同時UNet相對應的編碼器與解碼器之間的連接可以幫助上采樣層更好地恢復圖像的細節。但是殘差塊中的恒等映射只能幫助信息以上一層傳遞到下一層形式的逐層傳遞,在傳遞中通過復合操作會產生信息的損耗或者消失,不利于對圖像特征的識別,而且殘差塊會造成塌陷域問題,降低網絡的學習能力[16]。基于這種情況下,對ResUnet進行改進,引入密集網絡中的Dense塊替代殘差塊。殘差塊的運行工作原理如式(1)所示。
xl=Hl(xl-1)+xl-1
(1)
式中:xl為第l層所輸出的特征;Hl(·)為第l層中如卷積、采樣、歸一化等操作的復合函數;xl-1為第l-1層所輸出的特征。

圖1 Dense塊與殘差塊的對比圖
對原有的ResUnet進行了三方面的改進:①在編碼器部分使用密集單元替代了原有的殘差單元;②在每一個密集單元之間加入空間通道壓縮與激活模塊,利用對通道以及空間的擠壓重新校準特征圖,再對校準之后的特征圖進行激活,激活之后經過轉置輸入下一個密集塊;③利用空洞空間卷積池化金字塔模塊作為橋接部分,擴大感受野,提供多尺度信息,使得分割更加完整。
1)密集塊替代殘差塊。如果卷積網絡在輸入層和輸出層之間存在較直接的連接,則可以進行更深入、更準確和有效的訓練。文獻[14]編寫了DenseNet。DenseNet將先前層的特征圖都用作輸入,并且將自身的特征圖也用作后續的層的輸入,這樣可以直接形成從輸入層到輸出層以及后續層之間的連接,從而減少了在層與層信息傳遞所帶來的損耗,得一個L層的Dense塊可以具有L(L+1)/2個連接。但是即便是有如此多的連接,在參數量方面,Dense塊的參數量還是比殘差塊要少。圖1展示了一個層數為4的Dense塊與殘差塊相比,Dense塊并不是通過極深的網絡去體現能力,主要是通過特征重用,將不同層的特征圖連接起來,為后續層的輸入增加了多樣性,提高了模型的效率;并且Dense塊中每一個卷積都輸出k個特征圖,超參數k被命名為增長率,在結構中一般當k是一個較小的數的時候,就可以獲得優秀的性能。所以它在減輕梯度爆炸的同時增強了特征傳遞,鼓勵了特征重用,減少了參數數量。在本文中增長率k設置為16,隨機失活率是20%。DenseNet運行工作原理如式(2)所示。
xl=Hl([x0,x1,…,xl-1])
(2)
式中:xl為第l層所輸出的特征;Hl(·)為第l層中如卷積、采樣、歸一化等操作的復合函數;[x0,x1,…,xl-1]為從第0層到第l-1層所產生的特征的串聯。
2)空間通道壓縮與激活模塊的使用。空間通道壓縮與激活模塊[17]由兩個部分組成,其結構如圖2所示。空間壓縮和通道激勵模塊[18]首先是對空間進行壓縮,使得全局信息嵌入,之后通過激活函數對通道進行激活,隨著網絡的學習,對通道的激活進行自適應的調整,從而強調重要的通道忽略無關的通道。通道壓縮和空間激勵模塊與空間壓縮和通道激勵模塊同理,通過對通道進行壓縮之后對空間進行激活,從而強調了重要的空間位置,忽略了無關的空間位置,這對于分割來說是非常重要的。運用空間通道壓縮與激活模塊,通過對空間與通道的縮放以及激活達到了對重要的空間位置以及通道進行增強的目的,對輸入的特征圖進行重新校準,對特征進行篩選,增強了有意義的特征而且忽略了無關特征,可以使得分割更加準確,分割邊界更加平滑。

圖2 空間通道壓縮與激活結構圖
3)空洞空間卷積池化金字塔模塊橋接。空洞空間卷積池化金字塔模塊[19]有多個不同采樣率的卷積層,利用0填充擴大卷積層的感受野,形成空洞卷積,結構如圖3所示。通過不同采樣率的卷積收集多尺度信息,每一個卷積層都是并聯運行,在卷積之后添加批量歸一化處理[20]。空洞空間卷積池化金字塔模塊在許多分割網絡中已經顯示出優秀的結果,本文運用空洞空間卷積池化金字塔模塊作為橋接部分,承接編碼器與解碼器之間的連接部分,通過不同的空洞率擴大感受野,并行的卷積層能夠獲取更多有意義的多尺度信息。

圖3 空洞空間卷積池化金字塔模塊結構
改進的網絡如圖4所示,改進后的網絡具有比ResUnet更少的模型參數量,在模型深度比ResUnet大的同時,能夠提高信息提取完整性和保證改進的模型對復雜環境的適應性。

圖4 本文設計的網絡結構
為了驗證改進后ResUnet網絡結構的精確性以及有效性,本文在馬薩諸塞州道路數據集[21]上進行測試,并且與原有的ResUnet網絡結構進行對比。
馬薩諸塞州道路數據集是由Mihn和Hinton所制作的,包括了從城市到城鎮到農村約500 km2的空間。數據集一共包括1 171張影像,1 108張影像運用于訓練,14張影像運用于驗證,49張影像運用于測試。數據集中所有圖像的大小為1 500像素×1 500像素,分辨率為1.2 m。影像中包含了高速公路、鄉村土路、瀝青路,以及具有干擾性的鐵軌、河流、海洋等。
在馬薩諸塞州道路數據集中一張影像的大小是1 500像素×1 500像素,通過設置將原數據集裁剪為224像素×224像素,重疊度設置為14,增加數據集。通過隨機裁剪、水平反轉、垂直翻轉、隨機添加噪聲等方法對數據集進行數據增強,獲得20 000張訓練集影像,其中訓練集與驗證集的比例為9∶1,對測試集進行相同操作獲得49組測試集影像。
本實驗在Intel(R)Xeon(R)Gold 5122 CPU @ 3.60 GHz 3.59 GHz 2處理器上、128 GB內存、Windows10系統下運行,NVIDIA Quadro P5000 GPU加速。模型基于以Tensorflow為后端的Keras深度學習框架所完成。
將馬薩諸塞州道路數據集中的原圖和標簽圖輸入改進的網絡,輸入的強度圖像經過多次卷積運算及空間與通道校準操作,進行特征提取,圖像尺寸縮小,產生抽象的特征圖,然后利用空洞空間卷積池化金字塔模塊橋接部分,通過多重采樣率采集多尺度信息,再通過上采樣與編碼器中相同大小的特征圖進行級聯輸入殘差塊進行解碼,恢復到與輸入圖像相同的尺寸,從而對每個像素都產生了一個預測。模型的損失函數為二元交叉熵函數,在訓練過程中使用自適應矩估計(adaptive moment estimation,Adam)優化算法進行優化,加快收斂,初始學習率設置為0.001,批大小設置為8,本文的模型在70個回合內達到收斂。
在馬薩諸塞州道路數據集上,將所改進的模型與原有的ResUnet進行了比較,將精確度、召回率、F1分數以及Dice系數作為評估指標。使用馬薩諸塞州道路數據驗證集中49張測試照片進行驗證,結果如表1所示。

表1 不同模型在測試集上的道路提取結果對比
從對比表可以得到結果,ResUnet模型運用殘差模塊與編碼器-解碼器相結合的結構,在道路信息提取的精確度、召回率、F1分數、Dice系數分別達到了87.99%、80.59%、84.25%、81.60%;改進的ResUnet模型在各項指標上都有提升,精確度達到了88.62%,召回率、F1分數、Dice系數分別達到了84.19%、86.35%、83.22%,與ResUnet相比分別提高了0.63%、3.60%、2.10%、1.62%。在運行時間上,改進的網絡提取49張測試集影像花費了約39 s,平均每一組影像小于一秒;而ResUnet提取49張測試集影響花費了約41 s,改進的網絡比ResUnet在分割速度上快了約2 s。在訓練參數上面,改進的網絡只需要訓練24.6×106的參數,比ResUnet所需要訓練31.4×106參數要少,可以充分地證明所改進的網絡比之前獲得了較大的提升。圖5展示了在訓練過程中驗證集精度與損失的變化曲線,從圖中可以看出,在網絡模型達到收斂的時候,改進的網絡無論是精度還是損失值都要優于原有的網絡。

圖5 兩組模型的訓練過程曲線
從定量的角度來分析,改進的模型已經超過了ResUnet網絡。圖6顯示兩組模型對于測試集影像提取的可視化對比,第一列為測試集影像,第二列為地面真值,第三列為ResUnet的提取結果,第四列為改進方法的提取結果。從實驗結果可以看到,第一行測試集影像中,對路面兩組模型都識別成功,但是ResUnet所提取的結果中十字路口路面出現了斷裂、不連接的情況,改進的模型提取效果更完整;在第二行影像中,出現了呈條帶狀的房屋,而且同路面貼在一起,這對路面的提取出現了一定的干擾,ResUnet在提取過程中出現了無法提取的結果,所改進的網絡總體上來說要優于ResUnet;在第三行影像和第四行影像中,訓練集影像中道路存在被遮擋的現象,在第三行中路面出現比較嚴重的遮擋,ResUnet識別到了但是未能提取到,出現了一段空缺,而第四行影像中道路發生了斷斷續續的遮擋,改進的模型很好地對被部分遮擋的道路進行識別與分割,這因為在訓練集中包含了被樹木所部分遮擋的路面信息,所改進網絡對此進行了充分的識別。

圖6 馬薩諸塞州道路數據集可視化比較結果
相較于原有的模型,改進的模型具有更大的網絡深度,在提高了網絡深度的同時還添加了注意力模塊,從而訓練所需要的時間多于原有的模型。在對于道路的識別中,最主要的遮擋來自于樹木的遮擋以及房屋對道路邊緣的掩蓋和影像中其他物體投影對路面顏色的改變。在本文實驗數據集中,包含了因物體的投影遮擋而改變了道路的顏色或者邊緣信息的樣本,也存在被樹木完全遮擋的樣本。從圖7中可以看出,在被樹木遮擋的地區,特別是道路與道路相連接處和遮擋較嚴重地方,原有的模型所提取的結果出現了路面斷裂不連接的情況,改進的網絡則對這些情況進行了效果很好的提取,結果表明,雖然改進的網絡訓練時間多于原有網絡,但是在有樹木遮擋的情況下具有良好的抗遮擋性,在復雜的場景下具有良好的適應性。

圖7 被遮擋區域提取效果
針對遙感影像中道路的特點,本文結合DenseNet網絡模型,提出了一種對ResUnet改進的遙感影像道路提取網絡。該網絡以編碼器-解碼器結構為基礎,使用多個Dense塊所疊加的結構替換了原有的編碼器,并且在每一個Dense塊之間加入了轉置層和空間通道壓縮與激活模塊,這可以方便信息的傳播以及對于空間和通道的重新校準,橋接部分使用了空洞空間卷積池化金字塔模塊,擴大感受野,提取多尺度信息。在馬薩諸塞州道路數據集上的實驗結果表明,本文所提的網絡各項精度指標表現優異,精確度、召回率、F1分數以及Dice系數分別達到了88.62%、84.19%、86.35%、83.22%,具有一定的抗遮擋以及推理能力,具有良好的魯棒性。但由于增加了網絡深度和多個注意力模塊,改進的網絡訓練所需要的時間多于ResUnet,接下來的工作將主要專注于如何去縮短訓練時間,提高網絡的抗遮擋能力,優化分割結果。