一種多尺度卷積神經(jīng)網(wǎng)絡(luò)道路提取方法

2020-04-01 01:00:44戴激光杜陽金光陶德志

遙感信息 2020年1期

關(guān)鍵詞：特征模型

戴激光，杜陽，金光，陶德志

(1.遼寧工程技術(shù)大學(xué) 測繪與地理科學(xué)學(xué)院，遼寧阜新 123000；2.遼寧奧路通科技有限公司，沈陽 110000；3.中交東北投資有限公司，沈陽 110000)

0 引言

道路作為現(xiàn)代交通體系的主體，其自動化識別、定位與提取是攝影測量與遙感領(lǐng)域的研究熱點(diǎn)與難點(diǎn)[1]。近些年來很多學(xué)者提出了大量的方法，例如苗則朗等[2]在影像分割結(jié)果的基礎(chǔ)上進(jìn)行幾何約束，剔除不符合道路幾何特征的分割區(qū)域，利用紋理信息對候選道路區(qū)域進(jìn)行判別提取，在此基礎(chǔ)上，應(yīng)用多元自適應(yīng)樣條回歸，獲取平滑的道路中心線。該方法避免了道路提取結(jié)果中存在的毛刺問題，但是幾何紋理閾值的選取嚴(yán)重依賴于大量實(shí)驗(yàn)，并且難以解決綠化和陰影遮擋導(dǎo)致的路面灰度突變問題。而Chaudhuri D利用Chaudhuri’s metric分割方法突出疑似道路區(qū)域，采用填充孔洞、面積和長度約束等方法確定道路區(qū)域，并通過相對長度和距離等幾何約束條件連接斷裂道路[3]。相比于前述方法，該方法能夠解決道路部分遮擋問題，但其側(cè)重于先驗(yàn)知識的運(yùn)用，泛化能力較弱?？紤]已有的DSM數(shù)據(jù)，引入斑馬線檢測結(jié)果，以此進(jìn)行道路種子點(diǎn)的提取與跟蹤，完成對道路的自動提取[4]。該方法雖然充分運(yùn)用了道路的上下文特征與先驗(yàn)知識，但斑馬線檢測精度取決于實(shí)際場景的復(fù)雜程度與Surf特征點(diǎn)提取結(jié)果，這直接影響道路種子點(diǎn)的跟蹤，因而該方法的泛化能力也受到一定的限制。上述傳統(tǒng)方法大都采用多特征約束或者由粗至細(xì)的道路提取策略，并依據(jù)人工設(shè)定先驗(yàn)條件進(jìn)行道路提取，但受制于道路結(jié)構(gòu)變化(路面老化)、紋理復(fù)雜多樣(遮擋情況不一致)，以及不同數(shù)據(jù)成像過程中光照、分辨率和成像質(zhì)量的變化，依然存在泛化能力弱、人工參與度高、自動化程度較低等缺點(diǎn)[5-9]。

物體的特性及其相互關(guān)系，即語義信息是遙感影像解譯的關(guān)鍵環(huán)節(jié)，但傳統(tǒng)方法受限于技術(shù)上的限制導(dǎo)致研究進(jìn)展緩慢，而深度學(xué)習(xí)方法則為遙感影像解譯在語義方向的拓展提供了新的契機(jī)[10]。在靜態(tài)圖像識別領(lǐng)域中，具有非線性映射能力、自我學(xué)習(xí)和自組織等特性的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network，CNN)表現(xiàn)出良好的性能[11-12]。在道路提取領(lǐng)域，Mnih V和Hinton[13]首次基于深度學(xué)習(xí)技術(shù)，提出一種基于受限玻爾茲曼機(jī)(restricted boltzmann machine，RBM)的航空影像道路提取方法。該方法在使用RBM檢測道路之前，通過預(yù)處理技術(shù)降低輸入數(shù)據(jù)的維度，并利用后處理消除道路斷裂問題。但其在處理道路密集區(qū)域時(shí)，道路提取結(jié)果存在黏連問題?；谙闰?yàn)知識和卷積神經(jīng)網(wǎng)絡(luò)的道路提取方法[14]需要人工選取檢測影像道路樣本區(qū)域，并將此結(jié)果加入全連接層，以此進(jìn)行影像道路的完整提取?；跉埐顔卧蚒-Net網(wǎng)絡(luò)的道路提取方法[15]在傳統(tǒng)U-Net網(wǎng)絡(luò)中的神經(jīng)單元加入批量正則化(batch nomal，BN)算法和殘差連接，降低了網(wǎng)絡(luò)的訓(xùn)練難度，同時(shí)引入殘差連接也使得網(wǎng)絡(luò)的深度得以延展，從而提升了網(wǎng)絡(luò)模型在語義分割方面的性能，但是該方法在提取道路時(shí)仍然可以明顯發(fā)現(xiàn)較多的道路誤判和斷裂區(qū)域。

綜上所述，雖然卷積神經(jīng)網(wǎng)絡(luò)方法相較于傳統(tǒng)道路提取方法在自動化程度和準(zhǔn)確度上均有較大提升，但由于卷積神經(jīng)網(wǎng)絡(luò)在前向傳播過程中數(shù)據(jù)降維的需要，存在特征層分辨率逐漸降低的問題，導(dǎo)致全連接層進(jìn)行像素級分類時(shí)精度較低，尤其當(dāng)影像中存在異物同譜和同物異譜現(xiàn)象時(shí)，道路提取結(jié)果存在誤提取率高和斷裂問題。改進(jìn)神經(jīng)網(wǎng)絡(luò)的寬度和深度是解決上述問題有效途徑[16]，但挖掘網(wǎng)絡(luò)寬度和深度必然帶來參數(shù)計(jì)算量上的大幅增加，因此在改善網(wǎng)絡(luò)性能的同時(shí)必須考慮訓(xùn)練效率。鑒于此，本文提出一種基于多尺度的卷積神經(jīng)網(wǎng)絡(luò)遙感影像道路提取方法。其主要改進(jìn)內(nèi)容包括：首先，應(yīng)用多尺度學(xué)習(xí)對子影像進(jìn)行卷積處理，獲取不同維度的初級分層特征，減輕特征圖前向傳播過程中分辨率降低的影響；在此基礎(chǔ)上，融入殘差連接減少反向傳播過程中梯度的過度更新，防止梯度消失問題的干擾；最后，針對上述過程產(chǎn)生的大量冗余參數(shù)，使用全局均值池化進(jìn)行優(yōu)化。

1 算法原理

本文算法流程如圖1所示。首先預(yù)處理階段采用數(shù)據(jù)增強(qiáng)、子影像裁剪和過采樣的方式擴(kuò)充訓(xùn)練樣本，增強(qiáng)網(wǎng)絡(luò)對影像細(xì)節(jié)信息的獲取；其次，基于擴(kuò)充的訓(xùn)練樣本，使用多尺度卷積學(xué)習(xí)提取多維度的初級分層特征，針對性地改善前向傳播階段過程中分辨率逐漸降低的問題；在此基礎(chǔ)上，融入殘差連接解決梯度的更新幅度隨傳播距離延長而逐步衰減的問題；然后，利用全局均值池化模型對全連接層存在大量的冗余數(shù)據(jù)進(jìn)行優(yōu)化；最后，在全連接層中借助具有監(jiān)督分類性能的Sigmoid函數(shù)對航空影像進(jìn)行分類，提取道路影像區(qū)域。

圖1 算法流程圖

1.1 數(shù)據(jù)預(yù)處理

高質(zhì)量大規(guī)模的訓(xùn)練樣本是支撐具有高性能應(yīng)用能力網(wǎng)絡(luò)模型的前提條件。因此基于此思想，本文在現(xiàn)有訓(xùn)練樣本數(shù)據(jù)集的基礎(chǔ)上，通過圖像處理方法模擬不同幾何光照變化環(huán)境，以提高訓(xùn)練數(shù)據(jù)集的數(shù)量與質(zhì)量。具體實(shí)現(xiàn)步驟包括：

首先，采用隨機(jī)旋轉(zhuǎn)、翻轉(zhuǎn)、修改亮度值和對比度樣本等基本影像處理技術(shù)擴(kuò)充數(shù)據(jù)集[17]，經(jīng)過處理后可以使數(shù)據(jù)集擴(kuò)充5～6倍。與傳統(tǒng)方式的圖像預(yù)處理方法相比，神經(jīng)網(wǎng)絡(luò)需要不斷迭代更新卷積核和池化窗口的輸出結(jié)果，獲取高度抽象的語義信息。由于經(jīng)過旋轉(zhuǎn)和翻轉(zhuǎn)等操作的影像，其原像素位置所對應(yīng)像素值均得到改變，致使卷積和池化的輸出結(jié)果改變，故而可以使用該方式擴(kuò)充數(shù)據(jù)樣本。

其次，按照一定格網(wǎng)間距將航空影像劃分為大小相同的子影像，將裁剪出的一系列子影像作為新的訓(xùn)練樣本。傳統(tǒng)網(wǎng)絡(luò)更加側(cè)重于對樣本數(shù)據(jù)的整體特征學(xué)習(xí)，這使得卷積核整體需要關(guān)注的范圍較大、地物類型較多，多次卷積后得到較為平滑的特征圖，丟失對某一地物特征的特定性描述。因此本文通過上述子影像的訓(xùn)練，有助于增強(qiáng)網(wǎng)絡(luò)刻畫單一地物特征的能力。

最后，通過調(diào)節(jié)正樣本(道路)和負(fù)樣本(非道路)的比率，改善類別失衡問題。關(guān)于類別失衡問題，以本文實(shí)驗(yàn)選取的樣本為例，由于樣本影像分成正負(fù)樣本，正樣本(道路)和負(fù)樣本(非道路)平均分布比率為1∶3。根據(jù)這一比例關(guān)系，如果進(jìn)行無差別樣本學(xué)習(xí)，無疑會使網(wǎng)絡(luò)側(cè)重于對負(fù)樣本的特征學(xué)習(xí)，從而降低網(wǎng)絡(luò)對正樣本的識別精度[18-19]。因此本文應(yīng)用過采樣方法均衡正樣本的數(shù)量[20]。

1.2 多尺度卷積學(xué)習(xí)

卷積神經(jīng)網(wǎng)絡(luò)前向傳播過程中，由于池化層的需要，無法避免發(fā)生特征圖分辨率降低的問題。而多尺度卷積學(xué)習(xí)可以降低傳播過程中光譜和紋理信息的損失[21]。在多尺度卷積學(xué)習(xí)中，較大尺寸卷積核可在特征圖中有著更大的感受域，可以獲取較為平滑的地物特征，但致使許多影像細(xì)節(jié)特征丟失。而較小尺寸卷積核更加側(cè)重于對細(xì)節(jié)信息的把握，可以增強(qiáng)不同地物邊界的可區(qū)分度，彌補(bǔ)較大尺寸卷積核的不足。綜合來看，多尺度卷積學(xué)習(xí)允許將不同的圖像環(huán)境應(yīng)用到局部識別決策中，挖掘數(shù)據(jù)在不同尺度上隱含的多種內(nèi)在規(guī)律和本質(zhì)特征，為預(yù)測潛在的目標(biāo)類別提供了良好的基礎(chǔ)。

如圖2所示，本文對于給定輸入訓(xùn)練樣本I，采用多尺度卷積，以提高目標(biāo)影像的細(xì)節(jié)信息。其中X1～X4分別為應(yīng)用4種卷積核的濾波影像(與輸入影像一致)；fs為卷積網(wǎng)絡(luò)模型；θs為網(wǎng)絡(luò)模型內(nèi)部初始參數(shù)，同時(shí)由于卷積網(wǎng)絡(luò)中所有參數(shù)可實(shí)現(xiàn)跨尺度共享，即，

θs=θ0，s∈{1，2，…，N}

(1)

式中：θ0為模型的初始化參數(shù)。

圖2 多尺度卷積學(xué)習(xí)

在s種尺度中，對于由L個(gè)結(jié)構(gòu)單元組成的多尺度卷積神經(jīng)網(wǎng)絡(luò)，其公式如下：

fs(Xs；θs)=Wl*Hl-1W

(2)

式中：Wl表示第L個(gè)結(jié)構(gòu)單元的權(quán)值矩陣；Hl-1為第L-1個(gè)結(jié)構(gòu)單元的輸出，且H0=Xs。各結(jié)構(gòu)單元之間通過每個(gè)結(jié)構(gòu)單元的輸出連接，表示為：

(3)

式中：pool函數(shù)為最大池化操作；relu表示激活函數(shù)；Wl和bl分別代表該結(jié)構(gòu)單元中的權(quán)值矩陣和偏執(zhí)參數(shù)。由Wl和bl共同完成對網(wǎng)絡(luò)模型中訓(xùn)練參數(shù)θs的更新。

最后，將N個(gè)卷積神經(jīng)網(wǎng)絡(luò)的輸出特征圖融合在一起，生成3維特征矩陣F。如圖2所示，F(xiàn)可以作為多尺度的場景級分層圖像描述符，表示如下：

F=[f1，f2，…，fN]

(4)

本文設(shè)置N=4，特征提取過程如圖2所示。

在上述多尺度卷積學(xué)習(xí)過程中，完全使用權(quán)值共享，迫使網(wǎng)絡(luò)具有多尺度不變性的特點(diǎn)。并且共同參與訓(xùn)練的模型fs(Xs；θs)尺度越多，神經(jīng)網(wǎng)絡(luò)越能掌握更加充分的高級語義信息，為之后的殘差連接和全局均值池化提供可靠的數(shù)據(jù)支撐。

1.3 殘差連接

深度決定著網(wǎng)絡(luò)的分類效果，但深度網(wǎng)絡(luò)訓(xùn)練過程中存在梯度消失和易陷入局部極小值等類似難以攻克的問題。應(yīng)用殘差連接可以很好地改善深層網(wǎng)絡(luò)模型的尋優(yōu)過程，并減少網(wǎng)絡(luò)收斂在時(shí)間上的消耗。殘差連接的內(nèi)部傳遞方式如圖3所示。在前向傳播過程中，殘差單元將上一層的輸入x通過函數(shù)F(x)映射到下一層，同時(shí)將輸入x直接映射到下一層，等同于在原始單分支模型的結(jié)構(gòu)上增加一條輸入數(shù)據(jù)的恒等映射分支，即“捷徑”(short connection)，同時(shí)可在一定程度上解決信息損耗的問題。反向傳播階段是解決梯度消失問題的關(guān)鍵。在反向傳播過程中，當(dāng)梯度值從底端輸入時(shí)，經(jīng)由線路②直接返還，替代了經(jīng)由線路①參與2次更新計(jì)算使梯度減小的過程。因此，融合殘差連接可以消除深層網(wǎng)絡(luò)中的梯度消失問題，并且更易優(yōu)化，收斂更快。何凱明等通過實(shí)驗(yàn)證明，“捷徑”中不涉及任何梯度值更新計(jì)算的設(shè)計(jì)方式實(shí)驗(yàn)效果最佳，因此本文殘差連接參考該設(shè)計(jì)方式。

圖3 殘差單元

1.4 全局均值池化

如圖4所示，全局均值池化(global average pooling，GAP)是指對全連接層輸入端的特征圖進(jìn)行等維度的均值池化操作，將對應(yīng)特征圖映射為一個(gè)更加抽象高級的一維特征點(diǎn)，從而達(dá)到精簡冗余數(shù)據(jù)，避免過擬合的目的，同時(shí)保持空間變換的穩(wěn)定性。經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)全連接層處理過程中(圖5)，通常自動選取與特征圖等維度的卷積核進(jìn)行逐過程降維，并需要激活函數(shù)強(qiáng)化特征，然后利用多層卷積核的提取結(jié)果逐步進(jìn)行特征建模，最終實(shí)現(xiàn)像素級的圖像分類。同時(shí)，在前向傳播階段(不含全連接層)卷積核特征提取過程，由于卷積核步幅和尺寸的限制，使相鄰圖像塊之間存在高度重疊，必將產(chǎn)生大量的冗余數(shù)據(jù)。并且本文加入多尺度卷積學(xué)習(xí)，無疑在利用卷積核進(jìn)行特征建模時(shí)，所產(chǎn)生的冗余數(shù)據(jù)將會呈指數(shù)級增長，因此必須進(jìn)行GAP處理。對比圖4和圖5的差異，GAP可以直接將任意維度的特征圖以一維特征點(diǎn)的形式輸出，而全連接層則要通過多次特征層的規(guī)格轉(zhuǎn)化才能實(shí)現(xiàn)一維特征點(diǎn)輸出。因此可以應(yīng)用GAP高效替代全連接層的數(shù)據(jù)降維功能。

圖4 全局均值池化輸出特征點(diǎn)

圖5 全連接層輸出特征點(diǎn)

1.5 全連接層

全連接層一直是卷積神經(jīng)網(wǎng)絡(luò)的標(biāo)配，其作用就是對特征信息進(jìn)行重新擬合，并利用分類函數(shù)對像素進(jìn)行分類，內(nèi)部實(shí)現(xiàn)過程如圖5所示。應(yīng)用GAP對特征數(shù)據(jù)降維之后，為了進(jìn)一步降低全連接層中參數(shù)過多的影響，在全連接層中引入BN算法和Dropout算法[22]。BN算法在保持原始數(shù)據(jù)分布特性的基礎(chǔ)上進(jìn)行歸一化處理，可實(shí)現(xiàn)加快網(wǎng)絡(luò)訓(xùn)練速度，減少過擬合問題的發(fā)生。而Dropout算法利用神經(jīng)元的隨機(jī)取舍可以產(chǎn)生不同的神經(jīng)網(wǎng)絡(luò)，將得到的反向擬合相互抵消，防止過擬合現(xiàn)象的發(fā)生。

2 神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置

2.1 激活函數(shù)

在整個(gè)神經(jīng)網(wǎng)絡(luò)的構(gòu)成中，激活函數(shù)的作用為增強(qiáng)網(wǎng)絡(luò)對的非線性可分?jǐn)?shù)據(jù)的分類能力。在正向傳播和反向傳播階段，相比于其他激活函數(shù)類型，本文采用線性整流函數(shù)(rectified linear unit，RELU)激活函數(shù)的優(yōu)勢在于增強(qiáng)了網(wǎng)絡(luò)模型的稀疏性，并解決了梯度消失問題。

鑒于航空影像道路提取的本質(zhì)是一個(gè)二值化影像分割問題，因此相比于多分類的Softmax函數(shù)，本文更加傾向于選用Sigmoid函數(shù)作為激活函數(shù)，公式為：

(5)

式中：x為激活函數(shù)的輸入，由網(wǎng)絡(luò)中的前向傳播計(jì)算所得；S(x)為當(dāng)前像素被識別為道路區(qū)域的概率，其值域?yàn)?0，1)。

2.2 損失函數(shù)

鑒于上文中的Sigmod激活函數(shù)，可選用對數(shù)損失函數(shù)來判定實(shí)際輸出值與期望輸出值接近程度。公式如下：

(6)

式中：L(x)為所有訓(xùn)練樣本的損失值；m為總樣本個(gè)數(shù)；L(xi)為單個(gè)像素的損失值；xi和yi分別表示各個(gè)像素的輸入特征和類別標(biāo)簽。yi的值域?yàn)?或1，當(dāng)預(yù)測值S(xi)與yi接近或相同時(shí)，L(xi)趨近或等于0；相反當(dāng)S(xi) 與yi的差值增大時(shí)，L(xi)趨近于無窮大。因此，通過最小化L(x)可以對模型參數(shù)進(jìn)行訓(xùn)練。

2.3 優(yōu)化器和Dropout正則化

本文神經(jīng)網(wǎng)絡(luò)訓(xùn)練采用 Adam優(yōu)化器，將學(xué)習(xí)率設(shè)置為0.001，其他參數(shù)均使用默認(rèn)值，進(jìn)行迭代訓(xùn)練。Dropout的隨機(jī)失活百分比采用0.5。

2.4 步幅設(shè)置

考慮到邊界是道路提取精度的保證，本文對卷積核采用不同步幅獲取道路和非道路特征，以加強(qiáng)網(wǎng)絡(luò)對邊界的區(qū)分。在含有道路特征部分，本文采用16像素×16像素區(qū)域作為道路特征訓(xùn)練樣本，步幅設(shè)置為2；在處理非道路特征時(shí)，本文使用96像素×96像素區(qū)域，設(shè)置步幅為8。

3 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證本文神經(jīng)網(wǎng)絡(luò)模型的有效性和普適性，實(shí)驗(yàn)從不同分辨率和不同道路等級的角度，分別采用網(wǎng)絡(luò)下載的國外城市的標(biāo)準(zhǔn)航空影像數(shù)據(jù)集(https：//github.com/elektrowolf/road segmentat-ion/tree/master/training，該數(shù)據(jù)無分辨率和地區(qū)等參數(shù)說明)、馬薩諸塞州數(shù)據(jù)集[23]和由本文根據(jù)高分2號影像制作的數(shù)據(jù)集。其中航空影像數(shù)據(jù)集側(cè)重于城市區(qū)域，馬薩諸塞州數(shù)據(jù)集兼具農(nóng)村和郊區(qū)地帶，空間分辨率為1 m，高分2號影像則選取遼寧省郊區(qū)的部分影像，空間分辨率為0.8 m。本文在進(jìn)行實(shí)驗(yàn)的過程中，所使用的訓(xùn)練樣本和標(biāo)簽樣本均為400像素×400像素，測試影像均為608像素×608像素的影像，區(qū)別之處在于參考數(shù)據(jù)集影像空間分辨率和道路等級，所選取的訓(xùn)練樣本數(shù)量有所差異，其中航空影像數(shù)據(jù)集、馬薩諸塞州數(shù)據(jù)集和高分2號數(shù)據(jù)集選擇樣本分別為100、120和140，而對應(yīng)測試樣本分別為50、100和160幅。

實(shí)驗(yàn)所用平臺的配置為i7-7700k CPU，雙GTX1070 GPU，16 G RAM，操作系統(tǒng)為Ubuntu 16.04，軟件包括Tensorflow 1.2、CUDA 5.1和Spyder等。

3.1 網(wǎng)絡(luò)模型

如圖6所示，其中3@96*96表示3幅96像素×96像素的輸入影像；conv表示應(yīng)用指定尺寸的卷積核對輸入圖像進(jìn)行卷積特征提取并應(yīng)用BN算法和RELU激活函數(shù)進(jìn)行歸一化處理和增強(qiáng)網(wǎng)絡(luò)非線性分類能力；pool表示采用2像素×2像素的標(biāo)準(zhǔn)滑動窗口對特征圖進(jìn)行數(shù)據(jù)降維；多尺度卷積(特征層1～3階段)表示分別使用1像素×1像素、3像素×3像素、5像素×5像素、7像素×7像素4種標(biāo)準(zhǔn)卷積核對輸入層數(shù)據(jù)進(jìn)行特征提取(圖6僅列出3像素×3像素規(guī)格的卷積核)；merge表示對4種尺度卷積結(jié)果進(jìn)行融合，生成512張12像素×12像素的特征圖；殘差連接為將特征層4中每個(gè)特征圖的中心區(qū)域裁剪3像素×3像素的特征圖傳遞到特征層7中；GAP采用3像素×3像素和4像素×4像素2種尺寸的滑動窗口將特征層7中的數(shù)據(jù)降維至1 024個(gè)一維特征點(diǎn)；最后采用全連接層對數(shù)據(jù)進(jìn)行重新擬合和分類。

圖6 改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)

1)訓(xùn)練階段。

(1)按一定比例將訓(xùn)練樣本和相對應(yīng)的二值影像劃分為大小相同的子影像，并且針對道路和非道路區(qū)域采用不同步幅區(qū)別學(xué)習(xí)；同時(shí)，為了避免類別失衡的問題，對道路區(qū)域像素占比過低的子圖像，使用過采樣的方法增加其所占比例。

(2)使用多尺度卷積、池化和激活函數(shù)等方法，在前向傳播階段對影像進(jìn)行特征提取和降維操作，從而獲取高級的語義信息；采用反向傳播和Adam優(yōu)化器訓(xùn)練網(wǎng)絡(luò)模型，得到模型參數(shù)。

(3)根據(jù)獲得的模型對驗(yàn)證集進(jìn)行測試和精度評價(jià)，直至模型達(dá)到預(yù)定迭代次數(shù)后生成最終模型參數(shù)。

2)測試階段。

(1)選取指定大小的窗口對測試影像進(jìn)行逐窗口掃描，將每次掃描的測試影像輸入網(wǎng)絡(luò)模型，輸出預(yù)測結(jié)果，得到道路區(qū)域的坐標(biāo)記錄文件，并標(biāo)注道路區(qū)域。

(2)根據(jù)道路區(qū)域坐標(biāo)記錄文件，運(yùn)用形態(tài)學(xué)開運(yùn)算和閉運(yùn)算處理，以填充道路內(nèi)部可出現(xiàn)的微小空洞，得到最終的提取結(jié)果。

3.2 實(shí)驗(yàn)分析

多尺度卷積學(xué)習(xí)、全局均值池化和殘差連接為本文網(wǎng)絡(luò)中關(guān)鍵的結(jié)構(gòu)單元。本文首先通過3種單元結(jié)構(gòu)的組合，僅結(jié)合更加直觀清晰的航空影像展示其使用效果，之后使用3種數(shù)據(jù)集對整個(gè)網(wǎng)絡(luò)模型的實(shí)驗(yàn)進(jìn)行精度評價(jià)。

在定量評價(jià)方面，precision、recall和accuracy是圖像分割領(lǐng)域較為通用的指標(biāo)。其公式如下：

(7)

(8)

(9)

式中：TP(true positive)為正確提取道路；TN (true negative)為非道路正確提??；FP(false positive)為錯(cuò)誤提取道路；FN(false negative)為道路漏檢。

通過分析可以發(fā)現(xiàn)precision和recall的取值并不同步，因此在二者值相差較大的情況下，需要人為根據(jù)情況選定特定指標(biāo)進(jìn)行數(shù)據(jù)分析。鑒于此，本文采用兼具precision和recall指標(biāo)性能的F1評估指標(biāo)，用于綜合反映網(wǎng)絡(luò)整體性能。其公式為：

(10)

為了驗(yàn)證多尺度學(xué)習(xí)的優(yōu)勢，如圖7所示，本文對多尺度和單一尺度道路提取結(jié)果進(jìn)行對比分析。在實(shí)驗(yàn)中，為保證對比實(shí)驗(yàn)的公平性，2種網(wǎng)絡(luò)模型除學(xué)習(xí)尺度之外，其他結(jié)構(gòu)單元均一致，同時(shí)影像預(yù)處理方面也保持一致。其中，圖7(a)為采用3*3標(biāo)準(zhǔn)卷積核的影像實(shí)驗(yàn)結(jié)果，圖7(b)為利用4種卷積核的實(shí)驗(yàn)結(jié)果。由圖7可以看出，如紅色掩膜區(qū)域所示，2種網(wǎng)絡(luò)模型均可實(shí)現(xiàn)大部分道路的提取。但在圖7(a)黃色矩形框中，可以明顯發(fā)現(xiàn)存在大量的道路誤提取區(qū)域，究其原因是在單一尺度特征學(xué)習(xí)的過程中，由于多組池化操作的影響，使全連接層輸入端的特征圖分辨率較低導(dǎo)致的。而圖7(b)為使用多尺度卷積學(xué)習(xí)的方法，可以看到黃色矩形框內(nèi)道路誤檢率低，但道路提取結(jié)果也存在斷裂問題。分析其原因可以發(fā)現(xiàn)，多尺度學(xué)習(xí)和全連接層的共同作用形成了大量的冗余參數(shù)，這使得網(wǎng)絡(luò)模型固化產(chǎn)生了過擬合問題，因而導(dǎo)致道路提取結(jié)果存在斷裂問題。針對道路斷裂問題即過擬合問題，本文將在后續(xù)步驟中予以解決。同時(shí)對比2種網(wǎng)絡(luò)模型的參數(shù)存儲文件表明，數(shù)據(jù)量分別為540 MB和567 MB，這說明多尺度學(xué)習(xí)確實(shí)會導(dǎo)致模型參數(shù)增多，同時(shí)也表現(xiàn)出對應(yīng)用多尺度卷積學(xué)習(xí)的網(wǎng)絡(luò)模型進(jìn)行數(shù)據(jù)優(yōu)化的必要性。

圖7 不同尺度實(shí)驗(yàn)結(jié)果

圖8(a)與圖8(b)為同一道路提取結(jié)果。針對圖8(a)黃色矩形框內(nèi)存在的道路斷裂問題，本文在圖8(b)中加入GAP方法?？梢钥吹?，黃色矩形框內(nèi)道路斷裂問題已大部分得到解決。通過方法效率對比統(tǒng)計(jì)分析，圖8(a)所用神經(jīng)網(wǎng)絡(luò)的首個(gè)全連接層有4 096個(gè)神經(jīng)元，共計(jì)達(dá)到4千萬次的計(jì)算量；而在圖8(b)中的首個(gè)全連接層中僅有1 024個(gè)神經(jīng)元，相對于前者本文改進(jìn)卷積網(wǎng)絡(luò)模型計(jì)算量大幅降低。因此，GAP和多尺度學(xué)習(xí)的結(jié)合，不僅可以解決道路提取結(jié)果過程中的誤提取和斷裂問題，并且也降低了網(wǎng)絡(luò)訓(xùn)練時(shí)間。

圖8 過擬合影像對比

為了進(jìn)一步驗(yàn)證本文改進(jìn)卷積網(wǎng)絡(luò)的可靠性，在對比實(shí)驗(yàn)中，分別選用U-Net網(wǎng)絡(luò)[24]和卷積網(wǎng)絡(luò)[25]與本文網(wǎng)絡(luò)進(jìn)行對比，其中3種網(wǎng)絡(luò)迭代次數(shù)均設(shè)定為20 次。

如表1所示，在3種數(shù)據(jù)集中，本文應(yīng)用網(wǎng)絡(luò)模型基于多尺度卷積學(xué)習(xí)使其深度達(dá)到89 層，明顯多于U-Net網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)的網(wǎng)絡(luò)深度。正常而言，參數(shù)量應(yīng)與網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性成正比。本文網(wǎng)絡(luò)模型采用GAP之后參數(shù)量僅100多MB，僅占U-Net網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)參數(shù)量的1/2～2/5，展現(xiàn)了本文網(wǎng)絡(luò)模型的優(yōu)越性。網(wǎng)絡(luò)訓(xùn)練時(shí)間消耗方面，本文網(wǎng)絡(luò)模型耗時(shí)處于中等水平，但考慮到網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度，本文網(wǎng)絡(luò)模型仍表現(xiàn)出較好的水平。綜上所述，本文網(wǎng)絡(luò)的綜合性能明顯優(yōu)于卷積網(wǎng)絡(luò)和U-Net網(wǎng)絡(luò)。

圖9、圖10、圖11為3種網(wǎng)絡(luò)應(yīng)用于不同數(shù)據(jù)集的道路提取結(jié)果，紅色掩膜標(biāo)注為道路提取區(qū)域?？紤]到圖10中路網(wǎng)結(jié)構(gòu)繁雜，提取效果相近，故采用二值圖顯示成果(白色為道路，黑色為背景)。在圖11中，因?yàn)閱螐垳y試影像覆蓋道路區(qū)域較少，所以展示結(jié)果中選擇由9張測試影像拼接而成的1 824像素×1 824像素大小的影像。

表1 不同數(shù)據(jù)集中3種網(wǎng)絡(luò)模型對比

圖9 航空影像道路提取結(jié)果比較

圖10 馬薩德塞洲數(shù)據(jù)集道路提取結(jié)果比較

圖11 高分2號數(shù)據(jù)集道路提取結(jié)果比較

對比實(shí)驗(yàn)分析的9幅測試影像，圖9為城市區(qū)域，公路等級方面主要包含：1～6車道的高速公路和市區(qū)中1～4級公路。同時(shí)對影像分析可以發(fā)現(xiàn)：圖9(a)存在2種不同類型的樹木遮擋同時(shí)影像中存在同物異譜現(xiàn)象；圖9(b)影像道路附近存在相似輻射特征(鐵路部分和隔離帶等)的干擾；圖9(c)中呈現(xiàn)嚴(yán)重的綠化干擾和植被遮擋；圖9(d)中存在車輛密集、植被遮擋和綠化干擾等現(xiàn)象。圖10馬薩德塞洲農(nóng)村區(qū)域主要存在不同寬度等級的道路。在圖10(a)和圖10(c)中存在不同程度的植被遮擋和異物同譜現(xiàn)象；而在圖10(b)和圖10(d)中也存在嚴(yán)重的陰影遮擋和異物同譜現(xiàn)象。圖11為遼寧省郊區(qū)遙感影像，道路特征呈現(xiàn)為雙車道，但也存在同物異譜問題。以上所述各種限制嚴(yán)重制約了道路提取的準(zhǔn)確性，尤其是遮擋問題很難利用傳統(tǒng)方法進(jìn)行解決，因此本文選取深度學(xué)習(xí)方法進(jìn)行道路的提取。

通過對比多種實(shí)驗(yàn)可以發(fā)現(xiàn)，在高分辨率的航空影像，U-Net網(wǎng)絡(luò)對道路連通性和完整性上表達(dá)能力較好，但相較于本文網(wǎng)絡(luò)仍然存在誤提取和漏提取的問題。在2種遙感影像數(shù)據(jù)集中，U-Net網(wǎng)絡(luò)的提取效果均比較差，卷積網(wǎng)絡(luò)可以提取路網(wǎng)的大體輪廓，而本文網(wǎng)絡(luò)能夠較為精細(xì)化地提取路網(wǎng)?？傮w而言，本文改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)兼具U-Net和卷積網(wǎng)絡(luò)的優(yōu)點(diǎn)，不僅保持道路提取的完整性和連通性，而且還提升了道路提取的精度。

表2為9幅影像的精度定量評價(jià)分析。可以看到在accuracy評價(jià)指標(biāo)方面，不論是在單張影像評價(jià)結(jié)果還是在綜合評價(jià)方面，本文改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)均優(yōu)于其他2種網(wǎng)絡(luò)。從反映網(wǎng)絡(luò)模型綜合性能的關(guān)鍵指標(biāo)F1值來看，本文改進(jìn)的卷積網(wǎng)絡(luò)也高于U-Net和卷積網(wǎng)絡(luò)。尤其在圖9(b)的檢測中，U-Net和卷積網(wǎng)絡(luò)的F1值和accuracy均為75%左右的情況下，本文改進(jìn)卷積網(wǎng)絡(luò)卻達(dá)到85%以上，充分表明了本文方法的有效性。

表2 道路提取定量評價(jià)結(jié)果比較 %

4 結(jié)束語

針對訓(xùn)練樣本相對匱乏的問題，首先本文使用隨機(jī)旋轉(zhuǎn)和翻轉(zhuǎn)等一系列的基本影像處理技術(shù)擴(kuò)充數(shù)據(jù)集，同時(shí)采用子影像裁剪和過采樣技術(shù)進(jìn)一步擴(kuò)充數(shù)據(jù)樣本。

針對前向傳播階段特征圖分辨率逐漸降低的問題，本文采用4種維度的多尺度卷積學(xué)習(xí)，獲取更加細(xì)致的分層特征，經(jīng)過多次卷積迭代后得到高度抽象的影像特征，以此降低特征分辨率對網(wǎng)絡(luò)性能的干擾。

針對反向傳播階段梯度消失的問題，為防止梯度消失問題的發(fā)生，本文通過引入殘差連接，通過“捷徑”的作用降低梯度更新的頻率，有效防止該問題的發(fā)生。

針對多尺度卷積學(xué)習(xí)引發(fā)網(wǎng)絡(luò)過擬合問題，本文應(yīng)用全局均值池化技術(shù)高效替代全連接層繁瑣的數(shù)據(jù)降維功能，不僅可以消除過擬合現(xiàn)象，同時(shí)提升了網(wǎng)絡(luò)的訓(xùn)練效率。

本文通過融合多種技術(shù)的優(yōu)點(diǎn)，依靠網(wǎng)絡(luò)內(nèi)部機(jī)制相互協(xié)調(diào)，完成對網(wǎng)絡(luò)模型的改進(jìn)。通過在大量遙感影像數(shù)據(jù)集上的對比實(shí)驗(yàn)，表明本文改進(jìn)的多尺度卷積神經(jīng)網(wǎng)絡(luò)相對于U-Net網(wǎng)絡(luò)和傳統(tǒng)卷積網(wǎng)絡(luò)在道路提取結(jié)果精度上具有較大優(yōu)勢。