李梓瑜, 王大東, 于曉鵬
(吉林師范大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院, 吉林 四平 136000)
道路是城市規(guī)劃、地理信息系統(tǒng)更新和交通導(dǎo)航等許重要領(lǐng)域的主干和基礎(chǔ)設(shè)施。 近年來,隨著衛(wèi)星觀測(cè)技術(shù)的飛速發(fā)展,使得高分辨率遙感圖像的道路提取問題成為人們關(guān)注的焦點(diǎn)。 然而,通過傳統(tǒng)人工標(biāo)注提取信息的方式來分割道路,不僅費(fèi)時(shí)費(fèi)力,且只能提取到圖像表層信息,所得的分割結(jié)果也存在較大誤差[1]。 因此,針對(duì)遙感道路提取的自動(dòng)化處理方法就顯得尤為重要。
利用高分辨率遙感圖像進(jìn)行道路分割一直是遙感領(lǐng)域研究的重難點(diǎn),遙感圖像從空中俯拍包含的物體繁多,同類物體的顏色、紋理、大小極其相似,且植被、建筑等影響因素的遮擋給分割任務(wù)帶來巨大的難度[2]。 2015 年,Long 等人[3]提出了圖像分割領(lǐng)域具有開創(chuàng)性意義的全卷積網(wǎng)絡(luò) ( Fully Convolutional Network,F(xiàn)CN),該方法利用反卷積替換了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)中的全連接,實(shí)現(xiàn)了端到端的網(wǎng)絡(luò)訓(xùn)練。 這種基于像素的方法相較于CNN 和傳統(tǒng)人工提取雖更為高效,但對(duì)圖像信息保留不夠完整。 同年,Ronneberger 等人[4]提出的U-Net 網(wǎng)絡(luò)實(shí)現(xiàn)了多尺度信息的融合,因其性能優(yōu)越且訓(xùn)練速度較快,目前廣泛應(yīng)用于圖像分割領(lǐng)域。 隨著深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺領(lǐng)域的發(fā)展進(jìn)步,眾多學(xué)者經(jīng)多年研究對(duì)深度學(xué)習(xí)方法做出改進(jìn),旨在提高遙感圖像道路提取的精確度。 2016 年,He 等人[5]提出殘差網(wǎng)絡(luò)(ResNet)對(duì)更深層次信息進(jìn)行提取,在增加網(wǎng)絡(luò)深度的同時(shí),提高網(wǎng)絡(luò)訓(xùn)練結(jié)果的精確度。 2018 年,Zhang 等人[6]受殘差網(wǎng)絡(luò)啟發(fā),將U-Net 與ResNet進(jìn)行結(jié)合,提出ResUNet 網(wǎng)絡(luò)用于道路特征提取,簡(jiǎn)化了深層網(wǎng)絡(luò)的訓(xùn)練,并充分利用跳躍連接實(shí)現(xiàn)模型內(nèi)部的信息傳遞,在圖像分割領(lǐng)域取得良好的效果。 He 等人[7]將空間金字塔池化模塊(Atrous Spatial Pyramid Pooling,ASPP)[8]與編碼-解碼網(wǎng)絡(luò)結(jié)構(gòu)相結(jié)合,實(shí)現(xiàn)了對(duì)道路特征更加精細(xì)的提取。Zhou 等人[9]基于Link Net[10]和空洞卷積(Dilated convolution)開發(fā)了一個(gè)名為D-LinkNet 的Encoder-Decoder 網(wǎng)絡(luò),借助更大的感受野,融合提取到的低級(jí)、高級(jí)語義特征,最終贏得了2018 年國(guó)際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議中Deep Globe[11]道路提取挑戰(zhàn)賽 ( CVPR Deep Globe Road Extraction Challenge)的第一名。 Yang 等人[12]在U-Net 網(wǎng)絡(luò)的基礎(chǔ)上設(shè)計(jì)了一個(gè)循環(huán)卷積神經(jīng)網(wǎng)絡(luò)模塊,能夠更好的提取空間上下文信息,實(shí)現(xiàn)道路提取。 Han等人[13]提出基于帶孔卷積改進(jìn)的殘差網(wǎng)絡(luò)和基于密集連接改進(jìn)的空洞空間卷積池化金字塔模塊的圖像分割網(wǎng)絡(luò),利用遙感圖像不同尺度特征信息,有效提高城市地區(qū)的圖像分割效果。 Xiao 等人[14]基于殘差網(wǎng)絡(luò)、ASPP 和門控卷積開發(fā)了Gated-ResNet網(wǎng)絡(luò),使得提取的道路信息更加完整,在圖像分割方面取得不錯(cuò)的效果。 Chen 等人[15]將殘差網(wǎng)絡(luò)與非對(duì)稱卷積塊進(jìn)行結(jié)合,提出一種編碼-解碼器結(jié)構(gòu)的AFU-Net 網(wǎng)絡(luò),對(duì)不同層次信息進(jìn)行多尺度融合,使得圖像邊緣信息的提取更加清晰明了。
在語義分割任務(wù)中,低級(jí)特征(如:邊緣和輪廓)可以在卷積神經(jīng)網(wǎng)絡(luò)的淺層中捕獲,而隨著網(wǎng)絡(luò)深度的增加,淺層特征逐漸退化,且傳統(tǒng)的低級(jí)特征與高級(jí)特征往往采用固定比例的方式進(jìn)行融合,但通常會(huì)出現(xiàn)細(xì)節(jié)特征與語義特征丟失的現(xiàn)象。
綜上分析,雖然在遙感圖像道路提取任務(wù)中取得良好的分割效果,但是在深層次語義特征和淺層紋理特征的提取融合方面表現(xiàn)一般,導(dǎo)致地物信息復(fù)雜且道路遮擋嚴(yán)重的遙感圖像提取效果不佳。 為了解決上述問題,本文受U 形網(wǎng)絡(luò)結(jié)構(gòu)、殘差連接、像素重組(Pixelshuffle)、多尺度特征融合和自適應(yīng)混合(Adaptive Mixup)等操作的啟發(fā),提出一種使用超參數(shù)自適應(yīng)操作,能夠調(diào)節(jié)高級(jí)特征與低級(jí)特征混合比例的殘差分割網(wǎng)絡(luò)AMP-ResUNet(ASPP +Mixup+Pixelshuffle- ResUNet),以提升遙感圖像道路分割的精度及完整度。
如圖1 所示,AMP-ResUNet 是一種端到端的網(wǎng)絡(luò)結(jié)構(gòu)模型。 首先,在編碼器中使用預(yù)訓(xùn)練的ResNet101 網(wǎng)絡(luò)替換掉原始U-Net 網(wǎng)絡(luò)中的下采樣部分,在有效保持其特征表達(dá)能力的同時(shí),在一定程度解決因網(wǎng)絡(luò)層數(shù)加深而導(dǎo)致的梯度消失或梯度爆炸問題。 其次,在編碼器與解碼器的銜接部分引入空洞空間金字塔池化模塊,并對(duì)模塊中擴(kuò)張率進(jìn)行改進(jìn),避免由于擴(kuò)張率過大帶來的模型退化問題,實(shí)現(xiàn)對(duì)圖像的多尺度特征提取。 在特征融合過程中加入Adaptive Mixup 操作,使得來自下采樣部分的淺層特征信息自適應(yīng)地從上采樣部分流向高級(jí)特征,對(duì)特征信息進(jìn)行動(dòng)態(tài)融合。 最后,使用轉(zhuǎn)置卷積與Pixelshuffle 操作結(jié)合的方式作為網(wǎng)絡(luò)的解碼部分,在上采樣的最后一層使用Pixelshuffle 操作,替換傳統(tǒng)基于數(shù)學(xué)的雙線性插值和填充零操作,對(duì)縮小后的特征圖進(jìn)行有效放大,提升網(wǎng)絡(luò)的運(yùn)行效率和整體性能。

圖1 AMP-ResUNet 網(wǎng)絡(luò)結(jié)構(gòu)Fig. 1 Network structure of the AMP-ResUNet
眾所周知,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的過程中,隨著網(wǎng)絡(luò)層數(shù)不斷加深,會(huì)出現(xiàn)網(wǎng)絡(luò)“退化” 現(xiàn)象,ResNet 網(wǎng)絡(luò)中殘差模塊的提出,能夠使深層網(wǎng)絡(luò)訓(xùn)練出的模型效果優(yōu)于淺層網(wǎng)絡(luò),有效緩解了這一現(xiàn)象。 該模塊的引入不僅增加了神經(jīng)網(wǎng)絡(luò)的深度,還能有效保持其特征表達(dá)能力,在一定程度上解決了因網(wǎng)絡(luò)層數(shù)加深而引發(fā)的梯度消失或梯度爆炸問題。 模塊中每個(gè)殘差單元可表示為
式中:xj代表該層網(wǎng)絡(luò)的輸入信息,xj+1則代表輸出信息,wj表示該層待學(xué)習(xí)的參數(shù)。
將式(1)進(jìn)行遞歸運(yùn)算,得到任意深層單元特征表示如式(2):
本文使用Pytorch 官方提供的預(yù)訓(xùn)練ResNet101網(wǎng)絡(luò)作為編碼器來提升特征提取的效果,該網(wǎng)絡(luò)以VGG 網(wǎng)絡(luò)為基礎(chǔ),基于短路機(jī)制添加殘差學(xué)習(xí)模塊搭建。 為適應(yīng)本文模型結(jié)構(gòu),去掉原始ResNet101 網(wǎng)絡(luò)中的平均池化層和分類層,其具體結(jié)構(gòu)如圖2 所示。

圖2 ResNet101 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig. 2 Network structure of the ResNet101
空洞空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)在DeepLab 等網(wǎng)絡(luò)中被廣泛應(yīng)用。該模塊中的空洞卷積,可以有效地增加神經(jīng)元的感受野,對(duì)所給定的輸入以不同擴(kuò)張率的空洞卷積進(jìn)行并行采樣,從多尺度捕捉圖像的特征信息,模塊中每個(gè)空洞卷積可表示為式(3):
式中:i表示每個(gè)遙感圖像的像素點(diǎn),x為空洞卷積的輸入,y為網(wǎng)絡(luò)輸出,ω[k] 代表過濾器的長(zhǎng)度為k,r是步長(zhǎng)的擴(kuò)張率,通過給定r的不同數(shù)值來改變過濾器的感受野。
原始的ASPP 是由擴(kuò)張率為1、6、12、18 的4 個(gè)卷積核組成的,但是當(dāng)擴(kuò)張率過大時(shí),會(huì)產(chǎn)生無意義的權(quán)重,導(dǎo)致有效權(quán)重的卷積核數(shù)量減少。 因此,本文對(duì)ASPP 模塊的擴(kuò)張率進(jìn)行改進(jìn)。 具體結(jié)構(gòu)如圖3 所示。
本文使用空洞率為1、3、5 的擴(kuò)張卷積核,其對(duì)應(yīng)的感受野大小分別為3×3、7×7、11×11,之后將這3 張?zhí)卣鲌D進(jìn)行通道維度的拼接,最后進(jìn)行一次卷積核大小為1×1 的卷積操作,對(duì)通道數(shù)進(jìn)行壓縮。由于本文對(duì)擴(kuò)張率大小進(jìn)行改進(jìn)并選擇了合適的采樣率,不存在因擴(kuò)張率過大導(dǎo)致的模型退化問題,因此取消原始ASPP 模塊中的池化層。
由于低級(jí)特征通常可以在卷積神經(jīng)網(wǎng)絡(luò)的淺層中被捕獲,但隨著網(wǎng)絡(luò)深度的增加,淺層特征逐漸退化。 為解決這個(gè)問題,已有很多研究通過添加或串聯(lián)跳躍連接,將淺層特征與深層特征進(jìn)行結(jié)合,輔助圖像重構(gòu)。 雖然跳躍連接在一定程度上緩解了細(xì)節(jié)丟失問題,但仍然存在一定的改進(jìn)空間。 2021 年,Wu 等人[16]提出自適應(yīng)混合操作(Adaptive Mixup Operation),對(duì)上采樣層和下采樣層之間的特征進(jìn)行動(dòng)態(tài)融合,通過改進(jìn)層間的信息流動(dòng)方式,提升特征融合的效果。 該操作結(jié)構(gòu)如圖4 所示。

圖4 Adaptive Mixup 操作Fig. 4 Adaptive Mixup operation
由圖中可見,第一行和第二行分別進(jìn)行上采樣和下采樣操作。 傳統(tǒng)的特征融合是高級(jí)特征與低級(jí)特征一比一進(jìn)行融合,而Adaptive Mixup 使得來自下采樣部分的淺層特征信息,自適應(yīng)地從上采樣部分流向高級(jí)特征,混合運(yùn)算的最終輸出可以表示為:
式中:f↓i和f↑i分別是來自第i個(gè)下采樣層和上采樣層的特征映射,f↑是最終輸出。σ(θ)i,i=1,2 是融合來自第i下采樣層和第i上采樣層輸入的第一個(gè)可學(xué)習(xí)因素,其值由參數(shù)θi上的符號(hào)算子σ決定。在訓(xùn)練過程中,可以對(duì)這兩個(gè)因素進(jìn)行有效率的學(xué)習(xí),使其性能和效果遠(yuǎn)好于常量因素。
AMP-ResUNet 使用轉(zhuǎn)置卷積與PixelShuffle 操作相結(jié)合的方式進(jìn)行上采樣,但由于轉(zhuǎn)置卷積生成的圖像會(huì)出現(xiàn)邊緣生硬和不真實(shí)的情況,因此在解碼器部分的最后一層將轉(zhuǎn)置卷積替換為PixelShuffle上采樣方法,對(duì)縮小后的特征圖進(jìn)行有效的放大,使其邊緣恢復(fù)更加完整,提升網(wǎng)絡(luò)的魯棒性和準(zhǔn)確性。PixelShuffle 的主要功能是將低分辨的特征圖,通過卷積和多通道間的重組得到高分辨率的特征圖。 文獻(xiàn)[17] 中提出亞像素卷積層( sub - pixel convolutional layer)的方法來擴(kuò)大特征圖,具體結(jié)構(gòu)如圖5 所示。

圖5 亞像素卷積神經(jīng)網(wǎng)絡(luò)(ESPCN)Fig. 5 Subpixel convolutional neural network (ESPCN)
如圖5 所示,網(wǎng)絡(luò)的輸入是原始低分辨率圖像,通過兩個(gè)卷積層以后,特征圖像與輸入圖像大小一樣,特征通道變?yōu)閞2。 再將每個(gè)像素的r2個(gè)通道重新排列成一個(gè)r×r的區(qū)域,對(duì)應(yīng)于高分辨率圖像中的一個(gè)r×r大小的子塊,從而大小為r2×H×W的特征圖像被重新排列成1×rH×rW大小的高分辨率圖像。 通過使用sub-pixel convolution 方法, 圖像從低分辨率到高分辨率放大的過程中,可以被自動(dòng)學(xué)習(xí)到的插值函數(shù)被隱含地包含在卷積層中。 由于在低分辨率圖像上進(jìn)行卷積運(yùn)算,只在最后一層對(duì)圖像大小進(jìn)行變換,因此所需處理時(shí)間較短,提高了模型的運(yùn)算效率。 圖中彩色部分從r2channels →High-resolution image 的示意過程即為PixelShuffle。因此,PixelShuffle 可以看成一個(gè)特殊的重組操作,通過將通道維度的像素向長(zhǎng)寬維度搬移來實(shí)現(xiàn)上采樣。
損失函數(shù)是用來評(píng)估模型訓(xùn)練效果的一個(gè)標(biāo)準(zhǔn),簡(jiǎn)單來說就是用來表現(xiàn)預(yù)測(cè)值與實(shí)際數(shù)據(jù)的差距程度,損失函數(shù)值越小,代表其模型的魯棒性就越好。本文使用的是MS-SSIM(多尺度結(jié)構(gòu)相似) 損失函數(shù)和Dice損失函數(shù)。MS-SSIM損失函數(shù)的公式如式(5):
式中:M表示尺度的總數(shù)量,μρ,μg,σp,σg和σpg分別表示預(yù)測(cè)圖片與地面真實(shí)值的均值、標(biāo)準(zhǔn)差和協(xié)方差。βm,γm為兩者間的相對(duì)重要性。C1、C2防止除數(shù)為0。MS-SSIM損失函數(shù)賦予了模糊邊緣更高的權(quán)重,區(qū)域分布差異越大,MS-SSIM值越高。
Dice損失函數(shù)是一種計(jì)算樣本之間相似度的度量函數(shù),是把一個(gè)類別中的所有像素看做一個(gè)整體進(jìn)行計(jì)算,在一定程度上解決了正負(fù)樣本不均衡的問題,且收斂速度很快。Dice損失函數(shù)的公式如式(6):
式中:X代表地面真實(shí)道路面積的區(qū)域,Y代表預(yù)測(cè)道路面積的區(qū)域,取值范圍在0~1 之間。
本文使用的總損失函數(shù)是將MS-SSIM損失函數(shù)和Dice損失函數(shù)1:1 進(jìn)行相加,具體公式如式(7):
本文實(shí)驗(yàn)代碼基于Pytorch 框架構(gòu)建,編譯環(huán)境為Python3.8,操作系統(tǒng)為64 GB 內(nèi)存的Ubuntu 20.04LTS。硬件配置GPU 型號(hào)為Intel Xeon Gold 5215@ 2.50 GHz,顯卡為NVIDIA GeForce RTX 2080Ti。
本文選取美國(guó)馬薩諸塞州道路數(shù)據(jù)集(Massachusetts Roads Dataset)和DeepGlobe 遙感圖像道路提取數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)。 Massachusetts 道路數(shù)據(jù)集是目前最大的遙感影像道路數(shù)據(jù)集,覆蓋面積超過2 600 KM2,覆蓋地物信息主要包含城市、農(nóng)村、郊區(qū)的道路分布。 數(shù)據(jù)集中共有1 171 張大小為1 500×1 500 像素的遙感圖像,地面分辨率約為1m/像素,包含1 108 張訓(xùn)練集、49 張測(cè)試集和14 張驗(yàn)證集,每組數(shù)據(jù)集圖像如圖6 所示。

圖6 Massachusetts 道路數(shù)據(jù)集展示Fig. 6 Massachusetts dataset presentation
由于東南亞地區(qū)與美國(guó)馬薩諸塞州道路場(chǎng)景存在較大差距,則選取DeepGlobe 道路數(shù)據(jù)集,來驗(yàn)證算法的可行性與泛化性。 該數(shù)據(jù)集中包含6 226 張1 024×1 024 像素大小的訓(xùn)練圖像及其對(duì)應(yīng)的標(biāo)簽,每張圖像都是由DigitalGlobe 衛(wèi)星采集的地面分辨率為0.5 m/pixel 的RGB 圖像,覆蓋范圍包括東南亞多個(gè)國(guó)家的郊區(qū)、雨林等不同場(chǎng)景的道路分布。將數(shù)據(jù)集隨機(jī)分為5 800 張訓(xùn)練集、178 張測(cè)試集和248 張驗(yàn)證集。 其中,便簽中道路信息與非道路信息像素分別為255 和0,是與輸入圖像有著相同尺寸的灰度二值圖像。 每組數(shù)據(jù)集圖像如圖7所示。

圖7 DeepGlobe 道路數(shù)據(jù)集展示Fig. 7 DeepGlobe dataset presentation
由于訓(xùn)練數(shù)據(jù)集中存在影像與便簽相差較大的部分,且GPU 內(nèi)存的運(yùn)算能力有限,因此需對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,剔除信息缺失的圖片。 在此,將美國(guó)馬薩諸塞州道路數(shù)據(jù)集每張1 500×1 500 像素的遙感圖像切成大小為 256 × 256 像素圖像, 將DeepGlobe 遙感圖像道路提取數(shù)據(jù)集1 024×1 024像素大小的訓(xùn)練圖像裁剪為256×256 像素大小的圖像,切塊后對(duì)兩個(gè)數(shù)據(jù)集進(jìn)行簡(jiǎn)單的數(shù)據(jù)增廣,通過水平鏡像、旋轉(zhuǎn)角度、色彩抖動(dòng)、模糊、增加噪音的方式進(jìn)行樣本擴(kuò)充,數(shù)據(jù)增廣效果如圖8、圖9所示。

圖8 Massachusetts 數(shù)據(jù)增廣效果圖Fig. 8 Data augmentation presentation

圖9 DeepGlobe 數(shù)據(jù)增廣效果圖Fig. 9 Data augmentation presentation
本文模型使用精確率(Precision)、 召回率(Recall)、F1-measure值(F1 值) 和交并比(IoU)4項(xiàng)指標(biāo)作為評(píng)價(jià)網(wǎng)絡(luò)模型性能的標(biāo)準(zhǔn),其計(jì)算公式如下:
遙感圖像道路信息提取,實(shí)際上是對(duì)像素進(jìn)行二分類,所提取的道路信息為正樣本,背景信息即為負(fù)樣本。
式中:TP表示實(shí)際道路被正確分類的像素?cái)?shù)量,F(xiàn)P表示背景像素被誤分的像素?cái)?shù)量,TN表示背景像素被正確分類的像素?cái)?shù)量,F(xiàn)N表示實(shí)際道路像素被誤分為背景的像素?cái)?shù)量。 精確率表示被正確分類的道路占總區(qū)域的比重,召回率表示被正確分類的道路占實(shí)際標(biāo)注樣本道路的比率,F(xiàn)1 值代表精確率與召回率之間的加權(quán)平均數(shù),交并比與F1 值可以反映預(yù)測(cè)道路信息與真實(shí)道路之間的相關(guān)性,數(shù)值越高,代表提取效果越好。
在Massachusetts 道路數(shù)據(jù)集上對(duì)模型進(jìn)行訓(xùn)練,本文選用經(jīng)典網(wǎng)絡(luò)模型SegNet、FCN、DeepLabV3+、U-Net與本文網(wǎng)絡(luò)模型AMP-ResUNet 做對(duì)比,實(shí)驗(yàn)效果如圖10 所示。

圖10 網(wǎng)絡(luò)模型在Massachusetts 測(cè)試集上分割效果圖Fig. 10 The network model segmented the effect picture on Massachusetts Roads Dataset
圖10 中展示的4 幅道路圖片,其背景復(fù)雜度、道路遮擋及交錯(cuò)情況各不相同,圖中分別展示了原始圖像、原始標(biāo)簽,以及SegNet、FCN、DeepLabV3+、U-Net 與AMP-ResUNet 的預(yù)測(cè)效果。 從分割結(jié)果中可以看出,本文網(wǎng)絡(luò)模型預(yù)測(cè)圖較其他對(duì)比網(wǎng)絡(luò)預(yù)測(cè)效果而言,出現(xiàn)錯(cuò)分、漏分的情況更少,對(duì)圖像邊緣和細(xì)節(jié)恢復(fù)的更加完整。 在第三行圖片中存在著樹木、建筑物遮擋或邊緣模糊的道路,本文網(wǎng)絡(luò)雖也存在一定邊緣不清和漏分情況,但較其他對(duì)比網(wǎng)絡(luò)而言,本文模型對(duì)復(fù)雜道路的分割效果較好,錯(cuò)分、漏分情況相對(duì)較少,邊緣信息恢復(fù)的更加完整,能夠得到更加準(zhǔn)確、完整的道路信息情況。
為驗(yàn)證改進(jìn)網(wǎng)絡(luò)在遙感圖像道路分割任務(wù)上的廣泛應(yīng)用性,在DeepGlobe 道路數(shù)據(jù)集上再次進(jìn)行驗(yàn)證。 該數(shù)據(jù)集中存在大量農(nóng)村泥土道路和郊區(qū)道路信息,相較于分割城市道路而言具有更高的分割難度。 同上,與各類經(jīng)典網(wǎng)絡(luò)進(jìn)行對(duì)比,結(jié)果如圖11 所示。

圖11 網(wǎng)絡(luò)模型在DeepGlobe 測(cè)試集上分割效果圖Fig. 11 The network model segmented the effect picture on DeepGlobe Roads Dataset
圖11 中展示了4 幅圖像在不同網(wǎng)絡(luò)下的分割結(jié)果,第一行和第二行圖片右上角的邊緣道路和泥土道路在網(wǎng)絡(luò)訓(xùn)練中較難分割,結(jié)果圖片中都存在一定的漏分現(xiàn)象,但本文網(wǎng)絡(luò)相較于其他對(duì)比網(wǎng)絡(luò)而言漏分情況較少且對(duì)于道路邊緣信息的恢復(fù)完整度更高。 第三行和第四行圖片是夾雜著泥土道路的郊區(qū)路線分布圖,在FCN 和DeepLab 網(wǎng)絡(luò)分割結(jié)果中可以看出,圖中道路與道路間的間隔小而模糊,分割結(jié)果將兩條道路混在一起,出現(xiàn)錯(cuò)分的情況。 圖四右上角道路被植被樹木遮擋,不易分割出正確的道路,相比于其他網(wǎng)絡(luò)而言,本文網(wǎng)絡(luò)的分割結(jié)果良好,雖也存在邊緣信息丟失的問題,但能夠精準(zhǔn)的分割出黏連的道路信息,而且對(duì)于遮擋道路也能夠清晰的識(shí)別,使得道路信息恢復(fù)更加完整。
基于上文介紹的遙感圖像道路提取情況的評(píng)價(jià)指標(biāo),將對(duì)比網(wǎng)絡(luò)與本文模型網(wǎng)絡(luò)在Massachusetts數(shù)據(jù)集和DeepGlobe 數(shù)據(jù)集上的預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià)比較,具體情況見表1、表2。

表1 Massachusetts 數(shù)據(jù)集上不同模型指標(biāo)評(píng)價(jià)Tab. 1 Evaluation of different model indicators on the Massachusetts Roads Dataset%

表2 DeepGlobe 數(shù)據(jù)集上不同模型指標(biāo)評(píng)價(jià)Tab. 2 Evaluation of different model indicators on DeepGlobe Roads Dataset%
由表中實(shí)驗(yàn)數(shù)據(jù)可知,本文網(wǎng)絡(luò)AMP-ResUNet在兩個(gè)遙感道路數(shù)據(jù)集的雙重驗(yàn)證下,較SegNet、FCN 網(wǎng)絡(luò)在各項(xiàng)指標(biāo)上均有大幅度提升。 在Massachusetts 數(shù)據(jù)集上,改進(jìn)后的U 型殘差結(jié)構(gòu)網(wǎng)絡(luò)模型較DeepLabV3+網(wǎng)絡(luò)在精確率、召回率、F1 值和交并比上分別提高了1.58%、1.84%、1.75%、2.19%。較U-Net 網(wǎng)絡(luò)在精確率、召回率、F1 值和交并比上分別提高了1.06%、1.97%、1.18%、1.46%。在DeepGlobe 數(shù)據(jù)集上,U 型殘差結(jié)構(gòu)網(wǎng)絡(luò)模型較DeepLabV3+網(wǎng)絡(luò)在精確率、召回率、F1 值和交并比上分別提高了3.37%、0.73%、1.40%、3.98%。 較UNet 網(wǎng)絡(luò)在精確率、召回率、F1 值和交并比上分別提高了2.14%、1.34%、1.16%、3.62%。 本文網(wǎng)絡(luò)編碼器結(jié)構(gòu)選用ResNet101 網(wǎng)絡(luò),添加了ASPP 模塊,解碼器部分運(yùn)用自適應(yīng)混合操作以及PixelShuffle上采樣方式,從多尺度融合深淺層次信息,在保證效果的同時(shí)提高網(wǎng)絡(luò)整體性能。 從兩個(gè)數(shù)據(jù)集的實(shí)驗(yàn)數(shù)據(jù)中可以看出,相比于其他經(jīng)典網(wǎng)絡(luò),AMPResUNet 網(wǎng)絡(luò)訓(xùn)練結(jié)果的評(píng)價(jià)指標(biāo)均達(dá)到最高值,充分證明了該網(wǎng)絡(luò)模型在遙感道路分割領(lǐng)域上的有效性與廣泛實(shí)用性。
本文對(duì)遙感圖像進(jìn)行道路分割研究,受殘差網(wǎng)絡(luò)、空洞金字塔池化、 Adaptive Mixup 操作和Pixelshuffle 等操作的啟發(fā),提出了一種使用超參數(shù)自適應(yīng)操作調(diào)節(jié)高級(jí)特征與低級(jí)特征混合比例的殘差分割網(wǎng)絡(luò)模型AMP-ResUNet。 在編碼器部分使用ResNet101 網(wǎng)絡(luò)保持其特征表達(dá)能力,并在一定程度上解決梯度消失或梯度爆炸問題。 在編碼器、解碼器銜接部分引入ASPP 模塊,對(duì)特征信息進(jìn)行多尺度提取。 然后,在特征融合過程中Adaptive Mixup 操作,對(duì)特征信息進(jìn)行動(dòng)態(tài)融合。 最后,使用轉(zhuǎn)置卷積與Pixelshuffle 操作結(jié)合的方式對(duì)縮小后的特征圖進(jìn)行有效的放大。 從預(yù)測(cè)結(jié)果圖上看,本文模型對(duì)地物細(xì)節(jié)和邊緣信息的提取更加完整且出現(xiàn)錯(cuò)分、漏分的情況相對(duì)較少。 與其他經(jīng)典語義分割網(wǎng)絡(luò)相比,本文網(wǎng)絡(luò)模型在精確率、F1 值等評(píng)價(jià)指標(biāo)中均達(dá)到最高值。 實(shí)驗(yàn)表明,本文提出的AMP-ResUNet 網(wǎng)絡(luò)對(duì)地物信息復(fù)雜且道路遮擋嚴(yán)重的遙感圖像有較好的分割效果,具備一定的實(shí)際應(yīng)用性。 在未來的工作中,將著重關(guān)注被建筑物、樹木等無關(guān)信息遮擋的道路分割情況,旨在提升圖像分割的準(zhǔn)確率,實(shí)現(xiàn)高精度、高效率的遙感圖像道路提取。