


收稿日期:2023-08-07
DOI:10.19850/j.cnki.2096-4706.2024.04.028
摘? 要:基于深度學習的遙感影像圖像分割技術使用越來越廣泛,針對現有算法存在參數量較大、細節部分提取結果差等問題,提出一種基于改進DeepLabv3+的道路圖像分割方法。將輕量型網絡MobileNetV2引入改進后的池化金字塔模型用以提取中階特征圖,增強了不同感受野之間的相關性;并采用多尺度拼接融合方法生成高階特征圖,同時引入注意力機制來進一步加強對圖像特征的提取效果。實驗結果表明,所提方法相比于DeepLabv3+模型mIoU提高了5%,有效提升了遙感圖像的分割精度。
關鍵詞:語義分割;遙感影像;道路提取;注意力機制;DeepLabv3+
中圖分類號:TP18;TP751 文獻標識碼:A 文章編號:2096-4706(2024)04-0132-05
Road Segmentation Algorithm Based on Improved DeepLabv3+
GE Zhenqiang
(Taiyuan Normal University, Jinzhong? 030619, China)
Abstract: The use of Deep Learning-based remote sensing image segmentation technology is becoming increasingly widespread. In response to the problems of large parameter quantities and poor results in extracting details in existing algorithms, a road image segmentation method based on improved DeepLabv3+ is proposed. Introducing the lightweight network MobileNetV2 into an improved pooling pyramid model to extract mid-order feature maps, which enhance the correlation between different receptive fields. A multi-scale concatenation fusion method is adopted to generate high-order feature maps, while introducing attention mechanisms to further enhance the extraction effect of image features. The experimental results show that the proposed method improves mIoU by 5% compared to the DeepLabv3+ model, effectively enhancing the segmentation accuracy of remote sensing images.
Keywords: semantic segmentation; remote sensing image; road extraction; Attention Mechanism; DeepLabv3+
0? 引? 言
圖像語義分割是在像素級別上的分類,即對圖像進行識別和理解,針對圖像所含有的語義信息對圖像中每個像素進行分類標注[1]。語義分割技術在醫療[2,3]、交通、遙感影像[4-6]分割等領域有廣泛的應用。在交通領域中,道路是交通的主要組成部分,對城市規劃和交通管理有著非常重要的意義。高分辨率遙感圖像中的道路提取任務就是針對這個問題進行的。傳統的人工提取方法耗時費力,難以處理大規模數據。而語義分割技術可以通過深度學習模型自動提取道路的輪廓和邊界,大大提高了提取效率和準確性,有著非常廣泛的應用前景。語義分割技術被廣泛用于圖像處理領域,能夠自動提取目標區域的輪廓和邊界,SegNet[7]、UNet[8]等算法在各個領域有著準確性高、效率高的特點。但是語義分割在道路方面的使用還不是很多,因其存在一些處理特征時忽略了像素間關系或者空間分辨率減小的情況。近幾年,由谷歌設計的Deeplab系列圖像分割算法獲得了廣大科技研究者的廣泛關注,該網絡提出了空洞空間金字塔池化模塊(Atrous Spatial Pyramid Pooling, ASPP),擴大了分割網絡的感受野,提高了分割網絡的準確性。DeepLabV3+算法[9]使用了Encoder-Decoder結構,通過融合低階特征和高階特征,使分割網絡獲取更多的特征信息,提高了分割的準確性。有學者不斷對該模型進行改進[10-13]以期達到分割更加精確的目的。盡管DeepLabV3+圖像分割網絡在一些公開數據集上有著不錯的效果,但是對于道路提取這一對細節要求更多的任務,DeepLabV3+的表現就有些不盡人意了。同時DeepLabV3+使用Xception網絡作為特征提取網絡造成該模型參數量比較大,所以需要更多的時間來進行計算。還因為道路環境中背景復雜,存在很多干擾因素,也容易出現細節部分提取效果較差的問題。
針對上述道路分割所存在的問題,本文提出一種基于改進DeepLabV3+分割方法來進行遙感圖像的道路分割,選擇更加輕量化的特征提取網絡,對原始的ASPP結構進行改進,添加注意力機制和進行多尺度融合。通過對比實驗驗證此方法可以使道路邊緣分割更加清晰,提高了道路提取精度。
1? 理論基礎
1.1? DeepLabV3+基礎模型
DeepLabV3+是在DeepLabV3基礎上的改進,它們使用了相同的編碼器模塊,DeepLabV3+在DeepLabV3基礎上添加了解碼器模塊,從而實現端到端的語義分割。deepLabV3+網絡結構如圖1所示。
1.2? SE通道注意力機制
為了更好地對通道信息有選擇地進行關注,從而提高信息輸出的效率和邊緣細節分割準確性,在解碼器4倍上采樣后使用SENet(Squeeze and Excitation Networks)[14]通道注意力機制來加強通道信息獲取。圖2為該機制的結構圖,圖中C、H、W代表特征圖的通道數、長和寬。該結構主要分為以下3個方面:1)將特征圖進行Squeeze(壓縮),該步驟是通過全局平均池化把特征圖從大小為(N,C,H,W)轉換為(N,C,1,1),這樣就達到了全局上下文信息的融合。2)Excitation操作,該步驟使用兩個全連接層,通過全連接層之間的非線性特征增加模型的復雜度,以確定不同通道之間的權重。3)將Reshape過后的權重值與原有的特征圖做乘法運算(該步驟采用Python的廣播機制),得到不同權重下的特征圖。
2? 改進的DeepLabV3+網絡
在遙感圖像中,道路信息所占據的像素比例通常相對較小,而且容易受到背景環境因素的干擾,如建筑物、樹木等。因此,對于道路信息的準確提取,算法的細節提取能力非常重要。為解決DeepLabv3+模型參數量大,且對道路易產生漏分割和不連續問題,本文對DeepLabV3+模型的主干特征提取網絡進行輕量化改進,再對ASPP模塊進行改進,最后在改進的ASPP模塊中進行特征融合時加入SENet注意力機制,使分割速度和分割精度得到有效提升。改進后的DeepLabV3+算法網絡結構如圖3所示。
圖3? 本文網絡結構
2.1? 輕量化特征提取網絡
在原先的DeepLabV3+算法中,使用復雜的Xception網絡結構可能會導致在道路提取這種小目標的任務中存在精確度不夠的問題,因為Xception網絡可能在提取細節特征時不夠準確。此外,Xception網絡的參數量龐大,需要消耗大量的計算資源和時間。為了解決這些問題,本文采用了輕量級的MobileNetV2結構作為主干特征提取網絡。相比于Xception,MobileNetV2具有更少的參數量,訓練速度更快,能夠更快地提取道路圖像中的特征,從而使模型更容易捕捉到道路的細節和紋理,更適用于道路提取任務。
MobileNetV2是一種輕量級的卷積神經網絡結構,用于圖像分類和特征提取任務。它是MobileNetV1的改進版本,通過引入一系列的設計技巧來提高模型的性能,MobileNetV2采用了深度可分離卷積(Depthwise Separable Convolution)作為基礎的卷積操作,將標準卷積分解為深度卷積和逐點卷積兩個步驟,從而減少了計算量和參數量。此外MobileNetV2還引入了線性瓶頸(Linear Bottlenecks)、倒殘差結構(Inverted Residuals)和線性激活函數等技術,進一步提高了模型的效率和表達能力。總體而言,MobileNetV2在保持較高準確性的同時,大大減少了模型的參數量和計算復雜度。
2.2? 改進的ASPP模塊
ASPP為了更好地獲取特征信息,直接使用不同倍率的空洞卷積來提高分割精度。ASPP結構如圖4所示。
圖4? ASPP結構
原始ASPP結構擴張率分別采用的是6、12、18,直接將不同擴張率下的特征圖進行融合,會造成特征信息的缺失和感受野的不足。為了解決信息的不連續和感受野的不足,本文提出在原始ASPP中融合不同倍率下的特征圖來解決上述問題,如圖5所示。
改進DeepLabV3+網絡的ASPP模塊,將原本并行的分支進行交叉融合,實現更大的視野和更強的特征提取能力。改進之后的ASPP模塊在原有3個空洞卷積并行的基礎上增加了串聯結構,將擴張率小的輸出與其他分支融合,再送入較大的空洞卷積,獲得更好的特征提取效果。
圖5? 改進的ASPP結構
2.3? 多尺度融合
當輸入一張圖像時,首先通過編碼端的MobileNetV2網絡進行特征提取。當下采樣4倍時,獲得低階特征圖。通過主干網絡下采樣完成時獲得中階特征圖。接下來,將下采樣16倍的中階特征圖輸入ASPP-S模塊進行處理。ASPP-S模塊采用了空洞空間金字塔池化的方式,通過不同采樣率的空洞卷積來捕捉多尺度上下文信息。通道拼接是將兩個特征圖的通道維度連接在一起,以增加特征的多樣性和豐富性。在解碼端,我們獲得了3個分辨率不同的特征圖。我們先將中階和高階特征圖進行通道調節然后進行融合,再通過注意力模塊進行進一步的特征提取之后進行4倍上采樣與低階特征圖融合,進一步提取圖像中的語義信息和邊緣細節。最后,對融合后的特征圖進行4倍上采樣將特征圖恢復到原始圖像的分辨率,以得到最終的分割結果。這個網絡架構的目標是通過多尺度特征融合和后續處理步驟來提高圖像分割的精度,并保留細節信息,從而得到更準確的分割結果。
3? 實驗驗證與分析
3.1? 實驗設置
3.1.1? 數據集及評價標準
本文實驗所采用數據集為CHN6-CUG[15]道路數據集,其由中國地質大學(武漢)HPSCIL的朱琪琪團隊制作并共享,是道路提取任務中廣泛應用的數據集之一。該數據集是人工標記的像素級高分辨率衛星影像,遙感影像底圖來自谷歌地球。根據路面覆蓋度,標示的道路包括有軌道覆蓋的路面和無軌道覆蓋的路面。根據地理因素的物理角度,標示道路包括鐵路、公路、城市道路和農村道路等。CHN6-CUG包含4 511張標記圖像,圖像分辨率大小為512×512,將3 608張用于模型訓練,903張用于測試和結果評估。
3.1.2? 語義分割實驗評估指標
評價指標用來評價語義分割模型的分割效果。在遙感影像目標提取領域,常用的評價指標有像素精度(PA)、平均交并比(mIoU)等。mIoU是指模型對每一類預測的結果和真實值的交集與并集的比值求和后再計算平均值的結果,其反映了模型能夠正確預測的能力。PA是指正確預測的像素數與總的像素數的比值。其公式分別為:
(1)
(2)
其中:k+1為類別總數,pii為正確分類的像素數,pij為i類被預測為j類的數量,pji為j類被判斷為i類的數量。
3.1.3? 訓練策略
本文實驗是在Windows系統下搭建的PyTorch深度學習框架中進行具體實現。訓練過程采用了如下參數設置:網絡的初始學習率設置為5×10-4,選擇了Adam優化器,相比與其他優化器,Adam優化器能夠同時考慮一階動量和二階動量,并動態調整每個參數的學習率,從而使模型更快收斂至性能最優,batchsize為4,每一輪的迭代次數為516次,epochs設置為100,損失函數使用交叉熵損失函數。
3.2? 實驗結果及分析
為了驗證本文方法在分割任務中的有效性,將所有網絡模型在實驗環境和相關參數一致的情況下進行對比試驗,分別為原圖、標簽圖、本文方法測試結果(Our)、DeepLabV3+測試結果、UNet測試結果、SegNet測試結果,各項性能指標對比如表1所示。
表1? 不同模型評價指標對比
模型 mIoU mPA
SegNet 0.59 0.71
UNet 0.61 0.74
Deeplabv3+ 0.65 0.84
Our 0.70 0.86
DeepLabV3+是在DeepLabV3網絡基礎上添加了解碼器模塊,但該網絡中的ASPP由于特征采樣不夠密集,大量信息被忽略,使道路的分割完整性較差。UNet也是基于編解碼器的網絡模型,它主要是在每個解碼層之間添加了跳躍連接,對于復雜的遙感圖片而言效果不是很好。而本文改進模型在CHN6-CUG數據集上的指標mIoU達到70%,效果最佳。相較于基礎網絡,本文方法的mIoU提高了5%。
圖6給出了本文方法與其他模型可視化分割結果。其中,SegNet表現最差,錯分、漏分嚴重,分割不完整;UNet和DeeplabV3+從分割結果來看,針對邊界模糊的道路分割還是不完整,部分邊界存在粘合。本文利用多尺度特征提取結構和通道注意力機制,提升了網絡特征提取的能力,使得網絡能夠更加準確地識別不同尺度的道路目標,并且能夠更加敏銳地捕捉邊緣細節信息,可視化結果優于其他模型,并且每項指標均高于其他模型的精度,證明本文方法的有效性。
圖6? 在CHN6-CUG數據集上的分割結果對比
4? 結? 論
本文提出一種適用于遙感道路分割的改進DeepLabV3+網絡。網絡中通過改進的空間金字塔池化獲得密集的采樣和更大的感受野,豐富上下文信息;通道注意力加強道路的分割精度與邊緣完整度。從分割結果來,對較小尺寸和復雜重疊道路的邊界模糊和陰影干擾等,還是會出現分割不精確和目標粘連問題。因此,未來工作中在提升密集小目標建筑分割精度方面還要做進一步的研究。
參考文獻:
[1] 徐輝,祝玉華,甄彤,等.深度神經網絡圖像語義分割方法綜述 [J].計算機科學與探索,2021,15(1):47-59.
[2] 楊國亮,洪志陽,王志元,等.基于改進全卷積網絡的皮膚病變圖像分割 [J].計算機工程與設計,2018,39(11):3500-3505.
[3] 侯騰璇,趙涓涓,強彥,等.CRF 3D-UNet肺結節分割網絡 [J].計算機工程與設計,2020,41(6):1663-1669.
[4] YANG G,ZHANG Q,ZHANG G X. EANet: Edge-Aware Network for the Extraction of Buildings from Aerial Images [J/OL].Remote Sensing,2020,12(13):2161[2023-09-16].https://doi.org/10.3390/rs12132161.
[5] 陳小龍,趙驥,陳思溢.基于注意力編碼的輕量化語義分割網絡 [J].激光與光電子學進展,2021,58(14):225-233.
[6] ABDOLLAHI A,PRADHAN B,ABDULLAH A M. An ensemble architecture of deep convolutional Segnet and Unet networks for building semantic segmentation from high-resolution aerial images [J].Geocarto International,2022,37(12):3355-3370.
[7] RONNEBERGER O,FISCHER P,BROX T. U-Net: Convolutional Networks for Biomedical Image Segmentation [C]/MICCAI 2015: Medical Image Computing and Computer-Assisted Intervention. Munich:Springer,2015:234-241.
[8] BADRINARAYANAN V,HANDA A,CIPOLLA R. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Robust Semantic Pixel-Wise Labelling [J/OL].arXiv:1505.07293 [cs.CV].[2023-09-16].https://arxiv.org/abs/1505.07293.
[9] CHEN L C,ZHU Y K,PAPANDREOU G,et al. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation [C]//Proceedings of the European Conference on Computer Vision (ECCV 2018). Munich:Springer,2018:833-851.
[10] 齊建偉,王偉峰,張樂,等.基于改進DeepLabV3+算法的遙感影像建筑物變化檢測 [J].測繪通報,2023(4):145-149.
[11] 馬冬梅,黃欣悅,李煜.基于特征融合和注意力機制的圖像語義分割 [J].計算機工程與科學,2023,45(3):495-503.
[12] ZHU R H,XIN B J,DENG N,et al. Semantic Segmentation Using DeepLabv3+ Model for Fabric Defect Detection [J].Wuhan University Journal of Natural Sciences,2022,27(6):539-549.
[13] 王云艷,王重陽,武華軒,等.基于改進型Deeplabv3的城市道路圖像語義分割 [J].計算機仿真,2022,39(10):148-152+158.
[14] HU J,SHEN L,ALBANIE S,et al. Squeeze-and-Excitation Networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,42(8):2011-2023.
[15] ZHU Q Q,ZHANG Y Y,WANG L Z,et.al. A Global Context-aware and Batch-independent Network for road extraction from VHR satellite imagery [J].ISPRS Journal of Photogrammetry and Remote Sensing,2021,175:353-365.
作者簡介:葛振強(1997—),男,漢族,安徽亳州人,碩士研究生在讀,研究方向:圖像處理。