吳佳麗,畢春躍,王 劍,趙 涵
(浙江萬里學院 大數據與軟件工程學院,浙江 寧波 315000)
近年來,隨著社會生活水平的提高,汽車的數量呈現不斷增長的趨勢,極大地方便了人們的出行,但是也間接導致了大量交通事故的發生。為了保障車輛駕駛人員的安全和減少交通事故的發生,許多研究人員對自動駕駛技術展開了研究。自動駕駛技術主要包括三個部分:環境感知、決策、控制,其中環境感知的結果直接影響到后續模塊,所以環境感知是整個自動駕駛技術的核心模塊[1]。自動駕駛的環境感知一般在不斷變化的道路場景下進行,為了保障自動駕駛的安全,要求盡可能地獲取精準的環境信息。圖像語義分割通過對道路場景的分割獲取車輛前方道路、車輛等信息,是提高自動駕駛安全性的重要技術手段[2-3]。
傳統的圖像語義分割過程繁瑣,很難適應多目標的分割任務[4-7];隨著深度技術的發展,基于深度學習的圖像語義分割開始出現,FCN使用端到端的圖像分割[8],卷積神經網絡在圖像分割任務中的優勢開始顯現;SegNet池化層能保留記錄信息空間位置[9],進一步提高分割的精度;U-Net在網絡中使用跳躍連接優化了圖像上采樣的信息補充[10]。隨后,一些基于卷積神經網絡的改進圖像語義分割方法不斷涌現[11-14]。DeepLab是由谷歌提出的較成熟的圖像語義分割系列[15-18],DeepLab V1通過結合空洞卷積增加網絡的感受野[15],但分割目標邊界模糊;DeepLab V2引入了空洞卷積金字塔模塊(Atrous Spatial Pyramid Pooling, ASPP)實現了多尺度的特征提取[16];DeepLab V3提出了串行卷積和并行兩種卷積的網絡結構[17];DeepLab V3+采用了編碼-解碼的網絡結構[18],其語義分割效果更優于DeepLab V3。但是直接將DeepLab V3+用于道路場景識別仍存在因細節信息丟失而導致分割目標區域模糊的問題。
本文以DeepLab V3+為基本結構網絡,通過在編碼器中進一步優化注意力機制,加強底層特征圖與高層特征圖的融合,彌補解碼器模塊大幅上采樣帶來的細節信息缺失,增強網絡對目標區域邊緣的提取能力,實現網絡對道路場景識別的精細化分割。
本文基于DeepLab V3+構建了面向道路場景識別的改進網絡,改進網絡由編碼器模塊和解碼器模塊兩部分組成,網絡結構如圖1所示。

圖1 網絡結構
改進網絡編碼器模塊的主體為Xception骨干特征提取網絡和ASPP兩部分。Xception網絡是Inception和深度可分離卷積融合后的演化網絡,它先對輸入圖像做特征提取工作,特征提取包括四個步長為2的卷積模塊和一個步長為1的模塊,改進網絡保留對Xception的前兩個卷積Conv1、Conv2提取后的特征圖,并作為解碼器端的底層特征圖;隨后將Xception的輸出作為ASPP模塊的輸入,ASPP模塊并行了一個1×1的卷積、三個空洞速率分別為6、12、18的空洞卷積和一個圖像池化模塊,圖像經過并行特征提取后相加融合,使用1×1卷積減少通道數后輸出。
改進網絡解碼器模塊的作用是將特征圖逐步恢復成原輸入圖像大小,將編碼器的輸出經過四倍上采樣操作與Conv2輸出的底層特征圖融合,隨后經過兩倍上采樣后再與Conv1輸出的底層特征圖融合,經過3×3卷積后使用兩倍上采樣恢復到網絡輸入圖尺寸,得到最后的圖像語義分割圖。
實驗使用的數據是Cityscapes道路場景數據集,數據集一共設定了八個大類別標簽:天空、車輛、行人、馬路面、自然、建筑、物體和其他。Cityscapes數據集是道路場景中較為權威的數據,標注圖像的范圍廣泛,有利于研究算法網絡的泛化能力。
實驗采用TensorFlow1.14深度學習框架和Python語言作為開發環境,處理器為E5-2683,顯卡為NVIDIA Tesla P-100,RAM為128 GB,初始學習率設置為0.000 5,batch size為32,訓練步數為10 000次。
將Cityscapes數據集輸入原網絡和改進網絡進行訓練,訓練完成后得到模型,將測試集圖片輸入訓練好的模型得到道路場景語義分割圖片。為了驗證改進網絡的有效性,實驗評價指標采用平均交并比(Mean Intersection Over Union,MIOU),計算公式如下:



表1 實驗結果評價數據
實驗結果對比如圖2所示。由圖可知,在道路場景提取時原網絡的目標區域邊緣粗糙;而在加強了底層特征和高層特征融合之后,使用改進算法改善了目標區域的提取邊緣粗糙的問題,網絡的道路場景語義分割性能得到了進一步提升。

圖2 實驗結果對比
考慮到DeepLab網絡的解碼器模塊使用了大幅上采樣,造成了特征圖的細節缺失,本文提出了一種加強底層特征圖和高層特征融合的改進網絡,使得網絡可以保留圖像的更多細節特征信息,從而改善了道路場景語義分割的邊緣粗糙問題,進一步提高了網絡的分割性能。