張佳琪,袁 駿,惠永科,胡 勇,張 睿
(1.太原科技大學 計算機科學與技術學院,山西 太原 030024;2.中國機械科學研究總院集團有限公司,北京 100044)
自動駕駛領域中利用語義分割技術對路況進行分類有助于系統了解路況,進而做出更為精確的路徑規劃以及更為及時地規避障礙物,確保行車的安全,因此關于道路場景的分割對自動駕駛系統來說有著重要的現實意義。
現有的基于語義的圖像分割方法已難以適用于多個目標的分割任務,而基于深度學習的方法為計算機視覺領域的研究帶來了新的突破。與經典的體系結構相比,卷積神經網絡(Convolutional Neural Networks,CNN)圖像語義分割技術[1]能顯示出更好的效率和準確性。陳先昌[2]和Farabet等[3]提出了一種使用從原始像素訓練的多尺度卷積網絡對密集特征向量進行提取,以圖像中每個像素為中心,為多個大小的區域進行編碼的方法;Long等[4]提出的全卷積神經網絡(Fully Convolutional Networks,FCN)的流水線雖然擴展了卷積神經網絡,并且可以預測任意尺寸的輸入圖像,但是FCN預測結果分辨率比較低;Ronneberger等[5]提出的UNet在上采樣部分中具有大量特征通道,使得較高分辨率層能夠接收到上下文信息,通過“U”字網絡形狀獲得深度特征和淺層信息,達到了預測的目的。
隨著大規模公共數據集和進化的高性能圖形處理器(Graphic Process Unit,GPU)技術的發展,出現了一種高效的語義分割網絡CPNet[6],能夠捕捉到類與類之間的語義關系,進而提高了該網絡對道路場景的理解分析能力。而基于像素的縱向位置且有選擇性的突出信息屬性的網絡HANet[7]則可以更好地實現城市街道場景圖像的語義分割。


圖1 改進后的DeepLab 網絡結構


圖2 通道注意力結構
FCA(vh,WC)=σ1{fc2{δ[fc1(vh,WC1)],WC2}}.
(1)
其中:FCA(vh,WC)為進行完激活函數后的輸出;WC、WC1、WC2均為通道注意力模塊中的參數;σ1為Sigmoid操作;fc1、fc2分別為第一個全連接層和第二個全連接層;δ為ReLU函數。

(2)
CA將對響應較高的通道給予較大的加權,為了進一步提高融合性能,將之前輸入圖像中的不同通道進行拼接融合,然后使用1×1卷積來進行維度的降低,與此同時使用CA注意力模塊融合從主干網絡提取出的特征圖,并提取豐富的上下文信息,得到有效的高階特征。
在解碼器端輸入圖像并通過ResNet50模型的輸入層后,首先將兩個特征圖同時提取出來作為解碼器的特征輸入信息,根據遷移殘差連接的思想,將所提取出的兩個特征圖分為兩條路徑,一路經過注意力機制SE(Squeeze-and-Excitation)模塊,在SE模塊中對高階特征進行處理,產生有效的特征圖,從而提高分割結果,另一路不通過SE模塊;接著再將兩路提取出的低級特征分別經過1×1的卷積操作降維后再疊加,之后融合編碼器中四倍上采樣獲取的高級特征,最后經過3×3的卷積和上采樣的方法將其還原到與輸入圖像相同的分辨率,并對特征進行進一步的精細化,進而恢復空間信息。
本文采用了信息論中的重要函數——交叉熵損失函數,交叉熵損失函數計算公式定義為:
L=-yilog2pi-(1-yi)log2(1-pi).
(3)
其中:yi為輸出的真實值,yi=0或yi=1;pi為樣本的預測概率。
本文采用Cityscapes這一大型的數據集來對實例語義標簽[11]進行訓練和測試。Cityscapes是從50個城市中春、夏、秋季的街頭采集到的各式各樣的三維圖像,其中5 000張圖像是具有高品質的像素級注釋,而另外20 000張圖像則進行了粗略的注釋,這樣就可以更好地使用這些標注過的數據。
本實驗是在Windows10操作系統下使用Pycharm平臺以及Python3.9語言開發的,CPU為Intel(R)Core(TM)i9-10900K CPU @ 3.70 GHz;GPU采用NVIDIA RTX 3090。
本實驗使用的評價指標為平均交并比(Mean Intersection over Union,MIoU)和總體精度(Over Accuracy,OA)。MIoU計算公式為:
(4)
其中:n為標簽標記的類別數;n+1為包含空類或者背景的總類別數;pii為模型預測與實際均為i類的像素個數;pij為預測為j類但實際為i類的像素個數;pji為預測為i類但實際為j類的像素個數。
MIoU的取值范圍為[0,1],1表示準確的預測,0表示完全錯誤的預測,MIoU值越高表示模型性能越好。

表1 不同模型結構的消融實驗結果


表2 不同網絡模型Cityscapes數據集分割效果對比

圖3 原始模型分割結果和改進后DeepLab 模型分割結果對比