常紅杰 高 鍵 丁明解 齊 亮
(江蘇科技大學電子信息學院 鎮江 212003)
在自動除漆小車的視覺導航過程中,必須對漆面進行分割。此外,為了保證良好的除漆效果,漆面的分割精度必須足夠高,分割的實時性也要很好。
近年來,各種基于神經網絡的圖像分割算法層出不窮,其中,U-net 網絡是在FCN 網絡基礎上發展而來的一種圖像分割網絡[1]。相比于FCN,U-net 舍棄了全連接環節,使得網絡結構更加輕量化,參數量更少,而關鍵的特征融合環節的引入,顯著提升了網絡的分割精度。因此U-net 網絡適用于語義簡單、邊界模糊的圖像分割。
陳澤斌等[2]針對傳統的圖像分割方法耗時且準確度低的問題,結合Adam 算法對傳統的U-net模型進行改進,實現了比傳統模型更高精度、更好實時性的路面圖像分割。宋廷強等[3]以U-net模型為基礎,提出了一種深度語義分割模型AS-Unet,用于視覺導航中的圖像分割,改善了圖像分割的精度。李鴻翔等[4]針對圖像分割中邊緣識別錯誤的問題,提出了一種GAN-Unet 的分割模型,與傳統的U-net 模型相比,圖像分割精度有所提升,邊緣分割誤差顯著減小。王紅等[5]以傳統的U-net為基礎,引入并行雙注意力模塊,提出了PCAW-UNet模型,大幅度提高了視覺導航圖像的分割精度,分割準確率達到了98.7%。并且該模型的實時處理速度相較于傳統的U-net模型也有顯著提升。
本文以鋼板除漆維護為具體應用背景,提出了一種基于串行雙注意力機制和U-net 網絡的漆面圖像分割方法。
本文主要以船舶油漆面為研究對象,由于沒有現成的油漆面數據集供本文使用,只能通過搜集有關圖像和模擬油漆面的方式,組成數據集。第一部分共搜尋到150張漆面圖片組成數據集。如圖1所示。

圖1 漆面圖像
在第二部分,本研究利用灰色卡紙替代鋼板,用不同顏色的顏料在卡紙上面繪制各種圖案,模擬破舊鋼板上的漆面圖案,如圖2所示。

圖2 模擬漆面圖像
最后通過整個攝像頭對模擬漆面進行采集組成第二部分的數據集,共100 張。經過擴充以后,將這些圖像分為訓練集、驗證集。采用Labelme 工具進行數據處理,根據研究目標,本文只對漆面像素進行標注。
本研究在訓練之前對輸入圖像的尺寸進行統一,消除圖像尺寸對訓練結果的影響。此外,神經網絡在訓練的過程中有很多參數需要擬合,只有依靠大量的訓練,才能防止出現神經網絡過擬合的情況[6]。因此,必須擴充數據集的容量。本文通過旋轉(90°、180°和270°)和翻轉(水平、垂直)進行擴充,隨后再進行隨機Resize 變換,生成具有差異性的漆面圖像,完成漆面數據集的擴充。
U-net模型采用跳躍連接的方式將編碼網絡和解碼網絡兩部分連接起來。其中,編碼階段,負責圖像特征提取,主要由四個下采樣模塊組成。解碼階段,負責特征融合和恢復圖像尺寸,由四個上采樣模塊組成[7]。下采樣模塊通過卷積層堆疊的方式進行特征提取,隨后利用池化層進行下采樣。上采樣模塊則由卷積層和反卷積層組成,卷積層負責特征融合,反卷積層實現上采樣,負責恢復圖像尺寸[8]。
相比于其他的神經網絡模型,U-net 模型雖然結構更加輕量化,分割速度更快,然而在特征融合過程中,U-net 模型沒有對編碼器獲得的特征信息進行過濾,使得模型易受到非漆面區域的特征信息,對模型的分割精度造成影響[9]。
為了進一步提高模型的分割精度、實時性和泛化能力,本文對U-net模型進行調整。
首先,在編碼階段用Efficientnet-B0 編碼器代替原有的編碼器。Efficientnet-B0 在提高模型分割精度的同時,大幅度減少了訓練過程中的參數量,比起傳統的神經網絡模型有著更好的實時性和精準度。Efficientnet-B0編碼模塊結構如圖3所示。

圖3 Efficientnet-B0編碼器結構
其次,引入Focal Loss 代替交叉熵損失函數。Focal Loss 調節系數可以改變不同樣本的損失權重,有利于提高模型的分割準確率和精度[11]。
其中,αt和γ是權重調節系數,pi表示正確分類概率。
最后,在特征融合環節引入串行雙注意力模塊。用于進一步改善模型的信息處理能力和準確性。串行雙注意力模塊結構如圖4所示。

圖4 串行雙注意力模塊結構
改進后U-net結構如圖5所示。

圖5 改進后U-net模型結構
本文在如下環境中訓練模型:操作系統采用Windows 10,深度學習框架為Pytorch 1.8,CPU 為Intel Xeon Sliver 4110 @ 2.10GHz,GPU 為NVIDIA GeForce RTX 2080Ti。
模型訓練前,首先使用Efficientnet-b0 權重初始化方法對模型的初始參數進行設置。模型優化采用目前常用的Adam優化器以及參數使用其中的默認參數[14]:初始學習率為0.001,β1=0.9 ;β1=0.999;Epoch設置為100,Batch_size設置為8。
模型訓練過程中,Adam 優化器在每一輪迭代時更新參數以減小損失值(Loss)。訓練集Loss 值(Train Loss)隨迭代次數變化的趨勢分別如圖6 所示。

圖6 訓練集Loss值隨迭代次數變化的趨勢
對于多分類問題,圖像分割精度主要從以下三個指標進行評價:像素準確率PA、平均像素精度mPA、平均交并比mIoU。計算式分別為
其中,mIoU表示平均交并比;k+1 表示類別數,pij表示預測錯誤的像素數量,pii表示判斷正確的像素數量,TP表示真正例,FP表示假正例,FN表示假反例,TN真反例。
模型訓練完成之后,為了驗證本文改進算法的有效性,設計了對比實驗。
在數據增強之前和數據增強之后,分別訓練U-net模型。由表1 可以看出,經過數據增強,各項評價指標有明顯的提升??梢则炞C的是,數據集容量對于模型的分割精度有著較大影響。

表1 數據增強前后漆面分割指標對比/%
完成數據增強對比試驗之后,對原生U-net 模型結構進行調整。隨后選取目前比較常用的圖像分割模型進行對比實驗。對比試驗的評價指標結果如表2所示。

表2 不同模型的漆面分割精度/%
不難看出,相比于U-net 模型和ResUnet 模型,本文改進的算法相比于傳統的U-net模型和ResUnet模型,在分割精度上有著顯著的改進。此外,本文改進的算法在各項指標上與目前最先進的Deep-LabV3模型以及DeepLabV3+模型幾乎一致。
為了驗證本文改進模型的分割性能,計算各指標的平均值μ和方差σ。此外,還加入了模型的訓練時間(Training time)和分割時間(Segmentation time),完善模型的性能測試維度。
隨后按照一定的優先級對上述指標進行加權求和,得到模型的綜合得分(Score)。根據經驗,本文將模型的精度(平均值μ),穩定性(方差σ),模型的訓練時間(Tra-time)和分割時間(Seg-time)的權重分別設置為100,80,-10 和-50。性能評比結果如表3所示。

表3 不同模型的分割性能評比
可以看出,雖然DeepLabV3 模型和Deep-LabV3+模型雖然在分割精度上有優勢,但是由于其龐大的網絡結構和巨大的參數量,其訓練時間幾乎是其他模型的4倍~5倍,每張圖片的分割時間甚至達到了其他模型的10 倍以上。而本文改進后的模型,精度幾乎與DeepLabV3+模型的精度持平,同時訓練時間和分割時間相比于DeepLabV3+模型,分別提升了76.92%和90.17%,保證了很好的精度和實時性。
最后,圖7 展示了不同模型的漆面分割效果。可以看出,當背景存在與漆面顏色較為接近的區域時(圖7 前3 行),其他集中未引進注意力模塊的分割模型存在誤分割的情況(圖中白色選框標注),而本文引入注意力模塊改進后的U-net 模型在非漆面區域沒有出現誤分割的情況。當漆面的背景比較簡單且與漆面差異較大時,本文改進的算法和DeepLabV3+模型的分割效果均比較理想,在細節部分本文改進后的模型甚至分割的更加精細(圖中灰色選框標注)。

圖7 不同模型分割結果對比
本文提出了一種串行雙注意力機制的U-net分割模型,應用于自動除漆小車的視覺導航漆面分割任務。該方法在對數據集進行預處理之后,利用改進后的U-net 模型對漆面進行分割。通過引入Efficientnet-B0 編碼器,加強了網絡對于淺層特征的提取,減少了模型的參數數量。隨后引入Focal Loss 損失函數,提高模型的分割準確率,最后嵌入串行雙通道注意力模塊,提高模型對于漆面區域的關注比重,降低來自非漆面區域的特征干擾,同時通道注意力模塊還減少了網絡在特征融合后的冗余通道數,提升了模型的分割時間。實驗證明,本文改進后的算法在保證精度的同時,具有更好的泛化能力和實時性較少的。
雖然本文改進的U-net 模型能夠在訓練樣本數量較少的情況下依然能夠達到良好的精度和實時性,但是對于神經網絡模型來說,大量的訓練樣本能大幅提高其分割精度(這一點在本文中也得到了驗證)。因此,在后續的研究過程中,找到解決樣本數量不足的辦法,是本文可以繼續研究的方向,目前較為常用的方法是利用生成對抗網絡(GanU-net)以圖生圖[15]。