魏占國 宋婭萍 李 亞
中南林業科技大學
物流與交通學院
湖南 長沙 410004
托盤在現代物流運輸行業中起著關鍵的作用,它可以將包裹規格化和模塊化,從而極大地提高運輸效率。傳統的人工叉車已不能滿足現代物流運輸搬運作業的高效率要求。因此,基于托盤智能分割識別的自動化叉車成為智慧物流行業的前沿熱點。自動化叉車高效精準的作業關鍵在于可視化識別系統的物流托盤分割算法能準確識別托盤圖像。
隨著算法的提升和深度學習技術的飛速發展,卷積神經網絡(convolutional neural networks,CNN)在圖像語義分割[1-3]任務上表現出了強大的性能。圖像語義分割是一種將圖像分割成具有精確語義類別屬性的區域序列方法,即利用每個像素及其周圍的圖像塊獨立地對每個像素進行分類。加州大學伯克利分校的J. Long等提出的全卷積網絡(fully convolutional networks,FCN)推廣了傳統的CNN結構,能在不帶全連接層的情況下進行密集預測,但是FCN會造成圖像位置信息的丟失[4-7]。為使語義分割能夠完全貼合圖像,保留圖像位置信息,研究者提出了兩種不同形式的結構:
1)編碼器-解碼器(encoder-decoder)結構。編碼器利用池化層逐漸減小輸入數據的空間維度,而解碼器則利用像反卷積層這樣的網絡層來逐步修復目標對象的細節和空間維度。編碼器和解碼器通常有直接的信息連接,因而解碼器可以更好地恢復目標對象細節。編碼器-解碼器結構的典型網絡包括U-Net[8]、SegNet[9]。
2)空洞卷積(dilated convolutions)結構[10-12]。空洞卷積結構可以在去除池化層的情況下擴大視野域,避免池化處理帶來的位置信息丟失。該結構的典型網絡包括DeepLab V1、DeepLab V2[10-11]。
受工業生產環境下物流托盤易被遮擋、光照條件變化以及托盤類型繁多等因素的影響,現有物流托盤分割算法難以進行精準的圖像識別和有效分割,進而影響自動化叉車的精準裝卸作業。基于此,本文以U-Net作為主干網絡,提出一種新穎的激勵壓縮空洞卷積模塊(squeeze excitation dilated convolution,SEDC)來改進U-Net網絡,通過對特征通道間的相關性進行建模,強化重要特征,提升物流托盤圖像分割的準確率。
為實現物流托盤的精準分割,本文構建了一個輕量級的物流托盤分割模型即基于SEDC模塊改進的U-Net網絡[12-14],網絡模型如圖1所示。在SEDC模塊(如圖2所示)中,先用1×1×1卷積進行數據降維,以降低計算量,再用傳統卷積與膨脹率為2的空洞卷積獲取多尺度感受視野下的圖像特征,并通過SE模塊(squeeze-and-excitation)提升U-Net網絡對通道特征的敏感性,使其更加有效地對不同層的重要程度進行自動學習,最后以1×1×1卷積進行數據升維。

圖1 基于SEDC模塊改進的U-Net網絡Fig. 1 Improved U-Net network model based on SEDC module

圖2 SEDC模塊示意圖Fig. 2 SEDC module
1.2.1 1×1×1卷積
采用1×1×1卷積的動機如下。
1)實現跨通道的交互和信息整合
1×1×1卷積對多個特征進行線性組合,能夠保持數據的寬度、高度與深度不變,實現跨通道的特征整合,提升網絡的表征能力。
2)實現卷積核通道數的降維和升維
3×3×3卷積在幾百個過濾器的卷積層上做卷積操作非常耗時,因此使用1×1×1卷積在3×3×3卷積層前后進行數據降維與升維操作,使參數數量進一步減少,縮短網絡的訓練時間。
1.2.2 空洞卷積
空洞卷積是在標準的卷積映射里注入空洞。相比傳統卷積,空洞卷積多了一個超參數,即膨脹率(dilation rate),它代表卷積核(kernel)的間隔數量(傳統卷積的卷積核膨脹率為1)。空洞卷積的優點是在不做池化操作、丟失特征信息的情況下,加大感受視野,讓每個卷積輸出都包含較大尺度的信息[15-16]。
1.2.3 SE模塊
SE模塊[17]的主要作用是關注通道之間的關系,使模型可以自動學習到不同通道特征的重要程度。SE模塊包括壓縮和激勵兩個關鍵操作,如圖3所示。圖中,W′、H′表示特征圖寬和高,C′表示通道數,輸入特征圖大小為W′×H′×C′。壓縮操作是對卷積得到的特征圖進行聚合,將維度為W×H的特征圖作為特征描述器,以此獲得全局感受視野信息。激勵操作是一種自篩選機制,使用樣例特化激活函數對所有通道進行權值評比。

圖3 SE模塊Fig. 3 SE module
SE模塊可以適用于任何映射Ftr:X→U,X∈RH′×W′×C′,U∈RH×W×C。以卷積過程為例,卷積核為V=[v1,v2, …,vC],那么輸出為U=[u1,u2,…,uC]。

式中:*為卷積操作;vc為第c個卷積核;vcs為第s個通道的第c個卷積核;xs為第s個通道像素。輸入一個通道上的空間特征,卷積核會學習特征空間關系。由于對各個通道的卷積結果做了求和運算,因而通道的特征關系與卷積核學習到的空間關系被混合在一起。而SE模塊可抽離這種混雜,使得模型能夠直接學習到通道特征關系。
為了驗證本模型對物流托盤圖像分割任務的有效性及分割效果,本文采用自行采集的物流托盤圖像集(如圖4所示)訓練與測試網絡模型,用精度(P)、召回率(R)和F1分數3個評價指標評價算法的分割性能。3個評價指標的公式如下:

圖4 采集的物流托盤圖像以及分割后的樣例Fig. 4 An example of the image of collected logistics pallet

式中:TP為預測具有正類別標簽數據的正類別數量(即物流托盤被正確檢測到的像素數);FP為預測具有負類別標簽數據的正類別數量;(即物流托盤被錯誤檢測的像素數);FN為預測具有正類別標簽數據的負類別數量(即物流托盤被正確檢測但又被錯誤識別的像素數)。
2.1.1 指標函數
1)Dice系數
Dice系數,即重合索引,在信息檢索領域也稱之為F1分數,其目標是在驗證物流托盤圖像分割效果時保證高查全率和查準率[18]。較之自動分割結果與原標簽數據的差異比較方法,Dice系數可以更好地刻畫分割效果。Dice系數公式為:

式中:G為原標簽數據的真實分割結果;R′為測試數據的自動分割結果。理想情況下,原標簽數據的真實分割結果應與自動分割結果完全重合,即G=R′,Dice系數的值為1。
2)豪斯多夫距離
豪斯多夫距離表示一個集合到另一個集合中最近點的最大距離[17]。從集合A到集合B的豪斯多夫距離是一個極大值函數,即:

式中d(a,b)為a、b兩點之間的歐幾里得距離。
豪斯多夫距離用來刻畫輪廓的相似性,值越大代表越不相似,反之,值越小代表越相似。
3)平均交并比
平均交并比(mean intersection over union,MIoU)是用于分割性能評價的常用指標,計算兩個集合的交集和并集的比率[19]。在本文中,平均交并比是原標簽數據的真實分割結果和預測結果的比率,即:

式中:MIoU為平均交并比;pii為真正樣本;pij′為假正樣本;pij為假負樣本。
2.1.2 損失函數
用 Adam作為算法優化器,因為它具有快速收斂的特性[20]。將一階矩估計的指數衰減率設置為 0.99;二階矩估計的指數衰減率設置為 0.999;Epsilon設置為1e-8;Decay學習率衰減設置為3e-8。
本實驗采用的硬件平臺為英特爾酷睿i7-8700K CPU @ 3.70 GHz,GPU為GeForce GTX 1080,RAM為16.0 GB,操作系統為Windows 10 專業版,編程語言為Python 3.6.5,深度學習開發庫為Keras 2.1.5。
2.2.1 消融實驗
為驗證SEDC模塊的有效性,本文對模型進行消融實驗。5個測試樣本從測試集中隨機選取,消融實驗結果見圖5和表1。其中,U-Net with SE表示使用SE模塊改進的U-Net網絡,U-Net with SE and 1×1×1 conv表示使用SE和1×1×1卷積改進的U-Net網絡。

表1 4種網絡模型對物流托盤圖像的分割效果對比Table 1 The results of the four network models compared on the logistics pallet image data set

圖5 樣本1對比實驗的可視化結果Fig. 5 Visualized results of the comparative experiment on the first sample
由表1可知:
1)與傳統U-Net網絡相比,U-Net with SE網絡的性能有小幅提升,但參數量有小幅增長。
2)與U-Net with SE網絡相比,U-Net with SE and 1×1×1 conv網絡的參數量僅為U-Net with SE網絡的39%,但網絡性能明顯減弱。
3)與傳統U-Net網絡相比,本文模型的參數量下降了54.5%,網絡結構更加輕量化。在大幅降低網絡結構復雜度的情況下本文模型的性能沒有大幅度變化。可見,本文模型在盡可能保證圖像分割性能的情況下大幅降低了模型的計算量,并提升了網絡的魯棒性。
2.2.2 不同模型性能對比實驗
為了進一步驗證本文模型的優越性,將本文模型與Attention U-Net模型[17]、SegNet模型和 PSPNet模型[21]進行對比實驗。實驗結果如表2所示。

表2 物流托盤圖像分割對比實驗結果Table 2 The results compared on the logistics pallet image data set
由表2可知,本文模型的性能均優于其他3種模型,其原因是本文模型有效地關注了通道之間的關系,自動學習不同通道特征的重要程度,從而得到更優的分割效果。
本文提出了一種新穎的基于激勵壓縮空洞卷積改進的U-Net網絡用于物流托盤圖像分割識別任務。利用1×1×1卷積降低參數量,使用傳統卷積與膨脹率為2的空洞卷積獲取多尺度感受視野下的圖像特征,同時引入SE模塊有效對不同層的重要程度進行自動學習,提高模型魯棒性。消融實驗和對比實驗的結果證明了本文模型的有效性。未來的研究工作將進一步研究編碼與解碼之間的關聯性,充分利用低級特征與語義信息對模型進行優化。