高仁 柴曉冬 鄭樹彬 李立明 戚瑋瑋



文章編號:1002-3100(2024)03-0044-06
摘? 要:針對當前高鐵軌旁電纜槽蓋板檢測方法自動化程度和檢查效率低等問題,提出一種基于改進UNet的槽蓋板檢測模型。在編碼部分引入兩種不同的殘差結構,避免梯度消失等問題,同時融合SA注意力機制,抑制背景干擾,進一步提升槽蓋板狀態的檢測能力。實驗結果表明,該算法達到的MPA、MIoU分別為95.03%、90.88%。相較于UNet等其他分割網絡,該算法能更好地分割出槽蓋板區域。
關鍵詞:槽蓋板檢測;殘差結構;SA注意力機制;UNet
中圖分類號:U216? ? 文獻標志碼:A
DOI:10.13714/j.cnki.1002-3100.2024.03.011
Abstract: Aiming at the problems of low automation and inspection efficiency of current detection methods for trackside cable tray cover plate of high-speed railway, a detection model for tray cover plate based on improved UNet is proposed. In the coding part, two different residual structures are introduced to avoid problems such as gradient disappearance. At the same time, SA attention mechanism is integrated to suppress background interference and further improve the detection ability of slot cover plate status. The experimental results show that the MPA and MIoU achieved by this algorithm are 95.03% and 90.88%. Compared with other segmentation networks such as UNet, this algorithm can segment the slot cover area better.
Key words: slot cover detection; residual structure; SA attention mechanism; UNet
0? 引? 言
在電務軌旁設備檢修任務中,電纜槽蓋板的狀態檢測是一個重要的必檢項目。如圖1所示,方框內為電纜槽蓋板,是一種鋪設在軌旁電纜槽溝上的蓋板,其主要作用是為了保護槽溝內通信、電力等。圖2為不同槽蓋板的狀態圖,圖2(a)為正常狀態;圖2(b)為破損狀態;圖2(c)為丟失狀態。目前,該檢測項目主要是采用人工視覺檢查的方式,該方式存在檢查效率低、受天氣影響等問題。部分線路采用了基于機器視覺技術的檢測方式,但仍然需要人工參與,自動化程度有待提高。
傳統的槽蓋板圖像檢測方法為圖像匹配算法。在圖像匹配算法中,呂明珠[1]利用圖像處理理論,對印刷品缺陷的形狀進行檢測研究,結合尺度不變特征變換(SIFT)角點匹配和決策樹,對印刷品的缺陷進行分類。劉澤等[2]利用動態的閾值分割算法和缺陷區域提取算法,對鋼軌表面掉塊、裂痕兩類缺陷圖像進行處理,準確提取缺陷位置區域。使用傳統的圖像匹配算法對槽蓋板狀態進行檢測,算法魯棒性差,受圖片質量影響較大。圖像匹配時候容易導致誤檢,形成大量誤檢圖片。近年來,基于深度學習的卷積神經網絡在計算機視覺領域取得極高成就[3],產生了許多基于深度學習的圖像分割網絡。例如全卷積神經網絡[4](Fully Convolutional Networks, FCN)是語義分割發展的基礎。UNet最初被運用到醫學領域的細胞分割,Roy等[5]在UNet的編碼解碼過程中串聯了3個SE模塊來抑制背景干擾。Oktay O等[6]提出的Attention U-Net在跳躍連接層特征拼接前加入集成注意力,消除跳躍連接層中的其他干擾編碼。Moradi等[7]提出了MFP-UNet,在UNet的上外接特征金字塔網絡,再將特征串聯,提高了網絡分割能力。宮艷晶等[8]提出了融合ResNet的火焰圖像分割法,提升了UNet在火焰圖像上的準確率。Rahman等[9]提出了一種融合多注意力機制的UNet卷積神經網絡,提高了分割的精確度。基于以上研究表明UNet分割網絡已經不局限于醫療行業,應用場景十分廣闊。
目前在電纜槽蓋板狀態檢測領域,還未應用過基于深度學習的語義分割技術,本文根據電纜槽蓋板圖片的特征,針對原始UNet網絡在樣本較少且正負樣本不平衡時,易產生過擬合、受到背景和噪聲的影響導致特征提取能力差等問題,在UNet中引入了殘差結構并融合注意力機制SA,提出改進UNet的電纜槽蓋板狀態檢測算法,主要包括以下幾點:(1)將UNet特征提取網絡中的卷積層替換成BasicBlock;(2)在下采樣中,在BasicBlock后加入BottleNeck;(3)在引入的BottleNeck上融合注意力機制SA;(4)采用Dice Loss+BCE Loss組成復合損失函數。
1? 改進的UNet模型
1.1? 傳統UNet
UNet是一種基于全卷積神經網絡(FCN)改進的網絡模型[10]。如圖3所示,該網絡呈U型的對稱結構,由編碼器、跳躍連接、解碼器等三部分組成。圖3左側為編碼器,通過3×3的卷積層、ReLU函數、2×2最大池化層等下采樣,提取圖像的語義特征和上下文信息;右側解碼器進行2×2的反卷積操作,通過跳躍連接層,將反卷積后的結果和相應的特征圖拼接,以恢復丟失的邊緣特征并保留底層的位置信息,再進行上采樣,還原圖像分辨率,最終由1×1卷積調整通道數,輸出分割圖像[11]。
1.2? 基于殘差模塊與注意力機制的UNet改進
本文模型針對槽蓋板圖像邊緣模糊、破損、形狀不規律等特征在UNet網絡基礎上進行了改進:使用BasicBlock殘差結構代替原始的卷積層,在下采樣過程中加入Bottleneck結構并在Bottleneck后融合Shuffle注意力機制。圖4為改進的流程框架。
1.2.1? 殘差結構
ResNet(Resdiual Network)是由He等[12]提出的殘差網絡模型,簡化了網絡的訓練,使模型更容易被優化,并且提高了網絡的精度。如圖5(a)所示,殘差結構[13]的短連接可跳過中間層,將兩條路徑結果疊加作為輸出結果,將淺層特征傳輸到深層,在加深網絡層數的同時減少額外的參數和計算復雜度,以解決由網絡層數的增加而引發的訓練問題。殘差結構有兩種,分別為圖5(b)BasicBlock結構和圖5(c)BottleNeck結構。由圖5(c)可知BottleNeck通過第一個1×1卷積層降維,減少參數量,再由另一個1×1卷積層恢復維度,在減少計算量的同時保證精度。
傳統卷積層在訓練過程中為提升網絡性能,一般采用加深網絡層數的方法,隨著網絡層數的增加,會引發梯度消失,網絡退化的問題。本文使用BasicBlock替換編碼部分的卷積層,再將經BasicBlock后所得的輸出特征作為BottleNeck的輸入特征,輸入到BottleNeck中以減少參數量、計算量,有利于構建更多的網絡層數,提升網絡性能,使主干網絡能更好地提取槽蓋板的區域細節特征。
1.2.2? Shuffle注意力
加入殘差模塊的UNet網絡能更好地提取槽蓋板的局部信息,但忽略了不同的像素類別、通道特征間的差異性,特征學習權重會影響槽蓋板分割的效果。引入注意力機制,增加槽蓋板狀態的特征學習權重,獲取更多槽蓋板區域的特征信息,減少背景區域的學習權重,忽略其他無關信息[14]。由于使用Bottleneck減少了殘差網絡中的通道數,為更好地獲取通道中的特征信息,在Bottleneck下方加入注意力機制SA(Shuffle Attention)[15],通過改變特征學習的權重。
圖7是將SA融入Bottleneck中的結構圖,在Bottleneck結構下方加入SA,將Bottleneck的輸出特征輸入到SA模塊,得到更重要的特征信息。
結合了殘差模塊、注意力機制UNet模型結構圖如圖8所示,UNet下采樣中加入BasicBlock、Bottleneck,更好地獲取槽蓋板狀態的特征信息,并在Bottleneck下方融入SA注意力機制,在減少算力的同時,給圖像特征分配不同的權重,減少槽蓋板圖片其他背景的干擾。
1.3? 損失函數
圖像分割算法中,常用的損失函數是二進制交叉熵損失函數(Binary Cross Entropy Loss, BCE),如式(3)所示。而槽蓋板圖像存在正負樣本不均衡的情況,繼續使用BCE Loss會使網絡過擬合,降低訓練效果。Dice Loss通過計算預測值和真實結果的相似度,解決正負類樣本不均衡問題,式(4)為Dice Loss。由于預測值和和真實值存在偏差,導致網絡訓練不穩定,為加強網絡對樣本的學習,本文設計了復合損失函數,如式(5)所示。
2? 實驗結果與分析
2.1? 數據采集及預處理
本文試驗使用的數據集是高鐵軌旁槽蓋板圖像,利用軌檢車采集鐵路旁的槽蓋板圖像。一共采集390張具有槽蓋板的圖像,按照比例9∶1的方式,訓練集有351張圖像,39張圖像作為測試集,使用LabelMe軟件對槽蓋板圖像進行手動標注,得到正常槽蓋板和非正常槽蓋板兩種狀態。圖9為LabelMe軟件準備數據集的界面。
2.2? 實驗細節
表1為實驗使用的系統和軟件設置。
表2為模型訓練超參數設定。
2.3? 評價指標
本文采用的模型性能評價指標為語義分割領域公認的像素準確率(Pixel Accuracy,PA)、類別平均像素準確率(Mean Pixel Accuracy,MPA)、平均交并比(Mean Intersection over Union,MIoU)、加權交并比(Frequency Weighted Intersection over Union, FWIoU)[16]。
2.4? 實驗結果對比與分析
本文使用幾種先進的語義分割模型和本文改進的模型分別對數據集進行訓練和測試,得到不同模型的分割精度,進行對比實驗。圖10為不同模型訓練的Loss曲線,比較了UNet、ResUNet以及本文模型,從Loss值的變化來看,本文改進的模型收斂速度更快。
表3為不同網絡對槽蓋板分割的評價指標結果,Res-UNet在各項指標上明顯高于其他經典的語義分割網絡,分割效果略差于改進的Deeplabv3-mobile,而本文改進后網絡的各項指標都高于原始UNet和Res-UNet,相較于Res-UNet,PA、MPA、MioU、FWIoU分別提高了3.71%、5.77%、5.56%、3.74%;本文方法相較于分割效果較好的Deeplabv3-mobile,PA、MPA、MioU、FWIoU分別提高了1.89%、4.71%、7.16%、3.42%。
圖11是不同網絡分割效果圖,各網絡對第一列圖片的分割效果相當,沒有遺漏或模糊;在第二、第三列圖片的分割結果中,原始UNet、PSPNet等算法存在漏檢的問題。加入兩種殘差模塊,解決了漏檢的問題。但由于背景因素的干擾,加入殘差的UNet把部分槽蓋板區域錯誤地歸類為背景,導致區域分割不完整、邊緣不清晰的問題,而引入SA注意力機制能有效抑制背景因素干擾,更好地關注槽蓋板區域的信息,使該網絡分割的區域更完整,邊緣劃分更精確,達到了預期的優化目標。
3? 結束語
本文針對軌旁電纜槽蓋板狀態檢測的問題,提出了改進UNet 的語義分割模型,在UNet下采樣過程中引入兩種殘差結構,解決了訓練中梯度爆炸、網絡退化的問題,能更多地獲取槽蓋板圖像的特征。在殘差結構上融合了SA后,增強槽蓋板區域的關注度,提高了網絡對槽蓋板區域特征的提取能力,弱化背景噪聲干擾。進一步加強了網絡的分割效果。與原始UNet及其他幾種分割算法相比,本文網絡在分割精確度有較大優勢。未來在使用中,將進一步擴充槽蓋板圖像數據集,優化網絡結構,提高網絡的檢測效果。
參考文獻:
[1] 呂明珠. 基于機器視覺的印刷品表面缺陷檢測研究[D]. 西安:西安理工大學,2019.
[2] 劉澤,王嵬,王平. 鋼軌表面缺陷檢測機器視覺系統的設計[J]. 電子測量與儀器學報,2010,24(11):1012-1017.
[3] 高玉雙. 深度學習在計算機視覺領域的應用發展探究[J]. 電腦編程技巧與維護,2020(9):125-127.
[4]? LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015,39(4):640-651.
[5]? ROY A G, NAVAB N, WACHINGER C. Concurrent spatial and channel squeeze & excitation in fully convolutional networks[J/OL]. (2018)[2023-03-20]. http://arxiv.org/abs/180302579.2018.
[6]? OKTAY O, SCHLEMPER J, FOLGOC L L, et al. Attention U-Net: Learning where to look for the pancreas[J/OL]. (2021)[2023-03-10]. https://blog.csdn.net/fujikoo/article/details/111462676.
[7]? MORADI S, GHELICH-OGHLI M, ALIZADEHASL A, et al. A novel deep learning based approach for left ventricle segmentation in echocardiography: MFP-UNet[J/OL]. (2019)[2023-03-10]. https://www.docin.com/P-2326647814.html.
[8] 宮艷晶,黃民,黃小龍. 基于改進ResNet-UNet的火焰圖像分割方法[J]. 北京信息科技大學學報(自然科學版),2021,36(5):39-44.
[9]? RAHMAN M R U, CHEN H. Defects inspection in polycrystalline solar cells electroluminescence images using deep learning[J]. IEEE Access, 2020(8):40547-40558.
[10] 王明常,朱春宇,陳學業,等. 基于FPN Res-UNet的高分辨率遙感影像建筑物變化檢測[J]. 吉林大學學報:地球科學版,2021,51(1):296-306.
[11] 殷曉航,王永才,李德英. 基于U-Net結構改進的醫學影像分割技術綜述[J]. 軟件學報,2021,32(2):32.
[12]? HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C] // Proceedings of the IEEE Conference on Computer Risionand Pattern Recognition, 2016:770-778.
[13] 李愛蓮,劉浩楠,郭志斌,等. 改進ResNet101網絡下渣出鋼狀態識別研究[J]. 中國測試,2020,46(11):5.
[14] 朱張莉,饒元,吳淵,等. 注意力機制在深度學習中的研究進展[J]. 中文信息學報,2019,33(6):11.
[15]? ZHANG Q L, YANG Y B. Sa-net: Shuffle attention for deep convolutional neural networks[C] // ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021:2235-2239.
[16] 于營,王春平,付強,等. 語義分割評價指標和評價方法綜述[J/OL]. 計算機工程與應用:1-14[2023-02-24]. http://kns.cnki.net/kcms/detail/11.2127.TP.20221205.1515.002.html.
收稿日期:2023-03-17
基金項目:國家自然科學基金項目(51975347);上海市科技計劃項目(22010501600)
作者簡介:高? 仁(1997—),男,江蘇鹽城人,上海工程技術大學城市軌道交通學院碩士研究生,研究方向:交通通信與智能信息處理;柴曉冬(1962—),本文通信作者,男,上海人,上海工程技術大學城市軌道交通學院,教授,碩士生導師,研究方向:軌道檢測、圖像處理。
引文格式:高仁,柴曉冬,鄭樹彬,等. 基于改進UNet的軌旁槽蓋板狀態檢測算法[J]. 物流科技,2024,47(3):44-49.