周鵬 張龍信



摘? 要:針對列車故障檢測效率低的問題,提出一種基于MobielNet的移動端列車圖像故障檢測算法。首先,在MobileNet中引入注意力卷積塊和Ghost模塊,用以提升網絡的學習能力。其次,使用殘差聚合網絡獲取多層次的特征圖。最后,將該模型移植到移動端設備上完成列車故障檢測任務。實驗結果表明,該算法的平均精度均值達到了85.35%,與YOLOv3-Tiny、YOLOv4-Tiny、YOLOX、YOLOv5相比,mAP分別提高了8.83%、5.49%、7.89%、5.31%,并且FED擁有更低檢測延遲。
關鍵詞:列車故障檢測;目標識別;MobileNet;移動設備;注意力機制
中圖分類號:TP391.4? 文獻標識碼:A? 文章編號:2096-4706(2023)06-0046-05
Mobile Terminal Train Image Fault Detection Algorithm Based on MobielNet
ZHOU Peng, ZHANG Longxin
(Hunan University of Technology, Zhuzhou? 412007, China)
Abstract: To solve the problem of low efficiency of train fault detection, mobile terminal train image fault detection algorithm based on MobielNet is proposed. First, attention convolution block and Ghost module are introduced into MobileNet to improve the learning ability of the network. Secondly, residual aggregation network is used to obtain multi-level feature map. Finally, the model is transplanted to the mobile terminal equipment to complete the train fault detection task. The experimental results show that the average accuracy of the algorithm reaches 85.35%. Compared with YOLOv3-Tiny, YOLOv4-Tiny, YOLOX and YOLOv5, mAP improves 8.83%, 5.49%, 7.89% and 5.31% respectively, and FED has lower detection delay.
Keywords: train fault detection; target recognition; MobileNet; mobile device; attention mechanism
0? 引? 言
中國鐵路高速發展,鐵路安全問題一直是人們關注的焦點,當前對于列車零部件故障的檢測主要依賴人工識別,檢測效率低,易受檢測人員自身狀態和自然環境的影響。近年來基于機器視覺的列車故障檢測方法在我國鐵路系統中得到了廣泛的應用,但由于列車故障種類多,識別難度高,傳統的基于機器視覺的圖像處理技術難以完成列車故障檢測任務。隨著計算機視覺技術的發展,使得基于深度學習的列車故障檢測方法越來越受到人們的重視。相比于傳統列車故障檢測方法,基于深度學習的列車故障檢測方法能自動的設計和提取特征,提高檢測效率。針對這些因素,本文提出一種基于MobielNet[1]的移動端列車圖像故障檢測算法FED,旨在提高列車故障檢測精度,完成實時檢測任務。
本文工作的主要貢獻總結如下:
(1)設計了殘差聚合網絡(Residual Pixel Aggregation Network, Residual-PAN),用于產生多層次的特征圖,并進行特征融合,顯著提高了網絡特征提取能力。Residual-PAN使用1×1的卷積操作統一特征圖的通道數,減少網絡參數,并使用卷積核為5×5(或者7×7)的深度可分離卷積擴大感受野。
(2)提出了Enhanced MobileNet(EMNet)。在MobileNet的基礎上,增加了卷積注意力機制(Convolution Block Attention Module, CBAM)和Ghost模塊,可以在少量參數的情況下,獲取更多的特征信息,提高網絡的學習能力。
(3)將Fastand Effective Detection(FED)模型應用于移動端的列車零部件故障檢測,并進行了一系列實驗以評估其有效性。實驗結果表明,FED具有更高的檢測精度、較低的檢測延遲和較少的參數量,能在硬件性能較差的移動設備完成實時檢測任務。
本文其余工作安排如下:在第1節回顧了目標檢測算法的相關工作,第2節中介紹了提出的FED模型。第3節描述了實驗和結果分析,第4節對所做的工作進行了總結。
1? 相關工作
1.1? 移動端目標識別
移動端目標識別是指使用輕量級的移動設備實現目標識別任務,其流程如圖1所示。首先,使用列車圖像訓練檢測模型。然后,將檢測模型部署到移動設備,并使用自帶的攝像頭收集實時圖像和視頻進行列車故障檢測。最后,展示檢測結果。
1.2? 目標檢測方法
Mao等人提出了Min-YOLOv3[2]模型,在YOLO9000的基礎上,YOLOv3重新設計了Darknet-53殘差網絡,通過引入ResNet網絡中的殘差結構,解決網絡結構層數太多而出現的梯度消失問題,降低訓練深層網絡的難度。并使用特征金字塔網絡(Feature Pyramid Network, FPN)進行多尺度融合預測。FPN網絡用于融合不同尺度的特征信息,高層特征具有較多的語義信息,而低層特征有較豐富位置信息,將不同層的特征進行融合,可以最大化利用特征信息。Bochkovshiy等人設計了YOLOv4[3]模型,在YOLOv3基礎上,YOLOv4將Darknet-53替換為CSPDarknet-53,并加入了路徑聚集網絡、Mish激活函數和Mosica數據增強等方法,使得YOLOv4模型的檢測精度和檢測速度達到了一個全新的高度。Zhu等人提出了YOLOv5[4],在YOLOv4基礎上,YOLOv5使用Mosaic和圖片自適應放縮法對數據集進行優化,并使用自適應錨框計算法設置初始錨框的大小,提升檢測速度。YOLOv5在主干網中加入Focus結構,并加入特征金字塔和PAN提高檢測進度。Panboonyuen等人提出了YOLOX[5],YOLOX添加Mosaic和MixUp兩種更加強大的數據增強方法,并提出了SimOTA標簽分配算法,極大地提高了模型的檢測精度。YOLOX與YOLOv5相比,在參數量的基本相同情況下,YOLOX能在COCO-2017上mAP達到50.00%(比YOLOv5高出1.8%的mAP),且YOLOX的檢測速度達到68.9 FPS。
1.3? 注意力機制
注意力機制是機器學習中一種數據處理方法,廣泛用于在自然語言處理、圖像識別及語音識別等各種不同類型的機器學習任務中。Li等人提出了通道注意力機制Squeeze-and-ExcitationNetwork(SENet)[6]。SENet分為3個步驟。第一步輸入一個H×W×C(H表示特征圖的高,W表示特征圖的寬,C表示特征圖的通道數)的特征圖F進行全局平均池化,得到1×1×C的特征向量;第二步輸入1×1×C的特征向量,在通道維度進行經過壓縮和擴張,得到1×1×C的權重系數,并使用sigmoid激活函數將權重系數的值都限制在0到1的范圍;第三步輸入特征圖F與權重系數,兩者相乘得到加權后的特征圖。Woo等提出了混合域注意力機制CBAM(Convolutional Attention Module),在SENet的基礎上增加了空間注意力機制,加強了特征圖局部間的聯系。CBAM是一個輕量級的通用模塊,可以無縫地集成到任何CNN架構中,并且可以與CNN一起進行端到端的訓練。
2? 推薦框架
2.1? 整體框架
本節展示了所提出的FED模型,其結果如圖2所示(其中Conv表示卷積操作,Upsample表示上采樣,DSConv表示深度可分離卷積)。FED模型由EMNet、Residual-PAN和YOLOHead組成。EM是輕量化的網絡,能高效的提取圖片特征。Residual-PAN用于獲取多層次特征映射,并對相鄰的特征圖進行融合。YOLOHead對目標進行回歸和分類。
2.2? Enhanced MobileNet
本文提出了EMNet,如圖3所示,其中pw conv表示點卷積,dw conv表示深度卷積。EMNet主要由EM塊組成,EM塊集成Ghost模塊和CBAM模塊,EMNet塊結構如圖3所示。Ghost模塊由點卷積和深度卷積組成,Ghost可以用少量的參數生成大量的特征信息,提高網絡的學習能力。CBAM是輕量級注意力機制,能輕易地嵌入到神經網絡。CBAM通過在特征圖的通道維度和空間維度進行加權,以獲取圖片中更重要特征信息。CBAM使用的激活函數是Relu和H-Sigmoid。
2.3? Residual-PAN
本文使用Residual-PAN獲取多層次的特征圖,并對相鄰特征圖進行融合。傳統的PAN中,輸出特征圖的通道數與骨干網產生特征圖通道數保持一致,需要昂貴的計算成本,不適用于移動設備。Residual-PAN通過1×1的卷積操作使所有特征圖的通道數都等于特征圖中最小的通道數,并使用殘差結構融合相鄰的特征圖,使得計算成本大幅降低。此外,Residual-PAN額外增加了一個特征圖,以檢測更多的對象。Residual-PAN通過調整DSConv卷積核(5×5/7×7)的尺寸以獲取更大的感受野。Residual-PAN使得模型的參數更少,檢測精度更高。
2.4? ?標簽分配策略與損失函數
正樣本與負樣本的標簽分配策略對識別模型的效果影響巨大。FED采用SimOTA策略進行標簽分配。SimOTA策略會隨著訓練過程的不斷變化而變化,自動分析正樣本的數量,且速度更快。對于分類,ZP使用Varifocal損失函數。對于回歸,ZP使用GIoU和Distribution Focal損失函數。計算公式為:
loss=lossvfl+αlossgiou+βlossdfl
其中,lossvfl表示Varifocal損失函數,lossgiou表示GIoU損失函數,lossdfl表示Distribution Focal損失函數,α、β表示常量參數。
3? 實驗與結果
本節首先描述了實驗中的數據集,然后給出了網絡結構設置和性能評價指標。最后展示了實驗結果。
3.1? 數據集描述
為驗證算法的有效性,本文采用大量列車零部件圖像來構建實驗的Train TD(Train Test Dataset),所有圖像的大小為930×680像素。訓練集擁有13 581張圖片,測試集有8 366張列車零部件圖像。列車典型零部件主要有3種,分別為截斷塞門把手(Truncated Plug Door Handle, TPDH)、上拉桿(Upper Lever, UL)和緊鎖板(Locking Plate, LP),如圖4所示,左側為故障的零部件,右側為正常列車零部件。列車故障檢測需要對以上3種零部件進行精確的定位,然后再根據這些零部件的狀態進行判別,分析是否出現故障,得到最終的檢測結果。
3.2? 模型參數設置
本文的訓練實驗環境為Ubuntu 20.04系統,顯卡為4塊NVIDIA GeForce GTX 1080Ti,顯存為22 GB。網絡結構使用Pytorch框架實現。學習率初始化為0.001,會隨著余弦退火函數發生變化,訓練周期為300。測試環境為高通驍龍865。
3.3? 評價指標
主要評價指標如下:
(1)Precision表示模型預測出的所有目標中正確的比例,體現模型對負樣本的區分能力。其計算公式為:
其中TP(True Positives)表示被正確識別的正樣本的數量,FP(False Positives)表示被錯誤識別為正樣本的負樣本數量。Precision越高,模型對負樣本的區分能力越強。
(2)Recall表示被模型正確識別的目標占總目標數量的比例,體現模型對正樣本的識別能力。其計算公式為:
其中FN(False Negatives)表示被錯誤識別為負樣本的正樣本數量。Recall越高,模型對正樣本的識別能力越強。
(3)mean Average Precision(mAP)平均精度均值,即AP的平均值。它是目標檢測算法的主要評估指標。AP是Precision-Recall曲線下面積,其計算公式為:
其中P(r)表示Precision-Recall曲線,mAP的計算公式為:
其中N表示檢測故障類別總數,APs對應目標的AP值。mAP值越高,表明該目標檢測模型在給定數據集上的檢測效果越好。
(4)FLOPs(Floating Point Operations)浮點運算數,表示模型計算量,用于衡量模型的復雜度。FLOPs值越低,模型的計算量越小,檢測速度越快。
3.4? 實驗結構與分析
在COCO-2017數據集上對FED模型進行消融實驗,實驗結果如表1所示。當FED只使用EM和PAN,mAP為44.63%,參數量為2.98 M。當FED用Residual-PAN替換PAN時,mAP增加到48.42%,我們推測是因為Residual-PAN能獲取多層次的特征圖,并利用殘差塊融合相鄰特征,防止梯度消失,提升檢測精度。當FED增加CBAM后mAP增加了4.71%,CBAM是一種輕量級注意力機制,能提升關鍵特征的權重,是模型更加關注圖像中的重要信息。當FED增加Ghostblock后mAP提升至47.81%,Ghostblock只需要少量的參數就能得到大量的特征信息,提高網絡的學習能力。
從表2可以看出,FED的檢測精度和檢測速度遠超其他檢測模型。我們認為主要有以下幾個原因:(1)FED的主干網EM參數更小,在引入CBAM和Ghost模塊后,網絡會聚焦的關鍵信息,學習能力更強。(2)Residual-PAN能取得多層次的特征檢測更多目標,并使用殘差塊進行特征融合,能有效地防止反向傳播過程中梯度消失的問題。Residual-PAN還會使用大尺寸的卷積核進行深度可分離卷積,擴大感受野。(3)FED使用SimOTA動態分配標簽,正負樣本分配更準確,速度更快。
在Traindataset測試FED和其他先進目標檢測模型,實驗結果如表3所示。FED的mAP為85.35%,比YOLOv3-Tiny、YOLOv4-Tiny、YOLOX、YOLOv5分別提升了8.83%、5.49%、7.89%、5.31%。FED擁有更快、更高效的特征提取網絡,Residual-PAN能豐富特征信息,使得FED取得更優的檢測效果。實際的檢測效果如圖5所示,FED可以快速地找出圖片中故障的零部件,并對故障的零部件位置和故障類別進行標注,給出該故障的置信度,方便工作人員進行檢測和修復工作。
4? 結? 論
相比于傳統的列車故障檢測算法,基于深度學習的列車故障檢測方法檢測精度更高,檢測速度更快,但需要強大的算力支持,需要部署在高性能的服務器上,對檢測環境要求苛刻。本文實現了一種基于MobielNet的移動端列車故障檢測算法FED,在Train TD上,mAP達到了85.35%,檢測延遲為17.87 ms,滿足實時性和精確性的要求。
參考文獻:
[1] EL-SAADAWY H,TANTAWI M,Shedeed H A,et al. A Two-Stage Method for Bone X-Rays Abnormality Detection Using MobileNet Network [C]//AICV: The International Conference on Artificial Intelligence and Computer Vision.Cairo:Springer,2020,1153:372-380.
[2] MAO Q C,SUN H M,LIU Y B,et al. Mini-YOLOv3: Real-Time Object Detector for Embedded Applicatio [J].IEEE Access,2019,7:133529-133538.
[3] BOCHKOVSKIY A,WANG C Y,LIAO H Y M. YOLOv4: Optimal Speed and Accuracy of Object Detection [J/OL]. arXiv:2004.10934 [cs.CV].[2022-09-28].https://arxiv.org/abs/2004.10934.
[4] ZHU X K,LYU S C,WANG X,et al. TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-captured Scenarios [C]//2021 IEEE/CVF International Conference on Computer Vision Workshops(ICCVW).Montreal:IEEE,2021:2778-2788.
[5] PANBOONYUEN T,THONGBAI S,WONGWEERANIMIT W,et al. Object Detection of Road Assets Using Transformer-Based YOLOX with Feature Pyramid Decoder on Thai Highway Panorama [J/OL].Information,2022,13(1)[2022-09-28].https://doi.org/10.3390/info13010005.
[6] LI Y,LIU Y,CUI W G,et al. Epileptic Seizure Detection in EEG Signals Using a Unified Temporal-Spectral Squeeze-and-Excitation Network [J].IEEE Transactions on Neural Systems and Rehabilitation Engineering,2020,28(4):782-794.
作者簡介:周鵬(1997—),男,漢族,湖南常德人,碩士在讀,研究方向:基于深度學習的列車識別方法;張龍信(1983—),男,漢族,湖南株洲人,副教授,博士,研究方向:高性能計算、機器學習。
收稿日期:2022-10-17