令曉明,顧?楠,范少良,王文強
(1.蘭州交通大學國家綠色鍍膜技術與裝備工程技術研究中心;2.蘭州交通大學機電工程學院;3.蘭州交通大學光電技術與智能控制教育部重點實驗室,甘肅蘭州 730070)
鐵路接觸網是鐵路運行專線上空架設的一種給機車供電的特殊形式輸電線路,可保證鐵路的穩定運行。如圖1 所示,接觸網設備由絕緣子、接觸懸掛、支持裝置、定位裝置、支柱、基礎與導線等幾部分組成。接觸網設備是輸電線路上的重要組成部分,出現故障時若不及時、準確處理會引發嚴重事故,影響列車正常運行。目前,我國在鐵路接觸網設備的維護和檢修方面依然采用檢測車拍攝,并通過人工檢測對每張圖進行檢查并排除故障的方法。由于我國鐵路里程長,該方法會造成檢測時間長、漏檢率高等問題。采用基于機器學習的方法代替人工檢測方法,可提高鐵路接觸網檢測的自動化水平。

Fig.1 Components of overhead lines equipment圖1 接觸網設備組成部分
目標檢測算法是近年來的研究熱點,特別是在基于深度學習的圖像處理領域占據了統治地位[1]。傳統的目標檢測使用滑動窗口、區域候選框等方法提取區域特征圖,通過分類器識別進行回歸預測[2]。在檢測過程中通過固定步長滑動不同大小、寬高比的窗口,將對應區域的圖像分類后實現目標檢測。但該方法計算冗余、訓練時間較長,不適宜在鐵路接觸網設備的檢測中應用。隨著目標檢測方法應用于鐵路設備檢測,明顯提高了接觸網設備的檢測速度和精度。目標檢測算法的其中一類是基于回歸的One-stage 算法,包括YOLO[3]、SSD[4]等,其檢測速度較快;另一類是基于區域候選框的Two-stage 算法,包括RCNN[5]、Fast R-CNN[6]、Mask R-CNN[7]、Faster R-CNN[8]等,檢測精度較高。在目標檢測過程中,Cao 等[9]改進區域候選網絡(Region Proposal Network,RPN)和空間變換網絡(Spatial Transformer Network,STN)對目標進行精確檢測;Huang 等[10]通過加權金字塔網絡(Weighted Pyramid Network,WPN)確定目標,以上模型檢測精度較高。若要提高接觸網設備的檢測速度,高強等[11]提出基于YOLO 的目標分解及聚合表達算法對絕緣子進行檢測;賴秋頻等[12]用YOLOv2 模型快速檢測不同缺陷狀態下的絕緣子;劉舒康等[13]通過改進YOLOv3 模型增強特征提取網絡,提出基于智能數據的增強算法進行圖像增強,快速定位接觸網吊弦和支架,但這些模型存在檢測精度低的問題。
鐵路接觸網設備受損在鐵路系統故障中較為常見,因此快速、準確地對設備進行檢測可保證列車的安全運行。針對本文接觸網設備的目標檢測問題,使用現有Onestage 算法的典型SSD、YOLO 模型無法保證在檢測速度較快的同時,實現較高的檢測精度,因此需要對YOLOv3 模型進行改進。
針對YOLOv3 模型檢測過程中檢測精度較低的問題,本文對YOLOv3 模型進行改進,增加一塊空間金字塔模塊進行多尺度融合,擴大圖像的感受野。由于深度學習對數據量的需求較大,數據增強能夠提高圖像素材的多樣性,并采用Mosaic 圖像增強方法增強網絡的魯棒性,使模型在提高檢測精度的同時增強適應能力;用廣義交并比(Generalized Intersection over Union,GIoU)損失代替原損失函數(Intersection over Union,IoU),完善圖像重疊度計算,提高網絡的收斂性能,從而提高目標檢測精度。實驗結果證明,將改進后的模型應用于接觸網設備的目標檢測中,可達到較好的檢測效果。
YOLO 模型采用回歸方法代替RPN 網絡的作用,以提高檢測速度。然而,在鐵路接觸網檢測過程中需要快速、準確地檢測設備,以保證鐵路的安全、穩定運行,但是直接將YOLOv3 模型應用于設備檢測時,檢測精度無法滿足要求,因此需要對YOLOv3模型進行改進。
YOLOv3 模型借鑒殘差網絡思想,將YOLOv2 主干網絡中的Darknet-19 主干網絡換更為Darknet-53[14],通過多尺度采樣方法對較小物體進行快速檢測,得到合適的目標檢測模型。Darknet-53 網絡主體部分共有53 個卷積層,包括2 個卷積層和5 組重復的殘差單元,每個殘差單元由2個卷積層和1 個快捷鏈路組成,在殘差單元的層與層之間設置快捷鏈路,將逐層訓練轉變為分步訓練[15]。Darknet-53網絡結構、殘差單元結構如圖2、圖3所示。

Fig.2 Darknet-53 network architecture圖2 Darknet-53網絡結構
為減小模型訓練難度,YOLOv3 模型通過檢測關鍵點的坐標框進行解碼,確定預測框位置時,以輸出特征圖的先驗框為基礎進行調整,通過預測框bx、by、bw、bh中心點坐標和對應網格左上角位置的相對偏移量對預測框進行位置約束[16]。則調整預測框的坐標計算表達式為:


Fig.3 Residual unit圖3 殘差單元

其中,tx、ty是學習預測框的中心坐標參數,bx、by、bw、bh是預測框中心和寬高的值,pw、ph是先驗框的寬高,cx、cy是當前網格左上角到原圖左上角之間的長度。通過σ激活函數Sigmoid 將tx、ty約束在(0,1)范圍內,計算每個預測框對應的置信度。通過過濾小閾值預測框,并利用非極大值抑制方法[17]刪除多余預測框,以達到最終想要的結果。
在保證鐵路運行安全的前提下,改進YOLOv3 模型是提高鐵路接觸網設備目標檢測精度的重要途徑。為了增大目標感受野、提高檢測精度,在YOLOv3 網絡中引入一個空間金字塔模塊,用于提取目標的局部特征和全局特征,從而提升目標檢測精度。網絡的空間金字塔模塊如圖4所示。

Fig.4 Spatial pyramid module圖4 空間金字塔模塊
在改進YOLOv3 的網絡模型中,首先,Darknet-53 網絡的輸出與第一個預測特征層之間使用了Convolutional Set;其次,拆開Convolutional Set 并加入空間金字塔模塊;最后,輸入特征圖通過3 個不同尺度的內核作最大池化(Maxpool)操作后,輸出特征圖得到改進模型。其中,Maxpool 操作可有效保留特征,空間金字塔模塊相對于固定內核大小的最大池化層可擴大感受野,得到全局特征和局部特征并進行特征融合。通過訓練發現,為降低模型復雜度,加入一個空間金字塔模塊即能實現網絡不同尺度的特征融合,提升模型性能。
在鐵路接觸網設備的目標檢測過程中,好的數據集對目標檢測起著至關重要的作用,然而目前沒有現成的數據集。由于現場拍攝環境及拍攝設備的限制,得到的圖像數據差別較大,并且數據收集不方便,會出現數據較少、圖像背景單一的情況,使得網絡模型訓練的魯棒性降低。
為了增加圖像背景的豐富性與數據的多樣性,增強網絡的魯棒性,引入Mosaic 圖像增強方法,將多張圖拼接在一起進行網絡訓練。首先,通過翻轉、縮放和改變色域的方式將4 張不同方位的圖片拼接到一起以增加數據;其次,將圖片和標注框相結合得到新圖像;最后,將調整后的標簽傳入模型。該方法增加了訓練圖像的目標個數,使BN 層可一次性統計多張圖片參數,并在GPU 有限的情況下獲得較好的訓練結果。Mosaic 數據增強如圖5所示。

Fig.5 Mosaic data enhancement圖5 Mosaic數據增強
YOLOv3 中的損失函數由邊界框回歸損失、置信度損失和類別分類損失組成,邊界框回歸損失函數的性能評估用IoU 表示[18]。傳統的回歸損失函數可能存在局部最優解而無法得到最優解[19]。因此,本文將真實框和預測框的廣義交并比GIoU[20]作為回歸損失函數,并用兩個邊框間的長度表示差距:

通過對YOLOv3模型進行改進,能夠快速、準確地檢測出接觸網設備,從而提升鐵路運行的安全性。
本文實驗平臺配置如下:處理器為Intel RXeon RSive4112 CPU@2.60GHz,安裝內存為16.0GB,GPU 為NVIDIA GeForce RTX 2080,操作系統為Ubuntn 18.04,CUDA 為10.1,Python 為3.8,用Pytorch1.6框架實現算法模型。
目前,為了實現鐵路接觸網設備的目標檢測,需克服數據集較少的問題。在鐵路接觸網設備目標檢測過程中,由于場景的特殊性、目標的單一性,且實驗數據集的收集途徑和場所有限,因此需要通過圖像增強方法擴充數據集,以實現有效的目標檢測。
在數據集的處理過程中,首先通過網絡、現場拍攝等方法收集圖片,將圖片統一成JPG 格式;然后通過調節亮度、翻轉、旋轉、鏡像等方法進行圖片擴增,并調整圖片大小得到2 240 張圖片;最后通過可視化圖像標注軟件LabelImg 進行手動標簽,得到Pascal VOC 標準格式的XML 標簽文件,并將數據集以7∶3 的比例分成訓練集和驗證集用于模型訓練。
訓練模型時,當epoch 達到500 個以后,模型趨于穩定。同時,設置初始學習率為0.005,最終學習率為0.001,批處理的尺寸大小為8,權重的衰減系數為0.000 5,動量為0.94。
本文采用目標檢測中的平均精度均值(Mean Average Precision,mAP)作為模型訓練過程中的評價指標,mAP 是所有類別的AP 平均后獲得的。

式中,TP[21](True Positive)為預測為正樣本的正樣本數量,FP(False Positive)為預測為正樣本的負樣本數量,FN(False Negative)為預測為負樣本的正樣本數量,p(r)為P-R 曲線,m 為檢測種類數量。
本文分別將Faster R-CNN、SSD、YOLOv3 以及改進YOLOv3 等模型進行比較,得到接觸網設備不同的性能指標如表1所示。

Table 1 Performance index comparison of different detection algorithms表1 不同檢測算法性能指標比較
實驗結果表明,改進模型針對8 種不同類別的檢測精度都有所提高。從表1 可以看出,Faster R-CNN 模型的mAP 為85.75%,FPS(Frames Per Second)為9.82,SSD 模型的mAP 為71.55%,FPS 為39.08;YOLOv3 模型的mAP 為79.81%,FPS 為29.29。由此可以看出,雖然Faster R-CNN模型的檢測精度高于SSD、YOLOv3 模型,但其檢測速度存在明顯劣勢;SSD 模型的檢測速度快,但是檢測精度低于YOLOv3 模型,很難應用于實際接觸網設備檢測,因此本文選擇改進YOLOv3模型對接觸網設備進行目標檢測。采用改進YOLOv3 模型后,其mAP 為89.19%,與Faster R-CNN相比提升了3.44%,與SSD 相比提升了17.63%,與YOLOv3相比提升了9.38%。因此,本文提出的改進YOLOv3 模型在檢測速度變化不大的前提下,可顯著提高接觸網設備的目標檢測精度,從而滿足鐵路接觸網設備檢測實時性和準確性的要求。
為了驗證本文算法對于鐵路接觸網設備檢測的準確性,根據檢測精度對算法性能進行對比,構建了幾種不同網絡,通過消融實驗在本文制作的數據集上進行訓練,實驗結果如表2 所示。其中,“√”表示采用相應的改進方法。

Table 2 Effects of different improved YOLOv3 algorithms表2 不同改進YOLOv3算法效果
由表2 可知,實驗1 為使用原始YOLOv3 模型,其mAP為79.81%,FPS 為29.29。在原有YOLOv3 模型基礎上,實驗2 中引入一個空間金字塔模塊,使模型的mAP 提升了1.87%,說明加入金字塔模塊實現了特征融合,豐富了局部特征信息,從而提升了接觸網設備的準確性。實驗3 在實驗2 的基礎上引入Mosaic 圖像增強,使模型的mAP 提升了3.97%,提升效果較為明顯,說明在改進YOLOv3 模型的過程中引入Mosaic 數據增強,可一次檢測4 張圖像中的數據,豐富了檢測目標,使網絡的魯棒性顯著提高,從而簡化了GPU 的功能,大幅提升了目標檢測精度。實驗4 在實驗3 的基礎上用GIoU 代替IoU,其mAP 提升了3.54%,由此說明用GIoU 代替IoU,可檢測到IoU 檢測不到的邊界框和預測框的未重合部分,從而提升檢測精度,使訓練結果更優。
通過上述消融實驗可知,在鐵路接觸網設備的目標檢測過程中,相比于原來的YOLOv3 模型,本文應用的改進YOLOv3 模型在檢測速度變化不大的情況下,檢測精度有了顯著提升,mAP 提升了9.38%,能夠滿足鐵路接觸網設備的目標檢測要求。
對不同模型進行目標檢測,Faster R-CNN 模型、SSD 模型、YOLOv3 模型以及改進YOLOv3 模型的目標檢測結果如圖6 所示。結果表明,在本文制作的VOC 數據集中訓練網絡,選取合適的權重,改進后的YOLOv3 模型可應用于不同場景中,網絡的漏檢率和誤檢率顯著降低,精度明顯提高。
本文首先對現有的目標檢測方法進行理論分析,然后對Faster R-CNN 模型、SSD 模型、YOLOv3 模型和改進模型進行闡述,最后對4 種模型的檢測性能指標進行分析,并進行對比實驗。實驗結果表明,本文提出的改進YOLOv3模型在檢測速度相差不大的情況下,能夠提高鐵路接觸網設備的目標檢測精度,且其中有4 類的精度達到92%以上,獲得較好的檢測效果。當閾值為0.5時,其mAP 的值相比于原有的YOLOv3 模型提升了9.38%,說明通過引入空間金字塔模塊、加入Mosaic 圖像增強、用GIoU 損失函數代替IoU 損失函數,有效減少了目標檢測的漏檢和誤檢問題,提高了檢測精度。在下一步工作中,需使用更好的網絡結構進行檢測,以獲得更優的目標檢測性能,使鐵路接觸網設備的目標檢測更加快速、精準。

Fig.6 Target detection results of traditional model圖6 模型部分目標檢測結果