




















摘要:針對鐵路軌道異物檢測中不同尺度異物目標的檢測易受復雜環境的影響,導致出現檢測精度低及檢測速度慢等問題,提出一種多尺度特征融合的鐵軌異物檢測(RMF-YOLO)算法。首先,設計并引入改進的卷積注意力模塊(ICBAM),結合YOLOv7特征提取網絡,以增強復雜場景下的特征提取能力。其次,在所有高效層聚合網絡模塊中采用GhostConv替代普通卷積層,以降低計算復雜度,提高特征輸出效率;設計一種改進的加權雙向特征金字塔網絡N-BiFPN結構,加強多尺度特征融合能力,平衡不同層級特征信息,提高多尺度檢測能力。最后,為進一步提升檢測精度,采用WIoU損失函數結合動態非單調聚集機制,有效應對低質量錨框產生的梯度,提高模型對不同尺度異物檢測的整體性能。實驗結果表明:在自制的鐵軌異物數據集上,RMF-YOLO算法減少了原網絡模型的參數量,有效提升了模型的檢測精度與檢測速度,改善了漏檢與誤檢問題,平均精度提升了5.5%,檢測速度提升了5.88%,計算量減少了12.25%,能滿足鐵軌入侵異物檢測中對檢測精度和實時性的需求。
關鍵詞:鐵軌異物檢測;特征融合;多尺度;YOLOv7;損失函數
中圖分類號:TP391.41;U298 文獻標志碼:A
DOI:10.7652/xjtuxb202409014 文章編號:0253-987X(2024)09-0139-15
Research on Railway Track Foreign Object Intrusion Detection
Based on Multi-Scale Feature Fusion
WANG Nan, HOU Tao, NIU Hongxia
(School of Automation and Electrical Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China)
Abstract:To address the issues of low detection accuracy and slow detection speed caused by the influence of complex environments on detecting foreign objects of different scales on railroad tracks, this paper proposes a multi-scale feature fusion RMF-YOLO (railway multi-scale fusion YOLO) method for railroad track foreign object detection. Firstly, ICBAM, an improved convolutional attention module, is designed and introduced in combination with the YOLOv7 feature extraction network to enhance feature extraction capability in complex scenarios. Subsequently, GhostConv is adopted in all efficient layer aggregation network modules instead of regular convolutional layers to reduce computational complexity and enhance feature output efficiency.An improved weighted bi-directional feature pyramid network (N-BiFPN) structure is introduced to enhance multi-scale feature fusion, balance feature information across different levels, and improve multi-scale detection capabilities. Lastly, to further enhance detection accuracy, the WIoU loss function combined with the dynamic non-monotonic aggregation mechanism is used to effectively deal with the gradient generated by the low-quality anchor frames and to improve the overall performance of the model for the detection of foreign objects at different scales. The experimental results indicate that on the self-made railway track foreign object dataset, the RMF-YOLO algorithm reduces the parameter count of the original network model, effectively enhancing the model’s detection accuracy and detection speed of the model and addressing issues related to missed and 1 detections. On average, the precision increased by 5.5%, the frames per second (FPS) improved by 5.88%, and the computational load decreased by 12.25%. These enhancements meet the requirements for both detection accuracy and real-time performance in railway track foreign object detection.
Keywords:railroad foreign object detection; feature fusion; multi-scale; YOLOv7; loss function
鐵路在全球運輸系統中扮演著重要角色,隨著鐵路運輸的快速發展,鐵路運輸安全也越來越受到人們的關注。對于鐵路運輸安全,鐵軌附近出現的入侵異物是威脅鐵路系統安全的原因之一,典型的鐵路非法入侵有行人、車輛、動物、軌旁基礎設施坍塌等,特別是在開放式鐵路環境下,行人的行為是不可預測的[1]。列車前方異物的入侵會對高速列車的安全構成重大威脅,因此及時發現非法入侵異物,確保列車安全至關重要。
有效的鐵路異物入侵檢測方法對鐵路安全具有重要意義。目前,鐵路入侵檢測主要有兩種方法:接觸式和非接觸式。接觸式檢測需要大量的工程工作,主要是利用傳感器技術判斷異物是否與傳感器接觸,這種物理保護方法受到外界因素影響較大,不適合大規模的使用。基于深度學習的異物目標檢測是一種典型的非接觸式檢測方法,具有易于維護和準確性較高的特點,目標檢測方法可分為兩階段和單階段。兩階段方法涉及生成候選區域,然后進行分類和回歸,雖然具有較高的檢測精度,但是由于計算復雜而難以進行實時檢測[2]。單階段方法需要生成位置和類別概率[3-5]。近年來,涌現出基于Transformer的目標檢測算法,將目標檢測任務視為序列到序列的預測問題,并通過引入自注意力機制推理目標與全局圖像的上下文關系,如端到端目標檢測器(DETR)[6]等。
目前,已經有很多學者開展基于深度學習的鐵路異物入侵檢測研究。Guo等[7]通過改進的SSD網絡進行高速鐵路間隙入侵檢測,將高級特征反卷積為低級特征,并與原始的低級特征融合,以增強語義信息。汪世財等[8]根據障礙物的點云位置特征和時間特征去除背景點云數據,以提高障礙物關聯可靠性。徐巖等[9]針對鐵路異物檢測問題,提出一種替代全連接層的方法,然而這種方法在復雜環境下的異物檢測性能相對較弱。張劍等[10]采用可切換的空心卷積提取特征,降低了目標檢測的誤報率,但每秒幀數(FPS)較低,不能滿足實時檢測的要求。Hussain等[11]提出使用反向注意力機制進行目標對象的清晰邊界檢測,使用二元交叉熵(BCE)損失與結構相似性指數度量(SSIM)和交集(IoU)損失的組合來監督訓練。胡行濤等[12]將不確定性添加到檢測系統中,可以有效提高檢測精度,但該方法對特征遮擋和快速移動的目標存在漏檢情況。Cai等[13]提出一種基于毫米波雷達的異物檢測系統,在雷達數據的基礎上對不同維度的數據進行處理,以獲得目標信息。He等[14]結合多種多尺度增強方法,提高了小目標物體的檢測能力,但是實時性較弱。Wang等[15]提出一種基于深度生成網絡和自回歸模型的無監督入侵檢測方法,通過重建和原始輸入圖像的差值定位異常區域。管嶺等[16]提出一種改進的YOLOv4-tiny網絡模型用于軌道異物檢測,融合跨階段結構和引入多頭注意力機制,從而提高網絡性能和效率。
隨著網絡結構的深入和更多新架構的出現[17],現有的鐵軌異物檢測算法存在難以平衡檢測精度和速度的問題,不能滿足鐵路入侵檢測的實時性和準確性的需求。不同光照環境、天氣、遮擋等復雜環境也影響了入侵異物的可視化特征,對鐵軌異物目標的檢測造成干擾。鐵軌附近可能出現的異物尺寸復雜多樣,異物目標也會因與攝像頭的距離差異而導致成像尺寸差異較大。這些因素都對目標檢測算法的實用性和魯棒性提出了更高的要求。現有的目標檢測算法并不能保證在復雜環境下檢測多尺度異物,對于姿態各異的工人以及遠處的物體,在提取特征不足的情況下,可能難以檢測出來。
針對上述問題,本文以YOLOv7為基礎網絡,提出了一種基于多尺度特征融合的RMF-YOLO (rail multi-scale fusion YOLO)鐵軌異物入侵檢測算法,旨在實現更小的參數量和更高的檢測精度。通過引入改進的卷積注意力模塊(ICBAM)、多尺度特征融合網絡以及改進損失函數等策略,對YOLOv7網絡進行改進,以提高異物檢測的準確性,特別是針對不同尺度異物的特征提取能力。本文主要貢獻如下。
(1)在特征提取網絡中設計一種混合注意力機制,即ICBAM。該注意力機制通過提取全局上下文信息,可以有效提高局部表達能力,更好地擬合入侵異物特征信息,提高異物入侵圖像中對不同尺度異物的檢測能力。
(2)為了降低網絡的計算復雜度,在所有高效層聚集網絡(ELAN)模塊中引入GhostConv模塊,代替普通卷積,實現模型壓縮,以平衡檢測精度和速度。
(3)在特征融合網絡中,提出一種改進的特征金字塔網絡N-BiFPN作為特征融合模塊,代替原有的路徑聚合網絡(PANet),從而實現高效的雙向跨尺度連接和加權特征融合,以獲得更多的特征信息,避免了異物特征的丟失,顯著提高了算法的檢測能力。
(4)在損失函數的計算中引入WIoUv3(wise-intersection over union)損失函數,采用梯度增益分配策略,增強模型對低質量錨框的聚集,提高模型在鐵軌異物檢測中的整體性能。
1 RMF-YOLO算法的網絡模型
1.1 YOLOv7算法
YOLOv7[18]的結構框架包括輸入端、特征提取網絡、特征融合網絡以及頭部架構。特征提取網絡主要由一系列卷積層組成,專門用于從輸入數據中提取特征。首先,將固定分辨率為640×640像素的圖像分批輸入到骨干網絡,進入主干層后產生雙下采樣特征圖。之后,由Conv層和ELAN層卷積組成網絡層,產生4倍下采樣圖像。然后,進行3次重復的最大池化(核尺寸n=1)下采樣,結合ELAN層,得到32倍下的采樣特征圖。在特征融合網絡中,空間金字塔池化跨階段模塊(SPPCSPC)[19]首先通過將特征通道的數量減半來匯集來自上部輸出的特征。然后,采用路徑聚合特征金字塔網絡(PANet)模塊進行多尺度的特征融合,采用自上而下的結構傳遞深層的強語義特征,以增強整個金字塔。同時,采用自下而上的結構,將淺層的圖像結構、顏色、邊緣等特征位置信息傳遞上去,從而實現不同層次特征高效融合。最后,頭部架構采用REP結構對PANet結構進行通道數調整,將特征送入尺寸為1×1 的卷積模塊,用來預測圖像的置信度、類別、錨框信息,并最終生成檢測結果。YOLOv7算法結構圖如圖1所示。
1.2 RMF-YOLO算法的網絡結構
雖然YOLOv7網絡具有良好的檢測性能,但是對于鐵路環境中異物特征不明顯、遮擋、尺度變化較大的情況仍存在檢測精度不高的問題,故而需要進行改進和優化。本文在YOLOv7網絡結構上進行了改進,提出了一種基于多尺度特征融合的RMF-YOLO網絡模型,使其可以適用于檢測鐵軌異物,準確識別復雜環境中大小不一的異物目標。RMF-YOLO算法的整體結構如圖2所示。
2 基于RMF-YOLO算法的異物目標檢測
RMF-YOLO算法集成了ICBAM混合注意力模塊、GhostConv模塊、改進的BiFPN特征融合網絡和WIoUv3損失函數,以提高對具有復雜特征的多個對象的識別能力。首先,將ICBAM注意力模塊添加在特征提取網絡中,幫助網絡有效抑制無關對象的干擾,從而實現對異物的準確檢測,提高特征的表達能力。其次,用GhostConv代替普通卷積,可以讓模塊在幾乎沒有額外計算復雜度的情況下運行,提高模型性能,減少模型參數,有助于提高鐵軌異物檢測的速度。然后,在PANet的基礎上進行改進,構建一種新的具有聚合路徑的加權雙向特征金字塔網絡N-BiFPN,從而有效地優化特征融合過程,可以更好地獲取異物目標的多尺度特征,獲得更高的檢測精度。考慮對難以檢測異物目標的關注,提出將WIoUv3損失作為邊界框損傷的計算方法,有助于進一步提高模型的性能,具體見圖2特征融合網絡部分。
2.1 混合注意力機制
在鐵路軌道場景中,由于光照、遮擋、背景等因素的影響,可能產生對入侵異物的漏檢和錯檢,尤其是對遠端小物體的檢測。為了進一步解決復雜環境中對鐵軌入侵異物的檢測,降低環境信息對異物檢測的干擾,本文在卷積注意力模塊(CBAM)[20]的基礎上進行改進,得到ICBAM混合注意力機制,聚集特征圖的通道和空間維度,從而進一步提高檢測精度。ICBAM由兩個相互連接的子模塊組成,在輸入和輸出之間新增一個殘差連接,以滿足更短的有效梯度傳播路徑。通過使用具有sigmoid函數的全局最大池化來增強由全局平均池化生成的信道映射,對通道注意力模塊進行改進,得到增強型通道注意力模塊(ECAM),從而增強通道特征聚合并減少多層感知器(MLP)計算。通過ECAM和空間注意力模塊(SAM),特征提取網絡可以自適應地調整輸入的特征圖,并集中在其中重要的特征部分。
ICBAM混合注意力機制計算過程表示為
Fx=Meca(F)F(1)
Fs=(Msa(Fx)Fx)F (2)
式中:特征圖F∈RC×H×W,C為特征圖的通道數,H×W為特征圖大小;Meca(F)為通道注意力特征;Msa(Fx)為空間注意力特征;Fx表示通過ECAM得到的特征圖。
在提取原網絡特征之后,利用ICBAM注意力機制將通道注意力和空間注意力串聯。在模型訓練過程中對于異物目標分配更多的權值參數,對原有的入侵異物特征圖進行信息提煉,突出前景異物目標的權重,使網絡在學習過程中更關注于前景異物的特征,提高對目標對象的特征提取能力。將ICBAM注意力機制應用于鐵路周界異物入侵檢測,可以提升算法對異物目標的提取能力,改善由于復雜環境引起的異物目標特征信息減弱,致使檢測的準確性降低等問題。應用該注意力機制可以保留更多的特征信息來提升網絡對全局信息的學習,進而提升網絡對異物目標的檢測準確率。ICBAM混合注意力模塊結構如圖3所示。
在混合注意力機制下,輸入特征圖F經過ECAM,對特征圖在空間維度上進行壓縮。ECAM突出顯示輸入特征有意義的通道,為了有效地計算通道注意力特征,使用sigmoid函數將全局平均池化操作乘以全局最大池化操作,以增強通道注意力。然后,將得到的參數通過多層感知器MLP進行疊加,進一步壓縮輸入特征圖的空間維度,以生成通道注意力特征Meca(F)。輸出特征圖計算公式為
Meca(F)=σ(W2(W1(Fecavgσ(Fecmax))))(3)
式中:σ表示sigmoid函數;Fecavg和Fecmax分別為通道注意力機制的全局平均池化運算和最大平均池化運算;W1和W2分別為多層感知器第1層和第2層權重。
將給定特征圖Fx送入SAM,沿通道維度聚合空間信息,連接平均池化和最大池化特征圖。然后,通過卷積和sigmoid函數激活,得到空間注意力特征Msa(F),計算公式為
Msa(F)=σ(f7×7(Fsavg; Fsmax)) (4)
式中:f7×7表示濾波器為7×7的卷積運算,7×7表示卷積核的尺寸;Fsavg和Fsmax分別為空間注意力機制的平均池化運算和最大平均池化運算。
2.2 Ghost模塊的構建
由于卷積神經網絡的不斷發展和對于嵌入式設備需求的增加,在有限的計算資源下部署更高效的神經網絡已成為神經網絡發展的迫切需求。Han等[21]利用特征圖的冗余特性進行一系列的線性變換,提出了一種更輕量級的卷積模塊GhostConv,使用更少的參數和計算實現更多的特征圖。普通卷積和GhostConv卷積對比如圖4所示。
為了減少生成冗余特征圖所需的濾波器的數量,本文利用這種輕量級的GhostConv模塊代替YOLOv7模型中的普通卷積模塊,可減少網絡的計算量和參數量。使用Ghost卷積層替換標準卷積層,但保留了批處理歸一化和SiLU激活函數,使得CBS模塊變為GBS模塊,也使得其他模塊轉變為Ghost對應模塊。
GhostConv卷積在常規卷積的基礎上進行了線性運算,首先是通過提取特征信息進行少量卷積,獲得一般特征圖;然后利用普通卷積給出的固有特性映射,將一般特征圖中的每一個通道的特征做線性運算,生成同等通道數的Ghost特征圖,可以在幾乎不影響檢測精度的同時有效降低普通卷積的冗余性;最后將兩次獲得的特征圖堆疊起來,形成新的輸出特征圖。GhostConv卷積在保證模型性能的情況下,大幅度減少參數和計算量,從而實現更高效、更輕量級的網絡部署。
假設輸入特征圖的高、寬和通道數分別為c、h、w,經過一次卷積后輸出特征的高度和寬度為H、W,卷積核數量為n,卷積核大小為k,線性變換卷積核大小為d,經過s次變換,普通卷積操作的計算量與GhostConv卷積的計算量之比為
rs=nHWckk
(n/s)HWckk+(s-1)(n/s)HWdd=
ckk(1/s)ckk+((s-1)/s)dd≈scs+c-1≈s(5)
式中:n/s為第1次變換時的輸出通道數目;s-1是恒等映射不需要進行計算,但也算作第2次變換中的一部分。
計算卷積核的參數量為
rc=nckk
(n/s)ckk+(s-1)(n/s)dd≈
scs+c-1≈s(6)
結合式(5)和式(6)可以看出,計算量和參數量之比受變換數量s的影響,即生成特征圖越多,模型加速效果越好。在模型中引入GhostConv卷積可以有效減少模型的計算量和參數量,提高模型的運行速度和效率。
2.3 多尺度特征融合網絡
有效的特征融合可以增強目標檢測的精度,不同特征金字塔如圖5所示。特征金字塔網絡(FPN)[22]提出了一種自頂向下的路徑,具有橫向連接,通過構造多尺度特征融合結構來傳播語義上較強的路徑。在FPN中建立一條自上而下的通路,進行特征融合,用融合后的具有更高語義信息的特征圖進行預測,可以提高一定的精度,結構如圖5(a)所示。但是經過研究發現,這種自頂向下的FPN網絡受到單向信息流約束的影響,精度不能得到有效提高。基于此,PANet引入自底向上的路徑,縮短底層與頂層特征之間的信息路徑,通過雙向融合網絡深層特征圖的語義信息和淺層特征圖的定位信息提高了檢測精度,讓頂層網絡在保持語義特征的同時增加了空間特征[23]。YOLOv7在特征融合網絡層采用PANet結構,該結構具有自頂向下和自底向上的特點,結構如圖5(b)所示。這種結構增加了參數量,降低了模型效率,只通過簡單的求和運算來融合來自不同層的特征,導致特征融合不夠充分。
為了解決這一問題,在以PANet為基礎的框架上,借鑒加權雙向特征金字塔網絡 (BiFPN)[24]結構的設計思想,本文提出了N-BiFPN作為多尺度特征融合模塊。該模塊旨在實現不同尺度特征圖的融合,從而加強特征信息表達,實現對特征的多尺度融合和上下文信息的豐富,結構如圖5(c)所示。
N-BiFPN在PANet的基礎上,移除PANet中的單輸入節點,該節點所包含信息較少,沒有進行特征融合,刪除該節點可以簡化多尺度融合結構,減少計算量。在原始輸入節點和輸出節點之間添加新的聚合路徑,在節省資源消耗的同時融合更多的特征信息。N-BiFPN通過構造雙向通道實現跨尺度連接,將特征提取網絡中的特征直接與自下而上路徑中的相對大小特征融合。自頂向下的路徑可以提高網絡的識別能力,向底層網絡傳遞強語義信息,自底向上的路徑增強網絡特征層次的定位能力,保留了更淺層的細節特征。為改善多尺度特征融合效果,針對每個輸入特征設置了一個可學習的特征融合因子,并采用通道級聯的方式進行特征融合的操作。這種方式在保留更多特征信息的同時,可以簡化融合計算,降低冗余操作。
N-BiFPN相當于一個具有權重的特征融合機制,權重信息在所有特征層之間共享,通過有效的路徑優化實現路徑增強,確保網絡在訓練過程中逐漸學習每個輸入特征的重要信息。同時,多尺度特征融合可以提高模型的感受野,在不同尺度上提取和融合多尺度的特征信息,提高對多尺度目標的檢測性能,使模型能夠更好地理解所采集鐵軌圖像中的異物。這種多尺度的特征融合網絡可以提高檢測精度,使得模型能夠在不同尺度物體上進行檢測。
N-BiFPN結構采用快速歸一化融合方法進行權值融合,其加權特征融合公式為
O=∑iwiε+∑iwjIi (7)
式中:O表示加權特征融合的輸出特征;Ii表示輸入的特征;wi、wj表示可學習的特征融合因子;ε表示用于約束數值振蕩的極小值學習率。
以節點P4為例,N-BiFPN特征融合過程如下
F4=Convw3P4+DBS(P5)
w3+w4+ε (8)
N4=Convw3P4+w4F4+w4DBS(N3)
w3+w4+w5+ε (9)
式中:Pi為第i層的輸入特征;Fi為自上而下的中間特征;Ni 為自下而上的輸出特征;Conv表示卷積運算操作;wi為各層對應的權重,描述特征融合過程中各個特征的重要程度;DBS為輸入的上采樣或下采樣運算。
2.4 損失函數的改進
損失函數用來衡量預測結果與實際標簽之間的差異,合理設計的損失函數可以顯著提高模型的檢測性能。邊界框損失函數作為目標檢測損失函數的重要組成部分,良好的改進將為目標檢測模型帶來顯著的性能提升。原YOLOv7采用的CIoU(complete intersection over union)損失函數[25],考慮了預測框與真實框的長寬比、中心點距離、重疊面積,但是對于小標注框和低質量標注框的回歸有一定局限性,且CIoU 損失函數的計算十分耗時,最終導致較長的訓練時間。CIoU的相關公式如下
LCloU=1-IoU+ ρ2(b,bgt)c2+αv(10)
α=v(1-IoU)+v (11)
v=4π2arctanwgthgt-arctanwg2 (12)
式中:IoU為交并比,即預測框與真實框的交集除以二者的并集;b、bgt分別為預測框和真實框的中心點;ρ為兩個中心點之間的歐式距離;α表示權重函數;v為用來衡量預測框與真實框之間的寬高比的一致性;wgt、hgt為真實框的寬和高。相關參數示意如圖6所示,其中ch和cw為預測框和真實框形成的最小封閉框的高度和寬度。
CIoU中預測框的寬和高w、h相對于v的梯度如下
vw=8π2arctanwh-arctanwgthgt2hh2+w2 (13)
vh=8π2arctanwh-arctanwgthgt2wh2+w2 (14)
由式(13)和式(14)可以看出,以上兩個梯度呈現相反態勢,即w、h不能同時增大或者縮小。故而,為降低低質量標注框對檢測性能的干擾,進一步提高檢測精度,本文引入LWIoUv3損失函數[26]。WIoU損失函數是基于動態非單調聚集機制設計的,采用合理的梯度增益分配策略,使模型更聚焦于低質量的錨框。WIoU因為沒有對縱橫比進行計算,相比于CIoU具有更快的速度,耗時少。WIoU相關公式如下
LWIoUv3=RWIoULIoU (15)
RWIoU=exp(bgtcx-bcx)2+(bgtcy-bcy)2
(c2w+c2h)* (16)
IIoU=1-IoU(17)
式中:RWIoU為懲罰項;L為不同類型損失函數;(bcx,bcy)和(bgtcx,bgtcy)分別表示真實框和預測框的中心點坐標;上標*表示將ch和cw從計算圖中分離,防止RWIoU產生阻礙收斂的梯度。
在式(15)的基礎上,構造單調聚集系數Lγ*IoU,得到
LWIoUv2=Lγ*IoULWIoUv1, γgt;0 (18)
在模型訓練過程中,Lγ*IoU的梯度增益隨著LIoU的減小而減小,故而引入LIoU的均值作為歸一化因子,得到
LWIoUv2=L*IoUIoUγLWIoUv1(19)
式中:IoU為動量m的平均運行值;動態更新歸一化因子使梯度增益r=L*IoULIoUγ保持在較高水平。
在式(19)的基礎上,引入動態非單調聚集系數,得到
LWIoUv3=rLWIoUv1 (20)
r=βδαβ-σ (21)
β=L*IoULIoU∈[0,+∞] (22)
式中:β表示離群值;α和δ為控制梯度增益r的超參數。
WIoUv3采用合理的梯度增益分配策略,動態優化損失中高低質量錨框的權值,使模型聚集于平均質量樣本,提高模型的整體性能。與YOLOv7模型中的原始損失計算相比,在鐵軌異物檢測任務中,WIoUv3損失函數可以動態優化不同尺度異物的損失權重,提高模型的檢測性能。
3 實驗與結果分析
3.1 鐵路軌道異物檢測存在的問題
在實際鐵路軌道交通場景中,鐵軌異物可能會因為列車在運行過程中,導致攝像機采集的圖像視角差異,增加了異物目標誤檢的可能性。不同天氣狀況也可能導致誤檢率上升。為提高模型的泛化能力,需要在訓練過程中包含不同天氣狀況下的數據;鐵路軌道異物目標具有隨機性,容易發生異物的遮擋,導致多個目標中可能出現漏檢誤檢的問題。
現有的公開數據集并不適用于鐵路軌道異物入侵檢測,需要構建專門的數據集,并采取相應的方法以解決問題,提高異物檢測的準確率。
3.2 數據集
由于目前尚無公開的鐵路入侵異物數據集,根據實驗的需要,建立鐵軌異物目標入侵的數據集,模擬真實環境中的入侵。該數據集分為2部分,一部分是從公開數據集(Pascal voc2007/2012)中選取具有與本文研究對象特征相近的數據;另一部分從不同的拍攝角度和場景中采集所有可能妨礙鐵路系統正常運行的物體,以創建鐵路異物檢測數據集。在實驗中,選擇行人、汽車、火車和動物等典型異物作為研究對象。
為增加模型在實際情況下的泛化能力,防止因數據不足而產生的過擬合現象,對所獲得的原始數據采取圖像增強的方法,增加訓練數據集中圖像的變化。通過隨機調整對比度、增加噪聲、旋轉、調節亮度等操作,將訓練樣本的數量增加了35%,進一步提高了模型的泛化能力,防止數據集中存在可能的偏差。
數據集分為6500個訓練集、1000個驗證集和1000個測試集,用于評估每種策略的性能實驗。為了制備數據集,由于檢測任務是有監督的機器學習問題,因此需要將地面真實標簽返送到模型以進行訓練。使用開源圖像標注工具LabelImg,對經過預處理的數據集進行人工標注,部分數據集標注結果如圖7所示。
3.3 實驗環境
本文的實驗環境:基于Python3.9版,CUDA 11.2版,編程軟件為PyCharm,實驗模型的搭建、訓練和測試均在深度學習Pytorch框架下完成,采用Windows10操作系統,搭載NVIDIA RTX3060顯卡。
3.4 評價指標
本文采用以下指標來評估模型的性能:平均精確度(記作PmAP)、精確度(P)、召回率(R)、檢測速度(FPS)和計算量(GLOPs)。計算公式如下
P=TPTP+FP (23)
R=TPTP+FN (24)
PmAP=1n∑ni=1PA=∫10P(R)dR (25)
式中:TP為陽性樣本被正確分類;TN為陰性樣本被正確分類;FP為陰性樣本被錯誤分類;FN為陽性樣本被錯誤分類;n為所有類別數量;PA為目標類別的平均精確度。
3.5 鐵軌異物入侵檢測實驗結果
3.5.1 混淆矩陣
混淆矩陣又稱誤差矩陣,是一種常見的用于評估分類器性能的方法,反映了樣本數據的真實類別與分類器的預測類別之間的關系[27]。混淆矩陣中橫軸表示預測值,縱軸表示真實值,圖中對角線為正確識別的樣本數,顏色越深表示數量越多。通過混淆矩陣對測試結果進行可視化,不僅能統計每個類別的正確識別數,而且可以了解錯誤識別的分布情況。在相同數據集中,由YOLOv7和RMF-YOLO檢測到的混淆矩陣如圖8所示。
從圖8可以看出:本文提出的RMF-YOLO算法模型中混淆矩陣的對角線區域顏色比YOLOv7深,表明該算法正確預測目標類別的能力得到了增強。在原YOLOv7中,對于行人、狗、貓等小型物體的漏檢率較高,改進后的模型降低了這些類別的漏檢率,檢測正確率分別提高了5.84%、8.78%、9.25%、7.84%。該算法各類別異物部分檢測結果如圖9所示,圖中數值為目標類別的置信度。
3.5.2 對比實驗
(1)不同注意力機制對比實驗。為了驗證本文所提出的ICBAM混合注意力模塊的有效性,進行實驗驗證,并將ICBAM混合注意力模塊與其他常用的注意力模塊進行比較,實驗結果如表1所示,PmAP@0.5表示Iov為0.5時的平均精度。
由表1可得,在基準模型中分別引進5種注意力機制后,本文所提出的ICBAM混合注意力機制檢測精度優于其他4種注意力機制。與其他注意力機制相比,+ICBAM的精確度、召回率和平均精確度PmAP分別提高了1.4%、1.5% 和1.2%,圖片處理速度提高到90幀/s。同時,ICBAM混合注意力機制在保持良好檢測精度的同時保證了檢測的實時性,能夠有效提升模型對不同尺度異物的檢測能力,驗證了該方法的可行性。在鐵路軌道異物入侵檢測過程中,利用深層次特征提取網絡雖然能增強入侵異物的特征感知,但是會影響模型的推理速度,提高網絡的復雜度。使用注意力機制既能保證模型的速度,又能在一定程度上消除背景噪聲干擾,提高特征提取網絡對異物特征的感知能力。
(2)不同場景下多種檢測算法檢測結果的對比實驗。使用訓練好的檢測模型分別針對遮擋、多尺度及沙塵天氣等不同復雜場景,利用多種主流檢測算法對不同的入侵異物進行實驗對比,結果如圖10~圖12所示。
對于異物具有遮擋的場景,YOLOv5和YOLOv7算法均存在不同程度因遮擋發生少檢、漏檢情況;文獻[9]算法對于近端的異物檢測置信度較高,但對于遠端的異物存在漏檢,且置信度較低;文獻[16]算法部分遮擋人物也出現了漏檢的現象;YOLOX-S算法[28]對于遮擋異物的檢測有所提高,但是對于特殊姿勢的檢測率較低;本文算法RMF-YOLO可以檢出全部異物,對于特殊姿勢的異物檢測更準確,且定位更加精確,置信度更高,證明本文的算法可以有效提高模型定位精度,提高模型魯棒性。圖10檢測結果中工人手中的工具通常不會構成安全隱患,因此本文方法主要關注鐵軌上的異物目標而非工人手中的工具,未單獨檢測到工具不影響我們方法的有效性和可靠性。
對于不同尺度的異物場景,尤其針對由于攝像頭距離引起的遠端異物的檢測,YOLOv5、YOLOv7、YOLOX-S和文獻[16] 算法均存在像素占用小的漏檢目標的情況,僅檢測出大尺度的異物目標。文獻[9]算法雖然可以檢測出較小尺寸的異物,但是置信度較低。本文算法RMF-YOLO可以有效檢測出不同尺度的入侵異物,與YOLOv7相比,RMF-YOLO在準確性和錨幀回歸方面表現出性能優勢,證明本文方法提高了對不同尺度的鐵軌入侵異物的感知能力。
對于沙塵復雜環境下的場景,YOLOv5、文獻[9]和文獻[16]算法受到環境的影響,較大尺度異物的置信度有所下降;文獻[16]算法和YOLOX-S對于特殊姿勢的異物檢測精確度低;與YOLOv7相比,本文RMF-YOLO算法異物檢測的置信度更高,對于不同尺度異物檢測的精確度均有所提高,可以證明本文算法對于沙塵環境影響下的特征提取也有改善。
(3)主流目標檢測算法對比實驗。為了進一步驗證本文算法的有效性和優越性,在同樣的訓練條件和數據的前提下,將本文提出的算法與其他算法進行對比,結果見表2。
通過表2中不同算法的實驗結果可以看出,本文算法RMF-YOLO的平均精確度PmAP指標明顯高于其他主流目標檢測算法,具有較高的檢測精度,比原YOLOv7的PmAP提高了5.5%,比YOLOv5提高了6.1%,比YOLOv3-SPP提高了7.5%。與SSD-MonileNet、Mask R-CNN、YOLOX-S和YOLO7-tiny算法相比,本文算法的檢測準確率分別提高了8.3%、9.3%、5.3%和5.5%。相對于具有相近檢測速度YOLOv5和YOLOv3-SPP算法來說,本文算法的檢測準確率明顯優勢,雖然YOLOv7-tiny具有更高的檢測速度,但其檢測精度相對較低,無法滿足對復雜的鐵路環境下的異物檢測。本文算法的平均精確度PmAP和檢測速度都高于原YOLOv7目標檢測算法,檢測精度上有了顯著的提高,每秒幀數提高了5.88%,達到了速度和精度的平衡。綜上所述,本文所提算法與其他主流算法相比更加符合復雜道路場景目標檢測的實時性和準確性需求。
3.5.3 消融實驗
消融實驗是通過在完整模型中移除一個或多個模塊,來檢測對模型的性能影響。為了驗證本文提出的優化措施的效果,依次對RMF-YOLO網絡進行縮減,分別在測試集上進行消融實驗,以評價各個優化模塊對檢測算法性能的影響,結果如表3所示。
從表3可以看出,第2組在原始模型基礎上融合了GhostConv模塊,與普通卷積模塊相比,GhostConv模塊能夠提高模型精度,同時降低模型復雜度,檢測速度提高了9.41%,浮點運算次數減少了26.41%。第3組實驗在第2組的基礎上加入了ICBAM注意力機制模塊,檢測計算量大幅上升,識別速度有所降低,但是檢測精度提高了1.1%,表明該模塊對原始模型的精度提升起到了關鍵作用。第4組實驗則在原模型中引入了ICBAM和N-BiFPN模塊,在異物檢測的平均精度方面有了顯著提高,較原始基準模型的PmAP 提高了2.2%。第5組實驗采用了ICBAM和改進的損失函數,精度提升了1.6%,證明對識別目標的尺寸和位置進行有針對性的算法改進具有意義。第6組實驗檢測精度提高了1.4%,而檢測速度降低了4.71%。第7組實驗,在對損失函數進行替換后,模型性能達到最佳,與原基準實驗相比,PmAP提高了5.5%,幀數提高到90,計算量減少了12.25%,表明模型具有較好的泛化能力,進一步驗證了本模型方案的有效性。
4 結束語
本文針對鐵路軌道異物檢測中的挑戰,開展了基于多尺度特征融合RMF-YOLO算法的鐵軌異物檢測研究。以YOLOv7為骨干網絡設計并引入ICBAM注意力機制,增強了網絡對關鍵特征的關注和特征提取能力。采用GhostConv替代原模型中的普通卷積層,提高了檢測速度。提出N-BiFPN結構進行跨層特征融合,充分結合深層語義特征和淺層位置特征,增強了網絡的特征融合能力。最后,引入WIoUv3損失函數,采用動態樣本分配策略,降低了模型對極端樣本的關注,提升了模型整體效果。
實驗結果表明,本文提出的RMF-YOLO算法具有更高的檢測精度,對于遮擋和尺度不一的異物檢測能力均有所提高,改善了漏檢誤檢的情況,滿足復雜環境背景下鐵軌異物檢測實時性的要求。相較于YOLOv7 算法,檢測精度提升了5.5%,每秒幀數提高了5.88%,計算量減少了12.25%。與現有的主流算法相比,該方法在提高檢測精度的同時降低了對計算能力的要求,易于部署在資源受限的設備上。
參考文獻:
[1]RISTIC-DURRANT D, FRANKE M, MICHELS K. A review of vision-based on-board obstacle detection and distance estimation in railways [J]. Sensors, 2021, 21(10): 3452.
[2]LEI Yang, HE Xiuxiu, YAO Jincao, et al. Breast tumor segmentation in 3D automatic breast ultrasound using mask scoring R-CNN [J]. Medical Physics, 2021, 48(1): 204-214.
[3]LAW H, DENG Jia. CornerNet: detecting objects as paired keypoints [J]. International Journal of Computer Vision, 2020, 128(3): 642-656.
[4]XU Renjie, LIN Haifeng, LU Kangjie, et al. A forest fire detection system based on ensemble learning [J]. Forests, 2021, 12(2): 217.
[5]CAO Jinghao, ZHANG Junju, JIN Xin. A traffic-sign detection algorithm based on improved sparse R-CNN [J]. IEEE Access, 2021, 9: 122774-122788.
[6]WANG Dashuai, LI Zhuolin, DU Xiaoqiang, et al. Farmland obstacle detection from the perspective of UAVs based on non-local deformable DETR [J]. Agriculture, 2022, 12(12): 1983.
[7]GUO Baoqing, SHI Jiafeng, ZHU Liqiang, et al. High-speed railway clearance intrusion detection with improved SSD network [J]. Applied Sciences, 2019, 9(15): 2981.
[8]汪世財, 談東奎, 謝有浩, 等. 基于激光雷達點云密度特征的智能車障礙物檢測與跟蹤 [J]. 合肥工業大學學報(自然科學版), 2019, 42(10): 1311-1317.
WANG Shicai, TAN Dongkui, XIE Youhao, et al. Obstacle detection and tracking for intelligent vehicle based on density characteristics of point cloud using 3D lidar [J]. Journal of Hefei University of Technology(Natural Science), 2019, 42(10): 1311-1317.
[9]徐巖, 陶慧青, 虎麗麗. 基于Faster R-CNN網絡模型的鐵路異物侵限檢測算法研究 [J]. 鐵道學報, 2020, 42(5): 91-98.
XU Yan, TAO Huiqing, HU Lili. Railway foreign body intrusion detection based on Faster R-CNN network model [J]. Journal of the China Railway Society, 2020, 42(5): 91-98.
[10]張劍, 王等準, 莫光健, 等. 基于改進YOLOv3的高鐵異物入侵檢測算法 [J]. 計算機技術與發展, 2022, 32(2): 69-74.
ZHANG Jian, WANG Dengzhun, MO Guangjian, et al. High-speed rail foreign body intrusion detection algorithm based on improved YOLOv3 [J]. Computer Technology and Development, 2022, 32(2): 69-74.
[11]HUSSAIN R, KARBHARI Y, IJAZ M F, et al. Revise-net: exploiting reverse attention mechanism for salient object detection [J]. Remote Sensing, 2021, 13(23): 4941.
[12]胡行濤, 劉大明, 虞發桐. 基于FCN不確定性特征的鐵路入侵異物檢測算法 [J]. 計算機應用與軟件, 2023, 40(4): 141-146.
HU Xingtao, LIU Daming, YU Fatong. Foreign intrusion object detection algorithm for railway intrusion based on FCN uncertainty [J]. Computer Applications and Software, 2023, 40(4): 141-146.
[13]CAI Huiling, LI Fei, GAO Dianzhu, et al. Foreign objects intrusion detection using millimeter wave radar on railway crossings [C]//2020 IEEE International Conference on Systems, Man, and Cybernetics (SMC).Piscataway, NJ, USA: IEEE, 2020: 2776-2781.
[14]HE Deqiang, QIU Yefeng, MIAO Jian, et al. Improved mask R-CNN for obstacle detection of rail transit [J]. Measurement, 2022, 190: 110728.
[15]WANG Yao, YU Zujun, ZHU Liqiang. Intrusion detection for high-speed railways based on unsupervised anomaly detection models [J]. Applied Intelligence, 2023, 53(7): 8453-8466.
[16]管嶺, 賈利民, 謝征宇. 融合注意力機制的軌道入侵異物檢測輕量級模型研究 [J]. 鐵道學報, 2023, 45(5): 72-81.
GUAN Ling, JIA Limin, XIE Zhengyu. Research on lightweight model for railway intrusion detection integrating attention mechanism [J]. Journal of the China Railway Society, 2023, 45(5): 72-81.
[17]HE Deqiang, YANG Yanjie, CHEN Yanjun, et al. An integrated optimization model of metro energy consumption based on regenerative energy and passenger transfer [J]. Applied Energy, 2020, 264: 114770.
[18]WANG C Y, BOCHKOVSKIY A, LIAO H-Y M. YOLOv7: trainable bag-of-freebies sets new state-of-the-art for real-time object detectors [C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Piscataway, NJ, USA: IEEE, 2023: 7464-7475.
[19]HUANG Peile, WANG Shenghuai, CHEN Jianyu, et al. Lightweight model for pavement defect detection based on improved YOLOv7 [J]. Sensors, 2023, 23(16): 7112.
[20]WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]//Computer Vision-ECCV 2018. Cham, Germany: Springer International Publishing, 2018: 3-19.
[21]HAN Kai, WANG Yunhe, TIAN Qi, et al. GhostNet: more features from cheap operations [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Piscataway, NJ, USA: IEEE, 2020: 1577-1586.
[22]ZHAO Xiaotong, LI Wei, ZHANG Yifan, et al. Aggregated residual dilation-based feature pyramid network for object detection [J]. IEEE Access, 2019, 7: 134014-134027.
[23]YU Haifeng, LI Xinbin, FENG Yankai, et al. Multiple attentional path aggregation network for marine object detection [J]. Applied Intelligence, 2023, 53(2): 2434-2451.
[24]SONG Zhiwei, HUANG Xinbo, JI Chao, et al. Intelligent identification method of hydrophobic grade of composite insulator based on efficient GA-YOLO former network [J]. IEEJ Transactions on Electrical and Electronic Engineering, 2023, 18(7): 1160-1175.
[25]GAO Jinfeng, CHEN Yu, WEI Yongming, et al. Detection of specific building in remote sensing images using a novel YOLO-S-CIOU model. case: gas station identification [J]. Sensors, 2021, 21(4): 1375.
[26]ZHAO Qing, WEI Honglei, ZHAI Xianyi. Improving tire specification character recognition in the YOLOv5 network [J]. Applied Sciences, 2023, 13(12): 7310.
[27]張開放, 蘇華友, 竇勇. 一種基于混淆矩陣的多分類任務準確率評估新方法 [J]. 計算機工程與科學, 2021, 43(11): 1910-1919.
ZHANG Kaifang, SU Huayou, DOU Yong. A new multi-classification task accuracy evaluation method based on confusion matrix [J]. Computer Engineering amp; Science, 2021, 43(11): 1910-1919.
[28]GE Zheng, LIU Songtao, WANG Feng, et al. YOLOX: exceeding YOLO series in 2021 [EB/OL]. (2021-08-06)[2023-11-12]. https://arxiv.org/abs/2107.08430.
[29]SU Xiaodong, HU Jianxing, CHEN Linzhou, et al. Research on real-time dense small target detection algorithm of UAV based on YOLOv3-SPP [J]. Journal of the Brazilian Society of Mechanical Sciences and Engineering, 2023, 45(9): 488.
[30]TIAN Zhi, SHEN Chunhua, CHEN Hao, et al. FCOS: a simple and strong anchor-free object detector [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(4): 1922-1933.
(編輯 杜秀杰)