基于Transformer與局部特征融合的軌道緊固件缺陷檢測方法

2024-05-07 07:43:54喬彥涵鄒勁柏季國一

鐵路計算機應用 2024年4期

喬彥涵，陳文，鄒勁柏，季國一

（上海應用技術大學軌道交通學院，上海 201418）

近年來，我國鐵路營業里程不斷增加，線路覆蓋范圍持續擴大，鐵路成為促進各地區經濟發展的重要交通運輸工具[1]。鐵路運輸高度依賴軌道線路，軌道線路直接關系到列車行駛的安全和穩定，因此，有必要對軌道線路進行定期檢測。

軌道緊固件作為軌道線路的重要組成部分，是保障軌道線路運營安全的重要一環。傳統的軌道緊固件檢查方式是人工巡檢，雖然精度較高，但效率低下，且存在安全隱患[2]。為解決該類問題，主要有基于計算機視覺和圖像處理技術結合的方法，以及利用卷積神經網絡（CNN，Convolutional Neural Networks）的方法。前者對不同軌道緊固件的故障類型檢測效果較差，普適性不強[3-4]；后者計算量較大，且受限于傳統感受野，在捕獲全局特征表示方面有一定的局限性[5-6]。目前，基于自注意力機制的Transformer從自然語言處理領域到計算機視覺領域都取得了成功，成為繼CNN和循環神經網絡（RNN ，Recurrent Neural Network）之后又一個高效的特征提取器，其優點是能夠直接捕捉到全局的聯系，因為它直接把序列作兩兩比較（代價是計算量變為O（n2））；相比之下，RNN需要進行一步步遞推才能捕捉到全局的聯系，而CNN則需要通過層疊來擴大感受野[7]。與RNN和CNN相比，Transformer的訓練效率更加顯著，因此，可使用Transformer來完成視覺任務，以降低結構的復雜性，探索可擴展性。

常見的軌道緊固件缺陷有缺失和損壞兩種情況。其中，軌道緊固件缺失包括鋼軌扣壓件缺失和螺栓缺失，鋼軌扣壓件缺失后會遺留軌下墊層，螺栓缺失后會遺留下螺孔，遺留物的背景信息復雜多樣且會帶來干擾，導致常規目標檢測算法產生誤檢[8]；軌道緊固件損壞指鋼軌扣件損壞、凸出或凹陷，由于鋼軌扣件整體型材相近，裂紋或裂縫難以被常規目標檢測算法識別，導致發生漏檢情況[9]。

綜上，本文提出一種基于Transformer與局部特征融合的方法來識別軌道緊固件缺陷，建立軌道緊固件缺陷檢測模型，通過卷積獲取局部特征信息，結合Transformer提取全局特征，從而減少缺失誤識別和損壞漏識別情況的發生。

1 軌道緊固件缺陷檢測模型

軌道緊固件缺陷檢測模型架構如圖1所示。該模型由基于CNN的淺層局部特征提取模塊、基于Transformer的全局特征提取模塊和基于多層感知機（MLP，Multilayer Perceptron）的分類模塊組成。

圖1 軌道緊固件缺陷檢測模型架構

1.1 基于CNN的淺層局部特征提取模塊

由于本文使用的數據集規模較小，易出現過擬合的情況[10]，故本模塊由3個大小為3×3的卷積、1個ReLU激活函數及最大池化層組成。

局部特征提取過程為：（1）利用卷積函數Conv提取圖像的淺層特征，獲取局部信息，為防止下采樣過程中的圖像信息丟失，設置步長為2，保留圖片完整信息；（2）通過ReLU激活函數進行非線性增強；（3）利用MaxPool的特征不變性對圖像進行降維，壓縮圖像的空間冗余信息，避免了梯度爆炸和消失問題。將局部特征圖輸出結果g(x)用公式表示為

1.2 基于Transformer的全局特征提取模塊

1.2.1 Patch Embedding

ViT（Vision Transformer）是將Transformer應用在圖像分類的模型[11]，將輸入圖片分為多個大小相同的塊，再將每個塊投影為固定長度的向量輸入Transformer，同時，在輸入序列中加入Token，實現對圖片的分類， Token對應的輸出即為類別預測。當訓練數據足夠多時，ViT的表現可超過CNN，突破Transformer缺少歸納偏置的限制，在下游任務中可獲得較好的遷移效果，但當訓練數據集不夠大時，其表現通常比同等大小的ResNets要差一些。

Patch Embedding過程中，ViT將輸入圖像切分成大小相同的塊，然后線性映射為 Token向量作為輸入，但這些Token無法直接適用于不同尺寸圖像輸入，當圖像大小改變時，序列長度也隨之改變，造成邊緣信息丟失[12]。因此，本文將ViT模型中圖像Token 化的Patch Embedding 過程替換為利用CNN提取底層特征的過程來進行 Patch Embedding，每一階段的Token序列由上一階段的Token序列卷積而來，這樣進行卷積操作不會丟失圖像的邊緣信息。

具體操作為：（1）設定用卷積核大小為7×7的卷積對輸入的特征圖像塊進行卷積操作，映射結果輸入到新的Token map中；（2）利用全局平均池化將Token map展平，得到最終的Token序列；（3）通過 Transformer 的多頭注意力機制（MHA ，Multi-Head Attention），獲取對全局的理解。

1.2.2 Transformer block

Transformer 利用注意力機制建立起序列間的遠距離依賴關系，能夠提高缺陷識別的準確率。Token序列進入到Transformer block中，為防止模型過擬合和輸入數據特征分布的不斷變化，通過Layer Norm實現歸一化，使數據分布更加穩定，對Token序列進行標準化處理，保留不同特征間的大小關系。

圖1中Transformer block的具體結構如圖2所示，其功能主要由多頭注意力（MHA，Multi-Head Attention）和MLP實現，層與層之間使用ResNet中的殘差結構進行連接。每一層的MHA塊和 MLP 塊中的殘余連接之前都使用層歸一化處理[13]。

圖2 Transformer block具體結構

MHA是Transformer架構的核心。其計算過程為

式（2）、式（3）中,XA為上層輸入的Token特征序列，矩陣WQ、WK、WV∈R，Q（query）、K（key）、V（value）分別為Token特征序列投影到不同的權重矩陣所對應的查詢向量、鍵值向量和值向量；為得到不同特征位置的概率分數，將Q與K相乘，計算出不同輸入矩陣間的注意力分數，同時引入比例因子保障數據穩定性，dk為K向量的維度；引入Softmax函數將各特征位置上的注意力分數轉為概率，再與V矩陣相乘，得到加權后的特征圖矩陣[14]，Attention（Q,K,V）表示單頭注意力機制的輸出結果。

與單頭注意力機制相比，MHA能夠計算整張特征圖的所有特征間的相關性，從而獲得全局視野和充足的上下文信息，因此需將多個獨立的自注意力頭拼接成多頭自注意力機制（MHSA，Multi-Head Self-Attention），計算過程為

最后，通過reshape操作改變張量維度和形狀，將包含特征信息的圖像特征整合，輸入到基于MLP的分類模塊中。

1.3 基于MLP的分類模塊

將圖像特征輸入到分類模塊中，用于實現軌道緊固件缺陷的分類識別。在分類模塊中搭建MLP模型，模型輸出層采用Sigmoid函數，優化器采用Adam，通過對擴增數據集的訓練與測試，得到缺陷所屬類別，同時，引入Softmax函數，將各類別的注意力分數轉為概率，最終得到缺陷所屬類別及其概率。

2 實驗與分析

2.1 數據集的制作

因軌道緊固件沒有公開的數據集，所以本文收集了大量軌道緊固件近景圖，通過修改圖片亮度和對比度來模擬不同光照和不同天氣情況下的軌道情況。由于異常緊固件在實際軌道上出現較少，因而通過樣本擴增的策略對損壞、缺失的軌道緊固件圖像采用平移、旋轉、縮放、裁剪、鏡像等方式來擴充訓練集，最終得到1 800張圖像，并按照7∶2∶1的比例劃分為訓練集、驗證集和測試集。使用LabelMe標注軟件進行標注，標注類型分為正常緊固件（Normal）、損壞緊固件（Damage）、丟失緊固件（Lost），共3類。

2.2 實驗準備

本文實驗環境如表1所示，模型參數設置如表2所示。

表1 實驗環境

表2 模型參數設置

2.3 實驗分析

2.3.1 模型對比實驗

為驗證本文軌道緊固件缺陷檢測模型的缺陷檢測能力，選擇傳統的CNN模型（ResNet-50）、經典的YOLO（You Only Look Once）模型（YOLOv3）和原始的Transformer模型（ViT）與本文模型進行對比實驗。評價內容為Normal、Damage和Lost，共3類，采用的評價指標為準確率P、召回率R和平均準確率均值mAP。3者的計算公式為

式（7）～式（9）中，TP表示檢測正確的數量；FN表示未檢測出的數量；FP表示誤檢測的數量；AP表示某一類別缺陷檢測的平均準確率，即P和R積分的結果。i表示評價內容的類別，本文共有3種類別，故i=3。

4種方法的檢測結果對比如表3所示。由表3可知，相對于傳統的CNN、YOLO及Transformer模型，本文方法的準確率、召回率及平均準確率均值均有所提升，準確率達到了90%以上，相較于ResNet-50、YOLOv3、ViT 模型分別提升了6.6%、3.6%、1.9%，mAP值相對于次好的ViT模型也提升了1.4%。實驗結果表明，本文提出的方法在軌道緊固件缺陷檢測效果上具有良好表現。

表3 4種方法的檢測結果對比

2.3.2 可視化分析

為驗證模型在真實場景下的缺陷檢測效果，從測試集中隨機選取圖片，使用本文的模型進行缺陷檢測，并將輸出結果可視化。4 種方法對軌道緊固件缺陷檢測效果定性對比，如圖3和圖4所示。

圖3 軌道緊固件缺失檢測

圖4 軌道緊固件損壞檢測

圖3展示了 4 種方法對軌道緊固件缺失的檢測效果。 ResNet-50 模型對于近距離的緊固件檢測效果較好, 但是對于遠距離的軌道緊固件存在漏檢；YOLOv3 模型與 ViT模型相對于ResNet-50 模型遠距離檢測的置信度更高，但對于部分遮擋下的軌道緊固件存在誤檢；本文方法的檢測效果最佳, 無論軌道緊固件的距離遠近，均能有效檢測出缺失情況, 部分遮擋下的軌道緊固件也不存在誤檢測。

圖4展示了 4 種方法對軌道緊固件損壞的檢測效果。 ResNet-50 模型未能識別圖中的緊固件損壞情況；YOLOv3 模型將軌道緊固件損壞誤檢為軌道緊固件缺失；ViT模型雖然識別到軌道緊固件損壞的情況，但檢測的置信度偏低；本文方法不僅能夠檢測到軌道緊固件損壞的情況，同時檢測的置信度值也較高。

由圖3、圖4可看出，本文提出的方法可在鐵路軌道復雜環境下更準確地檢測到軌道緊固件缺失及損壞的情況。

3 結束語

為提升軌道緊固件的巡檢效率和準確率，本文提出一種基于Transformer與局部特征融合的軌道緊固件缺陷檢測方法。構建軌道緊固件缺陷檢測模型，在擴充數據集上進行的模型對比實驗及可視化實驗表明，該方法檢測精確率達91.4%，平均準確率均值達86.1%，高于原始的 CNN和Transformer模型，證明本文方法在軌道緊固件缺陷檢測方面的有效性，對軌道線路的安全檢測具有參考意義。同時，由于軌道線路環境的不確定性，在檢測過程中仍存在誤檢或漏檢等現象，因此，需要進一步克服不確定環境對檢測結果造成的影響，研究更高準確率的檢測方法。