基于近義詞分配的鐵路扣件狀態檢測

2018-05-31 11:36:20李柏林

鐵道標準設計 2018年6期

李爽,李柏林

(西南交通大學機械工程學院,成都 610031)

軌道設施的正常工作是保障鐵路運營安全的重要條件。傳統的軌道檢測依靠人工巡檢，缺乏可靠性和實時性，難以滿足鐵路高速發展的形勢下對軌道檢測提出的新需求。近年來，在車載軌道巡檢系統方面的研究取得了豐碩的成果[1-3]，但鐵路扣件的檢測問題一直未能得到很好解決。扣件的失效很有可能引發列車脫軌等嚴重事故，已經引起了鐵路部門的高度重視。計算機視覺技術的發展為實現鐵路扣件的自動檢測提供了良好的技術條件[4-6]。

“視覺詞包模型”(Bag of Words， BOW)方法是目前應用最廣泛的一種圖像表示方法。該方法首先利用無監督聚類算法(如K-means算法)對圖像的底層特征(如SIFT特征)進行聚類生成視覺詞典，每個聚類中心代表一個視覺單詞，然后將圖像的各個底層特征向量映射至與其歐氏距離最近的視覺單詞上，生成用來表示圖像內容的圖像-單詞詞頻矩陣，最后，結合機器學習方法對圖像進行分類。在“視覺詞包模型”的基礎上，文獻[7]采用了一種柔性分配(Soft Assignment， SA)的方法來構建圖像-單詞詞頻矩陣，一個特征向量被分配至多個視覺單詞上，每個視覺單詞的權重大小與其和特征向量的歐氏距離有關。文獻[8]則將柔性分配方法與潛在狄利克雷分布(Latent Dirichlet Allocation， LDA)模型相結合，提出了一種柔性分配的LDA模型。以上基于“視覺詞包模型”的方法都很好地利用了圖像底層特征在特征空間中的位置關系，在將圖像量化為圖像-單詞詞頻矩陣時，將底層特征映射到與其歐氏距離最近的聚類中心(視覺單詞)。但是，它們在衡量視覺單詞間的語義相關性時都只考慮了視覺單詞在特征空間中的歐氏距離大小。由于度量空間的不同，使得特征空間中的歐氏距離與真實的語義距離之間存在一定偏差。此外，這類方法分配給每個底層特征的視覺單詞數量都是固定的，使得某些具有明確語義的底層特征被強制分配到多個視覺單詞上，引入了新的冗余信息。

綜上所述，為了更加準確地衡量“視覺詞包模型”中視覺單詞間的語義相關性，且對不同語義類型的底層特征分配不同的單詞數目，本文提出了一種基于近義詞分配的扣件檢測模型。首先，結合LDA模型和相對熵共同挖掘視覺單詞間的語義相關性，然后，在語義空間和特征空間的共同約束下自適應地選擇柔性分配的單詞數目，生成扣件圖像的詞頻矩陣表示，最后，利用SVM分類器實現扣件檢測。實驗結果表明，結合了近義詞分配方法的“視覺詞包模型”具有更高的分類性能。

1 基于近義詞分配的扣件檢測

在將底層特征向量映射為視覺單詞時，結合LDA模型和條件熵分析視覺單詞間的語義相關性，針對不同語義類型的底層特征自適應地選擇單詞的分配數目，并在此基礎上提高扣件檢測的精度。本文的模型框架如圖1所示。其中，實線部分表示訓練過程，虛線部分表示測試過程。

圖1 本文扣件檢測模型框架

1.1 視覺單詞的語義相關性

傳統“視覺詞包模型”僅通過視覺單詞間的歐氏距離來衡量視覺單詞間的語義距離，不能準確地詮釋視覺單詞間的語義相關性。而通過LDA模型可以獲得語義主題在某一視覺單詞上的條件概率分布，從而更準確地表達單詞蘊含的語義概念。下面首先介紹LDA模型，然后解釋本算法如何利用該模型挖掘視覺單詞間的語義相關性。

1.1.1 LDA模型

LDA模型[9]將一幅圖像看作一篇文檔，將文檔描述為主題的分布，而主題通過視覺單詞的分布來表述。LDA中一幅圖像的生成步驟如下。

(1)選擇θ～Dirichlet(α)，其中θ是一個C×T的矩陣，行向量θi是第i幅圖像的主題分布向量；

(2)對于每個圖像塊xi，從多項式分布θ抽樣主題tk，tk～Multi(θ)，以概率p(wm|tk，β)選擇一個視覺單詞wm，β是一個K×V的矩陣，其元素βi，j=p(wi=1|tj=1)表示視覺單詞wi和主題tj同時出現的概率；

(3)重復步驟(1)、(2)，反復進行圖像主題的選擇，通過主題產生對應的單詞，直到生成一幅完整的圖像。

LDA模型的學習過程是其生成模型的逆過程，采用吉布斯采樣可求解出模型中參數的近似值，從而獲得每幅圖像的主題分布。式(1)給出各個視覺單詞所屬主題的全概率分布公式

(1)

1.1.2 基于相對熵的語義距離衡量

相對熵[10](relative entropy)能夠用來衡量兩個概率分布之間的相似程度。因此，在利用LDA模型得到主題z在單詞w下條件概率分布后，本文引入相對熵來度量視覺單詞wi和wj之間的語義距離，如式(2)所示

dis(wi，wj)=KL(p(z|wi)∥p(z|wj))=

(2)

然而，相對熵并不是一個對稱量，即dis(wi，wj)≠dis(wj，wi)。為此，將式(2)進行改造，使其成為一個具有對稱性的度量，如式(3)所示

(3)

利用式(1)～式(3)便可以計算兩個視覺單詞的語義距離，獲取語義相關的近義詞，并在此基礎上結合柔性分配方法生成圖像-單詞詞頻矩陣，更有效地克服單詞的同義性和歧義性對分類性能的不利影響。

1.2 近義詞分配生成圖像-單詞詞頻矩陣

傳統“視覺詞包模型”的視覺單詞分配方法對每個局部特征分配的單詞數目都是相同的，并沒有考慮不同底層特征間的差異性，這樣的分配方法存在較大的量化誤差。比如，當某一底層特征s與視覺單詞w1的距離較近，且與其他視覺單詞的距離均較遠時，若將其強制分配到多個視覺單詞上，則會引入新的冗余信息；同理，當s與多個視覺單詞的距離都很近時，則可能需要為其分配比預設數量更多的視覺單詞，才能充分表達其語義內容。鑒于此，本文在由LDA模型和相對熵分析得到單詞的語義相關性后，針對不同語義類型的底層特征采用不同的單詞分配策略，自適應地將其映射到一定數量的近義單詞上。算法的具體流程如下所示。

(3)分別計算si與m個單詞間的歐氏距離，按從小到大的順序對單詞進行排序，即x={x1，x2，…，xj，…，xn}，其中xj表示與si相距第j近的視覺單詞。

直觀上，改進后的單詞分配方法既包含了特征向量與單詞間的空間位置信息，即特征向量到視覺單詞的歐氏距離，又考慮了各個單詞間的語義相關性。比如，當某一視覺單詞w1與特征向量s最鄰近的視覺單詞w2間的語義距離較小時，即使s在特征空間內與w1的歐氏距離較大，語義近似約束依然使其劃分到w1；反之亦然。不難看出本文算法在一定程度上解決了單詞的同義和歧義問題，減小了特征向量與單詞映射時的量化誤差。

2 實驗與分析

2.1 實驗設置與性能評價

實驗樣本采用本文創建的樣本庫。從采集的扣件圖像中選取共800幅作為實驗數據，其中正常、斷裂、丟失以及被遮擋的4類扣件圖像各200幅，均為120像素×180像素的灰度圖像。訓練集為每種狀態的扣件圖像各100幅，共400幅圖像，余下的作為測試集。訓練集與測試集的大小均為400。部分實驗樣本如圖2所示。分類器采用臺大林智仁教授的支持向量機庫[11](Library for Support Vector Machine， LIBSVM)，其核函數為徑向基核函數，實驗結果為10折交叉驗證(cross-validation)的平均值。實驗PC處理器為AMD Sempron X2 190 Processor 2.5 GHz，內存4.0GB，在Matlab2014b環境下進行實驗。扣件分類性能評價指標為誤檢率和漏檢率，其定義如下

(4)

(5)

其中，丟失、斷裂、被遮擋的扣件均被視為失效扣件。檢測結果首先要求準確判斷出失效扣件，降低漏檢；其次是降低誤檢，減少浪費。

圖2 不同狀態的實驗樣本

2.2 實驗結果及分析

(1)實驗1

為評估文中基于LDA模型的近義詞柔性分配方法在扣件語義表達上的性能，將其與傳統的柔性分配方法[12](SA)、傳統“視覺詞包模型”[13](BOW)相比較，分別選擇SIFT[14](Scale Invariant Feature Transform)和HOG[15](Histogram of Oriented Gradient)作為底層特征進行扣件檢測。實驗參數設置均為優化值，不在文中贅述。檢測結果如表1所示。

實驗1、2、3表明，在HOG特征下，相比于傳統“視覺詞包模型”和傳統的柔性分配方法，本文方法雖然由于模型復雜度提高，從而使檢測耗時在一定程度上增加，但漏檢率和誤檢率顯著降低。一方面，改進了視覺單詞的分配方式，既考慮了特征向量到視覺單詞的歐氏距離，又考慮了視覺單詞之間的語義相關性，在一定程度上克服了單詞的同義和歧義問題；另一方面，考慮了不同底層特征間的差異性，針對不同語義類型的底層特征自適應地選擇分配單詞的數目，進一步降低了特征向量與單詞映射時的量化誤差。實驗4、5、6表明，在SIFT特征下，本文方法同樣能夠降低“視覺詞包模型”的漏檢率和誤檢率。

表1 不同語義方法的扣件檢測結果

(2)實驗2

通過將本文方法與文獻[16]中的主成分分析方法、文獻[17]中的方向場(directional field，DF)方法以及文獻[18]中的HOG+SVM方法這幾種主要的扣件檢測方法對比，以綜合評估本文方法的扣件檢測性能。文獻[16-18]中各方法的參數設置均與原文獻保持一致。各方法的檢測結果如表2所示。

表2 與現有檢測方法的比較

從表2可以看出，文獻[16]的主成分分析方法和文獻[18]的HOG+SVM方法雖然耗時比本文方法更短，但誤檢率和漏檢率均過高。文獻[17]的方向場方法雖對失效扣件檢測效果較好，但誤檢率過高，且耗時較長。綜合考慮可知，本文方法相比其他現有方法能更加有效地檢測扣件狀態。

3 結語

通過引入LDA模型和相對熵挖掘視覺單詞之間的語義相關性，并根據不同語義類別的底層特征自適應地選擇單詞分配數目，從而完成底層特征與若干近義單詞間的映射匹配。在4類扣件數據集上的實驗結果證明了本文模型在一定程度上減小了底層特征與視覺單詞之間的量化誤差，進而提高了鐵路扣件的檢測精度。下一步的研究工作是如何更加有效地度量底層特征與視覺單詞間的語義距離，使其更加接近真實的語義距離。

[1] Marino F， Distante A， Mazzeo P L， et al. A real-time visual inspection system for railway maintenance: Automatic hexagonal-headed bolts detection[J]. Systems Man & Cybernetics Part C Applications & Reviews IEEE Transactions on， 2007，37(3):418-428.

[2] Singh M， Singh S， Jaiswal J， et al. Autonomous rail track inspection using vision based system[C]∥IEEE International Conference on Computational Intelligence for Homeland Security and Personal Safety. IEEE Xplore， 2006：56-59.

[3] Yella S， Dougherty M， Gupta N K. Fuzzy logic approach for automating visual condition monitoring of railway sleepers[C]∥Indian International Conference on Artificial Intelligence, 2007：941-956.

[4] Xia Yiqi， Xie Fengying， Jiang Zhiguo. Broken railway fastener detection based on adaboost algorithm[C]∥International Conference on Optoelectronics and Image Processing. IEEE Xplore， 2010：313-316.

[5] Li Ying， Otto C， Haas N， et al. Component-based track inspection using machine-vision technology[C]∥International Conference on Multimedia Retrieval， ICMR 2011， Trento， Italy， April. DBLP， 2011：60.

[6] 吳祿慎，萬超，陳華偉，等.一種改進的十字交叉軌道扣件定位方法[J].鐵道標準設計，2016，60(12):49-53.

[7] Gemert J C V， Veenman C J， Smeulders A W M， et al. Visual Word Ambiguity[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence， 2010，32(7):1271-1283.

[8] Weinshall D， Hanukaev D， Levi G. LDA topic model with soft assignment of descriptors to words[C]∥International Conference on Machine Learning, 2013：711-719.

[9] 狄仕磊，劉甲甲，羅建橋，等.基于潛在語義主題融合的鐵路扣件狀態檢測[J].傳感器與微系統，2016，35(7):19-21.

[10] 賀曉霞，鮑學英，王起才.基于組合方法計算權重的綠色鐵路客站綜合評估[J].鐵道標準設計，2016(4):103-107.

[11] Chang Chih-chung， Lin Chih-jen. LIBSVM: A library for support vector machine[J]. ACM Transaction on Intelligent Systems and Technology， 2011，2(3):27.

[12] 趙永威，周苑，李弼程，等.基于近義詞自適應軟分配和卡方模型的圖像目標分類方法[J].電子學報，2016，44(9):2181-2188.

[13] 於敏，于鳳芹，陳瑩.超像素詞包模型與SVM分類的圖像標注[J].傳感器與微系統，2016，35(12):63-65.

[14] 朱力強，白彪，王耀東，等.基于特征分析的地鐵隧道裂縫識別算法[J].鐵道學報，2015，37(5):64-70.

[15] 韓燁，劉志剛，耿肖，等.基于HOG特征與二維Gabor小波變換的高鐵接觸網支撐裝置耳片斷裂故障檢測[J].鐵道學報，2017，39(2):52-57.

[16] 王凌，張冰，陳錫愛.基于計算機視覺的鋼軌扣件螺母缺失檢測系統[J].計算機工程與設計，2011，32(12):4147-4150.

[17] Yang Jinfeng， Tao Wei， Liu Manhua， et al. An efficient direction field-based method for the detection of fasteners on high-speed railways[J]. Sensors， 2011，11(8):7364-7381.

[18] Dou Yunguang， Huang Yaping， Li Qingyong， et al. A fast template matching-based algorithm for railway bolts detection[J]. International Journal of Machine Learning and Cybernetics， 2014，5(6):835-844.