康學斌 吳秋顏 牛 超 韓佳鑫 魏秋實
1.天津津航計算技術研究所
2.天津軌道交通運營集團有限公司
近年來,隨著中國城市化進程的加速,在技術和政策的雙重推動下,我國地鐵建設進入高峰期,地鐵運營規模逐年增長[1]。道岔作為地鐵信號系統中的關鍵部件,因長期工作于室外且工況復雜,導致故障發生頻率較高。然而現有道岔設備的故障診斷仍由人工主導,存在效率低、可靠性差等不足,給列車的運行安全帶來了不利影響。因此,如何快速地定位道岔系統故障發生的部位及原因,在保障地鐵運輸效率和運輸安全方面具有重大意義[2]。
故障診斷是指當設備發生故障時,通過一定方法對設備的當前運行數據和歷史數據進行分析總結,最終達到識別故障類型的目的?,F有的故障診斷方法可分為基于數學模型的方法、基于信號處理的方法和基于專家知識的方法3 類。但是,構建精確的道岔設備的數學模型仍然是一個挑戰,過分依賴專家知識也存在可移植性差的缺點。隨著人工智能技術的進一步發展,基于機器學習的故障診斷方法以其基于歷史故障數據就可以實現自動化故障診斷的特點,極大地簡化了故障診斷的過程,逐漸成為道岔設備故障診斷方法的熱點研究方向。
目前,大多數學者采用基于信號特征提取與機器學習算法結合的方式進行故障分析,Chen 等人[3]提出了一種基于離散小波變換的特征提取方法,用于提取道岔設備故障數據的時頻特征;安春蘭等人[4]基于S700K 型道岔轉轍機的三相電流數據,首先利用小波包多尺度分析對道岔轉轍機的各類數據進行了分解,然后利用小波包能量熵提取道岔轉轍機故障電流的特征。Zhou 等人[5]和McHutchon 等人[6]在特征提取方法中應用了如極值、標準差、均值等有量綱的時域特征指標。楊小銳等人[7]、胡啟正[8]和辛浩東[9]在特征提取方法中應用了如偏度、峭度、脈沖因子、峰值因子等無量綱的時域特征指標。上述文獻主要針對道岔動作電流、功率等信號從時域、頻域或時頻域等方面進行特征提取,該方式需要對信號進行復雜的數學變換,從工程應用角度方面來看,落地實施存在一定的困難。道岔設備不同故障類型的數據在能量分布上有一定的差別,可以作為故障診斷的依據,在現有文獻研究中,缺乏能夠反映時序數據的能量分布特征的指標,尤其是反映能量重心的指標。因此,筆者旨在構建一套能夠反映能量分布特征的特征提取方案,結合機器學習算法對道岔設備進行故障診斷。
道岔由可移動尖軌、基本軌、護軌等結構構成,它連接了不同的軌道,主要作用是使列車由一個方向的軌道駛入另一個方向的軌道,實現列車軌道的換道功能。最常見的道岔類型是普通單開道岔,一個普通單開道岔由一對可移動尖軌、一對固定基本軌、護軌、連接軌道等結構構成,道岔的基本結構如圖1所示。道岔有定位和反位2 種表示狀態。通常情況下,默認使用頻率高的尖軌位置為定位。

圖1 道岔的結構示意圖
道岔轉轍機是道岔的驅動設備,主要由驅動電動機、機械傳動機構和控制電路元件等構成,它通過一個動作桿與道岔的可移動尖軌相連接,將驅動電動機的旋轉運動轉化為動作桿的水平運動,從而驅動道岔可移動尖軌工作。目前,市面上存在多種類型的道岔轉轍機,按傳動方式可以分為電動轉轍機和電液轉轍機;按驅動電源類型又可以分為直流轉轍機、交流轉轍機。ZD6 型道岔轉轍機主要包含直流驅動電動機、減速器、自動開閉器、閉鎖齒輪、齒條塊、動作桿、表示桿等結構,如圖2所示。

圖2 ZD6型道岔轉轍機結構示意圖
ZD6 型轉轍機通常采用四線制單動道岔控制電路,采用分級控制方式,當道岔控制系統通過進路操縱或單獨操縱發出道岔轉換命令時,首先第一道岔啟動繼電器1DQJ 的勵磁電路會檢查道岔進路閉鎖和區段閉鎖的聯鎖條件;其次第二道岔啟動繼電器2DQJ 轉極電路會控制電機的旋轉方向;最后由直流電動機的動作電路驅動轉轍機完成道岔尖軌定位到反位之間的轉換。
能量分布特征能夠準確且全面地衡量時序數據在一定時間范圍內的分布特點。在道岔設備的故障診斷場景中,可以構建道岔轉轍機動作電流數據的能量分布特征指標,進而進行道岔設備的故障診斷。
3.1.1 動作電流能量分布指標的構建
動作電流能量強度指標IS。該指標是道岔轉轍機動作電流在某時間段內的均值,主要用來衡量該段時間內的電流能量強度的大小,如公式(1)所示。

式中,Ii為某時間段內第i次采樣的電流值;n為某時間段內的采樣次數。
動作電流能量重心指標IC。該指標是道岔轉轍機動作電流在某時間段內的加權平均中心,它反映了動作電流能量的重心出現的位置,如公式(2)所示。

式中,ti為某時間段內第i個時間標度。
動作電流能量穩定性指標IW。該指標是道岔轉轍機動作電流在某時間段內的方差,反映了動作電流能量的分布平穩性,如公式(3)所示。

式中,I為某時間段內動作電流的平均值。
3.1.2 動作電流能量重心指標的分析
能量重心指標是衡量道岔轉轍機動作電流能量分布特征的核心指標,該指標可以有效地提取到故障電流數據的特征。將每條動作電流數據等間隔的分為6段(電流采樣值不足時補零處理),提取每段電流的能量重心指標,如圖3所示。


圖3 能量重心分布
從圖3中可以看出,當道岔設備出現卡阻故障時,在第三個電流區間內的重心值相對稍微偏高,在最后一個電流區間內的重心值偏高;當道岔設備出現不閉鎖故障時,在第五個電流區間內的重心值相對稍微偏高,在最后一個電流區間內的重心值也偏高;當道岔設備出現密貼力較大的情況時,在第五個電流區間內的重心值相對稍微偏高,在最后一個電流區間內的重心值正常。由此可見,能量重心指標可以很好地區分道岔設備的一些故障。
SVM 算法是機器學習領域經典的分類算法之一,屬于監督學習算法,它適合解決小樣本、高維度和非線性的分類問題。SVM 算法的基本思想非常簡單,其目標就是尋找使兩類樣本集間隔最大的超平面。
圖4中以一個二維坐標系為例,展示了SVM 算法的基本原理。初始時會隨機給定一個任意的超平面H,然后通過不斷平移和旋轉超平面的位置,將兩種類型的樣本集完全劃分成兩個部分,設類型1 的樣本集中到H 最近的樣本點在與H 平行的超平面H1上,類型2 的樣本集中到H 最近的樣本點在與H 平行的超平面H2上,SVM 的最終優化目標就是使H1至H2的間隔最大。

圖4 SVM原理
3.2.1 數學模型
給定樣本集Di=(xi,yi),i=1,2,…n,yi∈{+1,?1},其中,xi為樣本特征集,yi為樣本類別,n為樣本總數量。設SVM 算法的超平面如公式(4)所示。

式中,ω為超平面的方向控制向量;b為超平面的位置控制參數。
SVM 的目標函數及約束條件如公式(5)所示。

3.2.2 軟間隔SVM
原始SVM 算法要求樣本點必須全部落在超平面的兩側,要求待分類的樣本集線性可分,也被稱作硬間隔SVM。為了擴大SVM 算法的應用范圍,軟間隔SVM 被提出,其目標函數及約束條件如公式(6)所示。

式中,C為懲罰因子,C>0;ξi為松弛變量,ξi≥0。
軟間隔SVM 的原理其實就是通過在約束條件中加入一個松弛變量,在一定程度上允許一些樣本點出錯,即允許少部分樣本點不滿足硬間隔SVM 的約束條件,使得模型的泛化能力更強,適用范圍更廣。
3.2.3 核技巧
通過引入Lagrange 函數,SVM 軟間隔所要求解的問題變為對偶問題,其目標函數及約束條件如公式(7)所示。

式中,(xi,xj)為樣本xi和樣本xj之間的內積;ai為樣本i對應的Lagrange 乘子。
如果a=(a1,a2,…,ai)T是對偶問題的解,那么決策函數如公式(8)所示。

任取α的一個小于懲罰系數C的正分量αj,可以計算超平面的位置控制參數b,計算如公式(9)所示。

SVM 通過核技巧解決非線性分類問題時,樣本在高維空間映射后的內積可以表示為原空間中對應樣本的函數,即核函數,通過核函數就能計算樣本在高維空間映射后的內積。目前常用的核函數包括線性核、多項式核、高斯核和Sigmoid 核4 類。
線性核是比較簡單的核函數,它由2 個向量的內積和一個常數c構成,主要用在樣本線性可分的場景中。線性核表達式如公式(10)所示。

多項式核函數比線性核函數稍復雜,它有3 個可調參數:d是多項式的冪;a是內積的縮放倍數;c是常數項。其表達式如公式(11)所示。

高斯核也叫徑向基核函數,是最常用的核函數之一,它可以把原始樣本特征映射到無窮維,具有很好的非線性分類能力。高斯核有一個可調參數γ,它控制著高斯核的局部作用范圍。高斯核的表達式如公式(12)所示。

Sigmoid 核函數有兩個可調參數a和c,分別是內積的縮放倍數和常數項。其表達式如公式(13)所示。

3.2.3 多分類SVM
SVM 本身是一個二值分類器,只支持解決二分類問題。當需要對三類及以上的樣本集進行分類時,需要設計多類分類方案。目前主流的設計方案有直接法和間接法2 類,本文所采用的方法為間接法中的“一對一”法。
“一對一”法是在每2 個樣本之間都設計一個SVM模型,假設樣本有n類,那么總共需要設計n(n?1)/2個SVM 模型。當對未知樣本進行分類時,把該樣本依次輸入到所有模型中進行分類,采取投票法進行決策,最后得票最多的類別即為未知樣本的分類結果。
基于能量分布特征和SVM 的故障診斷方法由2部分構成,分別是基于加窗能量分布特征的特征提取方法和基于SVM 的故障分類方法,如圖5所示。能量分布特征指標包括能量強度指標、能量重心指標和能量穩定性指標。特征提取采用加窗的方式提取動作電流數據的特征,將每條動作電流數據按等間隔分段,每一段電流數據值形成一個小窗口,在每個小窗口內分別提取3 個能量分布特征指標。窗口的大小用T 表示,它表示每個小窗口中所包含的電流采樣值的個數。故障識別采用SVM 算法,其輸入數據采用經過特征提取后的特征集數據,并采取“一對一”的方案構建基于SVM 的多類分類方法。

圖5 基于能量分布特征和SVM的故障診斷方法設計
5.1.1 實驗數據
筆者根據某地鐵公司提供的7 類動作電流數據,其中包括1 類道岔設備正常工況下的動作電流數據和6類道岔設備故障動作電流數據。原始動作電流數據集,見表1。

表1 原始動作電流數據集
5.1.2 數據預處理
數據補零和截斷。在特征處理階段需要對動作電流數據進行等間隔分段,為了使分段窗口的大小有一定的調整余地,采取補零的方法把原始動作電流數據都統一補齊到114 個電流采樣值,采樣點個數多于114的數據采取截斷處理。為了便于直觀地了解各類道岔設備故障動作電流數據的特征,把經過補零和截斷處理后的原始動作電流數據集中的所有的故障電流數據用折線圖進行了繪制,如圖6所示。從圖中可以看出,有些故障類型的動作電流曲線波形相互之間差異很小,僅靠人工難以識別,容易出現誤判的情況。

圖6 各類故障的動作電流曲線
數據增強,又稱為數據擴充,是在機器學習算法的模型訓練中常用的擴大數據量的手段。為了提高道岔設備故障診斷方法的泛化性能,利用添加高斯噪聲的數據增強方法,對動作電流數據集進行了擴充,將數據集擴充到2000 條。高斯噪聲的均值為0,方差為0.05,高斯噪聲添加前后對比如圖7所示。

圖7 高斯噪聲添加前后對比
k 折交叉檢驗。當數據集劃分不合理時,容易導致模型精度不高、模型過擬合等問題。解決方案是采取k 折交叉檢驗。本次實驗采用5 折交叉檢驗方法,將擴充后的數據集均分為5 份,包括數據集A、B、C、D 和E,然后輪流取一份當作測試集,剩余4 份當作訓練集,具體劃分情況見表2。

表2 交叉檢驗的數據集劃分結果
5.1.3 特征提取
特征提取是故障診斷的重要步驟,去除數據中的冗余信息,減少對模型分類結果的干擾,從而提高診斷的準確率。本次實驗采用基于能量分布特征的特征提取方法,等間隔地分段提取每條動作電流的特征指標,在每個窗口內提取動作電流的能量強度指標、能量重心指標和能量穩定性指標,其中窗口的大小T 可調整。
為了直觀展示經過特征提取后各類故障動作電流數據的特征,將T 設置為19,以數據集A 的測試集故障動作電流數據為例,繪制了如圖8所示的故障特征圖。其中每條動作電流數據被分為6 段,共得到18 個特征指標。
5.1.4 故障分類
故障分類方法基于SVM 算法構建,使用臺灣大學林智仁教授[10]開發的Libsvm 軟件包(Python 版)完成該算法的實現。分別應用線性核、多項式核、高斯核和Sigmoid 核進行實驗,該模型的參數設置見表3,其中k 為樣本的特征維度。

表3 SVM模型的參數設置
5.2.1 實驗結果
經過多次實驗探究,在計算能量重心指標時,將時間標度設置為[0,10]內的均勻間隔數值比較合理,取得的診斷效果較好。
另外,由于窗口是等間隔的,因此窗口大小T 的取值只能是每條電流采樣值總點數的因數。每條電流采樣值的總點數為114,T 只能屬于集合{1,2,3,6,19,38,57,114}中的某個元素。當T 值取集合{1,2,3}中的單個元素時,每個窗口所包含的電流采樣值點數太少,計算它們的能量分布特征指標沒有太大意義。因此,本部分只選取了T 值取其余5 種情況的實驗結果。
5.2.2 實驗結果分析
為了對比采用不同窗口大小及不同核函數的實驗結果,探究基于能量分布特征和SVM 的故障診斷方法的參數選擇方案,將上述各個窗口大小在不同數據集上實驗結果的平均值進行了匯總,見表4。

表4 實驗結果匯總
從上述實驗結果匯總表可以得出基于能量分布特征和SVM的故障診斷方法的參數設置有2種選擇方案。一是核函數設置為多項式核,窗口大小可以設置為集合A={6,19,38,57,114}中的任意一個元素。二是核函數設置為線性核,窗口大小可以設置為集合B={6,19,38}中的任意一個元素。上述兩種參數設置方案都可以使故障診斷準確率達100%,因此,本次實驗的結果充分證明了基于能量分布特征和SVM 的故障診斷方法的有效性,說明該故障診斷方法能夠準確地識別道岔設備的故障類型。
為了驗證基于能量分布特征的特征提取方法在道岔設備故障診斷中的優越性,選擇了2 種經典的方法——主成分分析法和傳統時域特征指標提取法,并采用相同的數據集進行了實驗,故障分類算法都采用SVM 算法,參數采用默認參數。
5.3.1 基于主成分分析法和SVM 的故障診斷方法
主成分分析(PCA)法是常用的特征降維方法,因其操作簡單且降維效果很好,被廣泛應用到各個領域。
為了探究PCA 法保留特征個數k 的設置,通過多次手動調整參數,確定了主成分方差累計貢獻率的范圍。當k 取15 時,各數據集訓練集主成分方差累計貢獻率如圖9所示,為了方便展示,這里只給出了前4個數據集的訓練集方差累計貢獻率情況。從圖中可以看出,各個數據集的前6 個主成分解釋了道岔設備動作電流數據的98%以上的方差,所以可以用前6 個主成分代替原數據特征。


圖9 各數據集的主成分方差累計貢獻率
基于PCA 和SVM 故障診斷方法的實驗結果見表5,當核函數采用高斯核時,診斷效果最好,平均準確率為90.95%。

表5 基于PCA和SVM方法的實驗結果
5.3.2 基于傳統時域特征指標和SVM 的故障診斷方法
在道岔設備故障診斷的特征提取方法中,以時域特征分析較為普遍,通常會計算道岔數據的某些時域特征指標,常用的時域特征指標及描述見表6。
在表6列出的時域特征指標中,方差和標準差代表的含義基本相同,都反映了信號的離散程度;偏度、峭度和峰值因子所代表的含義也基本相同,都反映了波形的平緩程度,但是,峰值因子的穩定性不好,且其對能量沖擊敏感性不高,常用峭度指標代替。

表6 常用時域特征指標
綜上所述,筆者選擇了6 個時域特征指標進行實驗,分別是最大值、最小值、均值、方差、峭度和脈沖因子,實驗結果見表7。

表7 基于傳統時域指標和SVM方法的實驗結果
從基于傳統時域指標和SVM 的故障診斷方法的實驗結果可以看出,當核函數采用多項式核時,故障診斷效果最好,平均準確率為99.15%。
5.3.3 結果對比
從表8可以看出,基于能量分布特征和SVM 的故障診斷方法比其他兩種方法的診斷準確率都要高,證明了該方法的優越性。

表8 實驗結果對比
筆者針對基于數據的智能故障診斷方法中時域特征指標不能反映道岔轉轍機動作電流數據的能量分布的問題,提出了基于能量分布特征的特征提取方法,構建了能量分布特征的3 個指標,并且提出了基于能量分布特征和SVM 的道岔設備智能故障診斷方法。首先,構建了動作電流能量分布特征的三個指標,并對能量分布特征的核心指標——能量重心進行了分析。其次,考慮到SVM 算法在小樣本情況下的分類優勢,設計了基于能量分布特征和SVM 的道岔設備智能故障診斷方法。然后,以真實動作電流數據所構成的數據集為基礎,進行了驗證實驗和對比實驗,證明了基于能量分布特征和SVM 在道岔設備故障診斷中的有效性和優越性。