郭占廣,尹 帥,謝敬玲,宮 輝
(青島杰瑞工控技術有限公司,青島 266520)
近年來隨著科學技術的飛速發展,我國新型軌道交通技術已經融入到人們的生活當中。城市軌道交通行業對我國經濟發展、社會安全、改善民生有著至關重要的作用[1]。數據顯示最近幾年我國城市軌道交通行業運送客流量急劇增加,運營里程數迅速增長,如何在列車高效快速運行環境中保證行車安全,逐漸成為每個城市面對的重大難題[2]。
由中國中車研制的我國首列中國標準地鐵列車下線,該列車作為未來城市軌道交通建設的重點車型,其車輛技術規范中明確要求對列車關鍵部件實現在線安全監測[3]。走行部是城市軌道車輛關鍵的部件之一,負責列車運行方向的導引以及車體承重,列車走行部一旦出現故障,輕則停運、抽線、救援,重則引起重大安全事故,走行部的實時狀態關系著整車的運營安全[4]。
走行部軸承作為城市軌道列車應用最易損耗的部件之一,其健康狀態對列車的安全運行有著重大影響[5]。我國針對城軌列車軸承在線故障診斷研究開始相對較晚,目前城市軌道列車走行部的狀態檢測、運行維護主要靠運維人員在當日列車回庫后進行目視檢查[6],人為因素較大,實時性不強,多數情況下不能及時發現問題,容易存在安全隱患,降低列車運行的可靠性和安全性[7]。目前國內許多專家學者就軸承診斷問題進行研究,文獻[8]基于MPE和PSO-SVM 建立了軸承故障診斷模型;文獻[9]通過聯合MOMEDA 實現故障特征的提取;文獻[10]基于GA-BP 神經網絡針對軸承狀態建立了預防模型。但國內目前研究結果還不能實際應用到軸承故障預測中,如果能夠實時感知軸承狀態,跟蹤潛在故障,進行針對性的維修,將可以有效地降低列車發生故障的概率。
因此本文針對走行部軸承的實時狀態,提出了基于膠囊神經網絡的軸承狀態識別算法,實驗結果表明該模型具有良好的魯棒性、實時性,能夠準確地識別走行部軸承的健康狀態,對列車關鍵部件實現實時監測具有重要的推動作用,為研究和開發實用有效的列車關鍵部件自檢系統奠定良好的基礎。
卷積神經網絡作為深度學習的代表算法,其在特征提取方向上有良好的表象能力,與常規的人工特征提取方法相比,卷積神經網絡通過池化技術有效地降低數據特征維度,改善了模型的泛化性能。但是卷積神經網絡仍然存在一些問題,為保證模型的準確率,卷積神經網絡需要龐大的數據集進行訓練且不能很好地應對模糊性,卷積神經網絡會在池化層丟失大量的信息,從而降低空間分辨率。膠囊神經網絡的提出解決了卷積神經網絡這一難題。
2017 年10 月份全球頂級機器學習會議“神經信息處理系統大會(NIPS)”中,深度學習之父Hinton教授提出了膠囊神經網絡。膠囊神經網絡摒棄了傳統神經網絡事無巨細的特征提取方式,提出膠囊的概念,利用膠囊表示一個事物整體的一個局部特征,進行高緯度分類,具體核心思路概括為以下兩點:第一,與傳統神經網絡不同,膠囊神經網絡的基本單元是膠囊(Capsule),膠囊中包含多個神經元,膠囊的輸入輸出均為向量,且向量的長度代表傳統神經元中的概率,向量方向則用來表示其他信息(位置、顏色等信息);第二,膠囊神經網絡的動態路由機制替代了傳統卷積神經網絡的最大池化方法。
膠囊神經網絡與卷積神經網絡在結構上有所不同。以手寫體數字識別為例,編碼結構如圖1 所示,膠囊神經網絡的第1 層為卷積層(Conv1 層),數據輸入到膠囊神經網絡首先經過卷積層進行卷積計算,進行特征的初步提取,此卷積層通過ReLU 激活函數來激活神經元,卷積層輸出的特征傳遞到膠囊神經網絡的下一層的基礎膠囊層中。

圖1 編碼結構Fig.1 Encoding structur
膠囊神經網絡在卷積層后面加入了基礎膠囊層(Primary Caps)和數字膠囊層(Digit Caps)替代原卷積神經網絡中的采樣層。基礎膠囊層是一種特殊的卷積結構,可以通過多個卷積核獲得最低級的多維實體特征,并將這些特征進行組合。數字膠囊層與全連接層相似,膠囊單元接受來自基礎膠囊層的輸出矢量,其耦合系數決定每個膠囊信息的接受程度。動態路由機制僅在基礎膠囊層和數字膠囊層之間進行[11]。
膠囊神經網絡的解碼結構共包含3 個全連接層,如圖2 所示。

圖2 解碼結構Fig.2 Decoding structure
原始數據輸入到膠囊神經網絡,首先進行編碼,對原始數據進行特征提取獲得多維度輸出,而后經過數字膠囊層得到每種結果的預測概率,概率最高的被送入解碼結構進行重建,獲得重建損失。
膠囊神經網絡引入Squashing 函數作為激活函數,確保輸出的向量長度能夠歸一化。表達式如式(1)所示:

式中:Vj為j 個膠囊的總輸出向量;Sj為j 個膠囊的總輸入向量。
傳統網絡通過加權求和的方式獲得網絡的輸出,膠囊神經網絡在傳統加權求和的基礎上增加了耦合系數cij,表達式如式(2)和式(3)所示:

式中:ui表示第l 層的第i 個膠囊,ui儲存局部信息;Wij代表第l 層的第i 個膠囊和第l+1 層的第j 個膠囊的權重矩陣,通過仿射變換,將ui儲存的局部信息映射為整體信息;代表l+1 層的第j 個膠囊在第l 層的第i 個膠囊下的整體信息預測結果。
其中Cij為每一個底層膠囊與之相對應的高層膠囊之間的權重,由采用的動態路由算法中的softmax 函數決定,表達式如式(4)所示:

動態路由算法的具體計算過程,如圖3 所示。其中bij為膠囊i 與膠囊j 相互耦合的先驗概率,bij只依賴于兩個膠囊的位置與類型。

圖3 膠囊神經網絡路由算法運算流程Fig.3 Capsule neural network routing algorithm operation flow chart
膠囊神經網絡的損失函數為SVM 中的Margin Loss 函數,如式(5)所示:

式中:Tk為分類指示函數(k 類存在即為1,不存在為0);vk代表網絡輸出數據;m+為上界,懲罰假陽性;m-為下界,懲罰假陰性,本文選取經驗值m+=0.9,m-=0.1;λ 為比例系數,調整兩者比重,默認初始值為0.5[12]。
由于膠囊神經網絡結構比較復雜,訓練數據集龐大,故選擇高性能服務器來實現模型訓練提速。本實驗所用服務器CPU 為i9 12900KF 型號,顯卡采用RTX 3090 Ti,內存32 GB。操作系統為Windows10 64 位,膠囊神經網絡模型通過開源的Keras 模塊搭建,軟件編程環境為python3.0。
美國凱斯西儲大學(Case Western Reserve University,CWRU)的滾動軸承數據作為本次實驗的數據集。該數據集作為當前軸承故障診斷領域里公認用于研究測試的數據集,在故障診斷研究領域的頂級期刊《機械系統和信號處理》上,有超過41 篇文章是基于該數據集做的研究。為驗證本文建立的模型的有效性以及效果的客觀性,本文將基于此數據集做模型的實驗測試,并與其他基于該數據集的軸承故障診斷方法進行比較。
本文選取CWRU 數據集中的部分數據作為實驗數據集,其中實驗數據集為電動機驅動端的軸承振動加速度信號,采樣頻率為48 kHz,軸承型號為6205-2RS JEM SKF 型軸承,電機轉速為1797 r/min,數據集共包含7 中狀態類型,分別是正常狀態、軸承內圈輕故障、軸承內圈重故障,軸承外圈輕故障、軸承外圈重故障、滾子輕故障、滾子重故障。每種狀態共包含100000 條數據。具體故障類型及編號如表1 所示。

表1 本文實驗數據說明Tab.1 Experimental data in this paper
為消除實驗數據中不同量綱帶來的影響,加快網絡模型的訓練速度,本文采用Min-Max(minmax normalization)標準化方式對每種故障類型的每個傳感器數據進行歸一化處理。計算方法如式(6)所示:

將處理后的數據集按4∶1 的比例劃分為訓練集和驗證集,即每組數據訓練集為80000 條數據,驗證集為20000 條數據。
本文提出軸承故障診斷模型(BFD-Caps)共包括4 個結構層:2 個卷積層,2 個膠囊層,與原始的CapsNet 相比,模型網絡結構更深,提高了分類精度。具體網絡結構如表2 和圖4 所示。基礎膠囊層與數字膠囊層之間全連接,所有權重由動態路由算法確定。

圖4 網絡結構Fig.4 Network structure

表2 網絡結構及參數Tab.2 Network structure and parameters
實驗經過3000 次迭代訓練,訓練時間花費約7 h,本文構建的模型在實驗中的準確率如圖5 所示,其中測試集準確率高達98.65%,驗證集準確率高達97.58%,可見該模型對軸承故障分類的準確率極高,且具有良好的泛化能力,可應用到實際中去。

圖5 訓練效果Fig.5 Training results

不同的軸承故障診斷模型在CWRU 數據集中的識別結果,如表3 所示。可以看出本文基于膠囊神經網絡的軸承故障診斷模型識別率略低于RS-LSTM模型,但本文實驗訓練時間遠遠少于RS-LSTM 模型的40 h,實驗結果表明本文模型改善了傳統故障診斷算法識別率低,訓練速度慢的的問題。在較差的硬件配置下,花費更少的訓練時間獲得較高的準確識別率。

表3 本文算法與其他算法比較Tab.3 Proposed algorithm is compared with other algorithms
本文通過實驗證實了膠囊神經網絡比其他方法更適合走行部軸承的故障診斷,膠囊神經網絡結構簡易,訓練速度大幅提升。同時,由于膠囊神經網絡的空間特性提煉出了更完整的振動信號特征,提升了識別精確度。目前膠囊神經網絡仍處于起步階段,在以后的學習工作中去探索和已經成熟的模型相結合,進一步改善其應用場景。