王超群,李彬彬,焦斌
(上海電機學(xué)院 電氣學(xué)院,上海 201306)
軸承是機械裝置中重要的部件[1],疲勞損壞、潤滑不良、安裝不當?shù)榷紩?dǎo)致軸承出現(xiàn)故障,傳統(tǒng)的軸承故障診斷方法通常采用人工提取故障的方式:文獻[2]將集成經(jīng)驗?zāi)B(tài)分解(EEMD)與峭度準則結(jié)合,文獻[3]將小波包變換與樣本熵相結(jié)合,文獻[4]提出基于Teager能量算子的頻譜分析方法,這些方法雖然通過實際滾動軸承故障試驗以及仿真分析證實能夠有效地提取滾動軸承故障特征,但其特征提取的工作量較大,特征提取較為復(fù)雜,且專業(yè)性較強。
近些年,人工智能技術(shù)的發(fā)展突飛猛進,目前熱門的深度學(xué)習[5]也在軸承故障診斷領(lǐng)域得到了廣泛應(yīng)用。文獻[6]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的軸承故障診斷方法,在美國Case Western Reserve大學(xué)的軸承故障數(shù)據(jù)下取得了較好的效果。文獻[7]提出了將離散傅里葉變換與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的故障診斷模型,對齒輪箱中軸承、齒輪的試驗也取得了不錯的結(jié)果。文獻[8]提出一種結(jié)合小波包變換和長短時記憶神經(jīng)網(wǎng)絡(luò)的方法,在風電機組滾動軸承故障識別中獲得了較高的識別率。然而,在實際工業(yè)環(huán)境中,由傳感器采集到的振動信號可能會受到噪聲的污染。此外,當負載改變時,電動機轉(zhuǎn)速也會發(fā)生改變,傳感器測得的振動信號也會隨之變化。雖然許多故障診斷模型在原始信號診斷上擁有很高的識別率,但處于噪聲和變負載環(huán)境下時識別率可能會出現(xiàn)較大的下降[9]。因此,將循環(huán)神經(jīng)網(wǎng)絡(luò)的變種門控循環(huán)單元(Gated Recurrent Unit,GRU)[10]與膠囊網(wǎng)絡(luò)(Capsule Network,CAPS)[11]相結(jié)合,提出一種基于門控循環(huán)單元及膠囊網(wǎng)絡(luò)的滾動軸承故障診斷模型,并通過試驗驗證該方法的抗噪性、通用性和泛化能力。
與長短時記憶神經(jīng)網(wǎng)絡(luò)(LSTM)類似,門控循環(huán)單元也是為了解決循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度消失問題而提出的方法,但比長短時記憶神經(jīng)網(wǎng)絡(luò)更為簡便[12]。門控循環(huán)單元使用了更新門和重置門,這2個門共同決定了門控循環(huán)單元的輸出,其具體結(jié)構(gòu)如圖1所示。

圖1 門控循環(huán)單元結(jié)構(gòu)圖
更新門的主要作用是決定輸出狀態(tài)ht要保留多少歷史狀態(tài)ht-1,以減小梯度消失的風險。更新門的公式為
Zt=δ(Wzxt+Uzht-1+bz),
(1)
式中:δ為sigmoid函數(shù);xt為t時刻的輸入向量;Wz,Uz分別為更新門和循環(huán)連接的權(quán)重;bz為偏置項。
重置門的主要作用是決定過去有多少信息需要被遺忘,即候選狀態(tài)對歷史狀態(tài)的依賴程度。重置門的公式為
rt=δ(Wrxt+Urht-1+br),
(2)
式中:Wr,Ur分別為重置門和循環(huán)連接的權(quán)重;br為偏置項。

(3)
式中:Wc,Uc分別為候選狀態(tài)和循環(huán)連接的權(quán)重;bc為偏置項;⊙表示同或運算。
最后,當前時刻的輸出ht為
(4)
膠囊網(wǎng)絡(luò)的實質(zhì)是將傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元由標量變?yōu)橄蛄俊O蛄坎粌H可以表示物體的特征,還可以包括物體的方向、狀態(tài)等,可以用來減少運算過程中信息的丟失。膠囊網(wǎng)絡(luò)的輸入與全連接神經(jīng)網(wǎng)絡(luò)類似,由神經(jīng)元線性加權(quán)再求和,不同的是膠囊網(wǎng)絡(luò)在此基礎(chǔ)上加了一個耦合系數(shù),具體過程為
(5)
(6)

通過上述過程得到中間向量sj,sj經(jīng)過激活函數(shù)squashing后得到輸出向量vj,使用該激活函數(shù)的優(yōu)點是既可以保留初始向量的方向,又可以將輸入向量的模值壓縮到[0,1)之間[13]。具體計算公式為
(7)


圖2 膠囊網(wǎng)絡(luò)結(jié)構(gòu)圖
(8)
(9)
為了充分提取故障特征并減少特征信息的丟失,提出了一種基于門控循環(huán)單元的膠囊網(wǎng)絡(luò)故障診斷模型。整個網(wǎng)絡(luò)模型如圖3所示。

圖3 基于門控循環(huán)單元的膠囊網(wǎng)絡(luò)結(jié)構(gòu)
模型的第1層為門控循環(huán)單元層,作用是通過控制輸入信息的流入充分提取特征,并將特征傳遞給膠囊網(wǎng)絡(luò)。由圖3可知,此處輸入為28×28的張量尺寸,即將輸入當作28個時間段,每個時間段的內(nèi)容為28個值,將28個時序一次性送入門控循環(huán)單元中,門控循環(huán)單元的隱藏層節(jié)點個數(shù)為128,最后得到10×10的張量尺寸。
模型的第2層為卷積層。加入卷積層的目的是減小特征尺寸,使膠囊網(wǎng)絡(luò)的計算更加簡便。將經(jīng)過門控循環(huán)單元層的張量放入卷積核尺寸為5×5、過濾器深度為256的卷積層中,并經(jīng)過一層批量歸一化(BN)層[14],最終得到6×6的張量尺寸。
模型的第3層為初級膠囊層,其作用是將門控循環(huán)單元層提取到的標量特征轉(zhuǎn)化為向量特征。構(gòu)建向量的方法是將特征層的通道合并為一個膠囊單元[15]。在該模型中,設(shè)置輸出的通道數(shù)為32,每個通道數(shù)所包含的特征數(shù)為8,因此提取到的特征總數(shù)為256(32×8)。特征數(shù)為8的向量被封裝在一個初級膠囊里。由于張量尺寸為6×6,所以一共有1 152(6×6×32)個初級膠囊。
模型的第4層為數(shù)字膠囊層,作用等同于全連接層在卷積神經(jīng)網(wǎng)絡(luò)中的作用,用來區(qū)分各種故障類型。由于要識別的軸承故障類型是10種,所以該層的膠囊個數(shù)為10,設(shè)置向量維度為16,向量的模長即某種故障類型的概率。具體參數(shù)設(shè)置見表1。

表1 基于門控循環(huán)單元的膠囊網(wǎng)絡(luò)模型參數(shù)
反向傳播算法可以根據(jù)定義好的損失函數(shù)優(yōu)化神經(jīng)網(wǎng)絡(luò)的權(quán)值,從而使神經(jīng)網(wǎng)絡(luò)的損失值達到比較小的程度。參數(shù)的優(yōu)化好壞直接決定了模型的優(yōu)劣。此網(wǎng)絡(luò)中的損失函數(shù)比較特殊,由邊緣損失和重構(gòu)損失兩部分構(gòu)成。邊緣損失的表達式為
Lc=Tcmax(0,m+-‖vc‖)2+
λ(1-Tc)max(0,‖vc‖-m-)2,
(10)
式中:Tc為真實標簽,當輸入樣本類別與c一致時Tc取1,否則為0;‖vc‖為向量的模長,即某種故障類型的概率;m+,m-分別為上邊界和下邊界,分別取0.9,0.1。當‖vc‖>0.9或‖vc‖<0.1時,損失函數(shù)為0。λ的作用是調(diào)整這2項的比例,這里取常數(shù)0.5。
重構(gòu)是指根據(jù)已有參數(shù)重新構(gòu)建初始輸入的電機軸承數(shù)據(jù)。加上重構(gòu)損失的目的是減小訓(xùn)練數(shù)據(jù)集過擬合的風險,增強模型的泛化能力。重構(gòu)解碼的過程由3層全連接層構(gòu)成,3層全連接層的節(jié)點數(shù)分別為256,512,784,對應(yīng)的激活函數(shù)分別為ReLU,ReLU,sigmoid。重構(gòu)損失的表達式為
(11)
式中:yk為重構(gòu)圖像;xk為原始圖像。
最終的損失由上述兩部分構(gòu)成,即
L=Lc+αLr,
(12)
式中:α為邊緣損失占損失的主要部分,此處取0.000 5。
為驗證所提GRU+CAPS模型的有效性,采用美國Case Western Reserve大學(xué)公開的滾動軸承數(shù)據(jù)集進行驗證。選用不同工況下驅(qū)動端軸承的加速度數(shù)據(jù)作為研究對象,除了正常狀態(tài),設(shè)置了內(nèi)圈故障、外圈故障和鋼球故障,每種故障方式下分別有故障直徑為0.178,0.356,0.534 mm的3種人為損傷。
由于一共有10種狀態(tài),設(shè)置標簽為0~9,分別代表正常狀態(tài)和9種故障狀態(tài)。采用連續(xù)抽樣的截取方法處理數(shù)據(jù),設(shè)定抽樣步長為784[16]。每種狀態(tài)均取1 000個信號樣本,加上標簽最后得到10 000×(784+1)的矩陣,保存至.csv文件后作為模型的輸入。將10 000個數(shù)據(jù)以7∶2∶1的比例分為訓(xùn)練集、驗證集和測試集,即包含7 000個訓(xùn)練數(shù)據(jù)、2 000個驗證數(shù)據(jù)和1 000個測試數(shù)據(jù)。數(shù)據(jù)集具體規(guī)格見表2。

表2 試驗數(shù)據(jù)集
本試驗在Google深度學(xué)習框架TensorFlow中完成,設(shè)置批次大小為64,對所有樣本的訓(xùn)練次數(shù)為20次。膠囊層中動態(tài)路由算法的迭代次數(shù)為2。除此之外,使用Adam優(yōu)化器優(yōu)化總損失,學(xué)習率設(shè)置為0.001,并采用動態(tài)衰減的方式,衰減率為10-8。
為進一步驗證GRU+CAPS模型的有效性,分別采用膠囊網(wǎng)絡(luò)、門控循環(huán)網(wǎng)絡(luò)(GRN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、深度神經(jīng)網(wǎng)絡(luò)(DNN)進行對比試驗。
3.3.1 膠囊網(wǎng)絡(luò)
膠囊網(wǎng)絡(luò)結(jié)構(gòu)先使用2層卷積層將張量尺寸由28×28變?yōu)?×6,第1層卷積層的卷積核尺寸大小為9,深度為256,步長為1;第2層卷積層的卷積核尺寸大小為9,深度為256,步長為2。此設(shè)置既減小了特征尺寸,也與本文所提模型進入膠囊網(wǎng)絡(luò)的尺寸保持一致,之后的參數(shù)設(shè)置與本文所提模型相同。
3.3.2 門控循環(huán)網(wǎng)絡(luò)
門控循環(huán)單元網(wǎng)絡(luò)參數(shù)設(shè)置與該模型中門控循環(huán)單元部分的參數(shù)設(shè)置基本一致。輸出節(jié)點改為10個,代表10種狀態(tài)。同樣使用Adam優(yōu)化器,學(xué)習率設(shè)置為0.001,損失函數(shù)選擇交叉熵損失函數(shù)。
3.3.3 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)使用2層卷積層和2層全連接層。第1層卷積層的卷積核尺寸大小為5,深度為256;第2層卷積層的卷積核尺寸大小為3,深度為32。2層池化層的尺寸大小為2,步長為2。2層全連接層的節(jié)點數(shù)分別為512,10。其余參數(shù)設(shè)置與門控循環(huán)單元保持一致。
3.3.4 深度神經(jīng)網(wǎng)絡(luò)
深度神經(jīng)網(wǎng)絡(luò)使用3層全連接層:第1層的節(jié)點個數(shù)設(shè)置為1 024,第2層的節(jié)點個數(shù)設(shè)置為512,第3層為輸出層,輸出節(jié)點為10(即10種狀態(tài))。前2層的激活函數(shù)均為ReLU函數(shù),第3層的激活函數(shù)為softmax函數(shù)。其余參數(shù)設(shè)置與門控循環(huán)單元保持一致。
使用不同工況下的數(shù)據(jù)進行試驗,結(jié)果見表3,由表可知:各模型的準確率均在96%以上,說明深度學(xué)習模型具有極強的故障診斷能力;本文所提GRU+CAPS模型與CAPS,GRU,CNN模型的平均準確率相差無幾,分別只高出0.15%,0.35%,0.06%,平均比DNN模型的準確率高出2.59%。因此,在原始信號下,本文所提模型的優(yōu)勢并不大。
選用高斯白噪聲作為噪聲干擾,為更好地驗證模型的抗噪能力,在訓(xùn)練集中使用原始信號,在驗證集和測試集中加入不同信噪比的高斯白噪聲。
2hp工況下0.178 mm內(nèi)圈故障軸承的時域信號如圖4所示,當信噪比為0時,噪聲污染下的加噪信號與原始信號相比發(fā)生了很大變化,從中提取故障特征的難度很大。因此,在噪聲環(huán)境下仍能保持較高的準確率對于模型尤為重要。

圖4 內(nèi)圈故障軸承的原始信號及加噪信號
使用2hp工況下的數(shù)據(jù)進行試驗,分別在驗證集和測試集中加入0~8 dB的高斯白噪聲信號,不同模型的識別率如圖5所示。

圖5 不同噪聲狀態(tài)下各模型的準確率
由圖5可知:噪聲環(huán)境下,CNN和DNN的診斷能力明顯低于其他3種模型,在4 dB及以下的噪聲環(huán)境中準確率下滑較為嚴重,抗噪能力較弱,GRU的抗噪性則比CNN和DNN好一些;在0~8 dB的噪聲環(huán)境下,本文所提模型的準確率在5種模型中最高,特別是當信噪比為0 dB時,GRU,CNN,DNN的準確率均出現(xiàn)了大幅度的下降,而本文所提GRU+CAPS模型的準確率仍可達到94.375%,分別比CAPS,GRU,CNN,DNN高出4.17%,7.81%,28.33%,24.17%。這說明與標量相比,向量能提取到更多的細節(jié)特征,在噪聲污染較大的環(huán)境中仍能保持較高的準確率,而且將GRU作為CAPS的輸入時能更充分地提取故障特征。
0.534 mm內(nèi)圈故障軸承在不同負載工況下的時域信號如圖6所示,同一故障在不同負載工況下的信號波形也存在很大差異,會導(dǎo)致模型無法區(qū)分提取到的特征,從而影響識別準確率,因此對變負載環(huán)境下的故障診斷也具有重要意義。

圖6 0.534 mm內(nèi)圈故障軸承在不同負載工況下的時域信號
分別將0hp+1hp,0hp+2hp,1hp+2hp工況下的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),對應(yīng)的 2hp,1hp,0hp工況下的數(shù)據(jù)作為驗證和測試數(shù)據(jù)進行試驗,結(jié)果如圖7所示,由圖可知:當負載發(fā)生改變時,DNN的準確率下降最快,3種情況下的準確率都不足60%,說明DNN的泛化能力較弱;CNN在變負載工況下具有較高的準確率,但抗噪能力較弱;DNN和CNN這2種模型可能難以適應(yīng)復(fù)雜多變的環(huán)境,而其他3種模型在噪聲環(huán)境和變負載工況下都具有較高的準確率,尤其是本文所提GRU+CAPS模型,在3種情況下均能達到90%的準確率,平均比CAPS,GRU,CNN高出5.72%,1.93%,4.15%,充分說明該模型具有較好的泛化能力,可以適應(yīng)一些復(fù)雜多變的工作環(huán)境。

圖7 不同負載工況下各模型的準確率
試驗數(shù)據(jù)來源于如圖8所示的實驗室電動機數(shù)據(jù)采集平臺,選用電動機驅(qū)動端軸向的振動信號作為試驗數(shù)據(jù),信號采樣頻率為10 kHz。故障類型及數(shù)據(jù)規(guī)格見表4。

圖8 數(shù)據(jù)采集平臺

表4 數(shù)據(jù)集規(guī)格
由于深度學(xué)習模型需要大量的數(shù)據(jù)支撐,當訓(xùn)練樣本過少時會陷入過擬合狀態(tài),從而影響識別結(jié)果,而受各種因素的影響,該數(shù)據(jù)采集平臺所采集到的數(shù)據(jù)遠遠不夠。因此,通過重疊采樣的方法進行數(shù)據(jù)增強,如圖9所示。通過滑動一定的步長得到新的數(shù)據(jù),當信號長度一定時,若滑動步長太小,可能會造成大量冗余信息;若滑動步長太大,樣本數(shù)量可能依然不足。試驗中設(shè)置滑動步長為99,最后得到總的樣本數(shù)為8 000,即正常狀態(tài)和7種故障狀態(tài)的樣本各1 000,對應(yīng)標簽為0~7。同樣將8 000個數(shù)據(jù)以7∶2∶1的比例分為訓(xùn)練集、驗證集和測試集,即包含5 600個訓(xùn)練樣本、1 600個驗證樣本和800個測試樣本。

圖9 重疊采樣
使用GRU+CAPS,CAPS,GRU,CNN,DNN模型分別在原始狀態(tài)和加噪狀態(tài)下進行試驗,除所有樣本的訓(xùn)練次數(shù)設(shè)置為40外,其余參數(shù)設(shè)置與之前試驗保持一致。原始狀態(tài)下的結(jié)果見表5,加噪狀態(tài)下的結(jié)果如圖10所示。

表5 原始狀態(tài)下各模型的準確率

圖10 加噪狀態(tài)下不同模型的準確率
由表5和圖10可知:在原始狀態(tài)下,GRU+CAPS與CNN模型的準確率相差無幾,比CAPS,GRU和DNN的準確率分別高出0.25%,9.64%和5.60%,充分體現(xiàn)了該模型具有較好的通用性,也從另一方面說明GRU和DNN模型的通用性較弱;在加噪聲狀態(tài)下,GRU,CNN,DNN的準確率都出現(xiàn)了大幅度下降,而GRU+CAPS模型在0 dB噪聲環(huán)境下的準確率仍能保持在83.07%,在2 dB及以上的噪聲環(huán)境下均能保持90%以上的準確率,平均比CAPS,GRU,CNN,DNN的準確率高出0.91%,16.3%,15.1%,9.24%,更加印證了向量能夠提取到更多的細節(jié)特征,從而提高模型的準確率。
提出了一種基于門控循環(huán)單元的膠囊網(wǎng)絡(luò)的滾動軸承故障診斷方法,該算法通過門控循環(huán)單元快速提取特征,再經(jīng)過膠囊網(wǎng)絡(luò)提取細節(jié)特征并進一步得到分類結(jié)果。在對原始數(shù)據(jù)進行試驗的基礎(chǔ)上,在噪聲環(huán)境、變負載環(huán)境和其他數(shù)據(jù)集下均進行了試驗,與CAPS,GRU,CNN,DNN等深度學(xué)習模型的對比試驗充分說明了該模型具有較好的抗噪能力、泛化能力和通用性。同時,在研究過程中發(fā)現(xiàn)膠囊網(wǎng)絡(luò)處理大量數(shù)據(jù)時所耗費的時間較長,因此如何減少膠囊網(wǎng)絡(luò)的訓(xùn)練時間是下一步研究的重點。