劉 闖,郝潤芳,程永強,閆文恒
(太原理工大學 信息與計算機學院,山西 晉中 030600)
滾動軸承作為常用的工業零部件之一,在工業社會中有著廣泛而重要的應用[1]。由于滾動軸承在旋轉機械的運轉環境封閉且復雜,在應用過程中滾動軸承存在老化、損壞等問題,由此產生的各種故障可能會造成安全事故和巨大經濟損失[2]。因此工業上需要準確高效的智能化故障診斷算法,對海量的故障監測信號進行端到端的實時診斷。
軸承故障診斷的常見方法是在旋轉機械運行時,對不同工況下傳感器采集到的振動信號進行實時監測,并采用智能故障診斷方法對其故障類型進行識別[3]。現有的智能診斷算法可以分為基于信號處理的方法和基于深度學習的方法[4],基于信號處理的方法需要預先人工提取軸承故障信號的特征,再輸入到支持向量機(support vector machine,SVM)[5]、k-鄰近算法(k-neighbor algorithm)[6]和人工神經網絡(Artificial Neural Network,ANN)[7]等機器學習模型中,進行參數尋優,訓練出擬合程度最高的模型進行軸承故障識別。此類方法能夠一定程度上識別出不同故障類型的軸承樣本,但是在復雜的診斷環境、多樣化的診斷任務以及診斷樣本容量很大的情況下,依賴人工的特征工程耗時費力,局限性大,應用場景有限。
目前現代化機電裝備監測點多,設備服役周期長,故障監測系統很容易獲得海量的工業數據,因此基于深度學習的故障診斷方法逐漸成為研究熱點[8]。借助于神經網絡所特有的前向傳播和反向傳播機制,一些經典的深度學習模型如深度卷積神經網絡[9]、循環神經網絡[10]等直接對原始的故障信號進行特征提取,自動學習并更新網絡參數,并端到端地對故障軸承做出準確的分類。
然而在實際工業環境中,軸承信號混有大量環境噪聲,淺層的深度學習網絡模型受限于網絡層的特征表征能力,不太容易分辨出噪聲環境下的軸承故障樣本。而且,在特征提取過程中對特征圖的每一個通道分配同樣的權重,會降低網絡模型的專注度,提取到冗余故障信息,并對計算資源造成一定程度的浪費。WU et al[11]將注意力機制融入到多尺度CNN中,對多尺度特征進行有效融合,模型的抗噪性能有所提高。WANG et al[12]將注意力機制和雙向長短時記憶神經網絡(Bidirectional LSTM,Bid_LSTM)相結合,實現特征的時序表達并賦予不同權重突出重要特征對分類結果的影響。但是,上述研究方法所提到的注意力機制本質上是一種全局通信的降維注意力機制,它的全部通道參與全連接層的非線性變換,降低了注意力機制的準確性,削弱了對重要通道的權值分配。
基于此,本文提出了一種將非降維注意力機制嵌入到殘差神經網絡中的滾動軸承故障診斷模型,增加網絡的深度同時加強對網絡層重要特征通道的識別度。具體來說,非降維注意力機制采用通道壓縮-網絡層激勵-尺度變換的思想,對輸入特征通道進行壓縮,并對特征圖通道進行局部通信并輸出注意力向量,提高注意力機制的性能。同時在每一個殘差塊中兩個殘差單元提取完故障特征之后,進行非降維注意力特征變換,增強非降維注意力機制對全局特征圖故障信息的融合。最后將深度殘差網絡的殘差塊使用跳躍鏈接進行級聯,形成堆疊的非降維注意力殘差塊網絡結構,對輸入的十類故障軸承進行診斷。
針對深層神經網絡訓練過程中因參數優化困難導致的網絡退化問題,HE et al[13]提出殘差神經網絡(ResNet),通過堆疊殘差塊構建模型。殘差塊的輸入為x,經過兩個卷積層,得到基礎映射函數H(x).基于殘差學習的思想,殘差塊引入跳層連接重構堆疊網絡層的學習過程,使網絡層的殘差映射函數F(x)去擬合H(x)-x.其中的表達式如下:
F(x)=W2(ReLU(W1(x))) .
(1)
式(1)中的W1和W2代表殘差塊中的卷積層1和卷積層2,ReLU代表修正線性單元。當殘差塊的輸出F(x)=0時,殘差塊的基礎映射函數變為H(x)=x,實現了殘差塊輸入與輸出的恒等映射。同時根據反向傳播的鏈式求導法則可知殘差部分的反傳梯度為(?H)/(?x)+1,模型只需最小化殘差映射來逼近恒等映射就能保證底層回傳梯度非零,增加網絡前后層信息交互的順暢性,發揮出深層神經網絡的優勢。
由于滾動軸承信號具有隨機非平穩的特點,且在實際工業應用中容易混入環境噪聲。為了使故障診斷算法具有一定的抗噪能力和泛化能力,本文提出了嵌入非降維注意力機制的殘差網絡滾動軸承故障診斷模型,將非降維注意力模塊嵌入深度殘差網絡中,提高模型在噪聲環境下對故障軸承重要特征的甄別能力。
為了提高注意力機制的效率,本文基于“壓縮-激勵-變換”的通道變化思想,提出如圖1所示的非降維注意力機制。它通過以下3個步驟將輸入特征圖映射到重新分配權值的特征圖Y.
1)通道壓縮。非降維注意力模塊使用全局平均池化輸入特征圖X的所有通道進行壓縮變換Fsq,得到一組未激活的神經元。采用的原理如(2)式,XC為特征圖X=[X1,X2,…,XC]的第C個通道,Fsq(·)為全局平均池化操作,它將輸入特征圖X在通道維度上對尺寸為H、W的特征圖H×W個特征值求平均,輸出z=[z1,z2,…,zC]為1×1×C的張量。
(2)

圖1 非降維注意力機制Fig.1 Non-dimensionality reduction attention mechanism
2) 網絡層激勵。如圖1所示,通道壓縮的輸出z通過固定大小的一維卷積核進行局部跨通道通信達到非降維效果。然后使用全連接層對非降維的特征進行全通道的全局通信,增加非線性,得到輸入特征圖通道對故障樣本的注意力權值。它的原理如式(3):
s=Fex(z,U)=σ(U2(δ(U1(z)))) .
(3)
式中,s=[s1,s2,…,sC]為網絡激勵層的輸出即注意力分數,Fex(·)表示網絡層激勵操作,U1(·)表示跨通道通信,它的計算原理如式(4):
(4)

3) 尺度變換。式(5)中,Fsc(·)將輸入X與注意力分數s相乘,映射到擁有相同維度的輸出特征空間,得到融合非降維注意力機制的特征圖Y=[Y1,Y2,…,YC].
Y=Fsc(s,X)=sT×X.
(5)
本文將非降維注意力機制嵌入殘差塊作為網絡的基本單元,如圖2所示,它由殘差塊和非降維注意力模塊組成。非降維注意力模塊則是由5個網絡層構成,由于采取非降維思想,因此在整個參數提取過程中,維度始終保持(1,1,C)不變。其中在殘差塊1中,為方便進行特征融合,跳躍鏈接部分通過1×1卷積調整殘差塊1的特征圖尺寸和數目與輸出特征圖保持一致,第2個殘差塊由于沒有降采樣過程,故跳躍鏈接不做改變。

圖2 非降維注意力殘差塊Fig.2 Non-dimensionality reduction attention residual block
將非降維注意力殘差塊堆疊得到本文模型,如圖3所示。在數據預處理部分,模型的輸入使用滑動窗口在軸承振動信號上等距離截取固定長度的信號v1,v2,…,vn,每一段信號由1 024個點組成,再將截取到的信號通過像素重排列得到32×32數字矩陣。在特征提取部分,使用6個圖2所示的注意力殘差塊堆疊而成,第一個階段由卷積步長為2的二維卷積層代替池化層達到特征圖尺寸減半的效果,由卷積公式:o=(n+2p-f)/s+1可知,o為輸出特征圖尺寸,n為輸入特征圖尺寸,p為零填充數,f為卷積核大小,s為卷積步長,可以對輸入軸承故障樣本迅速降低一半的分辨率,增加卷積操作中的特征提取的效率。

圖3 非降維注意力網絡診斷模型Fig.3 Non-dimension reduction attention network diagnosis model
第二階段由兩個注意力殘差塊組成。在第一個注意力殘差塊的第一個卷積層使用步長為1的卷積核,因此特征圖的尺寸保持不變,并繼續提取軸承振動信號深層故障特征。第三、四階段的第一個殘差塊使用步長為2的卷積降低特征圖的分辨率,同時特征通道翻倍。因此維度為(32,32)的軸承故障樣本一共經過3次降維,特征尺寸變為(4,4),通道數變為64.最后在第五個階段,使用全局平均池化,將維度壓縮至(1,64),通過全連接層和Softmax函數輸出十種故障類型的分數。
本文引用美國凱斯西儲大學電氣工程實驗中心的軸承故障數據集進行實驗。使用SKF6205型電機軸承支撐電機的旋轉軸。實驗數據由安裝在電機軸承驅動端和風扇端的加速度傳感器采集,采樣頻率為12 kHz.試驗臺模擬了滾球體、內滾環和外滾環三個位置的損傷情況,依據電火花侵蝕程度不同分為0.18 mm、0.36 mm和0.54 mm三種損傷尺寸,加上健康的軸承信號,因此診斷任務是區分十種不同的軸承故障類型。
本文使用如圖3中所示的1 024大小的滑動窗滑動采集負載0(1 797 r/min)、負載1(1 772 r/min)和負載2(1 747 r/min)下的軸承數據構建A、B、C三個數據集,如表1所示,每個數據集包含10 000個樣本,按照7∶2∶1劃分訓練集7 000、驗證集2 000和測試集1 000的樣本容量。將長度為1 024的時域信號轉換為32×32的數字矩陣,輸入到非降維注意力殘差網絡中。

表1 滾動軸承的分類信息Table 1 Classification information of rolling bearings
為了確定注意力殘差塊中非降維注意力機制的跨通道通信覆蓋率參數k和非降維注意力機制最優的嵌入位置,本文引入控制變量的實驗方法,進行兩組對比試驗。網絡模型的詳細結構如圖3所示。
3.1.1非降維注意力跨通道通信覆蓋率
卷積核的大小影響模型的性能[13],因此選定k為3,5,7,9四個不同的數值進行試驗。考慮到非降維注意力模塊的可移植性很強,而且注意力機制的作用時機可能會對網絡的診斷性能造成影響,組合如圖2所示紅色虛線框中的3種注意力機制的位置,第一種是前向注意力機制,即在非降維注意力殘差塊的殘差塊1提取特征之前就對輸入的特征圖進行非降維注意力分數的分配,而第二種恒等注意力機制則是分為兩個并行的支路,即輸入特征圖分別進入注意力分數分配的支路和殘差塊1的特征提取支路,最后在殘差塊1的激活函數之后將兩條支路的結果相加。而本文采用的標準注意力機制是在非降維注意力殘差塊的殘差塊1提取完特征之后,再對特征圖進行注意力分數的分配。將數據集A中的訓練樣本輸入到模型中,在測試集數據上對訓練好的融入3種不同注意力機制的網絡進行驗證,顯示標準注意力機制的準確率略高于前向注意力和恒等注意力機制。嵌入非降維注意力機制后,圖4(a)、(b)和(c)中,當k等于3時準確率最低,隨著k值增大,準確率有逐漸增加的趨勢,當增大到7時,準確率達到最高。同時在標準注意力的嵌入位置下,模型的準確率達到最高。

圖4 不同嵌入位置下對實驗結果的影響Fig.4 Impact on experimental results under different embedding positions
3.1.2標準注意力殘差網絡的分類實驗
選定跨通道通信覆蓋率k為7和標準注意力嵌入位置。圖5(a)所示為本文模型的分類效果,圖5(b)所示為融入降維注意力機制殘差網絡模型的分類效果,橫坐標為測試的樣本個數,縱坐標為軸承故障的類別。由圖5(a)可以看出,出現了少許軸承類別故障分類錯誤,整體分類性能優于圖5(b)降維注意力機制。這說明非降維注意力機制的跨通道通信的注意力方式相比于全部通道參與權重分配計算更加高效。

圖5 兩種注意力機制的分類效果對比Fig.5 Comparison of classification effects of two attentions
在實際工作環境中,軸承振動信號的采集往往受到噪聲的干擾,淺層的神經網絡模型由于特征提取能力有限,對軸承故障狀態的識別率降低。為了驗證本文提出模型在噪聲環境下的穩定性,同時對比不同故障診斷算法模型性能的優劣,在試驗中添加多種信噪比SNR(Signal to Noise Ratio)的加性白噪聲。如圖6所示,在圖6(a)健康軸承信號和圖6(e)滾球故障信號中加入圖6(b)信噪比為2的加性白噪聲,得到圖6(c)混入噪聲的健康軸承信號和圖6(g)混入噪聲的B021故障信號。圖6(d)和圖6(h)將一維加噪信號轉換為噪聲數字矩陣。

圖6 加噪故障樣本的一維、二維可視化圖Fig.6 One-dimensional and two-dimensional visualization of noisy fault samples
本文依次和以下算法進行對比:ResNet方法[14]、融合普通降維注意力機制的殘差網絡[15]、WDCNN-1d方法[16]和本文算法,實驗在A、B兩個數據集上進行,我們使用不含噪聲的訓練集訓練以上四種模型,然后將添加不同信噪比噪聲的測試集輸入到訓練好的診斷模型中檢測模型抗噪性能。四種算法在數據集A和B上的診斷結果如圖7(a)和7(b)所示。

圖7 不同噪聲下模型準確率對比Fig.7 Comparison of model accuracy under different noises
圖7(a)顯示,相較于其他方法,本文的方法在變噪聲的情況下都能達到較高的準確率,平均準確率達到97.68%.WDCNN在噪聲條件下的準確率明顯低于其他網絡模型,受限于淺層網絡結構的表達能力。在12 dB信噪比下,非降維注意力殘差網絡準確率為99.5%,Resnet方法準確率為90.2%,降維注意力殘差網絡準確率為96.2%,加入注意力機制之后的準確率漲點明顯,同時非降維注意力機制準確率最高,這說明非降維注意力機制實現了更好的跨通道通信效果,準確地學習到特征圖各通道的注意力權重,使得網絡的整體性能有了進一步的提升。在圖7(b)中,融合了非降維注意力機制的殘差網絡在2 dB到12 dB信噪比的區間上,整體比較平滑,有一定的泛化性能,可以適應工業環境中復雜的故障診斷任務。
本文引入了基于流形學習思想的降維可視化工具t-SNE.它能夠將樣本數據的高維特征映射到低維并保持特征相近,觀察分類樣本的聚散程度。使用t-SNE對未經網絡模型處理的7 000個樣本進行降維可視化,如圖8(a)所示,十類故障樣本互相疊加。然后分別將7 000樣本、2 000個樣本和1 000個不同容量的測試樣本輸入到模型中,對模型最后一層全連接層學習到的特征進行降維處理。如圖8(b)、(c)、(d)顯示,經過模型特征學習之后,各狀態下的故障樣本均具有明顯的分離度,Softmax分類層能準確分辨出十類故障樣本,并且它們完全各自聚成團。這反映出融合了非降維注意力機制的殘差網絡能夠對故障樣本進行有效的特征學習。
為了使模型適應于多負載、強噪聲的工業環境下的故障診斷任務,進一步提高診斷精度,本文提出了一種基于非降維注意力殘差網絡的智能故障診斷算法,在數據處理階段,將軸承的一維振動信號轉換為二維數字矩陣,直接利用二維卷積進行特征提取。在注意力模塊中,使用更高效的局部通信的非降維方法,增強模型對重要特征的權值分配,使模型在噪聲環境下具有較強的抗噪能力和一定的泛化性能。但是本文模型的超參數較多,在參數選擇過程中具有一定隨機性,后續將針對參數尋優的方法進行研究。

圖8 t-SNE降維可視化示意圖Fig.8 t-SNE dimensionality reduction visualization diagram