李澤東, 李志農, 陶俊勇, 毛清華, 張旭輝
(1.南昌航空大學 無損檢測教育部重點實驗室, 江西 南昌 330063;2.國防科技大學 裝備綜合保障技術重點實驗室, 湖南 長沙 410073;3.陜西省礦山機電裝備智能監測重點實驗室, 陜西 西安 710054)
滾動軸承作為航空發動機的關鍵部件,通常處于高轉速、大噪聲環境下,極易產生故障,從而影響發動機正常有效的工作。因此,有必要研究高轉速下航空發動機滾動軸承的故障診斷方法。
近年來,基于深度學習的滾動軸承智能診斷方法取得了很大進展。其基本思路是提取振動信號的時頻特征、灰度圖等,然后,輸入到深度學習網絡中進行故障識別[1-5]。例如,文獻[1]中先將軸承振動信號通過傅里葉變換預處理為頻譜圖,然后將頻譜圖作輸入到深度卷積神經網絡中進行軸承故障診斷。文獻[2]將軸承振動信號預處理為時頻圖,再將時頻圖作為深度卷積神經網絡的輸入以識別不同類型的軸承故障。文獻[3]中將振動信號轉換為灰度圖像,再結合深度卷積神經網絡診斷軸承不同類型的故障。文獻[4]中利用連續小波變換對軸承的原始振動信號處理為時頻圖,再結合深度卷積神經網絡識別不同故障。文獻[5]中結合紅外熱圖像和深度卷積神經網絡對軸承進行故障診斷。還有以端到端的方式直接對振動信號進行訓練從而進行故障診斷[6-10]。文獻[6-10]中均將軸承的原始振動信號直接作為深度卷積神經網絡的輸入,形成了端到端的故障診斷。這些方法都是建立在深度卷積神經網絡中卷積層可以自適應地提取信號特征的基礎上[11]。然而,深度卷積神經網絡中的卷積層在對輸入進行卷積運算時,主要針對局部感受野提取信息,容易忽略全局信息。考慮到注意力機制是一種可以捕捉全局感受野捕捉的方法,通過對不同特征賦予不同權重,以提取更加有用的局部信息[12]。目前,一些結合注意力機制和深度卷積神經網絡的方法已經被應用到故障診斷中。文獻[13-14]將軸承故障振動信號轉換為時頻圖后,輸入到深度卷積神經網絡中,利用注意力機制進行融合圖像的多通道信息,進行故障識別。文獻[15]通過構建多尺度的卷積神經網絡對信號進行訓練,利用注意力機制對多尺度卷積神經網絡進行融合,實現軸承的故障診斷。文獻[16]提出一種特征注意力機制,考慮了故障信號時間尺度的干擾,從而進行滾動軸承的故障診斷。然而,上述關于注意力機制與深度卷積神經網絡的結合是將兩個孤立部分機械式地結合,注意力機制要么在深度卷積神經網絡之前,要么在深度卷積神經網絡之后,注意力機制中的參數未參與到整個神經網絡的訓練中。很顯然,這種注意力機制與深度卷積神經網絡的結合,若注意力機制中的參數選擇不恰當,往往得不到滿意的故障識別效果。因此,有必要探討新的注意力機制卷積神經網絡以克服此不足。
基于此,本文提出一種基于注意力增強卷積神經網絡(AACNN)的機械故障診斷方法。相對傳統的注意力卷積神經網絡,所提方法將注意力機制和卷積層結合構造了注意力增強卷積層,使得注意力參數和卷積參數在整個網絡中進行正向傳播和反向調優。然后,將所提方法應用到航空發動機滾動軸承故障診斷中,并與傳統的注意力卷積神經網絡進行對比研究,以驗證構建的AACNN有效性。
傳統卷積神經網絡的卷積運算主要針對局部感受野進行的,因此,在提取特征時會失去一些全局信息。而注意力機制具有捕獲遠程交互的作用,可以更好地關注全局信息。因此,將注意力機制和卷積運算融合起來構造了一種注意力增強卷積運算。該運算可以通過注意力機制將輸入經卷積后的映射圖進行級聯來提取和融合特征,并且將注意力機制貫穿整個神經網絡模型。AACNN中使用多頭注意力機制與卷積融合構造注意力增強卷積層,使模型對數據在高維空間和特征子空間中進行融合,具體過程如下。

(1)

MHA(X)=Concat[O1,…,ONh]WO
(2)
式中:Concat[]表示將每個單頭的輸出串聯到一起;Wo表示線性變換矩陣,Wo∈dv×dv。

(3)
(4)

(5)

注意力增強卷積采用多頭注意力機制共同構建原始空間,每一個頭都對應自己的特征子空間。同時,將卷積操作加入對局部特征提取,所得注意力增強卷積可以更容易地對不同空間維度的輸入X進行操作,其輸出XAA為
XAA=Concat[Conv(X),MHA(X)]
(6)
式中:Conv(·) 為標準卷積運算。
輸入通過注意力增強卷積層提取融合特征后,接下來需要進行標準的卷積運算。對于經過注意力增強卷積層后的輸出XAA,通過卷積核繼續計算其不同的特征,具體的卷積過程為
(7)

卷積層之后通常是池化層,用于對經過卷積操作后得到的高維輸出的降維,池化的具體計算為
(8)

池化的方式通常有最大池化和平均池化等。經過卷積和池化后,通常會對池化后的輸出進行鋪平操作,再通過全連接層進行連接,最后進行分類輸出。
(9)
(10)
(11)

在模型的訓練反向傳播中,以(12)式所示的交叉熵損失函數,作為模型的損失函數,用于衡量模型輸出yo與真實輸出y之間的誤差。對模型進行反向求導,訓練的目標就是使輸出值與真實值盡可能地接近。
loss=-(ylg (yo)+(1-yo)lg (1-y))
(12)

(13)
式中:L(fθ(θw;X,y))為每次迭代中所有樣本的損失;m為總樣本數。
為了加快尋找最優值的速度,利用Adam優化器對損失函數進行優化,具體過程如下:
在每次迭代t(t=1,2,…,N,N為最大迭代次數)中,對θw求梯度gt,得
(14)
式中:“:=”表示更新運算。
計算1階矩估計mt和2階矩估計vt,可得
mt=β1mt-1+(1-β1)gt
(15)
(16)
式中:β1為控制動量與當前梯度的指數衰減率;β2為控制之前梯度的平方影響情況的指數衰減率。為防止mt和vt在初始化時偏向0,采用(17)式和(18)式對其進行糾正:
(17)
(18)
對參數集θw進行更新,可得
(19)
式中:η為學習率;ε為避免除數為0的修正項。
基于AACNN進行滾動軸承故障定性診斷時,分為信號采集與樣本劃分、樣本信號特征模量提取、數據集構建、AACNN設計與訓練、航空發動機滾動軸承故障診斷5個步驟,流程如圖1所示。圖1中head1和head2為注意力機制操作的輸出對象。

圖1 面向故障診斷的AACNNFig.1 Fault diagnosis model based on AACNN
具體步驟如下:
1)信號采集與樣本劃分:通過加速度傳感器采集滾動軸承的振動信號,利用等長的窗口進行劃分,得到信號的樣本。為了對數據增強處理,采用重疊切片方法,即劃分樣本的窗口長度小于單個樣本信號。
2)樣本信號特征模量提取:在高轉速、大噪聲條件下,滾動軸承的振動信號非線性、非平穩性較強。因此,通過信號處理的方式,如經驗模態分解(EMD)、變分模態分解(VMD)和小波包分解(WPD)等,將原始振動信號分解成不同尺度的特征模量。
3)數據集構建:將上述特征模量按順序堆疊成一個多通道樣本,將所有樣本進行同樣的操作構造多通道樣本數據集。創建好多通道數據集后,將數據集劃分為訓練集和測試集。
4)AACNN設計與訓練:AACNN的性能與卷積層的數量和大小密切相關。其中卷積核尺寸大小需要根據一些基本的設計來確定,相對小卷積核來說,大卷積核可以提高感受野。但是AACNN中包含注意力增強卷積層,它可以通過多頭注意力機制關注全局感受野。因此,AACNN具有強大的自適應提取和融合特征的能力。在設計時,注意力增強卷積層的注意力機制頭數目等于輸入多通道特征模量數。其余卷積層采用小尺寸的卷積核,目的是加深網絡,從而更好地學習特征,提高網絡的表達能力。
按照上述原則建立AACNN模型,通過反復實驗調整參數,模型具體參數如表1所示。為防止模型過擬合,在模型中加入Dropout,它將網絡中的神經元以一定的概率置為0,以提高網絡的泛化能力。用構建好的訓練集進行訓練,調試超參數,獲得性能較好的AACNN模型。
5)航空發動機滾動軸承故障診斷:利用測試集驗證AACNN模型故障診斷的有效性,并使用10-fold交叉驗證方式來評估模型的性能。為了驗證模型的泛化能力,通過不同信噪比的信號來測試模型。
本文所提方法通過信號處理的方式對高轉速下的滾動軸承振動信號提取特征模量,利用AACNN對特征模量按一定權重進行自適應特征融合和選擇,更好地適用于高轉速下的滾動軸承故障診斷。

表1 AACNN模型結構參數Table 1 Parameters of the AACNN model
實驗數據來源于高速環境下航空發動機滾動軸承測試臺[18],如圖2所示。實驗臺上包含一個帶有3個軸承的高速主軸(見圖3),一套動力系統,潤滑器和兩個加速度傳感器等。動力系統通過一個滑架為軸承加載,潤滑系統通過油脂潤滑的方式為軸承潤滑,主軸的速度是通過變頻器的控制面板設置的。主軸安裝時,在兩個相同的滾柱軸承外圈帶有一對支撐架(見圖3中的位置B1和B3)。該高速軸專門設計用于高達35 000 r/min的速度。本文采用的航空高速軸承數據是在12 000 r/min轉速下和無負載條件下采集的,采樣頻率為51 200 Hz,共采集了B1位置的軸承7種不同損傷程度工況進行故障診斷,包含正常工況,450 μm內圈故障,250 μm內圈故障,150 μm內圈故障,450 μm滾動體故障,250 μm 滾動體故障和150 μm滾動體故障,每種工況400個樣本。

圖2 實驗臺Fig.2 Test rig

圖3 航空發動機滾動軸承和主軸Fig.3 Rolling bearings and spindle of an aero-engine
為驗證AACNN對航空高速軸承故障診斷的效果,將其與注意力機制+深度卷積神經網絡(ACNN)進行對比研究。首先,分別對軸承振動信號進行WPD[19]、VMD[20]和EMD[21],提取特征模量;然后,將特征模量分別通過AACNN與ACNN進行訓練,AACNN按上述1.2節中第4步設計,對比的ACNN模型則將注意力增強卷積層直接換為“注意力機制+卷積層”,其他參數不變。通過模型對比驗證所提方法的自適應特征提取能力和故障識別能力。
對于WPD-AACNN模型,將采集到的信號樣本進行WPD,對其進行3層分解,得到8個低頻和高頻分量信號特征模量,如圖4所示。然后將其堆疊成一個多通道的信號特征樣本。按圖1中的故障診斷流程,通過AACNN對其進行特征融合和分類識別,識別結果如圖5所示,訓練集和測試集的損失函數曲線逐漸收斂并穩定下降,測試集準確率約為99%,兩條曲線幾乎重合,模型過程中也并未產生過擬合。

圖4 軸承250 μm內圈故障WPD特征模量Fig.4 Feature modulus of the faults of a 250 μm inner ring using WPD

圖5 WPD-AACNN 模型診斷曲線圖Fig.5 Diagnostic curve of the WPD-AACNN model
為更好地對模型進行分析,挖掘模型提取的隱式特征,采用t-SNE算法對模型中的卷積層的高維輸出進行降維,使高維數據可視化。由于散點圖的坐標軸無實際意義,采用P1、P2來表示[22]。圖6為輸入數據經WPD-AACNN模型訓練后注意力增強卷積層和其余卷積層的輸出特征可視化散點圖。觀察圖6可以發現,經過卷積層提取特征后,不同故障特征逐漸聚攏,到了第4層各狀態特征之間已經明顯分開。

圖6 WPD-AACNN模型卷積層t-SNE特征散點圖Fig.6 Scatter plot of features extracted by convolution layers of the WPD-AACNN model using t-SNE
同樣,采用相同的多通道特征模量樣本,訓練WPD-ACNN模型,所得結果如圖7所示,準確率為95%左右,損失函數曲線平穩收斂,模型收斂較好。圖8是輸入數據經WPD-ACNN模型訓練后各卷積層的特征可視化散點圖。可以發現每層的不同故障特征逐漸聚攏,到了第4層各狀態特征之間已經明顯分開。但與圖6相比,由于AACNN關注了全局信息,可以將不同工況下故障特征聚合得更好、更精確。

圖7 WPD-ACNN模型診斷曲線圖Fig.7 Diagnostic curve of the WPD-ACNN model

圖8 WPD-ACNN模型卷積層t-SNE特征散點圖Fig.8 Scatter plot of features extracted by convolution layers of WPD-ACNN model using t-SNE
對于VMD-AACNN模型,通過VMD對信號進行分解。將原始信號進行分解為如圖9所示的3層,并作為特征模量構造多通道樣本輸入,進行AACNN模型訓練。所得結果如圖10所示。準確率為95%左右,訓練集和測試集兩條曲線幾乎重合,訓練集和測試集損失函數 曲線逐漸收斂并穩定下降,模型過程中也并未產生過擬合。圖11是輸入經過VMD-AACNN模型訓練后注意力增強卷積層和其余卷積層的輸出特征可視化散點圖。可以發現不同故障特征逐漸聚攏,到了第4層各狀態特征之間幾乎明顯分開,只有部分特征重疊,不同類故障未完全分開。

圖9 軸承250 μm內圈故障VMD特征模量Fig.9 Feature moduli of the faults of a 250 μm inner ring by VMD

圖10 VWD-AACNN損失函數曲線和準確率曲線Fig.10 Diagnostic curve of the VMD-AACNN model

圖11 VWD-AACNN卷積層t-SNE特征散點圖Fig.11 Scatter plot of features extracted by convolution layers of the VMD-AACNN model using t-SNE
同樣,采用相同的VMD多通道特征模量樣本,訓練VMD-ACNN模型,所得結果如圖12所示,準確率為87%左右,損失函數曲線平穩收斂,模型收斂較好。圖13為輸入經VMD-ACNN模型后各卷積層的特征可視化散點圖,可以發現每層的不同故障特征逐漸聚攏,但是到了第4層,部分狀態特征之間已經明顯分開,還有一些工況特征重疊,沒有完全分開。

圖12 VWD-ACNN模型損失函數曲線和準確率曲線Fig.12 Diagnostic curve of the VMD-ACNN model

圖13 VWD-ACNN模型卷積層t-SNE特征散點圖Fig.13 Scatter plot of features extracted by convolution layers of the VMD-ACNN model using t-SNE
對于EMD-AACNN模型,在提取特征模量時,由于EMD對信號樣本分解不確定性,通過峭度指標對內稟模式函數(IMF)分量進行選擇有效的IMF。軸承250 μm內圈故障通過EMD分解的IMF分量峭度值如圖14所示,為了清楚展示取了6個樣本。其中一個樣本只被分解了5次,與其他樣本分解值相差較大,剔除該樣本,得到圖15所示的IMF分量。對于樣本的峭度值從大到小的順序排列,即IMF3、IMF5、IMF6、IMF2、IMF4和IMF1,按此順序將6個IMF分量進行堆疊成一個多通道的不同特征樣本。

圖14 軸承250 μm內圈故障EMD分解IMFs分量峭度值Fig.14 Kurtosis value of IMFs decomposed by EMD for the fault of a 250 μm inner ring bearing

圖15 軸承250 μm內圈故障EMD信號分解特征模量Fig.15 Feature moduli of faults of a 250 μm inner ring by EMD
將上述構建好的多通道特征模量樣本輸入到AACNN模型中進行訓練,所得結果如圖16所示。訓練集和測試集的損失函數曲線逐漸收斂并穩定下降,測試集準確率約為85%,兩條曲線幾乎重合,模型過程中也并未產生過擬合。圖17為輸入經EMD-AACNN模型訓練后注意力增強卷積層和其余卷積層特征的可視化散點圖。可以發現每層的不同故障特征逐漸聚攏,但是各工況特征之間并沒有明顯分開。

圖16 EMD-AACNN模型損失函數曲線和準確率曲線Fig.16 Diagnostic curve of the EMD-AACNN model

圖17 EMD-AACNN卷積層t-SNE特征散點圖Fig.17 Scatter plot of features extracted by convolution layers of the EMD-AACNN model using t-SNE
同樣,采用EMD多通道特征模量樣本,訓練EMD-ACNN模型,所得結果如圖18所示。準確率約為76%左右,損失函數曲線平穩收斂。圖19為輸入經EMD-ACNN模型訓練后各卷積層的特征可視化散點圖。可以發現每層的不同故障特征聚類效果不好,各狀態特征之間特征混雜,從而反映了EMD-ACNN模型識別效果不好。

圖18 EMD-ACNN模型損失函數曲線和準確率曲線Fig.18 Diagnostic curve of the EMD-ACNN model

圖19 EMD-ACNN模型卷積層t-SNE特征散點圖Fig.19 Scatter plot of features extracted by convolution layers of the EMD-ACNN model using t-SNE
對上述所建模型通過10-Fold交叉驗證來驗證模型的性能,所得結果如圖20所示。WPD-AACNN的平均準確率為99.02±0.37,VMD-AACNN的平均準確率為95.22±0.83,EMD-AACNN的平均準確率為85.02±1.01,WPD-ACNN的平均準確率為94.85±0.61,VMD-ACNN的平均準確率為87.25±1.21,以及EMD-ACNN的平均準確率為76.11±1.40。

圖20 10-Fold交叉驗證診斷結果Fig.20 Diagnosis result of 10-fold cross validation
綜上所述, AACNN可以有效地對高轉速下的滾動軸承進行診斷,可以有效地融合通過信號處理提取的特征模量,而且相比于ACNN,其在融合特征信息時,收斂速度更快。因此,所提算法可以有效地診斷不同損傷程度的滾動軸承故障。
在實際應用中,航空發動機滾動軸承處于噪聲的干擾,判斷模型是否適應噪聲的分析尤為重要。上述實驗中,數據為不添加噪聲的原始數據,為更好地驗證模型在噪聲環境下的泛化能力,將上述實驗數據添加不同信噪比的高斯白噪聲以模擬噪聲信號。信噪比SNR定義為信號功率與噪聲功率的比值,通常用分貝表示,定義如下:
SNR=10lg(Psignal/Pnoise)
式中:Psignal表示信號的功率值;Pnoise表示噪聲的功率值。將SNR設置為-6~4 dB,為信號添加噪聲,信噪比越小,噪聲功率越大。通過對含噪數據進行訓練,不同信噪比下的測試集識別準確率如表2所示。由表2分析可知,在添加噪聲后,信噪比越低,原信號的能量比越小,通過WPD、VMD和EMD構建的多通道特征模量樣本也會包含更多的噪聲信息,通過WPD提取的特征模量包含各頻率的故障信息,在輸入網絡時更容易選擇有用的故障特征模量進行特征提取。AACNN相對于“注意力機制+深度卷積神經網絡”而言,注意力機制參數也參與了訓練,在提取故障信息時選擇和關注的信息更精準。雖然AACNN和ACNN都隨著信噪比的提升測試集準確率提升,但AACNN模型在低信噪比下依舊能獲得較高的準確率,而且在信噪比-2~4 dB中模型較為穩定,能保持較高的準確率。因此,所提模型在強噪聲下的環境下,對于滾動軸承可以有效地進行故障診斷。

表2 不同信噪比模型測試準確率Table 2 Test accuracy of different SNR models
1)本文提出一種AACNN的滾動軸承故障診斷方法,沿整個網絡架構使用了注意力機制,關注全局信息,彌補了深度卷積神經網絡卷積層局部感受野特征提取的不足。
2)本文方法可以更好地對信號處理方式提取的特征模量進行融合,進行自適應選擇和融合特征模量,更好地關注了全局空間和特征子空間。
3)將本文方法應用于高轉速下的航空發動機滾動軸承故障診斷中,對于不同損傷程度的故障可以有效地識別。
4)在不同信噪比的條件下,對本文方法進行訓練測試。測試結果表明,本文模型的抗噪性能得到明顯提升,并保持一定的診斷精度。