劉 碩,武婷婷,宋純賀,于詩矛,楊雪濱,鄒云峰
(1.中國科學院 沈陽自動化研究所機器人學國家重點實驗室,沈陽 110016)(2.中國科學院 網絡化控制系統重點實驗室,沈陽 110016)(3.中國科學院 機器人與智能制造創新研究院,沈陽 110169)(4.中國科學院大學,北京100049)(5.中國科學院沈陽自動化研究所,沈陽 110016)(6.國家電網遼寧省電力有限公司檢修分公司,沈陽 110016)(7.國家電網江蘇省電力有限公司營銷服務中心(計量中心),南京 210000)
在如今的制造系統中,設備性能下降,健康衰退,零部件磨損等問題,造成工業生產中的不可控的風險[1],其中軸承的故障問題,占比較大,特別是對高精度重載攪拌設備,壽命預測的意義重大[2].根據軸承運行產生的振動等信號對軸承剩余使用壽命(remaining useful life,RUL)進行學習與預測,可及時有效地采取措施從而避免重大經濟損失或人員傷亡[3-4],因而對滾動軸承進行壽命預測的研究意義是及其重大的[5].
由于深度學習具有強大的非線性擬合功能,故其在滾動軸承振動信號的研究方面也得到了廣泛的應用[6].堆疊去噪自編碼器(stacked denoising auto encoder,SDAE)是一種無需數據標簽的深度學習網絡模型,具有獨特的無監督特征提取的能力[7].文中使用SDAE模型提取出滾動軸承振動信號的深層低維度特征信息,在特征提取的基礎上,進行滾動軸承RUL預測,其方法主要包含兩個大方向[8]:一種是通過建立數學模型的剩余壽命預測;另一種是基于數據驅動的剩余壽命預測.對于通過建立數學模型預測剩余使用壽命的方法,有Cox比例風險回歸模型,指數模型以及Paris-Erdogan模型,除此之外,還有通過振動信號的均方根、峭度來提取特征,利用比例故障模型對滾動軸承的可靠性進行評估等方法[9].目前以數據驅動的方法較為熱門,文獻[10]使用深度置信網絡(deep belief networks,DBN)對飛機發動機進行故障診斷,獲得了良好的識別正確率.文獻[11]使用循環神經網絡提取軸承退化信息,預測軸承的剩余使用壽命.文獻[12]利用BP神經網絡預測軸承的剩余使用壽命.另外,還有基于非線性數據融合進行設備多階段壽命預測[13]等方法.對于簡單的設備結構,通過建立數學模型在剩余壽命預測方面可以取得較好的結果,對于較為復雜的機械結構,以數據驅動的預測方法展現了較為強大的生命力.
考慮滾動軸承的退化過程在時間上具有前后依賴關系,當前的信息和其前后時刻的信息有必要進行整合.文中通過SDAE提取出的重要特征,然后使用雙向長短期記憶網絡(Bi-directional long short-term memory,Bi-LSTM)對軸承RUL進行預測.雖然將雙向長短期記憶網絡用于負荷的短周期預測取得了較好的效果[14],且使用Bi-LSTM對軸承的剩余壽命預測的方法,在公開數據集上也有良好的表現[15].但是由于傳統的Bi-LSTM網絡輸出結果映射到一層全連接層上,導致其最后的擬合能力受到限制,當需擬合復雜函數時,往往表現出擬合能力不足,模型訓練階段的收斂速度較慢,波動性嚴重,且預測出來的結果與真實數據的誤差較大.因此,文中在Bi-LSTM輸出結果層后添加多層感知機網絡,以此增強網絡的擬合能力,增加訓練模型的收斂速度,降低預測結果的波動性與誤差.
自編碼器(auto encoder,AE)是無監督神經網絡模型,其由編碼層與解碼層兩部分組成.單層去噪自編碼器在自編碼器編碼層基礎上可引入噪聲機制,原始數據X經過噪聲函數qD,獲取含噪數據,對含噪聲數據經過編碼層f進行編碼獲得編碼數據h,通過解碼層g生成重構數據Z,由重構數據Z與原始輸入數據X可得到損失函數Lh(X,Z),然后利用梯度下降法訓練模型.對原始數據添加隨機噪聲,訓練出的模型具有更強的穩定性,提高泛化能力.單層去噪自編碼器如圖1.

圖1 單層去噪自編碼器結構Fig.1 Structure of single-layer denoising autoencoder
編碼過程為:
(1)

解碼過程為:
z=gθ′(h)=Sg(W1′h+b1′)
(2)

得到目標函數為:
(3)
式中:n為樣本數目;x(i)為第i個原樣本數據.通過梯度下降法使得式(3)最小化,獲取模型參數為:
(4)

堆疊去噪自編碼器是多個單層堆疊去噪自編碼器堆疊而成,各層采用逐層訓練法[16].
文中采用IEEE PHM2012挑戰賽提供的軸承加速壽命實驗數據[17],該數據是利用圖2中的PRONOSTIA實驗臺,在不同運行工況下獲取的,用來對軸承進行故障檢測、故障診斷以及剩余壽命預測的相關算法驗證.

圖2 PRONOSTIA實驗臺Fig.2 PRONOSTIA bedstand
實驗數據在3種工況下獲得,即負載4 000 N,轉速1 800 r/min(工況1);負載4 200 N,轉速1 650 r/min(工況2);負載5 000 N,轉速1 500 r/min(工況3).數據的采樣頻率為25.6 kHz,每隔10 s記錄一次,每次采樣時間為0.1 s,故每個樣本包含2 560個振動值.實驗數據包含了水平振動信號與垂直振動信號,為了避免垂直方向受到外力后,導致主軸形變,從而對滾動軸承垂直方向的振幅產生影響,只考慮水平振動信號,該振動信號由加速度傳感器采集獲得.實驗采用Learning_set中Bearing1_1數據集(包含2 803個采樣數據)作為訓練集,采用Full_Test_set中的Bearing1_3數據集(包含2 375個采樣數據)作為測試集.數據集的振動信息時域波形如圖3.其中,橫坐標的物理量為采樣的時間,單位是10 s,即10 s采樣一次.縱坐標為振幅,單位g為重力加速度,用來表示振動的強烈程度.

圖3 時域振動信息Fig.3 Time-domain vibration information
實驗采用的SDAE網絡結構,其從左到右的神經元的個數依次為:2 560,1 500,500,100,50,1,50,100,500,1 500,2 560,其中2 560對應軸承每個采樣點對應的振動值個數.由堆疊去噪自編碼器原理可知,該網絡需逐層訓練5次,最終將2 560維振動信息提取為一維特征,且該無監督學習網絡,大大提高了網絡的自主性,無需人為選定提取哪些特征,提取出的一維特征如圖4.其中,縱坐標為振幅歸一化后的結果.

圖4 提取的一維特征Fig.4 One-dimensional feature extracted from dataset
從關于軸承的時域振動波形圖3中,可以獲取軸承的壽命信息.對于軸承的壽命,當軸承振幅短期內迅速增加的時刻點定義為軸承退化起始時刻選取,當軸承振幅迅速增加并超過正常振幅3倍時,為軸承的失效狀態.軸承Bearing1_1在采樣數達2 500時處于失效狀態,軸承Bearing1_3在采樣數達2 200時處于失效狀態.獲取軸承Bearing1_1剩余壽命標簽[2 500 ∶1],和軸承Bearing1_3剩余壽命標簽為[2 200 ∶1].其中,[2 200 ∶1]表示從2 200遞減到1的數組,即表示2 200,2 199,2 198,…,1.
滾動軸承的退化過程是一個故障積累過程,其狀態不僅和當前檢測值有關,還與歷史時刻的檢測值有關.故采用Bi-LSTM,即雙向LSTM網絡,來預測軸承的當前剩余使用壽命.
LSTM網絡模型在循環神經網絡RNN基礎上添加了3個門控,即輸入門、遺忘門、輸出門,通過3個門控對信息進行篩選、遺忘和輸出,解決了RNN梯度消失和梯度爆炸問題.單個LSTM模型結構如圖5.

圖5 單個LSTM模型結構Fig.5 Single LSTM model structure
單個LSTM的工作原理如下:
(1)遺忘門用于選擇性地刪除歷史信息:
ft=σ(Wf[ht-1,xt]+bf)
(5)
式中:σ為sigmoid激活函數;Wf為遺忘門網絡的權重;bf為遺忘門網絡的偏置;[ht-1,xt]是上一時序隱藏層信息與當前輸入信息的拼接融合,融合結果經過遺忘門之后得到的ft為保留信息的權重,用于決定上一時序的內部狀態Ct-1信息保留的權衡.
(2)輸入門用于對輸入信息的保留裁決:
Ct=ft*Ct-1+σ(Wi([ht-1,xt])+bi)*
tanh(Wc[ht-1,xi]+bc)
(6)
式中:tanh為tanh激活函數;Ct為當前內部狀態信息;* 表示逐點乘積.
(3)輸出門決定輸出哪些信息:
ht=σ(Wo[ht-1,xt]+bo)*tanh(Ct)
(7)
式中:ht為該時序隱藏信息.
Bi-LSTM與LSTM的區別為:LSTM為單向長短期記憶神經網絡,而Bi-LSTM為雙向長短期記憶神經網絡,在訓練過程中,Bi-LSTM會訓練一個正向LSTM網絡與一個負向LSTM網絡.這兩個網絡會輸入到同一個輸出層.由于Bi-LSTM獲取的是時序信息的雙向特征信息,LSTM獲取的是單向特征信息,所以Bi-LSTM長短期記憶神經網絡可以獲取更多的特征信息.Bi-LSTM網絡結構如圖6.

圖6 Bi-LSTM神經網絡模型結構Fig.6 Bi-LSTM neural network model structure
盡管Bi-LSTM網絡在提取序列信息時,展現了融合前后信息的強大能力,但是輸出的結果映射到目標結果時,卻表現出收斂速度慢,且預測效果波動性較大的問題.因此,文中提出了加深全連接層的策略,即把Bi-LSTM輸出的結果送入到多層感知機中,來增強網絡的非線性表達能力.
基于堆疊去噪自編碼器與改進后的Bi-LSTM軸承RUL預測方法流程如圖7.

圖7 軸承RUL預測方法流程Fig.7 Bearing RUL prediction method process
(1)數據預處理.提取數據Bearing1_1和Bearing1_3軸承水平振動數據,先對數據絕對值處理,之后歸一化處理,得到時域信號.
(2)訓練SDAE模型.將預處理后的數據作為堆疊去噪自編碼器的輸入,提取高維數據的深層特征.把所有的網絡逐層訓練一遍后,對整體網絡進行微調[7],最終提取的特征為一維信息特征.
(3)訓練Bi-LSTM融合多層感知機的模型,對比訓練收斂過程及預測結果.把從SDAE網絡中提取的一維特征且在原始時域振幅小于正常振幅3倍的數據為有效數據,作為Bi-LSTM融合多層感知機網絡模型的輸入,其中訓練集使用的數據為Bearing1_1數據集,根據前文提到的振幅要求,選取[1 000 ∶2 500]范圍的數據經SDAE提取出的特征數據用于訓練,對應的訓練標簽為[1 500 ∶0].在訓練集中首先訓練Bi-LSTM加一層全連接層模型,當均方差損失小于0.000 03時,且在10個Epoch內仍滿足持續小于0.000 03時,結束訓練,防止過擬合.
驗證集采用Bearing1_7在[700 ∶2 200]范圍內數據經SDAE提取出的特征數據,標簽為[1 500 ∶0],用于驗證模型訓練結果的好壞.按照以上步驟依次訓練和驗證Bi-LSTM融合多層感知機的模型,并選取最優的網絡模型.
(4)使用最優模型來對測試集進行預測.測試集使用的是Bearing1_3在范圍[7 000 ∶2 200]內的數據,經SDAE提取的特征作為模型的輸入,來預測該測試集對應軸承的RUL壽命.預測結果與真實值對比.為了驗證該模型對軸承當前剩余使用壽命的預測準確度.使用平均絕對值誤差(mean absolute error,MAE)對模型的準確度進行評價,如式(8):
(8)
式中:yi為軸承的真實壽命標簽.
使用Bearing1_1做為訓練集進行訓練模型,Bearing1_7做為驗證集檢測模型的好壞,選取最優模型在Bearing1_3測試集上進行測試.設計網絡訓練參數如表1.

表1 Bi-LSTM融合多層全連接網絡訓練參數Table 1 Bi-LSTM fusion multi-layer fully connected network totraining parameters
如果Bi-LSTM只融合一層全連接網絡,則全連接第一層單元數為1;如果Bi-LSTM融合二層全連接網絡,則全連接第一層單元數為150,第二層單元數為1;如果Bi-LSTM融合三層全連接網絡,則全連接第一層單元數為150,第二層單元數為70,第三層單元數為1,依次類推.實驗數據信息如表2.

表2 實驗數據參數Table 2 Experimental data parameters
分別以一層全連接層、兩層全連接層、三層全連接層和四層全連接層來映射Bi-LSTM網絡的輸出,使用訓練集訓練模型并獲取模型的收斂速度如圖8.

圖8 模型的收斂速度Fig.8 Convergence rate of the model
從圖8中可以發現,連接一層全連接層時,收斂曲線波動劇烈,主要是因為全連接層數較少,每一輪訓練權重過度學習,所以對下一輪的學習帶來了不好的影響,最終表現為收斂曲線波動較大,較難收斂.而隨著層數的增多,震蕩明顯減小,和上面的分析相吻合.經過大量實驗,得出當模型采用3層全連接層時,得到更好的效果.不僅振幅降低而且收斂速度也得到了提升.從圖中可以看出,盡管選擇4層全連接層時,效果和3層全連接層的效果差別不大,但是根據奧卡姆剃刀原理,選擇3層全連接層優于4層全連接層.為了選擇最優模型,在驗證集上進一步測試模型的預測準確度.在驗證集Bearing1_7上進行驗證,其中,Bearing1_7水平振動時域信號與經SDAE網絡提取特征的結果如圖9.

圖9 Bearing1_7水平振動時域信號與SDAE網絡提取的特征結果Fig.9 Bearing1_7 horizontal vibration time-domain signal and the feature results extracted by SDAE network
把Bearing1_7提取出的特征分別輸入到4個不同的模型中,得到的驗證結果如圖10和表3.

圖10 不同模型對驗證集測試結果對比Fig.10 Comparison of test results of different models on validation set

表3 不同模型驗證結果對應的MAETable 3 MAE corresponding to different model verification results
根據圖10以及表3,可以看出Bi-LSTM加單層全連接層模型,其預測結果的波動性比較大且MAE也較大.隨著全連接層的增加,模型預測的波動性急劇下降,且MAE值也隨之下降.但是并不是全連接層數越多越好,因為隨著全連接層數的不斷加深,對驗證集的預測效果反而有所下降,導致這一現象的原因是模型過擬合.
綜上所述,選取Bi-LSTM加3層全連接層,作為模型結構的最終結果.確定模型后,為了驗證模型的有效性,在數據集Bearing1_3基礎上進行測試,并與其他實驗結果進行對比,如圖11和表4.

圖11 各個模型的預測結果Fig.11 Forecast results of each model

表4 文中方案與其他3種方案的構成Table 4 MAE corresponding to different modelverification results
從實驗結果(表5)看出,采用基于Bi-LSTM結合多層感知機的模型對軸承Bearing1_3進行剩余壽命測試,預測結果與真實壽命的變化趨勢和變化速率一致,重合度相比較其他3種模型也大大增加.采用本文方案預測結果與真實值的平均MAE為0.014 8,較其他3種方案均為最小,且本文方案預測結果波動性也得到大幅度降低,從而增強了預測結果的可靠性.使用多層感知機來映射Bi-LSTM和LSTM模型的輸出結果,其MAE分別降低了0.04和0.141 1.因此文中提出的模型為滾動軸承剩余壽命提供了有效的預測方案.

表5 實驗預測誤差MAETable 5 Experimental prediction error MAE
文中提出一種基于堆疊去噪自編碼器與Bi-LSTM結合多層感知機的滾動軸承RUL預測方法.通過堆疊去噪自編碼器提取軸承的深層特征,并利用Bi-LSTM結合多層感知機使用已提取的深層特征對滾動軸承的剩余使用壽命進行預測.
LSTM網絡按照時序處理序列信息,導致網絡只能考慮過往的信息而忽略未來的信息,網絡信息特征學習能力降低.引入Bi-LSTM網絡,可以對未來的信息進行學習,提升網絡的特征學習能力.同時針對Bi-LSTM輸出結果映射到復雜函數關系時,模型擬合能力不足、收斂速度過慢且預測結果波動性較大的問題,提出了Bi-LSTM結合多層感知機的模型.經過實驗,可以發現提出的模型對軸承剩余壽命進行預測所得結果中,在收斂速度和預測結果的準確度方面,均得到了有效提升.
對于滾動軸承的剩余使用壽命預測方法,不僅縮短了模型訓練的時間,降低了模型訓練過程中誤差的波動性,而且滾動軸承的剩余使用壽命的預測精度也有了顯著的提高.