趙志宏,李 晴,楊紹普,李樂豪
(1.石家莊鐵道大學 信息科學與技術學院,河北 石家莊 050043;2.石家莊鐵道大學 省部共建交通工程結構力學行為與系統安全國家重點試驗室,河北 石家莊 050043)
隨著我國工業技術快速發展,我國在2015年提出了《中國制造2025》以推動中國工業化前進,深入對機械設備健康狀態監測的研究。通過對傳感器獲取的機械設備運行狀態監測數據進行分析,構建對應的壽命預測系統可以有效地預測可能發生的故障以及剩余壽命(Remaining Useful Life,RUL),從而給出合理的維修決策,以避免可能造成的人員或經濟財產損失[1]。
現有的剩余壽命預測方法主要分為基于模型的方法、基于數據驅動的方法和兩者混合的方法[2]。基于模型的方法主要利用研究人員的先驗知識對機械設備進行建模研究[3-4]。但是實際工業狀況復雜多變,研究人員很難擁有充足的先驗知識,因此該方法實踐上存在一定的難度。基于數據驅動的方法利用統計學和機器學習的方法提取特征信息進行RUL預測[5],例如支持向量機[6]、人工神經網絡[7]、貝葉斯[8]等,但在提取特征時可能造成特征信息的丟失,會對剩余壽命預測結果造成一定的影響。
深度學習的快速發展使得深度學習在預測剩余壽命研究方面取得了不錯的效果。WANG B等[9]提出了一種基于遞歸卷積神經網絡的剩余壽命預測方法,得到了較好的預測結果。YOO Y等[10]提出了一種基于卷積神經網絡(Convolutional Neural Networks,CNN)的RUL預測方法,利用CNN提取空間特征,進而預測剩余壽命。王奉濤等[11]將長短期記憶網絡(Long Short-Term Memory,LSTM)應用于RUL預測,通過LSTM提取時間序列特征以預測滾動軸承的剩余壽命,并獲得有效的預測結果。但以上剩余壽命預測方法沒有考慮到不同特征對于剩余壽命預測結果的影響不同,應找出對于剩余壽命預測結果影響大的關鍵特征。韓光潔等[12]將注意力機制應用于RUL預測方法,先通過LSTM提取時間特征,后利用Attention對提取的特征信息分配不同的權重以提高剩余壽命預測的準確性。
為研究不同注意力機制對于剩余壽命預測結果的影響,本文提出了一種基于注意力機制的CNN-LSTM剩余壽命預測方法,包括通道注意力、CBAM機制和自注意力等進行剩余壽命預測試驗。該方法利用CNN提取局部空間信息,通過LSTM獲取時間特征信息,再使用注意力機制向CNN-LSTM提取的特征信息分配不同的權重,突出關鍵的特征信息,過濾無用信息,以更準確地表示設備的退化特征信息,最終得到設備的剩余壽命。
LeCun Y[13]等提出的CNN被廣泛應用于深度學習各個領域。Abdeljaber O[14]等通過研究發現:1D-CNN可以提取時間序列特征信息。CNN通過局部連接、權值共享和空間池化等提取數據的局部特征,具有較強的抽象表達能力。CNN主要由卷積層、池化層和全連接層組成[15]。
卷積層通過局部連接和權值共享對于信息進行卷積操作,從中提取局部特征信息,其中卷積操作如式(1)所示:
(1)
式中:yk-1——第k個卷積層的輸入;
*——卷積運算;


池化層對于獲取的特征信息壓縮降維,以降低計算復雜度和突出主要特征,常見的池化方法是平均池化和最大池化。
為解決Bengio Y等[16]在研究中發現RNN在處理長數據時存在梯度消失或梯度爆炸的問題,Hochreiter S等[17]提出改進的RNN-LSTM。LSTM網絡結構如圖1所示,與RNN相比,LSTM增加了3個門結構判斷是否保存現有信息,更適用于處理長時間數據的預測問題。

圖1 LSTM網絡結構
LSTM的3個門結構分別為:遺忘門、輸入門和輸出門,各個門的作用及計算如下:
(1)遺忘門是對細胞狀態中的歷史信息選擇性丟棄,計算如式(2)所示:
ft=σ(Wf[ht-1,xt]+bf)
(2)
(2)輸入門是選擇性保存新信息到細胞單元狀態中,更新狀態信息,計算如式(3)~式(5)所示:
it=σ(Wi[ht-1,xt]+bi)
(3)
(4)
(5)
(3)輸出門是根據細胞單元狀態決定輸出信息,計算如式(6)、式(7)所示:
σt=σ(Wo·[ht-1,xt]+bo)
(6)
ht=ot·tanh(ct)
(7)
式中:ft,it,ot,ct——分別表示t時刻對應的遺忘門、輸入門、輸出門結構和細胞單元狀態;
Wf、bf——分別為遺忘門的權重、偏置;
Wi、bi——分別為輸入門的權重、偏置;
Wc、bc——分別為細胞狀態的權重、偏置;
Wo、bo——分別為輸出門的權重、偏置;
ht-1、ht——分別為t-1、t時刻的隱藏層信息;
ct-1——t-1時刻的細胞狀態信息;

xt——t時刻輸入信息;
σ——Sigmoid激活函數。
注意力機制最初于2014年被Bahdanau提出并應用于機器翻譯[18],現已廣泛應用于語音識別[19]、圖像處理[20]等方面。注意力機制有多種實現方式,本文主要選取常用的通道注意力[21](Squeeze and Excitation,SE)、CBAM(convolutional block attention module)機制[22]和自注意力機制。
1.3.1 SE
在實際工業情況下,不同通道有不同的重要性,SE用于解決傳統卷積池化中特征圖每個通道占比相同帶來的信息損失情況。SE利用網絡訓練特征通道權重,對重要的通道賦予較高的權重,主要分為2個部分:Squeeze和Excitation,其結構如圖2所示。

圖2 SE結構
(1)Squeeze:對于特征進行壓縮,嵌入全局信息得到對應的值,主要通過全局平均池化實現,其計算如式(8)所示:
(8)
式中:zc——矩陣壓縮的輸出;
dc——第c個輸入特征矩陣圖;
w——dc的寬度;
h——dc的高度;
i——dc的寬度序號為i;
j——dc的高度序號為j。
(2)Excitation:生成每個特征通道對應的權重,主要通過全連接層實現,第1個全連接層進行降維操作,第2個全連接層升維以擬合通道的復雜性,利用Sigmoid激活函數獲取對應的權重矩陣S:
S=σ(W2δ(W1z))
(9)
式中:σ——Sigmoid激活函數;
δ——Relu激活函數;
W1、W2——權重矩陣;
z——Squeeze的輸出。
1.3.2 CBAM機制
通道注意力機制通過全局平均池化計算各個通道的權重,導致空間信息被忽略。為解決這一問題,WOO S等[22]提出了CBAM,CBAM包含全局平均池化和最大池化在通道和空間2個維度上將注意力串聯,得到對應的權重。CBAM結構如圖3所示。

圖3 CBAM結構
(1)利用通道注意力對特征矩陣經過全局平均池化和最大池化操作,經過2層全連接層以及Sigmoid激活函數獲得新的特征矩陣;
(2)通過空間注意力對特征矩陣進行平均池化和最大池化,將經過以上2個池化操作得到的特征合并,經過CNN和Sigmoid激活函數獲得新的特征矩陣。
1.3.3 自注意力機制
自注意力機制主要由查詢值query、key和value組成[23],其計算步驟如下:
(1)query與每個key點積相似度計算獲得權重;
(2)通過Softmax歸一化指數、函數對上一步得到的權重歸一化;
(3)將歸一化后的權重與對應value加權求和得到最終的Attention。
Attention計算如式(10):
(10)
式中:Q、K、V——分別為query、key、value的矩陣表示,Q=K=V;
dk——query的向量維度。
本文提出的基于注意力機制的CNN-LSTM剩余壽命預測方法網絡結構如圖4所示,主要由CNN層、Dropout層、LSTM層、Attention層、平鋪層和全連接層組成。

圖4 注意力機制的CNN-LSTM模型網絡結構
壽命預測的具體步驟如下:
(1)將輸入的原始數據進行數據預處理,獲得n個特征向量{x1,x2,x3,…,xn} 作為基于注意力機制的CNN-LSTM網絡結構的輸入;
(2)通過CNN層獲取其中蘊含的局部空間狀態特征;
(3)利用LSTM層提取時間特征信息;
(4)將經過CNN-LSTM提取到的特征信息輸入到Attention機制進行加權,本文選用3種不同的注意力機制進行試驗,包括通道注意力、CBAM機制和自注意力機制;
(5)將注意力機制的輸出經過平鋪層轉化為一維數據,通過2個全連接層以多對一的形式輸出剩余壽命預測結果。
為驗證本文所提出的基于注意力機制的CNN-LSTM剩余壽命預測方法的有效性,選用NASA發布的C-MAPSS[24]數據集進行RUL預測試驗。C-MAPSS數據集如表1所示,分為4個子集,每個子集都包含訓練集、測試集以及測試集對應的真實剩余壽命值。每個子集均為n×26矩陣,其中n表示每個子集中的數據個數。每一行對應每個時間周期內的26列數據[25],第1列表示發動機單元號,第2列表示當前工作周期數,第3~5列表示操作設置,第6~26列表示傳感器值。

表1 C-MAPSS數據集
為證明本文提出的剩余壽命
預測模型的有效性和可行性,選擇CNN-LSTM、CNN-LSTM-SE、CNN-LSTM-CBAM和CNN-LSTM-Self-Attention(簡稱為“CNN-LSTM-SA”)預測模型在同樣的C-MAPSS數據集的FD001子集中進行試驗訓練。利用4種方法得到的發動機預測RUL結果如圖5所示。由圖5可知,運行周期數較小時預測較為準確,隨著運行周期數增加,設備出現故障,預測曲線出現波動,準確性降低。通過對比圖5中FD001子集的實際壽命和預測結果可以看出,CNN-LSTM-SA預測結果優于其余3種預測模型結果。因此,在本文中Self-Attention對于剩余壽命預測結果影響較大。

圖5 4種模型的RUL預測結果
為評估本文所提出的剩余壽命預測方法的有效性,選用了2種客觀的性能度量指標:評分函數和均方根誤差(Root Mean Square Error,RMSE)。其中選用PHM2008數據挑戰賽的評分函數,其定義如下:

(11)
其中,
d=RULestimated-RULreal
(12)
式中:S——最終計算評分;
n——測試集的引擎個數;
d——RUL預測值和真實值的差值。
RMSE常用于衡量真實值和預測值之間的偏差,具有無偏性。RMSE計算公式為:
(13)

yi——真實值。
為證明本文提出的剩余壽命預測模型的有效性和可行性,選擇CNN-LSTM、CNN-LSTM-SE、CNN-LSTM-CBAM和CNN-LSTM-SA與已有論文中D-LSTM[26]、LSTM[27]、FADCNN[28]和GB[29]預測模型在同樣的C-MAPSS數據集的4組子集中進行試驗訓練,獲取不同預測方法得到的評分函數和RMSE,并進行比較。
不同預測方法評分函數、RMSE對比如表3所示。從表3中可以看到,本文提出的CNN-LSTM-SA預測模型與CNN-LSTM、CNN-LSTM-SE、CNN-LSTM-CBAM模型相比,CNN-LSTM-SA預測模型在評分函數和RMSE 2個方面均獲得較好的結果。

表3 基于C-MAPSS數據集的不同方法與本文方法對比
通過以上分析可知,本文提出的CNN-LSTM-SA預測模型比CNN-LSTM、CNN-LSTM-SE、CNN-LSTM-CBAM模型具有更好的數據特征提取能力。綜上所述,本文提出的CNN-LSTM-SA預測模型在航空發動機數據集上的剩余壽命預測結果更準確。
為進一步驗證本文所提出的基于CNN-LSTM-SA剩余壽命預測模型的有效性,對于該模型不同層所提取的特征可視化,選取的可視化的層分別為Input層輸出、Conv_5層輸出、LSTM層輸出、Attention層輸出和Dense_2層輸出,可視化結果如圖6所示。圖6中的每個點表示不同時刻的特征,顏色表示對應點的剩余壽命。由圖6可知,隨著模型的深入,所提取的特征由Input層的雜亂無序,經過Conv_5層后的逐漸分離,再經過LSTM層后的逐漸聚合,至Attention層輸出的逐漸有序,最終到Dense_2層的有序排列,反映了CNN-LSTM-SA具有較好的提取特征能力。

圖6 隱藏層特征可視化
本文提出了一種基于注意力機制的CNN-LSTM剩余壽命預測方法,得出以下結論:
(1)基于注意力機制的CNN-LSTM剩余壽命預測方法對于機械設備的剩余壽命預測具有一定的有效性。
(2)將通道注意力機制、CBAM機制和自注意力機制應用于基于注意力機制的CNN-LSTM剩余壽命預測方法。試驗表明,不同的注意力機制對于剩余壽命預測結果的影響不同,其中自注意力機制相比其他2種注意力機制具有較好的效果。