注意力ConvLSTM模型在RUL預測中的應用

2021-03-13 06:00:44張貝克

小型微型計算機系統 2021年2期

程成，張貝克，高東，許欣

1(北京化工大學信息科學與技術學院，北京 100029)

2(北京德普羅爾科技有限公司，北京 100029)

1 引言

預測性維護旨在通過對設備進行持續地狀態檢測和數據分析，以預測設備未來的損壞趨勢，在故障發生前排除隱患，降低因意外停機造成的維修成本[1];作為預測性維護的關鍵技術之一，剩余使用壽命(Remaining Useful Life，RUL)預測已經成為近十年來的重要研究課題，RUL是指設備部件或系統從當前時刻到該部件或系統無法執行特定功能時刻為止的持續工作時間長度[2,3]，準確的壽命預測在保證系統可靠性和預防系統災難方面起著至關重要的作用[4].

設備RUL預測方法可分為基于經驗模型的方法、基于物理模型的方法和數據驅動的方法[5]，由于前兩種方法分別存在對領域專家的知識和經驗過度依賴和難以挖掘復雜、高可靠性的設備失效機理的問題[6]，存在較大的局限性;數據驅動的預測方法僅依靠先前檢測到的數據即可對系統狀態進行預測，無需對物理參數進行假設或經驗估計，成為近年來研究的熱點.

傳統數據驅動的預測方法包括以神經網絡(Neural Networks)、支持向量機(Support Vector Machines，SVM)、貝葉斯網絡，隱馬爾科夫模型(Hidden Markov Model，HMM)等為代表的機器學習方法和以失效數據及退化數據為基礎的統計數據驅動方法.上述方法取得了一定的成績，但在處理復雜時間序列時力有未逮，難以得出準確、高效的預測結果，不能滿足復雜系統的RUL預測需求;近年來，深度學習快速發展，因其具有強大的非線性映射能力和高維特征提取能力[7]，在諸多領域都卓有建樹，本文意在借助深度學習處理復雜時間序列的優勢，并在數據特征處理方面做深入研究，以進一步提高RUL預測準確度.

2 相關工作

Babu等人[8]首次嘗試將卷積神經網絡(Convolutional Neural Networks，CNN)應用于RUL預測中，利用卷積層和池化層來捕捉不同時間尺度的傳感器信號的顯著模式，并將所有識別出的顯著模式統一起來映射到評估模型以實現RUL預測，獲得了明顯優于現有淺層回歸模型的效果.

Deutsch等人[9]將深度置信網絡(Deep Belief Network，DBN)應用于旋轉部件的RUL預測中，該方法無需人工干預即可進行加速度傳感器信號的特征提取，并通過將預測結果的均方根值(Root Mean Square，RMS)進行函數映射的方式預測軸承的RUL.

Lim等人[10]提出一種基于多層感知器(Multi-Layer Perceptron，MLP)的RUL預測框架，該框架利用移動時間窗口和基于K-Means的特征提取方法來改善基本MLP的性能.

針對軸承RUL預測中統計特征貢獻度不同和故障閾值確定困難的問題，Guo等[11]人提出一種基于循環神經網絡(Recurrent Neural Network，RNN)的健康指標(Health Index，HI)，提出將相似度相近的統計特征與經典時頻域特征相結合構成原始特征集，并根據單調性和相似性度量選定最敏感的特征，進而輸入到遞歸神經網絡中構建RNN-HI.實驗證明，所提的方法具有良好的性能.

Zhang等人[12]提出一種基于長短期記憶(Long Short-Term Memory，LSTM)的預測框架，該框架專門用于發現潛藏在時間序列中的潛在模式，從而可以跟蹤系統性能下降趨勢預測RUL，實驗證明，LSTM在本質上依賴于時間的結構使它能夠更有效的揭示設備性能退化模式.

針對數據驅動的RUL預測中難以獲得足夠的故障數據樣本問題，Zhang等[13]人結合遷移學習，提出一種基于雙向長短時記憶(BLSTM)遞歸神經網絡的預測方法，在他們的方法中，可以先在不同但相關的數據集上訓練模型，然后再通過目標數據集進行微調，實驗結果證明，遷移學習通常可以改善基于少量數據樣本的預測模型的性能，但在由多種工況遷移到單一工況的情況下，遷移學習會導致更糟的結果.

Lin等[14]人將注意力機制應用于電量預測，利用注意力機制為輸入序列數據分配權重系數，結果證明注意力機制的引入能夠提高模型預測的準確性.

3 相關概念

3.1 循環神經網絡(RNN)

循環神經網絡(RNN)是一種常用于時間序列數據的神經網絡，與傳統神經網絡不同的是，RNN中的隱藏層之間的節點不再是無連接的，而是有連接的，且其隱藏層的輸入不僅包括輸入層的輸出，還包括上一時刻隱藏層的輸出，因此當前節點的輸出能夠考慮到上一次的輸出結果，使得網絡中有了記憶，會依照過往的記憶決定后續的輸出結果，而在數據驅動的RUL預測中，每組數據之間存在著先后順序或因果關系，RNN顯然適合處理這種時間序列結構的數據.

RNN的網絡結構如圖1所示，其中，xt表示t時刻網絡的輸入；St表示t時刻網絡的狀態或記憶;U、W和V表示權重向量，ot表示t時刻的輸出結果.

圖1 RNN網絡結構Fig.1 RNN network structure

St=f(Uxt+WSt-1)

(1)

如式(1)所示，t時刻的網絡狀態St是由當前的輸入xt和前一刻的狀態St-1通過U和W權重向量計算而來.如式(2)所示，t時刻的狀態輸出結果ot是由當前狀態St通過V權重向量計算而來的.

ot=f(VSt)

(2)

雖然理論上RNN能夠處理任意長度的時間序列數據，然而由于此框架在網絡訓練時采用了反向傳播算法，隨著時間序列長度的增加，權重參數循環更新會出現大到無法處理的情況，稱為梯度爆炸;抑或出現權重參數更新衰減到接近于0，使得網絡只關注最近處理的結果，而將時間較久的計算結果遺忘，稱為梯度消失.梯度爆炸和梯度消失都會影響網絡的訓練效果.

3.2 長短期記憶(LSTM)與卷積長短期記憶(ConvLSTM)

圖2 LSTM網絡結構Fig.2 LSTM network structure

LSTM網絡狀態更新的過程可以用式(3)-式(8)表示，其中bi、bc、bf和bo均為偏差向量.

it=σ(Wi[ht-1，xt]+bi)

(3)

(4)

ft=σ(Wf[ht-1，xt]+bf)

(5)

St=ftSt-1+it

(6)

ot=σ(Wo[ht-1，xt]+bo)

(7)

ht=ottanh(St)

(8)

卷積長短期記憶(ConvLSTM)的結構與LSTM相似，不同之處在于ConvLSTM引入了卷積運算，其計算過程如式(9)和式(14)所示，其中“*”表示卷積計算，權重W為二維卷積核，細胞狀態S、隱藏狀態h和i、f、o三個門均是三維Tensor.

it=σ(Wi*[ht-1，xt]+bi)

(9)

(10)

ft=σ(Wf*[ht-1，xt]+bf)

(11)

St=ftSt-1+it

(12)

ot=σ(Wo*[ht-1，xt]+bo)

(13)

ht=ottanh(St)

(14)

ConvLSTM在引入卷積運算之后，不僅能夠繼承LSTM處理時間特征的優勢，還能進一步提取時序數據空間特征，從而構建時空特征模型.

3.3 注意力機制

注意力機制源于人類的視覺系統，當眼睛快速瀏覽一張圖像時，會定位特別需要關注的區域，也就是視線焦點，在視線焦點區域會投入更多的資源，以獲取更多的細節信息，而抑制其他無用信息的獲取.近年來，一些專家學者將注意力機制引入到深度學習模型的優化中，注意力機制通過對模型的輸入特征賦予不同的權重，以突出關鍵特征對模型的影響，以實現對模型預測性能的優化.

圖3 注意力機制Fig.3 Attention mechanism

(15)

(16)

(17)

4 實驗與結果分析

4.1 CMAPSS數據集

本文實驗選用了由NASA卓越故障預測研究中心提供的用于飛機渦輪引擎的剩余使用壽命預測的CMAPSS數據集，該數據集包括FD0001、FD0002、FD0003、FD0004四個子數據集，這些子數據集由引擎編號、序列號、配置項和從21個傳感器獲得的傳感器數據構成，模擬了由不同初始條件的引擎從健康狀態逐漸退化直到發生故障的過程數據，每個子數據集均包含一個訓練集和一個測試集，并提供了測試引擎的實際RUL值.

4.2 實驗環境

本文實驗中使用的深度學習計算平臺具有一顆NVIDIA Tesla V100 32GB GPU和一顆8核 CPU，編程語言為Python3.7，使用Tensorflow 1.8版本深度學習框架進行實驗.

4.3 算法描述

4.3.1 數據預處理

(18)

4.3.2 RUL標簽設置

由于渦輪引擎在正常運行階段退化趨勢不明顯，不利于模型訓練，僅當在突破退化臨界值后，引擎開始加速退化，由文獻[16]可知，宜將訓練集的RUL標簽設置為如圖4所示的分段函數，并將臨界值設置為130.

圖4 RUL標簽定義Fig.4 RUL label definition

4.3.3 注意力ConvLSTM模型

如圖5所示，本文所提的注意力ConvLSTM模型由卷積計算層、Attention-ConvLSTM層、ConvLSTM層和全連接層組成，對于每次輸入的樣本原始序列首先進行卷積運算，生成n個由抽象特征組成的特征矩陣{x1，x2，x3，…，xn}，繼而將其作為Attention-ConvLSTM層的輸入特征序列，ConvLSTM網絡以Many-to-Many的形式，輸出隱藏層特征矩陣h，并經過全連接層和Softmax函數，使用注意力機制為隱藏特征矩陣加權，生成新的特征矩陣序列，經由第2層ConvLSTM層和全連接層以Many-to-One的形式輸出預測RUL值.本實驗的具體參數設置：實驗每次選取樣本數為1024，隱藏層節點數為120，對于FD0001、FD0002、FD0003、FD0004四個子數據集分別選用尺寸為30*15、21*18、30*15和19*18的卷積核，實驗將原始訓練集按照9：1的比例劃分為訓練集和驗證集，將學習率設置為0.001，使用Adam優化器訓練網絡模型.

圖5 注意力ConvLSTM模型結構Fig.5 Attention-ConvLSTM Model structure

4.3.4 算法復雜度分析

深度學習模型的復雜度一般從參數數量(Params)和浮點運算量(Floating Point Operations，FLOPs)兩個度量進行評估，其中參數數量關系到模型大小，而FLOPs則關系到模型的計算速度.在本實驗中主要涉及卷積層、ConvLSTM和全連接層的參數數量和FLOPs的計算.卷積層和全連接層參數數量和FLOPs的計算公式分別如式(19)和式(20)和式(21)和式(22)所示，其中，卷積層參數數量主要由卷積核寬度kw、卷積核長度kh、輸入通道數cin和輸出通道數cout決定而FLOPs還受輸出特征圖長度fh和輸出特征圖寬度fw影響；全連接層的參數數量和FLOPs均由輸入節點數nin和輸出節點數nout決定.

pconv=kw*kh*cin*cout+cout

(19)

pfc=nin*nout+nout

(20)

FLOPsconv=(kw*kh*cin*cout+cout)*fh*fw

(21)

FLOPsfc=nin*nout+nout

(22)

對于ConvLSTM，其參數數量主要由一個RNN和3個門的參數數量決定，因它們的轉化矩陣維度都相等，一般可按式(23)計算得出，其中dh為隱藏單元維度，din為輸入維度；而ConvLSTM的FLOPs則主要取決于卷積運算、哈達瑪積運算、加法運算和Tanh函數運算，其計算公式如式(24)所示，其中kw和kh分別為卷積核長度和寬度、cin和cout分別為輸入和輸出通道數，fh和fw分別為輸出特征圖的長度和寬度.

pConvLSTM=4*[dh*(dh+din)+dh]

(23)

FLOPsConvLSTM=(16*kw*kh*cin+37)*cout*fh*fw

(24)

為進一步量化評估算法復雜度，本文使用了由Tensorflow 提供的Profiler分析工具，在FD0001、FD0002、FD0003、FD0004四個子數據集分別對模型進行性能分析，得到的精確參數數量和FLOPs如表1所示.

表1 算法復雜度分析參數Table 1 Algorithm complexity analysis parameters

4.4 評價標準

為評估模型預測精度，本文使用了常用的性能度量指標均方根誤差RMSE和CMAPSS數據集自定義的Score函數作為模型評價標準，RMSE和Score的定義如式(25)和式(26)所示.

(25)

(26)

圖6呈現了兩個評價指標與預測誤差d的函數關系，由實際情況可知，預測結果滯后(d>0)會比預測結果超前(d<0)產生更壞的影響，因此Score函數對滯后預測加大懲罰，由圖像可知，Score和RMSE的值越小，模型預測效果越好.

圖6 Score與RMSEFig.6 Score and RMSE

4.5 實驗結果

模型在每個數據集分別進行20個Epoch后完成模型訓練，然后將訓練好的模型依次在FD0001、FD0002、FD0003、FD0004四個測試集進行驗證，計算RMSE和Score并保存最終預測RUL值.每個子數據集分別包含100、259、100、249個測試引擎的數據，為更好地展示對比效果，將每個子數據集中的引擎數據按實際RUL數值降序排列，每個子數據集的預測RUL與實際RUL的對比結果如圖7所示.

圖7 預測結果與實際結果對比Fig.7 Comparison of predicted and actual results

為定量評估模型的預測性能，將本文實驗結果與文獻中的ANN、SRNN、LSTM、SRU[17]、DLSTM[18]、AdaBN-DCNN[19]模型和未引入注意力機制的BConvLSTM模型的實驗結果作對比，由表2可知，本文所提模型的RMSE和Score在FD0001、FD0003和FD0004驗證集中性能均為最優，在FD0002驗證集上僅次于SRU模型，RMSE指標一直處于較低水平，性能穩定，而Score指標較其他方法有很明顯優勢.由上述對比數據可知，本文所提的模型具有良好的預測精確度和穩定的性能.

表2 RMSE/Score指標對比Table 2 Comparison of RMSE/Score indicators

為評估算法的實用性，本文進行了多次實驗并記錄模型的總訓練時間和總測試時間，實驗結果取均值后如表3所示.

表3 實驗時間統計 Table 3 Experiment time statistics

由于在實際應用中模型僅需訓練一次且為離線訓練，因而本文所提模型的訓練時間可以接受，而經計算單個測試樣本的測試時間低于4×10-4秒，在絕大多數實際工業應用中，樣本采樣周期遠遠大于此測試時間，因而本文所提模型具備可行性、實用性.

5 結束語

深度學習的發展為RUL預測注入了新的動力，本文所提的RUL預測模型，首先對輸入時間序列進行卷積運算，提取數據中的時空特征，并利用基于注意力機制的ConvLSTM網絡，對影響力不同的特征矩陣賦予不等的權重，突出影響顯著的特征因子，與傳統方法相比該方法能夠更充分地提取并有效利用時間序列中的隱藏特征，經實驗表明，本文所提出的注意力ConvLSTM模型具有良好的預測精度、穩定的性能和良好的實用性.