基于LSTM循環神經網絡的故障時間序列預測

2018-05-04 00:46:07王鑫吳際劉超楊海燕杜艷麗牛文生

北京航空航天大學學報 2018年4期

王鑫，吳際,*，劉超，楊海燕，杜艷麗，牛文生,3

(1. 北京航空航天大學計算機學院, 北京 100083； 2. 豐臺職業教育中心學校, 北京 100076；3. 中航工業西安航空計算技術研究所, 西安 710068)

對于有高可靠性和安全性需要的復雜系統，有效地預測使用階段的可靠性指標是十分重要的。目前，已有眾多方法用來解決可靠性預測問題，這些方法大致可以分為3類[1]：①基于故障機理(Physics-of-Failure, PoF)的方法，PoF是一種根據故障發生的內在機制和根本原因進行間接預測的方法；②數據驅動(Data-Driven, DD)的方法，DD是一種應用統計學或者機器學習等技術手段對可靠性指標進行直接預測的方法；③融合的方法，這種方法是一種PoF和DD相結合的方法。近年來，數據驅動的方法由于其便捷性和高效性等特點，在實際可靠性預測中的應用日漸廣泛[2-3]。

故障時間序列，作為一個重要的可靠性指標，能夠展示故障的動態演化過程，并且已經被多種數據驅動的方法預測，比如自回歸移動平均(Autoregressive Integrated Moving Average,ARIMA)[4]、奇異譜分析(Singular Spectrum Analysis, SSA)[5]、支持向量回歸(Support Vector machines Regression,SVR)[6]、人工神經網絡(Artificial Neural Network,ANN)[7]等。由于可靠性數據通常不易獲取，已有的研究大多是面向組件級故障數據的，比如文獻[7]提供的柴油機渦輪增壓器和汽車發動機故障時間序列。這些數據表現為規則性很強的曲線形態并且能夠被單一模型很好地擬合和預測。然而，對于系統級故障數據，比如文獻[3]提供的民航飛機整機故障時間序列，由于其復雜且不規則的曲線形態，已有的單一模型很難達到理想的預測效果[8]。為此，文獻[8]提出了一種基于SSA和SVR的混合方法，該方法首先從原始數據中提取故障特征成分然后分別建模和預測，得到了比單一模型更好的實驗結果。然而，混合方法的構建過程復雜、人工依賴性強，不利于在實際中推廣和使用。

近年來，隨著深度學習技術的不斷發展，一些深度學習模型逐漸被應用到時序數據的研究中。深度學習模型是一種擁有多個非線性映射層級的深度神經網絡模型，能夠對輸入信號逐層抽象并提取特征，挖掘出更深層次的潛在規律[9]。在眾多深度學習模型中，循環神經網絡(Recurrent Neural Network, RNN)將時序的概念引入到網絡結構設計中，使其在時序數據分析中表現出更強的適應性。在眾多RNN的變體中，長短期記憶(Long Short-Term Memory, LSTM)模型[10]彌補了RNN的梯度消失和梯度爆炸、長期記憶能力不足等問題，使得循環神經網絡能夠真正有效地利用長距離的時序信息。LSTM模型在不同領域的時序數據研究中已有不少成功的應用案例，包括文字語言相關的語言建模、語音識別、機器翻譯[11]，多媒體相關的音頻和視頻數據分析、圖片標題建模[12-13]，道路運輸相關的交通流速預測[14]，以及醫學相關的蛋白質二級結構序列預測[15]等。然而，在可靠性領域，LSTM模型的應用非常有限，特別是對于故障時間序列預測這一研究問題，目前還未發現相關研究。

本文針對系統級故障時間序列數據，提出了一種基于LSTM循環神經網絡的預測方法，包括3層(輸入層、隱藏層和輸出層)網絡結構的詳細設計，以及網絡訓練和網絡預測的實現算法等。在此基礎上，以預測誤差最小為目標，進一步提出了一種基于多層網格搜索的LSTM預測模型參數優選算法。應用文獻[3]提供的民航飛機故障數據展開實驗，并與Holt-Winters、ARIMA等多種時間序列預測模型進行實驗對比。實驗結果展示了所提出的LSTM預測模型及其參數優選算法在故障時間序列預測中的優越性能。

1 相關理論和技術

本節簡要介紹LSTM模型，包括前向計算方法、基于時間的反向傳播(Back Propagation Through Time, BPTT)算法、Adam參數優化算法，以及相關的RNN、GRU模型。

對于給定序列x=(x1,x2,…,xn)，應用一個標準的RNN模型[16](如圖1所示)，可以通過迭代式(1)～式(2)計算出一個隱藏層序列h=(h1,h2,…,hn)和一個輸出序列y=(y1,y2,…,yn)。

ht=fa(Wxhxt+Whhht-1+bh)

(1)

yt=Whyht+by

(2)

式中：W為權重系數矩陣(比如Wxh表示輸入層到隱藏層的權重系數矩陣)；b為偏置向量(比如bh表示隱藏層的偏置向量)；fa為激活函數(比如tanh函數)；下標t表示時刻。

盡管RNN能夠有效地處理非線性時間序列，但是仍然存在以下2個問題[14]：①由于梯度消失和梯度爆炸的問題，RNN不能處理延遲過長的時間序列；②訓練RNN模型需要預先確定延遲窗口長度，然而實際應用中很難自動地獲取這一參數的最優值。由此，LSTM模型應用而生。LSTM模型是將隱藏層的RNN細胞替換為LSTM細胞，使其具有長期記憶能力。經過不斷地演化，目前應用最為廣泛的LSTM模型細胞結構[16]如圖2所示，z為輸入模塊，其前向計算方法可以表示為

it=σ(Wxixt+Whiht-1+Wcict-1+bi)

(3)

ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)

(4)

ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)

(5)

ot=σ(Wxoxt+Whoht-1+Wcoct+bo)

(6)

ht=ottanh(ct)

(7)

式中：i、f、c、o分別為輸入門、遺忘門、細胞狀態、輸出門；W和b分別為對應的權重系數矩陣和偏置項；σ和tanh分別為sigmoid和雙曲正切激活函數。LSTM模型訓練過程采用的是與經典的反向傳播(Back Propagation,BP)算法原理類似的BPTT算法[17]，大致可以分為4個步驟：①按照前向計算方法(式(3)～式(7))計算LSTM細胞的輸出值；②反向計算每個LSTM細胞的誤差項，包括按時間和網絡層級2個反向傳播方向；③根據相應的誤差項，計算每個權重的梯度；④應用基于梯度的優化算法更新權重。

圖1 RNN模型及隱藏層細胞結構Fig.1 RNN model and cell structure in hidden layer

圖2 LSTM隱藏層細胞結構Fig.2 LSTM cell structure in hidden layer

基于梯度的優化算法種類眾多，比如隨機梯度下降(Stochastic Gradient Descent, SGD)[18]、AdaGrad[19]、RMSProp[20]等算法。本文選用的是文獻[21]提出的適應性動量估計(Adaptive moment estimation, Adam) 算法。Adam優化算法是一種有效的基于梯度的隨機優化方法，該算法融合了AdaGrad和RMSProp算法的優勢，能夠對不同參數計算適應性學習率并且占用較少的存儲資源。相比于其他隨機優化方法，Adam算法在實際應用中整體表現更優[21]。

此外，LSTM模型演化出了很多變體，其中最成功的一種是文獻[22]提到的門限循環單元(Gated Recurrent Unit, GRU)。GRU模型是LSTM模型的簡化版本，但是保留了LSTM模型的長期記憶能力，其主要變動是將LSTM細胞中的輸入門、遺忘門、輸出門替換為更新門和重置門，并將細胞狀態和輸出2個向量合二為一。在實際應用中，GRU模型與LSTM模型具有很強的可比性[22]。

2 研究方法

根據系統級故障時間序列數據的特點，結合第1節介紹的相關理論和技術，本節給出基于LSTM模型的故障時間序列預測方法，以及對應的基于多層網格搜索的參數優選算法。

2.1 基于LSTM的故障時間序列預測

考慮到單變量故障時間序列有限樣本點的數據特征，以及循環神經網絡從簡的設計原則，本文構建LSTM預測模型的整體框架如圖3所示，包括輸入層、隱藏層、輸出層、網絡訓練以及網絡預測5個功能模塊。輸入層負責對原始故障時間序列進行初步處理以滿足網絡輸入要求，隱藏層采用圖2表示的LSTM細胞搭建單層循環神經網絡，輸出層提供預測結果，網絡訓練采用第1節提到的Adam優化算法，網絡預測采用迭代的方法逐點預測。

圖3 基于LSTM的故障時間序列預測框架Fig.3 LSTM based framework for failure time series prediction

2.1.1 網絡訓練

網絡訓練主要以隱藏層為研究對象。首先在輸入層中，定義原始故障時間序列為Fo={f1,f2,…,fn}，則劃分的訓練集和測試集可以表示為Ftr={f1,f2,…,fm}和Fte={fm+1,fm+2,…,fn}，滿足約束條件m

(8)

1≤t≤m,t∈N

(9)

X={X1,X2,…,XL}

(10)

1≤p≤L；p,L∈N

(11)

對應的理論輸出為

Y={Y1,Y2,…,YL}

(12)

(13)

接下來，將X輸入隱藏層。從圖 3可以看出，隱藏層包含L個按前后時刻連接的同構LSTM細胞，X經過隱藏層后的輸出可以表示為

P={P1,P2,…,PL}

(14)

Pp=LSTMforward(Xp,Cp-1,Hp-1)

(15)

式中:Cp-1和Hp-1分別為前一個LSTM細胞的狀態和輸出；LSTMforward表示第1節提到的LSTM細胞前向計算方法(式(3)～式(7))。設定細胞狀態向量大小為Sstate，則Cp-1和Hp-12個向量的大小均為Sstate。可以看出，隱藏層輸出P、模型輸入X和理論輸出Y都是維度為(m-L,L)的二維數組。選用均方誤差作為誤差計算公式，訓練過程的損失函數可以定義為

(16)

設定損失函數最小為優化目標，給定網絡初始化的隨機種子數seed、學習率η以及訓練步數steps，應用Adam優化算法不斷更新網絡權重，進而得到最終的隱藏層網絡。

2.1.2 網絡預測

(17)

(18)

則m+1時刻的預測值為pm+1。然后，將Yf的最后L-1個數據點和pm+1合并為新的一行數據

(19)

Po={pm+1,pm+2，…,pn}

(20)

接下來，通過對Po進行z-score反標準化(表示為de_zscore)，得到最終的與測試集Fte對應的預測序列為

(21)

m+1≤k≤n，k∈N

(22)

類似地，將X的每一行作為模型輸入可以得到與訓練集Ftr對應的擬合序列Ptr。最后，通過計算Ftr和Ptr，以及Fte和Pte的偏差定量地給出模型的擬合和預測精度。

總的來說，基于LSTM的故障時間序列模型訓練和預測算法概括如下:

算法1訓練并預測LSTM故障時間序列模型

輸入：Fo,m,L,Sstate,seed,steps,η。

輸出：與測試集對應的預測序列以及模型精度。

1 getFtr,FtefromFobym

4 create LSTMcellbySstate

5 connect LSTMnetby LSTMcellandL

6 initialize LSTMnetby seed

7 for each step in 1:steps

8P=LSTMforward(X)

10 update LSTMnetby Adam with loss andη

12 for eachjin 0:(n-m-1)

14 appendPowithPf+j[-1]

15Pte=de_zscore(Po)

16 error measureε(Pte,Fte),εe(Ptr,Ftr)

其中:訓練過程涉及輸入層、隱藏層、輸出層、網絡訓練4個模塊，預測過程主要涉及輸出層模塊;LSTMcell表示LSTM隱藏層細胞(如圖2所示);LSTMnet表示LSTM隱藏層網絡(如圖3所示);εe為誤差度量函數。

2.2 基于多層網格搜索的LSTM預測模型參數優選

在構建上述LSTM預測模型中，涉及到眾多參數，其中以分割窗口長度L、狀態向量大小Sstate和學習率η最為關鍵[16]。為了達到更好的預測效果，本文采用網格搜索的方法對這3個參數進行優選。相比與其他的超參數優化方法(比如遺傳算法[23]、隨機搜索算法[16]、粒子群算法[24]，貝葉斯算法[25]等)，網格搜索是一種簡單實用、容易并行計算且計算耗時可控的優化方法[26]，能夠很好地滿足故障時間序列預測的任務需求和實驗要求。參數優選的依據是測試集全部測試點上的預測精度最高，即預測誤差ε(Pte,Fte)最小，目標函數可以表示為

minε(Pte,Fte)

(23)

式中：stepL、stepstate和stepη分別為對應參數的網格搜索步長。L、Sstate和η這3個參數構成了一個三維搜索空間，可以通過多層網格搜索算法(算法2)獲取最優參數組合。搜索過程主要包括3層，從內到外分別對Sstate、L和η進行網格搜索。首先，固定隨機種子數seed和訓練步數steps，根據式(23)預設3個參數的取值范圍(為了降低模型復雜度，分別將Lmax和Smax控制在較小的取值)；然后，分別遍歷3個參數的取值范圍，在最內層訓練并預測LSTM故障時間序列模型(如算法2所示，表示為LSTMpredict)，保存對應的模型參數和模型精度；最后，對所有保存的結果按照預測精度由高到低排序，則最前面的參數組合即優選的模型參數。

算法2LSTM預測模型參數優選

輸入：Fo,seed,steps,m,L,Sstate,η,stepL,stepstate,stepη。

輸出：測試集上預測誤差較低的參數組合。

1 predefine values of seed,steps

2 predefine value ranges ofL,Sstate,η

3 for eachηinη1,η2,…,ηrby stepη

4 for eachLin 2:Lmaxby stepL

5 for eachSstatein 2:Smaxby stepstate

6 executeLSTMpredict(Fo,m,L,Sstate,seed,steps,η)

7 append results withL,Sstate,η,ε(Pte,Fte),ε(Ptr,Ftr)

8 end (for); end (for); end (for)

9 return results ranked byε(Pte,Fte)

3 實驗驗證

本節結合一個航空領域的工業案例，應用第2節提出的LSTM預測模型及其參數優選算法展開實驗驗證。

3.1 實驗準備

首先介紹實驗中所選用的故障數據集，與本文提出的LSTM模型相對比的其他時間序列預測模型，評價不同預測模型優劣的精度度量指標，以及實驗運行平臺和軟硬件環境配置。

3.1.1 數據集

圖4 A、B飛機的月度故障時間序列數據Fig.4 Monthly failure time series data for Aircraft A and Aircraft B

3.1.2 對比模型

除了第1節提到的RNN和GRU模型，本文將LSTM模型與以下5種時間序列預測模型進行實驗對比。

1) Holt-Winters模型

Holt-Winters又稱3次指數平滑，是一種能夠處理含有趨勢性和周期性成分的時間序列分析方法[28]。其思想是利用歷史數據的不同特征成分(水平、趨勢和季節)來遞推當前數據。Holt-Winters模型的重要參數是與特征成分對應的3個平滑系數，即α、β和γ，取值均為0到1之間，且越靠近1則預測結果越依賴于近期觀測值。此外，根據季節性成分在遞推公式中的不同組織形式，Holt-Winters模型又分為加法和乘法2種類型(分別表示為Holt-Wintersa和Holt-Wintersm)。在實際使用中，這2種類型均需要計算不同特征成分的初始值，并根據均方誤差最小來計算3個平滑系數。

2) 自回歸移動平均

ARIMA是時間序列分析的經典理論和方法，其模型可以表示為ARIMA(p,d,q)，其中p、d、q分別為自回歸項數、差分次數、移動平均項數[29]。在實際使用中，這3個參數可以通過觀測自相關函數(Auto Correlation Function, ACF)和偏自相關函數(Partial Auto Correlation Function, PACF)確定，也可以通過計算AIC(Akaike Information Criterion)或BIC(Bayesian Information Criterion)值取其最小來確定。本文采用了文獻[30]提出的自動化方法建立ARIMA模型。

3) 奇異譜分析

SSA是一種時域和頻域相結合的非參數方法，可以用于處理非線性、非平穩以及包含噪聲的時間序列，其核心思想是提取序列中的有效成分建模和預測[31]。SSA包括分解和重構2個過程，其中分解過程又包括嵌入和奇異值分解(Singular Value Decomposition,SVD)2個子過程，重構過程又包括分組和對角平均2個子過程。在實際使用中，需要確定的2個參數為嵌入子過程的窗口長度Lssa和分組子過程的分組類別Gssa。本文根據文獻[32]提出的方法確定這2個參數的取值范圍并取其最大值。此外，SSA包含遞歸和向量2種預測方法(分別表示為SSAr和SSAv)，其中向量預測方法擁有更好的穩定性但是需要消耗更多的計算資源。

4) 多元線性回歸

多元線性回歸(Multiple Linear Regression, MLR)是一種廣泛應用于預測任務的多因素分析方法[33]。MLR用于時間序列預測的模型可以表示為Yt=a0+a1Yt-1+a2Yt-2+…+akYt-k+e，其中:Yt為t時刻的預測值，a1,a2,…,ak為不同歷史時刻數據Yt-1,Yt-2,…,Yt-k對應的回歸系數，a0和e分別為偏置項和誤差項[34]。當連續的歷史時刻數據被選為多因素變量時，k也可以稱為窗口長度(表示為Lmlr)。本文選定連續2年的月度故障數據點個數24作為k的取值。

5) 支持向量回歸

SVR是一種可以用于時間序列預測的機器學習方法[35]。這種方法通過一個非線性核函數將多維輸入映射到更高維度的特征空間后執行回歸運算，進而得到與輸出指標的非線性映射關系。本文選擇常用的高斯徑向基函數(Gaussian Radial Basis Function, RBF)作為非線性核函數，并采用文獻[36]提出的啟發式方法計算核函數參數σsvr和誤差邊界ε。此外，SVR模型的懲罰因子C和窗口長度Lsvr分別設置為3和24。

3.1.3 度量指標

3.1.4 平臺和環境

實驗所使用計算機的配置如下：處理器為英特爾酷睿Duo CPU i5-6500，CPU頻率為3.20 GHz和3.19 GHz；內存為4.00 GB；操作系統為Windows 10(64位)；程序設計語言為Python 3.5.2(64位)和R 3.3.3(64位)；集成開發環境為PyCharm Community Edition 2016.3.2和Rstudio 0.99.903。程序設計過程中，RNN、LSTM和GRU模型由Python的tensorflow 0.12.0rc0[37]程序包實現，Holt-Winters、ARIMA、SSA、MLR和SVR模型由R的stats 3.3.3[38]、forecast 8.0[39]、Rssa 0.14[40]和rminer 1.4.2[41]程序包實現。

3.2 實驗結果

首先，以飛機A為例，應用2.1節提出的方法對標準化后的故障時間序列訓練集建立LSTM預測模型。這里初步根據經驗確定模型參數，分割窗口長度L取最小值2，狀態向量大小Sstate取半年的月度故障數據點個數6，隨機種子數seed=1，訓練步數steps=500。圖 5展示了相同參數下不同學習率(η=0.05,0.1,0.5)訓練LSTM模型的損失變化和模型精度。可以看出：當η=0.05和η=0.1時，最終獲得的損失較小(0.83左右)；3個學習率對應的訓練集擬合精度基本相同(RMSE值在2.0附近)；在3、4、5、6和12個測試點上，η=0.1的預測精度最高(RMSE值最低)。因此，本文選定η=0.1訓練LSTM模型。

為了驗證LSTM模型在不同類型循環神經網絡中的優勢，本文將LSTM模型的隱藏層細胞替換為RNN和GRU結構，并以相同參數進行實驗。

圖5 不同學習率的損失變化和模型精度對比(A飛機)Fig.5 Comparison of loss change and model accuracy with different learning rates (Aircraft A)

實驗結果如圖6所示。從圖中可以看出：LSTM和GRU的損失變化相似并且都優于RNN，對應的訓練集擬合精度也較高；在5、6和12個測試點上，LSTM的預測精度要高于RNN和GRU。

為了進一步驗證LSTM模型的應用效果，本文采用不同的時間序列預測模型進行對比，實驗結果如表1所示。從表中可以看出：LSTM模型的擬合精度要低于SSA和SVR模型，但是高于其他6種模型；LSTM模型的整體預測精度較高，在6和12個測試點上的預測精度最高(RMSE值分別達到了2.109和2.196)；LSTM模型在該參數組合下的計算耗時要少于ARIMA模型，但是多于其他8種模型。

對于B飛機，實驗流程與A飛機類似。這里根據經驗調整模型參數，令狀態向量大小Sstate仍然取6，分割窗口長度L取一年的月度故障數據點個數12，隨機種子數seed=100，訓練步數steps=1 000。圖7展示了相同參數下不同學習率(η=0.01,0.03,0.05)訓練LSTM模型的損失變化和模型精度。可以看出：3個學習率對應的訓練集擬合精度基本相同(RMSE值在1.2附近)；η=0.05時存在一定的過擬合現象，導致預測精度波動較大；在6和12個測試點上，η=0.03的預測精度最高(RMSE值最低)。因此，本文選定η=0.03訓練LSTM模型。

圖6 不同隱藏層細胞的損失變化和模型精度對比(學習率η=0.1，A飛機)Fig.6 Comparison of loss change and model accuracy with different hidden layer cells (learning rate η=0.1, Aircraft A)

接下來，本文替換隱藏層細胞為RNN和GRU結構并進行實驗，結果如圖8所示。可以看出，LSTM模型無論是在損失變化還是整體模型精度上都優于RNN和GRU模型。圖9展示了LSTM模型的擬合(圖9(a))和預測(圖9(b))結果，其中黑色線條分別代表原始故障時間序列數據劃分的訓練集和測試集，灰色線條分別代表LSTM模型在訓練集和測試集上的擬合序列和預測序列。從圖中可以看出，在12個測試點上，LSTM模型很好地跟蹤了真實的故障數據，達到了比較理想的預測效果。

表1 不同預測模型實驗結果對比(A飛機)

注：最小RMSE值和最小耗時由下劃線標記。

圖7 不同學習率的損失變化和模型精度對比(B飛機)Fig.7 Comparison of loss change and model accuracy with different learning rates (Aircraft B)

圖8 不同隱藏層細胞的損失變化和模型精度對比(學習率η=0.03，B飛機)Fig.8 Comparison of loss change and model accuracy with different hidden layer cells (learning rate η=0.03, Aircraft B)

最后，LSTM模型和不同時間序列預測模型的實驗對比結果如表2所示。從表中可以看出：LSTM模型的擬合精度要低于SSA模型，但是高于其他7種模型；LSTM模型的整體預測精度較高，在3、6、12個測試點上的預測精度最高(RMSE值分別達到了1.703、1.237和1.580)；RNN、GRU和LSTM模型在該參數組合下的計算耗時要明顯多于其他7種模型，并且以LSTM模型耗時最多。

圖9 LSTM模型的擬合和預測結果(學習率η=0.03，B飛機)Fig.9 Fitting and forecasting results with LSTM model (learning rate η=0.03, Aircraft B)

3.3 參數優選

在3.2節的實驗中，LSTM模型的參數取值主要是通過經驗來確定的。本節應用2.2節提到的多層網格搜索算法，對LSTM模型的3個關鍵參數進行優選。首先，固定非關鍵參數取值：隨機種子數seed=1，訓練步數steps=500；然后，設定3個參數的取值范圍：分割窗口長度L∈{2,3,…,24}，狀態向量大小Sstate∈{2,3，…，24}，學習率η∈{0.001,0.003,0.005,0.01,0.03,0.05}，其中L和Sstate的搜索步長為1；最后，設置目標函數為12個測試點上預測精度最高(RMSE值最小)，應用2.2節中的算法2進行網格搜索。

圖10和圖11分別展示了針對2個數據源(A飛機和B飛機)建立2.1節提到的LSTM預測模型的參數搜索結果。在每個子圖中，橫坐標為分割窗口長度L，縱坐標為狀態向量大小Sstate，Rm為最小RMSE值；不同子圖對應學習率η的不同取值；網格中的方塊面積越大、顏色越深表示RMSE值越小。從圖10和圖11中可以看出，當L和Sstate取值較小時更容易獲得較高的預測精度。表3和表4分別列出了針對2個數據源的前5組最優參數組合以及對應的模型精度。表1和表2對比可知，優選后的LSTM模型精度明顯提高。

表2 不同預測模型實驗結果對比(B飛機)

注：最小RMSE值和最小耗時由下劃線標記。

圖10 LSTM模型3參數多層網格搜索結果(A飛機)Fig.10 Multilayer grid search results for three parameters of LSTM model (Aircraft A)

圖11 LSTM模型3參數多層網格搜索結果(B飛機)Fig.11 Multilayer grid search results for three parameters of LSTM model (Aircraft B)

排名模型參數LSstateη訓練集擬合RMSE值測試集預測RMSE值1個測試點2個測試點3個測試點6個測試點12個測試點耗時/s13210．0051．2610．6940．9211．2611．1541．6761．56214100．030．3212．5391．8342．5062．3901．9093．6331780．0051．3111．9231．8242．1372．0042．0413．94419110．030．2890．0540．7621．2902．0582．0614．8454160．030．5843．8602．7592．3951．9912．0811．66

表4 LSTM模型前5組最優參數組合以及對應的模型精度(B飛機)Table 4 The first five groups of optimal parameters and corresponding model accuracy for LSTM model (Aircraft B)

4 結論

本文提出了基于LSTM循環神經網絡的系統級故障時間序列預測方法，包括對LSTM模型的訓練、預測以及參數優選等內容。實驗驗證表明：

1) 與典型的時間序列預測模型相比，LSTM模型的擬合和預測性能整體更優。

2) LSTM模型在訓練過程中的損失變化和模型精度對學習率的取值較為敏感，過低或過高的學習率可能會導致欠擬合或過擬合問題，影響模型的預測性能。

3) 與其他類型的循環神經網絡(RNN和GRU)相比，LSTM模型的擬合和預測精度整體更高，但是訓練過程的耗時也更多。

4) 基于多層網格搜索的參數優選算法效果顯著，特別是對于第2個數據源(B飛機)，在測試點12上的預測精度(RMSE值)達到了0.864，而文獻[8]中提出的混合模型其最優RMSE值僅為1.879。

總的來說，本文驗證了LSTM模型在可靠性預測領域中的適用性，擴展了深度學習技術的應用范疇。基于目前的工作，后續可以展開進一步研究：比如擴展隱藏層層數，檢驗多隱藏層LSTM網絡結構的應用效果；或者從眾多LSTM模型參數入手，尋求更有效的參數優化方法。此外，本文是從歷史數據出發，應用數據驅動的技術逆向建立預測模型。下一步，可以從可靠性相關的領域知識出發，應用提取出來的關鍵特征和要素正向研究可靠性預測方法。

致謝感謝任健老師在實驗數據方面提供的支持，感謝王森章博士在語言方面給予的幫助，感謝評閱論文的各位專家。

參考文獻 (References)

[1] VICHARE N M,PECHT M G.Prognostics and health management of electronics[J].IEEE Transactions on Components & Packaging Technologies,2006,29(1):222-229.

[2] SAPANKEVYCH N I,SANKAR R.Time series prediction using support vector machines: A survey[J].IEEE Computational Intelligence Magazine,2009,4(2):24-38.

[3] 王鑫,吳際,劉超,等.奇異譜分析在故障時間序列分析中的應用[J].北京航空航天大學學報,2016,42(11):2321-2331.

WANG X,WU J,LIU C,et al.Application of singular spectrum analysis for failure time series[J].Journal of Beijing University of Aeronautics and Astronautics,2016,42(11):2321-2331(in Chinese).

[4] 李瑞瑩,康銳.基于ARMA模型的故障率預測方法研究[J].系統工程與電子技術,2008,30(8):1588-1591.

LI R Y,KANG R.Research on failure rate forecasting method based on ARMA model[J].Systems Engineering and Electronics,2008,30(8):1588-1591(in Chinese).

[5] ROCCO S C M.Singular spectrum analysis and forecasting of failure time series[J].Reliability Engineering & System Safety,2013,114(6):126-136.

[6] MOURA M D C,ZIO E,LINS I D,et al.Failure and reliability prediction by support vector machines regression of time series data[J].Reliability Engineering & System Safety,2011,96(11):1527-1534.

[7] XU K,XIE M,TANG L C,et al.Application of neural networks in forecasting engine systems reliability[J].Applied Soft Computing,2003,2(4):255-268.

[8] WANG X,WU J,LIU C,et al.A hybrid model based on singular spectrum analysis and support vector machines regression for failure time series prediction[J].Quality & Reliability Engineering International,2016，32(8):2717-2738.

[9] LECUN Y,BENGIO Y,HINTON G.Deep learning[J].Nature,2015,521(7553):436-444.

[10] GRAVES A.Long short-term memory[M].Berlin:Springer,2012:1735-1780.

[11] SRIVASTAVA N,MANSIMOV E,SALAKHUTDINOV R.Unsupervised learning of video representations using LSTMs[C]∥Proceedings of the 32nd International Conference on Machine Learning.Lille:JMLR W&CP,2015:843-852.

[12] DONAHUE J,HENDRICKS L A,ROHRBACH M,et al.Long-term recurrent convolutional networks for visual recognition and description[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,39(4):677-691.

[13] VINYALS O,TOSHEV A,BENGIO S,et al.Show and tell:A neural image caption generator[C]∥IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:3156-3164.

[14] MA X,TAO Z,WANG Y,et al.Long short-term memory neural network for traffic speed prediction using remote microwave sensor data[J].Transportation Research Part C Emerging Technologies,2015,54:187-197.

[15] HANSON J,YANG Y,PALIWAL K,et al.Improving protein disorder prediction by deep bidirectional long short-term memory recurrent neural networks[J].Bioinformatics,2017,33(5):685.

[16] GREFF K,SRIVASTAVA R K,KOUTNIK J,et al.LSTM:A search space odyssey[J].IEEE Transactions on Neural Networks & Learning Systems,2016,PP(99):1-11.

[17] GRAVES A,SCHMIDHUBER J.Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J].Neural Networks,2005,18(5-6):602.

[18] AMARI S I.Backpropagation and stochastic gradient descent method[J].Neurocomputing,1993,5(4-5):185-196.

[19] DUCHI J,HAZAN E,SINGER Y.Adaptive subgradient methods for online learning and stochastic optimization[J].Journal of Machine Learning Research,2011,12(7):257-269.

[20] YEUNG S,RUSSAKOVSKY O,NING J,et al.Every moment counts:Dense detailed labeling of actions in complex videos[J].International Journal of Computer Vision,2017(8):1-15.

[21] KINGMA D P,BA J.Adam:A method for stochastic optimization[C]∥ICLR 2015,2015:1-15.

[22] CHUNG J,GULCEHRE C,CHO K H,et al.Empirical evaluation of gated recurrent neural networks on sequence modeling[C]∥NIPS 2014 Deep Learning and Representation Learning Workshop,2014:1-9.

[23] CHEN P W,WANG J Y,LEE H M.Model selection of SVMs using GA approach[C]∥IEEE International Joint Conference on Neural Networks.Piscataway,NJ:IEEE Press,2004:2035-2040.

[24] BRATTON D,KENNEDY J.Defining a standard for particle swarm optimization[C]∥IEEE Swarm Intelligence Symposium.Piscataway,NJ:IEEE Press,2007:120-127.

[25] SNOEK J,LAROCHELLE H,ADAMS R P.Practical Bayesian optimization of machine learning algorithms[C]∥International Conference on Neural Information Processing Systems.Lake Tahoe:Curran Associates Inc.,2012:2951-2959.

[26] HSU C W,CHANG C C,LIN C J.A practical guide to support vector classification[EB/OL].(2016-05-19)[2017-03-20]. https:∥www.csie.ntu.edu.tw/～cjlin/papers/guide/guide.pdf .

[27] SU C,JIN Q,FU Y.Correlation analysis for wind speed and failure rate of wind turbines using time series approach[J].Journal of Renewable & Sustainable Energy,2012,4(3):687-700.

[28] CHATFIELD C.The Holt-Winters forecasting procedure[J].Journal of the Royal Statistical Society,1978,27(3):264-279.

[29] BARTHOLOMEW D J.Time series analysis forecasting and control[J].Journal of the Operational Research Society,1971,22(2):199-201.

[30] HYNDMAN R J,KHANDAKAR Y.Automatic time series forecasting:The forecast package for R[J].Journal of Statistical Software,2008,27(3):1-22.

[31] VAUTARD R,YIOU P,GHIL M.Singular-spectrum analysis:A toolkit for short,noisy chaotic signals[J].Physica D-Nonlinear Phenomena,1992,58(1-4):95-126.

[32] GOLYANDINA N,KOROBEYNIKOV A.Basic singular spectrum analysis and forecasting with R[J].Computational Statistics & Data Analysis,2014,71(1):934-954.

[33] NIKOLOPOULOS K,GOODWIN P,PATELIS A,et al.Forecasting with cue information:A comparison of multiple regression with alternative forecasting approaches[J].European Journal of Operational Research,2007,180(1):354-368.

[34] BIANCO V,MANCA O,NARDINI S.Electricity consumption forecasting in Italy using linear regression models[J].Energy,2009,34(9):1413-1421.

[35] BRERETON R G,LLOYD G R.Support vector machines for classification and regression[J].Analyst,2010,135(2):230-267.

[36] CHERKASSKY V,MA Y.Practical selection of SVM parameters and noise estimation for SVM regression[J].Neural Networks,2004,17(1):113-126.

[37] Google.tensorflow rminer 1.4.2[EB/OL].[2017-03-20].https:∥www.tensorflow.org/versions/r0.12.

[38] R Core Team.The R project for statistical computing[EB/OL].[2017-03-20].https:∥www.r-project.org.

[39] HYNDMAN R.robjhyndman/forecast[EB/OL].[2017-03-20].https:∥github.com/robjhyndman/forecast.

[40] KOROBEYNIKOV A.asl/rssa[EB/OL].[2017-03-20].https:∥github.com/asl/rssa.

[41] PAULO C.rminer:Data mining classification and regression methods[EB/OL].[2017-03-20].https:∥cran.r-project.org/package=rminer.