郭曉靜,殷宇萱,贠玉晶
(中國民航大學電子信息與自動化學院,天津 300300)
航空發(fā)動機是飛機正常飛行的重要部件,由于發(fā)動機運行工況繁雜多變、運行環(huán)境相對惡劣,一旦發(fā)生故障,會對飛行安全以及乘客的生命安全造成巨大的威脅。航空發(fā)動機剩余壽命預測依據(jù)狀態(tài)監(jiān)測數(shù)據(jù),如風扇、壓氣機進出口的溫度、壓力、轉速等歷史數(shù)據(jù)并提取特征。因此,構建壽命預測模型,為預防性維護提供技術支撐,具有廣泛的應用價值。
近年來,基于數(shù)據(jù)驅動的方法逐漸成為剩余壽命預測領域的主流技術,常用的數(shù)據(jù)驅動方法主要有兩類:基于統(tǒng)計分析的數(shù)據(jù)驅動算法,基于深度學習的智能學習算法。萬昌豪等[1]對非線性隨機系數(shù)回歸進行退化建模,提出一種融合先驗信息和現(xiàn)場信息的剩余壽命預測方法,能夠有效利用歷史數(shù)據(jù)進行建模,相對準確地預測設備的實際剩余壽命。但由于該方法采用嚴格意義上的數(shù)學建模,往往需要較為理想的假設條件,限制了其發(fā)展與應用。基于深度學習的智能學習算法則不需要構建具體的數(shù)學模型,而是通過分析傳感器監(jiān)測數(shù)據(jù),提取描述發(fā)動機性能退化的特征,利用深度學習技術預測發(fā)動機剩余壽命。周福娜等[2]提出了一種基于DNN的壽命預測方法,首先對高維特征降維,然后構建壽命預測模型,但忽視了發(fā)動機傳感器數(shù)據(jù)時序退化性的特點,在進行模型構建時,無法關注到過去時刻與當前時刻的相關關系。曾慧潔和郭建勝[3]提出一種基于雙向LSTM(Long Short-Term Memory, 長短期記憶網絡)的故障預測方法,能夠在正向和反向同時處理序列數(shù)據(jù)特征,但由于其僅采用單層網絡結構,特征提取能力以及預測精度方面都有待提高。深度學習是解決發(fā)動機壽命預測問題的有效方法,較傳統(tǒng)統(tǒng)計方法相比,可以處理樣本量更大的數(shù)據(jù),故預測可靠性更高。
特征提取是利用深度學習技術進行剩余壽命預測的重要前提。在進行壽命預測前,需要對傳感器數(shù)據(jù)進行預處理,如特征提取、特征融合等。關于特征提取方面的研究已有眾多研究成果。康守強等[4]利用核主成分分析(Kernel Principal Component Analysis,KPCA)去除特征之間的信息冗余,構建約簡后的特征矩陣,該算法的復雜度與數(shù)據(jù)的維度緊密相關,由于發(fā)動機傳感器采集的監(jiān)測數(shù)據(jù)具有高維度、多參數(shù)、規(guī)模大的特點,導致特征提取模型復雜度高。武瀅和舒啟林[5]提出了基于信號數(shù)據(jù)時頻特征向量和支持向量機回歸模型(Support Vector Regression, SVR)的剩余壽命預測方法,將采集到的全壽命周期數(shù)據(jù)分解為時頻特征向量再分別進行特征提取,但在數(shù)據(jù)分解過程中易造成特征丟失。王玉靜等[6]提出一種基于深度森林的軸承剩余壽命預測方法,但網絡模型仍需人工設計標簽數(shù)據(jù)進行有監(jiān)督特征提取。
基于深度學習的壽命預測算法包括特征提取與壽命預測兩部分,針對前述不足,本文作者提出一種融合深度稀疏自動編碼器(Sparse Deep AutoEncoder,SDAE)與長短期記憶網絡的航空發(fā)動機壽命預測方法。通過引入SDAE模型,利用深層編碼器無監(jiān)督特征提取的優(yōu)勢,對發(fā)動機傳感器信號進行有效特征提取,避免人工提取特征的低效率以及所帶來的預測不確定,并利用LSTM模型處理時序數(shù)據(jù)的優(yōu)勢進行發(fā)動機剩余壽命預測。
發(fā)動機傳感器采集的監(jiān)測數(shù)據(jù)包含風扇進出口的總溫度、高壓與低壓壓氣機進出口壓力、風扇物理轉速、涵道比、油氣比、渦輪冷氣流量等21組時序數(shù)據(jù)。本文作者采用深度稀疏自動編碼器作為特征提取模型,長短期記憶網絡作為預測模型,將二者融合,進行預測剩余壽命。
自動編碼器(AutoEncoder,AE)在1986年首次被提出,AE能夠建立從原始數(shù)據(jù)到低維抽象特征的映射關系,處理非線性關系更有優(yōu)勢。它是一種無監(jiān)督的神經網絡模型,分為編碼和解碼兩部分。編碼過程是指隱含層學習輸入數(shù)據(jù)特征的過程,并映射到低維空間,解碼過程則使實際輸出與輸入誤差最小化。
深度稀疏自動編碼器是在AE基礎上引入稀疏正則化約束形成的,原理如圖1所示。稀疏自動編碼器采用平均激活度和稀疏約束參數(shù)描述模型隱含層利用率,以提高特征提取時的降維效果。

(1)
其中:aij為第i個樣本在第j個隱含層節(jié)點處的激活度;wi和b分別為網絡權值和偏置;xi為輸入樣本。
(2)
發(fā)動機性能數(shù)據(jù)由傳感器數(shù)據(jù)解算而來,涵蓋其從初次運行到失效的全壽命周期中的監(jiān)測參數(shù),因此數(shù)據(jù)具有時序性。發(fā)動機壽命預測時,采用傳統(tǒng)深度學習方法進行樣本訓練更新參數(shù),易造成梯度消失,而采用LSTM優(yōu)勢明顯。LSTM是一種具有記憶功能的特殊的神經網絡,通過門控制將加法運算代入網絡中,通過對網絡中的信息進行選擇性的遺忘與保留操作,使得較早時間步長的信息能夠被攜帶到較后時間步長的細胞中,一定程度上解決了梯度消失的問題,從而提高預測精度。因此,本文作者基于LSTM網絡建立發(fā)動機的剩余壽命預測模型。
LSTM常采用單層、多層結構實現(xiàn)壽命預測問題。基本的LSTM網絡結構如圖2所示。
LSTM時序數(shù)據(jù)處理過程如式(3)—式(8)所示,具體為:遺忘門、輸入門和輸出門選擇sigmoid激活函數(shù),記為σ,輸出范圍為[0,1],代表當前輸入信息的重要程度,越接近1表示越重要。在生成候選記憶時,選擇tanh激活函數(shù),用于調節(jié)流經網絡的值,將輸出數(shù)值始終限制在[-1,1]之間。
遺忘門:
ft=σ(Wf[ht-1,xt]+bf)
(3)
輸入門:
it=σ(Wi[ht-1,xt]+bi)
(4)
(5)
輸出門:
ot=σ(Wo[ht-1,xt]+bo)
(6)
(7)
ht=ot⊙tanh(Ct)
(8)
其中:W和b分別為網絡權值和偏置;xt為輸入樣本。
單層LSTM模型在處理長時序高維數(shù)據(jù)時,存在對時間序列信息特征學習不充分的問題,可將多層的LSTM網絡堆疊在一起,提高網絡的泛化能力。同時為避免層數(shù)過多導致過擬合,文中構建雙層LSTM結構作為發(fā)動機剩余壽命預測模型,如圖3所示。第1層的隱藏層輸出作為第2層的時間序列輸入,形成更深層的神經網絡模型,能夠更有效地學習長時間序列的退化信息。
基于上述分析,構建SDAE-LSTM模型,框架如圖4所示。根據(jù)航空發(fā)動機傳感器數(shù)據(jù)特點,結構主要包括前期預處理、模型訓練以及預測評估三部分。前期數(shù)據(jù)預處理實現(xiàn)傳感器數(shù)據(jù)的常量剔除、有效數(shù)據(jù)選取以及數(shù)據(jù)的量綱一化;模型訓練通過學習構建出發(fā)動機剩余壽命預測模型;預測評估用于模型的更新完善,使得測試樣本壽命預測效果有效提升。
在發(fā)動機的多組傳感器監(jiān)測數(shù)據(jù)中,由于風扇進口溫度、壓力、風扇轉速、目標風扇轉速等監(jiān)測數(shù)據(jù)在發(fā)動機的全壽命周期保持不變或變化較小,為提高壽命預測精度,應剔除此類數(shù)據(jù)。標簽數(shù)據(jù)fRUL采用分段線性函數(shù)進行處理,將早期循環(huán)中fRUL設為常值,在一定循環(huán)后開始線性退化,直至達到0,以提高模型預測的準確性。如圖5所示,在75次循環(huán)后分段線性退化模型按線性規(guī)律退化直至壽命為0。
此外,由于發(fā)動機性能參數(shù)數(shù)據(jù)范圍不同,導致數(shù)據(jù)的量綱不統(tǒng)一,不同輸入數(shù)據(jù)樣本差異較大,產生奇異樣本,導致訓練時間增大,同時也可能使模型無法收斂。因此,為提高訓練效率,應先對傳感器數(shù)據(jù)進行量綱一化和標準化處理。
量綱一化方法使用Min-Max模型,如式(9)所示;數(shù)據(jù)標準化如式(10)所示。將量綱一化后的數(shù)據(jù)轉換為均值為0、標準差為1的分布。
(9)
(10)
數(shù)據(jù)預處理之后,原傳感器數(shù)據(jù)樣本中存在的奇異樣本數(shù)據(jù)問題得到有效解決。
在模型訓練階段,通過SDAE編碼提取輸入數(shù)據(jù)深層特征,構建健康因子(Health Indicator,HI)曲線,表征發(fā)動機退化趨勢。編碼后的時序數(shù)據(jù)作為LSTM網絡的輸入,以發(fā)動機全壽命周期的逆序數(shù)作為網絡的標簽,設置學習率、隱含層神經元個數(shù)等網絡參數(shù)后進行訓練。選擇回歸類問題默認的損失函數(shù)——均方差損失批量計算損失,更新模型參數(shù)。在預測評估階段,將測試集輸入到訓練好的SDAE-LSTM網絡模型,得到預測的fRUL值,并對預測的性能進行評估。
在壽命預測問題中,常用均方根誤差fRMSE作為評價預測結果的指標。fRMSE表示預測值與真實值偏差的平方與樣本量n比值的平方根,也叫回歸系統(tǒng)的擬合標準差,用來評估樣本值較均值的平均偏離程度,其值越小,預測效果越好,計算公式如式(11)所示:
(11)
本文作者在性能度量指標方面增加fScore評分函數(shù),以解決發(fā)動機數(shù)據(jù)預處理后,不同樣本fRMSE差異較小的問題。當fRMSE指標相近時,fScore有較好的偏差度。fScore計算公式如式(12)所示,采用指數(shù)函數(shù)調整偏差度,fScore越小,預測效果越好,以便彌補fRMSE的不足。
(12)
本文作者選擇NASA故障預測研究中心公開的C-MAPSS數(shù)據(jù)集進行實驗驗證。仿真環(huán)境采用NVIDIA GeForce GTX 1650 Ti、Intel Core i5-10200H CPU、16G RAM、Windows 10、MATLAB R2020b。
該數(shù)據(jù)集由多個多變量時間序列組成,被劃分為4個子集,F(xiàn)D001~FD004,每個子集按1∶1劃分為訓練集和測試集。各子集樣本量如表1所示。FD001與FD003分別為100臺發(fā)動機退化數(shù)據(jù),F(xiàn)D002與FD004分別為260、249臺發(fā)動機退化數(shù)據(jù)。其中,各子集訓練樣本為渦扇發(fā)動機全壽命周期傳感器監(jiān)測數(shù)據(jù),測試樣本為發(fā)動機從第1個循環(huán)周期到失效前的某個循環(huán)周期之間的監(jiān)測數(shù)據(jù)。

表1 原始樣本集文件
仿真實驗具體包括數(shù)據(jù)預處理、模型參數(shù)訓練、發(fā)動機剩余壽命預測3個方面。
首先對FD001~FD004的數(shù)據(jù)進行預處理,以FD001中第1臺發(fā)動機退化數(shù)據(jù)為例,原始數(shù)據(jù)經過量綱一化與標準化,結果如圖6(a)所示。圖6(b)所示為該發(fā)動機中風扇進口溫度、高壓壓氣機出口溫度、風扇進口壓力、高壓壓氣機出口壓力、實際核心機轉速的數(shù)據(jù)預處理結果。可知:經過預處理的數(shù)據(jù)被限定在 [-3,3] 范圍內,消除了量綱不統(tǒng)一對預測效果的影響。
其次,將預處理后的數(shù)據(jù)輸入到SDAE中,對訓練集數(shù)據(jù)進行無監(jiān)督預訓練。由于數(shù)據(jù)來自21個傳感器,故SDAE編碼網絡結構選擇為5層,每層神經元數(shù)量分別選擇為17、16、15、8、1,最后1層為最終提取出的特征值。最終得到發(fā)動機健康因子(HI)曲線,如圖7所示。可知:濾波前HI曲線存在噪聲,曲線平滑度差,區(qū)分度不足;對其進行平滑濾波處理,濾波后由于不同發(fā)動機在退化過程中各傳感器權重的差別,由SDAE提取出的深層特征在發(fā)動機全生命周期內呈現(xiàn)出明顯單調遞增或遞減的特性,能較好地表征發(fā)動機的退化過程。經實驗表明,其余3個子集FD002~FD004同樣具有明顯的單調性。
最后,選取每臺發(fā)動機全壽命周期的循環(huán)逆序數(shù)作為訓練集標簽,訓練LSTM網絡模型參數(shù)。根據(jù)數(shù)據(jù)集的4種運行工況、4種故障模式以及傳感器采集參數(shù),分組訓練不同工況、不同故障模式下的傳感器數(shù)據(jù)對剩余壽命影響的權重,將訓練好的權重引入LSTM模型進行發(fā)動機剩余壽命預測。
設置隱藏層神經元為400,學習率分段設置,初始學習率為0.005,每迭代30輪減小1/5。為防止神經元過多、迭代次數(shù)大造成過擬合,導致模型泛化性能下降,添加dropout層,取值為0.25。在訓練過程中,為提高壽命預測準確率,在反向傳播過程中尋找損失函數(shù)的最優(yōu)解,以更新權重和偏置參數(shù),應選擇合適的梯度下降優(yōu)化算法。在FD001~FD004四個測試子集分別比較3種梯度下降算法ADAM、RMSProp和SGDM的預測誤差,SGDM算法預測誤差最小,故文中使用SGDM進行梯度計算。預測的RMSE和Score結果如表2所示。

表2 不同優(yōu)化方法比較
隨機從每個測試子集中選擇3臺發(fā)動機繪制壽命預測結果曲線,如圖8所示。可知:預測值曲線與真實值曲線擬合度高,失效時間早的發(fā)動機臨近失效拐點時,曲線有較小偏差,但總體預測準確性仍保持較高水平。
為全面驗證模型在不同數(shù)據(jù)集上的預測效果,定義各數(shù)據(jù)集中發(fā)動機剩余壽命預測誤差與實際壽命比值為預測壽命偏離度,比較4個測試集中所有發(fā)動機的預測壽命與真實壽命,并計算繪制誤差曲線如圖9所示,橫坐標為發(fā)動機編號。由表3可見,F(xiàn)D001偏離度最小,為16.35%,其最大誤差為55.22;FD002偏離度最大,為22.14%,最大誤差為67.16。

表3 最大誤差與偏離度
同等實驗條件下,選擇DNN、BiLSTM、單層LSTM 3種方法與文中方法比較,結果如表 4所示。文中提出的SDAE-LSTM模型的fRMSE分別比DNN、BiLSTM、單層LSTM平均降低了6.6%、25%、19.8%;fScore分別平均降低了39.1%、92.7%、66.7%。除在FD003數(shù)據(jù)集上fRMSE和fScore略高于DNN外,其余子集中文中模型均為最優(yōu)。

表4 文中模型與其他模型預測效果比較
為提高模型回歸預測效率與預測結果準確度,本文作者提出了深度稀疏自動編碼器與雙層長短期記憶融合模型SDAE+LSTM。結果表明:采用SDAE+LSTM模型可以利用自動編碼器的特征提取優(yōu)勢,實現(xiàn)數(shù)據(jù)深層特征提取,獲得HI曲線,建立與RUL曲線的特征關系。數(shù)據(jù)編碼降維后,預測模型的復雜度大大降低,壽命預測效果明顯提升。文中所提方法具有較強的泛化能力和可行性,能夠有效進行壽命預測。