王欣, 黃佳琪, 許雅璽
(1.中國(guó)民用航空飛行學(xué)院計(jì)算機(jī)學(xué)院, 廣漢 618307; 2.中國(guó)民用航空飛行學(xué)院經(jīng)濟(jì)與管理學(xué)院, 廣漢 618307)
如今預(yù)測(cè)與健康管理(prognostics and health management,PHM)技術(shù)應(yīng)用在很多復(fù)雜的工業(yè)系統(tǒng)領(lǐng)域,其中,通過提前預(yù)測(cè)系統(tǒng)中可能存在的故障,預(yù)測(cè)相關(guān)設(shè)備在失效前的剩余使用壽命(remaining useful life,RUL)是PHM的一個(gè)重要組成部分[1]。發(fā)動(dòng)機(jī)作為飛機(jī)的核心器件,對(duì)安全性要求嚴(yán)格,其內(nèi)部結(jié)構(gòu)復(fù)雜,工況多變,運(yùn)行期間容易受到多種因素的影響。通過對(duì)發(fā)動(dòng)機(jī)上的傳感器部件進(jìn)行監(jiān)控,分析傳感器的數(shù)據(jù),掌握發(fā)動(dòng)機(jī)內(nèi)部的健康狀態(tài),從而進(jìn)一步挖掘其中隱藏的故障信息,對(duì)發(fā)動(dòng)機(jī)的RUL進(jìn)行預(yù)測(cè)[4]。發(fā)動(dòng)機(jī)剩余壽命的預(yù)測(cè),有效保障了發(fā)動(dòng)機(jī)的平穩(wěn)運(yùn)行和狀態(tài)維護(hù),一定程度上減少了發(fā)動(dòng)機(jī)在運(yùn)行中發(fā)生災(zāi)難性故障的可能性,對(duì)航空業(yè)的發(fā)展有一定的促進(jìn)作用[5]。
RUL預(yù)測(cè)本質(zhì)是一個(gè)與時(shí)間序列相關(guān)的回歸問題。航空發(fā)動(dòng)機(jī)的RUL預(yù)測(cè)通常包括基于物理模型的預(yù)測(cè)、基于統(tǒng)計(jì)方法的預(yù)測(cè)、基于人工智能方法的預(yù)測(cè)以及基于混合模型的預(yù)測(cè)[1]。基于物理模型的預(yù)測(cè),通常需要領(lǐng)域?qū)<覍?duì)其發(fā)動(dòng)機(jī)內(nèi)部結(jié)構(gòu)有充足的了解,掌握其運(yùn)行原理,且有時(shí)面對(duì)系統(tǒng)多個(gè)內(nèi)部變量的共同作用,難以準(zhǔn)確構(gòu)建預(yù)測(cè)模型?;诮y(tǒng)計(jì)方法的預(yù)測(cè)需要利用統(tǒng)計(jì)學(xué)原理,針對(duì)復(fù)雜設(shè)備故障概率給出設(shè)備的維護(hù)建議。二者都需要掌握一定的相關(guān)領(lǐng)域的專業(yè)知識(shí),而且當(dāng)設(shè)備更復(fù)雜時(shí),退化機(jī)理難以通過物理模型和經(jīng)驗(yàn)?zāi)P兔枋?無(wú)法準(zhǔn)確預(yù)測(cè)RUL,因此這兩種方法受到了一定程度的限制。基于數(shù)據(jù)驅(qū)動(dòng)的方法無(wú)需系統(tǒng)的先驗(yàn)知識(shí),只需用搭建相應(yīng)的網(wǎng)絡(luò)模型描述輸入數(shù)據(jù)與輸出數(shù)據(jù)關(guān)系即可,無(wú)需建立復(fù)雜的退化機(jī)理模型,通過機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的方法挖掘數(shù)據(jù)之間的隱含信息進(jìn)行剩余壽命預(yù)測(cè),是一種重要的RUL預(yù)測(cè)手段。
針對(duì)工業(yè)設(shè)備內(nèi)部傳感器記錄的參數(shù),有多方面的信息需要去挖掘,于是,有眾多學(xué)者通過使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)方法,對(duì)序列數(shù)據(jù)的空間特征進(jìn)行提取。Miao等[6]通過自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò),自適應(yīng)調(diào)整感受野捕獲特征的基本信息,在不同工況下預(yù)測(cè)軸承的RUL。郭俊峰等[7]搭建了堆疊的膨脹卷積神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型,擴(kuò)大了感受野,接收了更多的歷史數(shù)據(jù)的輸入,提高了長(zhǎng)序列信號(hào)的航空發(fā)動(dòng)機(jī)RUL預(yù)測(cè)。雖然CNN方法在空間特征提取上具有較好的優(yōu)勢(shì),但是難以提取長(zhǎng)期數(shù)據(jù)之間的依賴關(guān)系,當(dāng)面對(duì)多維且長(zhǎng)序列的傳感器數(shù)據(jù)時(shí),不足以充分挖掘傳感器時(shí)間維度上的隱藏信息,因此便有了RNN和注意力機(jī)制的應(yīng)用。Li等[8]提出了一種基于注意力的方法,在RNN中對(duì)不同的時(shí)間步長(zhǎng)進(jìn)行加權(quán)來(lái)提高RUL預(yù)測(cè)的性能。Ragab等[9]提出了一種Encoder-Decoder模型,在網(wǎng)絡(luò)中嵌入長(zhǎng)短期記憶單元(long short-term memory,LSTM),通過注意力層來(lái)選擇重要的輸入信息,傳遞給解碼器;并通過給定當(dāng)前輸入序列,讓解碼器來(lái)預(yù)測(cè)下一個(gè)輸入序列。通過計(jì)算預(yù)測(cè)序列和實(shí)際序列之間的差值、RUL標(biāo)簽與真實(shí)標(biāo)簽之間的差值來(lái)聯(lián)合優(yōu)化損失,從而增強(qiáng)模型的預(yù)測(cè)能力。王欣等[10]提出了一種基于注意力與長(zhǎng)短期記憶(directional long short-term memory, LSTM)網(wǎng)絡(luò)的航空發(fā)動(dòng)機(jī)剩余壽命預(yù)測(cè)模型Attention-LSTM,并融合注意力機(jī)制加強(qiáng)模型對(duì)特征之間的學(xué)習(xí),提高發(fā)動(dòng)機(jī)剩余使用壽命預(yù)測(cè)精度。慎明俊等[11]將融合深度置信神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò),充分利用數(shù)據(jù)的相關(guān)性,提高了軸承壽命預(yù)測(cè)的準(zhǔn)確性。
雖然以上方法在RUL估計(jì)問題上有著很大的優(yōu)勢(shì),但是在面對(duì)非常長(zhǎng)的序列數(shù)據(jù)時(shí),由于其網(wǎng)絡(luò)結(jié)構(gòu)的局限性,容易丟失重要的信息。航空發(fā)動(dòng)機(jī)上的健康監(jiān)測(cè)傳感器通常以高頻率記錄數(shù)據(jù),飛行時(shí)間通常達(dá)數(shù)小時(shí),每次飛行需測(cè)量的時(shí)間序列很長(zhǎng)。因此,為了改善RNN在預(yù)測(cè)長(zhǎng)序列數(shù)據(jù)時(shí)存在的梯度消失和爆炸問題,以及CNN的局限性,本文研究使用了一種改進(jìn)版的Transformer架構(gòu)來(lái)進(jìn)行時(shí)間序列預(yù)測(cè)。Transformer模型使用自注意力機(jī)制學(xué)習(xí)序列間的依賴關(guān)系。但是在對(duì)長(zhǎng)時(shí)間序列數(shù)據(jù)進(jìn)行預(yù)測(cè)時(shí),Transformer往往也會(huì)暴露出部分缺陷,如高時(shí)間復(fù)雜度、高內(nèi)存占用率,動(dòng)態(tài)解碼對(duì)模型推理速度的限制等問題。為了改善上述問題,本文研究在借鑒Informer[12]的基礎(chǔ)上,結(jié)合概率稀疏自注意力(ProbSparse Self-Attention)和擴(kuò)張因果卷積進(jìn)行航空發(fā)動(dòng)機(jī)的RUL預(yù)測(cè),上述模型主要具有三個(gè)顯著的優(yōu)點(diǎn):①應(yīng)用ProbSparse Self-Attention,能夠篩選出所有最重要的一部分query,能夠大大地減少計(jì)算的時(shí)間復(fù)雜度和空間復(fù)雜度;②提出了自注意力層的蒸餾操作,通過卷積核池化層減少網(wǎng)絡(luò)參數(shù)量;③將擴(kuò)張因果卷積與Transformer結(jié)合,以獲得指數(shù)級(jí)的感受野增長(zhǎng)。
商用模塊化航空推進(jìn)系統(tǒng)仿真(commercial modular aero-propulsion system simulation, C-MAPSS)數(shù)據(jù)集發(fā)布于2008年,是航空發(fā)動(dòng)機(jī)剩余壽命預(yù)測(cè)領(lǐng)域的典型數(shù)據(jù)集,目前大量研究工作都是基于此數(shù)據(jù)集。2021年新發(fā)布了N-CMAPSS數(shù)據(jù)集[13],N-CMAPSS不僅考慮了商業(yè)飛機(jī)上記錄的真實(shí)飛行條件,還將退化過程與其操作歷史聯(lián)系。因此預(yù)測(cè)在長(zhǎng)時(shí)間運(yùn)行、退化模式更復(fù)雜情況下的航空發(fā)動(dòng)機(jī)剩余使用壽命,現(xiàn)使用ProbSparse Self-Attention取代原始Transformer中的常規(guī)自注意力機(jī)制,結(jié)合擴(kuò)張因果卷積來(lái)提高模型對(duì)長(zhǎng)序列信息的捕獲能力,以此提高預(yù)測(cè)效率和精度。
模型由編碼器和解碼器兩部分構(gòu)成,整體結(jié)構(gòu)如圖1所示。在基于Transformer模型結(jié)構(gòu)基礎(chǔ)上,將內(nèi)部的自注意力部分替換為ProbSparse Self-Attention,且EncoderLayer之間通過擴(kuò)張因果卷積與池化層相連接,以此優(yōu)化網(wǎng)絡(luò)中的參數(shù)數(shù)量。經(jīng)過預(yù)處理的數(shù)據(jù)首先進(jìn)行位置編碼,使用位置編碼可以讓神經(jīng)網(wǎng)絡(luò)更好地理解數(shù)據(jù)的時(shí)間關(guān)系,從而改善模型的準(zhǔn)確性;編碼器部分通過多頭自注意力機(jī)制以及卷積神經(jīng)網(wǎng)絡(luò)對(duì)傳感器數(shù)據(jù)進(jìn)行時(shí)間和空間上的特征提取,輸出一個(gè)包含特征隱藏信息的序列Feature Map,作為解碼器的一部分輸入。解碼器與編碼器類似,還包含一個(gè)多頭注意力層,用于將編碼器的輸出與解碼器自身的表示結(jié)合起來(lái),以便更好地預(yù)測(cè)下一個(gè)飛行周期的RUL。在訓(xùn)練階段,解碼器部分包含兩部分輸入:一是編碼器部分最后的輸出;二是標(biāo)簽RUL的輸入,要預(yù)測(cè)的部分填充為0,通過兩層注意力層,將解碼器的輸出映射到RUL作為輸出。

圖1 模型結(jié)構(gòu)Fig.1 Structure of model
編碼器由位置編碼層、注意力層、前饋神經(jīng)網(wǎng)絡(luò)層、激活函數(shù)、殘差連接和歸一化層等堆疊組成,位置編碼層通過使用正弦和余弦函數(shù)將輸入向量中的元素添加到位置編碼向量中來(lái)編碼時(shí)間序列數(shù)據(jù)中的序列信息。序列信息經(jīng)過注意力層整合,使得模型更關(guān)注時(shí)間序列中重要的時(shí)間節(jié)點(diǎn),大幅縮減時(shí)間維度;通過前饋神經(jīng)網(wǎng)絡(luò)層和卷積層,進(jìn)一步提取傳感器空間特征;在編碼器層之間通過擴(kuò)張因果卷積相連,最后映射為向量傳遞給解碼器。具體結(jié)構(gòu)如圖2所示。

圖2 編碼器架構(gòu)Fig.2 Encoder part diagram

圖3 解碼器架構(gòu)Fig.3 Decoder part diagram
解碼器與編碼器類似,不同之處在于解碼器中有兩個(gè)注意力層,第一個(gè)注意力層使用了掩碼機(jī)制,以確保時(shí)間序列數(shù)據(jù)點(diǎn)的預(yù)測(cè)僅依賴于歷史信息。第二個(gè)注意力層也可以稱為交叉注意力機(jī)制(cross-attention),使解碼器能夠?qū)Πl(fā)動(dòng)機(jī)歷史退化信息進(jìn)行有效建模。
為了使模型能夠利用輸入信息中的時(shí)間順序信息,在編碼器和解碼器的入口添加位置編碼層,在輸入序列中注入每個(gè)值的一些相對(duì)或絕對(duì)位置信息[14]。在這里使用正弦和余弦函數(shù)對(duì)序列進(jìn)行位置編碼,具體公式為
(1)
(2)
式中:PE為位置編碼;pos為時(shí)間點(diǎn)位置;dmodel為傳感器維度;i為向量中索引,偶數(shù)位置與奇數(shù)位置分別使用sin和cos函數(shù)編碼位置信息。
擴(kuò)張因果卷積[15]結(jié)合了因果卷積核擴(kuò)張卷積的思想,因果卷積可以確保信息不會(huì)泄露,即t時(shí)刻的數(shù)據(jù)是根據(jù)t時(shí)刻之前的信息進(jìn)行預(yù)測(cè),但是當(dāng)網(wǎng)絡(luò)層數(shù)加深的時(shí)候,會(huì)影響模型訓(xùn)練速度,擴(kuò)張卷積的引入會(huì)改善此問題。擴(kuò)張卷積通過跳過部分值捕獲更長(zhǎng)的歷史序列信息,而感受野隨著網(wǎng)絡(luò)層數(shù)增加呈指數(shù)形式增長(zhǎng),因此,擴(kuò)張因果卷積的引入有效地增加了感受野,也避免了網(wǎng)絡(luò)層數(shù)加深帶來(lái)的模型訓(xùn)練效率下降等問題。擴(kuò)張因果卷積結(jié)構(gòu)示意圖如圖4所示。

Input:輸入;Output:輸出;padding:填充;d:擴(kuò)張因果卷積的擴(kuò)張率
自注意力機(jī)制是Transformer中的核心部分,引入Self-Attention后更容易捕獲數(shù)據(jù)中長(zhǎng)距離的依賴關(guān)系,傳統(tǒng)的自注意力通過計(jì)算當(dāng)前時(shí)間點(diǎn)與其他時(shí)間點(diǎn)的相關(guān)性,時(shí)間復(fù)雜度和空間復(fù)雜度為O(L2)。而概率分布稀疏自注意力(ProbSparse Self-Attention)通過利用自注意力概率分布的稀疏性,在計(jì)算當(dāng)前時(shí)間和歷史時(shí)間點(diǎn)的相關(guān)性時(shí),忽略掉關(guān)聯(lián)性非常小的時(shí)間點(diǎn)信息,使時(shí)間和空間復(fù)雜度均達(dá)到了O(LlogL),有效地減小了Attention計(jì)算的復(fù)雜度,提高了模型運(yùn)算效率[10]。
在傳統(tǒng)的Self-Attention中,基于查詢向量Q、鍵向量K、內(nèi)容向量V,通過計(jì)算關(guān)聯(lián)矩陣,再經(jīng)過Softmax函數(shù)得到注意力值,相應(yīng)計(jì)算公式為
(3)
式(3)中:A為Attention。
在ProbSparse Self-Attention,允許每個(gè)key 只關(guān)注u個(gè)主要的查詢,即
(4)
(5)

N-CMAPSS數(shù)據(jù)集是由美國(guó)國(guó)家航空航天局(National Aeronautics and Space Administration,NASA)開發(fā)的商用模塊化航空推進(jìn)系統(tǒng)仿真(CMAPSS)模型生成,在原始的C-MAPSS數(shù)據(jù)集上進(jìn)行了改進(jìn),N-CMAPSS數(shù)據(jù)集提供了實(shí)際飛行條件下未知初始健康狀態(tài)的渦扇發(fā)動(dòng)機(jī)數(shù)據(jù)集的全面運(yùn)行到故障退化軌跡。本文研究采用N-CMAPSS中的DS02數(shù)據(jù)集作為實(shí)驗(yàn)對(duì)象,該數(shù)據(jù)集包含9臺(tái)發(fā)動(dòng)機(jī)以及2種故障模式。DS02數(shù)據(jù)集具體描述如表2所示,訓(xùn)練集中第2、5和10號(hào)機(jī)組的故障模式是高壓渦輪(high-pressure turbine, HPT)效率下降;第16、18、20機(jī)組以及測(cè)試單元11、14、15的故障模式更為復(fù)雜,包括低壓渦輪(low-pressure turbine, LPT)效率和流量、高壓渦輪(high-pressure turbine,HPT)效率的下降。表中展示了不同編號(hào)發(fā)動(dòng)機(jī)數(shù)據(jù)的大小和從正常到失效的周期,每個(gè)飛行周期包括爬升、巡航和下降過程且發(fā)動(dòng)機(jī)的初始健康狀況未知。數(shù)據(jù)集包含6類變量:操作條件(W),測(cè)量屬性(Xs),虛擬傳感器讀數(shù)(Xv),發(fā)動(dòng)機(jī)健康參數(shù)(θ),RUL標(biāo)簽以及輔助數(shù)據(jù),為下一步的數(shù)據(jù)預(yù)處理提供幫助。
為便于分析發(fā)動(dòng)機(jī)的狀態(tài)參數(shù)在退化過程中的變化趨勢(shì),以飛行時(shí)間為橫坐標(biāo),各自傳感器的狀態(tài)監(jiān)測(cè)值為縱坐標(biāo),以編號(hào)為U5的發(fā)動(dòng)機(jī)從正常運(yùn)行到失效的傳感器為例分析參數(shù)變化,如圖5所示。在一個(gè)完整生命周期內(nèi),發(fā)動(dòng)機(jī)健康狀態(tài)的參數(shù)hs初始狀態(tài)為1,表示發(fā)動(dòng)機(jī)性能一切正常,隨著發(fā)動(dòng)機(jī)的運(yùn)行,hs在某一時(shí)刻變?yōu)?,表示發(fā)動(dòng)機(jī)性能此時(shí)已經(jīng)開始出現(xiàn)退化趨勢(shì),各部件性能狀態(tài)已不是初始狀態(tài);RUL從初始的89逐漸降為0。

橫坐標(biāo)表示發(fā)動(dòng)機(jī)運(yùn)行時(shí)間,縱坐標(biāo)表示參數(shù)具體數(shù)值;Nf、Nc、Wf分別為物理風(fēng)扇轉(zhuǎn)速、物理核心轉(zhuǎn)速、燃料流量;unit、cycle、Fc、hs分別為發(fā)動(dòng)機(jī)單元、飛行周期、航班類別、健康狀態(tài)
2.2.1 歸一化
由于原始變量具有不同的尺度,若直接輸入模型中訓(xùn)練會(huì)大幅降低模型學(xué)習(xí)和收斂速度,因此在訓(xùn)練前,應(yīng)先對(duì)原始數(shù)據(jù)進(jìn)行規(guī)范化處理。本文研究采用歸一化對(duì)原始數(shù)據(jù)進(jìn)行處理,使數(shù)據(jù)量綱范圍處于[0,1],即
(6)
式(6)中:xi為此傳感器的值;xmax和xmin分別為此傳感器的最大值和最小值。
2.2.2 數(shù)據(jù)切片


圖6 滑動(dòng)窗口切片F(xiàn)ig.6 Sliding window slice
2.2.3 數(shù)據(jù)分組
在對(duì)航空發(fā)動(dòng)機(jī)的RUL進(jìn)行預(yù)測(cè)過程中,也需要綜合考慮多種外在因素對(duì)發(fā)動(dòng)機(jī)性能的影響,工況是影響航空發(fā)動(dòng)機(jī)剩余壽命預(yù)測(cè)的重要因素之一。工況對(duì)發(fā)動(dòng)機(jī)疲勞壽命、腐蝕程度、可靠性等均有不同程度的影響:發(fā)動(dòng)機(jī)在不同工況下的使用壽命和載荷大小不同,例如高溫、高速、高海拔等環(huán)境下的使用會(huì)使發(fā)動(dòng)機(jī)受到更大的熱力和機(jī)械應(yīng)力,從而加速疲勞損傷,潮濕或腐蝕性會(huì)加速發(fā)動(dòng)機(jī)的腐蝕損傷,影響其可靠性和穩(wěn)定性,增加了故障的風(fēng)險(xiǎn)。
因此,在進(jìn)行航空發(fā)動(dòng)機(jī)剩余壽命預(yù)測(cè)時(shí),需要考慮工況對(duì)發(fā)動(dòng)機(jī)壽命的影響。在表3的基礎(chǔ)上,可以進(jìn)一步對(duì)數(shù)據(jù)集進(jìn)行劃分,可以將表示索引的如發(fā)動(dòng)機(jī)編號(hào),飛行周期數(shù)、飛行類別分為索引組,這幾個(gè)參數(shù)對(duì)于預(yù)測(cè)發(fā)動(dòng)機(jī)剩余壽命沒有作用,只是為了區(qū)分不同發(fā)動(dòng)機(jī)的飛行周期和飛行類別;將表示工況的4個(gè)參數(shù)分為一組;剩余38個(gè)傳感器讀數(shù)分為一組。具體分類如表3所示。
2.2.4 實(shí)驗(yàn)環(huán)境及超參數(shù)設(shè)置
模型在訓(xùn)練過程中受參數(shù)影響較大,因此需要選取最佳的參數(shù)組合來(lái)增強(qiáng)模型的魯棒性。對(duì)于6個(gè)訓(xùn)練單元(u=2,5,10,16,18,20),按照9∶1的比例把數(shù)據(jù)集隨機(jī)劃分成訓(xùn)練集和驗(yàn)證集,剩下的3個(gè)單元(u=11,14,15)作為測(cè)試集。采用發(fā)動(dòng)機(jī)RUL直接映射方法,將訓(xùn)練好的數(shù)據(jù)樣本輸入訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中,最后經(jīng)過一個(gè)全連接層輸出RUL值,全連接層激活函數(shù)采用Gelu函數(shù),優(yōu)化器采用Adam。每次試驗(yàn)輪數(shù)設(shè)置為50,進(jìn)行5次重復(fù)實(shí)驗(yàn),以5次實(shí)驗(yàn)的RMSE和Score均值作為評(píng)價(jià)標(biāo)準(zhǔn)。
采用Hyperband 超參數(shù)動(dòng)態(tài)優(yōu)化算法和StratifiedKFold優(yōu)化模型性能,對(duì)實(shí)驗(yàn)中涉及的部分參數(shù)進(jìn)行組合實(shí)驗(yàn),窗口長(zhǎng)度L={30,50,80,100},卷積核尺寸k={3,5,10},批訓(xùn)練量batch size={32,64,128,256},初始學(xué)習(xí)率設(shè)為0.001,每2個(gè)epoch過去模型性能沒有提升則學(xué)習(xí)率衰減為2倍,均方根誤差(root mean square error,RMSE)作為模型的損失函數(shù),早停率設(shè)為5,當(dāng)RMSE值在連續(xù)5個(gè)epoch沒有下降時(shí)停止訓(xùn)練。實(shí)驗(yàn)硬件設(shè)備為Intel(R)Xe-on(R)W-2123(3.60 GHz),內(nèi)存16.0 GB,顯卡為NVIDIA Quadro P2000,編程環(huán)境為Python3.6,框架為Pytorch1.8.0。一些重要的參數(shù)如表4所示。
算法性能評(píng)價(jià)指標(biāo)使用均方根誤差(RMSE)和NASA的評(píng)分函數(shù)(Score),具體公式為
(7)
(8)
式中:m*為測(cè)試樣本總數(shù);ypred為預(yù)測(cè)值;ytrue為真實(shí)值;α取值為1/13(預(yù)測(cè)值小于真實(shí)值時(shí))或1/10(預(yù)測(cè)值大于真實(shí)值時(shí)),不同的懲罰系數(shù)體現(xiàn)出對(duì)壽命預(yù)測(cè)結(jié)果不同的懲罰程度。
2.4.1 編碼器、解碼器層數(shù)對(duì)比實(shí)驗(yàn)
相比多層編碼器,單一的編碼器層不足以提取發(fā)動(dòng)機(jī)監(jiān)測(cè)數(shù)據(jù)中深層次信息,但是過多的編碼器層又增大了模型的復(fù)雜度、訓(xùn)練時(shí)間等,效果也不一定最優(yōu),因此為了探索適合的編碼器層數(shù),進(jìn)行多次對(duì)比實(shí)驗(yàn),不同層數(shù)對(duì)應(yīng)的模型指標(biāo)如表5所示。
當(dāng)解碼器層數(shù)固定,隨著編碼器層數(shù)的增多,RMSE和Score呈先下降后上升趨勢(shì),說(shuō)明了當(dāng)網(wǎng)絡(luò)層數(shù)加深的時(shí)候,能更充分地提取發(fā)動(dòng)機(jī)退化特征,網(wǎng)絡(luò)效果表現(xiàn)良好;但是當(dāng)層數(shù)超過某個(gè)數(shù)量的時(shí)候,模型性能下降,訓(xùn)練時(shí)間也明顯增加,因此綜合考慮模型復(fù)雜度和訓(xùn)練時(shí)間,將編碼器層數(shù)設(shè)置為3,解碼器層數(shù)設(shè)置為2。
2.4.2 多頭注意力頭數(shù)對(duì)比實(shí)驗(yàn)
模型在對(duì)當(dāng)前位置信息編碼時(shí),有時(shí)會(huì)過于將注意力集中于自身位置,因此使用多頭注意力機(jī)制改善這一問題,同時(shí)處理多個(gè)輸入序列,自動(dòng)學(xué)習(xí)到不同輸入序列之間的關(guān)聯(lián),然后將所有學(xué)習(xí)到的特征融合起來(lái),捕獲數(shù)據(jù)間的依賴關(guān)系。一般來(lái)說(shuō),頭數(shù)越多,模型的表達(dá)能力就越強(qiáng),可以更好地利用輸入序列之間的關(guān)聯(lián),從而提高模型的準(zhǔn)確率。但頭數(shù)過多可能引起過擬合,計(jì)算復(fù)雜度也會(huì)升高。為了尋找最優(yōu)的注意力頭數(shù),在上一步最優(yōu)編碼解碼器層數(shù)的基礎(chǔ)上,設(shè)置了如表6所示的對(duì)比實(shí)驗(yàn),當(dāng)注意力頭數(shù)為8時(shí),模型的性能最好,推理時(shí)間也最短,因此設(shè)置多頭注意力個(gè)數(shù)為8。
2.4.3 消融實(shí)驗(yàn)
為了驗(yàn)證模型內(nèi)部組件對(duì)于實(shí)驗(yàn)精度的影響,將模型分為幾個(gè)部分進(jìn)行訓(xùn)練,Transformer為基準(zhǔn)模型,Transformer_M1在原Transformer基礎(chǔ)上,將標(biāo)準(zhǔn)的自注意力換為ProbSparse Self-Attention,Transformer_M2在Transformer_M1基礎(chǔ)上,注意力層后加入卷積操作;基于M2,Transformer_M3把M2卷積操作替換成為擴(kuò)張因果卷積,此模型也是本文提出的模型。結(jié)果如表7所示。
M1模型相比原始的Transformer模型精度有了很大提高,ProbSparse Self-Attention也大大降低了計(jì)算復(fù)雜度;M2模型基于M1在注意力層后加入卷積操作,使得模型訓(xùn)練速度和精度得到提升,但是改進(jìn)效果不顯著;M3模型在M2的基礎(chǔ)上把卷積操作替換成為擴(kuò)張因果卷積,擴(kuò)大了感受野,增強(qiáng)了模型的學(xué)習(xí)能力,使訓(xùn)練時(shí)間進(jìn)一步減少,有效提高了模型推理效率。
2.4.4 RUL預(yù)測(cè)中的工況分析
DS02數(shù)據(jù)集中,傳感器參數(shù)呈現(xiàn)周期長(zhǎng)、特征維數(shù)多的特點(diǎn),僅以U5為例,在89個(gè)飛行周期中,傳感器記錄的參數(shù)量達(dá)到(1 033 420,47),所有訓(xùn)練集中數(shù)據(jù)量達(dá)(5 263 447,47)之多,測(cè)試集三個(gè)單元的數(shù)據(jù)量為(1 253 743,47)。為了減少模型的計(jì)算量,對(duì)所需的數(shù)據(jù)進(jìn)行下采樣,即隔位取值,每隔k個(gè)時(shí)間步取一行數(shù)據(jù)。對(duì)于訓(xùn)練數(shù)據(jù)集,下采樣步數(shù)為10步,對(duì)于測(cè)試數(shù)據(jù)集,下采樣步數(shù)為5步,采樣后的訓(xùn)練集和測(cè)試集分別為(526 344,47)、(250 748,47)。本節(jié)設(shè)置對(duì)照組,分析發(fā)動(dòng)機(jī)工況對(duì)剩余壽命預(yù)測(cè)的影響,搭建了以下實(shí)驗(yàn),具體描述如表8所示。
在預(yù)測(cè)模型中可以發(fā)現(xiàn),加入運(yùn)行條件后,各項(xiàng)實(shí)驗(yàn)指標(biāo)都出現(xiàn)了明顯的優(yōu)化,結(jié)果如表9所示。這證明了在RUL預(yù)測(cè)中融入實(shí)際運(yùn)行條件對(duì)于模型性能提升和預(yù)測(cè)精度的重要性和有效性。
以U11和U15為例,將不同工況下模型對(duì)發(fā)動(dòng)機(jī)RUL的預(yù)測(cè)值進(jìn)行整合,結(jié)果如圖7所示,由圖7可知,在對(duì)發(fā)動(dòng)機(jī)RUL進(jìn)行預(yù)測(cè)的過程中,加入工況參數(shù),預(yù)測(cè)精度得到提高,Transformer_M3模型的預(yù)測(cè)值曲線與真實(shí)值擬合程度也優(yōu)于其他三個(gè)模型。本文數(shù)據(jù)集中表示海拔高度、馬赫數(shù)、油門解析器角度、風(fēng)機(jī)入口總溫度的4種工況參數(shù),在一定程度上記錄了溫度、海拔、濕度、轉(zhuǎn)速等工作條件,都直接或間接影響著發(fā)動(dòng)機(jī)的性能退化過程。

紫色表示真實(shí)值的RUL
2.4.5 與其他方法對(duì)比
此節(jié)對(duì)比實(shí)驗(yàn),將測(cè)試集的3個(gè)發(fā)動(dòng)機(jī)單元數(shù)據(jù)集進(jìn)行合并,為了充分驗(yàn)證本模型的優(yōu)越性,將本模型與其他常見的RUL預(yù)測(cè)方法進(jìn)行對(duì)比,結(jié)果如表10所示。

表1 ProbSparse Self-Attention計(jì)算過程Table 1 ProbSparse Self-Attention calculation process

表2 DS02數(shù)據(jù)集描述Table 2 DS02 data set description

表3 DS02數(shù)據(jù)集分組Table 3 Grouping of DS02 data sets

表4 模型參數(shù)設(shè)置Table 4 Model parameter settings

表5 編碼/解碼器層數(shù)的結(jié)果比較Table 5 The result compares the number of encoding/decoder layers

表6 不同注意力頭數(shù)各指標(biāo)對(duì)比

表7 模型消融實(shí)驗(yàn)Table 7 Model ablation experiment

表8 工況分析模型描述Table 8 Description of working condition analysis model

表9 各方法在測(cè)試集上的評(píng)價(jià)指標(biāo)Table 9 Evaluation indexes of each method on the test set

表10 與其他方法的對(duì)比實(shí)驗(yàn)Table 10 Comparison experiment with other methods
本文模型在RMSE值和推理時(shí)間上取得了最優(yōu)效果,Score略高于擴(kuò)張因果卷積模型,這證明擴(kuò)張因果卷積模型在處理長(zhǎng)序列時(shí)具有良好的性能,能夠處理時(shí)間序列中的長(zhǎng)期依賴關(guān)系,并且訓(xùn)練速度較快。LSTM處理長(zhǎng)序列時(shí)存在梯度消失和梯度爆炸的問題,導(dǎo)致訓(xùn)練困難,并沒有取得較好效果;CNN處理時(shí)間序列數(shù)據(jù)中能夠捕捉局部的時(shí)間特征,相比LSTM和BiLSTM都有明顯的提升;MLP不適用于處理長(zhǎng)期依賴關(guān)系的時(shí)間序列數(shù)據(jù),Transformer相比LSTM預(yù)測(cè)效果略微提升,由于原始的多頭自注意力機(jī)制的存在,增大了模型復(fù)雜度,導(dǎo)致推理時(shí)間變長(zhǎng); N-CMAPSS數(shù)據(jù)集相比C-MAPSS時(shí)間序列變長(zhǎng),特征維數(shù)變多,本模型中通過結(jié)合ProbSparse Self-Attention注意力,使得模型更關(guān)注時(shí)間序列中重要的時(shí)間節(jié)點(diǎn),減小了時(shí)間和空間復(fù)雜度,使得在長(zhǎng)時(shí)間序列數(shù)據(jù)預(yù)測(cè)中更有優(yōu)勢(shì)。
將數(shù)據(jù)輸入網(wǎng)絡(luò)模型中,迭代50次進(jìn)行訓(xùn)練,最后在測(cè)試集[11,14,15]3個(gè)發(fā)動(dòng)機(jī)單元進(jìn)行驗(yàn)證,預(yù)測(cè)結(jié)果和真實(shí)結(jié)果的對(duì)比曲線圖如圖8所示。

Pred、True分別為航空發(fā)動(dòng)機(jī)剩余使用壽命的預(yù)測(cè)值和真實(shí)值;Count為預(yù)測(cè)值和真實(shí)值誤差的統(tǒng)計(jì)
圖中給出了真實(shí)值的95%置信區(qū)間,絕大多數(shù)預(yù)測(cè)值分布在置信區(qū)間內(nèi),U11、U14、U15三個(gè)單元的R2分?jǐn)?shù)分別為0.94/0.91/0.92,這也表示模型對(duì)數(shù)據(jù)的擬合程度較好??梢园l(fā)現(xiàn)在預(yù)測(cè)初期,預(yù)測(cè)值曲線都是先低于實(shí)際曲線,與真實(shí)值相差較大,這可能是運(yùn)行初期發(fā)動(dòng)機(jī)退化特征不明顯,模型學(xué)習(xí)到的發(fā)動(dòng)機(jī)退化特征有限,從而結(jié)果存在一定誤差。隨著發(fā)動(dòng)機(jī)運(yùn)行時(shí)間增大,當(dāng)RUL預(yù)測(cè)到達(dá)中后期時(shí),曲線收斂速度加快,與實(shí)際曲線擬合更緊密,波動(dòng)范圍更小。說(shuō)明中后期退化特征也更加明顯,模型能更加充分的提取發(fā)動(dòng)機(jī)的退化信息,因此,預(yù)測(cè)值與真實(shí)值也更接近,從而使預(yù)測(cè)值更準(zhǔn)確。
在圖8(b)對(duì)編號(hào)為U14的發(fā)動(dòng)機(jī)RUL預(yù)測(cè)過程中,前一半周期的預(yù)測(cè)值偏小,整體預(yù)測(cè)效果明顯不如U11和U15,由表2可知,U14發(fā)動(dòng)機(jī)對(duì)應(yīng)的數(shù)據(jù)量只有0.16M,相對(duì)于其他兩臺(tái)發(fā)動(dòng)機(jī),U14數(shù)據(jù)量偏小,模型未能充分學(xué)習(xí)到發(fā)動(dòng)機(jī)退化特征,無(wú)法精確預(yù)測(cè)發(fā)動(dòng)機(jī)的RUL,造成前期預(yù)測(cè)偏差加大。
為了進(jìn)一步探究所提框架的RUL預(yù)測(cè)精度,統(tǒng)計(jì)了其在測(cè)試樣本和每個(gè)子集上的RUL預(yù)測(cè)偏差,如圖8(d)、圖8(e)和圖8(f)所示。由圖8可知,RUL的預(yù)測(cè)偏差接近正態(tài)分布。大部分預(yù)測(cè)偏差集中在較小的偏差區(qū)間,只有少量預(yù)測(cè)偏差集中在較高的偏差區(qū)間,以上表明所提模型具有良好的RUL預(yù)測(cè)性能。
提出了一種基于概率稀疏自注意力的Transformer模型用于航空發(fā)動(dòng)機(jī)的剩余壽命預(yù)測(cè),用ProbSparse Self-Attention取代原始Transformer中的常規(guī)自注意力機(jī)制,使得模型更關(guān)注時(shí)間序列中重要的時(shí)間節(jié)點(diǎn),大幅縮減時(shí)間維度,減小了時(shí)間和空間復(fù)雜度;通過注意力層整合后的信息,進(jìn)一步通過前饋神經(jīng)網(wǎng)絡(luò)層和卷積層,提取傳感器的空間特征,編碼層之間通過擴(kuò)張因果卷積相連接,擴(kuò)大了感受野,提高了模型對(duì)長(zhǎng)序列信息的捕獲能力。針對(duì)N-CMAPSS數(shù)據(jù)集中長(zhǎng)序列、高維度的特點(diǎn),對(duì)訓(xùn)練集和測(cè)試集進(jìn)行下采樣,分析消融實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)結(jié)果表明了本文模型對(duì)于長(zhǎng)序列數(shù)據(jù)有著良好的預(yù)測(cè)能力,進(jìn)一步提升了模型的訓(xùn)練效率,有著更好的應(yīng)用前景。但是本模型所使用的注意力機(jī)制只在局部網(wǎng)絡(luò)中取得了良好的表現(xiàn)效果,若要與其他模型結(jié)合使用,證明概率稀疏自注意力機(jī)制的泛化性和有效性還需進(jìn)一步研究。