基于集成學(xué)習(xí)的渦扇發(fā)動(dòng)機(jī)剩余壽命預(yù)測(cè)

2022-08-19 14:03:02吳細(xì)寶陳雯柏

中國(guó)測(cè)試 2022年7期

張豹，劉瓊，吳細(xì)寶，陳雯柏

(北京信息科技大學(xué)自動(dòng)化學(xué)院，北京 100192)

0 引言

隨著對(duì)核心設(shè)備可靠性和安全性要求的不斷提高，高效預(yù)測(cè)設(shè)備的使用壽命，已經(jīng)成為近二十年來(lái)研究的熱點(diǎn)問(wèn)題[1]。大量的工程實(shí)踐證明，良好的預(yù)測(cè)與健康管理(prognostics and health management,PHM)不僅可以優(yōu)化設(shè)備的資源管理配置、保障維修、延壽工作，還可以提高設(shè)備運(yùn)行的可靠性和安全性[2]。作為PHM技術(shù)的核心基礎(chǔ)，剩余使用壽命(remaining useful lifetime, RUL)預(yù)測(cè)是依據(jù)設(shè)備的歷史狀態(tài)監(jiān)測(cè)數(shù)據(jù)，評(píng)估設(shè)備的健康狀態(tài)，從而實(shí)現(xiàn)對(duì)設(shè)備的健康管理和合理維護(hù)。渦扇發(fā)動(dòng)機(jī)作為航天設(shè)備的核心部件，高效預(yù)測(cè)其剩余使用壽命，適時(shí)評(píng)估其健康狀態(tài)，對(duì)減少重大事故的發(fā)生具有重要的意義[3]。

根據(jù)不同的實(shí)驗(yàn)機(jī)理和實(shí)驗(yàn)方法，建立不同的剩余壽命預(yù)測(cè)模型。如，分析導(dǎo)致系統(tǒng)失效的物理、化學(xué)原因，建立基于失效機(jī)理的剩余壽命預(yù)測(cè)方法[4]；利用監(jiān)測(cè)數(shù)據(jù)和失效數(shù)據(jù)，通過(guò)機(jī)器學(xué)習(xí)擬合系統(tǒng)性能變化規(guī)律，建立基于機(jī)器學(xué)習(xí)的監(jiān)測(cè)數(shù)據(jù)與失效時(shí)間之間的映射關(guān)系，實(shí)現(xiàn)剩余壽命預(yù)測(cè)[5]；統(tǒng)計(jì)系統(tǒng)日常運(yùn)行監(jiān)測(cè)數(shù)據(jù)，提取可以反映系統(tǒng)健康狀態(tài)的性能變量，建立系統(tǒng)性能退化趨勢(shì)演化規(guī)律的隨機(jī)過(guò)程模型完成剩余壽命預(yù)測(cè)[6]。

傳統(tǒng)的剩余壽命預(yù)測(cè)方法大部分是基于Gamma過(guò)程、Markov鏈、隱含馬氏過(guò)程[7]等，由于此類(lèi)方法具有單一性和不可逆性，使得在實(shí)際應(yīng)用中存在諸多局限。目前，渦扇發(fā)動(dòng)機(jī)的剩余使用壽命預(yù)測(cè)模型大多是建立在深度神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上。如，朱霖[8]等提出了一種采用遺傳算法優(yōu)選時(shí)序卷積網(wǎng)絡(luò) (temporal convolutional network, TCN)的基元，并對(duì)優(yōu)選基元進(jìn)行集成的剩余使用壽命預(yù)測(cè)模型。宋亞[9]等建立了一種整合自編碼神經(jīng)網(wǎng)絡(luò)(Autoencoder)和雙向長(zhǎng)短期記憶(bidirectional long short-term memory, BLSTM)神經(jīng)網(wǎng)絡(luò)優(yōu)勢(shì)的混合健康狀態(tài)預(yù)測(cè)模型，優(yōu)化預(yù)測(cè)剩余使用壽命。徐碩[10]等提出一種將變分自編碼器和雙判別器對(duì)抗式生成網(wǎng)絡(luò)(dual discriminator generative adversarial nets, D2GAN)相結(jié)合的預(yù)訓(xùn)練特征提取模型，之后利用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)建立預(yù)測(cè)模型。然而，此類(lèi)基于深度神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型雖然具有較高的預(yù)測(cè)精度，但收斂速度慢、對(duì)數(shù)據(jù)量的要求高，且過(guò)于依賴網(wǎng)絡(luò)初值和網(wǎng)絡(luò)的隱節(jié)點(diǎn)數(shù)，降低了模型的預(yù)測(cè)效率。

XGBoost算法采用的Pre-Sorted特征排序方式和Block數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)，高效地節(jié)省了訓(xùn)練時(shí)間，算法中加入的正則項(xiàng)，便于控制模型的復(fù)雜度，有利于避免過(guò)擬合，提高模型的泛化能力。本文基于XGBoost算法建立的預(yù)測(cè)模型，預(yù)測(cè)精度在可接受的偏差范圍內(nèi)，同時(shí)提升了運(yùn)算速度和穩(wěn)定性，提高了模型的綜合預(yù)測(cè)效率。

1 數(shù)據(jù)分析與特征選擇

1.1 數(shù)據(jù)集

本文的實(shí)驗(yàn)數(shù)據(jù)集使用NASA官網(wǎng)的渦扇發(fā)動(dòng)機(jī)仿真數(shù)據(jù)集(C-MAPSS)的Kaggle版本。該數(shù)據(jù)集包含渦扇發(fā)動(dòng)機(jī)全生命周期的模擬數(shù)據(jù)和某時(shí)刻采集的剩余壽命值。由FD001、FD002、FD003、FD004四組數(shù)據(jù)構(gòu)成，其中每一組數(shù)據(jù)均是在不同的操作條件和故障模式下采集得到，數(shù)據(jù)集情況如表1所示。

表1 C-MAPSS數(shù)據(jù)集

每一組退化軌跡數(shù)據(jù)均由設(shè)備號(hào)、循環(huán)周期、3種設(shè)置參數(shù)和21個(gè)傳感器的測(cè)量數(shù)據(jù)構(gòu)成。實(shí)驗(yàn)中，使用循環(huán)周期來(lái)重構(gòu)渦扇發(fā)動(dòng)機(jī)的剩余壽命數(shù)據(jù)；3種設(shè)置參數(shù)和21個(gè)傳感器的測(cè)量數(shù)據(jù)對(duì)渦扇發(fā)動(dòng)機(jī)的剩余壽命影響各不相同，會(huì)呈現(xiàn)出正相關(guān)、負(fù)相關(guān)、不相關(guān)和不確定的關(guān)系，因此，需對(duì)該數(shù)據(jù)進(jìn)行特征選擇處理，以便剔除無(wú)關(guān)變量、篩選重要特征、減少運(yùn)算量。以FD001組數(shù)據(jù)為例，對(duì)數(shù)據(jù)預(yù)處理分析和特征選擇過(guò)程進(jìn)行詳細(xì)介紹。

1.2 數(shù)據(jù)預(yù)處理

FD001組的數(shù)據(jù)集是根據(jù)每臺(tái)設(shè)備在某一時(shí)刻下開(kāi)始采集得到的剩余使用壽命數(shù)據(jù)。FD001組100臺(tái)設(shè)備的剩余使用壽命分布情況如圖1所示。其中，橫坐標(biāo)所代表的剩余使用壽命是指設(shè)備在完成數(shù)據(jù)采集后的剩余飛行次數(shù)。

人事檔案管理需要完善健全的制度，只有這樣才能綜合性提升其管理水平，才能切實(shí)提升人事檔案管理的成效。當(dāng)前，大部分事業(yè)單位人事檔案管理工作中，缺乏科學(xué)完善的制度，缺乏全面系統(tǒng)的體系，管理不夠規(guī)范。

圖1 FD001組數(shù)據(jù)集中RUL分布情況

由于某一時(shí)刻采集的剩余壽命數(shù)值無(wú)法體現(xiàn)設(shè)備的整個(gè)退化軌跡過(guò)程，因此，需要補(bǔ)全整條退化軌跡數(shù)據(jù)，才能完整分析出3種設(shè)置參數(shù)和21個(gè)傳感器的測(cè)量數(shù)據(jù)如何影響渦扇發(fā)動(dòng)機(jī)的剩余壽命。根據(jù)訓(xùn)練集和測(cè)試集數(shù)據(jù)，建立如下公式重構(gòu)退化軌跡數(shù)據(jù)：

重構(gòu)后的剩余壽命數(shù)據(jù)如圖2所示。

圖2 重構(gòu)后的渦扇發(fā)動(dòng)機(jī)剩余壽命數(shù)據(jù)

由圖2可知，重構(gòu)后的數(shù)據(jù)，包含了渦扇發(fā)動(dòng)機(jī)在各個(gè)采集時(shí)刻的剩余壽命值，即渦扇發(fā)動(dòng)機(jī)剩余壽命的完整退化軌跡。

1.3 特征選擇

特征選擇對(duì)算法性能起著主導(dǎo)性作用，旨在從數(shù)據(jù)集中提取具有代表性的特征。一方面，提高模型的預(yù)測(cè)性能，另一方面，減少運(yùn)算量。對(duì)重構(gòu)后的數(shù)據(jù)進(jìn)行分析，3種設(shè)置參數(shù)和21個(gè)傳感器的測(cè)量數(shù)據(jù)與渦扇發(fā)動(dòng)機(jī)的剩余使用壽命關(guān)系定義如下：

1）正相關(guān)：隨著剩余壽命值減小而傳感器測(cè)量值逐漸減小的特征，即正相關(guān)特征。

2）負(fù)相關(guān)：隨著剩余壽命值減小而傳感器測(cè)量值逐漸增大的特征，即負(fù)相關(guān)特征。

3）不相關(guān)：方差為0的特征，即不相關(guān)特征。

4）不確定：不隨剩余壽命值的減小而規(guī)律變化的特征，即不確定特征。

表2 不同特征與RUL之間的相關(guān)性分類(lèi)

考慮到 Setting_1、Setting_2與 FD001組第一臺(tái)設(shè)備的剩余壽命存在不確定的關(guān)系，故將其劃分到可用特征范圍內(nèi)，24個(gè)特征最終篩選出16個(gè)可用特征。圖3～圖6分別展示了4類(lèi)不同相關(guān)性特征與第一臺(tái)設(shè)備的剩余壽命退化軌跡之間的關(guān)系。其中1 psia=6 895 Pa ，1 kft=304.8 m。

圖3 核心機(jī)物理轉(zhuǎn)速與RUL退化軌跡的關(guān)系

圖4 風(fēng)扇物理轉(zhuǎn)速與RUL退化軌跡的關(guān)系

圖5 風(fēng)扇進(jìn)口壓強(qiáng)與RUL退化軌跡的關(guān)系

圖6 飛行高度與RUL退化軌跡的關(guān)系

2 集成學(xué)習(xí)方法

Boosting集成學(xué)習(xí)[11]通過(guò)將多個(gè)弱學(xué)習(xí)器串行迭代得到強(qiáng)學(xué)習(xí)器。基本過(guò)程是：首先依據(jù)初始訓(xùn)練集生成一個(gè)基學(xué)習(xí)器，在每一層訓(xùn)練的時(shí)候，根據(jù)基學(xué)習(xí)器的表現(xiàn)，更新訓(xùn)練數(shù)據(jù)的權(quán)值分布，對(duì)前一層基學(xué)習(xí)器分錯(cuò)的樣本，給予更高的權(quán)重；然后基于改變后的訓(xùn)練數(shù)據(jù)訓(xùn)練下一個(gè)基學(xué)習(xí)器，層層疊加，直至得到預(yù)期的M個(gè)基學(xué)習(xí)器或達(dá)到規(guī)定的錯(cuò)誤率；最后根據(jù)各基學(xué)習(xí)器的誤差結(jié)果進(jìn)行加權(quán)組合，構(gòu)成一個(gè)強(qiáng)的集成學(xué)習(xí)器。

2.1 GBDT原理

梯度提升決策樹(shù)算法(Gradient Boosting Decision Tree，GBDT)將 Gradient Boosting思想與 Boosting Tree結(jié)合，選擇回歸樹(shù)作為基學(xué)習(xí)器，沿著負(fù)梯度的方向擬合每棵回歸樹(shù)，使殘差逐漸減小。實(shí)現(xiàn)步驟如下：

2.2 XGBoost原理

在GBDT算法的基礎(chǔ)之上，陳天奇于2015年提出了 XGBoost(extreme gradient boosting)算法[14]。二者最大的區(qū)別在于損失函數(shù)的不同，GBDT算法在求解基函數(shù)中使用負(fù)梯度近似殘差值，即對(duì)損失函數(shù)做泰勒公式的一階展開(kāi)，而XGBoost 算法對(duì)損失函數(shù)進(jìn)行了二階泰勒公式展開(kāi)，相比較一階泰勒公式展開(kāi)，該方法與實(shí)際損失函數(shù)值更接近、收斂速度更快、準(zhǔn)確率更高。

3 本文方法

3.1 模型結(jié)構(gòu)

本文基于XGBoost算法框架建立剩余壽命預(yù)測(cè)模型。以回歸樹(shù)作為基學(xué)習(xí)器，通過(guò)對(duì)平方差損失函數(shù)的二階泰勒公式展開(kāi)逼近殘差，迭代至預(yù)期的M個(gè)基學(xué)習(xí)器。并采用網(wǎng)格搜索方法，對(duì)模型的參數(shù)進(jìn)行優(yōu)化。模型結(jié)構(gòu)如圖7所示。

圖7 模型結(jié)構(gòu)框圖

3.2 訓(xùn)練過(guò)程

模型訓(xùn)練過(guò)程的具體步驟如下：

1）數(shù)據(jù)重構(gòu)，根據(jù)公式（1）重構(gòu)出可以反映渦扇發(fā)動(dòng)機(jī)剩余使用壽命的完整退化軌跡數(shù)據(jù)；

2）特征選擇，分析每個(gè)特征與RUL退化軌跡之間的關(guān)系，分類(lèi)、篩選出可用特征作為輸入數(shù)據(jù)；

3）讀取數(shù)據(jù)，迭代訓(xùn)練，更新權(quán)值，網(wǎng)格搜索，優(yōu)化參數(shù)，保存模型；

4）輸入待預(yù)測(cè)數(shù)據(jù)，輸出預(yù)測(cè)結(jié)果；

5）比較結(jié)果，分析原因。

算法實(shí)現(xiàn)如圖8所示。

圖8 算法實(shí)現(xiàn)框圖

4 實(shí)驗(yàn)及結(jié)果分析

4.1 實(shí)驗(yàn)設(shè)置

該研究以北京信息科技大學(xué)智能科學(xué)與技術(shù)系視覺(jué)實(shí)驗(yàn)室的計(jì)算機(jī)網(wǎng)絡(luò)、工作站和微機(jī)環(huán)境為實(shí)驗(yàn)平臺(tái)，選擇C-MAPSS渦扇發(fā)動(dòng)機(jī)仿真數(shù)據(jù)集為實(shí)驗(yàn)數(shù)據(jù)，基于PyTorch深度學(xué)習(xí)框架實(shí)現(xiàn)。

4.2 評(píng)價(jià)標(biāo)準(zhǔn)

實(shí)驗(yàn)采用均方根誤差(RMSE)和擬合優(yōu)度(r2)對(duì)模型的預(yù)測(cè)性能進(jìn)行評(píng)價(jià)。

RMSE越小說(shuō)明模型的性能越好；擬合優(yōu)度反應(yīng)了x對(duì)y變化的描述程度，即r2越接近1，說(shuō)明模型的擬合效果越好。

4.3 結(jié)果分析

將測(cè)試集中每臺(tái)設(shè)備的最后一行數(shù)據(jù)，即包含16個(gè)可用特征的數(shù)據(jù)輸入兩種模型后，預(yù)測(cè)結(jié)果如圖9所示。

圖9 GBDT與XGBoost模型預(yù)測(cè)結(jié)果

從圖9可以看出，XGBoost的預(yù)測(cè)結(jié)果更接近RUL的實(shí)際分布情況，模型預(yù)測(cè)性能優(yōu)于GBDT。不同的模型實(shí)驗(yàn)結(jié)果對(duì)比如表3所示。

表3 不同模型性能指標(biāo)結(jié)果

分析表3可知，與CNN-LSTM方法相比，本文基于XGBoost算法的模型預(yù)測(cè)精度雖然略低，但運(yùn)行時(shí)間較短，綜合效率更高。基于XGBoost算法的模型預(yù)測(cè)性能優(yōu)于GBDT算法，其中，擬合優(yōu)度(r2)提升了約5%；均方根誤差(RMSE)降低約6.83%。

此外，模型還可輸出基于F score的特征重要性定量評(píng)價(jià)結(jié)果，便于更進(jìn)一步的特征篩選，得分越高，說(shuō)明該特征對(duì)模型預(yù)測(cè)性能影響越大。16個(gè)可用特征的重要性排序結(jié)果如圖10所示。

圖10 不同特征對(duì)模型預(yù)測(cè)性能的影響重要性

5 結(jié)束語(yǔ)

本文針對(duì)C-MAPSS渦扇發(fā)動(dòng)機(jī)的剩余壽命退化軌跡數(shù)據(jù)，分別建立了基于GBDT和XGBoost算法的剩余壽命預(yù)測(cè)模型，并對(duì)比分析了不同模型的預(yù)測(cè)性能和實(shí)驗(yàn)結(jié)果。雖然優(yōu)化后的GBDT和XGBoost模型預(yù)測(cè)精度略低于CNN-LSTM方法，但集成學(xué)習(xí)的運(yùn)行時(shí)間較短，綜合效率更高，同時(shí)還可以輸出特征重要性程度的排序，分析影響渦扇發(fā)動(dòng)機(jī)剩余壽命的主要因素。未來(lái)將進(jìn)一步研究影響模型性能的關(guān)鍵因素，并改進(jìn)模型優(yōu)化方法，以進(jìn)一步提高RUL預(yù)測(cè)精度。