張 豹,劉 瓊,吳細(xì)寶,陳雯柏
(北京信息科技大學(xué)自動(dòng)化學(xué)院,北京 100192)
隨著對(duì)核心設(shè)備可靠性和安全性要求的不斷提高,高效預(yù)測(cè)設(shè)備的使用壽命,已經(jīng)成為近二十年來(lái)研究的熱點(diǎn)問(wèn)題[1]。大量的工程實(shí)踐證明,良好的預(yù)測(cè)與健康管理(prognostics and health management,PHM)不僅可以優(yōu)化設(shè)備的資源管理配置、保障維修、延壽工作,還可以提高設(shè)備運(yùn)行的可靠性和安全性[2]。作為PHM技術(shù)的核心基礎(chǔ),剩余使用壽命(remaining useful lifetime, RUL)預(yù)測(cè)是依據(jù)設(shè)備的歷史狀態(tài)監(jiān)測(cè)數(shù)據(jù),評(píng)估設(shè)備的健康狀態(tài),從而實(shí)現(xiàn)對(duì)設(shè)備的健康管理和合理維護(hù)。渦扇發(fā)動(dòng)機(jī)作為航天設(shè)備的核心部件,高效預(yù)測(cè)其剩余使用壽命,適時(shí)評(píng)估其健康狀態(tài),對(duì)減少重大事故的發(fā)生具有重要的意義[3]。
根據(jù)不同的實(shí)驗(yàn)機(jī)理和實(shí)驗(yàn)方法,建立不同的剩余壽命預(yù)測(cè)模型。如,分析導(dǎo)致系統(tǒng)失效的物理、化學(xué)原因,建立基于失效機(jī)理的剩余壽命預(yù)測(cè)方法[4];利用監(jiān)測(cè)數(shù)據(jù)和失效數(shù)據(jù),通過(guò)機(jī)器學(xué)習(xí)擬合系統(tǒng)性能變化規(guī)律,建立基于機(jī)器學(xué)習(xí)的監(jiān)測(cè)數(shù)據(jù)與失效時(shí)間之間的映射關(guān)系,實(shí)現(xiàn)剩余壽命預(yù)測(cè)[5];統(tǒng)計(jì)系統(tǒng)日常運(yùn)行監(jiān)測(cè)數(shù)據(jù),提取可以反映系統(tǒng)健康狀態(tài)的性能變量,建立系統(tǒng)性能退化趨勢(shì)演化規(guī)律的隨機(jī)過(guò)程模型完成剩余壽命預(yù)測(cè)[6]。
傳統(tǒng)的剩余壽命預(yù)測(cè)方法大部分是基于Gamma過(guò)程、Markov鏈、隱含馬氏過(guò)程[7]等,由于此類(lèi)方法具有單一性和不可逆性,使得在實(shí)際應(yīng)用中存在諸多局限。目前,渦扇發(fā)動(dòng)機(jī)的剩余使用壽命預(yù)測(cè)模型大多是建立在深度神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上。如,朱霖[8]等提出了一種采用遺傳算法優(yōu)選時(shí)序卷積網(wǎng)絡(luò) (temporal convolutional network, TCN)的基元,并對(duì)優(yōu)選基元進(jìn)行集成的剩余使用壽命預(yù)測(cè)模型。宋亞[9]等建立了一種整合自編碼神經(jīng)網(wǎng)絡(luò)(Autoencoder)和雙向長(zhǎng)短期記憶(bidirectional long short-term memory, BLSTM)神經(jīng)網(wǎng)絡(luò)優(yōu)勢(shì)的混合健康狀態(tài)預(yù)測(cè)模型,優(yōu)化預(yù)測(cè)剩余使用壽命。徐碩[10]等提出一種將變分自編碼器和雙判別器對(duì)抗式生成網(wǎng)絡(luò)(dual discriminator generative adversarial nets, D2GAN)相結(jié)合的預(yù)訓(xùn)練特征提取模型,之后利用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)建立預(yù)測(cè)模型。然而,此類(lèi)基于深度神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型雖然具有較高的預(yù)測(cè)精度,但收斂速度慢、對(duì)數(shù)據(jù)量的要求高,且過(guò)于依賴網(wǎng)絡(luò)初值和網(wǎng)絡(luò)的隱節(jié)點(diǎn)數(shù),降低了模型的預(yù)測(cè)效率。
XGBoost算法采用的Pre-Sorted特征排序方式和Block數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),高效地節(jié)省了訓(xùn)練時(shí)間,算法中加入的正則項(xiàng),便于控制模型的復(fù)雜度,有利于避免過(guò)擬合,提高模型的泛化能力。本文基于XGBoost算法建立的預(yù)測(cè)模型,預(yù)測(cè)精度在可接受的偏差范圍內(nèi),同時(shí)提升了運(yùn)算速度和穩(wěn)定性,提高了模型的綜合預(yù)測(cè)效率。
本文的實(shí)驗(yàn)數(shù)據(jù)集使用NASA官網(wǎng)的渦扇發(fā)動(dòng)機(jī)仿真數(shù)據(jù)集(C-MAPSS)的Kaggle版本。該數(shù)據(jù)集包含渦扇發(fā)動(dòng)機(jī)全生命周期的模擬數(shù)據(jù)和某時(shí)刻采集的剩余壽命值。由FD001、FD002、FD003、FD004四組數(shù)據(jù)構(gòu)成,其中每一組數(shù)據(jù)均是在不同的操作條件和故障模式下采集得到,數(shù)據(jù)集情況如表1所示。
表1 C-MAPSS數(shù)據(jù)集
每一組退化軌跡數(shù)據(jù)均由設(shè)備號(hào)、循環(huán)周期、3種設(shè)置參數(shù)和21個(gè)傳感器的測(cè)量數(shù)據(jù)構(gòu)成。實(shí)驗(yàn)中,使用循環(huán)周期來(lái)重構(gòu)渦扇發(fā)動(dòng)機(jī)的剩余壽命數(shù)據(jù);3種設(shè)置參數(shù)和21個(gè)傳感器的測(cè)量數(shù)據(jù)對(duì)渦扇發(fā)動(dòng)機(jī)的剩余壽命影響各不相同,會(huì)呈現(xiàn)出正相關(guān)、負(fù)相關(guān)、不相關(guān)和不確定的關(guān)系,因此,需對(duì)該數(shù)據(jù)進(jìn)行特征選擇處理,以便剔除無(wú)關(guān)變量、篩選重要特征、減少運(yùn)算量。以FD001組數(shù)據(jù)為例,對(duì)數(shù)據(jù)預(yù)處理分析和特征選擇過(guò)程進(jìn)行詳細(xì)介紹。
FD001組的數(shù)據(jù)集是根據(jù)每臺(tái)設(shè)備在某一時(shí)刻下開(kāi)始采集得到的剩余使用壽命數(shù)據(jù)。FD001組100臺(tái)設(shè)備的剩余使用壽命分布情況如圖1所示。其中,橫坐標(biāo)所代表的剩余使用壽命是指設(shè)備在完成數(shù)據(jù)采集后的剩余飛行次數(shù)。
人事檔案管理需要完善健全的制度,只有這樣才能綜合性提升其管理水平,才能切實(shí)提升人事檔案管理的成效。當(dāng)前,大部分事業(yè)單位人事檔案管理工作中,缺乏科學(xué)完善的制度,缺乏全面系統(tǒng)的體系,管理不夠規(guī)范。
圖1 FD001組數(shù)據(jù)集中RUL分布情況
由于某一時(shí)刻采集的剩余壽命數(shù)值無(wú)法體現(xiàn)設(shè)備的整個(gè)退化軌跡過(guò)程,因此,需要補(bǔ)全整條退化軌跡數(shù)據(jù),才能完整分析出3種設(shè)置參數(shù)和21個(gè)傳感器的測(cè)量數(shù)據(jù)如何影響渦扇發(fā)動(dòng)機(jī)的剩余壽命。根據(jù)訓(xùn)練集和測(cè)試集數(shù)據(jù),建立如下公式重構(gòu)退化軌跡數(shù)據(jù):
重構(gòu)后的剩余壽命數(shù)據(jù)如圖2所示。
圖2 重構(gòu)后的渦扇發(fā)動(dòng)機(jī)剩余壽命數(shù)據(jù)
由圖2可知,重構(gòu)后的數(shù)據(jù),包含了渦扇發(fā)動(dòng)機(jī)在各個(gè)采集時(shí)刻的剩余壽命值,即渦扇發(fā)動(dòng)機(jī)剩余壽命的完整退化軌跡。
特征選擇對(duì)算法性能起著主導(dǎo)性作用,旨在從數(shù)據(jù)集中提取具有代表性的特征。一方面,提高模型的預(yù)測(cè)性能,另一方面,減少運(yùn)算量。對(duì)重構(gòu)后的數(shù)據(jù)進(jìn)行分析,3種設(shè)置參數(shù)和21個(gè)傳感器的測(cè)量數(shù)據(jù)與渦扇發(fā)動(dòng)機(jī)的剩余使用壽命關(guān)系定義如下:
1) 正相關(guān):隨著剩余壽命值減小而傳感器測(cè)量值逐漸減小的特征,即正相關(guān)特征。
2) 負(fù)相關(guān):隨著剩余壽命值減小而傳感器測(cè)量值逐漸增大的特征,即負(fù)相關(guān)特征。
3) 不相關(guān):方差為0的特征,即不相關(guān)特征。
4) 不確定:不隨剩余壽命值的減小而規(guī)律變化的特征,即不確定特征。
表2 不同特征與RUL之間的相關(guān)性分類(lèi)
考慮到 Setting_1、Setting_2與 FD001組第一臺(tái)設(shè)備的剩余壽命存在不確定的關(guān)系,故將其劃分到可用特征范圍內(nèi),24個(gè)特征最終篩選出16個(gè)可用特征。圖3~圖6分別展示了4類(lèi)不同相關(guān)性特征與第一臺(tái)設(shè)備的剩余壽命退化軌跡之間的關(guān)系。其中1 psia=6 895 Pa ,1 kft=304.8 m。
圖3 核心機(jī)物理轉(zhuǎn)速與RUL退化軌跡的關(guān)系
圖4 風(fēng)扇物理轉(zhuǎn)速與RUL退化軌跡的關(guān)系
圖5 風(fēng)扇進(jìn)口壓強(qiáng)與RUL退化軌跡的關(guān)系
圖6 飛行高度與RUL退化軌跡的關(guān)系
Boosting集成學(xué)習(xí)[11]通過(guò)將多個(gè)弱學(xué)習(xí)器串行迭代得到強(qiáng)學(xué)習(xí)器。基本過(guò)程是:首先依據(jù)初始訓(xùn)練集生成一個(gè)基學(xué)習(xí)器,在每一層訓(xùn)練的時(shí)候,根據(jù)基學(xué)習(xí)器的表現(xiàn),更新訓(xùn)練數(shù)據(jù)的權(quán)值分布,對(duì)前一層基學(xué)習(xí)器分錯(cuò)的樣本,給予更高的權(quán)重;然后基于改變后的訓(xùn)練數(shù)據(jù)訓(xùn)練下一個(gè)基學(xué)習(xí)器,層層疊加,直至得到預(yù)期的M個(gè)基學(xué)習(xí)器或達(dá)到規(guī)定的錯(cuò)誤率;最后根據(jù)各基學(xué)習(xí)器的誤差結(jié)果進(jìn)行加權(quán)組合,構(gòu)成一個(gè)強(qiáng)的集成學(xué)習(xí)器。
梯度提升決策樹(shù)算法(Gradient Boosting Decision Tree,GBDT)將 Gradient Boosting思想與 Boosting Tree結(jié)合,選擇回歸樹(shù)作為基學(xué)習(xí)器,沿著負(fù)梯度的方向擬合每棵回歸樹(shù),使殘差逐漸減小。實(shí)現(xiàn)步驟如下:
在GBDT算法的基礎(chǔ)之上,陳天奇于2015年提出了 XGBoost(extreme gradient boosting)算法[14]。二者最大的區(qū)別在于損失函數(shù)的不同,GBDT算法在求解基函數(shù)中使用負(fù)梯度近似殘差值,即對(duì)損失函數(shù)做泰勒公式的一階展開(kāi),而XGBoost 算法對(duì)損失函數(shù)進(jìn)行了二階泰勒公式展開(kāi),相比較一階泰勒公式展開(kāi),該方法與實(shí)際損失函數(shù)值更接近、收斂速度更快、準(zhǔn)確率更高。
本文基于XGBoost算法框架建立剩余壽命預(yù)測(cè)模型。以回歸樹(shù)作為基學(xué)習(xí)器,通過(guò)對(duì)平方差損失函數(shù)的二階泰勒公式展開(kāi)逼近殘差,迭代至預(yù)期的M個(gè)基學(xué)習(xí)器。并采用網(wǎng)格搜索方法,對(duì)模型的參數(shù)進(jìn)行優(yōu)化。模型結(jié)構(gòu)如圖7所示。
圖7 模型結(jié)構(gòu)框圖
模型訓(xùn)練過(guò)程的具體步驟如下:
1) 數(shù)據(jù)重構(gòu),根據(jù)公式(1)重構(gòu)出可以反映渦扇發(fā)動(dòng)機(jī)剩余使用壽命的完整退化軌跡數(shù)據(jù);
2) 特征選擇,分析每個(gè)特征與RUL退化軌跡之間的關(guān)系,分類(lèi)、篩選出可用特征作為輸入數(shù)據(jù);
3) 讀取數(shù)據(jù),迭代訓(xùn)練,更新權(quán)值,網(wǎng)格搜索,優(yōu)化參數(shù),保存模型;
4) 輸入待預(yù)測(cè)數(shù)據(jù),輸出預(yù)測(cè)結(jié)果;
5) 比較結(jié)果,分析原因。
算法實(shí)現(xiàn)如圖8所示。
圖8 算法實(shí)現(xiàn)框圖
該研究以北京信息科技大學(xué)智能科學(xué)與技術(shù)系視覺(jué)實(shí)驗(yàn)室的計(jì)算機(jī)網(wǎng)絡(luò)、工作站和微機(jī)環(huán)境為實(shí)驗(yàn)平臺(tái),選擇C-MAPSS渦扇發(fā)動(dòng)機(jī)仿真數(shù)據(jù)集為實(shí)驗(yàn)數(shù)據(jù),基于PyTorch深度學(xué)習(xí)框架實(shí)現(xiàn)。
實(shí)驗(yàn)采用均方根誤差(RMSE)和擬合優(yōu)度(r2)對(duì)模型的預(yù)測(cè)性能進(jìn)行評(píng)價(jià)。
RMSE越小說(shuō)明模型的性能越好;擬合優(yōu)度反應(yīng)了x對(duì)y變化的描述程度,即r2越接近1,說(shuō)明模型的擬合效果越好。
將測(cè)試集中每臺(tái)設(shè)備的最后一行數(shù)據(jù),即包含16個(gè)可用特征的數(shù)據(jù)輸入兩種模型后,預(yù)測(cè)結(jié)果如圖9所示。
圖9 GBDT與XGBoost模型預(yù)測(cè)結(jié)果
從圖9可以看出,XGBoost的預(yù)測(cè)結(jié)果更接近RUL的實(shí)際分布情況,模型預(yù)測(cè)性能優(yōu)于GBDT。不同的模型實(shí)驗(yàn)結(jié)果對(duì)比如表3所示。
表3 不同模型性能指標(biāo)結(jié)果
分析表3可知,與CNN-LSTM方法相比,本文基于XGBoost算法的模型預(yù)測(cè)精度雖然略低,但運(yùn)行時(shí)間較短,綜合效率更高。基于XGBoost算法的模型預(yù)測(cè)性能優(yōu)于GBDT算法,其中,擬合優(yōu)度(r2)提升了約5%;均方根誤差(RMSE)降低約6.83%。
此外,模型還可輸出基于F score的特征重要性定量評(píng)價(jià)結(jié)果,便于更進(jìn)一步的特征篩選,得分越高,說(shuō)明該特征對(duì)模型預(yù)測(cè)性能影響越大。16個(gè)可用特征的重要性排序結(jié)果如圖10所示。
圖10 不同特征對(duì)模型預(yù)測(cè)性能的影響重要性
本文針對(duì)C-MAPSS渦扇發(fā)動(dòng)機(jī)的剩余壽命退化軌跡數(shù)據(jù),分別建立了基于GBDT和XGBoost算法的剩余壽命預(yù)測(cè)模型,并對(duì)比分析了不同模型的預(yù)測(cè)性能和實(shí)驗(yàn)結(jié)果。雖然優(yōu)化后的GBDT和XGBoost模型預(yù)測(cè)精度略低于CNN-LSTM方法,但集成學(xué)習(xí)的運(yùn)行時(shí)間較短,綜合效率更高,同時(shí)還可以輸出特征重要性程度的排序,分析影響渦扇發(fā)動(dòng)機(jī)剩余壽命的主要因素。未來(lái)將進(jìn)一步研究影響模型性能的關(guān)鍵因素,并改進(jìn)模型優(yōu)化方法,以進(jìn)一步提高RUL預(yù)測(cè)精度。