韓冰潔,牛 偉,周 驍
(中國航空工業集團公司西安航空計算技術研究所,陜西 西安 710068)
在預測和健康管理(PHM)中,剩余使用壽命(RUL)評估已成為保障系統安全性和可靠性的主要關注點[1-2]。基于性能退化數據的RUL估計是當前研究的熱點,主要包括基于狀態預測/外推的方法,基于統計回歸的方法和基于相似度的方法[3-5]。當復雜系統不能使用數據學習建立全局模型時,基于相似性的方法適合于RUL估計[6]。基于相似性的方法適用于復雜系統無法利用數據學習建立全局模型時的RUL預測,研究成果多集中在相似性度量方法等方面[5],對系統運行數據基于工況的處理和信息篩選研究較少。
本文針對采用單個性能參量以狀態量間的歐幾里德距離為殘差測度函數的相似性RUL預測方法[9]不能簡單適用多工況發動機壽命預測,提出基于工況聚類分析和信息融合的相似性剩余使用壽命預測方法。
系統退化與系統運行歷史相關,過去的行為改變了系統的屬性。從系統處于正常運行狀態時收集數據,直到系統接近故障或維護為止。這些相似系統的數據可以用來預測類似系統的壽命。因此基于相似度法的RUL估計的核心思想是,如果測試樣本與參考樣本具有相似的退化特性,那么它們就可能具有相似的RUL。測試樣本取自從未發生過故障的系統,參考樣本來自于已失效的系統(訓練單元)的歷史樣本[7-8]。
之前的基于相似性方法的預測剩余壽命的研究成果集中在相似性度量方法、預測不確定性等方面,對系統運行數據基于工況的處理和信息篩選研究較少[9]。系統工況具體指系統運行所處的環境或操作條件。實際上一個系統從開始投入使用到性能失效的過程中會經歷多種不同的運行狀態。不同的系統工況對系統降級的影響是不同的。例如,飛機發動機在起飛、巡航、爬升、降落等不同工況下的性能退化明顯不同[10]。本文以相似退化軌跡方法為基礎,利用聚類分析區分工況,建立多信息融合殘差相似性模型,最終擬合出預測壽命的概率分布,給出RUL的估計。
不同工況下監測數據的基準有差異,趨勢性會淹沒在不同運行狀態引起的干擾中。針對這一問題,本文利用K均值聚類方法區分工況。K均值聚類算法是很典型的基于距離的聚類算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大[11]。提取工況信息后,在同一工況下對每一個傳感器值求均值和方差。對于每個傳感器的測量值做Z-score標準化,即減去“該聚類下該傳感器”的平均值,再除以“該聚類下該傳感器”的標準差。如式(1)所示:
(1)
傳感器數據根據工況聚類分析區分,對每一個聚類分別進行Z-score標準化過程。這個數據處理的過程剔除掉了由于運行工況差異所造成的傳感器數據差異。數據處理后可在同一時間軸上對比,再從處理后的數據集中選擇對系統性能退化敏感的傳感器作為相似模型的訓練數據。
相似模型的建立過程是將系統原始的特征數據映射成健康指數關于時間的函數。如果有多個傳感器數據,則首先需要利用信息融合技術融合不同的信息。為實現不同生命周期的歸一化表示,將壽命時間表示成健康指數,初始狀態時的健康指數設為1,完全失效時的健康指數為0。本文用時間的二次多項式擬合融合后的傳感器數據建立系統的健康狀況相似模型。
基于相似模型的RUL預測過程是將測試樣本的退化曲線與訓練集模型中健康狀況相似樣本相匹配的過程。本文利用測試樣本的退化曲線和相似模型的退化軌跡距離遠近作為打分依據,按照打分高低選取最接近的幾條退化曲線。測試數據與模型數據之間的距離通過殘差的 1 范數計算,如式(2)所示:
(2)
相似度分數通過式(3)計算:
score(i,j)=exp(-|d(i,j)|)
(3)
最后以選取的這些曲線的剩余壽命為依據,利用核函數為高斯分布的核密度估計擬合出對應的這一類發動機RUL應該滿足的概率密度函數。使用分布中的中值作為RUL的估計。
為了驗證所提方法有效性,本文所采用實驗數據來自PHM國際會議舉辦的故障預測競賽IEEE PHM08數據集。該數據集包括噴氣發動機運行至失效數據,訓練集和測試集總計超十萬個運行周期的樣本。每臺噴氣發動機記錄了24維時間序列數據,包括3維控制變量和21維傳感器測量值。
發動機傳感器數據采集來自不同的發動機操作數(條件數據),代表發動機的不同工況。從圖1中看不出數據的退化趨勢,下面將對退化特征進行提取。

圖1 未預處理數據Fig.1 Raw data
在圖2中描出所有操作數的三維點,顯然有六個聚集。通過迭代的方法計算到該聚集范圍所有點的歐式空間距離和每個聚集的中心點。將多種工況通過K-means聚類分析,得到六個發動機典型工況中心。

圖2 工況聚類分析Fig.2 Cluster analysis of working conditions
同一傳感器在不同工況下的標準化數據處理后,確實有傳感器值在發動機整個生命周期中存在明顯的退化。但從圖3發現并不是所有的傳感器退化趨勢都明顯,所以需要定性得出最能反應退化的傳感器。通過構建傳感器測量值線性退化模型,并對模型的斜率的絕對值進行排序。本文選擇最具趨勢性的8個傳感器測量值準備構建健康指數進行預測,如圖4所示。

圖3 聚類標準化處理后的傳感器數據Fig.3 Sensor data after clustering normalization processing

圖4 退化特征最明顯的傳感器數據Fig.4 Sensor data with the most obvious degradation characteristics
選定了8個退化規律最明顯的傳感器,需要將選出的這些傳感器數據融合到一個健康指標中。假設所有訓練集中的發動機健康指數從1到0線性衰減。線性融合8個傳感器數據按時間線性衰減的曲線,利用8個傳感器數據融合后的健康參數HI訓練模型創建殘差相似性模型,擬合為關于時間的二次多項式函數。圖5為信息融合后用健康參數表示的訓練集數據。

圖5 用健康參數表示訓練集數據Fig.5 Use health parameters to represent training set data
在得到的殘差相似性模型中找出與測試發動機衰減曲線最相似的50個模型。以這50個模型的壽命值為數據,打分為權值,擬合出對應的RUL應該滿足的概率密度函數,并取分布的中值作為RUL的估計值。
為了評估方案,分別使用50%、70%和90%的樣本驗證數據來預測RUL。對驗證數據集重復相同的評估程序,并計算每個斷點的估計RUL和真實RUL之間的誤差,并繪制誤差直方圖,如圖6所示。圖6的橫坐標是試驗周期的預測誤差,縱坐標是直方圖的頻次占比。隨著觀測的數據越來越多(從50%到90%),誤差越來越集中于0附近。
誤差棒是數據可變性的圖形表示,以指示所報告的測量中的誤差或不確定性。如圖7中每個豎線代表了預測的平均誤差以及一個標準差的范圍。可以看出,隨著觀測的數據越來越多,預測誤差均值越來越小,誤差范圍也越來越小。

圖6 不同截斷點驗證數據RUL預測誤差直方圖Fig.6 RUL prediction error histogram of verification data with different breakpoints

圖7 不同截斷點驗證數據RUL預測誤差棒圖Fig.7 RUL prediction error bar graph of verification data with different breakpoints
評價一個模型預測性能,需給定一個度量性能的指標,采用均方誤差(RMSE)[12],其反映了預測值和真實值的平均偏離程度,如式(4)所示:
(4)
利用本文方法計算的RMSE值為25.4,與其他相關方法如RF、SVM、CNN等進行比較取得了較好的預測結果[8,13-15]。

表1 RMSE指標下各項預測算法對比Tab.1 Comparison of various forecasting algorithms under RMSE metrics
本文考慮了系統運行狀態和傳感器靈敏度對航空發動機壽命預測的影響,提出基于工況聚類分析和信息融合的相似性剩余使用壽命預測方法。該方法主要改進如下:1) 利用聚類分析標準化處理系統各工況下的監測數據;2) 分析選擇對系統退化最敏感的傳感器數據作為建立相似模型的基礎;3) 將多個傳感器數據融合為表征發動機健康狀況的單個性能參量。最終擬合出預測壽命的概率分布,給出RUL的估計。
通過比較不同斷點的估計壽命,發現隨著觀測的數據越來越多(從50%到90%),剩余有效壽命估計的準確性越來越高。最后將RMSE值與其他相關方法進行比較,試驗結果表明,該方法在預測精度方面取得了較好的效果,具有較大的工程應用價值。