顧濤勇, 郭建勝, 李正欣, 王 健, 王騰蛟
(空軍工程大學裝備管理與安全工程學院, 陜西 西安 710051)
機載設備故障概率預測是航空維修保障的一個重要問題。對故障概率預測問題的研究,存在以下兩種主要的求解思路,即基于模型的故障概率預測與基于數據驅動的故障概率預測[1]。相對于基于模型的故障概率預測需要獲取研究對象的精確的故障概率模型,基于數據驅動的預測方法應用更為靈活,因此受到了廣泛的關注[2]。文獻[3-5]對常用算法在故障預測中的運用進行了分析,但是機載設備故障原因復雜、不確定性強、樣本不足等問題導致這些方法很難發揮其優勢。
在數據驅動的故障概率預測方法中,插值與擬合是最為高效的方法。而遷移學習[6],或稱歸納遷移,是機器學習中的一個重要研究問題,其目標是將某個領域或任務上學習到的知識或模式應用到不同但相關的領域或問題中[7]。遷移學習試圖實現人通過類比進行學習的能力,可以很好地解決樣本不足的問題。
通過分析機載設備故障數據,發現機載設備的故障概率不僅僅和飛行時次相關,不同的工作環境也會對故障概率造成影響。單獨對各個工作環境的數據分析會引起樣本不足的問題,基于樣本特征的遷移學習[8]可以解決這一問題。本文在插值、擬合與遷移學習的基礎上,提出了一種針對于不同工作環境的機載設備故障概率預測算法。算法將插值、擬合與遷移學習通過自適應權重進行線性組合,在提升數據利用效率的同時規避遷移學習所帶來風險。
在研究機載設備故障概率預測問題時,由于設備價格昂貴,通過實驗建立精確的設備故障概率模型是不現實的。那么歷史故障數據就成了預測其故障概率的主要依據。為了區分工作環境,即對不同的工作環境給出不同的故障概率分布函數,數據量往往不充足并且不平衡。在樣本較少的情況下,插值、擬合方法都很難精確地描述故障概率,選擇類似數據進行遷移學習是有效的數據補充手段;而在樣本充足的情況下,遷移學習會稀釋其數據特征,造成負遷移現象。什么時候選擇遷移,選擇哪些數據進行遷移,如何遷移,是決定學習效果的3個關鍵問題[6]。針對以上3個問題,本文提出了自適應權重的插值-擬合-遷移學習(interpolation-fitting-transfer learning, IFT)算法。
IFT算法模仿了人對數據歸納、類比的能力,充分利用所掌握的信息,以減小數據量不充足、不平衡所帶來的預測誤差。該算法對插值、擬合、遷移學習賦予一定的權重進行線性組合。算法的主要公式為
fr(x,t)=
(1)
式中,fr(x,t)表示工作環境為x,飛行時次為t的設備預測故障概率;α·IP(x,t)是故障頻率分布的插值;β·FIT(x,t)是根據分布函數的擬合;∑[θ(x,x′)·IP(x′,t)]是對其他工作環境故障數據的遷移學習,其中x′∈X-x。α、β、θ分別為插值、擬合與遷移學習權重。由于α、β、θ齊次,且次數為0,所以在工作環境x數據量不為0的情況下,默認α=1;當工作環境取值為x的數據量為0時,默認α=0。

(2)
式中,sim(IP(x,t),FIT(x,t))是擬合與插值的分布相似度;d(fitco)為擬合函數的參數數量;ds(x)為工作環境x的樣本數量。

(3)
式中,分布相似度sim(f(t),g(t))表示分布f(t)與g(t)的相似程度。由于故障預測是為了備件與維修工作,所以采用的相似度量與備件、維修風險度量相關。

(4)
式中,x′∈X-x,diff(x,x′)表示工作環境x與x′中取值不同的維,例如x1=(機型1,氣候條件1),x2=(機型1,氣候條件2),diff(x1,x2)={氣候條件}。
ie(Xd)=-∑p(Xd)·log2(p(Xd))
(5)
式中,ie(Xd)表示維向量Xd的信息熵。
對應于前文中所提及的遷移學習關鍵問題[6],IFT算法遵循以下兩個準則:①當前樣本數據越少,插值和擬合方法越難以趨近真實的概率分布,則遷移學習權重越高;②遷移學習數據與當前數據的相似度越高,則其權重越大。所以,遷移學習權重θ(x,x′)與分布相似度(根據式(3)計算)、信息熵(根據式(5)計算)和數據量相關。工作環境x數據量為0時,默認sim(IP(x),IP(x′))-1。
本節將分析插值、擬合與遷移學習在預測結果中所占的比例,討論算法的復雜度和簡化方法,以驗證算法的合理性與可行性。
工作環境x的數據量為0時,α=β=0,有
fr(x,t)=∑[θ(x,x′)·IP(x′,t)]/∑θ(x,x′)
θ(x,x′)=[log2(1+ds(x′))]2/ie(diff(x,x′))
預測只來自于遷移學習,遷移學習權重取決于數據量和信息熵。工作環境x的數據量為+∞時,α=1,β=0,θ(x,x′)=0,fr(x,t)=IP(x,t)預測只來自于插值。
通常情況下,數據量介于以上兩種極端情況之間。為了直觀地顯示IFT比例,假設各個工作環境相互獨立并且均勻分布,平均每個變量的可取值數量都為5,默認擬合度為1。
在這樣的條件下,IFT比例的變化趨勢如圖1所示。圖1中數據量是關于2的對數,可以發現插值比例隨著數據量的增大而增大,擬合與遷移學習則相反。

圖1 IFT的比例變化Fig.1 Change of IFT’s proportions
為了驗證算法的可行性,需要對算法的時間復雜度進行分析。假設工作環境x的維數為m,各維的取值數量為n,各個維度相互獨立,并且數據量均勻分布,數據總量為D,那么對應于某個工作環境的數據量為d=D/nm。
對于初次學習,采用線性插值,插值復雜度為O(dlog2d),插值次數為nm,總復雜度為O(nm·dlog2d)=O(Dlog2d);最小二乘法擬合指數分布,單項擬合數據量為d,擬合復雜度與精度有一定的關系,可以認為是O(kd),其中k是與指數函數計算精度有關的參數,擬合次數為nm,總復雜度為O(kD)。關于擬合權重與遷移學習項權重的計算,擬合權重β的計算復雜度為O(lD),其中l是與指數函數計算精度有關的參數,擬合權重計算次數為nm,擬合權重計算總復雜度為O(lD)。遷移學習項權重θ(x,x′)的計算復雜度為O(2d),遷移項權重計算次數為n2m,遷移項權重計算總復雜度為O(n2m·D)。所以,初次學習的總復雜度的數量級為O(n2m·D)。
對于增量學習,每增加一條數據,由于有遷移學習的存在,算法需要重新計算1次插值頻率、1次擬合頻率、1次擬合權重和nm次遷移項權重,總復雜度為O(nm·D)。在原有數據量D的基礎上新增數據量D′,復雜度為O(nm·D′2+nm·D·D′),在數據量大、維數多的情況下會導致組合爆炸,所以考慮對其進行簡化。根據算法特征,有3種簡化方法:
(1) 新增數據積累到一定量后進行一次重計算;
(2) 限制遷移學習范圍;
(3) 對工作環境維度進行剪枝。
仿真實例選擇某一段時間某型號機載設備的故障數據。數據格式為(搭載機型,氣候條件,飛行時次),其中搭載機型4種,氣候條件6種,數據量為249。一般認為該設備故障概率服從Weibull分布,之前采用的預測主要方法也是Weibull擬合。
如圖2所示,對于全局故障數據(不區分工作環境),其擬合程度相當高。但是不同機型和氣候條件的故障概率分布存在一定差異,如圖3和圖4所示。針對各工作環境,采用同一個插值或是擬合函數不能區分工作環境所帶來的差異;而對每一種工作環境單獨進行插值或是擬合則會由于數據量不足而產生誤差。

圖2 故障頻率與Weibull擬合Fig.2 Fault frequency and Weibull fitting

圖3 各機型故障頻率Fig.3 Fault frequency distinguished by aircraft type

圖4 各氣候條件故障頻率Fig.4 Fault frequency distinguished by climate condition
由于真實的故障概率分布未知,需要保留一定量的數據作為校驗集,以預測概率和校驗集頻率的分布相似度來衡量算法效果。為了模擬真實情況,數據按輸入時間順序來劃分,前156條作為訓練集D,后93條數據作為校驗集D′。
步驟1根據式(5)計算工作環境差異信息熵值。
步驟2計算頻率插值、分布擬合。實例選擇線型插值和最小二乘Weibull分布擬合[9-10]。
步驟3計算擬合權重β、遷移學習項權重θ與IFT比例。其中積分步長大小取1,由于分布函數單調遞增,函數值取積分區間的中點值。
步驟4計算預測概率分布。根據所得的α、β、θ,以及式(1)來計算各個工作環境下的故障概率分布。
對于全局故障數據(不區分工作環境)的概率分布,對線型插值、Weibull分布擬合以及IFT 3種方法進行比較(見表1)。對于各工作環境故障概率分布,對線型插值(區分工作環境)、Weibull分布擬合(區分工作環境)、全局線型插值(不區分工作環境)、全局Weibull分布擬合(不區分工作環境)以及IFT 5種方法進行比較(見表2)。

表1 全局預測準確度(不區分工作環境)比較
如表1所示,對于全局故障數據而言,不論是插值、擬合還是IFT方法,都有很高的準確率。如表2和表3所示,在區分工作環境的情況下,IFT方法表現出了一定的優勢(其中數據量為0的工作環境不進行檢驗,不在表格中出現)。尤其對于數據量較少的工作環境,遷移學習能提高預測結果的穩定性,避免數據量少而導致的極大誤差(如表2中的工作環境12、14)。在實例中,工作環境僅僅考慮了機型和氣候條件,向量維數較少,IFT方法的優勢不明顯,但隨著工作環境維數的增加,IFT方法的優勢會逐漸增大。

表2 各工作環境預測準確度比較

表3 各工作環境平均預測準確度比較
本文分析了IFT算法的復雜度,通過實例展現了其優勢,論證了IFT方法是一種可行并且有效的機載設備故障概率預測方法。IFT算法的主要優勢在于:
(1) 算法體現了不同工作環境對機載設備故障概率預測的影響;
(2) 算法根據數據量和數據特征自適應調整各部分比例,規避了數據貧化所帶來的預測風險,也減少了負遷移現象。
為了能滿足大多數機載設備的故障概率預測需求,仍存在一些問題需要解決:
(1) 除了工作環境(枚舉型),數據中還存在其他影響設備故障概率造成的因素,例如對于可修復件,有歷史故障次數(離散型)、歷史總飛行時次(連續型);
(2) 數據的內容、結構不同;
(3) 數據中存在大量的缺失值。
對于這些問題,需要適用范圍更廣的相似度度量和數據特征遷移學習方法,這將在下一步工作中進行研究。
[1] LUO J H, NAMBURU M, PATTIPATI K, et al. Model-based prognostic techniques[C]∥Proc.of the Autotestcon IEEE Systems Readiness Technology Conference, 2003: 330-340.
[2] 張磊, 李行善, 于勁松, 等. 基于關聯向量機回歸的故障預測算法[J]. 系統工程與電子技術, 2010, 32(7): 1540-1543.
ZHANG L, LI X S, YU J S, et al. Fault prognostic algorithm based on relevance vector machine regression[J]. Systems Engineering and Electronics, 2010, 32(7): 1540-1543.
[3] ZHANG C L, HE Y G, YUAN L F, et al. A novel approach for analog circuit fault prognostics based on improved RVM[J]. Journal of Electronic Testing Theory & Applications, 2014, 30(3): 343-356.
[4] EKER O F, CAMCI F. State-based prognostics with state duration information[J]. Quality and Reliability Engineering International, 2013, 29: 465-476.
[5] XIA F, ZHANG H, LONG J Q, et al. Fault diagnosis of turbine unit equipment based on data fusion and RBF neural network[J]. Lecture Notes in Computer Science, 2011, 7002(2): 74-81.
[6] PAN S J, YANG Q. A survey on transfer learning[J]. IEEE Trans.on Knowledge & Data Engineering,2010,22(10):1345-1359.
[7] 龍明盛. 遷移學習問題與方法研究[D]. 北京: 清華大學, 2015.
LONG M S. Transfer learning: problems and methods[D]. Beijing: Tsinghua University, 2015.
[8] 楊士準. 基于樣本和特征的遷移學習方法及應用[D]. 長沙: 國防科學技術大學, 2016.
YANG S Z. Instance-based and feature-based transfer learning approaches with their applications[D]. Changsha: National University of Defense Technology, 2016.
[9] LU H L, CHEN C H, WU J W, et al. A note on weighted least-squares estimation of the shape parameter of the Weibull distribution[J].Quality & Reliability Engineering International, 2004, 20(6): 579-586.
[10] 魏星. 基于多組樣本和順序統計量的威布爾分布參數置信區間的估計[D]. 上海: 上海交通大學, 2016.
WEI X. The confidence intervals for the Weibull parameters based on multi-sample and order statistic[D]. Shanghai: Shanghai Jiaotong University, 2016.