馮蘊雯,潘維煌,*,劉佳奇,路成,薛小鋒,冷佳醒
1. 西北工業大學 航空學院,西安 710072 2.上海微小衛星工程中心 導航技術研究所,上海 201203
隨著人工智能的相關算法與分析方法的深入發展,引領各領域的相關衍生理論的不斷探索,促進相關工業應用的不斷實現。人工智能在航空領域的相關實際工程應用有發動機葉片損傷的自動檢測技術、航空公司的基于大數據的飛行數據分析與應用平臺、基于飛行軌跡的智慧空管系統等。
國內外在理論探索方面,人工智能及其相關理論在航空領域內已進行了廣泛的探索。葉博嘉等[1]采集飛機實際進近的飛行時間,考慮航司、航空器、進場狀態、空域繁忙程度與航班運行模式,應用機器學習的相關方法對飛機的進近飛行時間進行預測分析,并分析各影響因素的特征重要程度。Sun等[2]采用飛機空調監測系統的運行數據,考慮飛機的飛行高度、飛行馬赫數、艙壓,結合飛機是否使用發動機以及機翼防冰的運行條件,通過大數據擬合正常與異常的空調運行數據,建立了識別空調系統異常的方法,并分析方法的適用性與有效性。Bryan等[3]通過采用數據挖掘技術,結合數據的時間序列分析,考慮飛機的運行環境、飛機部件的狀態、機組人為因素,對多維的飛行數據進行研究分析,檢測典型的未知不安全事件。Oehling和Barry[4]基于飛機運行的航班數據,采用機器學習的方法對航班各類安全相關的事件進行研究分析,擺脫了以往僅能依靠相關領域的專家才能對相關的不安全事件的評判的局限。此外,基于機器學習的無監督學習的方法還能發現當下飛機安全監視系統無法發現的不安全事件,拓寬這些方法在飛機的飛行安全監視領域的應用。Abrar和Rashid[5]采用人工智能的機器學習與深度學習的方法,采用民航安全報告系統的相關數據進行研究模型的學習與訓練,并基于構建的模型進行航空系統的風險預測。這些研究方法對大規模、多維異構的復雜數據有較強的預測性能。Beulen等[6]通過建立神經網絡,對航司的機組人員的工作要求進行模型分析,輔助航司進行機組人員的安排決策。Lhéritier等[7]結合民航旅客的行程需求、市場條件,采用機器學習方法,針對傳統的多項式邏輯方法缺乏靈活性與不能處理非線性問題的局限性,對存在旅客替代方案、影響因素的非線性問題進行建模分析,與傳統的多項式邏輯方法相比,采用機器學習的方法所用時間少、建模工作量小。Zhou等[8]采用飛機通信尋址與報告系統與地面相關設施的報告數據,采用機器學習的支持向量機、支持向量機與粒子群算法結合的方法、長短時記憶神經網絡建模分析,預測飛機飛行的不安全事件。機器學習作為實現人工智能的一種方法,在民用航空領域的廣泛應用,主要因為機器學習采用海量數據來訓練模型,然后通過相關算法在數據中學習如何實現規定任務。因此機器學習的方法在處理分析非線性多維數據、對特征耦合的研究對象進行建模具有明顯的優勢。隨著相關算法的不斷發展與計算科學的進步,人工智能的相關方法必將愈發擁有廣闊的應用前景。
飛機的可靠性的相關研究在理論與實際工程中都有重要意義。安全是民航永恒的主題,飛機的可靠性是實現飛機安全的保障??煽啃允钱a品在規定條件下和規定時間內,完成規定功能的能力[9]。長期以來,對飛機各部件、機構等進行使用及試驗的失效數據統計分析,計算部件、系統的失效率與可靠度來指導飛機的可靠性設計與安全運行。常規可靠性評估存在以下問題。常規的可靠性評估的是研究對象的長期運行可靠性,以長期統計的數值計算的可靠性指標不能反映在外部特殊運行條件、不同工作參數等狀態下的可靠性規律,也不能反映研究對象的真實的可靠性水平[10];常規的可靠性研究時間周期較長(一般以年、月為研究周期),以同種型號的飛機部件在全球所有用戶的使用故障次數為分子、同種型號的飛機部件在全球所有用戶的使用總時間為分母的故障率反映的研究對象的可靠性,時間尺度與統計范圍過于大,對相關設計單位或使用單位進行針對性的可靠性管理工作帶來挑戰;以可靠度、故障率為可靠性指標反映了該研究對象在統計范圍內的使用水平,但缺乏研究對象的運行條件、工作工況與安全裕度等其他方面的可靠性信息[11]。常規的可靠性評估工作不進行運行條件、工作工況或安全裕度等相關工作一方面是可靠性在這些方面的理論研究工作仍需完善,另一方面這些工作所涵蓋的數據的類型多、數量大,并且獲取難度較大,依靠常規人工統計的方法難以實現。近年來,隨著飛機運行數據的記錄與獲取日漸規范,可用于研究分析的數據在類型與數據量上都有很大的改善。本文基于飛機的QAR(Quick Access Recorder)數據進行飛機動力裝置運行可靠性的研究分析。一般來說,飛機的飛行數據記錄器的數據主要用于事故調查而QAR數據用于日常運行監控。動力裝置的運行可靠性為考慮飛機的動力裝置的具體型號及其參數性能,結合動力裝置的工作狀態、飛機的運行外界條件、飛機的飛行狀態下,動力裝置工作狀態特性與當前性能裕度的度量。
DEA(Data Envelopment Andysis)分析方法源于運籌學,在眾多領域的指標評價與分析中都有廣泛應用。作為一種客觀的多投入多輸出系統的評價方法,DEA不需要對評價對象的函數形式進行預習估計或假定,進而避免了評價過程中的主觀因素的干擾,在對評價對象的各因素的有效性與冗余性的較大優勢[12]。Nahangi等[13]將DEA應用在建筑業的安全評價與分析中,以建筑的工地的安全事件為輸出,考慮影響施工的各種作用因素,在結合工作效率的基礎上實現對建筑工地的安全性評價。Telles等[14]采用DEA對航空制造商的按訂單生產系統的生產線的效率進行評價分析,對各影響因素對生產效率的正向或負向的影響進行定量的分析。DEA的優勢是在分析研究對象的各影響因素對評價結果的正負向作用時,并不需要明確影響因素與評價指標的具體函數關系,這對DEA的廣泛應用具有較大優勢。
本文首先結合動力裝置的工作狀態、飛機的運行外界條件、飛機的飛行狀態3類因素,采用DEA對飛機動力裝置的運行可靠性(包括工作狀態特性與性能裕度)進行評價分析;接著采用機器學習隨機森林、多變量神經網絡回歸分析的方法,對3類因素的具體特征與DEA的分析結果進行模型的訓練、驗證與測試,對動力裝置運行可靠性的特征重要性與模型的性能指標進行分析;最后根據DEA與機器學習模型的分析結果,梳理各特征對動力裝置工作狀態特性與性能裕度影響的敏感性以及飛行任務過程中動力裝置工作狀態特性與性能裕度的時變規律,總結研究成果對飛機動力裝置的日常運營與其他管理工作的借鑒意義。
DEA分析方法由美國運籌學學者Charnes等[15]提出,是一種非參數、評價研究對象的多指標輸入輸出及衡量系統有效性的方法。在采用DEA進行評價的過程中,將評價對象屬性劃分為投入項、產出項,對各屬性不預先設定權重,重點分析評價對象的總產出與總投入,以其比率作為相對效率。DEA有多種模型,包括CCR(由Charnes, Cooper和Rhodes等提出,被學界命名為CCR)模型、BCC(由Banker, Charnes和Cooper提出,被命名為BCC)模型、交叉模型、A&P模型。本文將簡要介紹CCR模型與BCC模型。
將評價對象定義為決策單元(Decision Making Unit, DMU)。將n個決策單元的m1種投入與m2種產出的生產活動構成的集合T稱為生產可能集(Production Possibility Set, PPS),其中T表示方法為[12]
T={(X,Y):投入X可產出Y}
(1)
式中:Xa=[x1a,x2a,…,xm1a]T和Ya=[y1a,y2a,…,ym2a]T分別為DMUa(a=1,2,…,n)的投入向量與產出向量,Xa≥0,Ya≥0。
1.1.1 DEA的CCR模型
DEA的CCR模型由美國學者Charnes等[15]提出,假設有n個被評價的決策單元,每個DMU處于同種投入產出類型環境,m1種投入和m2種產出,xij(i=1,2,…,n;j=1,2,…,m1)表示第i個決策單元的第j項投入,yij(i=1,2,…,n;j=1,2,…,m2)表示第i個決策單元的第j項產出,u=[u1,u2…,um1]、v=[v1,v2,…,vm2]分別表示投入、產出權值向量。
建立DEA的CCR模型效率評價模式。決策單元k的效益評價指數ek為[16]
(2)
CCR 模式線性規劃表示為[16]
min OEk
(3)
式中:λi為大于0的系數 OEk為綜合技術效益。
CCR模型將決策單元k的投入與產出表示為決策單元k與其他決策單元的線性組合。
(4)
1.1.2 DEA的BCC模型
DEA的BCC模型在決策單元的投入水準等同的條件下,從決策單元的產出角度探討決策單元的投入效率。
BCC模型的決策單元k的效益評價指數e′k為[16]
(5)
BCC模型的數學表示為[16]
min TEk
式中:TEk為技術效益。
1.1.3 DEA模型的結果分析
DEA結果分析是根據決策單元的投入與產出的計算結果,對各指標進行實際含義的研究與分析。本文涉及的DEA分析指標包括效益分析與差額變數分析[17-19]。
1) 效益分析。DEA的效益分析包括綜合技術效益、技術效益、規模效益。
綜合技術效益(Overall Efficiency, OE)、技術效益(Technical Efficiency, TE)、規模效益(Scale Efficiency, SE)滿足下列關系式:
OE=TE×SE
(7)
2) 差額變數分析。DEA的差額變數分析包括投入冗余率與產出不足率,本文僅介紹投入冗余率。
決策單元k的第i種資源的投入冗余率ηki的計算式子為
(8)
采用DEA對動力裝置的運行可靠性進行分析,首先對動力裝置在運行過程中的3類因素及其各種特征進行提取,接著依據特征對動力裝置的運行可靠性進行綜合技術效益、各特征的冗余率。以上述2個指標分析結果探索飛機的動力裝置運行可靠性。
1.2.1 動力裝置運行可靠性影響特征提取
依據前文分析,動力裝置的運行可靠性的分析需要考慮動力裝置的工作狀態、飛機的運行外界條件、飛機的飛行狀態3類因素,現對3類因素的具體特征進行提取,如表1所示,表中的N1表示發動機低壓轉子轉速,N2表示發動機高壓轉子轉速。
表1 3類因素及其特征Table 1 Three types of factors and characteristics
1.2.2 動力裝置運行可靠性DEA分析
飛機的運行過程定義為飛機在起飛機場進跑道開始,直至飛機在目的機場跑道著陸并減速至60節時結束。動力裝置的運行可靠性分析包括工作狀態特性與性能裕度2個方面,整理的16個特征均可能影響動力裝置的工作狀態特性與性能裕度,并且影響關系復雜,各特征間對工作狀態特性與性能裕度影響的正向、負向關系亦有可能相互抵消,造成評價分析上的困難。因此,采用DEA各特征要素的綜合技術效益來反映動力裝置運行可靠性的工作狀態特性,采用各特征要素的差額變數分析的投入冗余率之和作為動力裝置運行可靠性的性能裕度。
采用DEA的動力裝置運行可靠性分析結果可以反映不同時間點下動力裝置的工作狀態特性與性能裕度,并基于數值的大小與趨勢分析動力裝置的運行可靠性水平與變化趨勢。但無法判斷3類因素中各種特征對動力裝置的工作狀態特性與性能裕度影響程度,也不能判斷各特征對動力裝置的工作狀態特性與性能裕度影響的正負方向。因此本節擬采用機器學習有監督學習的方法,在3類因素中各種特征的作用下,結合DEA的分析結果,建立飛機動力裝置的運行可靠性研究分析模型,計算各模型的計算精度,分析各特征的重要性。
將提取的16個特征的航班QAR數據與DEA分析的動力裝置的工作狀態特性與性能裕度的計算值進行機器學習模型相關算法建模,采用隨機森林、多變量神經網絡回歸分析,進行特征重要性與影響程度的分析。
隨機森林為2001年美國學者Leo Breiman提出一種基于決策樹的機器學習算法[20]。隨機森林作為一種集成學習的方法,具有性能優越、結構簡單、可解釋性強的特點;通過訓練樣本的booststrap重采樣與每個節點的特征子集的隨機選取2個步驟降低方差與偏差。隨機森林的具體步驟如下[21]
1) 給定一個訓練集Xxl={x1,x2,…,xS},類別標簽為Lbq={l1,l2,…,lS}。其中,x∈RQ,S為訓練集的樣本數,Q是訓練集Xxl的樣本類別數。然后有放回進行對原訓練集重新抽樣產生S個新的訓練集{Xxl1,Xxl2,…,XxlS},對應的標簽集為{Lbq1,Lbq2,…,LbqS}。
2) 基于{Xxl1,Xxl2,…,XxlS},{Lbq1,Lbq2,…,LbqS}生S棵完整決策樹{t1,t2,…,tS},每棵決策樹的構建過程中,每個節點均進行一次特征子集的隨機選取。
3) 最后通過多數投票法得到測試樣本的決策結果。
此外,為了衡量隨機森林在回歸分析過程中的結果好壞,對指標平方平均誤差(Mean Square Error, MSE)、均方根誤差(Root Mean Square Error, RMSE),絕對平均誤差(Mean Absolute Error, MAE)進行計算分析。計算公式為
(9)
(10)
(11)
為了衡量隨機森林的回歸效果是否顯著,采用決定系數γ2用于評估回歸擬合效果。γ2的值越接近1,模型的擬合效果越好,一般認為超過0.8的模型擬合擬合度較高。其計算公式如下
(12)
神經網絡在多變量回歸分析中具有廣泛應用。神經網絡以其強大的參數學習能力,通過降低預測值與實際值的偏差實現對實際值的擬合,通過建立的神經網絡模型達到研究分析的目的。
假設基于神經網絡預測模型為[22]
F(Xnn,W,b)=Xnn·WT+b
(13)
式中:Xnn為輸入變量;W為權重參數矩陣;b為偏置。神經網絡的模型如圖1所示。
圖1 神經網絡模型Fig.1 Neural network model
模型的損失誤差為
(14)
式中:Yi為神經網絡的預測值。
本文以B737-800機型為例,以某航司一次北京至珠海飛行任務的航班QAR數據為例分析其動力裝置的運行可靠性。將3類因素16個特征的QAR數據按飛機運行階段提取,若QAR某些特征有缺失值,以缺失值的前一個值填充。算例的B737-800的動力裝置裝配2臺CFM56-7B發動機,該型號發動機具有優良的性能參數,發動機停車率較低,具有出色的可靠性。依據前文的方法,先采用DEA對飛機動力裝置的運行可靠性進行評價分析;然后依據分析結果,采用機器學習的監督學習方法分析模型的擬合情況以及各特征的重要度,并基于分析結果總結飛機動力裝置運行可靠性規律。
假設動力裝置工作狀態特性以R表示,動力裝置的當前性能裕度以M表示,表1的16個特征以集合A表示,則可以表示R、M與A的關系為
R=f1(A)
(15)
M=f2(A,f1(A))
(16)
式中:f1(·)和f2(·)分別表示R與集合A和M與集合A、f1(A)的函數關系,也是本文通過DEA與機器學習模型在大量數據訓練、完成模型參數學習后可以擬合的函數關系式。
依據前文的分析,DEA的CCR與BCC模型分析動力裝置的運行可靠性,結果如表2所示。
表2截取飛機起飛前油門推至最大起飛/復飛位后7 s的部分QAR數據以及R值、M值計算結果進行展示。由表中數據可知,DEA分析的動力裝置運行可靠性的R值——動力裝置工作狀態特性非常接近1,表明動力裝置系統的工作狀態特性接近滿負荷狀態,而運行可靠性的M值——當前性能裕度則接近于0,說明此時狀態下動力裝置的裕度非常少,冗余非常低。
表2 QAR數據與DEA分析結果Table 2 Analysis results of DEA and QAR data
DEA分析僅能從數值上簡單判斷當前的動力裝置的工作狀態特性與當前性能裕度,無法分析16個特征的變化對R、M的變化關系。因此需要進一步通過采用機器學習的監督學習方法分析研究特征與R、M的關聯關系。
算例數據包括的飛行階段11 557條QAR記錄數據,共計16個特征,加上DEA分析的R、M的值,共同構成隨機森林模型的訓練集。
依據前文的隨機森林模型分析流程,將分別進行動力裝置的R、M的隨機森林建模分析。
3.2.1R值隨機森林算法分析
依據構建的隨機森林模型,對動力裝置運行可靠性R值進行分析。首先對16個特征的重要性進行排序分析,結果如圖2所示。
圖2 R的各特征重要性Fig.2 Importance of each characteristic of R
由圖2可知,對動力裝置的運行可靠性R值影響最大的前3個特征分別為飛機的運行外界條件的計算空速、飛行時間、飛行高度。即動力裝置的工作狀態特性與飛機的計算空速及其飛機的時空位置關聯最大。飛機依靠空氣動力實現飛行與操縱,飛機飛行管理計算機通過調整不同飛行姿態與飛行階段的速度使飛機處在安全的飛行包線內,而控制速度的直接有效方式是控制動力裝置的推力。在民航飛機飛行過程中,按照計劃航路與高度飛行,因此飛行時間與飛行高度具有密切關系。綜上分析,動力裝置的R值影響最大的3個特征為計算空速、飛行時間、飛行高度是合理的,這也表明DEA對動力裝置的R分析具有一定的參考價值。此外,對動力裝置的R值影響最小的特征分別為機載雷達記錄的氣象、風向、發動機的N1及其燃油流率。
采用隨機森林模型對動力裝置運行可靠性的R值進行回歸預測,結果如圖3所示。
圖3 R的回歸預測Fig.3 Regression prediction of R
由圖3首先分析R的DEA計算值。飛機在起飛階段的R值快速達到1,并且有區間的波動,然后R值再次達到1附近。該階段為飛機的初始爬升與改平加速后的連續爬升,動力裝置接近滿負荷工作。后續有較大區間的R值維持在0.95左右,該階段是飛機的巡航階段,動力裝置的工作狀態是維持飛行所需推力,未到達最大工作狀態;后續區間的R值又呈現較大范圍的波動,此時飛機在下降與進近階段,在終端進行梯度下降飛行,動力裝置工作依據速度與高度的需要進行調整,變動范圍較大,加之該階段飛機的外界運行條件變化較大,艙外溫度、風速等影響,使R值波動。最后著陸的過程中,動力裝置進入反推工作狀態,R值又快速達到1。從整體來看,隨機森林的預測值在飛機巡航階段對R值擬合較好,在起飛與下降階段對R值擬合稍差。
采用隨機森林對R值分析結果說明在提取動力裝置的工作狀態特性影響因素時應當考慮更多飛機在起飛、爬升、下降、進近與著落階段的其他相關特征。
3.2.2M值隨機森林算法分析
同理,依據構建的隨機森林模型,對動力裝置運行可靠性M值進行分析。結合式(16),研究動力裝置的性能裕度應該結合動力裝置的工作狀態特性分析。因此在分析M值時應當結合R值與16個特征共同分析影響M值的重要性進行排序分析,結果如圖4所示。
圖4 M的各特征重要性Fig.4 Importance of each characteristic of M
由圖4可知,對動力裝置的運行可靠性M值影響最大的前3個特征依次為飛機動力裝置的R值、雷達氣象、飛行時間。動力裝置R值的是影響動力裝置運行可靠性M值最重要因素,重要程度明顯比其他特征突出。左右迎角、發動機N1、以及風向對M值影響較小。通過與R值的各特征敏感性分析,雷達氣象是已梳理的特征中對動力裝置M值影響最大,但對R值影響最小。即在飛行過程中的雷達探測不利天氣(雷雨、冰雹等)對M值影響很大。由圖4分析結果,動力裝置的運行可靠性的性能裕度較大程度取決于動力裝置工作狀態特性與飛機的運行外界條件。
采用隨機森林模型對動力裝置運行可靠性的M值進行回歸預測,結果如圖5。
圖5 M的回歸預測Fig.5 Regression prediction of M
由圖5首先分析M的DEA計算值。飛機在起飛階段的M值快速在0左右波動,改平后M值有段區間上升,在飛機的連續爬升階段M值再次在0左右波動。隨著飛機達到巡航高度,M值也平穩維持在1.2附近。在飛機下降與進近階段,M值有多次較大范圍的波動,此時飛機在R值、16個特征與動力裝置的M值的關系隨時間與飛行階段的變化較為復雜。從整體來看,隨機森林的預測值在飛機巡航階段對M值擬合較好,在起飛、爬升、下降與進近階段對M值擬合較差。
為了分析隨機森林模型在對R值、M值的回歸分析效果,計算相關評價指標,如表3所示。由表3可知,隨機森林模型在對動力裝置運行可靠性的R值建模過程中,與M值比較,MSE、RMSE、MAE都比較小,說明隨機森林模型回歸分析中,對R值建模分析優于對M值的分析。此外,對R值與M值的回歸效果較好,調整決定系數分別為0.970 3與0.975 1。
表3 隨機森林模型指標分析Table 3 Index analysis of stochastic forest model
依據神經網絡的構建方法,結合本文的QAR與DEA分析結果的數據類型與數量,通過構建兩層、隱藏層16個神經元的神經網絡進行動力裝置的運行可靠性的R、M的回歸分析。
將神經網絡的學習率設為0.01,設置每次訓練后重新打亂訓練集數據的順序,進行5 000次迭代訓練后,網絡的Loss值如圖6所示。
圖6 R與M的多變量神經網絡模型損失Fig.6 Loss of multivariable neural network model of R and M
由圖6可知,動力裝置運行可靠性的R值的Loss值波動非常小,最終訓練結束后的值為0.000 9, 處于非常低的水平,說明構建的神經網絡對16個特征與R值的擬合程度很高,也反映了飛機的動力裝置的工作狀態特性與16個特征的關聯關系非常強,即選取的16個特征也很好地反映動力裝置的工作狀態特性。同理,圖中動力裝置的M值的Loss值一直處于比較高的水平,最終訓練結束后的值為0.095 6,經過多次訓練后,Loss值也沒有下降,說明構建的兩層神經網絡對動力裝置運行可靠性的性能裕度擬合效果一般,無法通過參數修正來降低模型的Loss值。與R值和16個特性的線性關系相比,M值和16個特征的關聯關系稍弱。從側面也反應了選取的16個特征對研究動力裝置的運行可靠性的性能還有所欠缺,動力裝置運行可靠性的性能裕度分析還需要更多的特征來反映。
此外,依據構建的神經網絡也可以對給定的16個特征數值計算動力裝置運行可靠性的R值與M值,這給出現特殊運行情形或飛機動力裝置出現故障時快速評估分析動力裝置的運行可靠性,找到風險最小、可行的解決方法提供一個全新的思路,這是基于機器學習構建的動力裝置運行可靠性分析模型的一個重要應用。
結合DEA、隨機森林與神經網絡對動力裝置的運行可靠性的分析,表明動力裝置在飛機起飛、爬升、下降與進近階段的工作狀態特性較為復雜,性能裕度較?。伙w機在巡航階段工作狀態特性較為穩定,性能裕度較大。
1) 研究飛機動力裝置實時運行狀態下時變可靠性規律,提出考慮動力裝置的工作狀態、飛機的運行外界條件、飛機的飛行狀態3類因素共計16個特征分析動力裝置的運行可靠性。與常規的計算對象故障率、可靠度的可靠性分析方法相比,考慮動力裝置在特定工作狀態、飛行狀態與外界條件環境下的實時運行可靠性分析方法能反映動力裝置短期工作狀態特性與性能裕度,具有復雜性與理論探索的意義。
2) 基于提出的16個特征,結合DEA計算結果,采用機器學習的隨機森林與神經網絡算法,分別建立動力裝置的工作狀態特性與性能裕度回歸分析模型,能較好擬合各特征與動力裝置的工作狀態特性、性能裕度的關系。
3) 以B737-800機型一次北京至珠海飛行任務的QAR數據為例,對構建的機器學習模型進行訓練與分析,對16個特征的重要性、模型的性能指標進行深入研究,完成各特征的R值與M值影響敏感性分析;構建的飛機動力裝置運行可靠性分析模型可為飛機動力裝置的日常運行、特殊情形的處理預案提供參考與支持。