任 博, 岳珠峰, 司 勇, 崔利杰, 曾 航
(1. 空軍工程大學裝備管理與無人機工程學院, 陜西 西安 710052; 2. 西北工業大學力學與土木建筑學院,陜西 西安 710129; 3. 中國人民解放軍913129部隊, 北京 100076)
通過研究航空事故與因果因素的內在關系,預測航空安全,確定事故規則,能實現對未來飛行安全趨勢的預測[1]。精確航空安全預測模型對于實現航空安全智能管理、事前決策及應急管理等具有重要意義[2]。多家航空公司已經充分認識到數據對安全管理的重要性,數據分析結果(超限事件、免責信息分析、安全監控等)已經初步應用于航空安全管理中,提升了管理安全效率,減少了事故損失[3-4]。
然而,航空事故發生是由各種因素相互交織影響所造成的,包含飛機因素、管理因素、環境因素、人為因素、外在因素等諸多不確定性因素。航空事故誘因復雜,具有低頻性、隨機性、時變性和高維性等特點,預測建模難度大。目前,航空安全預測主要是時間序列預測,大多采用參數、非參數、貝葉斯網絡、人工智能[5-7]等方法建立航空安全時間序列開展預測。王衍洋等[8]用樣條插值函數對航空安全綜合指數進行預測分析,研究人為因素與航空安全的影響關系,提高了對非線性數據的適用性。甘旭升、丁松濱、呂雪梅等[9-11]利用誤差反饋神經網絡、自回歸移動平均等方法對飛行事故進行研究。然而,上述模型都屬于“黑箱”[12]模型,輸入和輸出內部機理未知,輸入對輸出影響難以確定,預測變量解釋不清晰,無法實現根據輸出預測結果的逆向分配,支持航空安全管理力度有限。
隨機森林(random forest, RF)模型是以分類樹[13-14]為支撐的機器學習算法,具有分類、回歸、預測等功能,且該模型廣泛應用于參數優化、變量排序及分析解釋方面。目前,該方法在生態、氣象、電力及農業預測等方面成功應用,然而,RF方法在航空安全預測的能力尚未得到充分認識,相應參考文獻較為缺乏。
本文針對航空安全態勢感知、智能管理[15]的迫切需求,構建RF模型,以某航空公司2017~2019年安全數據為對象,研究航空安全態勢預模型構建、預測變量貢獻度量以及航空安全中飛機、管理、環境、人為、外在等因素對航空不安全事件的影響關系,為航空安全預測、預警及事故預防提供了理論依據。
航空安全因果預測[16]基于事故致因理論,建立致因因素與事故后果之間的因果對應關系,在一定樣本基礎上,用參數、非參數、貝葉斯網絡、人工智能等方法建立事件后果和致因因素之間的替代模型,進而研究輸入和輸出的映射關系,完成航空安全預測。模型定義為
Y=G(X)
(1)
式中:Y=(Y1,Y2,…,Yn)表示n種不同類型航空安全不安全事件,如Y1為一等飛行事故,Y2為二等飛行事故,Y3為航空事故癥候;X=(X1,X2,…,Xm)表示導致航空不安全事件發生的致因因素,如X1為外來影響事件、X2為設施設備不安全事件、X3為環境因素,X4為管理因素,X5為人為因素(飛行和地面人員)等。此外,Y和X是時間的函數。
Bow-tie模型[17]是結合故障樹及事件樹,綜合考慮事故起因、后果、防控措施等建立的事故前后、基本事件和后果的關系。Bow-tie模型示意圖如圖1所示。其中,BE:基本事件;IE:中間事件;CE:頂事件;SE:控制事件;OE:后果事件。

圖1 Bow-tie模型示意圖Fig.1 Schematic diagram of Bow-tie model

(2)
(3)
基于Bow-tie模型開展航空事故機理的致因分析,可以得到確定航空安全的事故致因變量,結合某航空公司安全監察數據,如表1所示。由此可見,在Bow-tie模型基礎上構建航空安全預測模型,難點在于:① 航空事故致因因素多,高維建模難;② 事故樣本少,量化難;③ 致因因素受環境影響大,具有復雜高維非線性關系,建模難度大。值得注意的是,航空安全分析、因果預測的基礎在于數據變量的甄選[18]。考慮較多變量會造成數據冗余,從而降低預測效率,疏忽關鍵變量則會造成預測精度降低。文獻[19]指出,RF方法在參數優化、變量排序以及后續變量分析解釋等方面優勢明顯,能將航空致因變量特征集進行袋外求解,計算每個特征重要性,按照重要性降序排列,完成重要變量的確定和冗余變量的剔除,確定核心的關鍵“安全數據”。

表1 基于Bow-Tie模型的航空安全關鍵風險及危險源分析
本文數據來源于某航空公司質量安全監察數據庫。基于Bow-tie模型分析結果,建立航空安全數據清單,統計航空公司2017~2019年不安全事件數據,如表1所示。本文將部分數據作為訓練樣本,另外部分作為測試數據,驗證算法精準度和效率。選取5個航空安全致因因素來說明對航空安全影響,如表2所示。

表2 變量指標
訓練和驗證的數據分布如圖2所示,其中散點表示樣本中參數的值,箱線圖中有樣本均值、最大值、最小值、中位數等分布信息。

圖2 訓練和驗證數據庫樣本分布Fig.2 Database sample distribution in training and validation
圖2橫軸為航空安全致因因素輸入變量Xi及輸出變量Y,縱軸用箱線圖表示各輸入變量Xi及輸出變量Y的樣本分布。由于不同類型航空不安全事件具有不同量綱,所有變量進行無量綱化,具體方法如下:
(4)
式中:xj為歸一化后數據;xj.max,xj.min分別為最大值和最小值。
RF是一種機器學習方法,可用于樣本分類,模型生成決策樹數目(Ntree)和選擇分裂屬性個數(Mtry),在樣本分類中起著關鍵作用,影響結果準確性。RF回歸對噪聲數據容忍度較高,對高維數據具有良好預測能力[20-21]。由一組無關回歸決策樹{h(x,θk),k=1,2,…,K}構成K棵集成決策樹,表示為
(5)
式中:X為安全致因因素;k為決策樹數量;θk為獨立同分布隨機向量。
基于RF的航空安全預測模型為提高模型的預測精度,結合袋裝法和隨機子空間法對模型進行了構建[20-22]。
(1) 袋裝法:從樣本集中多次放回采樣大小為N的K個訓練集,對于每個訓練集建立回歸模型。假設樣本容量為N,則每次放回抽樣,每個樣本不被抽中的概率為(1-1/N)N,未被選中的樣本稱為袋外數據(out of bag, OOB)。同時,由于訓練樣本集元素各不相同,這就保證了回歸樹模型的差異性。
(2) 隨機子空間法:對生成的回歸樹進行節點分裂,選取Mtry個變量作為當前節點分裂子集,根據決策樹方法選擇最優的分裂方式進行回歸樹的構建,該方法降低了各回歸樹之間的相關性,增加了其構建時的隨機性。
本文構建航空不安全事件RF的流程如圖3所示。

圖3 基于RF的回歸航空安全態勢預測流程圖Fig.3 Flow cart for regression aviation security posture prediction based on RF
(3) RF回歸模型不但能精確地估測航空安全態勢,而且還可給出各個變量的重要性評分、輸入對輸出影響程度。基于基尼系數和基于OOB誤差是常用的變量重要性評分統計量,本文中基于OOB誤差得到各變量的重要性。若xj(j=1,2,3,4)為輸入變量,則在第k棵樹上的重要性Ik為隨機置換變量前后OOB估測誤差的差值[23]。其計算公式為
(6)
變量xi在整個隨機森林中的重要性得分為
(7)

考慮預測模型具有隨機性,每次預測的I(xi)具有一定差異性,通過對20次計算結果取均值即為各變量權重。
本文綜合考慮采用決定系數、均方根誤差、相對均方根誤差來評估模型的預測能力,同時繪制預測值和實測值間的1∶1關系圖,相關指標表達式如下所示。
決定系數:
(8)
均方根誤差:
(9)
相對均方根誤差:
(10)
式中:mean表示樣本均值;X(i)表示數據集中第第i個樣本;X(i)P表示X(i)所對應的預測樣本點(i=1,2,…,n)。
在回歸樹模型中,采用的是決策樹方法對節點自上向下進行隨機分裂,直到分支到葉節點,預測值由葉節點輸出,RF模型由所有回歸樹構成。根據模型輸出的航空安全態勢預測值求平均值即得到最終航空安全預測結果。以某航空公司2017~2019年航空安全數據為研究對象,基于RF構建航空安全預測模型,如圖4所示。

圖4 航空安全RF模型圖Fig.4 RF model diagram of aviation safety
RF使用默認參數即可得到不錯結果,其調參過程是確定決策樹個數Ntrees和每棵樹分裂時最大特征數Leaf,優化算法可搜索參數全域來確定算法最優參數。本文對RF模型參數的優化過程及結果如圖5所示。

圖5 RF模型參數優化結果Fig.5 RF model parameter optimization results


圖6 航空安全RF模型的誤差估計圖Fig.6 Error estimation plot for aviation safety RF model
圖6橫軸為隨機森林樹個數,縱軸為模型均方誤差。隨著樹數量增加,模型誤差逐漸遞減,可以看出當K為150時,OOB誤差趨于平穩,故將K設為150。因此,本文航空安全預測模型樹數量確定為150。
RF預測模型變量篩選的主要指標是變量對提高模型預測精度的貢獻能力,通過對指標進行排序,從而獲得各變量的重要性排序,指標值越大,則變量越重要。針對本文航空安全預測模型變量進行重要性排序,排序結果如圖7所示。

圖7 RF回歸模型變量篩選Fig.7 RF regression model variable screening
圖7橫軸為針對影響航空安全的輸入變量,縱軸為預測輸入變量的重要性。由圖7可知,本文對“X1為外來影響事件、X2為設施設備不安全事件、X3為環境因素、X4為管理因素、X5為人為因素(飛行和地面人員)”等變量對航空安全影響的重要性進行度量。圖7中,環境因素對航空安全的影響最大,需要重點監控,比如需增加驅鳥頻次,降低鳥撞因素對航空安全影響,加強惡劣天氣環境的預報預測,及時告知飛行人員做出應對,建議指揮員變更計劃,要求機務人員采取特殊天氣環境的飛機適應性措施(除冰,防沙塵等);人為因素和設施設備對航空安全影響的重要性次之,且兩者影響程度相當;管理因素對航空安全預測結果影響較小,為降低模型復雜度和提高計算效率可忽略。
基于隨機RF進行變量選擇,分別按飛機因素、管理因素、環境因素、人為因素、外在因素等開展訓練。圖8為由RF方法預測航空安全與實際值間的散點關系圖。圖8橫軸為航空不安全事件(X1為外來影響事件、X2為設施設備不安全事件、X3為環境因素、X4為管理因素、X5為人為因素(飛行和地面人員))實測值,縱軸為基于RF模型航空不安全事件的預測值。結果表明,由本文預測模型得到的預測值和實際值相關性較高,其中決定系數、均方根誤差、相對均方根誤差等指標也較為理想,這表明利用RF來預測航空安全態勢是可行的。

圖8 基于RF模型航空安全預測估算情況Fig.8 Prediction and estimation of aviation safety based on RF model
航空安全預測中,采用預測響應變量與致因輸入變量間的關系來闡述航空安全的影響機理以及實現航空安全在空間或時間維度上的預測,如人工神經網絡、支持向量機等被用于航空安全預測。然而,航空安全變化規律受多種不確定性的影響,各變量之間表現為較為繁雜高維的非線性關系,預測建模難。以該航空公司為研究對象,本文又基于神經網絡[25]、相關向量機[26]開展預測,并和RF方法進行了對比,結果如表3所示。

表3 3種預測模型效果對比
如表3所示,在相同樣本規模情況下,RF模型不論是決定系數還是預測效果都比較好,決定系數達到0.91,均方根誤差達到9.7%。比相關向量機和神經網絡更適合建立航空安全預測模型。神經網絡和相關向量機在建模方面的弊端主要表現在難以解釋航空安全內部的實際影響機理,也無法知道輸入致因變量對航空安全總體的重要性大小。相反,RF模型具有篩選重要性變量的能力,同時為防止過度擬合,引入了兩個隨機參數(k,m)。因此,在航空安全態勢預測中,可考慮引入航空安全度量指標(強制不安全事件)為劃分依據的RF模型。
機器學習是開展航空智能管理及輔助決策的重要手段。在諸多機器學習算法中,RF模型相對于神經網絡、相關向量機模型具有較為明顯的優勢,更適用于航空安全趨勢及致因因素預測。
(1) 基于Bow-tie模型組合的RF算法用于航空安全因果預測能有效預測航空安全關鍵因素及航空安全態勢的變化趨勢。預測精度達到90%以上,表明RF能夠很好地描述航空安全致因變量與航空安全之間的非線性關系。
(2) 本文所提航空安全因果預測通過研究致因因素(飛機因素、管理因素、環境因素、人為因素、外在因素)變化關系,進而研究事故變化規律,解決了事故樣本少、難于度量的問題。需要說明是,本文收集樣本數量有限,在后續工作中將增加致因因素模型維數(>20),收集更多樣本,進一步驗證和提高RF預測航空安全的能力。
(3) 航空安全變量重要性分析結果顯示,環境因素對2017~2019年航空安全影響最大,需要重點管控;反之,管理因素對于航空安全影響最小,可忽略。