(南京航空航天大學民航學院 南京 211106)
近兩年,我國民航業面臨著多年少有的嚴峻復雜的國內外形勢,仍舊處于穩步發展的階段。根據中國民用航空局的發展統計公報,我國民航業的運輸航空百萬小時重大事故率十年滾動值為0.013,遠低于世界平均水平0.153,安全的運行水平為行業發展提供了堅實的保障。因此,如何保持、提高民航安全水平一直是民航發展的重要問題。而與造成嚴重后果的各種事故相比,民航運營中出現更多的是事故征候和不安全事件。事故征候的出現是事故發生的表征[1],若不對其采取有效的糾正與控制措施,在一定的觸發因素作用下,就有可能轉化為實際的事故,對其進行分析預測有助于減少潛在風險,提高安全水平。
目前對事故癥候率的預測國內外也有了很多研究,杜毅[2]運用灰色理論,解決了無法精確地建立數學模型對飛行事故率和飛行事故征候率的關系進行描述的問題;王永剛,呂學梅[3]用灰色模型進行了事故征候之間的關聯度分析;王永剛,鄭紅運[4]構建了航空運輸事故征候的最優變權組合預測模型;張粉婷[5]運用Bow-tie方法對通用航空運行不安全因素進行研究,建立通用航空安全管理體系框架;于思璇,王華偉[6]運用稀疏降噪自編碼算法,較為精確地通過當月的事故征候預測出當月的事故征候萬架次率;孫瑞山等[7]用改進的關聯度分析確定了影響民航事故征候的關鍵因素,并使用三角模糊數從時間序列進行了預測;Fullwood[8]等運用線性回歸方法,基于事故數據預測了航空安全趨勢;Abdoulaye Diamoutene[9]利用廣義帕累托分布來預測未來的運營中極端通航事故的死亡人數。但是,以上方式均需要大量數據,有些不必要的指標數據收集增大了調查難度以及模型的計算速度。
本文提出了一種主成分分析法、遺傳算法和神經網絡相結合的算法,基于不安全事件對事故征候率進行預測。主成分分析過程中的因子分析為風險評價體系的優化提供了依據,且可以對指標進行降維,提高后續預測模型的運行速度。遺傳算法對神經網絡的初始權重和閾值進行了優化,提高了預測結果的穩定性,改善了神經網絡模型易陷入局部最優的問題。
1)本文采用中國民航不安全事件統計分析報告中的分類方式,以原因對不安全事件進行分類,構建出如圖1所示的初始的風險評價體系。

圖1 初始風險評價體系
2)對原始數據進行標準化處理。假設進行主成分分析的指標變量有m個,分別為1,2,…,n,共有n個評價對象,第i個評價對象的第j個指標的取值 為aij。通過j=1,2,…m將各指標值轉換成標準化指標值。其中 ,j=1,2,…,m,即,uj和sj為第j個指標的樣本平均值和樣本標準差。
3)主成分分析法計算相關系數矩陣R及風險評價體系優化。

指標間的相關系數計算結果如表1所示,從表中的數據進行分析,同一二級指標下的三級指標之間相關性較高,如雷擊這一指標,與外來物擊中、空中顛簸之間的相關系數高達0.908、0.962,而與其他指標的相關系數都較低或為負相關。但觀察危險接近這一指標,與同為機組原因引發的重著陸指標相關性為負,而與空管原因引發的跑道入侵事件相關系數高達0.974,因此,對評價體系作出優化,如圖2所示。

圖2 優化后的風險評價體系
4)相關矩陣特征值和累計貢獻率計算分析。其中貢獻率bj計算公式為


表2 主成分累計貢獻率
選取初始特征值大于1的成分,從計算結果來看,這四個主成分累計貢獻率達到了83.132%,已經包含了絕大部分的數據信息,因此,選取前四個成分作進一步分析。

表3 成分矩陣
根據成分矩陣和主成分貢獻率結果,我們可以得出三級指標的貢獻率排序:重著陸,外來物擊中,機務維護、維修,空中顛簸,地面障礙物,雷擊,空中失火、解體、冒煙,系統失效,燃油量低,客艙釋壓,通信中斷,危險接近,跑道入侵,爆胎,迷航、偏航。其中,重著陸,外來物擊中,機務維護、維修,跑道入侵,地面障礙物,雷擊,空中失火、解體、冒煙,系統失效,燃油量低,客艙釋壓與主成分關聯為正,因此選擇這10個指標的數據進行風險預測。
典型BP神經網絡練過程分為前向傳播和后向傳播[10],前向傳播過程用于計算網絡的輸出,后向傳播則是根據誤差反饋調整網絡權值和偏置,繼續訓練直到輸出誤差在允許范圍內停止。
BP網絡在初始化階段,給每個網絡權重和偏置一個很小的隨機數,一般為(-1,1),祌經元的偏置可以看作是其自身的權重。記第p個樣本在輸出層第j個神經元節點的實際輸出為ypj,期望輸出為tpj,那么BP網絡結構的誤差指標函數為

其中,ε是εp為元素的向量,其Jacabi矩陣記為J。BP網絡各層神經元的連接權值用向量W表示,k表示迭代步數,則Wk表示第k次迭代的網絡權值向量,下一步新的權值向量為Wk+1。已知移動量Wk+1-Wk很小,則ε的一階泰勒級數及誤差函數為

BP神經網絡采用的是梯度最速下降法,沿負梯度方向迭代,使誤差函數不斷減小,直到取得最小誤差后停止訓練[11]。
梯度計算公式及梯度下降法的向量表達式,其中,參數μ的作用是控制迭代的步長[12]:

遺傳算法是一種概率性的自適應迭代尋優過程,由于其適應度函數是不連續、無規則的,因此可以用來優化BP網絡模型的初始權重和閾值,避免BP網絡有時會陷入局部最優的問題,過程如圖3所示。

圖3 GA-BP算法流程圖
3.3.1 GA-BP模型參數優化
1)迭代次數
將初始的迭代次數設置為50,對圖4適應度曲線進行觀察,可以看出在迭代次數接近10時,適應度已經趨于穩定,因此,設定模型的迭代次數為10。

圖4 適應度曲線迭代次數圖
2)神經網絡隱含層節點數

圖5 隱藏層節點數與準確率關系圖

圖6 預測結果圖
3.3.2 模型性能對比分析
1)PCA-GA-BP與PCA-BP網絡對比
如圖7、圖8對比圖所示,PCA-GA-BP模型的10次運行準確率集中在91.5%~94.3%之間,平均準確率為93.444%,而PCA-BP模型的10次運行準確率集中在90.5%~94.1%之間,平均準確率為91.885%。兩者進行對比,可以看出PCA-GA-BP模型的準確率更高,且運算準確率較為集中,模型的性能更加穩定。

圖7 PCA-GA-BP與PCA-BP模型10次運行結果箱線圖

圖8 PCA-GA-BP與PCA-BP模型10次運行結果對比圖
2)PCA-GA-BP與GA-BP網絡對比
圖9為PCA-GA-BP與GA-BP模型10次運行結果[13],PCA-GA-BP 模型的平均準確率為93.444%,而GA-BP模型的平均準確率為93.445%。兩個模型之間的預測準確率較為接近,證明主成分分析法篩選的指標較為完整地保留了特征信息。圖10為PCA-GA-BP與GA-BP模型10次運行時間對比,可以看出相比于直接將數據輸入GA-BP模型計算,PCA-GA-BP模型先對數據進行降維再進行運算,大大降低了運算時間。綜合PCA-GA-BP與GA-BP模型的運算精度與運算時間結果,可以看出PCA-GA-BP模型在降低預測精確度的基礎上大大提高了運行速度。

圖9 PCA-GA-BP與GA-BP模型10次運行結果對比圖

圖10 PCA-GA-BP與GA-BP模型10次運行時間對比圖
本文構建PCA-GA-BP組合預報模型對民航事故征率進行預測,并通過主成分分析中的因子相關性分析結果得到了優化的民航風險評價體系。模型經過數次參數調試,選取了10作為迭代次數,13作為隱藏層節點數。研究結果表面,PCA-GABP模型的準確率達到93.444%,遠高于BP模型91.885%的準確率,并與GA-BP模型93.445%的準確率相近,且運行速度僅為GA-BP模型的一半。PCA-GA-BP科學地對數據進行了降維,保留了記錄主要特征信息的指標,提高了預測的精確度和速度,為民航事故征候率預測提供了更為科學的辦法,有一定的推廣價值。
本文對模型進行了多次重復實驗來驗證模型的穩定性。實驗結果表明,PCA-GA-BP模型的10次運行準確率集中在91.5%~94.3%之間,而PCABP模型的10次運行準確率集中在90.5%~94.1%之間,PCA-GA-BP模型的預測結果更加穩定且更加精確,有效地避免了神經網絡易陷入局部最優的問題。
所采集到的不安全事件數據比較有限,如果樣本量增大,會進一步提高模型精度,未來可以采取數據遷移學習等方式來彌補樣本量不足的問題,進一步提高模型的精度。