王晨博 吳曉龍 謝智成 張 藝 時統宇
(中國民航大學 空中交通管理學院,天津 300300)
航空業是我國運輸業的重要分支之一。近幾年隨著我國國民經濟的快速發展,人們逐漸開始選擇飛機作為出行工具,而航班延誤率是乘客考慮航班的重要因素之一。
本文運用美國聯邦航空局的航空系統性能指標數據庫中的機場分析模塊。在航班起飛延誤時長的基礎上,運用時間序列預測分析方法對航班延誤時間序列建模,并對比基于LM 算法的BP 神經網絡模型,分析航班延誤趨勢,觀察延誤特性。

自回歸滑動平均模型(簡稱:ARMA 模型)是一種隨機時間序列分析模型,由博克斯(Box)和詹金斯(Jenkins)于20 世紀70年代創立。它的基本思想是:某些時間序列是依賴于時間的一組隨機變量,構成該時序的單個序列值雖然具有不確定性,但是整個序列的變化卻有一定的規律性,可以通過相應的數學模型進行近似描述。在ARMA 模型中,對一組指標序列進行預測時,主要利用過去值、當期值以及滯后隨機擾動項的加權建模,從而解釋并且預測時間序列的變化發展規律。建立ARMA 模型進行時間序列預測分析時,該時間序列必須是平穩的[7],否則得出的結果不具有參考價值。

人工神經網絡(artificial neural network,縮寫ANN),簡稱神經網絡(neural network,縮寫NN),是一種模仿生物神經網絡的結構和功能的數學模型或計算模型。在分層型神經網絡中按功能分,有三種結構,輸入層、隱藏層及輸出層。神經網絡由大量的人工神經元聯結進行計算現代神經網絡是一種非線性統計性

圖1 神經元模型
常見有BP 神經網絡、卷積神經網絡、深度神經網絡及徑向基神經網絡等。本文使用的是BP(Back-propagation,反向傳播)神經網絡,是一種按照誤差反向傳播算法訓練多層前饋神經網絡。
正向傳播階段,一層神經元,只會影響其下一層神經元的狀態,如果輸出層得不到期望的輸出的結果,則進入誤差的反向傳播階段,誤差沿原來的路徑返回,網絡根據誤差信號修改各層的連接權,使誤差達到最小。
標準的BP 神經網絡收斂過程存在收斂速度慢,存在所謂“局部最小值”的問題。可以通過L-M(Levenberg-Marquardt)算法來優化這些問題,L-M 是改進的高斯-牛頓法,大大提高了計算速度,減少計算時間。LM 算法收斂速度快。如果要求精度高,該算法的優點尤其突出。在許多情況下,采用LM 算法的訓練函數trainlm 可以獲得比其它算法更小的均方誤差[8]。
原數據中大多會有一些收集時產生的錯誤數據,這些數據不能真實的反應情況而且在后續使用過程中會造成誤差。首先,去除通航航班、軍航航班、本場飛行航班和缺失部分運行數據的國際航班等異常數據,并根據實際應用需求,去除凌晨00:00-04:59 的數據。之后,采用不合理數據予以剔除,然后采用一維插值方法進行數據填充。預處理后延誤時序共有6953 個數據點。
2.4.1 模型識別
模型的建立,使用的數據要求平穩,利用自相關函數和偏相關函數可以大致確定p、q 的范圍。若自相關系數呈現拖尾,偏自相關系數呈現p 階截尾,則定為AR(p)模型;若自相關系數呈現q 階截尾,偏自相關系數呈現拖尾,則定MA(a)為模型;若自相關系數和偏自相關系數都呈現拖尾,則定為ARMA 模型。
2.4.2 模型定階
現有常用的兩個模型選擇方法有赤池信息準則(Akaike information criterion,AIC) 和 貝 葉 斯 信 息 準 則(Bayesian Information Criterion,BIC)本文采用AIC 準則對模型進行階數確定。它是衡量統計模型擬合優良性的一種標準,由日本統計學家赤池弘次于1973 年提出并創立和發展的,因此又稱赤池信息量準則,它建立在熵的概念上,提供了權衡估計模型復雜度和擬合數據優良性的標準。函數一般定義如下:

2.4.4 殘差分析

2.5.1 模型建立
原始數據內容包含航班起飛延誤時長及到達延誤時長等信息,將這些數據作為的輸入,將平均到達延誤時長作為輸出,投入到神經網絡擬合中。訓練數據、驗證數據、測試數據的占比分別為70%、15%和15%。本文使用神經網絡模型,共有1 個輸入層,其中9 個輸入元素,隱藏層設置10 個神經元和1 個輸出參數進行模型建立。
2.5.2 估計結果
工具箱自身設置有統計結果,該模型性能最佳結果在第12次迭代得到,此時該模型的均方誤差為288.329。可以看出神經網絡模型得出結果的均方誤差隨著迭代次數的推進,逐漸降低,并且得到模型的R 值及回歸值為0.32232,R 值測量的是目標之間的相關性,越接近1 表示越密切關系,越接近0 表示越隨機關系。

可以計算兩種模型的均方誤差值MSE 和均方根誤差值RMSE來反映估計量于被估計量之間的差異程度,更小值為最佳。

?
??? ???? ?????
????????????? ?????? ?????????? ????????
??????? ?????? ?????????? ?????????
對比R2值、MSE 和RMSE 值可以看出,時間序列模型的擬合效果比神經網絡好,均方誤差和均方根誤差更小,R2更接近1。經過時間序列模型的建模預測,觀察預測值和實際值的差異,分析標準殘差值變化、殘差直方圖,可以看出殘差大部分集中在0 值附近,說明擬合誤差較小,分析殘差自相關圖、偏自相關圖可以看出在一階滯后時整體圖像趨于平穩,說明殘差不具有自相關性。分位數圖,分位數圖中大部分藍點在紅線上,說明殘差接近正太分布,預測值據有一定可靠性。分析BP 神經網絡結果回歸圖,R 值僅0.3 左右,虛線和藍線相差較遠,說明模型擬合效果并不理想。相對比于訓練的BP 神經網絡模型,ARMA 模型預測的數據更加準確,更具有參考價值。
合理的預測模型對運行規劃有著很大的意義。隨著航班的運行,海量的數據被記錄下來,通過研究這些數據,建立適合的數學擬合模型,可能對航班延誤問題有新的認識,并能做出合理應對,提高運營能力。本文根據航班延誤時長的數據規律,其航班延誤時間長短不定,走勢一般是非平穩,通過差分運算建立ARIMA(0,1,3)模型對比BP 神經網絡模型,對預測延誤時間結果具有較好的結果,對歷史數據進行利用,預測對比實際數據,得出結論,有一定的使用價值。乘客可以根據模型預測結果判斷是否選擇該線路,有助于幫助其做出合理的決策。航空公司可以參考優化航班安排計劃,提升運行效率,進一步提高公司服務品質,對未來公司發展有一定積極作用。