王語桐朱金福劉 暢
(1.南京航空航天大學民航學院 南京211106)(2.廣西師范大學數學與統計學院 桂林541006)
近年來航空運輸業發展迅速,航班延誤現象頻頻出現,成為機場和航空公司運營管理的一大難題。通過建立合理有效的延誤預測模型,預測未來時刻延誤航班數及延誤程度,以及時調整運行策略,對于機場和航空公司具有重要意義。
目前,國內外已有相關學者對航班延誤預測進行了研究。劉玉潔[1]基于集成學習理論和改進型的貝葉斯網絡,建立了一種帶有自反饋的集成學習系統,對航班延誤進行預測。陳海燕[2]利用動態數據驅動方法進行航班延誤預測,并采用支持向量機和濾波方法分別對狀態空間模型的關鍵參數進行回歸求解和動態數據的同化。李俊生、趙鍵濤和HELLWIG M D[3~5]利用貝葉斯網絡對航班延誤進行預測。羅赟騫等[6]得出進港延誤時間序列存在混沌特性,對其進行相空間重構,并證明差分進化算法可獲得最優的支持向量回歸預測模型。Sina Khanmohammadi[7]引入一種新型神經網絡模型來預測航班延誤。劉小飛、程華和Yi Ding等[8~10]分別采用融合先驗知識的支持向量回歸方法、決策樹方法與多元線性回歸方法建立進港航班延誤預測模型。
上述預測方法大多是對航班延誤預測為非動態預測,預測結果不具有實時性。而時間序列預測方法會根據航班延誤實時變化趨勢對航班延誤進行預測。因此,提出一種航班動態預測方法,該預測方法基于時間序列,并采用ARMA模型對航班延誤進行預測,結合航班延誤影響因素,通過支持向量機模型對預測結果進行修正,進而提高模型的預測精度。
由于航班延誤問題較為復雜,航班延誤時間序列也具有隨機性。本文中利用小波分解方法,基于小波分解多分辨率的特點對航班延誤時間序列進行分解,分解尺度為2,這樣分解之后可以得到3組數據,將這些數據進行ARMA模型,并對航班延誤進行預測。對得到的三組預測結果進行小波重構,得到時間序列的預測結果。最后,將ARMA預測結果與航班延誤影響因素輸入到訓練好的支持向量機,得到最終航班延誤預測結果。具體預測過程如圖1所示。其中,train為訓練集,predict為時間序列預測結果,result為模型的最終預測結果,D1、D2、S2為小波分解得到的三組數據。

圖1 航班延誤動態預測流程圖
對于波動較大的時間序列,利用離散小波分解方法將原始信號分解到不同尺度上,使得非平穩時間序列趨于平穩化。離散小波分解的實質是將原始信號S0從j尺度到j+1尺度的按層分解過程,將前一次分解到的信號再次進行分解,分解之后同樣可以得到高頻和低頻兩種信號。具體的分解過程為

其中,Sj,m為第j層的低頻信號,m為進行平移操作的參數;Dj,m為第j層的高頻信號,m為進行平移操作的參數;h為小波分解時的低通濾波器;g為小波分解時的高通濾波器;k=2m+n,且分別為進行實踐伸縮和平移前的低通濾波器和高通濾波器。
經過上式計算后分別通過ARMA模型對未來時刻航班延誤進行預測,得到的多組預測結果可以通過小波重構進行重構,重構過程為

以Daubechies小波為基函數,本文中對航班延誤時間進行離散小波分解,分解尺度為2,一維2尺度的離散小波分解示意圖如圖2所示。其中,S0為原始信號,S1、D1分別為尺度為1的兩種信號(低頻、高頻),S2、D2分別為尺度為2的低頻、高頻信號,且

圖2 小波分解與重構過程示意圖
ARMA模型是一種常用的隨機時間序列預測模型,被廣泛應用于時間序列的短期預測。ARMA模型主要是由AR(p)和MA(q)兩部分組成,其中心化ARMA(p,q)可表示為

其中,xt為t時刻延誤預測值;φp為第p個自回歸系數,p為自回歸項;xt-p為t時刻之前第p時刻的延誤預測值;θq為第q個滑動平均系數,q為移動平均項為白噪聲序列。
ARMA模型識別主要在于對自相關系數和偏自相關系數的截尾和拖尾進行分析。表1給出AR(p)模型、MA(q)模型和ARMA(p,q)模型自相關系數和偏自相關系數的性質。

表1 三種模型的自相關系數和偏自相關系數的性質
選用赤池信息量(AIC)準則來判定模型的優良性,將AIC最小的模型視為最優模型,進而確定階數。再基于最小二乘法對所確定的模型進行檢驗,分析殘差序列是否為特定序列(白噪聲),以判定模型的有效性。最后依據模型計算結果選擇合適的ARMA模型對航班延誤進行預測。
支持向量機的基本思想是通過一個非線性映射φ將航班數據zi映射到高維特征空間,并在此空間進行線性回歸,十分適合對機場航班延誤數據進行回歸分析。支持向量機模型可以表示為

其中,n為樣本量;zi為輸入向量;yi為對應的預測指標數據懲罰系數;C>0,用來平衡回歸函數f的平坦程度和偏差大于樣本點的個數為松弛因子;ε為足夠小的正數;引入拉格朗日乘子得到,其中為核函數,文中選用Gauss徑向基核函數(RBF)為核函數,見式(6)。

其中,核參數σ和懲罰系數C是通過網格搜索法和交叉檢驗法[11~12]確定,即首先在σ和C取值區間內劃分若干網格并遍歷取值,而后采用10折交叉驗證法,選取所有取值中使得均方誤差平均值最小的一組為最優參數對。
為驗證模型有效性,選取上海浦東國際機場2019年2月1日至2019年4月9日10:00航班數據作為模型的訓練集,預測未來8h內單位小時離港航班延誤架次和平均延誤時長。
根據美國聯邦航空局中航空系統性能指標數據庫中的機場分析模塊,與機場航班起降有關的數據字段主要有以小時為單位的機場進離港架次、進離港延誤架次、平均延誤時長和航班性質等。通過對已有數據字段進行補充和修改,得到離港航班延誤影響因素如表2所示。由于各變量量綱不一致,很可能對研究結果造成影響,故采用最大最小歸一化方法對航班數據集進行歸一化處理,使得各變量的數據范圍縮放到[0,1]之間,其表達式為

表2 變量符號及含義

其中,X和Y分別為歸一化前后的數值,Xmax和Xmin分別為樣本的最大值和最小值。
機場能見度作為影響航班延誤的主要因素,會嚴重影響到機場航班的起降。但通過現有天氣網站無法獲取各地區能見度歷史數據,有學者曾得出能見度與大氣顆粒物濃度呈現出冪函數關系[13~15]。因此,利用現有2015-2016年浦東機場能見度數據,以及從天氣網站下載的歷史大氣顆粒物質量濃度數據,采用冪函數對機場能見度和顆粒物質量濃度的關系式進行擬合,擬合結果如圖3所示。同時得出機場能見度與PM2.5濃度的關系式為:VSB=-292.66PM2.50.64453+11196。由t檢 驗 和F檢驗的p值均小于0.05可得,該模型和參數均顯著。

圖3 機場能見度與PM2.5濃度的關系
利用尺度為2的離散小波分解對單位小時內離港航班延誤架次和平均延誤時長時間序列進行小波變換,對分解得到的3組時間序列進行相關系數(自相關、偏自相關)檢驗,檢驗結果均顯示為平穩時間序列。結合自相關系數和偏自相關系數的截尾和拖尾情況,確定時間序列模型為ARMA(1,1),并根據AIC信息量準則選擇最優模型。基于R語言對3組時間序列進行預測[16],并將預測結果進行小波重構。最后采用支持向量機模型對結果進行修正,模型預測結果和相對誤差如表3所示。

表3 模型預測結果
采用均方根誤差對模型進行評估,得出單位小時內離港航班延誤架次和平均延誤時長預測模型的均方根誤差分別為8.92%、9.97%。為檢驗該動態預測模型的實時預測性,選用11:00~14:00航班數據對ARMA模型參數進行更新,同樣采用支持向量機模型對未來4h內航班延誤預測修正,模型預測結果和相對誤差如表4所示。計算模型的均方根誤差分別為5.58%、6.86%,較模型更新前降低大約3%。

表4 模型更新后的預測結果
提出一種基于時間序列的航班延誤動態預測方法,該方法會隨新航班數據的產生實時更新AR?MA,根據航班延誤情況預測后續時刻航班延誤情況,來對航班延誤進行動態預測,并采用支持向量機模型對ARMA預測結果進行修正。結果表明,隨新航班數據產生該動態預測模型的均方根誤差降低大約3%。
該研究成果在一定程度上可用于機場運行控制人員監控機場擁擠程度,預測未來時刻航班延誤情況,為采取適當的資源調度方案等提供參考,以幫助機場及時發布延誤預警信息,調整機場運行調度策略和減少航班延誤的發生。