王語桐 朱金福 馬思思
(南京航空航天大學民航學院 南京 211106)
航班延誤成為機場運營管理的一大難題,尤其對于樞紐機場,一旦發生大面積航班延誤,造成旅客大量積壓,會嚴重影響機場運行秩序.建立有效的航班延誤預測模型,預測可能延誤的航班數及延誤程度,及時調整運行策略,以降低由航班延誤導致的各種負面影響.
目前,國內外已有相關學者對航班延誤預測進行了研究.文獻[1]利用貝葉斯網絡分析航班延誤在銜接時的傳播過程,來預測下游機場的航班延誤情況.文獻[2]基于集成學習理論和改進型的貝葉斯網絡,建立了一種帶有自反饋的集成學習系統,對航班延誤情況進行預測.文獻[3]利用動態數據驅動方法進行航班延誤預測,并采用支持向量機和濾波的方法分別對狀態空間模型的關鍵參數進行回歸求解和動態數據的同化.文獻[4]基于樸素貝葉斯的特征選擇方法與氣象和飛行性能數據相結合,進行航班延誤預測.文獻[5]在同時考慮航班自身屬性和航空信息網絡內其他機場與航班延誤有關因素的基礎上,對降維后的特征使用支持向量回歸方法預測航班的延誤時間.文獻[6]得出到港延誤時間序列存在混沌特性,對其進行相空間重構,并結合算例證明差分進化算法可獲得最優的支持向量回歸預測模型.文獻[7]基于動態貝葉斯網絡的航班延誤傳遞模型對航班延誤傳遞的特性進行了分析,并提出航班延誤鏈式逐段擴展預測模型.文獻[8]基于監督式學習模型對航班延誤進行定性、定量分析和預測.文獻[9]通過引入一種新型的多級輸入層神經網絡模型來預測航班延誤.針對機場的進港航班延誤預測,文獻[10-12]分別采用融合先驗知識的支持向量回歸方法、決策樹方法與多元線性回歸方法建立進港航班延誤預測模型.上述文獻的預測方法大都存在著模型單一的缺點,對于處理影響因素較多的航班延誤預測問題存在局限性.同時,單一預測模型比組合預測模型更易受到隨機性因素(天氣、流量控制等)的影響,進而影響到模型的預測效果.
為克服單一預測模型的缺陷,文獻[13-15]建立了航班延誤組合預測模型,在一定程度上提高了延誤預測的準確性.但是對航班延誤預測進行研究時,往往會忽略輸入變量之間存在的相關性,且輸入數據過多,使得模型訓練時間較長且預測結果的誤差較大.由于航班延誤數據既包含線性趨勢又包含非線性趨勢,故文中將SVR與MLR相結合,并融合主成分分析法對模型的輸入變量進行降維處理,以相應的主成分作為模型的預測變量對航班延誤進行預測,該方法在縮短模型訓練時間的同時,又保證了預測結果的精確性.
選擇單位小時進離港航班延誤架次和平均延誤時長作為預測指標.根據中國民用航空局在2016年頒發的《民航航班正常統計辦法》,進港正常航班是指不晚于計劃到港時間后15 min(含)到港的航班,離港正常航班是指在計劃離港時間后15 min(含)之前離港的航班.延誤判定標準如下.
1) 航班進港延誤
Tdel.A=max{0,ATA-(STA+15)}
(1)
式中:Tdel.A為航班進港延誤時間,若Tdel.A=0,表示該航班沒有延誤,否則表示該航班延誤;STA為航班時刻表上的航班計劃進港時間;ATA為航班在機位停穩后,地面機務人員擋上航空器第一個輪擋的時間.
2) 航班離港延誤
Tdel.D=max{0,ATD-(STD+15)}
(2)
式中:Tdel.D為航班離港延誤時間,若Tdel.D=0,表示該航班沒有延誤,否則表示該航班延誤;STD為航班時刻表上的航班計劃離港時間;ATD為機組得到空管部門推出或開車許可后,地面機務人員撤去航空器最后一個輪擋的時間.
因此,對于單位小時內航班延誤架次的計算,是通過計數的方式統計1 h內的延誤航班數目;對于單位小時內航班平均延誤時長的計算,首先按照式(1)~(2)計算單個航班的延誤時長,然后對1 h內總延誤時長取平均值,得到該單位時間航班的平均延誤時長.
航班起降數據采用上海浦東機場協同運行系統中的航班運行歷史數據.選取2016年12月的航班數據作為模型的訓練集,2017年1月的航班數據作為測試集.
根據美國聯邦航空局中航空系統性能指標數據庫中的機場分析模塊,與機場航班起降有關的數據字段主要有以小時為單位的機場進離港架次、進離港延誤架次、平均延誤時長,以及航班性質等.通過對已有數據字段進行補充和修改,得到表1的變量符號及含義.

表1 變量符號及含義
其中,上一時段的進離港航班數據是指前1 h的進離港航班數據.考慮到機場存在宵禁,01:00—05:00機場內起降航班數較少,因此,選取06:00—24:00內的起降數據作為樣本.由于各變量量綱不一致,很可能對研究結果造成影響,故采用最大、最小歸一化方法分別對訓練集和測試集進行歸一化處理,使得各變量的數據范圍縮放到[0,1]之間,其表達式為
(3)
式中:X和Y分別為歸一化前后的數值;Xmax和Xmin分別為樣本的最大值和最小值.
由于引起航班延誤的因素較多,若將所有影響因素都作為模型的輸入變量,會增加模型的訓練時間且降低了泛化性能,因此,運用R語言對影響機場航班延誤的影響因素進行逐步回歸分析,得到影響單位小時內進離港航班延誤架次和平均延誤時長的顯著變量,結果見表2.

表2 影響預測指標的顯著變量
多重共線性是指模型中的輸入變量之間由于存在高度相關關系而使模型估計失真或難以估計準確,可用方差膨脹因子(VIF)來評估.
(4)

運用R語言對各個輸入變量的VIF值進行計算,得出輸入變量之間可能存在多重共線性.為消除多重共線性,采用主成分分析法,在盡可能保留原始信息的前提下,通過降維的思想將存在線性相關的輸入變量轉化為幾個線性無關的主成分,并以主成分作為預測變量進行航班延誤預測.
根據各個預測指標的主成分累計方差貢獻率,在預測進離港航班延誤架次和平均延誤時長時均選取前6個主成分作為模型的預測變量,使得累計方差貢獻率均達到94%以上.
多元線性回歸模型主要用于判斷多個預測變量與預測指標之間的關系,其模型表達式為
y=β0+β1Z1+β2Z2+…+β6Z6+ε
(5)
式中:Zk為第k個主成分;β0,β1,…,β6為回歸系數;ε為隨機誤差項.

支持向量機是建立在VC維理論和結構風險最小原理的基礎上,在小樣本、非線性及高維數據中表現出很多特有的優點,并且可以根據樣本信息在模型復雜性和學習能力之間尋求最佳折衷,以獲得最好的推廣性能.SVR的基本思想是通過一個非線性映射φ將主成分Zi映射到高維特征空間,并在此空間進行線性回歸,十分適合對機場航班延誤數據進行回歸分析.記z={(z1,y1),(z2,y2),…,(zn,yn)}為航班樣本,n為樣本量,zi為輸入向量,即zi=(Zi1,Zi2,…,Zi6)T,yi為對應的預測指標數據,則SVR問題轉化為
(6)
(7)

(8)
式中:核參數σ和懲罰系數C是通過網格搜索法和交叉檢驗法[16-17]確定,即首先在σ和C取值區間內劃分若干網格并遍歷取值,而后采用10折交叉驗證法,選取所有取值中使得均方誤差平均值最小的一組為最優參數對.
3.4.1MAPE權重系數
平均絕對百分數誤差(MAPE)主要反映預測相對誤差的平均水平,所遵循的原則是MAPE大的模型在組合模型中所占的權重系數小,其表達式為
(9)

(10)
3.4.2最小二乘法權重系數
在組合模型中經常用到擬合誤差的誤差平方和達到最小來計算權重系數wi,稱為最小二乘法.最小二乘法可以轉化為以誤差平方和為準則的線性組合預測模型的最優化問題:
(11)
(12)
式中:ei(t)為第i個模型在t時刻的預測誤差;n為樣本量.
3.4.3 組合權重系數
組合模型權重是將MAPE權重系數和最小二乘法權重系數相結合,得到組合權重系數.

(13)
式中:ai為第i個模型的MAPE權重系數;wi為第i個模型的最小二乘法權重系數.
經過MAPE和最小二乘法相結合確定的組合模型的權重系數見表3~4.

表3 離港航班組合模型的權重系數

表4 進港航班組合模型的權重系數
所得到的進離港航班延誤的組合預測模型為
1) 離港航班延誤架次的組合預測模型
(14)

2) 離港航班平均延誤時長的組合預測模型
(15)

3) 進港航班延誤架次的組合預測模型
(16)

4) 進港航班平均延誤時長的組合預測模型
(17)

為檢驗上述組合模型的性能,利用上海浦東國際機場2017年1月的航班數據對組合模型進行測試,測試結果見圖1.

圖1 組合預測模型的測試結果
由圖1可知,對測試數據的預測值與實際值總體相差不大,離港航班延誤架次的誤差大部分可以控制在兩架以內,進港航班延誤架次的誤差均控制在三架以內,且二者的誤差比例大多控制在20%以內.離港航班平均延誤時長的誤差大部分可以控制在6 min以內,進港航班平均延誤時長的誤差大部分可以控制在5 min以內.
模型評估指標采用均方根誤差(RMSE),RMSE是用來衡量預測值與真實值之間的偏差,其值越小代表預測精度越高,其表達式為
(18)

三種模型的誤差結果見表5.通過誤差結果比較可知,航班延誤的組合預測模型的均方根誤差小于MLR模型和SVR模型,即組合模型的預測效果優于單一模型.因此,該組合預測模型可用于機場航班延誤問題的研究.

表5 模型誤差結果比較
利用上述所得到的航班延誤組合預測模型,對上海浦東國際機場2017年12月1日06:00—24:00的進離港航班延誤數據進行擬合.所得到的組合模型的預測結果見圖2.

圖2 組合模型的預測結果
由圖2可知,預測值與實際值總體相差不大,離港航班延誤架次的誤差大部分可控制在3架以內,進港航班延誤架次的誤差均可控制在1架以內.而離港航班平均延誤時長的誤差均可控制在4min以內,進港航班平均延誤時長的誤差大部分可以控制在6min以內.
整體來講,該組合預測模型用于解決機場航班延誤問題比單個預測模型具有更高的預測精度.該研究成果在一定程度上可用于機場運行控制人員監控機場擁擠程度,預測未來時刻航班延誤情況,為采取適當的資源調度方案等提供參考,以幫助機場及時發布延誤預警信息,調整機場運行調度策略和減少航班延誤的發生.此外,分析預測結果與實際值誤差產生的原因主要有:部分時刻的數據的缺失導致誤差;極端惡劣天氣情況下的數據沒有單獨處理;沒有將航班取消情況考慮進去.
未來的工作主要有:①在數據處理和篩選階段考慮航班取消和極端天氣等情況;②進一步完善統計數據的屬性,增加天氣情況、跑道關閉情況等.③在有效預測航班延誤情況的基礎上,將預測結果作為與機場場面運行相關的優化模型的參數,比如滑行道調度模型、停機位指派模型等.