王興隆,石宗北,賀 敏
(中國民航大學空中交通管理學院,天津 300300)
隨著我國民航業的飛速發展,航班量與日俱增。在有限的機場容量以及管制員配置的情況下,進行航班流量的有效預測將對機場動態容量評估、保障航班正常性以及輔助管制決策等均有很重要的意義。
進離港的航班流量往往受地面保障、天氣、空域情況等多種因素影響,因而較難對航班流量進行準確預測。相似日作為一種基于歷史數據的方法,有較好的表現效果,相似日預測在工業以及實際生產生活中有著廣泛的應用。基于相似日的衍生預測模型也在許多行業有著較好的實現效果。莫維仁[1]等最早提出了數據波動產生的趨勢相似日以及形狀相似日的概念并基于相似日對短期負荷模型預測進行了探討;牛東曉[2]等提出相似日聚類方法并通過自適應權重組合預測模型對電力系統負荷進行預測;陳昕、唐湘璐[3]等采用相似日聚類與時間段劃分的二步聚類過程,對溫室中溫度的調控進行了預測,在農業生產中取得了較好的效果;張平,潘學萍[4]等通過將相似日數據序列進行離散化小波變換,結合神經網絡模型實現了短期負荷預測。在民用航空領域,Sreeta Gaorripaty等人以紐約肯尼迪機場(JFK)及新澤西紐瓦克機場(EWR)為例進行了相似日選擇的研究,驗證了相似日方法在民用航空中的可行性[5]; Shon Grabbe和Banavar Sridhar從氣象角度對機場的相似日進行了研究,對于2011年的所有美國機場進行聚類,得到在不同氣象條件下機場實施的地面等待程序(GDP)的集劃分[6]。
然而相似日聚類方法同時間序列分析、分形理論等民航運輸領域常用的流量預測方法一樣[7-8],其得到的結果源于對系統本身的合理外推,缺乏對不確定影響因素的考慮。神經網絡雖然可以很好地刻畫非線性關系,但存在網絡結構難以確定、過擬合、局部極值等問題,難以保證預測精度[9]。支持向量機(SVM)通過最小化結構風險同時解決了以上存在的問題。
基于以上情況,利用相似日方法善于對歷史運行模態進行挖掘的特點及SVM預測精度表現良好的特性建立機場相似日聚類支持向量機回歸模型。同時,通過粒子群算法進行參數尋優,以達到實現航班流量準確預測的目的。
知識挖掘可以從大規模的數據庫和歷史信息中挖掘提取隱含、不確定的變化信息,具有廣泛的應用價值[10]。因此,從歷史數據尋找相似日,利用相似日信息與航班流量之間的映射關系,推測待預測日的航班流量情況。通過知識挖掘確定相似日常用的方法有模式識別、聚類方法和相關性分析等。
對一給定樣本集合A,有:tij∈A,i∈[1,2,…,n],i∈[1,2,…,m]。其中i為A中的樣本個數;j為樣本的特征。對于樣本集中的每個樣本,均可由m個特征描述。即對于特征集B有:ti=[ti1,ti2,…,tim]。因此,衡量相似日的樣本數據可由n*m維矩陣表示。即

(1)
基于歷史統計數據,根據民航情報服務中心發布的氣象數據進行相似日粗選,選擇與目標機場氣象條件相似的日期,然后提取粗選集中相似日的特征向量對機場進行灰色聚類。過程如下:
1) 基于氣象信息的相似日數據粗選
首先從影響機場本場運行的氣象條件的角度進行相似日粗選以達到對數據集進行清理的效果。由民航情報服務中心發布的通告可知天氣現象對機場運行造成的影響可分為雷雨、對流、低能見度、降雪、大霧等,因此可以根據歷史數據中的不同天氣類型先篩選出部分數據作為粗選樣本集。
2) 歷史數據處理
對于同一樣本數據中的不同指標,各自指標代表著不同的物理含義,而且數據分布區間不均,為了保證后續訓練效果的精確度與準確性,需要對粗選集中的數據進行進一步處理。無量綱化可以抵消指標間不同物理意義帶來的影響。無量綱化方法如下

(2)
3)歷史數據聚類
比對待預測日與歷史運行日的關聯度,對機場的運行歷史數據進行分類。本文選取衡量機場運行狀態的信息包括通行保障能力C、當日計劃航班總數P、單位小時最大航班量R、風速W、能見度V等5類。其中,通行保障能力數據來源于民航情報服務中心發出的機場運行通告,計劃航班數、及高峰小時航班數數據來源于飛常準業內版,氣象數據采自METAR報報文。因此任意一天θ的機場運行數據可以表示為由五種指標構成的行向量,即
tθ=[tθC,tθP,tθR,tθW,tθV]
(3)
對于待預測日,其第j個特征(j∈[1,2,3,4,5])與所選取的歷史運行日θ之間有如下關系:
σθ(j)

(4)
其中,σθ(j)為待測日第j個特征與歷史相似日的關聯系數;ρ是分辨系數,一般取0.5;t0(j)是代表待預測日的第j個特征。
計算歷史相似日θ與待測日特征向量的關聯度γθ。

(5)
根據篩選并處理過的相似日特征集逐一與待預測日的運行條件進行比較并計算二者的關聯度。將關聯系數較高的數據作為新的樣本集。
支持向量機(SVM)具有在小樣本下仍有較好的學習效果的優點。在通過引入核函數將樣本數據映射到高維空間后可以進行非線性化處理,作為一種泛化能力較好[11]的有監督的學習算法被廣泛使用。
對于篩選出的訓練樣本集{(x1,y1),(x2,y2),…,(xk,yk)},t為樣本總數,其中xk為k維空間Rk中的輸入向量;yt是輸出值。引入回歸函數f(x)=ω·φ(x)+b。其中,ω為權重向量,且有ω∈Rk。φ(x)為可以將原數據映射到高維空間的核函數。SVM作為一種監督學習方法對數據進行預測的根本思想是在決策集空間F中尋找一種決策使損失函數期望最小化。
Rexp(f)=EP[L(Y-f(X))]
(6)
其中,L是用于表征預測值與實值之間差異的損失函數。Rexp的引入表表征了支持向量機模于數據分布P(X,Y)平均意義下的損失,但由于P(X,Y)未知,為了解決這個問題引入結構化風險函數Rsrm。
Rsrm≤Remp+λJ(f)
(7)
其中,Remp為經驗風險函數,J(f)為決策空間上表征模型復雜度的泛函。由Rsrm最小化,回歸函數最小化等價于求解有約束的代價泛函如式(8)示。

(8)
其約束條件滿足如下條件
ω·φ(x)+b-yt≤ξk+L
(9)

(10)

粒子群優化(Particle Swarm Optimization,PSO)算法是通一種基于群體智能的全局隨機搜索算法[12]。它的基本核心是利用群體中的個體對信息的共享從而使得整個群體的運動在問題求解空間中產生從無序到有序的演化過程,從而獲得問題的最優解,每個優化問題的解稱之為“粒子”。粒子群算法通過不斷移動的粒子來進行迭代尋優,粒子具有兩個屬性:速度和位置,速度代表移動的快慢,位置代表移動的方向。將粒子位置信息代入適應度函數,得到適應度值。在尋優過程中,粒子通過自己的個體極值pbest和群體極值gbest來更新速度和位置[13]。
D維空間內第u個粒子的位置和速度向量表示如下:
Xu={xu1,xu2,…,xuD}
(11)
首個粒子在D維空間的速度向量表示為:
Vu={vu1,vu2,…,vuD}
(12)
第一個粒子到目前為止搜索的最佳位置為:
Pbest={pbest1,pbest2,…,pbestD}
(13)
整個粒子群搜索到的最優位置為:
Gbest={gbest1,gbest2,…,gbestD}
(14)
在迭代過程中,粒子的速度與位置由下式確定
vα,β(s+1)=ωvα,β(s)+c1r1(pbestα,β(s)-xα,β(s))
+c2r2(pbestα,β(s)-xα,β(s))
(15)
xα,β(s+1)=xα,β+vα,β(s+1),
α=1,2,…,N,β=1,2,…,n
(16)
其中,s是迭代次數;N為粒子個數;c1和c2分別為粒子的認知系數與社會學習系數;r1和r2為[1,2]之間的隨機數;慣性權重ω為一個定值。
在支持向量機回歸模型中,參數的選擇對預測結果有著很大的影響,利用粒子群快速全局優化的特點對SVM的參數進行優化可以提高預測精度的同時并減少試算的盲目性。本文選取SVM預測結果的均方誤差(MSE)作為粒子群的適應度函數。針對懲罰系數c和核函數參數g進行優化,即搜索空間D=2。
結合上文所提相似日聚類及PSO-SVM預測模型,實現機場流量預測。基于機場相似日的PSO-SVM預測流程如圖1所示。

圖1 PSO-SVM機場流量預測流程圖
1)通過灰色聚類對機場的歷史運行情況進行相似日篩選,得到相似日數據集。
通過對目標機場在不同天氣下的運行情況進行歷史數據統計,采用通行保障能力、計劃航班數、單位小時最大航班量、風速、能見度等信息進行組合,構建相似度矩陣建立機場相似日灰色聚類模型,選取與待預測日關聯度較高的數據構建樣本集。
2)將篩選出的相似日數據集作為樣本集,并對樣本集進行歸一化處理。對樣本集進行劃分,其中將25%作為測試集,75%作為訓練集構建支持向量回歸模型。
3)通過粒子群算法對支持向量回歸模型中的懲罰系數c及核函數參數g進行尋優。
以支持向量機中的懲罰系數c和核函數半徑g的取值作為粒子,設置迭代次數,初始化粒子群P,隨機初始化粒子位置和速度,并按式(15)和式(16)更新速度和位置,生成新的c和g的值,得到此時支持向量機中的均方誤差MSE作為每個粒子的適應度值。對每個粒子,比較它的適應度值和它經歷過的最好位置的適應度值pbest,如果更好,更新pbest;儲存個體極值pbest和群體極值gbest。直至達到迭代次數停止,輸出最優適應度值和此時的c與g的值。粒子群優化支持向量機參數的流程如圖2示。

圖2 PSO-SVM算法流程
設定慣性權值ω=0.9,學習因子c1=1.6,c2=1.2,種群粒子數n=50,最大迭代次數N=100,c和g的速度邊界設定為[0.001,10]。
4) 用經過PSO算法尋優的SVM模型對機場待預測日的運行情況進行預測,獲得待預測日的機場流量情況。
基于2018年全年的民航情報服務中心的氣象通告結合飛常準平臺的機場準點率數據對2018年廣州白云機場的進離港航班情況進行研究,以驗證本預測模型的可靠性。以雷雨天氣情況下的運行情況為例,對2018 年9月7日雷雨天氣運行情況下廣州白云機場機場每小時服務航班的航班流量進行預測。
以2018年8月為例,將機場運行數據結合民航情報服務中心發布的氣象通告以及當日運行的METAR報進行相似日篩選,得到信息如表1所示。

首先,對表1中的信息進行無量綱化處理得到灰色聚類數據樣本;然后依據關聯度公式對收集到的數據進行計算,選取相似度較高的日樣本數據作為支持向量機模型的訓練樣本如表2所示。在本文中,以2018年9月7日為待預測日,因此選取計算后與待預測日關聯度在0.85以上的7個運行單位日作為最終訓練集。

表2 相似日關聯度
將樣本日數據以及待預測日的數據輸入,用PSO算法訓練SVM獲得參數。其中,本文選取的核函數為多項式核函數,多項式次數d=3。由于夜間進離港航班數量較少不具有代表性,因此本文用參數尋優后的模型對白云機場2018年9月7日早06:00至晚23:00的航空器進離港情況進行預測,并與實際結果進行比較。適應度變化曲線如圖3示。

圖3 適應度變化曲線
由圖3可知,在46代左右算法快速收斂,在75代左右達到最優值。經多次迭代尋優后得到的懲罰系數c=3.44,g=0.17。在最優參數的基礎上對待預測日航班流量進行預測,實際值與預測值的相對誤差絕對值最大值7.14%,最小值為0,平均相對誤差為3.26%,均方根差(RMSE)為6.61。
分別采用相似日-BP神經網絡模型與不進行相似日處理的傳統PSO-SVM模型數據進行比較。各算法預測值與實際值的比較結果如表4示。真實值與預測值的折線圖如圖4示。

表4 BP神經網絡預測結果

圖4 預測結果對比圖
在相似日-BP神經網絡回歸算法得到的預測結果中,相對誤差絕對值最大值為9.68%,最小為0,平均相對誤差為4.30%,均方根誤差為3.82。而在未經相似日處理的PSO-SVM算法中,相對誤差絕對值最大為14.49%,均方根誤差為6.61。由表4可知本文所提方法有著較好的預測精度。相似日聚類粒子群優化的支持向量機模型對每小時實際服務的航班量預測具有較好的效果。
對廣州白云機場進行航班量預測的基礎上,本文進一步對我國兩個千萬級機場,上海浦東機場及成都雙流機場進行了航班量預測。分別采用本文所提方法及相似日-BP網絡和傳統的PSO-SVM方法預測2018年7月27日上海浦東機場及2018年7月15日成都雙流機場降雨條件下的運行情況。各預測方法在不同數據集上的均方根誤差如圖5所示。

圖5 算法誤差對比
如圖5所示,本文所提預測方法在不同數據集上均有較好表現,且對不同機場的預測誤差波動范圍較小,有著較好的穩定性。而未采用相似日處理的傳統PSO-SVM方法有著較大的預測誤差。
通過相似日PSO-SVM的方法,對機場每小時航班量進行了預測。通過基于數據驅動的相似日選取方法,在大量歷史數據中提取與待預測日關聯度較高的運行單位日作為相似日,提取出的數據特征相似、適于進行預測;通過支持向量機對機場每小時航班量進行預測,對機場動態容量評估、管制員戰術決策均具有較大的實際應用價值。最后應用廣州機場的實際運行數據進行了分析,以2018年9月7日雷雨天氣情況下的運行情況為例進行了航班流量預測,在相似日PSO-SVM模型中平均累計預測誤差為3.40%。取得了較好的訓練成果,證明了方法的可行性。