邢志偉, 何川, 羅謙, 蔣祥楓, 劉暢, 叢婉
(1. 中國(guó)民航大學(xué) 電子信息與自動(dòng)化學(xué)院, 天津 300300; 2. 中國(guó)民用航空局第二研究所, 成都 610041;3. 民航成都信息技術(shù)有限責(zé)任公司, 成都 611430)
近年來(lái)中國(guó)民航業(yè)高速發(fā)展,民航旅客運(yùn)輸量逐年遞增,2016年全國(guó)旅客吞吐量首次突破10億人次,比2015年增長(zhǎng)11.1%。航站樓傳統(tǒng)的資源配置方式已不能滿足機(jī)場(chǎng)客流量增長(zhǎng)的需求。全國(guó)各大機(jī)場(chǎng)不同程度地出現(xiàn)了旅客排隊(duì)時(shí)間長(zhǎng)、旅客服務(wù)質(zhì)量下降等現(xiàn)象。國(guó)內(nèi)外學(xué)者力圖通過(guò)研究航站樓旅客服務(wù)流程優(yōu)化與航站樓資源配置優(yōu)化問(wèn)題來(lái)提高旅客服務(wù)效率與質(zhì)量。其中,航站樓客流量預(yù)測(cè)是航站樓旅客服務(wù)流程優(yōu)化的關(guān)鍵核心問(wèn)題,其預(yù)測(cè)精度的高低直接影響了上述難題的破解效果。
Grosche等[1]采用重力學(xué)模型方法,將經(jīng)濟(jì)增長(zhǎng)趨勢(shì)與機(jī)場(chǎng)吞吐量相結(jié)合,建立了相關(guān)聯(lián)的機(jī)場(chǎng)吞吐量重力學(xué)模型,該模型能對(duì)新建機(jī)場(chǎng)及已建機(jī)場(chǎng)的吞吐量做出較為準(zhǔn)確的預(yù)測(cè)。Letavkova等[2]結(jié)合小波變換和時(shí)間序列模型提出了一個(gè)機(jī)場(chǎng)吞吐量預(yù)測(cè)新方法,很好地預(yù)測(cè)了奧斯特拉瓦和蒙特利爾機(jī)場(chǎng)的旅客流量。黃飛虎等[3]利用民航旅客訂座數(shù)據(jù)分析了航空旅客群體移動(dòng)的特性,發(fā)現(xiàn)吞吐量具有一定的周期性, 易受節(jié)假日的影響,且與其相互通航的城市數(shù)量有很大關(guān)系。上述研究都屬于機(jī)場(chǎng)宏觀客流量的預(yù)測(cè)范疇,其顆粒度較大,無(wú)法指導(dǎo)機(jī)場(chǎng)每天甚至每小時(shí)資源精細(xì)化的配置。在微觀客流量預(yù)測(cè)方面,Ashford和Ndoh[4]提出了一種基于概率密度函數(shù)的航站樓短時(shí)客流量預(yù)測(cè)方法,證明離港旅客從出發(fā)到抵達(dá)航站樓的行程時(shí)間是隨機(jī)變量,該方法需建立概率密度函數(shù),花費(fèi)大量時(shí)間確定與調(diào)節(jié)參數(shù)。Kim等[5]將離港旅客到達(dá)航站樓的行程時(shí)間按長(zhǎng)短分為12個(gè)組,12個(gè)概率密度函數(shù)分別屬于正態(tài)或Pearson Type Ⅲ分布,從而計(jì)算出不同目標(biāo)時(shí)刻航站樓離港旅客數(shù)量,該方法在旅客到達(dá)人數(shù)少的情況下預(yù)測(cè)精度不高。邢志偉等[6-7]從人類行為動(dòng)力學(xué)出發(fā),以單航班離港旅客為研究對(duì)象,證明了單航班離港旅客抵達(dá)航站樓受航班離港時(shí)刻驅(qū)動(dòng)對(duì)泊松特性的偏離且服從重尾分布,但僅以單航班作為研究對(duì)象,若將單航班客流量疊加預(yù)測(cè)多航班客流量,則會(huì)造成較大誤差,對(duì)誤差修正需花費(fèi)大量時(shí)間。針對(duì)非線性時(shí)間序列的預(yù)測(cè),田中大、李樹江等[8-12]采用組合預(yù)測(cè)法,成功對(duì)混沌時(shí)間序列[8]、風(fēng)速[9]、網(wǎng)絡(luò)流量[10-12]進(jìn)行預(yù)測(cè),并取得了良好的預(yù)測(cè)效果。受此啟發(fā),本文擬借鑒組合預(yù)測(cè)思想研究航站樓短時(shí)客流量預(yù)測(cè)問(wèn)題。由于航站樓短時(shí)客流量受如航班計(jì)劃、天氣等多種因素的影響呈現(xiàn)出復(fù)雜的非線性特點(diǎn),基于確定數(shù)學(xué)模型的預(yù)測(cè)方法在模型構(gòu)建和求解上都存在困難,同時(shí),這類方法參數(shù)調(diào)整上需花費(fèi)大量時(shí)間,難以滿足航站樓資源配置優(yōu)化實(shí)時(shí)性的需要。K近鄰算法(K-Nearest Neighbor,KNN)[13-14]是另一類無(wú)數(shù)學(xué)模型的預(yù)測(cè)算法,不需要任何的先驗(yàn)知識(shí),其具備良好的移植與數(shù)據(jù)挖掘性能,新的數(shù)據(jù)可以方便地加入到模型中,符合航站樓短時(shí)客流量復(fù)雜的非線性特點(diǎn)。
但傳統(tǒng)K近鄰算法在預(yù)測(cè)場(chǎng)景中的精度并不高,多數(shù)學(xué)者針對(duì)不同預(yù)測(cè)場(chǎng)景做了相應(yīng)的算法改進(jìn)[15-20],并取得了良好的預(yù)測(cè)效果。受文獻(xiàn)[3,7,21]研究啟發(fā),具有相似航班計(jì)劃的運(yùn)營(yíng)日,同一個(gè)目標(biāo)時(shí)刻上的客流量變化波動(dòng)具有相似的特征,以相似特征日作為基準(zhǔn)向量用K近鄰算法進(jìn)行預(yù)測(cè),模型精度將會(huì)提高。
綜上,為了有效應(yīng)對(duì)航站樓短時(shí)客流量準(zhǔn)確預(yù)測(cè),本文在傳統(tǒng)K近鄰算法基礎(chǔ)上增加了航班計(jì)劃狀態(tài)模式匹配步驟,選取具有航班計(jì)劃特征的相似歷史運(yùn)營(yíng)日作為預(yù)測(cè)基準(zhǔn)向量,建立基于航站樓短時(shí)客流量預(yù)測(cè)的雙層K近鄰模型。通過(guò)實(shí)例分析,與ARIMA算法[12]和傳統(tǒng)K近鄰算法等進(jìn)行比較,證明雙層K近鄰模型預(yù)測(cè)誤差更小,精度更高,模型擬合度相對(duì)傳統(tǒng)K近鄰模型提高了8%~10%,平均擬合度高達(dá)90%,為機(jī)場(chǎng)資源的動(dòng)態(tài)分配提供了指導(dǎo)性的意見。
本文選取某航空公司離港旅客自助值機(jī)數(shù)據(jù)作為歷史數(shù)據(jù)庫(kù)。旅客進(jìn)入航站樓后在完成值機(jī)、安檢業(yè)務(wù)之前往往帶有一定的焦慮心理,因此極少旅客會(huì)在值機(jī)之前在機(jī)場(chǎng)逗留。而自助值機(jī)時(shí)間通常在1 min之內(nèi)完成,且排隊(duì)時(shí)間較短,因此可將自助值機(jī)時(shí)間近似看作旅客到達(dá)時(shí)間。
航站樓客流量預(yù)測(cè)分為短期、中期、長(zhǎng)期,認(rèn)為預(yù)測(cè)單位小于1天為短期預(yù)測(cè),以天和周為預(yù)測(cè)單位為中期預(yù)測(cè),以季度和年為預(yù)測(cè)單位為長(zhǎng)期預(yù)測(cè)。根據(jù)實(shí)際業(yè)務(wù)情況,飛機(jī)起飛前1 h對(duì)航站樓值機(jī)柜臺(tái)、安檢口、登機(jī)口等資源的需求幾乎已經(jīng)確定,不能再更改,因此以1 h為預(yù)測(cè)時(shí)間間隔更具有實(shí)際意義,但為了進(jìn)一步驗(yàn)證算法的魯棒性,綜合考慮,選擇更小的30 min為時(shí)間間隔。
選取2016-03-26—2016-10-26期間旅客自助值機(jī)數(shù)據(jù),將測(cè)試數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)之前的數(shù)據(jù)作為歷史數(shù)據(jù)庫(kù),以30 min為間隔,一天分為48個(gè)時(shí)段。建立異常數(shù)據(jù)識(shí)別標(biāo)準(zhǔn),對(duì)必要冗余數(shù)據(jù)剔除,這樣便完成了歷史數(shù)據(jù)庫(kù)的建立。
構(gòu)建大容量且包含了客流量變化趨勢(shì)和典型規(guī)律歷史數(shù)據(jù)庫(kù)后,再設(shè)定K近鄰非參數(shù)回歸模型中狀態(tài)向量、距離度量準(zhǔn)則、近鄰K值的取值及預(yù)測(cè)算法等相關(guān)要素,從歷史數(shù)據(jù)庫(kù)中找到與預(yù)測(cè)日相匹配的近鄰。
通過(guò)上述相關(guān)要素近鄰匹配,假設(shè)在歷史數(shù)據(jù)庫(kù)中找到K個(gè)近鄰,實(shí)際數(shù)據(jù)和這K個(gè)近鄰的距離為di(i=1,2,…,K),設(shè)p為客流量,則p(t)為第t時(shí)刻客流量,p(t+1)為第t+1時(shí)刻客流量,這些近鄰所對(duì)應(yīng)的歷史時(shí)刻航站樓旅客到達(dá)客流量為phi(t)(i=1,2,…,K)。再利用預(yù)測(cè)算法,便可得到預(yù)測(cè)日各個(gè)時(shí)段的客流量。
等權(quán)重的預(yù)測(cè)算法采用如下形式:
(1)
帶權(quán)重的預(yù)測(cè)算法采用如下形式:
(2)
采用帶權(quán)重的預(yù)測(cè)算法認(rèn)為距離小的近鄰在預(yù)測(cè)值中占有更大的權(quán)重,該算法符合人們的一般認(rèn)知,更能體現(xiàn)出航站樓旅客到達(dá)狀況變化趨勢(shì),因此本文采取帶權(quán)重的預(yù)測(cè)算法。該算法流程可以簡(jiǎn)要表述為圖1。
在對(duì)K近鄰模型的相關(guān)要素定義完成后,通過(guò)K近鄰算法對(duì)預(yù)測(cè)日各個(gè)時(shí)段的客流量進(jìn)行預(yù)測(cè)。隨機(jī)抽取連續(xù)5天(2016-09-09—2016-09-13)作為預(yù)測(cè)日,選擇預(yù)測(cè)日的前一天作為預(yù)測(cè)基準(zhǔn)向量,并選擇相應(yīng)基準(zhǔn)向量前半部分運(yùn)營(yíng)日作為歷史數(shù)據(jù)庫(kù),其中K=7;選擇3個(gè)評(píng)價(jià)指標(biāo):平均絕對(duì)誤差MAE、均方誤差MSE、擬合優(yōu)度R2來(lái)評(píng)價(jià)本文所有實(shí)驗(yàn)的預(yù)測(cè)精度,MAE、MSE與R2的定義式分別為
(3)
(4)
(5)

預(yù)測(cè)精度評(píng)價(jià)指標(biāo)如表1所示,其預(yù)測(cè)結(jié)果如圖2所示。
從表1與圖2可以看出,傳統(tǒng)K近鄰模型在機(jī)場(chǎng)場(chǎng)景中直接使用的缺點(diǎn)明顯,預(yù)測(cè)精度變化波動(dòng)較大,其中2016-09-11—2016-09-13這3日的預(yù)測(cè)精度相差了近10%,說(shuō)明其不具備良好的魯棒性。這是因?yàn)閭鹘y(tǒng)K近鄰模型單純選擇預(yù)測(cè)日的前一天作為預(yù)測(cè)基準(zhǔn)向量,并沒有考慮到影響旅客到達(dá)航站樓規(guī)律的因素。在機(jī)場(chǎng)項(xiàng)目中,影響旅客流量的主要因素有天氣、航班計(jì)劃、節(jié)假日、突發(fā)事件和機(jī)場(chǎng)周圍交通狀況。對(duì)于不同的兩日,若其特征因子差異過(guò)大,則兩日中目標(biāo)時(shí)刻上航站樓客流量大小也會(huì)有較大差異,從歷史數(shù)據(jù)庫(kù)中選取K個(gè)近鄰日,利用加權(quán)平均得出短時(shí)客流量的預(yù)測(cè)值則會(huì)與預(yù)測(cè)日有較大的誤差。綜上,傳統(tǒng)K近鄰模型不適合在機(jī)場(chǎng)短時(shí)客流量預(yù)測(cè)場(chǎng)景中直接使用。

圖1 K近鄰算法流程Fig.1 Flowchart of KNN algorithm

日期MSEMAER2/%2016-09-09351.893011.451183.652016-09-10386.675212.254982.332016-09-11345.365110.931589.312016-09-12342.478310.547289.542016-09-13411.579213.367379.14

圖2 K近鄰模型預(yù)測(cè)值與真實(shí)值對(duì)比Fig.2 Comparison of predictive value of KNN model with true value
基于相似日的預(yù)測(cè)算法[21]起源于電力系統(tǒng)短期負(fù)荷預(yù)測(cè),是電力負(fù)荷預(yù)測(cè)的基本方法之一。在電力系統(tǒng)短期負(fù)荷預(yù)測(cè)中,通常認(rèn)為在氣象狀況、日類型等影響因素相似的2天,負(fù)荷也比較接近。若以歷史上相似日為預(yù)測(cè)基準(zhǔn)向量進(jìn)行預(yù)測(cè),再根據(jù)相似日的負(fù)荷加以修正,則可以很好地預(yù)測(cè)結(jié)果。
借鑒電力系統(tǒng)的預(yù)測(cè)方法,考慮各個(gè)運(yùn)營(yíng)日的特征屬性,將歷史運(yùn)營(yíng)日的特征與預(yù)測(cè)日的特征進(jìn)行匹配,選取相似歷史運(yùn)營(yíng)日內(nèi)各個(gè)時(shí)刻客流量的測(cè)定序列作為訓(xùn)練序列來(lái)對(duì)預(yù)測(cè)日目標(biāo)時(shí)刻的客流量進(jìn)行預(yù)測(cè)有望解決此難題。然而,如何確定一個(gè)運(yùn)營(yíng)日的特征屬性及如何選取與預(yù)測(cè)日相似的歷史運(yùn)營(yíng)日是一個(gè)關(guān)鍵的問(wèn)題。
根據(jù)文獻(xiàn)[7]可知,旅客出行受到航班離港時(shí)刻的強(qiáng)制約束,會(huì)在航班起飛前一段時(shí)間密集到達(dá)航站樓,旅客到達(dá)航站樓的絕大多數(shù)情況為早于航班起飛1~2.5 h,離港航班量直接決定了航站樓旅客的聚集量。整個(gè)航站樓旅客的聚集可以看做是多個(gè)航班離港時(shí)刻約束條件下的結(jié)果,旅客聚集趨勢(shì)與航班離港時(shí)刻直接相關(guān)。
綜上分析,旅客行為從本質(zhì)上講是由截止時(shí)間約束的群體行為,因此每個(gè)時(shí)段的航班計(jì)劃是影響旅客航站樓聚集的重要因素。如圖3所示,t時(shí)段的旅客聚集人數(shù)是由后期時(shí)段的航班計(jì)劃m4、m5、m6影響。所以確定航班計(jì)劃為一個(gè)運(yùn)營(yíng)日的特征屬性,并通過(guò)航班計(jì)劃特征屬性來(lái)選取與預(yù)測(cè)日相似的歷史運(yùn)營(yíng)日。

圖3 航班計(jì)劃對(duì)旅客聚集量的影響Fig.3 Influence of flight schedule on arrived passenger number
通過(guò)第1節(jié)的分析,離港旅客的聚集行為由航班離港時(shí)刻即航班計(jì)劃驅(qū)動(dòng)。本節(jié)將選取航班計(jì)劃為一個(gè)運(yùn)營(yíng)日的特征屬性,在傳統(tǒng)K近鄰算法基礎(chǔ)上增加航班計(jì)劃狀態(tài)模式匹配步驟,采取K最近鄰法(K=1)選取與預(yù)測(cè)日相似的歷史運(yùn)營(yíng)日,并將選取相似歷史運(yùn)營(yíng)日內(nèi)各個(gè)時(shí)刻客流量的測(cè)定序列作為訓(xùn)練序列對(duì)預(yù)測(cè)日目標(biāo)時(shí)刻的客流量進(jìn)行預(yù)測(cè)。
定義1設(shè)在機(jī)場(chǎng)場(chǎng)景中,不同運(yùn)營(yíng)日一天中各個(gè)時(shí)段在相似的航班計(jì)劃條件下為相似特征運(yùn)營(yíng)日。
定義2設(shè)X(t)表示當(dāng)前時(shí)段的狀態(tài)向量,同時(shí)有相鄰航班計(jì)劃v(t)和相鄰時(shí)段旅客流量p(t)兩個(gè)指標(biāo),以此來(lái)表示數(shù)據(jù)特征。Xh(t)表示歷史同一時(shí)段的狀態(tài)向量,且近鄰產(chǎn)生于歷史同一時(shí)段。則狀態(tài)向量可表示為
X(t)=[v(t),v(t+1),p(t),p(t+1)]
Xh(t)=[vh(t),vh(t+1),ph(t),ph(t+1)]
定義3設(shè)K為近鄰個(gè)數(shù);R為歷史數(shù)據(jù)狀態(tài)向量的維數(shù);P(t)為第t時(shí)段的客流量狀態(tài)向量;V(t)為第t時(shí)段的航班計(jì)劃狀態(tài)向量;d為兩向量之間的歐氏距離。
歷史客流量狀態(tài)向量為
Phi(t)=[phi(t),phi(t+1),…,phi(t+n)]
i=1,2,…,R
歷史航班計(jì)劃狀態(tài)向量為
Vhi(t)=[vhi(t),vhi(t+1),…,vhi(t+n)]
i=1,2,…,R
為了更方便、直觀地分析各時(shí)段客流量與航班計(jì)劃,分別給出客流量狀態(tài)矩陣及航班計(jì)劃狀態(tài)矩陣。
客流量狀態(tài)矩陣為
歷史數(shù)據(jù)庫(kù)中一共有R天的客流量數(shù)據(jù),p1(t)表示第一天t時(shí)刻的客流量,則pR(t)代表第R天t時(shí)刻的客流量。
航班計(jì)劃狀態(tài)矩陣為
歷史數(shù)據(jù)庫(kù)中一共有R天的航班計(jì)劃數(shù)據(jù),v1(t)表示第一天t時(shí)刻的航班計(jì)劃,則vR(t)代表第R天t時(shí)刻的航班計(jì)劃。
在雙層K近鄰(T-KNN)客流量預(yù)測(cè)模型中,先計(jì)算當(dāng)前航班計(jì)劃狀態(tài)向量V(t)與歷史狀態(tài)向量Vhi(t)之間的度量距離,即歐氏距離d1為
i=1,2,…,R
(6)
選擇與預(yù)測(cè)日航班計(jì)劃狀態(tài)向量距離最小的一天,設(shè)其航班計(jì)劃狀態(tài)向量為Vm(t)=[vm(t),vm(t+1),…,vm(t+n)],則其對(duì)應(yīng)的客流量狀態(tài)向量為Pm(t)=[pm(t),pm(t+1),…,pm(t+n)],并在歷史航班計(jì)劃狀態(tài)矩陣及客流量狀態(tài)矩陣中除去對(duì)應(yīng)向量。再計(jì)算Pm(t)與歷史客流量狀態(tài)向量Phi(t)之間的度量距離,即歐氏距離di為
i=1,2,…,R
(7)
按照距離從小到大排序,并選擇出K個(gè)最近歷史客流量狀態(tài)向量Phi(t)=[phi(t),phi(t+1),…,phi(t+n)](i=1,2,…,K)。再計(jì)算當(dāng)前t時(shí)刻的客流量pi(t),并作為預(yù)測(cè)值,表達(dá)式為
建立針對(duì)航站樓短時(shí)客流量預(yù)測(cè)的雙層K近鄰模型,該模型具體步驟如下:
步驟1將旅客自助值機(jī)數(shù)據(jù)進(jìn)行預(yù)處理,通過(guò)建立異常數(shù)據(jù)識(shí)別標(biāo)準(zhǔn),對(duì)必要冗余數(shù)據(jù)剔除,完成歷史數(shù)據(jù)庫(kù)的建立,并將測(cè)試數(shù)據(jù)做同樣的處理。
步驟2根據(jù)已有數(shù)據(jù)的實(shí)際情況、算法效率、工程限制及數(shù)據(jù)獲取的限制,提取數(shù)據(jù)中航班計(jì)劃與相鄰時(shí)段旅客流量2個(gè)特征作為狀態(tài)向量。設(shè)X(t)=[v(t),v(t+1),p(t),p(t+1)]表示當(dāng)前時(shí)段的狀態(tài)向量,v(t)表示當(dāng)前時(shí)段航班計(jì)劃,p(t)表示當(dāng)前時(shí)段旅客流量。
步驟3根據(jù)測(cè)試數(shù)據(jù)第N天的航班計(jì)劃及K最近鄰法(K=1),利用式(6),計(jì)算當(dāng)前航班計(jì)劃狀態(tài)向量V(t)=[v(t),v(t+1),…,v(t+n)]與歷史航班計(jì)劃狀態(tài)向量Vhi(t)=[vhi(t),vhi(t+1),…,vhi(t+n)]之間的歐氏距離,根據(jù)距離從小到大進(jìn)行排序,再根據(jù)距離從歷史數(shù)據(jù)庫(kù)中找尋與其最接近的基準(zhǔn)向量第M天(M 步驟4以第M天基準(zhǔn)向量的一天中間隔30 min的旅客到達(dá)人數(shù)作為基礎(chǔ),在歷史數(shù)據(jù)庫(kù)中除去第M天,利用式(7),計(jì)算第M天的客流量Pm(t)=[pm(t),pm(t+1),…,pm(t+n)]與歷史客流量Phi(t)=[phi(t),phi(t+1),…,phi(t+n)]之間的歐氏距離,根據(jù)距離從小到大排序,找到K個(gè)與M天最相近的天數(shù),并利用加權(quán)平均預(yù)測(cè)算法(即式(2))得到預(yù)測(cè)值。 步驟5計(jì)算3個(gè)評(píng)價(jià)指標(biāo):平均絕對(duì)誤差MAE、均方誤差MSE、擬合優(yōu)度R2值,并進(jìn)行誤差分析。 雙層K近鄰算法流程如圖4所示。 圖4 雙層K近鄰算法流程Fig.4 Flowchart of T-KNN algorithm 為了深入探究2.1節(jié)建立的雙層K近鄰模型在航站樓短時(shí)客流量預(yù)測(cè)的適用性,本文從方法與時(shí)間2個(gè)維度驗(yàn)證分析。選擇2016-09-09—2016-09-13這5日作為預(yù)測(cè)日,預(yù)測(cè)日之前的航班數(shù)據(jù)作為測(cè)試日,并與傳統(tǒng)K近鄰模型、文獻(xiàn)[7]的航班離港時(shí)刻主導(dǎo)的單航班離港旅客聚集(Arrived Passenger Model in Single Flight based on the Time of Departure,TD-SFAPM)模型、文獻(xiàn)[12]的自回歸求和滑動(dòng)平均(Autoregressive Integrated Moving Average,ARIMA)模型、文獻(xiàn)[22]的支持向量機(jī)(Support Vector Machine,SVM)模型作預(yù)測(cè)精度對(duì)比。 在對(duì)雙層K近鄰模型的相關(guān)要素定義完成后,先進(jìn)行航班計(jì)劃狀態(tài)模式匹配步驟,根據(jù)2.1節(jié)中步驟3、式(6),利用K最近鄰法(K=1)在2016-03-26—2016-09-08數(shù)據(jù)中找出與2016-09-09—2016-09-13航班計(jì)劃最接近的一天,即相似歷史運(yùn)營(yíng)日。根據(jù)實(shí)驗(yàn),最近的一天依次為2016-06-10、2016-04-11、2016-04-18、2016-05-09和2016-08-10。 根據(jù)2.1節(jié)中步驟4,以相似歷史運(yùn)營(yíng)日作為對(duì)應(yīng)預(yù)測(cè)日的基準(zhǔn)向量,選取K=7,利用式(7)對(duì)2016-09-09—2016-09-13每天中48個(gè)時(shí)段客流量進(jìn)行預(yù)測(cè)。同時(shí),預(yù)測(cè)結(jié)果與傳統(tǒng)K近鄰模型、TD-SFAPM模型[7]、ARIMA模型[12]、SVM模型[22]對(duì)比。 由于文章篇幅限制,預(yù)測(cè)仿真對(duì)比圖只展示2016-09-09這一天,如圖5所示。各預(yù)測(cè)日精度評(píng)價(jià)指標(biāo)平均絕對(duì)誤差MAE、均方誤差MSE、擬合優(yōu)度R2結(jié)果如表2所示。 從預(yù)測(cè)方法維度對(duì)比分析,根據(jù)2016-09-09—2016-09-13實(shí)驗(yàn)結(jié)果表明,傳統(tǒng)K近鄰模型的評(píng)價(jià)指標(biāo)MSE與MAE均小于其相對(duì)應(yīng)的ARIMA模型,擬合優(yōu)度R2均大于ARIMA模型,表明傳統(tǒng)K近鄰模型預(yù)測(cè)效果優(yōu)于ARIMA 模型。這是由于ARIMA模型僅對(duì)平穩(wěn)的時(shí)間序列有較好的預(yù)測(cè)效果,對(duì)具有復(fù)雜性、不確定性和非線性特點(diǎn)的航站樓短時(shí)客流量來(lái)講,數(shù)據(jù)并不是十分平穩(wěn)。TD-SFAPM模型僅針對(duì)單航班預(yù)測(cè),若將其直接疊加預(yù)測(cè)多航班客流量則會(huì)造成更大的誤差,且誤差修正需花費(fèi)大量時(shí)間,不滿足短時(shí)預(yù)測(cè)的實(shí)時(shí)性要求。SVM模型雖然針對(duì)非線性時(shí)間序列有較好的效果,但其參數(shù)難以確定,預(yù)測(cè)精度受核函數(shù)影響很大,參數(shù)調(diào)整費(fèi)時(shí),也很難滿足機(jī)場(chǎng)資源配置實(shí)時(shí)性的需求。 傳統(tǒng)K近鄰模型單純選擇預(yù)測(cè)日的前一日作為預(yù)測(cè)基準(zhǔn)向量,忽略了航站樓客流量在短時(shí)期內(nèi)體現(xiàn)準(zhǔn)周期的規(guī)律性變化,且受航班計(jì)劃、天氣等多種因素的影響。若預(yù)測(cè)日與其前一日在目標(biāo)時(shí)刻客流量波動(dòng)較大,則選擇預(yù)測(cè)日的前一日作為基準(zhǔn)向量會(huì)帶來(lái)較大的誤差。 圖5 不同模型預(yù)測(cè)值與真實(shí)值對(duì)比Fig.5 Comparison of predictive value of different models with true value 日期模型MSEMAER2/%2016-09-09ARIMA393.735713.195380.27KNN351.893011.451183.65TD-SFAPM411.358613.258979.11SVM343.256812.158983.35T-KNN273.253510.332590.312016-09-10ARIMA423.658114.652878.13KNN386.675212.254982.33TD-SFAPM422.598714.857077.28SVM379.876312.268983.22T-KNN289.326510.659990.212016-09-11ARIMA387.365713.986381.55KNN345.365110.931589.31TD-SFAPM404.58613.896779.58SVM385.89711.857081.80T-KNN271.32599.587991.132016-09-12ARIMA435.578914.587377.97KNN342.478310.547289.54TD-SFAPM412.583014.058078.20SVM378.368711.235882.58T-KNN286.687210.253190.632016-09-13ARIMA426.875313.087578.96KNN411.579213.367379.14TD-SFAPM385.35013.589780.25SVM365.25711.587082.58T-KNN268.65789.324691.35 相對(duì)傳統(tǒng)K近鄰模型,雙層K近鄰模型借鑒電力系統(tǒng)的預(yù)測(cè)方法,選取航班計(jì)劃為一個(gè)運(yùn)營(yíng)日的特征屬性,將歷史運(yùn)營(yíng)日的航班計(jì)劃特征與預(yù)測(cè)日的航班計(jì)劃特征進(jìn)行匹配,選取相似歷史運(yùn)營(yíng)日內(nèi)各個(gè)時(shí)刻客流量的測(cè)定序列作為訓(xùn)練序列來(lái)對(duì)預(yù)測(cè)日目標(biāo)時(shí)刻的客流量進(jìn)行預(yù)測(cè)。該方法合理避免了因天氣、節(jié)假日等隨機(jī)因素對(duì)航站樓客流量造成的影響,選擇的相似歷史運(yùn)營(yíng)日與預(yù)測(cè)日客流量波動(dòng)不大,使得雙層K近鄰模型擁有更高的精度。 從雙層K近鄰模型評(píng)價(jià)指標(biāo)來(lái)看,其擬合優(yōu)度R2穩(wěn)定在90%左右,相對(duì)傳統(tǒng)K近鄰模型平均提高了8%~10%。雙層K近鄰模型良好的預(yù)測(cè)效果也證明了具有相似航班計(jì)劃的不同兩日為相似特征運(yùn)營(yíng)日,其客流量大小及波動(dòng)具有一定相似性,且以相似特征運(yùn)營(yíng)日作為基準(zhǔn)向量預(yù)測(cè)預(yù)測(cè)日短時(shí)客流量的精度更高,具體表現(xiàn)為:雙層K近鄰模型相對(duì)傳統(tǒng)K近鄰模型平均絕對(duì)誤差MSE與均方誤差MAE減小,擬合優(yōu)度R2增大。 為了排除隨機(jī)性對(duì)雙層K近鄰模型的影響,本文再?gòu)臅r(shí)間維度出發(fā),隨機(jī)抽取5日驗(yàn)證分析,并且每個(gè)預(yù)測(cè)日都分布在不同的月份。實(shí)驗(yàn)結(jié)果如表3所示。 實(shí)驗(yàn)結(jié)果表明,雙層K近鄰模型在時(shí)間維度上有很好的契合效果,并無(wú)較大波動(dòng),與真實(shí)數(shù)據(jù)的平均擬合度達(dá)到90%以上,相對(duì)于傳統(tǒng)K近鄰模型提高了8%~10%,顯示了雙層K近鄰模型良好的魯棒性。 表3 不同模型時(shí)間維度預(yù)測(cè)精度分析Table 3 Time dimension prediction accuracy analysis of different models 本文通過(guò)分析某航空公司旅客自助值機(jī)數(shù)據(jù),展開對(duì)航站樓短時(shí)客流量變化規(guī)律的探究,研究表明: 1) 傳統(tǒng)K近鄰算法適用于短時(shí)交通流的預(yù)測(cè),但針對(duì)航站樓短時(shí)客流量預(yù)測(cè)場(chǎng)景時(shí)需要對(duì)算法進(jìn)行改進(jìn)。 2) 旅客到達(dá)航站樓受到航班離港時(shí)刻的強(qiáng)制約束,具有相似航班計(jì)劃特征的運(yùn)營(yíng)日同一個(gè)目標(biāo)時(shí)刻上的客流量變化波動(dòng)具有相似特征。 3) 增加航班計(jì)劃狀態(tài)模式匹配步驟選取相似歷史運(yùn)營(yíng)日的各個(gè)時(shí)刻客流量的測(cè)定序列作為訓(xùn)練序列來(lái)對(duì)預(yù)測(cè)日目標(biāo)時(shí)刻的客流量進(jìn)行預(yù)測(cè)時(shí),即利用雙層K近鄰模型時(shí)預(yù)測(cè)誤差更小,精度更高,模型擬合度相對(duì)傳統(tǒng)K近鄰模型提高了8%~10%。 人類行為是高度復(fù)雜的,影響旅客到達(dá)航站樓的規(guī)律因素也錯(cuò)綜復(fù)雜。本文模型在構(gòu)建時(shí)只將航班計(jì)劃作為旅客到達(dá)航站樓驅(qū)動(dòng)力來(lái)尋找相似特征運(yùn)營(yíng)日,因此尚存在一定不足。未來(lái)將借助機(jī)場(chǎng)運(yùn)行控制中心大數(shù)據(jù)平臺(tái),進(jìn)一步挖掘運(yùn)營(yíng)日的特征屬性(如天氣狀況,淡、旺季類型)來(lái)確定與預(yù)測(cè)日相似的歷史運(yùn)營(yíng)日,完善理論模型,提高模型的普適性。
2.2 結(jié)果分析



3 結(jié) 論