劉銘基,田雅楠,張 亮,金 博
(1.東北財經大學 國際商學院,遼寧 大連 116025;2.大連理工大學 創新創業學院,遼寧 大連 116024)
民航周轉量是衡量民用航空運輸生產的主要經濟指標,研究其準確預測對國內民用航空運輸業的發展建設具有重要意義。通過對民航周轉量的預測,有助于合理制定基礎設施建設規劃,完善其管理和運行方式,使其很好地適應日益增長的航空運輸需求,有效促進民航貨運的快速發展。2021年全國民航工作會議、全國民航安全工作會議介紹到在2020年,在新冠肺炎疫情對全球民航業造成巨大沖擊的情況下,由于中國疫情防控措施得力有效,中國民航在全球率先觸底反彈,成為全球恢復最快、運行最好的航空市場。
數據顯示,2020年全年民航完成運輸總周轉量、旅客運輸量、貨郵運輸量798.5億噸公里、4.2億人次、676.6萬噸,相當于2019年的61.7%、63.3%、89.8%。中國民航旅客運輸量連續15年穩居世界第二。中國民航業的快速發展使得有關民航指標科學預測成為大勢所趨。
《中國民航發展階段評估報告》也指出,目前中國基本具備了單一航空運輸強國特征,將開啟多領域民航強國建設新征程,這意味著中國民航基本實現了從航空運輸大國向單一航空運輸強國的“轉段進階”。面對這一成就,需要繼續強化中國民航運輸航空領域基本特征成熟度,鞏固航空運輸強國地位。然而,在交通運輸尤其是航空運輸的預測時,預測模型需要克服這個行業特有的周期性強、受天氣和季節的影響大、易受突發事件的干擾等挑戰。是否在模型中巧妙地解決這些問題也成為衡量預測模型的標準之一。
基于以上背景,對民航周轉量的預測方法的研究十分必要,提高預測精度成為首先要解決的問題。在模型的選取上,截止至2021年2月18日,在知網上以“Prophet模型”為主題進行檢索,去除無關內容(網絡通信中的專業名詞Prophet),共有32篇。涉及領域廣泛,涵蓋經濟學、醫學、工學、氣象學等領域。證明了Prophet模型具有普適性強的特點,然而Prophet模型在國內相關研究及運用較少,在民航預測相關領域還處于一個接近空白的階段。NeuralProphet模型則是在2020年提出的,是由Prophet模型優化改造的新模型。所以該文將以該模型為核心進行探討,首先從單個模型間的比較入手,選出準確性最高的模型,其次討論組合模型在民航周轉量預測上的準確性,最后挑選出最適合的預測模型并提供不同權重下的預測效果。
在預測民航總周轉量時采用的單一模型主要分為傳統統計預測方法和基于機器學習的預測方法。蔡文婷等建立航空客運量多元回歸模型,并通過歷史數據檢驗以及與傳統模型比較檢驗, 發現多元回歸模型適合進行民航客運量的中短期預測。劉楊對線性模型的預測能力進行了評估,并得出使用半參數部分線性回歸方法建立的民航客運量的預測模型最佳的結論。李明捷等運用灰色預測方法對未來的旅客周轉量進行預測,考慮到了系統性和動態性的特點。齊子薇應用時間序列分析方法,利用民航客運量2016年6月—2018年4月的逐月數據進行分析并建立預測模型,利用2018年5月客運量對模型進行檢驗后發現,自回歸移動平均模型ARIMA(1,0,0)能較好地模擬中國民航客運量的變化趨勢,有良好的預測效果。陳聰聰等基于國內生產總值、外國人入境游客、定期航班航線里程、鐵路客運量、第三產業增加值等影響民航客運量的主要因素,利用超極限學習機的算法模型對民航客運量進行預測,結果表明基于ELM預測模型具有較好的預測精度。Rafael等提出SARIMA阻尼趨勢灰色預測模型(SDTGM),SDTGM根據歷史數據計算季節性阻尼因子,與傳統的DTGM相比,不確定度更小。李偉等利用LSTM神經元的記憶特性,從客運歷史數據中查找和構建特征空間,提取客運量時間序列的非線性特征,通過對網絡進行訓練學習和超參數優化,使模型能夠對民航客運數據進行高精度的擬合以及對未來運輸高峰的精準預測。張良勇等基于BP神經網絡從經濟、旅游、競爭、機場運營能力四個方面構建影響北京民航客運量的指標體系,通過相關分析最終將得到8個影響北京民航客運量的因素作為BP神經網絡的輸入節點,發現當BP神經網絡的隱含層為11個時模型的性能最優。Marc 等基于協整理論,構建了可以直接預測德國機場的客運量和航班量的模型,將其與經典模型方法進行對比后得出新模型更優的結論,并用于評估2016-2018年英國脫歐對德國機場交通量的影響。Tobias等提出了兩種城市間航空客運量估算的重力模型。模型包含描述總體經濟活動和城市對地理特征的變量,而不是描述航空服務特征的變量。因此,這兩種模型都適用于目前沒有航空服、歷史數據無法獲得,或描述當前航空運輸服務水平的因素無法獲得或無法準確預測的城市對。Jieh-Haur Chen等利用k均值聚類和決策樹C5.0分類,研究空中交通量與宏觀經濟發展之間的內在關系,為預測模型確定影響因素提供新的思路。
不少學者也采用了組合模型的方式對不同問題進行了預測。葛娜等運用了加權集合的方式調整Prophet和LSTM神經網絡模型的權重,形成組合模型后對某企業銷售量進行預測,發現結果優于單項預測模型。趙英等同樣利用Prophet和LSTM兩個模型對機房溫度進行建模,不同的是他采用BP神經網絡對兩種模型的預測結果進行非線性組合來確定個模型權重,并得到了較好的預測結果。除了權重法和非線性組合法,María等利用1990-2013年數據將多種時間序列模型比較后得出,相比于其他時間序列預測模型,在預測美國航空客運量時“ARIMA+GARCH+Bootstrap”表現最佳。常恬君等則采用以Prophet為基礎模型,利用隨機森林算法對模型進行優化的方式形成新的優化模型。以上文獻為筆者創建組合模型提供了靈感和方向。
Prophet是一個基于STL分解思想的預測時間序列數據的機器學習框架,由Facebook公司在2017年進行開源。在這個模型中,非線性趨勢與年、周、日季節性,加上節假日效應進行擬合。它對具有強烈的季節性效應和幾個季節的歷史數據的時間序列擬合效果較好。此外,Prophet對數據缺失和趨勢變化具有很強的穩健性,通常能很好地處理異常值。Prophet工作流程如圖1所示。

圖1 Prophet模型運行流程
Prophet使用了一個可分解的時間序列模型,該模型有三個主要的模型組成部分:趨勢、周期性和節假日,將它們結合可構成這個模型。
y
(t
)=g
(t
)+s
(t
)+h
(t
)+ε
(1)
其中,y
(t
)為時間序列在時間t
的觀測值;g
(t
)為趨勢項,模擬了時間序列值的非周期性變化;s
(t
)為周期項,代表了周期性變化(例如,每周、每月和每年的季節性);h
(t
)為節假日項,代表了在一天或多天的潛在不規則時間表上發生的假期影響;ε
為誤差項,假定為正態分布的噪聲因子。g
(t
)的公式為:
(2)
其中,C
為飽和值,或者說是承載能力、容量;k
為增長率;b
為偏移量;t
為時間,明顯地隨著t
的增長,1+e(-(-))趨近于1,于是1+e(-(-))趨近于C
。s
(t
)的公式為:
(3)
其中,T
為周期;n
為周期數的一半。h
(t
)的公式為:
(4)
Z
(t
)=[1(t
∈D
),…,1(t
∈D
)]h
(t
)=Z
(t
)k
k
~N
(0,σ
)其中,Z
(t
)為指示函數;L
為節假日個數;k
為節假日的影響范圍。使訓練集和預測的相同節假日設置為一個虛擬變量,D
為第i
個虛擬變量;k
為窗口期中設定的節假日的影響。該文使用python的fbprophet包進行Prophet模型的實現。
NeuralProphet用于基于神經網絡對時間序列數據進行建模。它基于PyTorch運行,并吸收Facebook Prophet和AR-Net的特點。
其組成部分有趨勢、季節性、自動回歸、特殊事件、未來回歸項和滯后回歸項。其中,前幾部分與Prophet模型類似,趨勢通過使用變化點來建立線性或逐個線性趨勢的模型。季節性使用傅里葉項建模,因此可以處理高頻率數據的多種季節性。自動回歸使用AR-Net的實現來處理,AR-Net是一個用于時間序列的自動回歸前饋神經網絡。未來回歸因子是指在預測期有已知未來值的外部變量。滯后回歸因子是指只有觀察期有值的外部變量,使用單獨的前饋神經網絡進行建模。未來的回歸項和特殊事件都被建模為模型的協變量,并有專門的參數。
從名字不難看出,它和Prophet有密切聯系,相比較于Prophet,其優勢有:
(1)使用PyTorch作為后端進行優化的梯度下降法。
(2)使用AR-Net對時間序列的自相關進行建模。
(3)使用seepearate前饋神經網絡對滯后回歸者進行建模。
(4)可配置的FFNNs非線性深層。
(5)可調整到特定的預測范圍(大于1)。
(6)自定義損失和指標。
NeuralProphet模型在GitHub進行開源,目前處于開發階段,有些功能還不是很完善。該文使用的為2021年1月最新的0.27版本。在后續版本中,會有更多的更新內容,如為預測增加置信區間,為趨勢項增加邏輯斯蒂增長模型(Logistic growth model)以及增加對面板數據的支持等。
t
時刻的預測值為P
(t
),ARIMA模型的預測值為A
(t
),t
=1,2,…,N
,并分別給兩個模型分別賦予動態權值w
和w
。此時,定義集成后的Prophet-ARIMA組合預測模型為:
(5)
其中,t
為預測值出現的時間,PA(t
)為Prophet模型和ARIMA的預測數據通過權重相加得到的結果。該文選取民航貨物周轉量、民航貨郵周轉量、民航旅客周轉量和民航總周轉量于2005年至2017年的月度數據作為訓練集,預測2018年1月至2019年6月的月度數據。數據來自中經網統計數據庫。
圖2為Prophet擬合歷史數據及預測未來的情況。垂直虛線的位置為趨勢變化點,在趨勢變化點處趨勢項進行改變。

圖2 Prophet模型預測情況
在對參數進行調整時,乘法季節性(seasonality_mode='multiplicative')是一個重要參數。時間序列具有明顯的周期性,但季節性并不像先知所假設的那樣是一個恒定的加法因子。這時可以使用乘法季節性來進行調整。
圖3為NeuralProphet擬合歷史數據及預測未來的情況。在對參數進行調整時,這里有一個重要的參數,趨勢變化點的范圍(changepoints_range)。模型默認設置為0.8,即趨勢變更點只對時間序列的前80%進行推斷,以便有足夠的空間(runway)來預測未來的趨勢,并避免在時間序列結束時過度擬合波動。這個默認值在很多情況下有效,但不是所有情況。經過試驗,由于這里將其設置為0.9,擴大了趨勢變更點的覆蓋范圍,以便更好地適應數據變化情況。

圖3 NeuralProphet模型預測情況
w
和w
,取系數w
為[0.05,0.95]遞增的19個數值,因w
+w
=1,所以對應的權重系數w
為[0.95,0.05]遞減的19個數值。將19組權值系數w
和w
分別與各自對應的模型在各時刻下的預測結果相乘,然后將同一時刻兩模型對應的帶有權值系數的預測結果相加,最后輸出經帶權系數相加后的組合模型預測結果、對應的權值系數w
和w
以及時刻t
。經過以上流程的循環計算,得到19組加權集成后的預測結果,記為:
PA(t
),i
=1,2,…,19,t
=1,2,…,n
(6)
w
和w
的組合情況如表1所示。
表1 組合模型及對應權值
采用以下評價指標對模型進行評價,數值越低表明誤差越小。
MSE(Mean Squared Error,均方誤差):

(7)
RMSE(Root Mean Squared Error,均方根誤差):

(8)
MAE(Mean Absolute Error,平均絕對誤差):

(9)
MAPE(Mean Absolute Percentage Error,平均絕對百分比誤差):

(10)
SMAPE(Symmetric Mean Absolute Percentage Error,對稱平均絕對百分比誤差):

(11)
為進一步驗證模型的應用性能,該文選取Triple Exponential Smoothing(三次指數平滑法)、ARIMA作為對比模型。并使用五種評價指標進行對比,各模型評估對比結果如表2所示,表中黑色加粗處為本列最小指標。各單獨模型與組合模型的預測結果對比如圖4所示。

圖4 預測結果對比

表2 不同模型性能對比

續表2
從圖4可以看到,通過模型的不斷組合,預測也逐漸接近真實值。需要注意,由于使用5種評價指標,計算方法不同,存在5種不同評價指標的最小值不同時存在于同一模型的情況,這是很正常的。這時可以同時考慮5種指標來選擇最佳模型。
通過對民航貨物周轉量、民航貨郵周轉量、民航旅客周轉量和民航總周轉量四種民航周轉量構建不同模型并運用5種評價指標進行對比,得到最優模型,如表3所示。

表3 模型對比
就單一模型來看,相較于傳統的Triple Exponential Smoothing 和ARIMA模型,Prophet模型和NeuralProphet模型表現較優,可以方便地根據實際問題調整參數以適應實際不同的數據,這給時間序列數據本身進行STL分解進行建模的思想進行民航預測提供了一種新思路。在進一步研究后發現,在應對不同種類的周轉量時,被賦予不同權重的Prophet-ARIMA組合模型在預測效果上最佳。但以上模型無法準確地預測突發事件下的周轉率等指標。因此,如何通過改進或者融合使得模型能較好地預測突發事件有待進一步思考與研究。