陳超



摘 ? 要:針對氣象條件導致航班延誤難以準確預測的問題,文章提出基于GP-LVM和LS-SVM的航班延誤等級預測算法。通過GP-LVM對經過預處理的氣象數據非線性降維,得到影響航班延誤的顯著變量;對航班延誤進行LS-SVM的延誤等級預測。仿真結果表明,文章提出的組合預測方法相對于單一SVM模型,能夠提高航班延誤等級預測準確率。
關鍵詞:航班延誤;高斯過程隱變量模型;非線性降維;最小二乘支持向量機
根據《民航行業統計發展公報》航班不正常原因統計分類中,天氣原因占50%左右,復雜的航空氣象影響著航班正常的運行,航班延誤問題逐漸增多成為民航運輸業發展道路上的阻礙。本文對樞紐機場的航班運行數據進行分析計算,預測得出機場航班延誤等級,給相關部門調度運行提供依據。
氣象問題極大地影響了機場跑道的容量架次標準,甚至在惡劣的天氣條件下關閉跑道,對航班產生影響的氣象因素較多,將海量數據參數引入預測模型,在運算中使得模型訓練時間加長且預測結果出現偏離,降低了模型泛化性能。使用高斯過程隱變量模型(Gaussian Process Latent Variable Model,GP-LVM)降低數據的維度,減少模型的運算量,得到影響航班進離港航班延誤顯著變量數據矩陣,結合最小二乘支持向量機(Least Square Support Vector Regression,LS-SVM)進行航班延誤等級預測研究。
1 ? ?高斯過程隱變量模型
高斯過程隱變量模型[1]用于N個D維觀測數據Y=[y1,…yn]∈RN×D進行降維處理,得到向量在低維空間中信息的有效表示X=[x1,…xn]∈RN×d。模型假定向量各維度上映射fd獨立,且分布函數為高斯過程,則:
(1)
因此,參數向量的似然表示為:
(2)
參數矩陣表示為數據各維度似然乘積:
(3)
其中,K是協方差函數矩陣。
從隱空間到高維空間的映射是非線性映射的高斯過程,公式簡化為:
(4)
2 ? ?最小二乘支持向量機
LS-SVM算法通過引入約束條件將二次規劃優化轉化求解線性方程組的問題,提高運算效率,算法對航班延誤等級進行預測過程[2]:xi∈Rn,i=1,…l為輸入訓練向量,yi∈Rl,yi∈{-1,1}為輸出量,根據結構風險最小化原則,函數應用的標準形式:
(5)
其中,ω為權值矢量,γ為懲罰因子,b為偏置量,為空間映射函數。
求解約束優化問題,構造拉格朗日等式:
(6)
其中,αi為拉格朗日乘子。
對上式進行求偏導數優化,根據上述條件得到線性方程組:
(7)
其中,為核函數矩陣,y和α為向量,I為單位矩陣,化簡得到LS-SVM函數為:
(8)
3 ? ?氣象數據統計分析
3.1 ?數據預處理
影響航班正常運行的氣象條件有低云、低能見度、強側風、雷暴等,本文氣象數據資源來自Metar報文,從觀測點對機場氣象數據的報告中提取氣象信息,氣象數據預處理包括以下3個方面:
(1)氣象報文數據收集過程中出現缺失值和異常值,導致統計數據中存在噪聲和異常數據。對不完整缺失信息進行擬合補全,對重復和不一致的數據進行清洗。
(2)在氣象屬性構造處理中對不同屬性之間的關系重新構建,對于文字描述的氣象類別進行定量分析,同時利用離散屬性的取值范圍實施數值化統計[3]。
(3)經過屬性構造的數據在特征選擇之前需要標準化處理。在同一維度上的數據每個樣本的數值與該樣本平均值的差值,對樣本的標準差即為歸一化處理,經過標準化符合的正態分布。數據歸一化方程:
(9)
3.2 ?數據降維處理
經過預處理數據量較大嚴重影響預測模型的泛化能力,原因在于多個變量的氣象因素集合屬于高維數據且有著較強的噪聲,導致預測結果較大的誤差,本文引入高斯過程隱變量模型進行數據降維處理,GP-SVM算法流程如圖1所示,具體步驟如下:(1)經過預處理后的氣象數據矩陣為待降維的數據。(2)降維模型選取合適核函數。(3)構建高斯過程隱變量模型進行參數優化。
4 ? ?數據來源及實驗方案
研究對象選擇某國際樞紐機場,航班延誤數據來自VariFlight網站。氣象數據來自收集2017年1—9月報文數據,報文以每30 min一次的頻率記錄,統計得到共13 104條報文數據,每條報文數據包含10項氣象條件,氣象因素經過預處理成為數值矩陣,部分維度數據如圖2所示。
預處理后的數據存在維度較大的問題,在模型預測分類過程中可能出現學習時間較長的現象,甚至導致預測結果,氣象數據通過GP-SVM算法降維處理,數據變為5個維度,降維后的部分維度數據分布如圖3所示。
氣象數據經過降維處理后,結合航班延誤數據將采集到的樣本分為191個訓練集和82個驗證集,將訓練集合對LS-SVM進行算法的學習和驗證可以得到分類預測模型,再使用模型對測試集進行航班延誤等級預測。對于訓練得到LS-SVM模型采用不同的核函數,預測分類準確率會有所不同,經過對比發現采用徑向基核函數,模型分類預測的準確率最高,航班延誤等級測試結果如圖4所示。
預測結果表明本文組合模型有著較高的預測精度,航班延誤等級預測準確率較SVM模型提高約7%,各模型航班延誤預測情況對比如表1所示。氣象數據經過降維處理降低信息的冗余量,縮短模型的訓練時間,提取到矩陣的顯著變量,能夠提高航班延誤預測準確率。
5 ? ?結語
本文對航班延誤問題進行深入研究分析,發現引起延誤的氣象因素集合屬于高維數據,結合GP-LVM將數據矩陣降維處理,解決預測過程出現維度災難問題。
將降維得到的顯著變量作為向量輸入模型,降低特征之間的冗余性,提高LS-SVM分類對航班延誤進行等級預測精度。
由于氣象因素引起航班延誤甄別可能出現誤差,在本文的延誤等級預測結果發現,預測準確度較其他類型有所降低,希望后續有新的方法會提高準確率。
[參考文獻]
[1]潘武生,黃玉水.一種基于高斯過程隱變量模型的表情識別方法[J].計算機仿真,2018(3):341-344.
[2]張瑞,李可,宿磊,等.深度稀疏最小二乘支持向量機故障診斷方法研究[J].振動工程學報,2019(6):1104-1113.
[3]王時敏.惡劣天氣對航班延誤影響的初步量化研究[D].南京:南京航空航天大學,2017.
Study on flight delay grade prediction based on GP-LVM and LS-SVM
Chen Chao
(College of Aviation Engineering, Civil Aviation University of China, Tianjin 300300, China)
Abstract:This paper establishes a combined flight delay prediction model based on GP-LVM and LS-SVM according to the difficulty in accurately predicting flight delays due to meteorological conditions. GP-LVM is used to reduce the dimension of preprocessed meteorological data nonlinearly, and the significant variables affecting flight delay are obtained. According to the classification verification results of LS-SVM, the next dimension reduction iteration was carried out. The simulation results showed that, the prediction accuracy of combined prediction method was improved compared with SVM.
Key words:flight delay; Gaussian process latent variable model; nonlinear dimensionality reduction; least square support vector regression