文/徐小波 何迅 李光飛 楊力 闞細武 沈偉
隨著我國經濟持續快速發展,越來越多的旅客出行選擇空中交通運輸工具,使得我國民航客流運輸量在疫情前的每年都能持續穩定地增長。據統計,2016~2019年我國民航客流年運輸量每年保持7%以上的穩定增長[1];雖然2020年疫情期間客運量約減少2.4億人次,但2021年上半年該局面已經逆轉,旅客運輸量出現反彈式增長。如此強勢的客運增長量,表明我國的民航運輸還有巨大潛力與發展空間。
在民航機場領域推進建設平安、綠色、智慧、人文“四型機場”戰略的背景下,2020年1月民航局出臺的《中國民航四型機場建設行動綱要》提出要鼓勵綜合運用大數據、云計算、人工智能、區塊鏈等新技術,收集、融合、統計和分析各類數據,實現輔助決策、資源調配、預測預警、優化控制等功能,支撐工作協同、精確分析、精準管控、精細管理和精心服務,最終實現機場智慧化運行[2]。
行李處理系統作為機場內部最大的單體系統,具有包括值機、安檢、輸送、分揀、儲存、中轉、裝載、到港、控制等10個子系統[3],是機場最重要的系統之一。上述政策無疑都帶動了機場行李處理系統的規劃設計向安全、高效、智能、綠色等方向發展,研究提升行李處理系統效率具有重要的現實與戰略意義,而值機行李流量預測的研究則是提升行李運輸及服務品質的關鍵節點。
伴隨旅客運輸量的逐年增長,我國千萬級以上機場不同程度出現了行李處理系統運行能力不足的現象,包括值機排隊時間長、早到存儲能力不足、服務質量下降等。傳統的行李處理系統資源配置方式已不能滿足未來旅客爆發式增長的需求,如何在有限資源下解決上述問題以及合理分配資源,成為當前的熱點問題。
對于行李處理系統而言,行李流量是直接影響該系統資源配置及流程優化的關鍵點,值機行李流量預測是根據歷史數據及數據特征建立一套值機流量預測模型,該模型能預測短時值機行李流量,還可以為行李系統資源實時分配提供決策支持,幫助管理者提高服務質量。
針對行李處理系統,行李流量預測更直接地影響該系統的資源配置及優化,通過機場行李數據分析,行李流量與旅客流量相關性極強,呈現較為穩定的比例,即行李系數。由于當前極少有學者研究行李流量預測,因此本文主要參考研究旅客流量預測的文獻。
近年來,國內外研究者根據不同的預測場景提出了不同的預測方式。例如,Fei Dou[4]等提出了一種基于模糊時序邏輯的高速鐵路客流預測模型(FTLPFFM),該模型能夠對高速鐵路短期客流進行預測。Yong Wang[5]等提出了將現行政策與專用客流預測時間相結合的方法,并建立了定量與定性相結合的城際高速鐵路客流預測新流程。Dan Yang[6]等提出了一種基于長短期記憶神經網絡改進的模型,該方法充分利用了LSTM神經網絡模型在處理時間序列時的優點,克服了LSTM神經網絡模型由于時間滯后而不能充分學習長時間相關性的缺陷。賈銳軍[7]等提出了一種基于集成學習的XGBoost算法的機場旅客流量預測方法。何川[8]提出了雙層K近鄰模型(T-K近鄰)模型,并在考慮航班計劃影響因子的前提下,加入天氣狀況、星期類型、節假日影響因子,預測精度達到93%左右。
本文將考慮機場每天的運營特征屬性,將歷史日期的特征與預測日期的特征進行匹配,采用支持向量機回歸算法來對預測日目標時刻值機行李流量進行預測,為行李處理系統流程優化及資源合理分配提供一種新的解決思路。
在眾多機器學習算法中,支持向量機算法有著可使用核函數解決非線性問題、算法思想簡單、擬合效果好的優點,并且值機行李流量預測屬于回歸問題,因此本文使用支持向量機回歸算法(Support Vector Machine Regression,SVR)進行預測。
SVR算法在線性函數兩側制造了一個超平面“間隔帶”,對于所有落入間隔帶內的樣本,都不計算損失;只有間隔帶之外的,才計入損失函數。之后再通過最小化“間隔帶”的寬度與總損失來最優化模型。如圖1,只有深色“間隔帶”外側的樣本數據才被計入最后的損失。SVR算法的線性回歸函數與損失函數,如下所示:
SVR算法原理,如圖1所示[9-11]。
圖1 SVR算法原理圖[10]
對該對偶問題進行求解,可以得到SVR算法的最終求解目標為[12]:
在實際預測中會遇到許多非線性問題,這些都不能用一條直線進行分類或擬合。但向數據添加非線性特征往往能讓模型變得更強大,或者使用非線性函數可以將非線性可分問題,從原始的特征空間映射至更高維的空間。對于支持向量機而言,將數據映射到高維空間的方法是使用核函數,它不需要對數據特征進行實際的擴展,而是直接計算擴展特征表示中數據點之間的內積。常用核函數與解析式,如表1所示。
表1 常用核函數表
式(14)引入核函數后可得求解目標:
SVR算法可通過核方法得到非線性的回歸結果。
本文根據西南某機場行李數據庫中導出的數據創建數據集和整體預測流程,設計了數據預處理、特征工程及相應的SVR算法。預測模型及流程,如圖2所示。
圖2 預測模型流程圖
圖2 預測模型流程圖
數據是預測模型的基礎,機器學習就是要從大量數據中學習某種規律及分布,因此數據的重要性不言而喻。
(1)行李數據源
行李數據源來自于西南某大型機場行李處理系統數據庫,該數據庫記錄了每件托運行李的信息,包含行李編號、值機柜臺、值機時間、航班信息、旅客姓名等數據。
(2)外部數據源
外部數據庫主要包含了歷史節假日信息(如春節、中秋、國慶等)、日期類型(如星期幾、周末)、機場天氣狀況。
為了保證所獲取的數據能夠正確地進行預測,必須對大量歷史數據進行預處理,其中包括重復值處理、缺失值處理、異常值處理等3個步驟。
(1)重復值處理
對數據中的重復行李數據(如托運多件行李,重復記錄等)用刪除法進行處理。
(2)缺失值處理
對數據中的缺失值用刪除法與中值法進行處理。
(3)異常值處理
對數據中的異常值采用中值法進行處理。
特征工程是指用一系列數值工程化的方式,從原始數據中篩選出更好的數據樣本特征,以提升模型的訓練效果。
(1)構建數據特征
由于在行李處理系統數據庫中的現有特征無法滿足預測需求,因此本文從外部數據庫中添加構建了新的特征,包括節假日類型、日期類型、天氣狀況3個特征。
(2)特征提取
根據行李處理系統數據庫與外部數據庫建立相應特征,借鑒電力行業文獻[13]中的特征工程方法,對每個特征屬性建立相應的映射函數,提取后的特征如表2所示。
表2 數據集特征
將上述處理完成的數據及特征向量作為模型的數據樣本進行預測時,為保證各模型預測的精確度,還需要對模型的超參數進行調節。本文從訓練樣本中隨機抽取20%的驗證樣本,并使用Scikit-Learn機器學習框架的自動化參數搜索工具進行最優參數搜索,各模型參數如表3所示。
表3 預測模型參數表
為了驗證SVR 預測模型的精度,將其與K 近鄰模型(KNeighbors)與隨機森林模型(RandomForest)的預測結果進行對比。所有預測模型采用Python編程并在PyCharm Community 2021編譯器中實現,均在CPU為Intel(R)Core(TM) i5-9300H CPU @ 2.40GHz、內存為16GB以及系統為Windows10的個人電腦完成測試。
本文采用的回歸預測評價指標分別為擬合優度(R2)、平均絕對誤差(MAE)、均方根誤差(RMSE)。N為樣本數量,為真實值,為預測值。
擬合優度(R2)的計算公式:
平均絕對誤差(MAE)的計算公式:
均方根誤差(RMSE)的計算公式:
首先對SVR模型從平常日、節假日、周末、天氣3個特征維度隨機抽取4個預測日數據,進行24小時值機行李流量預測,驗證模型的可行性。
如表4所示,對應于表2數據集特征所抽取的預測數據包含數據集的相應特征分布,預測日中無特征完全一致的數據并且有不同特征重疊。如預測日1、3、4是平常日,預測日1、3是周末,預測日2、3、4的氣候是雨天,預測日2包含節假日和雨天等重疊特征,該預測數據有廣泛的特征分布,對驗證模型具有代表性。
表4 預測日特征取值表
模型的預測精度指標如表5所示,預測圖如圖3所示。
表5 SVR預測模型評價指標表
圖3 SVR模型預測圖
由表5可以看出,SVR預測模型的擬合優度都高于0.9,證明模型有效,值機行李流量預測模型能夠對機場的行李流量做出高精確度預測。
取預測日1作為預測的對比數據樣本,使用SVR、KNeighbors、RandomForest三種模型對比其預測結果。
三種預測模型對預測日1的預測精度指標及預測結果,如表6和圖4、圖5、圖6所示。
表6 預測模型評價指標對比表
圖4 SVR預測結果
圖5 KNeighbors預測結果圖
圖6 RandomForest預測結果圖
由預測對比結果可以看出,SVR 預測效果最佳,RandomForest次之,KNeighbors效果最差。
面對當前機場行李處理系統運行能力不足的現狀,本文針對機場行李處理系統值機流量預測問題提出了基于SVR算法的預測模型,并成功將該模型首次應用于機場行李流量的預測;相較于以往的流量預測數據集,本數據集增加了適應于SVR算法的特征映射函數并加入了天氣、周末、節假日等特征。以西南某大型機場行李處理系統數據庫及外部數據庫為數據源,對數據集進行預處理,然后提取特征,使用SVR算法對機場值機行李流量進行了預測。預測結果表明,SVR模型預測性能優異,擬合優度都高于0.9。該預測模型可為行李處理系統制造商及機場運營管理部門提供服務決策及資源合理分配依據,進而降低機場運營成本,提高服務質量。