趙春風
摘要 機場是區域經濟社會發展的重要引擎,而旅客吞吐量是衡量機場開放與活躍程度的重要標志,也是指導機場科學制定運營計劃的重要指標,因此有必要對機場旅客吞吐量進行預測。文章通過分析用于機場旅客吞吐量預測所需的多源數據構成、采集方法及數據項,提出了多源數據處理流程,構建了旅客吞吐量預測框架,通過多源數據技術和相關算法,設計了旅客吞吐量預測、決策和統計查詢等預測系統的功能模塊,最后結合祿口機場近五年的旅客吞吐量數據,對提出的方法與系統進行驗證,結果表明預測誤差小于3%,表現出良好的預測效果。
關鍵詞 旅客吞吐量;預測;多源數據
中圖分類號 TP311.13文獻標識碼 A文章編號 2096-8949(2024)08-0005-04
0 引言
南京祿口國際機場作為江蘇省省會機場,2019年旅客年吞吐量均突破3 000萬人次,發展勢頭良好。然而據統計數據顯示,江蘇省人口占華東地區的20%,而民航客運量僅占12%,民航發展水平低于華東地區平均水平。南京祿口機場是我國重要的交通樞紐之一,如何合理預測其吞吐量并進行精準管理,對于優化航班安排與資源配置、提升旅客體驗至關重要。近年來,隨著大數據技術的發展與成熟,為海量數據分析提供了基礎,開展基于多源數據的分析與預測工作成為可能[1-4]。該研究旨在依托大數據技術,設計一種先進、適用的機場旅客吞吐量預測方法和系統,為進一步提升祿口機場運輸管理水平提供支撐。
1 數據來源分析
1.1 數據來源構成
機場樞紐作為城市交通的重要節點,集聚了多種不同的交通方式,可將客流數據分為私家車數據、出租車(含網約車)數據、公交車數據、地鐵數據、高鐵數據等。同時不同種類的數據具有不同的信息來源,具體數據詳見表1。
在表1數據來源方式中,票務和閘機數據的記錄結構和形式相對簡單,多為出行行為的起訖點記錄、出行時間記錄和少量的出行者屬性記錄,而手機信令數據、公路卡口視頻監控數據、公交卡刷卡數據、收費站數據、衛星定位數據等具有信息量豐富、信息記錄形式多樣、信息處理方式復雜等特點,因此主要對這五種數據采集技術進行分析。
1.2 手機信令數據采集
手機信令數據是移動通信網絡滿足自身運行需要而生成和記錄的數據,其主要依賴于移動通信網絡基站和移動平臺,即手機與基站之間的信息交互。手機信令數據可分為主動行為數據和被動行為數據兩種:主動行為數據是手機用戶使用手機進行了短信收發、撥打電話等行為而產生的信令數據;被動行為數據是在手機用戶本身并未對手機進行任何操作時,由于跨越基站所覆蓋位置區或基站定期更新信令源位置所產生的信令數據[5]。手機信令記錄產生的原理如圖1所示。
手機信令數據本身包含的信息眾多,在交通應用方面通常包括采集時間、空間位置等數據,其原始數據記錄如表2所示。
由于無線信號和傳輸系統的不穩定性,會產生大量無效冗余數據、噪聲數據、漂移數據等,因此,在使用手機信令數據進行相關的交通分析之前,需要通過噪聲數據剔除、數據空間位置匹配等方法對原始數據進行加工處理,最終得到可用于分析的數據源。
1.3 公路卡口視頻監控數據采集
由于人工智能技術快速發展及GPU服務器算力顯著提升,可從視頻中自動提取動態交通信息,作為客流分析的來源之一。視頻監控系統經過機器學習之后,可識別的交通信息如表3所示。
1.4 公交卡刷卡數據采集
公交IC卡數據已成為交通客流分析的有效數據源,主要包括卡號、刷卡時間、乘坐車號和線路等字段。不同的卡號代表不同的乘客,根據卡號信息查找乘客一天的刷卡次數,從而確定乘客換乘或者二次出行信息。刷卡時間即乘客上車時間,根據線路上某具體車輛的運營調度信息以及線路站點順序,依據刷卡時間來判斷乘客的上車站點[6]。
1.5 收費站數據采集
南京祿口機場高速公路設置一處主線收費站,其產生的收費流水數據主要包括收費站編號、出入口時間、通行卡號、收費車道號、車型、流水號、收費金額等字段,如表4所示。可通過關聯與相關性挖掘、分類與回歸、聚類分析、離群點分析等方式對高速公路收費流水進行描述性和預測性挖掘,作為祿口機場客流分析的依據。
1.6 衛星定位數據采集
通過安裝在公交車、出租車(含網約車)的衛星定位裝置,獲取車輛運行過程中的位置、速度、方向等信息,根據這些數據分析車輛到達或離開祿口機場的狀態,進而估計旅客出行行為和數量。如表5所示,顯示了公交車、出租車(含網約車)的衛星定位數據字段。
2 預測系統設計
2.1 數據質量優化提升
首先需要依據祿口機場覆蓋區域確定數據采集范圍,以便精確獲取對預測有直接貢獻的數據,進而提高算法模型精度;其次需要對采集的多源數據進行融合處理,剔除冗余數據,綜合得到用于統計旅客數量的特征數據。對于同一個人擁有多部手機的情況,還需要結合位置與時間信息,通過關聯時空軌跡判斷真實的旅客信息,將多部手機的信令數據轉化為同一條旅客出行數據。該研究提出的多源數據優化處理流程如圖2所示。
2.2 預測框架與流程
祿口機場旅客吞吐量預測系統由數據采集與處理、預測輸出等模塊組成[7-8]。其中,數據采集與處理模塊負責與旅客相關的數據采集及清洗處理,同時,引入酒店、氣象、節假日等數據,作為控制因素,調節預測結果,以此提升預測模型的適應性;預測輸出模塊主要用于輸出預測旅客吞吐量,為應用業務系統提供決策數據。預測系統的基本框架與流程如圖3所示。
數據采集與處理:由于現場存在環境干擾、設備誤差等客觀因素,將會產生具有毛刺特征的異常數據,因此系統集成了中位值、算術平均、遞推平均、加權平均、一階滯后等數據濾波算法,對采集到的數據進行分析與處理,為后續預測工作提供可靠的數據源。
預測輸出:基于機器學習算法對歷史數據進行分析和建模,并對算法模型進行優化,預測機場旅客吞吐量,分析旅客吞吐量變化規律和趨勢,通過可視化工具呈現預測與分析結果。
2.3 預測算法原理
時間序列預測算法是一種定量的回歸預測方法,運用過去的時間序列數據統計分析,推測出事物的發展趨勢。考慮由于偶然因素而產生的隨機波動影響,需要對數據進行預處理,進而開展數據統計分析和未來趨勢預測。該研究基于Prophet時間序列預測算法對祿口機場旅客流量進行預測分析。
y(t)=g(t)+s(t)+h(t)+εt (1)
式中,g(t)——趨勢變化函數,用來分析時間序列中非周期性的變化;s(t)——季節周期項,一般以年或以周為單位;h(t)——節假日項,表示節假日因素造成的影響變化;εt——誤差項,表示突發事件的影響,通常為高斯噪聲。
由于該研究中以年為單位預測,故暫不考慮節假日項,并結合季節周期性影響模型,則Prophet模型為:
(2)
式中,P——時間序列周期長度,該研究中P取值為365,可對年度數據進行周期效應估計。原始數據經過格式轉換、異常值處理之后得到標準化后的客流量數據,將其代入構建的Prophet模型進行訓練,按非周期性變化的趨勢項、季節周期項對模型進行分解和訓練,根據訓練結果進一步優化模型,以提升模型預測的精確度。
2.4 預測系統功能設計
預測系統的核心功能包括旅客吞吐量預測、預測決策、統計查詢三部分。其中,旅客吞吐量預測主要是結合多源數據,依托上述預測框架和預測流程,自動生成吞吐量數據;預測決策是依據旅客吞吐量預測數據,制訂輔助決策計劃;統計查詢是依據旅客吞吐量預測數據和預測決策數據,生成統計查詢報表。預測系統功能如圖4所示。
(1)旅客吞吐量預測:依據獲取的多源出行數據,并結合氣象、酒店住宿等數據,預測機場旅客吞吐量,其功能包括旅客年吞吐量、旅客月吞吐量、旅客日吞吐量、旅客節假日吞吐量、旅客特殊條件吞吐量。
(2)預測決策:依托旅客吞吐量預測,并結合祿口機場管理規則及約束條件,系統自動建模生成決策模型,輸出預測決策數據,其功能包括生產計劃決策、資金計劃決策、安保計劃決策、保養計劃決策、地面交通決策。
(3)統計查詢:依托旅客吞吐量預測和決策結果,并結合祿口機場生產管理業務需求,實現預測一張圖、旅客吞吐量查詢、預測決策查詢、統計分析報表、打印輸出等功能。
3 預測有效性驗證
南京祿口機場旅客吞吐量預測系統的主要作用是為機場管理決策提供依據,因此,需要對預測系統的有效性進行驗證,預測誤差可作為評價預測系統有效性的重要指標。利用該研究提出的方法和系統,預測南京祿口機場最近五年的旅客吞吐量,并將預測結果與中國民用航空局每年發布的《全國民用運輸機場生產統計公報》數據進行對比,以此分析預測值與真實值的誤差。該文選取平均絕對誤差(MAE)、相對百分比誤差(MAPE)、對稱平均絕對百分比誤差(SMAPE)三個指標進行評價。預測結果的各項評價指標值如表6所示,從表中可以得出,祿口機場旅客吞吐量預測結果的評價指標MAPE與SMAPE均小于3%,各項誤差值均在實際需求可接受的合理范圍內,驗證了該文方法的有效性。
4 結語
機場旅客吞吐量預測對于機場合理安排調度任務、提升機場管理與服務水平具有重要作用。該文分析了用于機場旅客吞吐量預測的多源數據構成與采集方法,提出了數據質量優化思路,通過研究旅客吞吐量預測架與流程,設計了南京祿口機場旅客吞吐量預測系統,并結合歷史真實吞吐量數據,對預測結果進行驗證,結果表明該文提出的預測方法與系統能夠較好地預測機場旅客吞吐量。由于旅客出行行為受多種復雜因素的交叉影響,如飛機準點率、票價等因素,因此,在下一步的研究工作中,還將引入這些因素對模型進行完善,以期進一步提升預測模型的魯棒性。
參考文獻
[1]顧凱. 大數據技術在智慧機場領域的應用研究[J]. 軟件工程, 2021(5): 59-62.
[2]關華, 王麗娟, 程宇, 等. 機場客源大數據應用研究與設計[J]. 電腦編程技巧與維護, 2020(9): 96-98.
[3]牛虎. 大數據時代下的機場旅客數據價值挖掘[J]. 綜合運輸, 2015(11): 90-93+133.
[4]楊飛, 徐平, 張卓劍, 等. 大數據時代下機場客戶關系分析與實施模式研究[J]. 電子商務, 2014(9): 16-17.
[5]姚海芳, 劉云溪, 劉勁松. 基于手機信令大數據的機場腹地識別算法研究[J]. 地理與地理信息科學, 2021(2): 77-83.
[6]馬美蓮. 基于大數據視角的機場短時客流量時空分布研究[D]. 深圳:深圳大學, 2018.
[7]吉向東. 基于大數據技術的智慧機場管理平臺的設計與研究[J]. 信息系統工程, 2020(7): 40-41.
[8]柏玉鋒. 大數據技術在智慧機場中的典型應用場景研究[J]. 智能建筑, 2019(2): 67-70.