









摘 要:為研究不同城市機場間短期機票價格預測的問題,文章將機票數據按照OD、座艙類型、購票時間進行分類,并分場景構建SARIMA模型。采用當前時序的數據標定模型的參數,預測下一時序的機票價格。以2023年7月北京—上海的機票價格數據為例,通過4組實驗場景和改進的北京首都—上海虹橋實驗場景發現,分場景的SARIMA模型可以較為準確地預測短期機票價格。
關鍵詞:航空運輸;票價預測;時間序列;短期機票價格預測
中圖分類號:TP391 文獻標識碼:A 文章編號:2096-4706(2024)13-0136-05
Short-term Airfare Prediction Based on SARIMA Model
GAO Dong, WEN Jianbo, ZHANG Kailun, YU Jialu, ZHANG Siqi
(Travelsky Mobile Technology Limited, Beijing 100041, China)
Abstract: In order to study the problem of short-term airfare prediction among airports in different cities, this paper classifies ticket data by OD, cabin type, and ticket purchase time, and constructs a SARIMA model based on different scenarios. It uses the data from the current time series to calibrate the parameters of the model, predict the ticket price for the next time series. Taking the airfare data from Beijing to Shanghai in July 2023 as an example, through four experimental scenarios and an improved Beijing Capital—Shanghai Hongqiao experimental scenario, it is found that the SARIMA model with different scenarios can accurately predict short-term airfare.
Keywords: air transportation; airfare prediction; time series; short-term airfare prediction
0 引 言
隨著旅客出行需求的不斷增加,航空運輸作為一種快捷、高效的出行方式備受廣大旅客的歡迎。在航空運輸業不斷發展的新格局下,越來越多的旅客希望在合適的時間以較低的價格購買到滿意的機票,以便合理安排出行計劃,降低出行成本,提高出行體驗。然而,由于機票價格具有實時波動性,購票問題是一個較為復雜的問題。旅客往往需要花費大量的時間和精力去追蹤機票價格并選取最優惠的機票,這極大地浪費了旅客的時間和精力。機票價格預測可以有效解決這個問題并更好地幫助旅客安排出行計劃。因此研究這個問題具有重要的理論意義和實用價值。
在機票價格預測的研究中,機器學習模型成為熱門的研究方向,通過對歷史數據進行分析和建模,能夠預測未來機票價格的趨勢。常用的機器學習模型包括線性回歸、決策樹、支持向量機和神經網絡等。近年來,隨著深度學習技術的發展,基于深度學習的機票價格預測方法也受到越來越多的關注。這些方法通過構建神經網絡模型,能夠自動地從海量數據中提取到對機票價格產生影響的季節、時間、航班、艙位、城市間的交通狀況等特征,并進行預測。通過構建復雜的神經網絡模型,可以將機票價格與這些特征進行關聯,從而提高預測的準確性,為航空公司和旅客提供重要的決策依據,為更好地規劃行程和控制成本奠定基礎。
關于不同城市間航班的機票價格預測問題,目前國內外有較多研究。Wang等[1]通過多目標優化方法選擇機票數據集的最佳特征子集,利用最優子集找到匹配度最高的最佳預測方法并構建動態自適應模型。Kalampokas等[2]考慮了3個不同領域的人工智能模型,包括機器學習、深度學習的6個CNN模型和量子機器學習的2個CNN模型,以解決機票價格預測問題。Zhao等[3]提出了一種創新性的民航票價預測系統,該系統具有多屬性雙階段關注(MADA)機制,可以整合從同一維度提取的不同類型數據。Prasath等[4]采用KNN技術,利用機器學習回歸方法估算特定時間的機票價格。顧兆軍等[5]建立了一個先序移動平均數模型,并根據基于時間序列的機票預測算法來求解模型。華逸群等[6]將模糊時間序列引入機票價格預測問題中,將預測結果與傳統的時間序列AR模型、移動平均和指數平滑比較來驗證模糊時間序列模型的高效性。林友芳等[7]設計了以卷積神經網絡為核心的兩階段機票價格預測模型,對未來機票最低價格進行了預測,并通過實例分析驗證了本文所采用的模型相較于4種常用基準模型的突出優勢。單文煜等[8]分別使用隨機森林和XGBoost算法建立預測模型,并在經典機器學習模型基礎上做一定改進。姚悅[9]利用時間序列模型對票價進行初步預測,再使用隨機森林模型對時間序列的殘差值進行調整,提出了SARIMA-RF串聯組合模型。王雙等[10]以歷史機票數據作為研究對象,運用線性回歸模型、梯度提升模型、隨機森林模型、CART決策樹模型、K近鄰模型和MLP模型評估不同數據子集預測結果的優劣。結果表明,MLP模型應用于5個子集的預測效果均表現良好。
上述文獻從多個角度探討了機票價格預測問題。其中,一些研究采用了機器學習和深度學習模型來預測機票價格,如線性回歸、決策樹、支持向量機、卷積神經網絡、隨機森林、XGBoost等模型;另外一些研究則考慮了特定領域的人工智能模型,包括量子機器學習和模糊時間序列等模型。這些模型都可以從歷史數據中自動提取特征,并對未來機票價格趨勢進行預測。此外,還有一些研究提出了創新性的預測系統或算法,如多屬性雙階段關注(MADA)機制、先序移動平均數模型等。這些研究結果均表明,利用機器學習和深度學習模型可以有效地預測不同城市間航班的機票價格,并且在實際應用中具有很高的準確性和實用性。
1 問題描述與建模
1.1 受時間變化影響的機票價格預測
機票價格分析是一個較為復雜的動態變化分析,受到購票時間、淡旺季、打折活動、航司決策等因素的影響。常用的機票價格預測方法主要分為基于票價時間發展規律的時間序列方法和基于票價影響因素的機器學習方法。由于機票實時價格的影響因素較多,本文從簡化問題的角度出發,主要采用基于票價時間發展規律的時間序列方法來預測機票。
機票價格從時間發展上具有趨勢性、隨機性和波動性的特點,因此季節性的時間序列模型可以較好地反映價格的分布規律。采用時間序列的方法來預測機票價格時,選擇一個可以快速衡量機票數據變化特征的模型尤為重要。實際生活中純季節性模型很少見,更常見的是混合季節性模型SARIMA。本文采用SARIMA模型來合理分解時間序列并進行機票價格的預測,可以較為準確的分析機票價格隨航班起飛時間、提前購票天數的變化規律。
1.2 短期預測模型SARIMA
SARIMA模型可以表示為如式(1)所示的形式。該模型的季節周期為s,對應時間序列xt的季節差分表示為?sxt,?sxt的計算過程如式(2)所示:
非平穩時間序列xt經過d階差分和D階季節差分后變成平穩時間序列yt,記作式(3):
若yt滿足季節周期為s的ARMA(p,q)×(P,Q)S模型,那么xt滿足非季節階數為(p,d,q),季節階數為(P,D,Q),季節周期為s的非平穩乘積季節ARIMA模型,即式(1)所示的模型。同時,其自回歸和移動平均函數定義為式(4):
式中:(P,D,Q)為模型中季節性的部分,(p,d,q)為模型中非季節性的部分。δ為常數項,φ(L)和θ(L)為一般自回歸和移動平均成分,?(L)和?(L)為季節自回歸和移動平均成分,常差分和季節差分為?d = (1-L)d和 。
1.3 初始機票數據分析及時間序列劃分
由于7月、8月的機票價格均受到暑期客流出行的影響,變化規律具有相似性,因此本文僅對提前購票時間在1個月內的機票價格進行預測。2023年7月北京—上海不同機場間共有108個直飛航班,其中,每天均起飛的航班共60個,如MU5104、HO1254、MU5183。這些航班在一個月內的頭等艙購票人數不超過28人,公務艙、經濟艙的購票人數約為1:2.5。因此,在分解時間序列時,本文主要研究經濟艙價格的變化規律。本文以2023年7月31日60個航班為例,展示了提前一個月內購票的經濟艙機票價格,如圖1所示。
根據圖1,旅客集中選擇在飛機起飛的一周內來購票。同時,受到不同航司機票打折活動的影響,每周內有幾天機票價格會有短暫的下降。因此,本文選擇進一步分解時間序列,將一周內的時間分為前半周、后半周來分析。
2 模擬計算
將2023年7月乘客在北京—上海不同機場間一周內購票的機票數據作為研究對象,OD分為北京首都—上海虹橋、北京首都—上海浦東、北京大興—上海虹橋、北京大興—上海浦東4種類型,座艙分為公務艙、頭等艙、經濟艙3種類型。對于經濟艙,提前購票時間分為提前購票0~4天(前半周)、提前購票5~7天(后半周)兩個范圍。本文分別對4種OD的3種座艙類型兩種購票范圍的機票價格進行預測,如圖2所示。
首先,我們利用ADF檢驗、白噪聲檢驗來檢查原始機票數據的平穩性,如表1所示。本文對初始非平穩的數據進行后續的差分處理,從而通過網絡搜索法確定每個ARIMA模型的參數。
由SARIMA模型是通過我們之前討論的ARIMA模型多項式中引入了季節性的項得到的,因此該模型的各個參數由ARIMA模型的參數來確定,如表2所示。
通過不同需求場景的機票數據建立SARIMA模型后,需要對模型的有效性和參數的顯著性進行檢驗,如圖3所示。
檢驗指標包括均方誤差MSE、均方根誤差RMSE,本文以靜態預測為例,對不同OD經濟艙的檢驗指標進行展示和分析。此外,我們需要對當前不同情景的預測效果進行量化分析,本文選用大部分研究采用的絕對平均誤差MAPE評價預測的準確度。上述指標如表3所示。
3 結果分析
將8月機票價格預測值和實際值進行比較,如圖4所示。
通過表3和圖4可知,4種場景的絕對平均誤差MAPE的值整體低于18%,SARIMA模型在分類場景中具有較好的適用性。北京首都—上海虹橋在當前時序的擬合誤差較大,但是對未來發展趨勢的預測效果較好。北京首都—上海浦東、北京大興—上海虹橋、北京大興—上海浦東在當前時序的擬合誤差較小,但是對未來發展趨勢的預測效果一般。在參數檢驗的基礎上,為了進一步優化模型,本文主要對北京首都—上海虹橋不同座艙類型一周內購買的機票的提前購票天數進行重新劃分,按照新的時間序列進行重新預測。
在新的預測階段,通過反復實驗發現當一周內的提前購票天數按照0~3天、4~7天進行劃分的時候,北京首都—上海虹橋不同座艙類型的機票價格預測的精度明顯提高,分別如表4、圖5所示。
此時,不同座艙的時間序列模型分別為SARIMA(1,1,2)(2,1,2,5)、SARIMA(0,1,0)(2,1,0,11)、SARIMA(2,1,2)(0,1,2,5)、SARIMA(1,1,0)(2,1,0,9)。
通過表4和圖5可知,改進時間序列后的優化模型中北京首都—上海虹橋的誤差值整體降低,對8月同期機票價格的預測效果明顯改善。其中,絕對平均誤差MAPE的值下降了0.28%~2.96%。
4 結 論
本文得到的主要結論如下:
1)根據不同機場OD、不同座艙類型、不同購票時間構建的機票價格預測SARIMA模型綜合了季節性時間序列與ARIMA模型的雙重優勢:絕對平均誤差MAPE的值整體低于18%,這說明SARIMA模型在分類場景中具有較好的適用性。
2)通過不同場景SARIMA模型對機票價格進行預測并與實際值對比的實驗可知:改進時間序列的優化模型中北京首都—上海虹橋的誤差值整體降低,對8月同期機票價格的預測效果明顯改善,反映了改進時間序列劃分方式對提高模型預測精度的積極作用。
參考文獻:
[1] WANG S,LIUT T,DING L. Airline Ticket Price-Prediction Model Based on Integrated Feature Extraction [J].Journal of Computational Methods in Sciences and Engineering,2022,22(4):1053-1068.
[2] KALAMPOKAS T,TZIRIDIS K,KALAMPOKAS N,et al. A Holistic Approach on Airfare Price Prediction Using Machine Learning Techniques [J].IEEE Access,2023,11:46627-46643.
[3] ZHAO Z C,YOU J G,GAN G Y,et al. Civil Airline Fare Prediction with a Multi-Attribute Dual-Stage Attention Mechanism [J].Applied Intelligence,2022,52(5):5047-5062.
[4] PRASATH S N,KUMAR M S,ELIYAS S,et al. A Prediction of Flight Fare Using K-Nearest Neighbors [C]//2022 2nd International Conference on Advance Computing and Innovative Technologies in Engineering (ICACITE).Greater Noida:IEEE,2022:1347-1351.
[5] 顧兆軍,王雙,趙億.基于時間序列的機票價格預測模型 [J].中國民航大學學報,2013,31(2):80-84.
[6] 華逸群,曹健.機票價格預測的模糊時間序列方法 [J].小型微型計算機系統,2016,37(11):2547-2551.
[7] 林友芳,蔣鵬,郭晟楠,等.基于卷積神經網絡的機票低價預測 [J].北京交通大學學報,2019,43(5):1-9.
[8] 單文煜,吳垠,陳鵬.基于機器學習的機票價格預測研究 [J].現代計算機,2020(22):35-38.
[9] 姚悅.基于多預測模型的機票價格預測 [D].南京:東南大學,2021.
[10] 王雙,徐瑤,韓建云,等.基于機器學習算法的機票價格預測研究 [J].民航學報,2022,6(5):16-20.
作者簡介:高棟(1982—),男,漢族,浙江紹興人,高級工程師,碩士研究生,研究方向:系統工程、機器學習;溫建波(1990—),男,漢族,河北張家口人,工程師,本科,研究方向:系統工程、機器學習;張凱倫(1991—),女,漢族,河北唐山人,工程師,碩士研究生,研究方向:數據分析、數據倉庫;于嘉璐(1998—),女,漢族,河南洛陽人,初級工程師,碩士研究生,研究方向:數據分析、數據倉庫;張思琪(1990—),女,蒙古族,遼寧朝陽人,工程師,碩士研究生,研究方向:數據分析、數據倉庫。