趙烜


摘要:民航領域存在由于旅客noshow而導致座位虛耗問題,從而直接影響航空公司的收益。準確提取旅客noshow規則、分析noshow行為,是航空公司提高市場競爭力的有效手段。本文研究并分析noshow規則提取算法相關研究成果,討論此領域的各種數據挖掘算法,為航司實現noshow精細化管理提供輔助決策技術。
關鍵詞:noshow;預測模型;算法研究
中圖分類號:TP391 文獻標識碼:A 文章編號:1007-9416(2020)05-0119-02
0引言
在民航市場中,通常存在旅客訂座后未能成行的現象,這種行為稱為noshow,noshow行為的產生導致航班起飛時仍然存在空余座位,降低了航空公司的收入。目前國內航空公司一般采用超售的方式與noshow形成對沖,然而,這將大大提升拒載的可能性,增加航司的賠付風險。
因此準確預測旅客的noShow行為將有利于航司對航班進行精細化管控,提升座位利用率,增加公司的收入。本文總結了目前比較有效的幾種noshow行為分析算法,為航司提供算法選擇理論依據。
1時間序列預測算法
對航司收益管理而言,精準預測特定時刻特定航班可能存在的noshow行為至關重要。將航班成行的歷史數據視為時間序列,提取與noshow相關的字段,通過時間序列預測算法進行預測,是一種較為普遍的方式。常用的算法包括兩類,(1)傳統算法:多元回歸分析法、ARIMA、指數平滑法等。(2)機器學習算法:BP神經網絡、CNN、LSTM等。
傳統算法通常分為以下幾步:
第二步:選擇適當的時間序列預測算法,建立預測模型。
第三步:參數詞優。通過歷史數據,不斷調整模型中涉及的超參數,選擇最優的參數組合,使得擬合誤差達到最低。
機器學習算法在處理長周期時間序列數據方面具有天然優勢,建模之前需要采用留出法、交叉驗證法等處理技術,將歷史noshow數據劃分為訓練集、測試集。訓練集進行模型的建立、參數調優,然后在測試集進行泛化性能驗證。然而由于機器學習算法涉及諸多超參數的選擇,導致訓練階段工作量較大,并且隨著新增noShow數據的加入,通常需要重新訓練模型得到當前數據集的最優超參數組合。正是由于此原因,導致機器學習算法在noshow分析領域具有一定局限性,普適性較低。
由于時間序列預測算法僅從航班維度出發建立擬合預測模型,評估潛在的noshow行為,不能充分利用單一旅客在整個訂票過程中的其他行為數據,往往這些過程數據能夠準確反映出旅客是否能夠成行。因此,基于旅客訂票全流程的預測方法受到各航司的青睞。
2基于旅客訂票行為的預測算法
2.1基于支持向量機的預測模型
支持向量機(SVM)是一種較為常用的機器學習算法,既可用于分類任務,也可用于回歸任務,在各領域中具有較好的應用效果。黃文吲”采用支持向量機建立了旅客noshow預測系統,并通過實際案例,分別討論了線性核、RBF核、多項式核的預測效果,并給出使用建議。在noshow行為預測領域,SVM算法的流程如下:
(1)建立歷史擬合數據集{x1,y1}。其中x是向量,表示訂票行為屬性集,包含:訂票日期、出票日期、修改日期、出發地、到達地、航班號、旅客性質(是否高端)、性別、年齡、艙位、是否團體、是否商務等;y;的取值為O或者1,1表示noshow,0表示正常成行。
(2)為避免過擬合,采用軟間隔的支持向量機算法,即容許一部分樣本分類錯誤。建立約束問題:
(3)采用SMO算法求解(2)中的優化問題,計算參數的取值,進而得到預測模型。
在使用支持向量機算法時,核函數K的選取直接影響算法的性能,常用的核函數分為:線性核、RBF核(高斯核)、多項式核、拉普拉斯核等。然而,如何準確選擇合適的核函數仍然是一項未解決的問題,在使用支持向量機算法時可以考慮多核函數學習。noshow行為預測是典型的非線性問題,一般選擇非線性核函數。
2.2基于決策樹的預測模型
決策樹是一種常用的機器學習分類技術,包含一個根節點、若干個葉子結點和內部節點。其基本思想是采用樹的結構進行分類任務,每一條樹的分支代表一個規則,常用的決策樹算法包括:ID3、C4.5、c5.O等。決策樹算法在noShow規則提取中具有重要應用,文獻采用C4.5算法對noshow行為進行建模分析,得到較好的分析效果;曹衛東等利用C5.O構建決策樹模型,再采用Apriori算法對因子進行關聯規則分析,最終得到noshow預測準確率為99.75%的決策樹模型。
使用決策樹算法之前,依然需要構建noshow數據集{xi,yi},然后進行模型的訓練與優化。其核心是如何準確地選擇最優劃分屬性,并且盡量滿足分支結點中包含的樣本集合盡可能多的屬于一個類別。常用的劃分準則分為以下幾類:
C4.5算法采用增益率作為屬性劃分準則,c5.0貝0是在C4.5基礎上建立起來的,可處理大數據量的數據集。
在使用決策樹算法進行noshow行為分析時,為避免過擬合現象出現,通常需要進行預剪枝或者后剪枝處理,以便的到泛化能力較強的決策樹模型,這也就增加了建模過程的復雜度,并且經過剪枝處理后的決策樹依然存在欠擬合、過擬合的風險。
3結語
noshow行為分析對于航空公司提高營業收入至關重要,準確的預測結果能夠指導航班管控人員把握旅客數據。本文研究了幾種noshow行為分析算法,并分析算法的優缺點,可以協助航空公司準確把握旅客動態,為精細化管控提供輔助決策技術。