王洪建
(廈門航空公司,廈門 361006)
我國航空公司機票銷售渠道主要包括航空公司直銷、大型代理銷售、在線旅行社銷售和二、三級代理銷售,其中有超過90%的機票都是直接或間接通過大型機票代理銷售的[1]。隨著民航運輸市場及電子商務的蓬勃發展,C2B已成為航空公司銷售的主要途徑[2],在這種模式下,由于存在大量非透明的代理商之間的相互分級交易,使得航空公司逐漸失去對代理人的全面掌控能力,低買高賣、溢價銷售、捆綁銷售、惡意退票、違規占座、虛假廣告、無證銷售等亂象屢禁不止[3],嚴重破壞了航空運輸市場秩序,給航空公司造成巨大的經濟和聲譽損失。基于物聯網及大數據的銷售模式是航空公司銷售模式轉變的必由之路[4],為此,航空公司必須實時動態分析掌握機票代理人的行為特征,并依據其特征制定不同的獎懲機制,以規范航空運輸秩序,維護公司利益。基于大數據的用戶畫像為解決機票代理人行為特征分析提供了必要的技術途徑,用戶畫像已經被廣泛應用于學術資源分析、興趣推薦、惡意行為識別等諸多領域,并取得了可喜的成果[5]。
因此,本文擬基于大數據技術對機票代理人開展行為特征分析,幫助航空公司針對機票代理人的不同行為特征,采取不同的渠道政策,構建C2B 模式下高效合理的機票銷售體系。主要研究工作包括數據分析與整理、代理人屬性重構、代理人行為刻畫、結果分析四個主要步驟。
取某航空運輸市場91天的脫敏交易數據,該數據記錄了航空公司、機票代理以及乘客之間的機票買賣情況,包含43家航空公司、7420家機票代理,以及一個PAX 實體(代表乘客),共包含5831365條交易記錄,數據結構如表1所示。

表1 原始數據集表結構解釋
由于代理人數據采集的困難性和不完整性,需要對原始數據進行分析與整理。首先是缺失值記錄和異常數據剔除,通過統計發現,有991 條記錄的buy_nbr 為空值,作為缺失記錄刪除。進一步對原始數據的銷售額和銷售量進行分位數間距值的統計,發現部分記錄日銷售量為107數量級,且有部分記錄交易額小于100,刪除此類數據共計17060條。
缺失記錄和異常數據剔除之后,需再次刪除對機票代理刻畫影響甚微的記錄,具體處理如下:首先逐天統計機票銷售總數和總金額,得到市場整體趨勢,然后分析航空公司、代理人之間的交易情況,分析發現:整體趨勢和航空公司個體的銷售特征都呈現出周期性變化的規律,且絕大多數航空公司個體的趨勢和整體趨勢趨于一致,同時還發現代理人的買入賣出有明顯的偏好,存在偏好從其他代理購入而非航空公司購入的二級、三級代理。依據上面的整體趨勢分析結果,進一步對每家航空公司和每個代理人分別進行分析,對和整體銷售趨勢一致的航空公司及代理人交易數據重點關注,對部分交易量明顯極少的航空公司及代理人數據,予以剔除。
為了合理刻畫代理人特性,需依據原始數據進行代理人屬性重構,依據表1 的原始數據,可得到表2 重構后的代理人屬性,該屬性分兩級指標,其中一級指標包含活躍度、市場份額、買賣交易偏好共3 項指標,2 級指標包含18 項指標。屬性重構主要采用下述3種方法。

表2 代理人屬性表
(1)累加求和法。將不同的特征值累加求和,會得到一個新的特征值。例如,在某一天,某代理人從其它代理人及航空公司買入,供給方數量為該代理人當天的入度,代理人賣票給其他代理人或乘客的機票數量,可以作為該代理人當天的出度,出度和入度求和得到該代理人的活躍度。
(2)對比分析法。代理人買入偏好主要考查代理人機票來源情況,定義為代理人從航空公司和其它代理人購入機票數量之比,同理可定義代理人賣出偏好。
(3)市場占比法。通過計算代理人交易總金額與整個市場交易總金額的占比,可以得出代理人的市場份額,對于衡量代理人的市場地位具有重要意義。在完成代理人屬性重構之后,按照(1)式將重構后的屬性歸一化為均值為0,方差為1的數據,其中μ為屬性均值,σ為屬性方差。

在完成基于原始數據的代理人屬性重構之后,需對代理人行為進行特征刻畫。目前針對航空代理人進行特征刻畫,尚未見相關文獻,但基于用戶行為的推薦算法[6],和本問題有一定的相似性,且本問題本質上屬于一個分類問題,聚類算法是諸多推薦算法中進行用戶分類刻畫常用的一類方法。由于聚類算法對空間維數龐大、數據存在一定程度不完備性的分類問題,效果明顯,因此代理人行為刻畫問題可采用聚類算法。Canopy-Kmeans 聚類算法是經典K-Means 算法的改進, 該算法解決了K-Means 算法初始值大小及位置的選取以及聚類個數難以確定的問題[7-8],恰好契合代理人行為刻畫的數據基礎及目標要求,因此,本文采用Canopy-Kmeans 聚類算法進行代理人行為刻畫。
Canopy-Kmeans 聚類算法通過Canopy 算法進行粗聚類,得到類簇的個數,以此初始化KMeans聚類算法的K值,迭代初始化質心,選取誤差平方和最小的聚類結果。針對代理人行為刻畫的Canopy-KMeans聚類算法流程如圖1所示。

圖1 針對代理人行為刻畫的Canopy-KMeans算法流程
其中,聚類輸入為表2 所有一級和二級指標構成的行向量,記為Xi=(xi1,xi2…xiM),其中M為指標總數,i= 1,2,…,N,N為樣本總數。同時,記錄聚類質心為Ck=(ck1,ck2…ckm), 其中k=1,2,…,K,K為聚類中心總數,實際計算中聚類中心數K是依據Canopy算法動態確定的。
聚類質心的計算為簇中所有點的均值,樣本與聚類中心的相似度采用歐氏距離,如式(2)所示,KMeans 聚類算法的優化目標函數如式(3)所示。

Canopy-Kmeans 聚類算法最終將代理人劃分為6 類,其分析對比如圖2—圖5 所示。從圖2 可見,3、4 類代理人數量明顯偏小,其余各類代理人數量較大但相差較小。從圖3 可見,3、4 類代理人活躍度較其它類別代理人有顯著差異。從圖4可見,第3類代理人市場份額顯著高于其它,第4 類代理人明顯高于比第3 類之外的其它代理人。圖5 給出了每類代理人買入航空公司、機票代理占比以及賣給機票代理、乘客占比的情況。從代理人的買入賣出偏好看,1 類代理人幾乎只從航空公司買票然后直接賣給乘客,幾乎不與其它代理人交易;2 類代理人主要從其它代理人買票然后賣給乘客,幾乎不直接從航空公司買票,且不賣給其他代理人;3 類代理人主要將機票賣給乘客,買入方面沒有明顯的偏好。4 類代理人主要從航空公司買票,也會從其他代理人買入一定比例的機票,賣給乘客的比例稍大于賣給其它代理人的比例。5 類代理人主要將機票賣給乘客,買入方面沒有特別的偏好。6 類代理人主要從航空公司買入機票然后出售給其他代理人。

圖2 各類代理人數量對比

圖3 各類代理人活躍度對比

圖4 各類代理人市場份額對比

圖5 各類代理人買入賣出偏好對比
綜合上述分析可推測,1 類代理人為差旅管理公司,2類代理人為小型機票代理,3類代理公司為大型旅行社,4 類代理公司為大型機票代理,5類代理人偏好直銷的中型機票代理、6類代理人為偏好分銷的中型代理。經代理人實際身份核驗,結果符合實際情況,如表3所示。

表3 各類別代理特征描述及特性刻畫
從聚類結果中可以看出,機票代理人明顯分為大、中、小型代理人,不同規模的代理人機票買賣偏好不同,比如大型機票代理偏好直接從航空公司買入機票;并且可以區分出差旅管理公司、旅行社等經營模式不同的機票代理人。
為了進一步分析代理人行為特征,不失一般性地選擇O160 和O5234 兩個代理人,對其連續91 天的銷售特征與類別變化進行分析,如圖6、圖7所示。

圖6 代理O160銷售情況與所屬類別變化分析

圖7 代理O5234銷售情況與所屬類別變化分析
從圖6可見,代理O160在60天之前,一直屬于3 類代理人,可能是某大型旅行社,但是從第60 天之后,其銷售趨勢明顯下降,具體表現為O160從其他代理買入的機票占比急劇下降,買入
度明顯降低,銷售額也明顯降低,所屬類別也發生了變化,不再屬于3類代理。
從圖7可見,代理O5234的整體銷售趨勢比較平穩,一直屬于3類代理人,從60天開始,也出現了類似于O160的變化趨勢,從航空公司買入機票的數量逐步提升,出入度、市場份額無明顯變化。
從O160 與O5234 交易變化趨勢中可以看出,O160 明顯依賴于其他代理,市場應變能力不強,當市場環境發生變化時,市場地位明顯降低。而O5234 在市場環境發生變化后,逐步提升從航空公司買入機票的比例,穩居第3類代理的位置。
從代理人銷售趨勢與所屬類別變化分析中可以看出,代理人銷售趨勢基本與所屬類別變化趨勢一致,這驗證了Canopy-KMeans 聚類算法應用于代理人行為特征刻畫的準確性。
本文在分析國內代理人實際銷售數據的基礎上,采用累加求和、對比分析、市場占比等方法重組生成了代理人活躍度、市場份額、買入賣出偏好等3 大類18 小類特征屬性,進一步提出了一種基于Canopy-KMeans 聚類算法的機票代理人行為刻畫算法,將代理人分為6 大類,最后的實證分析結果驗證了基于大數據分析代理人行為刻畫算法的正確性和有效性。其分析方法和結論有助于航空公司有針對性地采用不同的渠道策略、規范機票銷售市場行為,具備現實的指導意義。