999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多任務學習的機票價格預測模型

2023-09-13 03:07:28賈玉璇
計算機工程與設計 2023年8期
關鍵詞:特征模型

盧 敏,賈玉璇

(1.中國民航大學 計算機科學與技術學院,天津 300300;2.中國民用航空局 民航智慧機場理論與系統重點實驗室,天津 300300)

0 引 言

現有研究利用機器學習方法來揭示特征之間的潛在關系,建立機票特征模型,忽略每個票價等級的需求。航班的座位數量有限,機票需求會影響價格,其次,不同時間的不同航班,機票需求差異較大。為解決上述問題,本文提出一種機票價格預測的多任務學習模型,其關鍵思想是引入機票需求預測作為輔助任務,利用輔助任務預測每個票價等級購買的機票數量,機票需求特征表示時間序列在日、周、半月和月內的需求特征,并且通過一維卷積網絡中不同尺度的卷積核和卷積步長來學習,最后通過共享多尺度需求特征聯合訓練兩個相關任務,提高模型的泛化能力。本文的主要貢獻是:①提出一種多任務學習方法,提高機票價格預測的性能;②設計卷積網絡,學習不同層次的需求特征;③由于缺乏公開的數據集,現有的方法從在線旅游預訂網站抓取數千萬條記錄進行實驗,較之基準算法,該模型在準確率和F1分數方面提高將近6%,準確率達到51.02%。

1 相關研究

機票的動態定價規則是由航空公司保密的,傳統的機票價格預測,通過歷史銷售情況預測未來價格。隨著機器學習的發展,多數研究采用機器學習方法訓練機票價格預測模型,輸出機票的票價等級。由于機票定價的復雜性,機票的價格受到多種影響因素,機票價格預測具有挑戰性。相關研究文獻[1-4]分析了旅客因素的影響,介于乘客數據的稀疏性和保密性,僅憑借旅客特征進行定價,模型適用性不強。其次,機票價格還受其它因素的影響,例如:He等[3]和Kelemen等[5]分別將航線和航空公司納入機票預測。上述方法基于機票特征進行建模,不考慮機票需求的影響,機票價格預測性能較差。

此外,機票價格受時間的變化影響,機票價格在時空上的分布具備一定規律,相關學者提出加入時間序列以預測價格趨勢的方法。Liu等[6]利用上下文感知模型,預測從購買日期到出發日期之間特定路線的最低價格。Wang等[7]使用多種機器學習方法預測不同季節的平均機票價格,并得出隨機森林算法在處理季度序列方面的性能最優。Zhao等[8]設計雙階段注意機制,向編碼器和解碼器同時加入注意力機制,以應對不同時間步長的影響。與上述方法不同的是,本研究聚焦于機票價格預測,而不是預測機票的價格趨勢。

機票需求是影響機票價格預測的關鍵因素,國內外學者對機票需求進行相關研究。Williams等[9]通過對隨機需求的動態調整,揭示了需求與價格之間存在的關聯關系。He等[3]使用異構的項目推薦框架來模擬乘客的旅行需求和行為模式,解決飛行的需求隨時間變化問題,建立了時間序列預測模型。Shihab等[10]提出尋找需求控制問題的最優策略決策框架,建立時間序列預測模型,模擬特定時間段內的需求趨勢。Wen等[4]通過研究航空旅客的購買時間與其特征之間的關系,預測需求的變化。Pan等[11]提出了一種基于LSTM的垂直時間序列模式,建模機票在不同日期上的需求。上述方法只考慮模擬日水平的需求特征,忽略了周和月水平的需求特征,難以提取不同周期下的機票需求特征,預測模型性能不佳。

2 融入航班需求的機票價格預測算法

機票價格受機票自身屬性和機票需求的影響。如圖1所示,該框架由兩個相關的任務組成,主任務作為機票價格預測,輸入機票相關特征并輸出機票類別的概率,并且選擇概率最高的類別作為預測標簽。輔助任務是指對機票需求進行預測,基于未來趨勢將與歷史趨勢相似的假設,通過分析購買歷史數據概述對不同類別票價的需求。最后,這兩個任務通過共享需求特征進行融合。

圖1 基于多任務學習的機票價格預測框架

在訓練中,兩個任務的網絡通過監督學習同時學習,聯合損失函數Loss定義為

Loss=lossm+βlossa

(1)

其中,β表示多任務權重參數,lossm和lossa分別表示主任務和輔助任務的損失,在式(6)和式(12)中可以查看損失的詳細信息。模型利用Adam優化器,通過最小化聯合損失學習模型參數。在測試過程中,主任務和輔助任務遵循與訓練中相同的預測過程,模型丟棄機票需求預測在測試集中的結果,輸出機票價格類別。

2.1 主任務

主任務是設計一個深度神經網絡來輸出機票的票價等級。機票特征包括出發機場、到達機場、航空公司、假期開始/結束等,機票特征的詳細信息見表1。每個類別特征通過嵌入層Embedding編碼映射成低維密集的向量表示。連接機票特征的嵌入向量,得到串聯特征向量h1m,然后輸入到一個兩層的前饋神經網絡,前饋網絡的輸出為

表1 實驗數據集數據特性

h2m=max(0,b2m+W2mmax(0,b1m+W1mh1m))

(2)

其中,b1m、b2m表示偏差,W1m、W2m表示神經元的權重。使用max激活函數捕捉機票特征之間的非線性關系。

由于機票需求與機票價格高度相關,因此,將多尺度需求特征體融入主任務中。多尺度特征用來提取不同層次的需求特征(其計算詳見第2.2節的式(7)),具體而言,將中間特征h2m和需求特征h1a的拼接向量h3m,輸入到具有N個相同層的堆棧中,以學習特定的任務表示。每一層堆棧都是一個簡單的、位置方面的全連接前饋網絡。其中,隱藏層先使用殘差連接[12],然后輸入到下一層進行歸一化[13],得到主任務的高維表征hN+3m,計算過程如式(3)、式(4)所示

h3m=h2m⊕h1a

(3)

hl+1m=hlm+max(0,blm+Wlm×LayerNorm(hlm)),l=3,…,N+2

(4)

hN+3m下一步傳遞到softmax層,如式(5)所示,輸出機票類別的概率分布,主任務使用交叉熵損失函數來衡量預測分布和真實情況之間的差異,計算過程如式(6)所示

m=Softmax(bN+3m+WN+3mhN+3m)

(5)

lossm=-∑ni=1yimlog(im)

(6)

2.2 輔助任務

輔助任務主要是設計一個模型以學習機票的需求特征,然后將學習到的需求特征合并到主任務。如圖1所示,輔助任務的輸入包括出發/到達機場、日期和過去銷售的矩陣M。每條航線由一對出發和到達機場表示,并使用矩陣M指定此航線的歷史銷售記錄信息。矩陣M列數和行分別是365和17,其中矩陣M的每一列指一天中分別銷售在17個票價等級的數量。輔助任務中,首先對矩陣M進行屏蔽,對本航班某一日期以后購買記錄設置為不可見,然后將矩陣M輸入神經網絡。

利用掩碼對未來區域設置為0,對歷史區域設置為1,以保留當前日期之前的歷史訂單,然后掩碼矩陣輸入到一維卷積層,對歷史訂單進行特征提取。通過設置多尺度的卷積步長,來獲取不同周期下的需求特征,矩陣的多尺度特征代表航班在日、周、月層面和需求相關的時間序列特征。這些特征通過兩個步驟獲得,第一步是利用一維卷積核獲取歷史訂單數據不同周期長度的時間序列特征,即將卷積步長設置1、7、14、28,以捕獲連續幾天、幾周和幾個月的機票需求特征,并將卷積后得到的特征通過向量拼接進行連接;第二步是在連接后的特征上應用前饋神經網絡,以獲取機票需求特征的高維表示,計算過程如式(7)、式(8)所示

h0a=Conv1D(M⊙M*,k1,s1)⊕…⊕Conv1D(M⊙M*,kn,sn)

(7)

h1a=max(0,b1a+W1ah0a)

(8)

其中,k1,…,kn和s1,…,sn分別表示一維卷積核大小和卷積步長,M*表示掩碼矩陣,⊙表示連接操作。

然后,將需求特征和出發機場、到達機場的嵌入向量進行拼接得到h2a,同樣地,拼接向量h2a輸入到N個相同層的堆棧中,其中每一層都由一個前饋網絡層和一個殘差連接層組成,計算過程為

h2a=h1a⊕Embed(起飛機場)⊕Embed(到達機場)

(9)

hl+1a=hla+max(0,bla+Wla×LayerNorm(hla)),l=2,…,N+1

(10)

將hN+2a輸入線性層進行變換,預測不同類別票價的數量。因此,輔助任務使用均方誤差損失函數衡量預測值與真實值之間的差異,計算過程如式(11)、式(12)所示

a=bN+2a+WN+2ahN+2a

(11)

lossa=1n∑ni=1(yia-ia)2

(12)

3 實驗及結果分析

本文實驗是在真實的海量訂單數據集上進行。主要從以下3個方面驗證模型的有效性:首先,驗證本文提出方法,較之基準方法,是否可以獲得更高的性能,其中基準算法包括的算法有SVM、ACEC、LSTM、BERT和STL,并在實驗中采用4種評價措施從多個方面對模型的性能進行對比分析;其次,通過特征分析驗證多任務學習機制的有效性;最后,分析卷積核的不同步長對多尺度需求特征的影響。

3.1 實驗設置

3.1.1 實驗數據

實驗數據集是由周期為一年的民航旅客訂票日志PNR(passenger name record)生成的,其中PNR是機票預訂的內部記錄。一條PNR記錄是一次訂票信息,主要字段包括旅客籍貫(信息加密)、航空公司、起飛日期、票價類別、出發機場和到達機場、訂單順序等,示例見表1。實驗的數據集大小為52.2 GB,總共66 928 656條記錄,包括13 943 370名乘客、2675條航線、19 748趟航班,示例見表2。此外,實驗數據集由兩部分組成:一個是機票特征,其本質是PNR數據;另一個是機票銷售矩陣,其中機票銷售矩陣數據中的一列表示一天中售出17個票價等級的數量。

表2 實驗數據集數統計

3.1.2 評價指標

本文的評價指標采用準確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1分數。準確率表示正確分類的機票占總機票數的百分比。精確率表示正確預測為正例的機票數占實際為正例機票數的比例。召回率表示實際為正例的機票數占預測為正例機票數的比例。F1分數表示精確率與召回率的調和平均數,對精確率和召回率的結果進行綜合,可以客觀全面地反映模型性能。對于準確率、精確率、召回率和F1分數而言,均是值越高模型越性能越好,具體計算公式如下

Accuracy=TP+TNTP+TN+FP+FN

(13)

Precision=TPTP+FP

(14)

Recall=TPTP+FN

(15)

F1=2×Precision×RecallPrecision+Recall

(16)

其中,TP(true positive)、TN(true negative)、FP(false positive)、FN(false negative)分別表示在多分類模型中被預測為正例的正樣本、被預測為負例的負樣本、被預測為正例的負樣本和被預測為負例的正樣本。

由于機票價格預測是一個多類別分類預測問題,故在上述指標的基礎上加入宏觀平均(Macro-average)和微觀平均(Micro-average),從多個方面對多分類任務的性能進行客觀評價。在宏觀平均中,先對每一個類統計指標值,然后再對所有類求算術平均值,即所有類別都被平等對待。相反,微觀平均根據真實實例的數量對每個類的分數進行加權,建立全局混淆矩陣,然后計算相應指標

MacroF1=(F1class1+F1class2+…+F1classn)n

(17)

MicroF1=(F1class1*f1+F1class2*f2+…+F1classn*fn)n

(18)

其中,f1,f2,…,fn表示n個類中實例的比率。

3.2 實驗結果

3.2.1 基準方法

為驗證所提出方法的有效性,本文將所提出的模型與其它現有的5個分類方法進行對比。

SVM[14]是多分類的支持向量機模型,通過求解幾何間隔最大,對高維的機票特征進行分類,輸出票價類別。

ACEC[6]是一種自適應上下文感知集成模型,用于根據時間序列分析具有不同上下文的機票數據,最后將softmax層應用于上下文以輸出票價類別。

LSTM[15]是指基于LSTM的分類模型。該模型使用LSTM來捕獲需求特征,這些特征被送入多分類層進行預測。

BERT[16]是指基于雙向Transformer編碼的分類模型,經過BERT提取特征之后,通過一個多分類器輸出機票等級。

STL建立一個與所提出的方法具有相同網絡架構的模型,這兩個方法在是否包含機票需求損失方面存在差異。實際上,模型STL是所提出方法的一個特例,其權重參數β=0,這表明STL只存在機票價格預測任務,忽視機票需求預測,以此驗證多任務學習的有效性。

本文在模型訓練實驗過程中的參數設置如下:批量大小batchsize、訓練過程的最大輪數epoch、學習率和dropout分別設置為4096、100、0.01和0.1,模型的嵌入層維數設置為64。為平衡多個任務的學習率,即對更新快的方向,設置較小的學習率,對更新慢的方向,設置較大的學習率,將多任務學習中組合損失的權重參數β設置為0.001。最后,為捕捉不同層次的需求特征,內核大小和內核步長分別取1、3、5、7和1、7、14、28的組合。

如表3所示,SVM模型表現出的性能最差,主要原因如下:一方面,SVM模型不能很好地處理大量的分類特征;另一方面,SVM模型沒有考慮機票需求特征。ACEC模型在所有評估措施方面都優于SVM模型,這是因為ACEC模型在捕獲序列數據方面具背一定優勢,同樣地,ACEC模型沒有處理需求特性。與ACEC模型相比,LSTM模型通過捕獲需求的時間序列特征,準確率提高了11.04%,驗證需求特征的有效性。與LSTM模型捕獲以天為單位的需求特征不同,BERT模型使用雙向Transformer編碼,對捕捉長距離時間序列特征更加有效,相比LSTM模型,BERT模型在所有評估指標方面至少提高了6.83%。

表3 不同模型的性能結果

與BERT模型對捕獲長序列的需求特征不同,STL模型包含不同級別的多尺度需求特征,對長序列和短序列特征捕捉方面更有效。表3表明,在宏平均精確率指標方面,STL模型提高了6.98%。由于STL是本文所提出方法在多任務權重參數β=0時的特例,本文所提出的模型是β≠0時的改進,以顯示輔助任務中多尺度特征提取的優勢。同時,與模型STL相比,所提出的方法在權重參數β=0.001時,宏觀平均F1分數提高了6.06%。這表明β=0.001時,多任務聯合訓練效果明顯,模型可以更好地利用需求特征進行票價預測。

3.2.2 特征分析

機票特征與機票價格的關系。本小節旨在研究機票特征與價格之間的相關性。圖2顯示了航空公司和機票等級之間的相關性。航空公司“A”比其它航空公司提供更多的低成本機票,其潛在解釋是低成本航空公司傾向于以較低的價格增加銷售額。從圖3可以看出,航線價格分布不同,例如“NGB→CAN”和“PEK→CTU”,其中“NGB”、“CAN”和“CTU”是機場的IATA三字母代碼。然而,該分布顯示往返航線的規律是相似的,例如“NGB→CAN”和“CAN→NGB”,其原因是往返相似的旅客對機票價格的敏感程度相似。

圖2 航空公司與機票類別的相關性分析

圖3 航線與機票類別的相關性分析

3.2.3 超參數分析

通過設置不同的參數對隨機選擇的180條航線進行分析,共有4 517 548條訂單記錄,研究了模型訓練中權重參數β和卷積核移動步長(Strides)的影響。

權重參數β目的是平衡主任務和輔助任務的損失,保證主任務和輔助任務學習率一致。在模型訓練過程中,直接使用損失函數相加的方式,易導致多任務學習被機票預測任務或機票需求任務所主導,當模型傾向于擬合其中一個任務時,另一個任務的效果會受到負面影響,多任務學習模型效果會變差。通過多次實驗得出的經驗,將β設置為0.001、0.01、0.02、0.05和0.1。如表4所示,所提出模型在β=0.001時的準確率最高。它表明輔助任務確實利用相關信息來提高性能。

表4 對隨機選擇的180條航線上的權重參數β分析

卷積步長(Strides)在學習多尺度需求特征方面起著關鍵作用。步長為1、7、14、28分別代表日、周、半月、月層次的機票需求特征。如表5所示,通過設置不同的卷積核步長組合,驗證所提出的方法在步幅1、7、14、28的組合情況下達到了最好的性能,這表明不同層次的需求特征可以提高價格預測的性能。

表5 對隨機選擇的180條航線上的卷積步幅分析

4 結束語

本文針對機票價格預測未考慮機票需求問題,設計了一個多任務學習框架,旨在將機票需求特征集成到機票價格預測,該框架為機票價格預測和機票需求預測分別設計了深度神經網絡。首先,本文提出的網絡學習每個任務的低緯向量表示;然后,主任務和輔助任務通過共享多尺度需求特征進行關聯;最后,模型設計一個帶有殘差連接層和歸一化層的前饋神經網絡,學習特定的任務表示。模型在大規模旅客訂單數據集上進行廣泛實驗,驗證了多任務學習機制的有效性。此外,實驗驗證并分析多任務融合參數和多尺度特征對機票價格預測結果的影響,為航空公司進一步優化機票定價模型提供參考。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 一本色道久久88| 亚洲国产成人久久精品软件| 视频二区国产精品职场同事| 重口调教一区二区视频| 91口爆吞精国产对白第三集| 欧美精品成人一区二区在线观看| 国产91精品久久| 一级香蕉视频在线观看| 91免费国产在线观看尤物| 国产在线拍偷自揄观看视频网站| 欧美第九页| 亚洲最大在线观看| 久久婷婷国产综合尤物精品| 国产一二三区在线| 99精品视频在线观看免费播放| 日韩AV无码一区| 日韩毛片在线播放| 久久综合色视频| 亚洲激情区| 国产资源站| av一区二区三区在线观看| 中文字幕色站| 亚洲精品动漫| 91色国产在线| 亚洲视频免费在线看| 午夜国产在线观看| 性网站在线观看| 国产Av无码精品色午夜| 日韩无码一二三区| 亚洲国产成人久久77| 国产a在视频线精品视频下载| 亚洲国产精品美女| 日韩国产综合精选| 国产流白浆视频| 韩国福利一区| 欧美精品不卡| 在线不卡免费视频| 亚欧成人无码AV在线播放| 精品超清无码视频在线观看| 亚洲综合香蕉| 成人欧美在线观看| 亚洲精品无码专区在线观看| 国产91小视频| 五月天综合网亚洲综合天堂网| 欧美国产日韩一区二区三区精品影视 | 国产成人无码久久久久毛片| 国产丝袜一区二区三区视频免下载| av天堂最新版在线| 国产福利免费视频| 毛片久久网站小视频| 色香蕉影院| 青青国产视频| 波多野结衣亚洲一区| 午夜a视频| 国产交换配偶在线视频| 99人妻碰碰碰久久久久禁片| 亚洲精品国产日韩无码AV永久免费网| 日本精品影院| 国产成年女人特黄特色毛片免 | 婷婷色一区二区三区| 一级毛片在线播放| 欧美成人午夜在线全部免费| 国产91熟女高潮一区二区| 97国产成人无码精品久久久| 久久精品国产精品国产一区| 国产AV毛片| 亚洲一级毛片| 欧美综合中文字幕久久| 国产精品夜夜嗨视频免费视频| 欧美国产在线一区| 国产精品嫩草影院视频| 美女扒开下面流白浆在线试听| 一级毛片免费观看不卡视频| 日韩高清成人| 久久国产乱子| 免费a在线观看播放| 国产成人三级在线观看视频| 真人高潮娇喘嗯啊在线观看| 色综合激情网| 毛片网站在线播放| 久久这里只有精品66| 国产一区二区色淫影院|