999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RandomForest的取消酒店預(yù)訂應(yīng)用研究

2021-08-12 17:54:51顧鳳云曹睿
關(guān)鍵詞:特征模型研究

顧鳳云 曹睿

摘 要:酒店行業(yè)迅速發(fā)展的同時(shí),存在專業(yè)人才短缺、缺乏成熟的管理模式和臨時(shí)取消率高等問題。本文以Kaggle酒店取消預(yù)訂數(shù)據(jù)集為研究對(duì)象,對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,再利用Lasso方法進(jìn)行特征重要性排序,將特征提取后的數(shù)據(jù)作為RandomForest訓(xùn)練模型的輸入進(jìn)行預(yù)測,并且通過與XGBoost、LightGBM、DecisionTree等7種主流算法進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明本文方案在accuracy、recall、f1_score、AUC四種性能指標(biāo)上優(yōu)于對(duì)比模型。采用SHAP模型對(duì)已建立的價(jià)格模型進(jìn)行解釋,同時(shí)通過XGBoost, RandomForest的特征重要性排序,識(shí)別影響取消預(yù)訂的關(guān)鍵因素是押金類型、預(yù)訂時(shí)長以及預(yù)定渠道。

關(guān)鍵詞:機(jī)器學(xué)習(xí);取消預(yù)訂模型;酒店行業(yè);Randomforest模型;SHAP值

中圖分類號(hào):TP391 ?文獻(xiàn)標(biāo)識(shí)碼:A ?文章編號(hào):1673-260X(2021)06-0015-08

隨著經(jīng)濟(jì)的快速發(fā)展和各種交流活動(dòng)的日益頻繁,我國旅游行業(yè)與酒店行業(yè)得到了迅速發(fā)展。《2019年中國旅游業(yè)統(tǒng)計(jì)公報(bào)》顯示,到2019年末,全國星級(jí)飯店10130家,平均房價(jià)378.55元/間夜,同比增長6.3%;平均出租率56.7%,同比下降1.3%;每間可供出租客房收入214.65元/間夜,同比增長4.9%;每間客房平攤營業(yè)收入40424.51元/間,同比增長5.4%[1]。眾所周知,預(yù)訂是現(xiàn)代酒店管理中一個(gè)重要的環(huán)節(jié)。顧客提前預(yù)訂,是希望抵達(dá)酒店時(shí)就有滿足其要求的客房,其目的是便于顧客的行程安排[2]。隨著互聯(lián)網(wǎng)的普及,使得提前預(yù)訂更加便捷。但預(yù)訂好客房的顧客可能會(huì)到了規(guī)定的日期而沒有到店,或者臨時(shí)取消預(yù)訂,致使酒店預(yù)留的客房無法銷售而造成損失[3]。目前學(xué)術(shù)界對(duì)于酒店行業(yè)的關(guān)注主要集中在用戶行為[3-5]、競爭環(huán)境[6-8]、管理系統(tǒng)[9-11]、預(yù)訂價(jià)格[12,13]等方面,針對(duì)建立取消酒店預(yù)訂模型方面的相關(guān)研究相對(duì)較少。目前針對(duì)取消率及影響因素方面的研究,主要集中在交通[14,15]領(lǐng)域,缺乏針對(duì)酒店行業(yè)的相關(guān)研究。因此,在酒店行業(yè)專業(yè)人才短缺、缺乏成熟的管理模式、臨時(shí)取消率高等問題的背景下,亟須建立科學(xué)規(guī)范的預(yù)測模型,這對(duì)于規(guī)范并提高酒店的智能化管理水平、提高酒店入住率并增加酒店收益等方面,都具有重要的促進(jìn)意義。

1 研究概述

本文的核心是利用RandomForest模型解決酒店行業(yè)中預(yù)訂取消的問題。熊偉以深圳大梅沙京基喜來登度假酒店為例對(duì)取消預(yù)訂的酒店顧客預(yù)訂行為進(jìn)行了研究,結(jié)果顯示,整體上取消預(yù)訂的顧客以男性商務(wù)顧客居多。顧客大多為臨時(shí)的行程取消或更改而取消預(yù)訂,且性價(jià)比和顧客對(duì)酒店的信任度對(duì)此有一定影響[3]。龍凡認(rèn)為我國經(jīng)濟(jì)型酒店還處于成長階段,市場競爭雖然還未達(dá)到激烈狀態(tài),但消費(fèi)者人群已經(jīng)形成,并認(rèn)可經(jīng)濟(jì)型酒店的存在,行業(yè)還有較大增長的潛力[6]。李昕提出了基于WLAN的酒店餐飲管理系統(tǒng)的設(shè)計(jì)方案,并通過對(duì)關(guān)鍵技術(shù)實(shí)現(xiàn)過程的具體描述,得出了嵌入式可視化軟件的理想設(shè)計(jì)模式[9]。李東娟借用配對(duì)樣本檢驗(yàn)方法對(duì)我國酒店在線預(yù)訂價(jià)格競爭進(jìn)行實(shí)證研究。結(jié)果表明,酒店官網(wǎng)銷售價(jià)格比相應(yīng)的在線中介代理價(jià)格偏低,經(jīng)濟(jì)型酒店對(duì)中介代理的依賴程度比國內(nèi)其他類型酒店要低,其官網(wǎng)價(jià)格具有一定的市場競爭力[12]。針對(duì)取消預(yù)訂預(yù)測方面,研究者基于不同視角構(gòu)建了不同的預(yù)測模型進(jìn)行了相關(guān)研究。劉玉潔基于貝葉斯網(wǎng)絡(luò)建立了延誤波及模型,探討了相關(guān)航班中,進(jìn)港延誤和航班取消對(duì)離港延誤的影響。研究發(fā)現(xiàn),進(jìn)港延誤對(duì)離港延誤的波及現(xiàn)象在不同情況下的程度有差異[13]。李純柱利用XGBoost算法對(duì)航班取消事件進(jìn)行了預(yù)測。實(shí)驗(yàn)結(jié)果表明XGBoost分類器的性能優(yōu)于基準(zhǔn)模型,f1_score值為0.9695[14]。Agustin J提出一種僅使用13個(gè)獨(dú)立變量就可以預(yù)測酒店預(yù)訂取消的方法,除了采用遺傳算法優(yōu)化的人工神經(jīng)網(wǎng)絡(luò)外,還應(yīng)用了機(jī)器學(xué)習(xí)技術(shù),實(shí)驗(yàn)結(jié)果表明準(zhǔn)確率高達(dá)98%[15]。Nuno Antonio將8家酒店的物業(yè)管理系統(tǒng)的數(shù)據(jù)與多個(gè)來源(天氣、假日、事件、社會(huì)聲譽(yù)和在線價(jià)格)的數(shù)據(jù)結(jié)合,并使用機(jī)器學(xué)習(xí)可解釋的算法開發(fā)預(yù)訂取消酒店的預(yù)測模型。研究結(jié)果顯示,在實(shí)際的生產(chǎn)環(huán)境中,由于使用這些模型而提高了預(yù)測準(zhǔn)確性,可以使旅館經(jīng)營者減少取消的次數(shù),從而增加對(duì)需求管理決策的信心[16]。

在以上相關(guān)研究中,本文與Agustín J和Nuno Antonio的研究內(nèi)容較為接近,都是利用機(jī)器學(xué)習(xí)方法建立預(yù)測模型,但是本文與他們的研究不同之處在于Agustín J和Nuno Antonio采用的均為黑箱機(jī)器學(xué)習(xí)模型,這使得建立的預(yù)測模型缺乏可解釋性,為了解決這一問題,本文通過引入SHAP模型,能夠?qū)τ绊懭∠A(yù)訂的因素進(jìn)行分析,為酒店行業(yè)改進(jìn)服務(wù)質(zhì)量提供了決策參考。

2 模型與方法

2.1 問題分析

設(shè)X為酒店預(yù)訂特征集合(酒店類型、到達(dá)時(shí)間、入住人數(shù)、最終預(yù)訂狀態(tài)等信息),Y為是否取消,給定訓(xùn)練數(shù)據(jù)集為D={(x1,y1),(x2,y2),…,(xs,ys)},其中xi=(xi(1),xi(2),…,xi(p))為輸入實(shí)例,p為特征個(gè)數(shù),i=1,2,…,s,s為樣本個(gè)數(shù)。將訓(xùn)練樣本進(jìn)行異常值處理、數(shù)據(jù)標(biāo)準(zhǔn)化等特征工程處理后,將樣本輸入到RandomForest模型中進(jìn)行計(jì)算。隨機(jī)森林是基于Bagging框架下的決策樹模型,建立的是多個(gè)決策樹,即通過結(jié)合多個(gè)弱學(xué)習(xí)器,從而達(dá)到強(qiáng)學(xué)習(xí)器的效果[17]。隨機(jī)森林包含了很多樹,每棵樹給出分類結(jié)果,每棵樹都有生成規(guī)則。

(1)如果訓(xùn)練集大小為N,對(duì)于每棵樹而言,隨機(jī)且有放回地從訓(xùn)練中抽取N個(gè)訓(xùn)練樣本,作為該樹的訓(xùn)練集,重復(fù)K次,生成K組訓(xùn)練樣本集。

(2)如果每個(gè)特征的樣本維度為M,指定一個(gè)常數(shù)m?塏M,隨機(jī)從M個(gè)特征中選取m個(gè)特征。

(3)利用m個(gè)特征對(duì)每棵樹盡最大可能的生長,并且沒有剪枝過程。

隨機(jī)森林的分類算法流程如圖1所示:

2.2 SHAP的原理

在樣本量足夠大的前提下,通過RandomForest算法可以訓(xùn)練出預(yù)測精度較高的分類模型,但是RandomFoest與傳統(tǒng)的線性模型相比,在模型的可解釋性上,幾乎是一個(gè)黑箱模型。為了解決這個(gè)問題,本文采用SHAP值對(duì)模型中影響取消預(yù)訂的因素進(jìn)行解釋分析。SHAP是由Lundberg和Lee[18]于2017年提出,用于增強(qiáng)XGBoost等模型的可解釋性。

假設(shè)第I個(gè)樣本為xi,第I個(gè)樣本的第j個(gè)特征為xij,模型對(duì)該樣本的預(yù)測值為yi,整個(gè)模型的基線為ybase,那么SHAP value服從以下等式:

yi=ybase+f(xi1)+f(xi2)+…+f(xip), ?(1)

其中f[(x)ij]為xij的SHAP值。RandomForest傳統(tǒng)的feature importance只能反映出特征的重要程度,但并不清楚該特征是如何影響預(yù)測結(jié)果的。SHAP value最大的優(yōu)勢(shì)是SHAP能反映出每一個(gè)樣本特征的影響力,而且還指出影響的正負(fù)性。

3 特征工程

3.1 數(shù)據(jù)概況

本文選取Kaggle競賽Hotel booking demand(https://www.kaggle.com/jessemostipak/hotel-booking-demand)作為研究的數(shù)據(jù)源,該數(shù)據(jù)集包括酒店的基本信息,其中是否取消預(yù)訂作為輸出標(biāo)簽值。數(shù)據(jù)集總量為119390,特征總數(shù)為32。原數(shù)據(jù)集所含特征的均值和方差如表1所示。其部分特征如圖2所示,不論是城市酒店還是度假村,5月至9月是入住旺季(68.7%);城市酒店的取消預(yù)訂集中在4月至6月,而度假村在6月、8月及9月的取消次數(shù)較多。

3.2 特征工程

(1)異常值處理 預(yù)測建模需要對(duì)數(shù)據(jù)進(jìn)行異常數(shù)據(jù)剔除和缺失數(shù)據(jù)處理,如圖3所示。在119390個(gè)初始樣本中,剔除lead_time大于500、stays_in_ weekend_nights大于6、stays_in_week_nights大于10、adults大于4、children大于8以及babies大于8的異常樣本,剩余118489個(gè)樣本。

(2)缺失值處理及數(shù)據(jù)編碼 缺失數(shù)據(jù)的處理按照特征的屬性區(qū)別對(duì)待,對(duì)children用眾數(shù)填充;對(duì)country采用字符串unknown填充;因company缺失90%,故選擇剔除該變量。對(duì)meal、market_segment、distribution_channel、reserved_room_ type、assigned_room_type、customer_type、reservation _status等特征進(jìn)行獨(dú)熱編碼;對(duì)country、hotel采用標(biāo)簽編碼。

(3)相關(guān)性分析 目標(biāo)變量(is_canceled)與lead_time、required_car_parking_spaces、total_of_ special_requests、deposit_given等變量的相關(guān)系數(shù)較高,說明以上變量的變動(dòng)可能對(duì)目標(biāo)變量產(chǎn)生較大影響,如圖4所示。

(4)特征轉(zhuǎn)換 添加新變量family、deposit、total_customers以及total_nights。family的取值為:當(dāng)adults大于0且children大于0時(shí),取1,其他取0;deposit的取值為:當(dāng)deposit_type為No Deposit且為Refundable時(shí),取0,其他取1。

(5)Lasso特征選擇 在實(shí)際的工作中,Lasso的參數(shù)λ越大,參數(shù)的解越稀疏,選出的特征越少。本文采用交叉驗(yàn)證方法計(jì)算模型的RMSE,然后選擇RMSE的極小值點(diǎn),從而確定參數(shù)λ的值。特征的重要程度如圖5所示,最終選取特征為61個(gè)。

4 實(shí)驗(yàn)結(jié)果及討論

4.1 算法評(píng)價(jià)指標(biāo)及超參數(shù)配置

本文以accuracy(正確率)、precision(精度)、recall(召回率)、f1_score作為預(yù)測模型的評(píng)價(jià)函數(shù)。其計(jì)算公式如(2)-(5)。

首先介紹幾個(gè)常見的模型評(píng)價(jià)術(shù)語,假設(shè)分類目標(biāo)只有兩類,計(jì)為正例(positive)和負(fù)例(negative)分別是:

(1)True positives(TP):被正確地劃分為正例的個(gè)數(shù),即實(shí)際為正例且被分類器劃分為正例的實(shí)例數(shù)。

(2)False positives(FP):被錯(cuò)誤地劃分為正例的個(gè)數(shù),即實(shí)際為負(fù)例但被分類器劃分為正例的實(shí)例數(shù)。

(3)False negatives(FN):被錯(cuò)誤地劃分為負(fù)例的個(gè)數(shù),即實(shí)際為正例但被分類器劃分為負(fù)例的實(shí)例數(shù)。

(4)True negatives(TN):被正確地劃分為負(fù)例的個(gè)數(shù),即實(shí)際為負(fù)例且被分類器劃分為負(fù)例的實(shí)例數(shù)。

正確率(accuracy) 正確率是最常見的評(píng)價(jià)指標(biāo),即被分對(duì)的樣本數(shù)除以所有的樣本數(shù),通常來說,正確率越高,分類效果越好。

精度(precision) 精度是精確性的度量,表示被分為正例的示例中實(shí)際為正例的比例。

召回率(recall) 召回率是覆蓋面的度量,度量有多個(gè)正例被分為正例。

f1-score是對(duì)精度和召回率的調(diào)和平均。

本文中所有對(duì)比算法的超參數(shù)配置如表2所示。

4.2 與其他主流機(jī)器學(xué)習(xí)模型的對(duì)比分析

8種算法的預(yù)測評(píng)價(jià)指標(biāo)結(jié)果如表3所示。以RandomForest算法為例,將處理完畢后的數(shù)據(jù)以70%的訓(xùn)練數(shù)據(jù),30%的測試數(shù)據(jù)作為數(shù)據(jù)切分方案,各算法超參數(shù)配置,最終利用70%的數(shù)據(jù)訓(xùn)練得到模型,并在30%的驗(yàn)證數(shù)據(jù)集上預(yù)測最終詳細(xì)結(jié)果。

從表3及圖6中的詳細(xì)數(shù)據(jù)可以看出,總體上8種算法的性能對(duì)比結(jié)果是:RandomForest效果最佳,precision值為0.884,recall值為0.798,f1得分為0.838,AUC值達(dá)到0.868。StochasticGradientDescent效果最差。其中,在precision指標(biāo)上,隨機(jī)森林能夠達(dá)到0.884,其次是XGBoost,值為0.851。而邏輯回歸在precision指標(biāo)上只達(dá)到了0.786。其他算法的precision值均在區(qū)間[0.80,0.87]內(nèi)。在recall指標(biāo)上,RandomForest與其他8種算法之間的差距比較明顯,SVC的recall值只有0.506,而決策樹、RandomForest分別能夠達(dá)到0.800、0.798,其他算法的recall值均在區(qū)間[0.60,0.70]內(nèi)。在f1_score指標(biāo)上,RandomForest的值可以達(dá)到0.838,而邏輯回歸以及StochasticGradientDescent的值只有0.697。其他7種算法的f1_score值均在區(qū)間[0.70,0.80]內(nèi)。在AUC指標(biāo)上,RandomForest算法與其他算法之間的差距并不明顯,AUC值均在區(qū)間[0.75,0.88]內(nèi)。

綜上所述,RandomForest在3個(gè)評(píng)價(jià)指標(biāo)上誤差都小于其他7個(gè)算法,預(yù)測效果最為理想。比較8個(gè)算法的預(yù)測效果可以看出:(1)在預(yù)測效果上,RandomForest比其他算法預(yù)測效果好,三個(gè)指標(biāo)均為最優(yōu),這表明本文的指標(biāo)體系是有效的,深入挖掘影響取消酒店預(yù)訂的因素可以更加準(zhǔn)確地預(yù)測顧客是否會(huì)取消預(yù)訂。(2)基于非線性的XGBoost、LightGBM算法比線性回歸、決策樹的預(yù)測效果好,這表明數(shù)據(jù)集往往表現(xiàn)出復(fù)雜的非線性關(guān)系并含有一定程度的噪聲數(shù)據(jù),所以使用基于非線性關(guān)系的模型可以獲得較好的預(yù)測效果,但與此同時(shí)也會(huì)增大模型的復(fù)雜度。(3)基于集成方法的RandomForest、XGBoost算法預(yù)測效果較好,其原因在于RandomForest作為一種集成方法,其通過了結(jié)合多個(gè)弱學(xué)習(xí)器達(dá)到一個(gè)強(qiáng)學(xué)習(xí)器的效果。研究結(jié)果表明:在Lasso特征選擇的基礎(chǔ)上,通過RandomForest分類可以合理地預(yù)測顧客是否會(huì)取消酒店預(yù)訂,而且RandomForest方法在模型的推廣泛化上具有一定優(yōu)勢(shì)。

4.3 模型超參數(shù)調(diào)優(yōu)及模型收斂分析

Randomforest中的超參數(shù)總共有19個(gè),主要分為Bagging的框架參數(shù)(如booster、oob_score等)、決策樹的參數(shù)(如max_features、max_depth等)。本文在參數(shù)調(diào)優(yōu)過程中采用網(wǎng)格參數(shù)搜索技術(shù)(GridSearchCV)并以accuracy為評(píng)價(jià)指標(biāo),以表現(xiàn)最優(yōu)的Randomforest模型為訓(xùn)練集,選擇以n_estimators、max_depth、min_samples_split、min_samples_leaf四個(gè)對(duì)模型性能影響最大的參數(shù)為主,參數(shù)的搜索空間及第一輪調(diào)優(yōu)結(jié)果如表4所示。

(1)先確定n_estimators,把n_estimators設(shè)置成100,其他參數(shù)使用默認(rèn)參數(shù),使用GridSearchCV函數(shù)進(jìn)行網(wǎng)格搜索確定合適的n_estimators。(2)找到合適的迭代次數(shù)后使用GridSearchCV函數(shù)對(duì)模型的其他三個(gè)主要參數(shù)進(jìn)行網(wǎng)格搜索自動(dòng)尋優(yōu)。使用5折交叉驗(yàn)證的方法來選擇參數(shù),即每次將訓(xùn)練數(shù)據(jù)集分成5份,輪流將4份用于訓(xùn)練集訓(xùn)練剩下1份用于測試集測試,每次試驗(yàn)都會(huì)得到相應(yīng)的accuracy值,最后將5次測試分?jǐn)?shù)的均值作為最后的accuracy值。參數(shù)最終選擇為n_estimators、max_depth、min_samples_split、min_samples_leaf的結(jié)果為:200、8、5、3。相比未調(diào)參的結(jié)果0.884(precision值),調(diào)參后為0.925(precision值),優(yōu)化效果比較顯著。

如圖7所示,Randomforest與其他模型學(xué)習(xí)曲線對(duì)比,其中圖7(a)-(d)分別表示Randomforest、DecisionTree、XGBoost以及LightGBM的學(xué)習(xí)曲線。從圖7中可以發(fā)現(xiàn)各算法的擬合效果相差較大,可以看到除DecisionTree、RandomForest外,其他兩種算法隨著樣本量的增加,模型都趨于逐步收斂,而DecisionTree、RandomForest的測試集與交叉驗(yàn)證集性能存在較大差距。Randomforest、XGBoost、LightGBM分別在樣本量為30000時(shí),模型就取得了較好擬合效果,并隨著樣本量的逐步增加,交叉驗(yàn)證的性能也逐漸趨于穩(wěn)定。從擬合趨勢(shì)上看,隨著樣本量的不斷增大,XGBoost與LightGBM模型能夠達(dá)到更優(yōu)的擬合效果,但XGBoost在測試集上的穩(wěn)健性相比LightGBM更為出色。

4.4 基于SHAP的模型解釋分析

圖8顯示了整個(gè)模型的特征重要度,該圖根據(jù)要素對(duì)影響取消預(yù)訂的因素重要性對(duì)其進(jìn)行排序。可以看到country(顧客來源)、total_of_special_requires(其他特殊需求數(shù))、deposit_given(押金類型)、required_car_parking_spaces(需要停車位數(shù))、market_segment_Online TA(網(wǎng)上預(yù)訂)、lead_time(提前預(yù)訂時(shí)長)、previous_cancellations(提前取消次數(shù))等特征的差異對(duì)模型的影響較顯著。整體來說,前20個(gè)特征對(duì)模型產(chǎn)生的正面影響的占多數(shù)。具體而言,country對(duì)模型產(chǎn)生的正面影響較大,即country值越大,SHAP value的值也越大,紅色區(qū)域集中于SHAP value大于0的部分,藍(lán)色區(qū)域集中在SHAP value小于0的部分;與之產(chǎn)生相同影響的時(shí)deposit_given,該值越大,SHAP value的值也越大。而total_of_special_requires(其他特殊需求數(shù))對(duì)模型產(chǎn)生的負(fù)面影響較大,即紅色區(qū)域聚集于SHAP value小于0的部分,藍(lán)色區(qū)域聚集于SHAP value大于0的部分,說明該值越大,SHAP value越小。

經(jīng)過XGBoost、RandomForest的訓(xùn)練后,可以得到每個(gè)特征的重要性指標(biāo)。表5為兩種算法特征重要性對(duì)比。

通過表5及圖9觀察發(fā)現(xiàn),經(jīng)過XGBoost、RandomForest訓(xùn)練后,排名10的特征重要度并不完全相同。結(jié)合數(shù)據(jù)集的特征重要度排序,可以得出影響取消預(yù)訂的關(guān)鍵因素是deposit_type(押金類型)、country(客戶來源)、lead_time(提前預(yù)訂時(shí)長)、market_segment(預(yù)訂渠道)、adr(入住總?cè)藬?shù))以及reserved_room_type(預(yù)留房型)。具體而言,deposit_type若為No default(無保證金),取消預(yù)訂的概率越高是肯定的;若lead_time(提前預(yù)訂時(shí)長)越大,取消預(yù)訂的概率越高。取消的原因可能是顧客無法控制的,例如計(jì)劃變更、疾病、事故或天氣。然而,由于顧客的行為,取消也可能發(fā)生,例如找到價(jià)格更優(yōu)惠的酒店,找到位置更好或更理想的酒店,尋找一家服務(wù)設(shè)施更好的酒店。

5 結(jié)論

酒店行業(yè)發(fā)展迅速,研究者對(duì)其的關(guān)注主要集中在用戶行為、競爭環(huán)境、管理系統(tǒng)、預(yù)訂價(jià)格等方面,針對(duì)建立取消酒店預(yù)訂模型方面的相關(guān)研究相對(duì)較少,并且已有工作中采用的均為黑箱機(jī)器學(xué)習(xí)模型,缺乏模型的可解釋性。所以,本文以kaggle酒店取消預(yù)訂數(shù)據(jù)集為研究對(duì)象,研究了基于RandomForest算法對(duì)酒店預(yù)訂場景下預(yù)測是否取消的問題。首先,對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,再利用Lasso方法進(jìn)行特征提取;其次,將特征提取后的數(shù)據(jù)作為RandomForest訓(xùn)練模型的輸入進(jìn)行預(yù)測;并且通過與XGBoost、LightGBM、DecisionTree、SVC、LogisticRegression、Adaboost以及SGD等7種主流算法對(duì)比實(shí)驗(yàn),證明了RandomForest算法的有效性。最后,采用SHAP模型對(duì)已建立的價(jià)格模型進(jìn)行解釋,同時(shí)通過XGBoost, RandomForest的特征重要性排序,識(shí)別出影響取消預(yù)訂的關(guān)鍵因素是押金類型、預(yù)訂時(shí)長以及預(yù)定渠道。下一步工作可以考慮加入更多特征(如位置、天氣狀況、酒店星級(jí)、價(jià)格等),進(jìn)一步提升模型的預(yù)測精度。

參考文獻(xiàn):

〔1〕國家旅游局.2019年中國旅游業(yè)統(tǒng)計(jì)公報(bào)[EB/OL].https://www.sohu.com/a/403183779_168 029?_trans_=000014_bdss_dkygcbz,2020-06-20/2020-11-20.

〔2〕江浩.飯店預(yù)訂業(yè)務(wù)應(yīng)更有作為[J].商業(yè)研究,2006,49(07):103-105.

〔3〕熊偉,藍(lán)文婷.基于no-show和取消預(yù)訂的酒店顧客預(yù)訂行為研究——以深圳大梅沙京基喜來登度假酒店為例[J].旅游研究,2012,4(03):51-59.

〔4〕孫文龍.一種基于用戶行為特征的個(gè)性化酒店推薦模型[J].電子世界,2014,36(24):469-469.

〔5〕Falk M, Vieru M J. Modelling the Cancellation Behaviour of Hotel Guests[J]. Social ence Electronic Publishing, 2018, 30(10):3100-3116.

〔6〕龍凡.我國經(jīng)濟(jì)型酒店行業(yè)競爭環(huán)境分析[J].商業(yè)經(jīng)濟(jì)研究,2008,27(012):101-103.

〔7〕馮小偉.激烈競爭環(huán)境下的經(jīng)濟(jì)型酒店創(chuàng)新經(jīng)營[J].河北聯(lián)合大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2014,14(1):57-60.

〔8〕鄒林辰.基于SSM的酒店管理系統(tǒng)開發(fā)[J].科學(xué)技術(shù)創(chuàng)新,2020,24(32):55-56.

〔9〕李昕,孟祥福,劉玥.基于WLAN的酒店餐飲管理系統(tǒng)的實(shí)現(xiàn)[J].微計(jì)算機(jī)信息,2007,23(06):17-18,31.

〔10〕丁蕾錠,蘭海翔,盧涵宇,祁小軍,薛安琪.餐飲酒店信息管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].電腦知識(shí)與技術(shù),2019,15(25):152-154.

〔11〕尚天成,吳雪,劉培紅,等.酒店客房價(jià)格影響因素研究進(jìn)展[J].天津大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2017,19(01):1-6.

〔12〕李東娟,熊勝緒.我國酒店在線預(yù)訂價(jià)格競爭的實(shí)證研究[J].旅游學(xué)刊,2011,26(12):37-41.

〔13〕劉玉潔,何丕廉,劉春波,等.基于貝葉斯網(wǎng)絡(luò)的航班延誤波及研究[J].計(jì)算機(jī)應(yīng)用,2008,44(17):242-245.

〔14〕李純柱,劉博,盧婷婷.基于XGBoost算法的航班取消問題研究與預(yù)測分析[J].民航學(xué)報(bào),2020, 4(05):117-122.

〔15〕Agustín J. Sánchez-Medina, Eleazar C-Sánchez. Using machine learning and big data for efficient forecasting of hotel booking cancellations[J]. International Journal of Hospitality Management, 2020, 89:102546.

〔16〕Nuno Antonio.Big Data in Hotel Revenue Management: Exploring Cancellation Drivers to Gain Insights Into Booking Cancellation Behavior[J].Cornell Hospitality Quarterly. 2019, 60(04):298-319.

〔17〕BREIMAN L. Random forests[J]. Machine Learning, 2001,45(01):5-32.

〔18〕Lundberg S M, Lee S I. A unified approach to interpreting model predictions[C]// Advances in neural information processing systems. 2017:4765-4774.

猜你喜歡
特征模型研究
一半模型
FMS與YBT相關(guān)性的實(shí)證研究
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
如何表達(dá)“特征”
不忠誠的四個(gè)特征
EMA伺服控制系統(tǒng)研究
抓住特征巧觀察
主站蜘蛛池模板: 国产成人艳妇AA视频在线| 日韩国产精品无码一区二区三区| 在线亚洲精品福利网址导航| 国产欧美视频在线观看| 国产a v无码专区亚洲av| 欧洲熟妇精品视频| 91久久精品国产| 欧美日本激情| 又大又硬又爽免费视频| 欧美色视频在线| 国产精品美女免费视频大全| 美女潮喷出白浆在线观看视频| 白浆免费视频国产精品视频| 国产无码在线调教| 久久久精品国产SM调教网站| 999精品色在线观看| 久草视频中文| 青青草原国产av福利网站| 一级做a爰片久久毛片毛片| 99热国产这里只有精品无卡顿"| 欧美日韩中文国产| 青青青国产视频| 97人人做人人爽香蕉精品| 99精品免费欧美成人小视频| 男人天堂伊人网| 免费精品一区二区h| 四虎永久在线精品影院| 欧美精品一区在线看| 国产精品无码一二三视频| 亚洲av片在线免费观看| 99re精彩视频| 少妇露出福利视频| 人妻少妇乱子伦精品无码专区毛片| 热re99久久精品国99热| 丁香亚洲综合五月天婷婷| 国产xx在线观看| 国产又色又刺激高潮免费看| 亚洲欧美成人综合| 国产玖玖视频| 996免费视频国产在线播放| 亚洲自拍另类| 巨熟乳波霸若妻中文观看免费| 免费看的一级毛片| 亚洲人成在线精品| 在线精品亚洲国产| 91久草视频| 国产网站免费看| 91亚瑟视频| 99久久精品免费观看国产| 成人免费网站久久久| 亚洲天堂色色人体| 国产成人av大片在线播放| 欧美www在线观看| 日本精品影院| 免费国产黄线在线观看| 丰满人妻一区二区三区视频| 91久久偷偷做嫩草影院免费看| 亚洲久悠悠色悠在线播放| 性欧美久久| 无码日韩人妻精品久久蜜桃| 中文字幕乱妇无码AV在线| 亚洲欧洲一区二区三区| 波多野结衣爽到高潮漏水大喷| 久草网视频在线| 国产欧美成人不卡视频| 精品在线免费播放| 国产杨幂丝袜av在线播放| AV熟女乱| 日韩a在线观看免费观看| 亚洲伊人天堂| 伊人天堂网| 超薄丝袜足j国产在线视频| 欧美亚洲第一页| 91网红精品在线观看| 国产精品lululu在线观看| 国产精品片在线观看手机版 | 国产91无毒不卡在线观看| 亚洲无码精品在线播放| 国产一区二区人大臿蕉香蕉| 国产美女精品一区二区| 911亚洲精品| 狠狠色综合网|