


摘 要:數(shù)據(jù)挖掘技術(shù)運(yùn)用于餐飲行業(yè)具有一定的社會(huì)價(jià)值,通過預(yù)測(cè)餐飲行業(yè)客流量,根據(jù)客流量多少餐廳合理為顧客準(zhǔn)備用餐,有利于提升顧客用餐體驗(yàn),提高餐飲質(zhì)量的同時(shí)讓餐飲行業(yè)更高效運(yùn)作。本文通過研究線性回歸算法與隨機(jī)森林算法理論,提出將線性回歸算法與隨機(jī)森林算法融合的思想,將其應(yīng)用在餐廳顧客回訪數(shù)量預(yù)測(cè),并通過實(shí)驗(yàn)證明該思路的合理性和可實(shí)施性。通過實(shí)驗(yàn)對(duì)比,算法融合思路比線性回歸算法準(zhǔn)確率提高了約3.004%,比隨機(jī)森林算法提高了約2.022%。比以往大部分研究取得更優(yōu)的預(yù)測(cè)效果,為數(shù)據(jù)挖掘技術(shù)在餐飲行業(yè)的應(yīng)用提供了新的思路。
關(guān)鍵詞:數(shù)據(jù)挖掘;線性回歸;隨機(jī)森林;算法融合;餐飲行業(yè)
中圖分類號(hào):TP312 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):2096-1472(2018)-07-24-04
1 引言(Introduction)
數(shù)據(jù)挖掘運(yùn)用相關(guān)的算法從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取正確的、有用的、未知的、綜合的,以及用戶感興趣的知識(shí),建立模型,用于決策支持的模型,提供預(yù)測(cè)性決策支持的方法、工具和過程[1]。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中的信息的過程。隨著互聯(lián)網(wǎng)時(shí)代的到來和數(shù)據(jù)大爆發(fā),數(shù)據(jù)挖掘技術(shù)普遍而且迫切地應(yīng)用于各個(gè)領(lǐng)域,比如金融、電信、保險(xiǎn)、醫(yī)療、餐飲等行業(yè)。它通過運(yùn)用整理、分析、總結(jié)、推理等方法對(duì)大量地?cái)?shù)據(jù)進(jìn)行處理,從而對(duì)實(shí)際問題進(jìn)行指導(dǎo)和分析,得出相關(guān)地預(yù)測(cè)結(jié)果,從而做出更加有利的決策[2]。
本文主要針對(duì)餐飲行業(yè)對(duì)餐廳客流量進(jìn)行預(yù)測(cè)。餐飲是我們?nèi)粘I畹闹匾徊糠郑瑫r(shí)也伴隨著巨大的行為數(shù)據(jù)產(chǎn)生。如果能更好地利用這些數(shù)據(jù),運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)進(jìn)行分析、預(yù)測(cè),讓餐飲行業(yè)能更合理地做出方案和決策,這有利于顧客用餐體驗(yàn),提高餐飲質(zhì)量,同時(shí)也可以讓餐飲行業(yè)經(jīng)營(yíng)更好,商家獲得更大的利潤(rùn)。筆者查閱相關(guān)資料得知,數(shù)據(jù)挖掘在餐飲領(lǐng)域運(yùn)用的普遍性還有待提高,數(shù)據(jù)挖掘運(yùn)用在餐飲行業(yè)的相關(guān)技術(shù)還有待提高。如以往有不少人研究的線性回歸模型或隨機(jī)森林模型運(yùn)用在餐飲行業(yè)仍然存在準(zhǔn)確性不夠的不足。本文針對(duì)這一不足提出了一個(gè)新的解決方法,整合兩個(gè)模型的優(yōu)點(diǎn),避開它們的缺點(diǎn),融合成一個(gè)新的模型,提高數(shù)據(jù)挖掘技術(shù)在餐飲行業(yè)應(yīng)用的水平。
本文通過介紹線性回歸和隨機(jī)森林兩種模型,運(yùn)用數(shù)據(jù)挖掘工具對(duì)餐飲行業(yè)大量數(shù)據(jù)進(jìn)行分析預(yù)測(cè),對(duì)比線性回歸、隨機(jī)森林和兩個(gè)模型融合后的新模型之間的預(yù)測(cè)結(jié)果,通過對(duì)比結(jié)果數(shù)據(jù),從而得出合理的論斷,融合后的模型在餐飲行業(yè)客流量預(yù)測(cè)中的效果更好,準(zhǔn)確性更高。
2 算法介紹(Algorithm introduction)
2.1 線性回歸模型簡(jiǎn)介[3,4]
對(duì)于,其中n組結(jié)果值為取值為0或1的隨機(jī)變量,滿足與的關(guān)系為:
選取的估值,使式(6)達(dá)到最大值。
2.2 隨機(jī)森林算法簡(jiǎn)介
隨機(jī)森林(random forest)是一種基于分類樹(classification tree)的算法(Breiman,2001)。這個(gè)算法需要模擬和迭代,被歸類為機(jī)器學(xué)習(xí)中的一種方法。經(jīng)典的機(jī)器學(xué)習(xí)模型是神經(jīng)網(wǎng)絡(luò)(Hopfield,1982),有半個(gè)多世紀(jì)的歷史了。神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)精確,但是計(jì)算量很大。20世紀(jì)80年代Breiman等人(1984)發(fā)明了分類和回歸樹(Classification And Regression Tree,簡(jiǎn)稱CART)的算法,通過反復(fù)二分?jǐn)?shù)據(jù)進(jìn)行分類或回歸,計(jì)算量大大降低[5]。
RF是由一系列樹型分類器{h(x,Θ)}k,其中k=1,…,組合成的分類器,其中Θk是獨(dú)立同分布隨機(jī)向量,且每棵樹對(duì)輸入向量x所屬的最受歡迎類投一票[6]。RF生成步驟如圖1所示:(1)從總訓(xùn)練樣本集D中用Bootstrap采樣選取k個(gè)子訓(xùn)練樣本集D1,D2,…,Dk,并預(yù)建k棵分類樹;(2)在分類樹的每個(gè)節(jié)點(diǎn)上隨機(jī)地從n個(gè)指標(biāo)中選取m個(gè),選取最優(yōu)分割指標(biāo)進(jìn)行分割;(3)重復(fù)步驟(2)遍歷預(yù)建的k棵分類樹;(4)由k棵分類樹形成隨機(jī)森林。
Bootstrap隨機(jī)抽樣得到輸入訓(xùn)練集和節(jié)點(diǎn)隨機(jī)選取指標(biāo)進(jìn)行分割,使得RF對(duì)噪聲有很好的容忍性,且降低了分類樹之間的相關(guān)性。單棵樹不剪枝任意生長(zhǎng)的特點(diǎn)可獲得低偏差分類樹,且能夠保證對(duì)新測(cè)試數(shù)據(jù)分類的正確率。
RF的生成和單棵風(fēng)險(xiǎn)分類樹如圖1和圖2所示[7]。
2.3 線性回歸和隨機(jī)森林算法融合原理
本文使用的模型融合是加權(quán)平均法。首先,根據(jù)兩個(gè)模型的預(yù)測(cè)效果和模型得分,對(duì)其求權(quán)重;然后對(duì)兩個(gè)模型預(yù)測(cè)值求加權(quán)平均值為最終的預(yù)測(cè)結(jié)果。
其中,表示最終的預(yù)測(cè)結(jié)果,表示線性回歸模型的預(yù)測(cè)結(jié)果,表示線性回歸模型的預(yù)測(cè)結(jié)果,a表示求得的線性回歸模型的權(quán)重,b表示求得的隨機(jī)森林模型的權(quán)重。
2.4 模型評(píng)價(jià)標(biāo)準(zhǔn)
對(duì)于客流量的預(yù)測(cè),我們更加關(guān)注的是所預(yù)測(cè)的客流量與實(shí)際客流量之間的誤差[8],因此,本文采用均方根誤差RMLSE作為評(píng)價(jià)模型效果優(yōu)良的標(biāo)準(zhǔn)。
表示真實(shí)訪客數(shù)量,表示預(yù)測(cè)的訪客數(shù)量。
當(dāng)RMLSE越小時(shí),表明誤差越小,模型效果越好。
3 模型數(shù)據(jù)分析(Data analysis of model)
3.1 數(shù)據(jù)預(yù)處理與特征工程
餐飲店客流量預(yù)測(cè)的數(shù)據(jù)來源與kaggle數(shù)據(jù)競(jìng)賽平臺(tái)Recruit Restaurantor Visitor Forecasting賽題中的數(shù)據(jù)。本文經(jīng)過數(shù)據(jù)清洗和預(yù)處理[10]后提取出對(duì)本次實(shí)驗(yàn)有用的328298條記,每條記錄12個(gè)字段,見表1。
預(yù)處理后的數(shù)據(jù)并不能滿足實(shí)驗(yàn)的要求,仍然有大量的潛在特征價(jià)值未被挖掘,此時(shí)需要進(jìn)行相應(yīng)的特征工程,本次實(shí)驗(yàn)對(duì)訪客數(shù)量做log處理、時(shí)序問題趨勢(shì)穩(wěn)定處理、關(guān)于顧客就餐是否為周末等時(shí)間問題處理等特征工程,充分挖掘了數(shù)據(jù)中隱藏的大量?jī)r(jià)值。特征處理后每條記錄62個(gè)字段,如表2。
3.2 模型構(gòu)建
在對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和特征工程之后,就可以輸入數(shù)據(jù)進(jìn)行模型訓(xùn)練,其中除表2中的visitors_log屬性外為輸入數(shù)據(jù)集的X,visitors_log屬性為標(biāo)簽輸入。模型輸入數(shù)據(jù)如表3所示。
表4為模型輸出的示例,以Logistic回歸作為預(yù)測(cè)模型。其中,Id表示店鋪的地址和該店鋪對(duì)應(yīng)的日期,visitors表示該店鋪在對(duì)應(yīng)日期訪客量的預(yù)測(cè)人數(shù)。
3.3 實(shí)驗(yàn)結(jié)果與分析
3.3.1 各模型預(yù)測(cè)值與真實(shí)值對(duì)比
為了便于觀察實(shí)驗(yàn)現(xiàn)象和分析實(shí)驗(yàn)結(jié)果,本文在數(shù)據(jù)規(guī)模一致且合理的情況下分別對(duì)線性回歸模型、隨機(jī)森林模型和兩個(gè)模型融合后預(yù)測(cè)的訪客量數(shù)與真實(shí)訪客量數(shù)進(jìn)行對(duì)比,并作圖分析。由圖3—圖5分析可得,線性回歸模型、隨機(jī)森林模型和融合后的模型在一定程度上三個(gè)模型的預(yù)測(cè)值和真實(shí)值是吻合的。分析可得,三個(gè)模型適用于本文實(shí)驗(yàn),模型應(yīng)用合理。
3.3.2 不同數(shù)據(jù)集大小的情況下各模型誤差對(duì)比
分別取全部數(shù)據(jù)的20%、40%、60%和100%,分別訓(xùn)練以上三個(gè)模型,得出三個(gè)不同模型的錯(cuò)誤率,并作圖對(duì)比,如圖6所示。
其中,圖6圖例LR、RFR和Fusion model分別表示線性回歸模型、隨機(jī)森林模型和融合后的模型的錯(cuò)誤率。
3.3.3 實(shí)驗(yàn)結(jié)果分析
由圖3—圖5分析可得,線性回歸模型、隨機(jī)森林模型和融合后的模型在一定程度上三個(gè)模型的預(yù)測(cè)值和真實(shí)值是吻合的。分析可得,三個(gè)模型適用于本文實(shí)驗(yàn),模型應(yīng)用合理。分析圖6,對(duì)于某一模型,隨著數(shù)據(jù)量不斷增加,模型預(yù)測(cè)預(yù)測(cè)訪客的錯(cuò)誤率不斷降低,模型效果不斷提高,并且當(dāng)數(shù)據(jù)量大到一定范圍時(shí),模型預(yù)測(cè)訪客數(shù)量的錯(cuò)誤率下降趨緩;對(duì)比三個(gè)模型可得,在相同的數(shù)據(jù)規(guī)模下,融合后的模型預(yù)測(cè)訪客數(shù)量的錯(cuò)誤率明顯低于線性回歸模型和隨機(jī)森林模型。
4 結(jié)論(Conclusion)
本文介紹了線性回歸和隨機(jī)森林算法,以及兩個(gè)算法融合思路及原理,把數(shù)據(jù)挖掘技術(shù)運(yùn)用于餐飲行業(yè),并通過實(shí)驗(yàn)證明兩個(gè)算法融合這一思路在餐飲行業(yè)預(yù)測(cè)餐廳某一時(shí)間段訪客數(shù)量的應(yīng)用是可行合理的,具有較大的社會(huì)價(jià)值,讓餐飲行業(yè)能更合理地做出方案和決策,這有利于顧客用餐體驗(yàn),提高餐飲質(zhì)量,同時(shí)也可以讓餐飲行業(yè)經(jīng)營(yíng)更好,商家獲得更大的利潤(rùn)。本文線性回歸和隨機(jī)森林算法融合思想彌補(bǔ)了之前單模型研究的不足,降低餐廳訪客量預(yù)測(cè)的錯(cuò)誤率,模型效果更優(yōu),使模型在餐飲行業(yè)使用范圍更廣,更容易泛化和推廣;在一定范圍內(nèi),隨著訓(xùn)練數(shù)據(jù)規(guī)模增加,模型的效果不斷優(yōu)化。
參考文獻(xiàn)(References)
[1] 張晴,高廣銀,賈波.數(shù)據(jù)挖掘技術(shù)在超市營(yíng)銷系統(tǒng)中的應(yīng)用[J].軟件工程,2016,19(5):35-38.
[2] 張慧,徐勇.數(shù)據(jù)挖掘中SVM模型與貝葉斯模型的比較分析——基于電信客戶的流失分析[J].平頂山學(xué)報(bào),2016,31(2):68-73.
[3] 冷建飛,高旭,朱嘉平.多元線性回歸統(tǒng)計(jì)預(yù)測(cè)模型的應(yīng)用[J].統(tǒng)計(jì)與決策,2016,16(7):82-85.
[4] 王朋,呂寒,李若詩(shī).基于logisitic回歸的《中國(guó)好聲音》受眾行為分析[J].廣州大學(xué)學(xué)報(bào),2013,12(11):54-58.
[5] 李欣海.隨機(jī)森林模型在分類與回歸分析中的應(yīng)用[J].應(yīng)用昆蟲學(xué)報(bào),2013,50(4):1190-1197.
[6] Jonathan D W,Jennifer L I,Suzana J C.Coastal flooding by tropical cyclones and sea-level rise[J].Nature,2013,504(8):44-52.
[7] 賴成光,陳曉宏,趙仕威,等.基于隨機(jī)森林的洪災(zāi)風(fēng)險(xiǎn)評(píng)價(jià)模型及其應(yīng)用[J].水利學(xué)報(bào),2015,46(1):58-66.
[8] 劉偉,徐鵬濤.O2O電商平臺(tái)在線點(diǎn)評(píng)有用性影響因素的識(shí)別研究——以餐飲行業(yè)O2O模式為例[J].中國(guó)管理科學(xué),2016,24(5):168-176.
[9] Dong L J,Li X B,Peng K.Prediction of rockburst classification using Random Forest[J].Transactions of Non-ferrous Metals Society of China,2013,23(2):472-477.
[10] 李強(qiáng),趙晨杰,羅先錄.基于大數(shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)架構(gòu)分析與設(shè)計(jì)[J].軟件工程,2018,21(5):34-37.
作者簡(jiǎn)介:
楊森彬(1993-),男,碩士生.研究領(lǐng)域:數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),文本挖掘.