線性回歸和隨機(jī)森林算法融合在餐飲客流量的預(yù)測(cè)

2018-10-22 06:56:08楊森彬

軟件工程 2018年7期

摘要：數(shù)據(jù)挖掘技術(shù)運(yùn)用于餐飲行業(yè)具有一定的社會(huì)價(jià)值，通過預(yù)測(cè)餐飲行業(yè)客流量，根據(jù)客流量多少餐廳合理為顧客準(zhǔn)備用餐，有利于提升顧客用餐體驗(yàn)，提高餐飲質(zhì)量的同時(shí)讓餐飲行業(yè)更高效運(yùn)作。本文通過研究線性回歸算法與隨機(jī)森林算法理論，提出將線性回歸算法與隨機(jī)森林算法融合的思想，將其應(yīng)用在餐廳顧客回訪數(shù)量預(yù)測(cè)，并通過實(shí)驗(yàn)證明該思路的合理性和可實(shí)施性。通過實(shí)驗(yàn)對(duì)比，算法融合思路比線性回歸算法準(zhǔn)確率提高了約3.004%，比隨機(jī)森林算法提高了約2.022%。比以往大部分研究取得更優(yōu)的預(yù)測(cè)效果，為數(shù)據(jù)挖掘技術(shù)在餐飲行業(yè)的應(yīng)用提供了新的思路。

關(guān)鍵詞：數(shù)據(jù)挖掘；線性回歸；隨機(jī)森林；算法融合；餐飲行業(yè)

中圖分類號(hào)：TP312 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：2096-1472（2018）-07-24-04

1 引言（Introduction）

數(shù)據(jù)挖掘運(yùn)用相關(guān)的算法從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取正確的、有用的、未知的、綜合的，以及用戶感興趣的知識(shí)，建立模型，用于決策支持的模型，提供預(yù)測(cè)性決策支持的方法、工具和過程[1]。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中的信息的過程。隨著互聯(lián)網(wǎng)時(shí)代的到來和數(shù)據(jù)大爆發(fā)，數(shù)據(jù)挖掘技術(shù)普遍而且迫切地應(yīng)用于各個(gè)領(lǐng)域，比如金融、電信、保險(xiǎn)、醫(yī)療、餐飲等行業(yè)。它通過運(yùn)用整理、分析、總結(jié)、推理等方法對(duì)大量地?cái)?shù)據(jù)進(jìn)行處理，從而對(duì)實(shí)際問題進(jìn)行指導(dǎo)和分析，得出相關(guān)地預(yù)測(cè)結(jié)果，從而做出更加有利的決策[2]。

本文主要針對(duì)餐飲行業(yè)對(duì)餐廳客流量進(jìn)行預(yù)測(cè)。餐飲是我們?nèi)粘Ｉ畹闹匾徊糠郑瑫r(shí)也伴隨著巨大的行為數(shù)據(jù)產(chǎn)生。如果能更好地利用這些數(shù)據(jù)，運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)進(jìn)行分析、預(yù)測(cè)，讓餐飲行業(yè)能更合理地做出方案和決策，這有利于顧客用餐體驗(yàn)，提高餐飲質(zhì)量，同時(shí)也可以讓餐飲行業(yè)經(jīng)營(yíng)更好，商家獲得更大的利潤(rùn)。筆者查閱相關(guān)資料得知，數(shù)據(jù)挖掘在餐飲領(lǐng)域運(yùn)用的普遍性還有待提高，數(shù)據(jù)挖掘運(yùn)用在餐飲行業(yè)的相關(guān)技術(shù)還有待提高。如以往有不少人研究的線性回歸模型或隨機(jī)森林模型運(yùn)用在餐飲行業(yè)仍然存在準(zhǔn)確性不夠的不足。本文針對(duì)這一不足提出了一個(gè)新的解決方法，整合兩個(gè)模型的優(yōu)點(diǎn)，避開它們的缺點(diǎn)，融合成一個(gè)新的模型，提高數(shù)據(jù)挖掘技術(shù)在餐飲行業(yè)應(yīng)用的水平。

本文通過介紹線性回歸和隨機(jī)森林兩種模型，運(yùn)用數(shù)據(jù)挖掘工具對(duì)餐飲行業(yè)大量數(shù)據(jù)進(jìn)行分析預(yù)測(cè)，對(duì)比線性回歸、隨機(jī)森林和兩個(gè)模型融合后的新模型之間的預(yù)測(cè)結(jié)果，通過對(duì)比結(jié)果數(shù)據(jù)，從而得出合理的論斷，融合后的模型在餐飲行業(yè)客流量預(yù)測(cè)中的效果更好，準(zhǔn)確性更高。

2 算法介紹（Algorithm introduction）

2.1 線性回歸模型簡(jiǎn)介[3，4]

對(duì)于，其中n組結(jié)果值為取值為0或1的隨機(jī)變量，滿足與的關(guān)系為：

選取的估值，使式（6）達(dá)到最大值。

2.2 隨機(jī)森林算法簡(jiǎn)介

隨機(jī)森林（random forest）是一種基于分類樹（classification tree）的算法（Breiman，2001）。這個(gè)算法需要模擬和迭代，被歸類為機(jī)器學(xué)習(xí)中的一種方法。經(jīng)典的機(jī)器學(xué)習(xí)模型是神經(jīng)網(wǎng)絡(luò)（Hopfield，1982），有半個(gè)多世紀(jì)的歷史了。神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)精確，但是計(jì)算量很大。20世紀(jì)80年代Breiman等人（1984）發(fā)明了分類和回歸樹（Classification And Regression Tree，簡(jiǎn)稱CART）的算法，通過反復(fù)二分?jǐn)?shù)據(jù)進(jìn)行分類或回歸，計(jì)算量大大降低[5]。

RF是由一系列樹型分類器{h（x，Θ）}k，其中k=1，…，組合成的分類器，其中Θk是獨(dú)立同分布隨機(jī)向量，且每棵樹對(duì)輸入向量x所屬的最受歡迎類投一票[6]。RF生成步驟如圖1所示：（1）從總訓(xùn)練樣本集D中用Bootstrap采樣選取k個(gè)子訓(xùn)練樣本集D1，D2，…，Dk，并預(yù)建k棵分類樹；（2）在分類樹的每個(gè)節(jié)點(diǎn)上隨機(jī)地從n個(gè)指標(biāo)中選取m個(gè)，選取最優(yōu)分割指標(biāo)進(jìn)行分割；（3）重復(fù)步驟（2）遍歷預(yù)建的k棵分類樹；（4）由k棵分類樹形成隨機(jī)森林。

Bootstrap隨機(jī)抽樣得到輸入訓(xùn)練集和節(jié)點(diǎn)隨機(jī)選取指標(biāo)進(jìn)行分割，使得RF對(duì)噪聲有很好的容忍性，且降低了分類樹之間的相關(guān)性。單棵樹不剪枝任意生長(zhǎng)的特點(diǎn)可獲得低偏差分類樹，且能夠保證對(duì)新測(cè)試數(shù)據(jù)分類的正確率。

RF的生成和單棵風(fēng)險(xiǎn)分類樹如圖1和圖2所示[7]。

2.3 線性回歸和隨機(jī)森林算法融合原理

本文使用的模型融合是加權(quán)平均法。首先，根據(jù)兩個(gè)模型的預(yù)測(cè)效果和模型得分，對(duì)其求權(quán)重；然后對(duì)兩個(gè)模型預(yù)測(cè)值求加權(quán)平均值為最終的預(yù)測(cè)結(jié)果。

其中，表示最終的預(yù)測(cè)結(jié)果，表示線性回歸模型的預(yù)測(cè)結(jié)果，表示線性回歸模型的預(yù)測(cè)結(jié)果，a表示求得的線性回歸模型的權(quán)重，b表示求得的隨機(jī)森林模型的權(quán)重。

2.4 模型評(píng)價(jià)標(biāo)準(zhǔn)

對(duì)于客流量的預(yù)測(cè)，我們更加關(guān)注的是所預(yù)測(cè)的客流量與實(shí)際客流量之間的誤差[8]，因此，本文采用均方根誤差RMLSE作為評(píng)價(jià)模型效果優(yōu)良的標(biāo)準(zhǔn)。

表示真實(shí)訪客數(shù)量，表示預(yù)測(cè)的訪客數(shù)量。

當(dāng)RMLSE越小時(shí)，表明誤差越小，模型效果越好。

3 模型數(shù)據(jù)分析（Data analysis of model）

3.1 數(shù)據(jù)預(yù)處理與特征工程

餐飲店客流量預(yù)測(cè)的數(shù)據(jù)來源與kaggle數(shù)據(jù)競(jìng)賽平臺(tái)Recruit Restaurantor Visitor Forecasting賽題中的數(shù)據(jù)。本文經(jīng)過數(shù)據(jù)清洗和預(yù)處理[10]后提取出對(duì)本次實(shí)驗(yàn)有用的328298條記，每條記錄12個(gè)字段，見表1。

預(yù)處理后的數(shù)據(jù)并不能滿足實(shí)驗(yàn)的要求，仍然有大量的潛在特征價(jià)值未被挖掘，此時(shí)需要進(jìn)行相應(yīng)的特征工程，本次實(shí)驗(yàn)對(duì)訪客數(shù)量做log處理、時(shí)序問題趨勢(shì)穩(wěn)定處理、關(guān)于顧客就餐是否為周末等時(shí)間問題處理等特征工程，充分挖掘了數(shù)據(jù)中隱藏的大量?jī)r(jià)值。特征處理后每條記錄62個(gè)字段，如表2。

3.2 模型構(gòu)建

在對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和特征工程之后，就可以輸入數(shù)據(jù)進(jìn)行模型訓(xùn)練，其中除表2中的visitors_log屬性外為輸入數(shù)據(jù)集的X，visitors_log屬性為標(biāo)簽輸入。模型輸入數(shù)據(jù)如表3所示。

表4為模型輸出的示例，以Logistic回歸作為預(yù)測(cè)模型。其中，Id表示店鋪的地址和該店鋪對(duì)應(yīng)的日期，visitors表示該店鋪在對(duì)應(yīng)日期訪客量的預(yù)測(cè)人數(shù)。

3.3 實(shí)驗(yàn)結(jié)果與分析

3.3.1 各模型預(yù)測(cè)值與真實(shí)值對(duì)比

為了便于觀察實(shí)驗(yàn)現(xiàn)象和分析實(shí)驗(yàn)結(jié)果，本文在數(shù)據(jù)規(guī)模一致且合理的情況下分別對(duì)線性回歸模型、隨機(jī)森林模型和兩個(gè)模型融合后預(yù)測(cè)的訪客量數(shù)與真實(shí)訪客量數(shù)進(jìn)行對(duì)比，并作圖分析。由圖3—圖5分析可得，線性回歸模型、隨機(jī)森林模型和融合后的模型在一定程度上三個(gè)模型的預(yù)測(cè)值和真實(shí)值是吻合的。分析可得，三個(gè)模型適用于本文實(shí)驗(yàn)，模型應(yīng)用合理。

3.3.2 不同數(shù)據(jù)集大小的情況下各模型誤差對(duì)比

分別取全部數(shù)據(jù)的20%、40%、60%和100%，分別訓(xùn)練以上三個(gè)模型，得出三個(gè)不同模型的錯(cuò)誤率，并作圖對(duì)比，如圖6所示。

其中，圖6圖例LR、RFR和Fusion model分別表示線性回歸模型、隨機(jī)森林模型和融合后的模型的錯(cuò)誤率。

3.3.3 實(shí)驗(yàn)結(jié)果分析

由圖3—圖5分析可得，線性回歸模型、隨機(jī)森林模型和融合后的模型在一定程度上三個(gè)模型的預(yù)測(cè)值和真實(shí)值是吻合的。分析可得，三個(gè)模型適用于本文實(shí)驗(yàn)，模型應(yīng)用合理。分析圖6，對(duì)于某一模型，隨著數(shù)據(jù)量不斷增加，模型預(yù)測(cè)預(yù)測(cè)訪客的錯(cuò)誤率不斷降低，模型效果不斷提高，并且當(dāng)數(shù)據(jù)量大到一定范圍時(shí)，模型預(yù)測(cè)訪客數(shù)量的錯(cuò)誤率下降趨緩；對(duì)比三個(gè)模型可得，在相同的數(shù)據(jù)規(guī)模下，融合后的模型預(yù)測(cè)訪客數(shù)量的錯(cuò)誤率明顯低于線性回歸模型和隨機(jī)森林模型。

4 結(jié)論（Conclusion）

本文介紹了線性回歸和隨機(jī)森林算法，以及兩個(gè)算法融合思路及原理，把數(shù)據(jù)挖掘技術(shù)運(yùn)用于餐飲行業(yè)，并通過實(shí)驗(yàn)證明兩個(gè)算法融合這一思路在餐飲行業(yè)預(yù)測(cè)餐廳某一時(shí)間段訪客數(shù)量的應(yīng)用是可行合理的，具有較大的社會(huì)價(jià)值，讓餐飲行業(yè)能更合理地做出方案和決策，這有利于顧客用餐體驗(yàn)，提高餐飲質(zhì)量，同時(shí)也可以讓餐飲行業(yè)經(jīng)營(yíng)更好，商家獲得更大的利潤(rùn)。本文線性回歸和隨機(jī)森林算法融合思想彌補(bǔ)了之前單模型研究的不足，降低餐廳訪客量預(yù)測(cè)的錯(cuò)誤率，模型效果更優(yōu)，使模型在餐飲行業(yè)使用范圍更廣，更容易泛化和推廣；在一定范圍內(nèi)，隨著訓(xùn)練數(shù)據(jù)規(guī)模增加，模型的效果不斷優(yōu)化。

參考文獻(xiàn)（References）

[1] 張晴，高廣銀，賈波.數(shù)據(jù)挖掘技術(shù)在超市營(yíng)銷系統(tǒng)中的應(yīng)用[J].軟件工程，2016，19（5）：35-38.

[2] 張慧，徐勇.數(shù)據(jù)挖掘中SVM模型與貝葉斯模型的比較分析——基于電信客戶的流失分析[J].平頂山學(xué)報(bào)，2016，31（2）：68-73.

[3] 冷建飛，高旭，朱嘉平.多元線性回歸統(tǒng)計(jì)預(yù)測(cè)模型的應(yīng)用[J].統(tǒng)計(jì)與決策，2016，16（7）：82-85.

[4] 王朋，呂寒，李若詩(shī).基于logisitic回歸的《中國(guó)好聲音》受眾行為分析[J].廣州大學(xué)學(xué)報(bào)，2013，12（11）：54-58.

[5] 李欣海.隨機(jī)森林模型在分類與回歸分析中的應(yīng)用[J].應(yīng)用昆蟲學(xué)報(bào)，2013，50（4）：1190-1197.

[6] Jonathan D W，Jennifer L I，Suzana J C.Coastal flooding by tropical cyclones and sea-level rise[J].Nature，2013，504（8）：44-52.

[7] 賴成光，陳曉宏，趙仕威，等.基于隨機(jī)森林的洪災(zāi)風(fēng)險(xiǎn)評(píng)價(jià)模型及其應(yīng)用[J].水利學(xué)報(bào)，2015，46（1）：58-66.

[8] 劉偉，徐鵬濤.O2O電商平臺(tái)在線點(diǎn)評(píng)有用性影響因素的識(shí)別研究——以餐飲行業(yè)O2O模式為例[J].中國(guó)管理科學(xué)，2016，24（5）：168-176.

[9] Dong L J，Li X B，Peng K.Prediction of rockburst classification using Random Forest[J].Transactions of Non-ferrous Metals Society of China，2013，23（2）：472-477.

[10] 李強(qiáng)，趙晨杰，羅先錄.基于大數(shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)架構(gòu)分析與設(shè)計(jì)[J].軟件工程，2018，21（5）：34-37.

作者簡(jiǎn)介：

楊森彬（1993-），男，碩士生.研究領(lǐng)域：數(shù)據(jù)挖掘，機(jī)器學(xué)習(xí)，文本挖掘.