999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

線性回歸和隨機(jī)森林算法融合在餐飲客流量的預(yù)測(cè)

2018-10-22 06:56:08楊森彬
軟件工程 2018年7期
關(guān)鍵詞:數(shù)據(jù)挖掘

摘 要:數(shù)據(jù)挖掘技術(shù)運(yùn)用于餐飲行業(yè)具有一定的社會(huì)價(jià)值,通過預(yù)測(cè)餐飲行業(yè)客流量,根據(jù)客流量多少餐廳合理為顧客準(zhǔn)備用餐,有利于提升顧客用餐體驗(yàn),提高餐飲質(zhì)量的同時(shí)讓餐飲行業(yè)更高效運(yùn)作。本文通過研究線性回歸算法與隨機(jī)森林算法理論,提出將線性回歸算法與隨機(jī)森林算法融合的思想,將其應(yīng)用在餐廳顧客回訪數(shù)量預(yù)測(cè),并通過實(shí)驗(yàn)證明該思路的合理性和可實(shí)施性。通過實(shí)驗(yàn)對(duì)比,算法融合思路比線性回歸算法準(zhǔn)確率提高了約3.004%,比隨機(jī)森林算法提高了約2.022%。比以往大部分研究取得更優(yōu)的預(yù)測(cè)效果,為數(shù)據(jù)挖掘技術(shù)在餐飲行業(yè)的應(yīng)用提供了新的思路。

關(guān)鍵詞:數(shù)據(jù)挖掘;線性回歸;隨機(jī)森林;算法融合;餐飲行業(yè)

中圖分類號(hào):TP312 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):2096-1472(2018)-07-24-04

1 引言(Introduction)

數(shù)據(jù)挖掘運(yùn)用相關(guān)的算法從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取正確的、有用的、未知的、綜合的,以及用戶感興趣的知識(shí),建立模型,用于決策支持的模型,提供預(yù)測(cè)性決策支持的方法、工具和過程[1]。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中的信息的過程。隨著互聯(lián)網(wǎng)時(shí)代的到來和數(shù)據(jù)大爆發(fā),數(shù)據(jù)挖掘技術(shù)普遍而且迫切地應(yīng)用于各個(gè)領(lǐng)域,比如金融、電信、保險(xiǎn)、醫(yī)療、餐飲等行業(yè)。它通過運(yùn)用整理、分析、總結(jié)、推理等方法對(duì)大量地?cái)?shù)據(jù)進(jìn)行處理,從而對(duì)實(shí)際問題進(jìn)行指導(dǎo)和分析,得出相關(guān)地預(yù)測(cè)結(jié)果,從而做出更加有利的決策[2]。

本文主要針對(duì)餐飲行業(yè)對(duì)餐廳客流量進(jìn)行預(yù)測(cè)。餐飲是我們?nèi)粘I畹闹匾徊糠郑瑫r(shí)也伴隨著巨大的行為數(shù)據(jù)產(chǎn)生。如果能更好地利用這些數(shù)據(jù),運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)進(jìn)行分析、預(yù)測(cè),讓餐飲行業(yè)能更合理地做出方案和決策,這有利于顧客用餐體驗(yàn),提高餐飲質(zhì)量,同時(shí)也可以讓餐飲行業(yè)經(jīng)營(yíng)更好,商家獲得更大的利潤(rùn)。筆者查閱相關(guān)資料得知,數(shù)據(jù)挖掘在餐飲領(lǐng)域運(yùn)用的普遍性還有待提高,數(shù)據(jù)挖掘運(yùn)用在餐飲行業(yè)的相關(guān)技術(shù)還有待提高。如以往有不少人研究的線性回歸模型或隨機(jī)森林模型運(yùn)用在餐飲行業(yè)仍然存在準(zhǔn)確性不夠的不足。本文針對(duì)這一不足提出了一個(gè)新的解決方法,整合兩個(gè)模型的優(yōu)點(diǎn),避開它們的缺點(diǎn),融合成一個(gè)新的模型,提高數(shù)據(jù)挖掘技術(shù)在餐飲行業(yè)應(yīng)用的水平。

本文通過介紹線性回歸和隨機(jī)森林兩種模型,運(yùn)用數(shù)據(jù)挖掘工具對(duì)餐飲行業(yè)大量數(shù)據(jù)進(jìn)行分析預(yù)測(cè),對(duì)比線性回歸、隨機(jī)森林和兩個(gè)模型融合后的新模型之間的預(yù)測(cè)結(jié)果,通過對(duì)比結(jié)果數(shù)據(jù),從而得出合理的論斷,融合后的模型在餐飲行業(yè)客流量預(yù)測(cè)中的效果更好,準(zhǔn)確性更高。

2 算法介紹(Algorithm introduction)

2.1 線性回歸模型簡(jiǎn)介[3,4]

對(duì)于,其中n組結(jié)果值為取值為0或1的隨機(jī)變量,滿足與的關(guān)系為:

選取的估值,使式(6)達(dá)到最大值。

2.2 隨機(jī)森林算法簡(jiǎn)介

隨機(jī)森林(random forest)是一種基于分類樹(classification tree)的算法(Breiman,2001)。這個(gè)算法需要模擬和迭代,被歸類為機(jī)器學(xué)習(xí)中的一種方法。經(jīng)典的機(jī)器學(xué)習(xí)模型是神經(jīng)網(wǎng)絡(luò)(Hopfield,1982),有半個(gè)多世紀(jì)的歷史了。神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)精確,但是計(jì)算量很大。20世紀(jì)80年代Breiman等人(1984)發(fā)明了分類和回歸樹(Classification And Regression Tree,簡(jiǎn)稱CART)的算法,通過反復(fù)二分?jǐn)?shù)據(jù)進(jìn)行分類或回歸,計(jì)算量大大降低[5]。

RF是由一系列樹型分類器{h(x,Θ)}k,其中k=1,…,組合成的分類器,其中Θk是獨(dú)立同分布隨機(jī)向量,且每棵樹對(duì)輸入向量x所屬的最受歡迎類投一票[6]。RF生成步驟如圖1所示:(1)從總訓(xùn)練樣本集D中用Bootstrap采樣選取k個(gè)子訓(xùn)練樣本集D1,D2,…,Dk,并預(yù)建k棵分類樹;(2)在分類樹的每個(gè)節(jié)點(diǎn)上隨機(jī)地從n個(gè)指標(biāo)中選取m個(gè),選取最優(yōu)分割指標(biāo)進(jìn)行分割;(3)重復(fù)步驟(2)遍歷預(yù)建的k棵分類樹;(4)由k棵分類樹形成隨機(jī)森林。

Bootstrap隨機(jī)抽樣得到輸入訓(xùn)練集和節(jié)點(diǎn)隨機(jī)選取指標(biāo)進(jìn)行分割,使得RF對(duì)噪聲有很好的容忍性,且降低了分類樹之間的相關(guān)性。單棵樹不剪枝任意生長(zhǎng)的特點(diǎn)可獲得低偏差分類樹,且能夠保證對(duì)新測(cè)試數(shù)據(jù)分類的正確率。

RF的生成和單棵風(fēng)險(xiǎn)分類樹如圖1和圖2所示[7]。

2.3 線性回歸和隨機(jī)森林算法融合原理

本文使用的模型融合是加權(quán)平均法。首先,根據(jù)兩個(gè)模型的預(yù)測(cè)效果和模型得分,對(duì)其求權(quán)重;然后對(duì)兩個(gè)模型預(yù)測(cè)值求加權(quán)平均值為最終的預(yù)測(cè)結(jié)果。

其中,表示最終的預(yù)測(cè)結(jié)果,表示線性回歸模型的預(yù)測(cè)結(jié)果,表示線性回歸模型的預(yù)測(cè)結(jié)果,a表示求得的線性回歸模型的權(quán)重,b表示求得的隨機(jī)森林模型的權(quán)重。

2.4 模型評(píng)價(jià)標(biāo)準(zhǔn)

對(duì)于客流量的預(yù)測(cè),我們更加關(guān)注的是所預(yù)測(cè)的客流量與實(shí)際客流量之間的誤差[8],因此,本文采用均方根誤差RMLSE作為評(píng)價(jià)模型效果優(yōu)良的標(biāo)準(zhǔn)。

表示真實(shí)訪客數(shù)量,表示預(yù)測(cè)的訪客數(shù)量。

當(dāng)RMLSE越小時(shí),表明誤差越小,模型效果越好。

3 模型數(shù)據(jù)分析(Data analysis of model)

3.1 數(shù)據(jù)預(yù)處理與特征工程

餐飲店客流量預(yù)測(cè)的數(shù)據(jù)來源與kaggle數(shù)據(jù)競(jìng)賽平臺(tái)Recruit Restaurantor Visitor Forecasting賽題中的數(shù)據(jù)。本文經(jīng)過數(shù)據(jù)清洗和預(yù)處理[10]后提取出對(duì)本次實(shí)驗(yàn)有用的328298條記,每條記錄12個(gè)字段,見表1。

預(yù)處理后的數(shù)據(jù)并不能滿足實(shí)驗(yàn)的要求,仍然有大量的潛在特征價(jià)值未被挖掘,此時(shí)需要進(jìn)行相應(yīng)的特征工程,本次實(shí)驗(yàn)對(duì)訪客數(shù)量做log處理、時(shí)序問題趨勢(shì)穩(wěn)定處理、關(guān)于顧客就餐是否為周末等時(shí)間問題處理等特征工程,充分挖掘了數(shù)據(jù)中隱藏的大量?jī)r(jià)值。特征處理后每條記錄62個(gè)字段,如表2。

3.2 模型構(gòu)建

在對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和特征工程之后,就可以輸入數(shù)據(jù)進(jìn)行模型訓(xùn)練,其中除表2中的visitors_log屬性外為輸入數(shù)據(jù)集的X,visitors_log屬性為標(biāo)簽輸入。模型輸入數(shù)據(jù)如表3所示。

表4為模型輸出的示例,以Logistic回歸作為預(yù)測(cè)模型。其中,Id表示店鋪的地址和該店鋪對(duì)應(yīng)的日期,visitors表示該店鋪在對(duì)應(yīng)日期訪客量的預(yù)測(cè)人數(shù)。

3.3 實(shí)驗(yàn)結(jié)果與分析

3.3.1 各模型預(yù)測(cè)值與真實(shí)值對(duì)比

為了便于觀察實(shí)驗(yàn)現(xiàn)象和分析實(shí)驗(yàn)結(jié)果,本文在數(shù)據(jù)規(guī)模一致且合理的情況下分別對(duì)線性回歸模型、隨機(jī)森林模型和兩個(gè)模型融合后預(yù)測(cè)的訪客量數(shù)與真實(shí)訪客量數(shù)進(jìn)行對(duì)比,并作圖分析。由圖3—圖5分析可得,線性回歸模型、隨機(jī)森林模型和融合后的模型在一定程度上三個(gè)模型的預(yù)測(cè)值和真實(shí)值是吻合的。分析可得,三個(gè)模型適用于本文實(shí)驗(yàn),模型應(yīng)用合理。

3.3.2 不同數(shù)據(jù)集大小的情況下各模型誤差對(duì)比

分別取全部數(shù)據(jù)的20%、40%、60%和100%,分別訓(xùn)練以上三個(gè)模型,得出三個(gè)不同模型的錯(cuò)誤率,并作圖對(duì)比,如圖6所示。

其中,圖6圖例LR、RFR和Fusion model分別表示線性回歸模型、隨機(jī)森林模型和融合后的模型的錯(cuò)誤率。

3.3.3 實(shí)驗(yàn)結(jié)果分析

由圖3—圖5分析可得,線性回歸模型、隨機(jī)森林模型和融合后的模型在一定程度上三個(gè)模型的預(yù)測(cè)值和真實(shí)值是吻合的。分析可得,三個(gè)模型適用于本文實(shí)驗(yàn),模型應(yīng)用合理。分析圖6,對(duì)于某一模型,隨著數(shù)據(jù)量不斷增加,模型預(yù)測(cè)預(yù)測(cè)訪客的錯(cuò)誤率不斷降低,模型效果不斷提高,并且當(dāng)數(shù)據(jù)量大到一定范圍時(shí),模型預(yù)測(cè)訪客數(shù)量的錯(cuò)誤率下降趨緩;對(duì)比三個(gè)模型可得,在相同的數(shù)據(jù)規(guī)模下,融合后的模型預(yù)測(cè)訪客數(shù)量的錯(cuò)誤率明顯低于線性回歸模型和隨機(jī)森林模型。

4 結(jié)論(Conclusion)

本文介紹了線性回歸和隨機(jī)森林算法,以及兩個(gè)算法融合思路及原理,把數(shù)據(jù)挖掘技術(shù)運(yùn)用于餐飲行業(yè),并通過實(shí)驗(yàn)證明兩個(gè)算法融合這一思路在餐飲行業(yè)預(yù)測(cè)餐廳某一時(shí)間段訪客數(shù)量的應(yīng)用是可行合理的,具有較大的社會(huì)價(jià)值,讓餐飲行業(yè)能更合理地做出方案和決策,這有利于顧客用餐體驗(yàn),提高餐飲質(zhì)量,同時(shí)也可以讓餐飲行業(yè)經(jīng)營(yíng)更好,商家獲得更大的利潤(rùn)。本文線性回歸和隨機(jī)森林算法融合思想彌補(bǔ)了之前單模型研究的不足,降低餐廳訪客量預(yù)測(cè)的錯(cuò)誤率,模型效果更優(yōu),使模型在餐飲行業(yè)使用范圍更廣,更容易泛化和推廣;在一定范圍內(nèi),隨著訓(xùn)練數(shù)據(jù)規(guī)模增加,模型的效果不斷優(yōu)化。

參考文獻(xiàn)(References)

[1] 張晴,高廣銀,賈波.數(shù)據(jù)挖掘技術(shù)在超市營(yíng)銷系統(tǒng)中的應(yīng)用[J].軟件工程,2016,19(5):35-38.

[2] 張慧,徐勇.數(shù)據(jù)挖掘中SVM模型與貝葉斯模型的比較分析——基于電信客戶的流失分析[J].平頂山學(xué)報(bào),2016,31(2):68-73.

[3] 冷建飛,高旭,朱嘉平.多元線性回歸統(tǒng)計(jì)預(yù)測(cè)模型的應(yīng)用[J].統(tǒng)計(jì)與決策,2016,16(7):82-85.

[4] 王朋,呂寒,李若詩(shī).基于logisitic回歸的《中國(guó)好聲音》受眾行為分析[J].廣州大學(xué)學(xué)報(bào),2013,12(11):54-58.

[5] 李欣海.隨機(jī)森林模型在分類與回歸分析中的應(yīng)用[J].應(yīng)用昆蟲學(xué)報(bào),2013,50(4):1190-1197.

[6] Jonathan D W,Jennifer L I,Suzana J C.Coastal flooding by tropical cyclones and sea-level rise[J].Nature,2013,504(8):44-52.

[7] 賴成光,陳曉宏,趙仕威,等.基于隨機(jī)森林的洪災(zāi)風(fēng)險(xiǎn)評(píng)價(jià)模型及其應(yīng)用[J].水利學(xué)報(bào),2015,46(1):58-66.

[8] 劉偉,徐鵬濤.O2O電商平臺(tái)在線點(diǎn)評(píng)有用性影響因素的識(shí)別研究——以餐飲行業(yè)O2O模式為例[J].中國(guó)管理科學(xué),2016,24(5):168-176.

[9] Dong L J,Li X B,Peng K.Prediction of rockburst classification using Random Forest[J].Transactions of Non-ferrous Metals Society of China,2013,23(2):472-477.

[10] 李強(qiáng),趙晨杰,羅先錄.基于大數(shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)架構(gòu)分析與設(shè)計(jì)[J].軟件工程,2018,21(5):34-37.

作者簡(jiǎn)介:

楊森彬(1993-),男,碩士生.研究領(lǐng)域:數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),文本挖掘.

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
主站蜘蛛池模板: 国产精品熟女亚洲AV麻豆| 热99re99首页精品亚洲五月天| 亚洲欧美另类视频| 在线观看网站国产| 久久精品中文字幕少妇| 亚洲一级毛片免费看| 国产精品99一区不卡| 网久久综合| 色老头综合网| 四虎国产在线观看| 国产免费怡红院视频| 成人福利在线视频| 尤物在线观看乱码| 亚洲国产综合精品中文第一| 中字无码av在线电影| 尤物成AV人片在线观看| 亚洲成av人无码综合在线观看| 国产乱子伦视频在线播放| 欧美日韩中文国产va另类| 情侣午夜国产在线一区无码| 鲁鲁鲁爽爽爽在线视频观看| 久久熟女AV| 亚洲日韩国产精品无码专区| 国产黄在线免费观看| 人妻无码一区二区视频| 综1合AV在线播放| 国产欧美视频一区二区三区| 国产99免费视频| 久久久久久尹人网香蕉| 国产成人a毛片在线| 国产成人乱码一区二区三区在线| 99无码中文字幕视频| 蜜臀AV在线播放| 啊嗯不日本网站| 亚洲精品自产拍在线观看APP| 国产无码精品在线| 国产精品不卡永久免费| 四虎永久在线精品影院| 欧美三级自拍| 欧美精品二区| 久久婷婷综合色一区二区| 精品一区二区三区水蜜桃| 亚洲第一av网站| 久久精品人人做人人| 国产欧美在线观看一区| 国产va在线观看| 99re精彩视频| 久久精品国产精品国产一区| 一级毛片免费观看久| 高清码无在线看| 国产女人喷水视频| 国产v欧美v日韩v综合精品| 亚洲第一综合天堂另类专| 亚洲色图欧美| 凹凸国产熟女精品视频| 亚洲狼网站狼狼鲁亚洲下载| 欧美国产日韩在线| 国产高清不卡| 香蕉色综合| 91福利在线观看视频| 91欧美亚洲国产五月天| 亚洲天堂在线免费| 99视频在线精品免费观看6| 国产在线视频福利资源站| 国产精品无码翘臀在线看纯欲| 国产成人久视频免费| 黄色网页在线播放| 亚洲日韩欧美在线观看| 蜜芽国产尤物av尤物在线看| 亚洲天堂免费| 九九九精品视频| 国产在线一区视频| 日本高清有码人妻| 亚洲性日韩精品一区二区| 日韩欧美高清视频| 99这里只有精品在线| 中国精品久久| 99r在线精品视频在线播放| a毛片在线播放| 亚洲精品国产精品乱码不卞| 999福利激情视频| 精品国产一区91在线|