999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Stacking集成學(xué)習(xí)方法在銷售預(yù)測(cè)中的應(yīng)用

2020-09-02 01:22:20李昌剛
關(guān)鍵詞:銷售特征模型

王 輝 李昌剛

(浙江萬(wàn)里學(xué)院信息與智能學(xué)院 浙江 寧波 315000)

0 引 言

大數(shù)據(jù)與機(jī)器學(xué)習(xí)的結(jié)合為當(dāng)今社會(huì)帶來(lái)的巨大的變革,從每天2 500萬(wàn)人次足不出戶地在餓了么平臺(tái)上找到自己喜歡的餐廳和食物,到亞馬遜在客戶服務(wù)中運(yùn)用大數(shù)據(jù)精準(zhǔn)預(yù)測(cè)出客戶的需求來(lái)建立高效的物流運(yùn)轉(zhuǎn)體系,都顯現(xiàn)著變革帶來(lái)的數(shù)字化趨勢(shì)的威力。機(jī)器學(xué)習(xí)技術(shù)基于強(qiáng)大的計(jì)算平臺(tái)給各行業(yè),特別是零售行業(yè)帶來(lái)了成本的降低和效益的增長(zhǎng)。大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng),必然會(huì)使傳統(tǒng)零售向人工智能互聯(lián)網(wǎng)時(shí)代的新零售過(guò)渡,零售業(yè)在實(shí)體經(jīng)濟(jì)中的權(quán)重地位也必然會(huì)獲得大幅增強(qiáng)。

銷售預(yù)測(cè)在零售行業(yè)中有著舉足輕重的地位,準(zhǔn)確的銷售預(yù)測(cè)結(jié)果不僅能夠讓管理者合理安排訂貨時(shí)間和庫(kù)存,減少安全庫(kù)存成本和缺貨損失,還能夠支持高層管理者在指定戰(zhàn)略發(fā)展目標(biāo)的可靠性。由于數(shù)據(jù)存儲(chǔ)技術(shù)的發(fā)展,企業(yè)存儲(chǔ)了大量的數(shù)據(jù)來(lái)支持企業(yè)的運(yùn)營(yíng)決策,在一些數(shù)據(jù)量大,數(shù)據(jù)結(jié)構(gòu)多樣的銷售預(yù)測(cè)場(chǎng)景下,傳統(tǒng)的統(tǒng)計(jì)學(xué)方法[1]可能無(wú)法取得精準(zhǔn)的預(yù)測(cè)結(jié)果,因此國(guó)內(nèi)外學(xué)者對(duì)機(jī)器學(xué)習(xí)技術(shù)在銷售預(yù)測(cè)中的應(yīng)用進(jìn)行了大量的研究。

Grasman等[2]使用Bass模型和銷售的數(shù)據(jù),為未來(lái)銷售進(jìn)行了點(diǎn)估計(jì),并假設(shè)噪音的大小與年銷售額成正比,利用時(shí)間依賴的Ornstein-Uhlenbeck過(guò)程的形式,給出了誤差的置信區(qū)間。姜曉紅等[3]以某電商平臺(tái)數(shù)據(jù)為例,運(yùn)用時(shí)間序列法ARIMA模型預(yù)測(cè)各種商品在未來(lái)一周全國(guó)和區(qū)域性需求量,并與簡(jiǎn)單移動(dòng)平均法預(yù)測(cè)結(jié)果做對(duì)比,發(fā)現(xiàn)ARIMA模型有更高的精準(zhǔn)度。Loureiro等[4]通過(guò)深度學(xué)習(xí)方法獲得的銷售預(yù)測(cè)與決策樹(shù)、隨機(jī)森林、支持向量回歸、人工神經(jīng)網(wǎng)絡(luò)和線性回歸獲得的銷售預(yù)測(cè)進(jìn)行比較,發(fā)現(xiàn)采用深度學(xué)習(xí)的模型在預(yù)測(cè)時(shí)尚零售市場(chǎng)的銷售方面具有良好的性能。Duan等[5]將支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)與K-最近鄰算法在預(yù)測(cè)手機(jī)銷售前景的準(zhǔn)確性上進(jìn)行了比較,發(fā)現(xiàn)在小樣本的前提下,支持向量機(jī)能更好地預(yù)測(cè)出各類手機(jī)的銷量。

基于機(jī)器學(xué)習(xí)的銷售預(yù)測(cè)的另一種方式是使用自然語(yǔ)言處理(NLP)工具,使計(jì)算機(jī)能夠識(shí)別潛在消費(fèi)者的語(yǔ)音和電子郵件中的關(guān)鍵詞,以預(yù)測(cè)這些消費(fèi)者將購(gòu)買的可能性。Fan等[6]為了產(chǎn)品銷售預(yù)測(cè),開(kāi)發(fā)了一種結(jié)合Bass/Norton模型和情感分析同時(shí)使用歷史銷售數(shù)據(jù)和在線評(píng)論數(shù)據(jù)的新方法。利用Naive Bayes算法的情感分析方法,從每個(gè)在線評(píng)論的內(nèi)容中提取情感指標(biāo),并將其整合到Bass/Norton模型的仿制系數(shù)中,以提高預(yù)測(cè)精度,并收集了真實(shí)的汽車行業(yè)數(shù)據(jù)和相關(guān)的在線評(píng)論對(duì)模型進(jìn)行驗(yàn)證。

由于機(jī)器學(xué)習(xí)算法在應(yīng)用的過(guò)程中通常需要調(diào)整算法中的超參數(shù),因此有些學(xué)者對(duì)算法進(jìn)行了優(yōu)化。黃鴻云等[7]基于改進(jìn)的多維灰色模型(Gm(1,N))和神經(jīng)網(wǎng)絡(luò)(ANN)來(lái)預(yù)測(cè)銷量,其中多維灰色模型對(duì)銷售數(shù)據(jù)建模,神經(jīng)網(wǎng)絡(luò)對(duì)誤差進(jìn)行校正。利用阿里天貓銷售數(shù)據(jù)來(lái)評(píng)估混合模型的表現(xiàn),實(shí)驗(yàn)結(jié)果表明,該模型的預(yù)測(cè)結(jié)果優(yōu)于其他幾種銷售預(yù)測(cè)模型。張文雅等[8]通過(guò)網(wǎng)格搜索優(yōu)化了支持向量機(jī)的超參數(shù),并用汽車銷售數(shù)據(jù)來(lái)對(duì)優(yōu)化后的算法進(jìn)行了驗(yàn)證,發(fā)現(xiàn)優(yōu)化后的算法擁有更好的預(yù)測(cè)性能。王錦等[9]利用遺傳算法能夠全局尋優(yōu)的特點(diǎn),將BP神經(jīng)網(wǎng)絡(luò)各隱層的權(quán)值和閾值進(jìn)行了遺傳優(yōu)化,結(jié)果表明,模型的穩(wěn)定性和收斂速度得到了顯著的提高。羅嗣卿等[10]通過(guò)DBSCAN算法解決了K-means算法對(duì)噪聲數(shù)據(jù)敏感的問(wèn)題,并結(jié)合ARIMA模型以藍(lán)莓干銷售數(shù)據(jù)驗(yàn)證了改進(jìn)后的算法的精確性。

雖然通過(guò)優(yōu)化算法的超參數(shù)或者結(jié)合幾種算法能在銷售預(yù)測(cè)問(wèn)題上取得比未改進(jìn)的單一模型更高的精準(zhǔn)度,但是當(dāng)銷售數(shù)據(jù)的屬性以及異常值很多時(shí),單一模型在樣本外的數(shù)據(jù)中往往不能帶來(lái)更好的效果。因此,有學(xué)者采取組合的方式來(lái)將模型結(jié)合起來(lái)或者通過(guò)集成策略來(lái)達(dá)到更好的預(yù)測(cè)性能,例如Timmermann[11]發(fā)現(xiàn)預(yù)測(cè)的線性組合可能會(huì)改善其每個(gè)貢獻(xiàn)者。常曉花[12]通過(guò)使用boosting集成策略下的隨機(jī)森林算法對(duì)醫(yī)療器械進(jìn)行了銷售預(yù)測(cè),發(fā)現(xiàn)采取boosting集成策略的隨機(jī)森林模型比未采取集成策略的預(yù)測(cè)模型減少了12%的誤差。不過(guò)組合模型的缺陷是各單一模型使用的訓(xùn)練數(shù)據(jù)集仍然是相同的,采用數(shù)值上的線性組合并不能真正帶來(lái)模型在泛化能力上的提高,各模型不能在算法層面上優(yōu)勢(shì)互補(bǔ),而且組合預(yù)測(cè)的理論支撐不夠,不能讓使用者信服,而單一的隨機(jī)森林算法或者xgboost[13]算法屬于同質(zhì)集成,在樣本外的泛化能力仍然需要改進(jìn)。

為解決單模型或者同質(zhì)集成模型在大樣本銷售預(yù)測(cè)中泛化能力不強(qiáng)的特點(diǎn),考慮使用Stacking集成策略[14],將同質(zhì)集成算法方法XGBoost、Randomforest與其他算法結(jié)合,構(gòu)建兩層Stacking集成學(xué)習(xí)模型進(jìn)行銷售預(yù)測(cè),并使用德國(guó)Rooseman超市的銷售數(shù)據(jù)對(duì)算法進(jìn)行了驗(yàn)證。結(jié)果表明,Stacing集成策略能結(jié)合不同機(jī)器學(xué)習(xí)算法的優(yōu)勢(shì)提升模型的預(yù)測(cè)性能,相比單個(gè)模型,Stacking模型有著更高的精度和泛化能力。

1 算法理論

1.1 Stacking集成學(xué)習(xí)方法

在Stacking集成學(xué)習(xí)方法中,整個(gè)歷史數(shù)據(jù)集劃分為若干個(gè)子數(shù)據(jù)集,子數(shù)據(jù)集劃分為訓(xùn)練集和驗(yàn)證集,由基學(xué)習(xí)器擬合訓(xùn)練集中的數(shù)據(jù)來(lái)產(chǎn)生底層模型,并用模型在驗(yàn)證集上產(chǎn)生的預(yù)測(cè)值作為第二層的輸入。這樣,高層的學(xué)習(xí)器能夠進(jìn)一步對(duì)模型進(jìn)行泛化增強(qiáng),這是Stacking方法總能夠在測(cè)試集上取得很好的預(yù)測(cè)性能的原因。區(qū)別于隨機(jī)森林中的Bagging策略,Stacking模型利用的是算法層面上的優(yōu)勢(shì)結(jié)合,因此Stacking集成策略可以看作是異質(zhì)集成。這意味了底層學(xué)習(xí)器需要保持差異性,否則Stacking集成策略依然是變相的Bagging策略。基本的兩層Stacking算法流程如算法1所示。

算法1Stacking算法

輸入:

訓(xùn)練集:S1={(x1,y1),(x2,y2),…,(xm,ym)}

保留集:Shold-out={(x1,y1),(x2,y2),…,(xl,yl)}

測(cè)試集:S2={(x1,y1),(x2,y2),…,(xm,ym)}

基學(xué)習(xí)器:ζ1,ζ2,…,ζl

元學(xué)習(xí)器:ζmeta

Step1fori=1,2,…,l

doζi·fit(xi,yi)

//生成l個(gè)基學(xué)習(xí)器

end

Step2fori=1,2,…,l

//生成l個(gè)保留集上的預(yù)測(cè)向量

doHi=ξipredictS2

//生成l個(gè)測(cè)試集上的預(yù)測(cè)向量

end

//生成用于元學(xué)習(xí)器的訓(xùn)練集

//生成用于元學(xué)習(xí)器的測(cè)試集

ξmetafitP

Step4ξmetapredict

輸出:生成測(cè)試集上的預(yù)測(cè)值

由于Stacking模型使用基學(xué)習(xí)器在第一層產(chǎn)生的預(yù)測(cè)值作為第二層的輸入,這意味著基學(xué)習(xí)器與元學(xué)習(xí)器所使用的訓(xùn)練數(shù)據(jù)必須不同,否則數(shù)據(jù)會(huì)被過(guò)度學(xué)習(xí),導(dǎo)致模型的過(guò)擬合。因此在分割原始數(shù)據(jù)集時(shí),要保證每份數(shù)據(jù)都有訓(xùn)練集和保留集,用基學(xué)習(xí)器在保留集上的預(yù)測(cè)數(shù)據(jù)作為第二層的訓(xùn)練數(shù)據(jù);在分割時(shí)間序列數(shù)據(jù)時(shí),要保持?jǐn)?shù)據(jù)的同分布,不能簡(jiǎn)單地以時(shí)間線來(lái)分割數(shù)據(jù)集。這些工作會(huì)讓模型擁有更好的性能和泛化能力。

1.2 兩層Stacking集成模型

集成學(xué)習(xí)(Ensemble learning)指的是基于多個(gè)算法,通過(guò)不同的方式來(lái)組成新的學(xué)習(xí)方法,對(duì)于單個(gè)預(yù)測(cè)模型來(lái)說(shuō),集成學(xué)習(xí)模型能夠獲得更加優(yōu)越的預(yù)測(cè)性能,模型準(zhǔn)確率呈現(xiàn)邊際效用遞減的趨勢(shì)。在Stacking集成學(xué)習(xí)模型中,基學(xué)習(xí)器的差異性越高,模型性能越好,因此在建模之前,不僅要分析各基學(xué)習(xí)器的預(yù)測(cè)效果,也要分析基學(xué)習(xí)器之間的差異。

家長(zhǎng)作為孩子的第一任老師,必須要積極發(fā)揮教育作用,轉(zhuǎn)變傳統(tǒng)的家庭觀念,與孩子保持密切的溝通和交流,做到精心呵護(hù)和全面關(guān)懷,不僅關(guān)心子女的生活和學(xué)習(xí)方面,也要著重關(guān)心子女的思想情感和心理健康等方面,重視孩子的健康成長(zhǎng)。家庭教育會(huì)伴隨孩子的一生,應(yīng)增加家庭教育指導(dǎo),增強(qiáng)家長(zhǎng)的責(zé)任意識(shí),提高他們的監(jiān)護(hù)能力。要給孩子提供更多的鍛煉機(jī)會(huì),發(fā)揮其聰明才智,不能凡事都包辦,以免打消孩子的積極性。還要正確評(píng)價(jià)孩子,以正面教育為主,出現(xiàn)錯(cuò)誤不要一味批評(píng),做到具體問(wèn)題具體分析,產(chǎn)生“潤(rùn)物細(xì)無(wú)聲”的教育效果。

本文選擇隨機(jī)森林模型、線性回歸模型、KNN模型以及XGBoost模型作為第一層的基學(xué)習(xí)器。其中,隨機(jī)森林模型和XGBoost模型基于決策樹(shù)模型分別使用Bagging和Boosting的集成學(xué)習(xí)方式,在實(shí)踐應(yīng)用中取得了較好的效果。KNN模型因?yàn)槠淅碚摮墒臁⒂?xùn)練方式高效等特點(diǎn)也有著廣泛的應(yīng)用,而加入線性回歸模型是為了保持各算法之間的差異性,使得模型能夠獲得更好的預(yù)測(cè)性能。由于第二層的元學(xué)習(xí)器既要能夠糾正各算法的偏差,也要能夠保持較高的泛化能力來(lái)防止過(guò)擬合,因此選擇XGBoost算法來(lái)作為元學(xué)習(xí)器。Stacking模型的總體架構(gòu)如圖1所示。

圖1 Stacking模型框架

對(duì)于集成策略來(lái)說(shuō),集成模型需要從不同的數(shù)據(jù)空間和數(shù)據(jù)結(jié)構(gòu)角度來(lái)觀察預(yù)測(cè)數(shù)據(jù),再依據(jù)觀察結(jié)果以及模型自身的特點(diǎn)來(lái)從本質(zhì)上改善模型的預(yù)測(cè)性能。因此,需要考察各基學(xué)習(xí)器在保留集上的預(yù)測(cè)誤差的相關(guān)性。本文采用Pearson相關(guān)系數(shù)對(duì)各個(gè)模型的誤差差異度進(jìn)行計(jì)算,以衡量不同基學(xué)習(xí)器的關(guān)聯(lián)程度,其計(jì)算公式為:

(1)

為了不讓Stacking模型過(guò)擬合,必須為每個(gè)子學(xué)習(xí)器安排不同的訓(xùn)練集和測(cè)試集,這是因?yàn)樵獙W(xué)習(xí)器的訓(xùn)練集是基學(xué)習(xí)器的輸出,如果直接用基學(xué)習(xí)器的訓(xùn)練集結(jié)果來(lái)擬合元學(xué)習(xí)器,會(huì)導(dǎo)致學(xué)習(xí)器對(duì)數(shù)據(jù)的重復(fù)學(xué)習(xí)。因此,本文按照日期將數(shù)據(jù)分為四塊,再將每塊中的數(shù)據(jù)分成四份,從四份中隨機(jī)抽取一份,按塊順序結(jié)合并形成新的四塊數(shù)據(jù),以保證數(shù)據(jù)的相同分布;在新的數(shù)據(jù)塊中將數(shù)據(jù)分為三份訓(xùn)練和一份驗(yàn)證集,元模型用驗(yàn)證集的來(lái)產(chǎn)生第二層的訓(xùn)練集。這樣不僅保證了數(shù)據(jù)不會(huì)被重復(fù)學(xué)習(xí),也保證了各基學(xué)習(xí)器所使用的數(shù)據(jù)是同分布的。

另外,在構(gòu)建模型的輸入數(shù)據(jù)時(shí),需要考察各特征之間的相關(guān)性和特征的重要程度。本文先對(duì)數(shù)據(jù)進(jìn)行了預(yù)處理,再通過(guò)計(jì)算各特征之間的Pearson相關(guān)系數(shù)來(lái)挑選出相對(duì)獨(dú)立的特征。由于Random forest和XGBoost算法可以計(jì)算各樹(shù)的增益情況來(lái)評(píng)估各特征的評(píng)分,所以在完成第一次的模型訓(xùn)練后,查看模型輸出的特征評(píng)分,從而刪除冗余特征,使得模型能夠取得更好的性能。

2 實(shí)證分析

實(shí)驗(yàn)使用了德國(guó)Rossman日用品超市在Kaggle平臺(tái)上所提供的數(shù)據(jù),其中包含了1 115家商店在2013年1月1日到2015年7月31日所產(chǎn)生的1 017 210條數(shù)據(jù)以及1 115條商店信息數(shù)據(jù),銷售數(shù)據(jù)和店鋪數(shù)據(jù)的變量及含義如表1和表2所示。目標(biāo)是2015年8月1日到2015年9月17日各商店的銷售值。實(shí)驗(yàn)在Google的Colab云平臺(tái)與Python 3.7環(huán)境下完成,預(yù)測(cè)評(píng)價(jià)指標(biāo)采用均方根百分誤差(Root Mean Square Percentage Error,RMSPE),其計(jì)算公式為:

(2)

表1 銷售數(shù)據(jù)信息的變量名及其含義

表2 店鋪數(shù)據(jù)信息的變量名及其含義

2.1 特征相關(guān)性及重要性分析

將銷售值包含在內(nèi),實(shí)驗(yàn)數(shù)據(jù)一共有18個(gè)特征,涵蓋了促銷、競(jìng)爭(zhēng)對(duì)手、節(jié)假日、商店、商品、顧客等信息。本文將日期分解為年、月、日,將商店類型、商品類型、假日類型采用實(shí)數(shù)或者獨(dú)熱(one-hot)編碼來(lái)進(jìn)行處理。在經(jīng)過(guò)數(shù)據(jù)預(yù)處理后,對(duì)19個(gè)特征進(jìn)行相關(guān)性分析,其結(jié)果如圖2所示。

圖2 特征相關(guān)性分析

可以看出,Promo2SinceYear與Promo2、WeekOfYear與Month的相關(guān)度很高。這是因?yàn)镻romo2SinceYear是根據(jù)Promo2的時(shí)間來(lái)計(jì)算的,而WeekOfYear和Month是通過(guò)日期分解得到的。其他特征之間的相關(guān)性都不高,因此可以采用這些特征向量來(lái)作為輸入。以銷售值為目標(biāo)變量,使用Random forest以及XGBoost算法進(jìn)行建模,建模完成后,模型輸出的各特征的評(píng)分排序結(jié)果如圖3所示。

(a) XGBoost模型特征重要性排序

(b) Random forest模型特征重要性排序圖3 特征重要性分析

可以看出,在XGBoost算法中,各特征的差異比較明顯,模型能夠?yàn)槊總€(gè)特征分配更好的權(quán)重,而Random forest中除了促銷特征重要性最高外,其他特征重要性差異不明顯。這也是XGBoost模型比Random forest模型取得更好預(yù)測(cè)性能的原因。除此之外,兩個(gè)模型輸出的前五名特征中,競(jìng)爭(zhēng)對(duì)手、促銷以及商店都囊括在內(nèi),這也證明了此次實(shí)驗(yàn)中特征選取的有效性。

2.2 基于隨機(jī)搜索的超參數(shù)優(yōu)化

由于模型中存在一些需要人為調(diào)整的超參數(shù),如果采取每個(gè)參數(shù)都單獨(dú)調(diào)整再觀察模型在驗(yàn)證集上的預(yù)測(cè)性能的方法來(lái)進(jìn)行超參數(shù)優(yōu)化,那么所需要的時(shí)間成本太高,而且通常需要有經(jīng)驗(yàn)豐富的算法工程師來(lái)進(jìn)行這項(xiàng)任務(wù)。因此,本文使用一種隨機(jī)采樣交叉驗(yàn)證的方法來(lái)進(jìn)行超參數(shù)優(yōu)化,與網(wǎng)格搜索對(duì)比,隨機(jī)搜索采取搜索各超參數(shù)在參數(shù)組合空間上的分布,從而能夠在選取更優(yōu)的參數(shù)組合的前提下,比網(wǎng)格搜索考慮更少參數(shù)組合數(shù)量。另外,隨機(jī)搜索能夠在不影響性能的前提下添加參數(shù)節(jié)點(diǎn)。實(shí)驗(yàn)中指定各算法的參數(shù)列表,并用10折交叉驗(yàn)證后的均方根百分誤差(RMSPE)來(lái)評(píng)估各組合。各模型最終的超參數(shù)以及預(yù)測(cè)誤差如表3所示。

表3 單模型隨機(jī)搜索優(yōu)化后的超參數(shù)選擇和誤差

對(duì)比各模型的均方根百分誤差可以發(fā)現(xiàn),XGBoost模型的誤差最低。由于RMSPE是在驗(yàn)證集上采集的,證明了XGBoost模型有更好的泛化能力,因?yàn)閄GBoost算法將損失函數(shù)進(jìn)行了二階泰勒展開(kāi),使得模型訓(xùn)練更充分。

2.3 模型預(yù)測(cè)誤差相關(guān)性分析

對(duì)于Stacking模型而言,基層不同模型之間的差異性越高,則元學(xué)習(xí)器能夠改善的空間就越大,整個(gè)模型的預(yù)測(cè)性能就越高。因此在選擇基學(xué)習(xí)器后,需要考察各基學(xué)習(xí)器的預(yù)測(cè)誤差相關(guān)性,盡可能選擇差異性高的算法。在四份驗(yàn)證集中隨機(jī)抽取一份數(shù)據(jù),讓各基學(xué)習(xí)器在該數(shù)據(jù)集上做出預(yù)測(cè),將預(yù)測(cè)結(jié)果合并在同一數(shù)據(jù)框內(nèi),采用Pearson相關(guān)系數(shù)衡量各基學(xué)習(xí)器之間的相關(guān)性,結(jié)果如圖4所示。

圖4 各模型預(yù)測(cè)誤差相關(guān)性分析

可以看到,除了XGBoost與LR之外,各算法的誤差相關(guān)性都很低,這是因?yàn)樵谟行┊惓V瞪蟈GBoost算法和LR算法在某些數(shù)據(jù)上呈現(xiàn)出了同樣的趨勢(shì),但是總體的相關(guān)性低,這說(shuō)明Stacking模型有待于取得更好的性能。

綜上所述,最終選擇RF、LR、KNN、XGBoost作為Stacking集成模型的基學(xué)習(xí)器來(lái)完成實(shí)驗(yàn)。

2.4 Stacking模型預(yù)測(cè)性能分析

為了驗(yàn)證Stacking模型是否能取得比其他模型更好的預(yù)測(cè)性能:首先在實(shí)驗(yàn)中隨機(jī)抽取一個(gè)商店,對(duì)比單一模型和Stacking模型在該商店上的預(yù)測(cè)值與真實(shí)值的比較,其結(jié)果如圖5所示。

圖5 單模型與Stacking模型的預(yù)測(cè)值與真實(shí)值對(duì)比

可以看到,Stacking模型取得了比單一模型更好的預(yù)測(cè)性能,而且在一些異常值上,Stacking模型也能夠處理得很好,這也證明了Stacking模型充分發(fā)揮了各算法的優(yōu)勢(shì)。通過(guò)從算法層面上的結(jié)合,改善了各算法預(yù)測(cè)效果較差的部分并且能夠避免算法陷入局部最小點(diǎn)的缺陷。

元模型即第二層X(jué)GBoost算法的特征重要性如圖6所示。可以看到,各基學(xué)器對(duì)在Stacking模型中的權(quán)重,其中XGBoost算法的貢獻(xiàn)度最高,而其他學(xué)習(xí)器的貢獻(xiàn)度差異不大,這說(shuō)明在Stacking模型中,XGBoost算法的性能是整個(gè)模型的預(yù)測(cè)性能得以改善的主要原因,同時(shí)也證明了XGBoost模型在解決大樣本的回歸問(wèn)題時(shí)有著較高的魯棒性和泛化能力。

圖6 基學(xué)習(xí)器對(duì)在元模型中的貢獻(xiàn)度

為了比較Stacking模型與單個(gè)模型在整個(gè)測(cè)試集上的測(cè)性能,表4展示了以RMSPE為衡量標(biāo)準(zhǔn)的各模型的精度。可見(jiàn),Stacking模型的RMSPE相比單個(gè)預(yù)測(cè)模型中預(yù)測(cè)性能最好的XGBoost模型降低了1.8%,相比單個(gè)預(yù)測(cè)模型中預(yù)測(cè)性能最差的LR模型降低了23.5%。對(duì)于大型企業(yè)來(lái)說(shuō),每提高1%的精度都能降低大量的安全庫(kù)存或者減少缺貨損失。

表4 Stacking模型與單一模型精度對(duì)比

3 結(jié) 語(yǔ)

本文針對(duì)單個(gè)模型在大樣本的銷售預(yù)測(cè)上不能取得很好的泛化能力的問(wèn)題,建立了多模型融合下的Stacking。該模型取得了比單一模型更好的預(yù)測(cè)性能和泛化能力,在零售企業(yè)在庫(kù)存管理、經(jīng)營(yíng)管理、供應(yīng)鏈管理中有較高的應(yīng)用價(jià)值。由于Stacking模型總的框架比較復(fù)雜,總體訓(xùn)練時(shí)間較長(zhǎng),未來(lái)可以考慮將模型在分布式環(huán)境下進(jìn)行計(jì)算。還可以進(jìn)一步地研究使用Stacking集成學(xué)習(xí)方法來(lái)處理實(shí)時(shí)數(shù)據(jù),并根據(jù)Stacking集成學(xué)習(xí)方法來(lái)研發(fā)一套從數(shù)據(jù)獲取到知識(shí)獲取的數(shù)據(jù)處理系統(tǒng),這勢(shì)必會(huì)有更高的應(yīng)用價(jià)值。

猜你喜歡
銷售特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
這四個(gè)字決定銷售成敗
抓住特征巧觀察
3D打印中的模型分割與打包
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
銷售統(tǒng)計(jì)
主站蜘蛛池模板: 99热6这里只有精品| 色悠久久久久久久综合网伊人| 欧美另类第一页| 尤物特级无码毛片免费| 四虎影视永久在线精品| 婷婷开心中文字幕| 免费不卡视频| 久久久久人妻精品一区三寸蜜桃| 亚洲天堂视频在线观看| 成人无码一区二区三区视频在线观看 | 精品综合久久久久久97超人该| Aⅴ无码专区在线观看| 国产精品免费p区| 伊人精品视频免费在线| 伊在人亚洲香蕉精品播放| 天堂网国产| 国产精品久久精品| 久久99国产乱子伦精品免| 91久久精品日日躁夜夜躁欧美| 大香网伊人久久综合网2020| 一级全黄毛片| 国产福利微拍精品一区二区| 特级欧美视频aaaaaa| 手机看片1024久久精品你懂的| 国产一区二区三区在线精品专区| 国产在线视频福利资源站| 尤物特级无码毛片免费| 色婷婷久久| 五月综合色婷婷| 美女视频黄频a免费高清不卡| 美女国内精品自产拍在线播放| 天天综合网站| 国产午夜精品一区二区三区软件| 国产综合网站| 999国产精品| 国产aⅴ无码专区亚洲av综合网| 日韩黄色精品| 国产99视频精品免费视频7 | 波多野结衣久久高清免费| 国产亚洲视频免费播放| 日韩精品免费一线在线观看| 东京热一区二区三区无码视频| 在线五月婷婷| 国产成人一二三| 欧美综合成人| 国产亚洲精品yxsp| 欧美国产在线看| 草草线在成年免费视频2| 成人一区在线| 五月激情婷婷综合| 欧美成人免费一区在线播放| 东京热av无码电影一区二区| 久久精品丝袜高跟鞋| 国产精品午夜福利麻豆| 久久久久人妻精品一区三寸蜜桃| 免费在线a视频| 欧美成人一区午夜福利在线| 91po国产在线精品免费观看| 欧美中出一区二区| 国产日韩欧美在线播放| 999福利激情视频| 日本欧美一二三区色视频| 福利视频一区| 欧美狠狠干| 福利视频一区| 伊人色综合久久天天| 亚洲不卡无码av中文字幕| 亚洲人成人无码www| 国产91导航| 成人免费黄色小视频| 欧美激情综合一区二区| 亚洲国产成人自拍| 男女猛烈无遮挡午夜视频| 又黄又爽视频好爽视频| 99精品国产高清一区二区| 国产成人区在线观看视频| 亚洲第一综合天堂另类专| 亚洲区视频在线观看| 亚洲成人黄色在线| 欧美一区二区三区不卡免费| 国产亚洲高清视频| 久久亚洲精少妇毛片午夜无码 |