999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成學(xué)習(xí)的電商銷量預(yù)測研究分析

2024-05-23 03:01:28張曉穎賀伊雯王立越
長春大學(xué)學(xué)報(bào) 2024年4期
關(guān)鍵詞:銷售模型

張曉穎,賀伊雯,王立越

(長春大學(xué) 理學(xué)院,長春 130022)

隨著大數(shù)據(jù)時(shí)代的興起,用戶信息和電商銷售數(shù)據(jù)成為了電商行業(yè)中不可或缺的重要數(shù)據(jù)資產(chǎn)。在大數(shù)據(jù)架構(gòu)和分析技術(shù)的支持下,這些數(shù)據(jù)的價(jià)值隨著市場需求的增長而不斷提升,使得電商銷售數(shù)據(jù)的重要性日益凸顯。目前針對電商銷售預(yù)測的研究主要集中在3個(gè)方面:(1)銷售預(yù)測理論研究。RANA等[1]提出了由遺傳算法優(yōu)化的深度學(xué)習(xí)模型,并證明了所提出的方法在提供準(zhǔn)確的銷售預(yù)測方面的優(yōu)越性,記錄的調(diào)查結(jié)果可以作為零售商店尋求提高其銷售預(yù)測能力的寶貴資源。GAO等[2]在分析數(shù)據(jù)空間理論的基礎(chǔ)上,構(gòu)建了基于數(shù)據(jù)空間的制造業(yè)多價(jià)值鏈協(xié)同數(shù)據(jù)管理系統(tǒng)架構(gòu),建立了基于數(shù)據(jù)管理系統(tǒng)的產(chǎn)品銷售智能預(yù)測模型。(2)推薦系統(tǒng)研究。HUANG等[3]基于知識(shí)圖的推薦技術(shù)主要用于解決推薦系統(tǒng)在分析大數(shù)據(jù)量時(shí)遇到的可解釋性、冷啟動(dòng)等問題,介紹了基于知識(shí)圖的推薦技術(shù)的4個(gè)方面:推薦算法、評(píng)價(jià)指標(biāo)、數(shù)據(jù)集和模型。NI等[4]提出了一種基于RippleNet的混合推薦模型,使用Node2vec-side進(jìn)行項(xiàng)目肖像建模,并探索項(xiàng)目之間潛在的關(guān)聯(lián)關(guān)系。(3)銷售數(shù)量預(yù)測研究。唐中軍等[5]在給定有限樣本量的情況下,提出了多證據(jù)動(dòng)態(tài)加權(quán)組合預(yù)測和MEDWCF方法對產(chǎn)品的銷量進(jìn)行預(yù)測,從而在產(chǎn)品上市前為管理者做出更有效的營銷決策。BOONE等[6]討論了數(shù)據(jù)爆炸對產(chǎn)品預(yù)測的影響以及如何提高數(shù)據(jù)爆炸的利用率,總結(jié)了如何從時(shí)間序列數(shù)據(jù)中洞察消費(fèi)者行為。

在大數(shù)據(jù)和互聯(lián)網(wǎng)快速進(jìn)步的背景下,電商銷售環(huán)境變得日益動(dòng)態(tài)且復(fù)雜。這種多變的環(huán)境使得傳統(tǒng)的時(shí)間序列預(yù)測算法難以實(shí)現(xiàn)準(zhǔn)確預(yù)測。針對這一挑戰(zhàn),許多學(xué)者正積極研究具有更強(qiáng)泛化能力的機(jī)器學(xué)習(xí)算法。SINGH等[7]探究了京東某店鋪的銷售額與相關(guān)變量間存在的關(guān)系,首先對將商品分為種類最多的兩種和種類最少的兩種然后分別使用GBDT算法和BP神經(jīng)網(wǎng)絡(luò)進(jìn)行相應(yīng)的預(yù)測。RAIZADA等[8]對幾種監(jiān)督學(xué)習(xí)算法,如隨機(jī)森林、KNN、SVM等進(jìn)行對比分析,建立預(yù)測模型,準(zhǔn)確估計(jì)沃爾瑪門店在不同地理位置的幾家零售店的可能銷售額。在以往傳統(tǒng)機(jī)器學(xué)習(xí)算法往往都只是采用一個(gè)學(xué)習(xí)器模型(單個(gè)算法模型)來進(jìn)行的,在某些情況下,單一的學(xué)習(xí)方法勢必存在缺陷,為解決單一學(xué)習(xí)器在預(yù)測中的泛化能力弱等問題,不少學(xué)者將集成學(xué)習(xí)的方法加以研究SHILONG等[9]對沃爾瑪?shù)纳唐蜂N售數(shù)據(jù)進(jìn)行分析,利用特征工程提取特征,然后利用LGBoost和XGBoost預(yù)測特征的未來銷量。它適用于內(nèi)存資源較少的情況,可以獲得很好的銷售預(yù)測效果。ROHAAN等[10]在隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)等模型的的自定義模型堆中找到了合適的B2B銷售傾向模型,從而實(shí)現(xiàn)更好的規(guī)劃和管理,提高銷售預(yù)測的準(zhǔn)確性。

由于目前傳統(tǒng)時(shí)間序列預(yù)測算法對于大數(shù)據(jù)環(huán)境下的電商銷售預(yù)測已經(jīng)不再適用,而單一的機(jī)器學(xué)習(xí)模型在預(yù)測時(shí)又存在著在不同的條件下所表現(xiàn)出的泛化能力弱等問題,本研究采用基于集成學(xué)習(xí)的方法,對比隨機(jī)森林RT、漸進(jìn)梯度回歸樹GBRT與一般線性回歸、彈性網(wǎng)絡(luò)、支持向量回歸、KNN回歸樹、決策樹、多層感知機(jī)、AdaBoost在真實(shí)環(huán)境下電商銷售量數(shù)據(jù)的預(yù)測性能,探討出一個(gè)更為高效的電商銷量預(yù)測方法。

1 基于集成學(xué)習(xí)的電商銷量預(yù)測算法

1.1 隨機(jī)森林

(1)

接下來使用自助法重抽樣法來生成單棵CART樹的樣本,并用隨機(jī)向量(X,Y)來對樣本進(jìn)行標(biāo)記,其中訓(xùn)練集的標(biāo)簽值用Y來表示,這樣組合模型h(X,θn)就可以用來表示整個(gè)隨機(jī)森林,其中模型的均方誤差可表示為:

EX,Y(Y-h(X))2,

(2)

當(dāng)隨機(jī)森林中樹的數(shù)目無限增大時(shí)有:

EX,Y(Y-avnh(X,θn))2→EX,Y(Y-Eθh(X,θ))2,

(3)

其回歸函數(shù)表示為:Y=Eθh(X,θ),在現(xiàn)實(shí)場景中,可以假設(shè)k充分大,于是可用近似公式:Y=avnh(X,θn)進(jìn)行替代。

隨機(jī)森林的泛化誤差可以用PE進(jìn)行表示,那么可以得到CART樹的平均泛化誤差就為:

PE(tree)=EθEX,Y(Y-Eθh(X,θ))2,

(4)

對于假定所有的θ,都有EY=Exh(X,θ),則有:

(5)

Step1.對數(shù)據(jù)進(jìn)行抽樣。通過隨機(jī)且有放回的bootstrap重抽樣的方式對每個(gè)學(xué)習(xí)器進(jìn)行抽樣,這里樣本子空間定義為抽取到的樣本,通過這種方式就完成了對于每個(gè)學(xué)習(xí)器的樣本訓(xùn)練集的構(gòu)建;

Step2.屬性子空間的構(gòu)造。屬性子空間的構(gòu)造包括兩個(gè)方面一個(gè)是對屬性子空間進(jìn)行組成,一個(gè)是設(shè)置各節(jié)點(diǎn)的準(zhǔn)側(cè),在這里前者使用給定的隨機(jī)參數(shù)變量,后者使用各個(gè)屬性分裂值中較優(yōu)的為準(zhǔn)則;

Step3.建立決策樹。決策樹是一棵在樣本子空間上的無剪枝衍生決策樹,然后將決策樹進(jìn)行組合形成一個(gè)學(xué)習(xí)器;

Step4.構(gòu)建隨機(jī)森林模型。對Step3所建立的決策樹構(gòu)建成隨機(jī)森林模型,并對模型進(jìn)行測試;

Step5.決策投票。首先通過隨機(jī)森林模型對各個(gè)事件進(jìn)行檢測,然后收集來自于各個(gè)學(xué)習(xí)器對與檢驗(yàn)數(shù)據(jù)的投票結(jié)果,最后采用較多得票數(shù)的策略作為該測試數(shù)據(jù)的最終方法,并決定其結(jié)果。

1.2 漸進(jìn)梯度回歸樹

漸進(jìn)梯度回歸樹(GBRT)是源自Boosting算法的一種改進(jìn)迭代回歸算法。GBRT 的關(guān)鍵是將全部迭代的數(shù)的結(jié)果一一相加,累加出的結(jié)果作為最后的結(jié)果。因此,每一個(gè)樹都不是最后預(yù)測結(jié)果的直接決定因素。本研究對電商銷量進(jìn)行預(yù)測,電商銷量也正是步步累加的結(jié)果。預(yù)測之前先初始化損失函數(shù)。結(jié)合實(shí)際情況,損失用RMSE來衡量。對于損失函數(shù)的優(yōu)化也就是利用GBRT來縮小預(yù)測結(jié)果的RMSE,使其達(dá)到最小。

GBRT算法的具體步驟如下:

輸入:訓(xùn)練集T={(x1,y1),(x2,y2),...?,(xm,ym)}和損失函數(shù)L(y,f(x));

Step1.初始化損失函數(shù),即通過迭代使真實(shí)值和預(yù)測值差異最小化:

(6)

Step2.開始算法迭代:

(1)對m=1,2,3,……,M,迭代建立M棵數(shù);

(2)對i=1,2,3,……,N,用模型中損失函數(shù)的負(fù)梯度來估計(jì)殘差,因此殘差也就是損失函數(shù)的均方誤差:

(7)

(3)對rmi進(jìn)行擬合得到一棵回歸樹,以便得到第m棵樹的葉節(jié)點(diǎn)區(qū)域RMj;

(4)對j=1,2,3,……,J,計(jì)算

cmj=argmin∑xi=RmjL(yi,fm-1(xi)+c),

(8)

(5)更新回歸樹:

(9)

Step3.完成M棵樹的迭代,得到最終模型:

(10)

當(dāng)隨機(jī)森林與GBRT進(jìn)行比較時(shí),能夠看到GBRT在一些方面做出了改進(jìn):(1)GBRT預(yù)測精度一般都比較高,也常常高于隨機(jī)森林算法,主要的原因就是GBRT在理論上通常都會(huì)在模型收斂的時(shí)候才停止訓(xùn)練;(2)當(dāng)能夠控制每一次迭代的步長和權(quán)值時(shí),就能夠盡可能避免過擬合,而在GBRT算法中前后的迭代關(guān)系之間可以修復(fù)一些較差的樹的結(jié)果,因此這也是改進(jìn)的一個(gè)方面;(3)由于串行迭代GBRT在訓(xùn)練時(shí)對計(jì)算空間要求不高,這也使得算法更為有效;(4)因?yàn)閱蝹€(gè)學(xué)習(xí)器性能并不會(huì)影響GBRT的預(yù)測精度,即使部分學(xué)習(xí)器性能較差,通過多次選代,依然可以得到較優(yōu)的結(jié)果。

2 數(shù)據(jù)仿真

2.1 數(shù)據(jù)來源與說明

研究數(shù)據(jù)來源于某線上銷售平臺(tái)的真實(shí)歷史銷量數(shù)據(jù)與相關(guān)數(shù)據(jù)記錄,對原始數(shù)據(jù)進(jìn)行性質(zhì)類別的劃分,可以分為:(1)用戶的行為數(shù)據(jù),其中包括商品交易時(shí)間、商品ID、商品點(diǎn)擊次數(shù)、商品加購次數(shù)、商品收藏次數(shù)、商品購買次數(shù)、在售天數(shù)。(2)商品的銷售數(shù)據(jù),包括每日商品銷量、平均價(jià)、吊牌價(jià)。3.平臺(tái)的活動(dòng)數(shù)據(jù),包括活動(dòng)類型、節(jié)奏類型。

2.2 特征處理

在原始的數(shù)據(jù)集的基礎(chǔ)上,即商品在用戶的行為數(shù)據(jù)、商品的銷售數(shù)據(jù)和平臺(tái)的活動(dòng)數(shù)據(jù),通過特征工程理論對上述原始數(shù)據(jù)的特征進(jìn)行自動(dòng)化特征工程處理[13],并利用pandas庫和scikit-learn庫進(jìn)行共同處理,在處理過程中主要分為數(shù)據(jù)集成和自動(dòng)化特征處理兩個(gè)部分,數(shù)據(jù)集成處理示意圖如圖1所示。

圖1 數(shù)據(jù)集成處理示意圖

對數(shù)據(jù)進(jìn)行自動(dòng)化特征處理如表1所示。

表1 參考文獻(xiàn)類型數(shù)據(jù)的自動(dòng)化特征處理一覽表

2.3 模型選擇和評(píng)價(jià)

機(jī)器學(xué)習(xí)中有非常多的回歸預(yù)測算法,諸如:廣義線性模型中的線性回歸(LinearRegression)、彈性網(wǎng)絡(luò)(ElasticNet)等;K近鄰中的KNN回歸樹(KNeighbors Regressor);AdaBoost的迭代算法、決策樹、神經(jīng)網(wǎng)絡(luò)中的多層感知器(Multi-Layer Perception)和支持向量機(jī)之中的支持向量回歸、以及本研究所介紹的兩種集成學(xué)習(xí)算法、隨機(jī)森林(RF)和漸進(jìn)梯度回歸樹(GBRT)等。為比較機(jī)器學(xué)習(xí)當(dāng)中的眾多回歸預(yù)測算法的優(yōu)度,選取具有代表性的9種回歸預(yù)測算法,并利用5折交叉檢驗(yàn)進(jìn)行評(píng)價(jià),具體結(jié)果如表2所示。

表2 各種方法的5折交叉檢驗(yàn)表

各算法在5折交叉檢驗(yàn)表中的平均得分如圖2所示。

圖2 各算法得分折線圖

從表1和圖2中可看出,擬合優(yōu)度值較高的是隨機(jī)森林算法和梯度提升回歸樹算法,分別達(dá)到86.8%和82.8%,得分折線位置遠(yuǎn)高于其他算法,且得分均值標(biāo)準(zhǔn)差分別為0.014 7和0.009 8。因此,相較于其他回歸預(yù)測算法而言,隨機(jī)森林算法和漸進(jìn)梯度回歸樹算法在電商銷量預(yù)測中所表現(xiàn)出的性能優(yōu)于其他算法。于是選擇隨機(jī)森林算法和漸進(jìn)梯度回歸樹算法對電商銷量進(jìn)行算法參數(shù)的調(diào)整,以使得算法的整體性能更加優(yōu)越。

2.4 隨機(jī)森林調(diào)參

為了獲得算法的最優(yōu)參數(shù),采用網(wǎng)格搜索(GridSearchCV)對算法進(jìn)行參數(shù)優(yōu)化。網(wǎng)格搜索不僅可以自動(dòng)調(diào)整參數(shù),還可以交叉驗(yàn)證各參數(shù)組合的平均計(jì)算精度。此次實(shí)例采用5折交叉驗(yàn)證的方法,并取平均值作為模型的預(yù)測評(píng)價(jià)指標(biāo)。因此,根據(jù)隨機(jī)森林的原則,隨機(jī)森林的最優(yōu)參數(shù)可以通過網(wǎng)格搜索的方法進(jìn)行尋找,具體如表3所示。

表3 隨機(jī)森林最優(yōu)參數(shù)表

2.5 漸進(jìn)梯度回歸樹調(diào)參

同理,根據(jù)梯度提升樹原理,利用網(wǎng)格搜索的方法得出隨機(jī)森林的最優(yōu)參數(shù),具體如表4所示。

表4 漸進(jìn)梯度回歸樹最優(yōu)參數(shù)

3 預(yù)測結(jié)果分析

在調(diào)整優(yōu)化參數(shù)后,需要對算法的性能進(jìn)行評(píng)估,也就是把預(yù)測結(jié)果與真實(shí)值進(jìn)行比對。利用回歸模型中常用的擬合優(yōu)度、均方誤差、均方根誤差、平均絕對誤差,來評(píng)價(jià)隨機(jī)森林算法和梯度提升樹算法在電商銷量預(yù)測過程中的算法適用性情況。

根據(jù)5折交叉驗(yàn)證和網(wǎng)格搜索得出的隨機(jī)森林與GBRT的最優(yōu)參數(shù),調(diào)參后對相應(yīng)的評(píng)價(jià)指標(biāo)進(jìn)行計(jì)算,如表5所示。

表5 隨機(jī)森林與GBRT的評(píng)價(jià)指標(biāo)表

根據(jù)性能評(píng)價(jià)指標(biāo)表看出,隨機(jī)森林對電商銷量預(yù)測的擬合優(yōu)度(R2)達(dá)到85.9%,均方誤差(MSE)為7.427,均方根誤差(RMSE)為2.725,平均絕對誤差(MAE)為0.947。GBRT對電商銷量預(yù)測的R2達(dá)到88.01%,MSE為6.244,RMSE為2.499,MAE為0.982。從擬合優(yōu)度來說,GBRT算法相對于隨機(jī)森林對電商銷售量的預(yù)測效果更好,除平均絕對誤差略比隨機(jī)森林的平均絕對誤差高一點(diǎn)之外,其他性能指標(biāo)比隨機(jī)森林效果較優(yōu)。

從預(yù)測結(jié)果來看,原始數(shù)據(jù)中商品的銷量有高有低,部分商品雖然存在所謂的高銷量即“異常值”點(diǎn),但這兩種算法都較好的擬合了原始數(shù)據(jù),對這些“異常值”點(diǎn)也都有較好的表達(dá)。通過均方誤差,均方根誤差,平均絕對誤差來說均處于可以接受范圍之內(nèi)。整體來看,隨機(jī)森林算法和GBRT算法對于電商銷量預(yù)測來說都能較好的符合實(shí)際電商銷售預(yù)測場景中的應(yīng)用,但GBRT算法在性能指標(biāo)上相對優(yōu)于RF隨機(jī)森林算法,如圖3、4所示。

圖3 隨機(jī)森林預(yù)測結(jié)果

圖4 GBRT預(yù)測結(jié)果

4 結(jié) 語

通過某線上銷售平臺(tái)的真實(shí)歷史向量數(shù)據(jù)與相關(guān)數(shù)據(jù)記錄用集成學(xué)習(xí)的隨機(jī)森林和漸進(jìn)梯度回歸、普通線性回歸、彈性網(wǎng)絡(luò)、支持向量回歸、KNN回歸樹、決策樹、多層感知機(jī)、AdaBoost分別對電商銷量數(shù)據(jù)進(jìn)行了分析和預(yù)測,并評(píng)價(jià)了各模型的預(yù)測性能差異。如結(jié)果所示,隨機(jī)森林和GBRT預(yù)測性能更優(yōu)。通過搜索最優(yōu)參數(shù),得出更優(yōu)的電商銷量預(yù)測模型。利用k折交叉驗(yàn)證對具有代表性的算法進(jìn)行評(píng)價(jià),認(rèn)為更新參數(shù)后的隨機(jī)森林和GBRT在電商銷量預(yù)測中所表現(xiàn)出的性能優(yōu)于其他算法。最后,相對較好的兩種更新后的集成算法中,GBRT的預(yù)測效果更好。隨著網(wǎng)絡(luò)購物用戶的増多,使得電子商務(wù)交易量越來越大,這也使得電商產(chǎn)生的銷售數(shù)據(jù)成指數(shù)級(jí)上漲,近些年來,“大數(shù)據(jù)”和“機(jī)器學(xué)習(xí)”的概念和技術(shù)開始被商界廣泛關(guān)注,大量的銷售數(shù)據(jù)就變成了一個(gè)有待開發(fā)和挖掘的數(shù)據(jù)寶庫,只要有技術(shù)有需求,自然寶庫的價(jià)值也就開始凸顯。所以在日常的銷售預(yù)測中應(yīng)該關(guān)注更多的銷售細(xì)節(jié),將數(shù)據(jù)更加分類化,這樣即使在研究方法一定的情況下,也能夠提高現(xiàn)有數(shù)據(jù)的利用效率,提升電商行業(yè)整體價(jià)值水平。

猜你喜歡
銷售模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
這四個(gè)字決定銷售成敗
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
一個(gè)相似模型的應(yīng)用
銷售統(tǒng)計(jì)
中國化妝品(2003年6期)2003-04-29 00:00:00
銷售統(tǒng)計(jì)
中國化妝品(2003年3期)2003-04-29 00:00:00
銷售統(tǒng)計(jì)
中國化妝品(2003年1期)2003-04-29 00:00:00
主站蜘蛛池模板: 日韩视频福利| 91视频首页| 999精品视频在线| 精品国产一区二区三区在线观看| 国产女人在线观看| 潮喷在线无码白浆| 精品自拍视频在线观看| 国产免费福利网站| 五月婷婷精品| 白浆视频在线观看| 欧美一级色视频| 亚洲—日韩aV在线| 精品久久久久久久久久久| 在线观看精品自拍视频| 欧美天堂在线| 亚洲综合精品香蕉久久网| 久久综合五月婷婷| 九九九九热精品视频| v天堂中文在线| 中文字幕乱码中文乱码51精品| 亚洲精品综合一二三区在线| 亚洲国产精品美女| 91精品最新国内在线播放| 国产SUV精品一区二区6| 国产一级α片| 国产乱子伦精品视频| 欧美在线观看不卡| 99尹人香蕉国产免费天天拍| 国产网友愉拍精品视频| 青青草国产免费国产| 在线亚洲天堂| 最新国产你懂的在线网址| 国产探花在线视频| 伊人久久婷婷五月综合97色| 亚洲成aⅴ人片在线影院八| 丰满的熟女一区二区三区l| Aⅴ无码专区在线观看| 亚洲无码四虎黄色网站| 色婷婷啪啪| 欧美亚洲欧美| 国产精品视屏| 中文字幕佐山爱一区二区免费| 亚洲天堂精品在线| 亚洲免费黄色网| 国产免费久久精品99re不卡| 午夜久久影院| 美女扒开下面流白浆在线试听| 免费毛片网站在线观看| 亚洲人人视频| 亚洲人成网站色7777| 国产区福利小视频在线观看尤物| 成人日韩欧美| 欧美日韩一区二区在线免费观看| 99视频在线免费看| www.91在线播放| 免费一看一级毛片| 国产日韩丝袜一二三区| 亚洲人成网站观看在线观看| 国产自无码视频在线观看| 国产精品9| 亚洲欧洲日韩综合| 日韩精品亚洲一区中文字幕| 亚洲中文字幕手机在线第一页| 午夜一级做a爰片久久毛片| 青青青伊人色综合久久| 亚洲久悠悠色悠在线播放| 国内精品久久人妻无码大片高| 黄色网站在线观看无码| 久久国产拍爱| 一级毛片免费观看久| 国产在线视频欧美亚综合| 欧美性久久久久| 大陆国产精品视频| 日本一本在线视频| 久久久精品久久久久三级| 亚洲成a人在线观看| 97国产精品视频自在拍| 亚洲日产2021三区在线| 久久精品无码一区二区日韩免费| 456亚洲人成高清在线| 亚洲欧美综合精品久久成人网| 青青草91视频|