999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習算法的服裝直播銷量預測模型

2024-12-31 00:00:00韓鉑李沛
絲綢 2024年7期
關鍵詞:機器學習

摘要: 為了完善直播銷量預測的指標體系,提高直播銷量預測的準確率,本文對比多種機器學習算法,分析服裝直播銷量的影響因素并預測服裝直播銷量。首先,通過文獻分析選取直播銷量的影響因素,并使用Spearman相關系數結合顯著性進行篩選。其次,通過不同機器學習算法建立服裝銷量預測模型。選用R2、MAE、RMSE及MAPE為評價指標,采用5折交叉驗證的方法,測試各模型性能。研究結果表明:主播粉絲數、主播近30天場均觀看人次、主播近30天場均坑產、產品價格、產品講解時長、產品近30天歷史銷量、品牌粉絲數、品牌近30天歷史銷量、折扣這9個因素之間共線性較弱且與直播銷量之間的相關性顯著,可作為預測模型中的影響因素;預測算法中K近鄰算法和隨機森林算法的表現較好,R2均大于0.98,MAPE均在30.5%以內。預測結果可幫助零售商規劃庫存,調整生產計劃,為產品采購、定價、推廣提供數據支持。

關鍵詞: 直播銷量預測;機器學習;隨機森林;K近鄰;SVM支持向量機;五折交叉驗證

中圖分類號: TS941.1; F426.86 文獻標志碼: A

電商直播是一種生動且實時的互動模式,為消費者提供豐富的信息,并促進消費者的購買[1]。根據《第52次中國互聯網絡發展狀況統計報告》顯示,至2023年6月,中國電商直播的用戶規模已經達到5.26億人,占總體網民的48.8%。電商直播蓬勃發展的同時,銷售預測不充分可能會導致供貨調度不及時,引發庫存問題,影響消費者滿意度,并造成商家利潤損失[2]。服裝行業作為零售業的一大品類,具有變化快、季節性強的特點[3]。同時,直播銷售的實時性和動態性導致了直播銷量的不穩定性,產品的供給與需求往往得不到合理的平衡[4]。在服裝直播銷售過程中,供過于求會增加倉儲成本,造成產品貶值;供不應求則會降低消費者購物體驗,為主播聲譽帶來負面影響[5]。因此,準確預測服裝銷量可以幫助商家優化庫存管理,從而制定銷售策略[6]。

由于線上購買可選擇范圍的擴大,因此線上銷售預測比線下銷售預測更具有挑戰性[7]。國內外學者基于統計學和機器學習算法在銷量預測方面進行了大量研究,其中傳統的預測方法主要基于統計學。李建斌等[8]通過SARIMA模型預測了非促銷時期電商平臺的醫藥銷量;Ruitenbeek等[9]采用logistic回歸和Lasso回歸預測了具有季節性和間歇性需求的商品銷量。然而,由于直播銷量的影響因素較多,傳統的統計學往往不足以預測復雜的決策過程[10]。近年來,機器學習作為一種強大且精準的預測工具,已廣泛應用于服裝領域。常用的機器學習預測算法包括BP神經網絡[11]、隨機森林算法[12]、SVM支持向量機[13]、K近鄰算法[14]、LSTM算法[15]等。劉妍兵等[16]通過BP神經網絡,基于9大流行元素,預測了童裝流行元素。羅戎蕾等[17]基于遺傳算法改進的BP神經網絡建立了服裝銷量預測模型,預測了當年同月同品類的服裝銷量。鄭金峰[5]基于模擬退火算法優化BP神經網絡,預測了太平鳥品牌的直播銷量。目前,使用機器學習算法預測服裝銷量大多針對某一品牌或某一品類,并且使用的算法類型較為單一。

因此,本文對直播銷量影響因素進行分析,并通過不同機器學習算法,構建服裝銷量預測模型。根據多種指標對比不同機器學習算法模型的預測效果,找出最佳預測方法,為服裝直播銷量預測提供了一種新的思路和方法,并且對于商家生產計劃、庫存管理和營銷策略改進有重大的實踐意義。

1 數據與模型構建

1.1 影響因素選取

準確預測服裝直播銷量需要深入了解服裝銷量與直播銷量的影響因素,建立科學的預測模型。傳統的服裝銷售預測方法通常基于歷史銷售數據和市場趨勢[17]。然而直播方式引入了更多變量,如主播個性、直播內容的吸引力、觀眾互動等,使得銷量預測變得更加復雜和多樣化[18]。服裝直播銷量預測既要考慮服裝自身屬性,也要考慮直播相關因素的影響。本文通過檢索最近10年的相關文獻,篩選服裝直播銷量的影響因素。第一輪篩選過程中使用服裝直播銷售預測為主題,在中國知網中檢索出相關文獻3篇。由于文獻數量較少,第二輪篩選中使用服裝銷售預測和直播銷售預測為主題,期刊文章中選擇北大核心,在中國知網中檢索出相關文獻33篇。為結合國外最新研究成果,第三輪篩選在外文數據庫Science Direct中進行,輸入相關關鍵詞,保留最近的50篇研究。為保證文獻質量,對文獻內容進行篩選,篩選條件如下:1) 文章中提出了服裝銷量預測或直播銷量預測的指標體系;2) 排除綜述類文章及針對單一品類的研究;3) 文章需要提供研究方法和參數設計等重要信息。篩選結果如表1所示。其中,Xu等[2]結合產品的文本特征、視覺特征與文本-圖像相似度提出了一種直播電商產品銷售預測的多模態分析框架,其預測變量包括講解時長、價格、新粉絲數量、最高觀看人數、點贊數、商品數量、歷史口碑、商品文字描述、商品圖片、文字-圖片一致性、彈幕數量、彈幕質量。Wang等[10]結合結構方程模型與人工神經網絡,以主播視頻數、直播次數、平均停留時長、互動評論個數、頁面訪問量為影響因素預測直播銷量,該模型的預測準確率達到了83.76%。羅戎蕾等[17]采用遺傳算法優化的三層BP神經網絡,以歷史銷量、季節因素、節假日因素、品類因素為輸入變量預測了服裝銷量。

以往研究從不同角度構建了直播銷量影響因素的指標體系。其中,Xu等[2]使用多模態分析,從主播角度,探究了主播聲譽對直播銷量的影響并預測了直播銷量。李雪[20]基于AHP和BP神經網絡,從產品、品牌等角度選取影響因素,預測服裝銷量。鄭金峰[22]通過實證分析將消費者直播購買意愿的影響因素劃分為主播因素、直播因素、服裝因素和促銷優惠。本文結合文獻研究中的維度劃分,將影響直播銷量的因素劃分為主播因素、產品因素、品牌因素和促銷因素四個方面。并且,考慮到數據的可獲得性,刪除或替換一些無法獲取或難以量化的變量。例如,最高觀看人數在直播前是無法獲取的,因此用場均最高觀看人數替代。主播帶貨匹配度等因素難以量化,予以刪除。初步篩選的影響因素如表2所示。

1.2 數據來源與數據預處理

本文的數據均來源于網站灰豚數據(dy.huitun.com)。該網站涵蓋大量直播后臺數據,覆蓋范圍廣,數據量大,常用于服裝直播銷量預測[5,19],可以反映消費者的直播觀看與購物決策情況。采用分層抽樣的方法,在抖音直播庫中獲取了2023年8月10日—9月30日間30場直播共265條服裝相關的直播數據,其中包含的服裝品類有褲裝、裙裝、外套、襯衫、T恤、衛衣等應季服裝。在訓練模型之前,需要對數據進行缺失值處理。其中,數值類型的數據缺失采用該項的平均值填補,非數值類型缺失則將整條內容刪除,處理后共保留了256條符合規范的數據。將這些數據按照85%和15%的比例劃分為訓練集和測試集。

1.3 數據歸一化

由于單位不同、量級不同的變量之間很難進行比較,因此需要將數據進行歸一化處理,將所有輸入數據都固定在比較小的、確定的范圍內。常用的歸一化方法有最小最大歸一化、十進制比例歸一化、z-score歸一化等,本文采用最小最大歸一化將數據固定在[0,1]內,歸一化公式如下所示。

式中:Xi為歸一化前的樣本數據,X′為歸一化以后的Xi,Xmin為數據中的最小值,Xmax為數據中的最大值。

1.4 模型構建

1.4.1 變量相關性

本文初步選取了17個可能影響服裝直播銷量的因素。但是由于不同因素對服裝直播銷量的影響不同,有的因素可能與最終預測結果相關性很低。因此,在預測服裝直播銷量之前需要對影響因素進行篩選和分析,從而減少最終預測中可能出現的干擾。通常使用Pearson相關系數和Spearman相關系數來衡量兩個變量之間的相關性。但由于Pearson相關系數會默認兩個變量之間存在線性關系,而各個影響因素與服裝直播銷量之間的關系并非都是線性的,當兩變量之間存在顯著的非線性關系時,它會無法識別[23]。在本文研究中,各個影響因素與服裝直播銷量之間的關系比較復雜,可能存在非線性關系。因此,采用Spearman相關系數來衡量17個因素之間的相關性及他們與服裝直播銷量之間的相關性,Spearman系數計算公式如下所示。

式中:di為第i個數據對的位次值之差,n為總的觀測樣本數。

1.4.2 算法選擇

通過總結以往文獻,回歸預測常用的方法主要有線性回歸、隨機森林算法、BP神經網絡算法、SVM算法、決策樹算法和KNN算法等[13,23]。由于本文的影響因素較多,很多因素與服裝直播銷量可能不是線性關系,因此,線性回歸不適用于構建本文的預測模型。以R2值為評價指標,對剩余的五種算法采用五折交叉驗證法進行對比,如圖1所示。由圖1可以看出,BP神經網絡預測的模型擬合效果較差,可能的原因是本文數據規模不大,且影響因素較多,BP神經網絡出現了過擬合現象。決策樹算法的模型擬合結果一般,且較不穩定,因此,本文采用隨機森林算法、KNN算法和SVM算法預測服裝直播銷量。

隨機森林方法由布賴曼提出,是一種將Bagging算法與隨機選擇的特征子集(即隨機子空間方法)相結合的分類預測算法[24]。隨機森林方法不易發生過擬合,并且具有較快的訓練速度[25-26]。對于每個訓練樣本,構建單獨的決策樹,并基于多數原則通過投票的方式確定最終的預測結果。在1~101內,步長為10,對決策樹個數進行尋優;在1~11內,步長為1,對最大特征數進行尋優。根據十折交叉驗證結果優化,優化后的模型中,決策樹個數為11,最大特征數為3。

支持向量機(SVM)算法是一種通用的算法,它可以用于分類和回歸問題[27-28]。對于回歸任務,SVM利用核函數將輸入數據映射到高維、非線性空間,便于超平面的識別[29]。核函數有許多不同類型,包括多項式(Poly)、徑向基函數(RBF)、sigmoid和線性函數,都可以用于預測。本文使用徑向基函數作為該模型的核函數。在1~10內,步長為0.1,對正則化系數c進行尋優;在0.001~1.000內,步長為0.002,對核參數gamma進行尋優。根據十折交叉驗證結果優化,優化后的模型中,正則化系數c為4.1,核參數gamma為0.897。

K近鄰(KNN)算法是一種有效的監督建模算法,可以應用于分類和基于回歸的預測,并且具有同等的有效性[30]。它考慮了具有相似特征的兩個緊密發生的事件[31]。該算法通過使用歐幾里得、曼哈頓或閔可夫斯基三種距離計算方法來計算事件之間的距離,發現緊密發生的事件[32]。無論其維度如何,歐氏距離都是兩個位置之間的最短距離[33]。本文利用歐氏距離公式計算兩個樣本之間的距離,通過尋優得到鄰居數為5,并以K條最近鄰數據的目標值的平均值為預測結果。

1.4.3 測量指標與測試指標

在模型訓練過程中,要考察模型的擬合優度與預測的準確程度,需要采用不同指標進行度量。通過閱讀以往相關文獻,本文采用平均絕對誤差(MAE)、均方根誤差(RMSE)、平均絕對百分比誤差(MAPE)和決定系數R2作為度量三種不同算法預測性能的指標[34-35],這四種指標的計算公式如下所示。

2 運行結果分析

2.1 相關性分析

為了定量分析17個影響因素與服裝直播銷量之間的關系,本文基于前期采集的數據集,使用Spearman相關系數分別分析17個影響因素與服裝直播銷量之間的相關性,同時結合顯著性進行分析,結果如圖2所示。由圖2可知,初步選取

的17個影響因素中有10個通過了顯著性檢驗,并且產品近30天歷史銷量與服裝直播銷量之間的相關性達到了0.804。有7個變量(主播場均點贊數、主播視頻數、主播近30天直播次數、主播場均千次觀看成交額、主播場均停留時長、主播場均直播銷售額、主播場均新增粉絲數)未通過顯著性檢驗,可能的原因是其中一些變量只是通過其他變量間接影響直播銷量,對直播銷量并沒有直接影響。

由于影響因素之間可能會存在共線性問題,因此需要測量影響因素之間的相關性。當相關系數在0.2~0.4時,表示兩者關系一般;當相關系數在0.4~0.7時,表示兩者關系緊密;當相關系數大于0.7時,表示兩者關系非常緊密[36]。對通過顯著性檢驗的10個變量進行相關性分析,結果如圖3所示。本文以0.7作為閾值[19],可以看出主播帶貨口碑與主播粉絲數之間相關性非常緊密,并且與主播近30天場均坑產之間相關性也比較緊密,可能會產生共線性問題。

因此,主播帶貨口碑不適合用作模型訓練,本文最終選定主播粉絲數、主播近30天場均觀看人次、主播近30天場均坑產、產品價格、產品講解時長、產品近30天歷史銷量、品牌粉絲數、品牌近30天歷史銷量、折扣共9個變量作為預測模型的輸入變量,服裝直播銷量為預測模型的輸出變量,每個變量的基本信息,如表3所示。

2.2 模型預測結果

預測結果如圖4和圖5所示。隨機森林算法、SVM支持向量機算法、KNN算法在訓練集上的R2值分別為0.991、0.899、0.981,在測試集上的R2值分別為0.987、0.895、0.980。由此可以看出,隨機森林算法和KNN算法比SVM算法效果更好,在訓練集和測試集上均表現出更高的模型擬合度。

由于機器學習算法結果具有隨機性,因此采用五折交叉驗證法驗證測試集的預測結果,如圖6所示。其中綠色三角形代表平均值,黃色橫線代表中位數。三種算法的模型擬合度均高于最初的五折交叉驗證,且隨機森林算法與KNN算法模型擬合度都達到了0.96以上,模型擬合度較高。箱線圖中箱體長度代表了交叉驗證結果分布的密集程度及模型的穩定性,因此,相對于KNN算法來說,隨機森林算法更加穩定,并且由圖6可以看出KNN算法的中位數明顯小于平均值,這代表結果為偏態分布,且存在極大值。因此,隨機森林算法模型的穩定性更好,但KNN模型的擬合效果可能出現最優。

2.3 模型對比分析

各個模型的評價結果如表4所示。其中R2代表模型擬合效果好壞,一般來說,R2越趨近于1,表示模型擬合效果越好。由表4可以看出,隨機森林算法和KNN算法的R2在0.9以上,兩種算法的擬合效果皆優于SVM支持向量機。由于服裝銷量數字量級往往較大,因此用均方根誤差(RMSE)來衡量預測值與真實值之間的差距。RMSE越大,預測結果越穩定。其中隨機森林算法的RMSE最小,KNN其次,兩者效果均優于SVM支持向量機。平均絕對誤差(MAE)反映了預測值的偏離程度,誤差越大,MAE值也越大。由表4還可以看出,隨機森林算法的MAE值最小,KNN次之,SVM支持向量機最大。與其他指標相比,平均絕對百分比誤差(MAPE)更關注預測值和真實值間的相對誤差。當MAPE≤50%時,代表預測結果與真實值間的相對誤差合理;MAPE>50%,預測結果不準確[37]。因此,隨機森林算法與KNN算法的預測準確性合理,而SVM支持向量機算法的預測結果不準確。

綜上,隨機森林算法和KNN算法的各項指標均優于SVM算法,預測效果相對較好。根據五折交叉驗證結果,隨機森林算法比KNN算法更加穩定,并且其R2、RMSE和MAE均優于KNN算法。而KNN算法的MAPE小于隨機森林算法,可能的原因是KNN算法預測低銷量商品時準確率更高,所以相對誤差較小。

3 結 論

通過閱讀相關文獻,本文挖掘出17個可能與服裝直播銷量相關的變量,根據相關性分析結果,篩選出10個相關性檢驗顯著的變量,包括產品近30天歷史銷量、產品講解時長、主播近30天場均觀看人數、產品價格、品牌近30天歷史銷量、主播近30天場均坑產、折扣、主播粉絲數、品牌粉絲數、主播帶貨口碑。其中,產品近30天歷史銷量與服裝直播銷量的相關性最高,這表示服裝以往是否暢銷會對直播銷量有較大影響。其次,產品講解時長與直播銷量的相關性也較高,這表示直播中是否著重講解產品也會很大程度影響服裝直播銷量。其他變量與服裝直播銷量的相關性系數也較高,為了避免影響因素之間出現共線性問題,本文通過影響因素間的相關性分析,剔除與其他影響因素相關性較大的主播帶貨口碑,將其余9個變量納入預測模型。

根據各模型最終的評估結果,篩選出2種最適合本模型和數據集的算法,分別為隨機森林算法和KNN算法。根據五折交叉驗證結果,隨機森林算法與KNN算法相比更加穩定,并且其RMSE、MAE都比較低,可能的原因是KNN算法更適用于數據特征相似性更強的數據集。因此,在實際應用中可以將隨機森林作為主要預測算法,以確保整體銷售趨勢預測的穩定性。在預測同品牌或同品類服裝產品銷量時,數據之間的相似性更高,此時可考慮使用KNN算法進行預測。本文為服裝直播銷量預測提供了一種新的思路和方法,可以幫助商家制定生產計劃,提高庫存管理效率,改進營銷策略。對于服裝商家來說,第一,商家可根據預測結果的銷量高低制定未來的生產計劃,確保庫存充足的同時避免貨物積壓。第二,零售商可以根據主播特征及其持有產品和品牌的相關特征,將服裝精準投放至直播間。第三,零售商可使用不同的講解時長、產品價格和折扣預測直播銷量,以選擇合適的直播營銷策略。

本文在研究服裝直播銷量時,只考慮了容易量化的因素,而影響服裝直播銷售的因素多種多樣,只對其中一部分進行了探究,在后續研究過程中需要尋找其他重要影響因素的量化方法。其次,研究過程中樣本分布具有局限性,選取的時間范圍較短,高銷量的樣本數較少,樣本數量不足,后續研究需要更多數據支撐。服裝直播銷量的預測模型未來可進一步優化調整,如擴大樣本選取范圍,完善預測指標體系,以達到更精準的預測效果。

參考文獻:

[1]ZHANG M L, LIU Y F, WANG Y, et al. How to retain customers: Understanding the role of trust in live streaming commerce with a socio-technical perspective[J]. Computers in Human Behavior, 2022, 127: 107052.

[2]XU W, CAO Y, CHEN R Y. A multimodal analytics framework for product sales prediction with the reputation of anchors in live streaming e-commerce[J]. Decision Support Systems, 2024, 177: 114104.

[3]汪蕓芳, 史意, 陳麗華. 基于BP神經網絡及灰色GM(1,1)模型的服裝供應鏈第三方庫存預測應用研究[J]. 數學的實踐與認識, 2020, 50(3): 277-285.

WANG Y F, SHI Y, CHEN L H. Third-party inventory forecasting application research of apparel supply chain based on BP neural network and grey GM (1, 1) model[J]. Mathematics in Practice and Theory, 2020, 50(3): 277-285.

[4]HE Q Q, WU C Y, SI Y W. LSTM with particle swam optimization for sales forecasting[J]. Electronic Commerce Research and Applications, 2022, 51: 101118.

[5]鄭金峰. 基于模擬退火算法優化BP神經網絡的服裝直播銷售預測研究[D]. 杭州: 浙江理工大學, 2023.

ZHENG J F. Research on Clothing Live Broadcast Sales Prediction Based on Simulated Annealing Algorithm Optimized BP Neural Network[D]. Hangzhou: Zhejiang Sci-Tech University, 2023.

[6]孟志青, 馬珂, 鄭英. 基于核函數技術的時尚服裝需求預測方法[J]. 計算機科學, 2016 (增2): 455-460.

MENG Z Q, MA K, ZHENG Y. Forecasting method for fashion clothing demand based on kernel functions technology[J]. Computer Science, 2016, 43(S2), 455-460.

[7]LIN Q P, JIA N, CHEN L, et al. A two-stage prediction model based on behavior mining in livestream e-commerce[J]. Decision Support Systems, 2023, 174: 114013.

[8]李建斌, 雷鳴顥, 戴賓, 等. 考慮促銷因素的醫藥電商平臺需求預測研究[J]. 中國管理科學, 2022, 30(12): 120-130.

LI J B, LEI M H, DAI B, et al. E-pharmacy demand forecasting in the presence of promotional activities[J]. Chinese Journal of Management Science, 2022, 30(12): 120-130.

[9]VAN RUITENBEEK R E, KOOLE G, BHULAI S. A hierarchical agglomerative clustering for product sales forecasting[J]. Decision Analytics Journal, 2023, 8: 100318.

[10]WANG L, LI X, ZHU H Y, et al. Influencing factors of livestream selling of fresh food based on a push-pull model: A two-stage approach combining structural equation modeling (SEM) and artificial neural network (ANN)[J]. Expert Systems with Applications, 2023, 212: 118799.

[11]程肖冰, 曹麗婷, 李蘇建. 基于混合優化神經網絡的零售銷量預測[J]. 統計與決策, 2022, 38(6): 185-188.

CHENG X B, CAO L T, LI S J. Retail sales forecasting based on hybrid optimal neural networks[J]. Statistics amp; Decision, 2022, 38(6): 185-188.

[12]張晨, 邱彤. 基于決策樹集成模型的加油站銷量預測[J]. 計算機與應用化學, 2019, 36(6): 615-619.

ZHANG C, QIU T. Gas station sales forecast based on decision tree integration model[J]. Computers and Applied Chemistry, 2019, 36(6): 615-619.

[13]何喜軍, 馬珊, 武玉英, 等. 小樣本下多維指標融合的電商產品銷量預測[J]. 計算機工程與應用, 2019, 55(15): 177-184.

HE X J, MA S, WU Y Y, et al. E-commerce product sales forecast with multi-dimensional index integration under small sample[J]. Computer Engineering and Applications, 2019, 55(15): 177-184.

[14]BANSAL M, GOYAL A, CHOUDHARY A. A comparative analysis of K-nearest neighbor, genetic, support vector machine, decision tree, and long short term memory algorithms in machine learning[J]. Decision Analytics Journal, 2022, 3: 100071.

[15]YOO T W, OH I S. Time series forecasting of agricultural products’ sales volumes based on seasonal long short-term memory[J]. Applied Sciences, 2020, 10(22): 8169.

[16]劉妍兵, 劉倫倫, 唐穎. 基于BP神經網絡的童裝流行元素預測[J]. 毛紡科技, 2022, 50(2): 109-115.

LIU Y B, LIU L L, TANG Y. Prediction of popular elements of children’s wear based on BP neural network[J]. Wool Textile Journal, 2022, 50(2): 109-115.

[17]羅戎蕾, 劉紹華, 蘇晨. 基于遺傳算法的BP神經網絡服裝銷售預測方法[J]. 北京郵電大學學報, 2014, 37(4): 39-43.

LUO R L, LIU S H, SU C. Garment sales forecast method based on genetic algorithm and BP neural network[J]. Journal of Beijing University of Posts and Telecommunications, 2014, 37(4): 39-43.

[18]林婷婷, 曲洪建. 網紅營銷要素對服裝消費者購買意愿的影響[J]. 絲綢, 2019, 56(3): 54-62.

LIN T T, QU H J. The influence of online celebrity marketing elements on the purchase intention of apparel consumers[J]. Journal of Silk, 2019, 56(3): 54-62.

[19]孫一文, 羅戎蕾. 基于Stacking集成學習的服裝網絡直播銷量預測[J]. 染整技術, 2023, 45(4): 1-5.

SUN Y W, LUO R L. Online live broadcast sales forecast for clothing based on Stacking integrated learning[J]. Textile Dyeing and Finishing Journal, 2023, 45(4): 1-5.

[20]李雪. 基AHP和BP神經網絡的服裝銷售預測模型的研究及應用[D]. 杭州: 浙江工商大學, 2014.

LI X. The Research and Application of Clothing Sales Forecasting Model Based on AHP and BP Neural Network[D]. Hangzhou: Zhejiang Gongshang University, 2014.

[21]李蓓蓓. 網紅直播帶貨、品牌認同與消費者購買行為[J]. 商業經濟研究, 2022(14): 83-85.

LI B B. Influencer live streaming, brand identity and consumer purchasing behavior[J]. Journal of Commercial Economics, 2022(14): 83-85.

[22]鄭金峰, 羅戎蕾. 服裝銷售定量預測方法研究進展[J]. 現代紡織技術, 2022, 30(2): 27-35.

ZHENG J F, LUO R L. Research progress on quantitative forecast methods of clothing sales[J]. Advanced Textile Technology, 2022, 30(2): 27-35.

[23]陳金車. 基于機器學習的西北省會城市空氣污染物濃度預報方法研究[D]. 蘭州: 蘭州大學, 2023.

CHEN J C. Research on Forecasting Method of Air Pollutant Concentration in Northwest Provincial Capital Cities Based on Machine Learning[D]. Lanzhou: Lanzhou University, 2023.

[24]BREIMAN L. Random forests[J]. Machine Learning, 2001, 45: 5-32.

[25]BELGIU M, DRAGUT L. Random forest in remote sensing: A review of applications and future directions[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 114: 24-31.

[26]VERIKAS A, Gelzinis A, BACAUSKIENE M. Mining data with random forests: A survey and results of new tests[J]. Pattern Recognition, 2011, 44(2): 330-349.

[27]MEMORY L S T. Long short-term memory[J]. Neural Computation, 2010, 9(8): 1735-1780.

[28]VAPNIK V, GOLOWICH S, SMOLA A. Support vector method for function approximation, regression estimation and signal processing[J]. Advances in Neural Information Processing Systems, 1996(9): 281-287.

[29]章軍輝, 陳明亮, 郭曉滿, 等. 基于粒子群優化支持向量機的紗線質量預測[J]. 棉紡織技術, 2024, 52(4): 16-22.

ZHANG J H, CHEN M L, GUO X M, et al. Yarn quality prediction based on support vector machine optimized by particle swarm optimization[J]. Cotton Textile Technology, 2024, 52(4): 16-22.

[30]HANDHAL A M, Al-ABADI A M, CHAFEET H E, et al. Prediction of total organic carbon at Rumaila oil field, Southern Iraq using conventional well logs and machine learning algorithms[J]. Marine and Petroleum Geology, 2020, 116: 104347.

[31]DUDEK G, PELKA P. Pattern similarity-based machine learning methods for mid-term load forecasting: A comparative study[J]. Applied Soft Computing, 2021, 104: 107223.

[32]MAILAGAHA KUMBURE M, LUUKKA P. A generalized fuzzy K-nearest neighbor regression model based on Minkowski distance[J]. Granular Computing, 2022, 7(3): 657-671.

[33]LIU H, CAI J, ONG Y S. Remarks on multi-output Gaussian process regression[J]. Knowledge-Based Systems, 2018, 144: 102-121.

[34]謝坤, 容鈺添, 胡奉平, 等. 基于數據集成的隨機森林算法[J]. 計算機工程, 2020, 46(12): 290-298.

XIE K, RONG Y T, HU F P, et al. Random forest algorithm based on data integration[J]. Computer Engineering, 2020, 46(12): 290-298.

[35]張軍凱, 孫志鋒. 基于優化灰色-馬爾可夫鏈的銷量預測[J]. 現代制造工程, 2019(4): 7-13.

ZHANG J K, SUN Z F. Sales forecast based on optimized grey-markov chain[J]. Modern Manufacturing Engineering, 2019(4): 7-13.

[36]卞利花, 吉敏全. 青海交通碳排放影響因素及預測研究[J]. 生態經濟, 2019, 35(2): 35-39.

BIAN L H, JI M Q. Research on influencing factors and prediction of transportation carbon emissions in Qinghai[J]. Ecological Economy, 2019, 35(2): 35-39.

[37]RAY S, LAMA A, MISHRA P, et al. An ARIMA-LSTM model for predicting volatile agricultural price series with random forest technique[J]. Applied Soft Computing, 2023, 149: 110939.

Apparel livestreaming sales forecasting models based on machine learning algorithms

ZHANG Chi, WANG Xiangrong

HAN Bo, LI Pei

(School of Textiles and Fashion, Shanghai University of Engineering Science, Shanghai 201620, China)

Abstract: With the dramatic increase in the scales of e-commerce livestreaming, the number of e-commerce livestreaming users has reached 48.8% of the overall Internet users in China. The huge supply demand requires live e-commerce stores to improve their dispatching efficiency and reduce inventory. Therefore, in order to avoid retailers’ profit loss, it is necessary to find a more accurate method to predict livestreaming sales.

The sales prediction methods mainly include traditional statistical methods and machine learning algorithms. Due to the instability of livestreaming sales and the large number of influencing factors, traditional statistical methods often fail to predict the sales accurately. To complete the index system of livestreaming sales prediction and improve the accuracy of livestreaming sales prediction, this paper adopted a variety of machine learning algorithms (BP neural network, decision tree (DT), random forest (RF), K-nearest neighbor (KNN), and support vector machine (SVM)), analyzed the influencing factors of apparel livestreaming sales, predicted apparel livestreaming sales, and selected the best performing algorithms. The detailed research process is as follows. Firstly, 17 influencing factors of livestreaming sales were selected through literature review, and nine most important influencing factors were selected by using Spearman’s correlation coefficient combined with significance. Secondly, different machine learning algorithms were used to establish clothing sales prediction models, and the method of 5-fold cross-validation was adopted to initially screen out three algorithms (RF, KNN and SVM) with high and stable model fit with R2 as an indicator. Finally, the parameters of the three algorithms were optimized, and then, three prediction models were constructed. R2, MAE, RMSE and MAPE were used as evaluation indexes, and the optimal algorithms were selected by using the method of 5-fold cross-validation to test the performance of each model.

The results of the study show that: the multicollinearity between the nine factors (number of fans of the anchor, average number of viewers of the anchor in the last 30 days, average pit output of the anchor in the last 30 days, product price, duration of product explanation, historical sales of the product in the last 30 days, number of fans of the brand, historical sales of the brand in the last 30 days, and discounts) is weak and their correlation with the livestreaming sales is significant. Therefore, these nine factors can be used as influencing factors in the prediction model. Among the influencing factors, the correlation among product sales in the last 30 days, the duration of product explanation and livestreaming sales is the highest. In the meanwhile, the prediction algorithms, KNN and RF perform better, with R2 being greater than 0.98 and MAPE within 30.5%. Compared with the KNN algorithm, the RF algorithm is more stable, and its R2, RMSE and MAE perform better than those of the KNN algorithm. But the MAPE of the KNN algorithm is smaller than that of the RF algorithm, for which the possible reason is that the KNN algorithm is more accurate in predicting low sales items, and the relative error is smaller. According to the result of 5-fold cross-validation, the RF algorithm is more stable compared with the KNN algorithm, and the possible reason is that the KNN algorithm is more suitable for the dataset with more similar data features. Therefore, RF can be used as the main prediction algorithm in practical applications to ensure the stability of the overall sales trend prediction. In predicting the sales of the same brand or the same category, the similarity between the data is higher, and then the KNN algorithm can be considered for prediction.

This paper compares the performance of various prediction algorithms on livestreaming sales prediction, optimizes the parameters and improves the accuracy of livestreaming sales prediction. The prediction results can help retailers make inventory planning, adjust production schedules, develop marketing strategies, and provide data support for product purchasing, pricing, and promotion. Due to the fact that only some of the easily quantifiable influencing factors are explored in this paper and the sample distribution is limited, future research can expand the scope of sample selection and further improve the predictive indicator system to achieve more accurate predictions.

Key words: live-streaming sales forecasting; machine learning; random forest (RF); K-nearest neighbors (KNN); support vector machine (SVM); 5-fold cross-validation

收稿日期: 2023-12-18; 修回日期: 2024-05-29

作者簡介: 韓鉑(2001),女,碩士研究生,研究方向為服裝市場營銷。通信作者:李沛,副教授,博士,pacywu@126.com。

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 国产亚洲精品无码专| 国产毛片基地| 99这里精品| 婷婷中文在线| 日本欧美中文字幕精品亚洲| 91午夜福利在线观看| 亚洲欧美日韩色图| 欧美一区二区人人喊爽| 国产精品手机视频一区二区| 激情在线网| a级毛片视频免费观看| 国产丝袜啪啪| 亚洲人成影视在线观看| 天天摸夜夜操| 国产精品伦视频观看免费| www精品久久| 人与鲁专区| 超清无码一区二区三区| 中文字幕无码制服中字| 欧亚日韩Av| 亚洲综合精品第一页| 亚洲高清免费在线观看| 亚洲色精品国产一区二区三区| 国产91丝袜在线观看| 亚洲午夜18| 中国国产高清免费AV片| 久久国产精品夜色| 国产打屁股免费区网站| 日韩激情成人| 99在线免费播放| 亚洲第一精品福利| 亚洲无码视频一区二区三区| 婷婷五月在线| 九九九久久国产精品| 国产成人精品综合| 香蕉久久国产超碰青草| 国产乱子伦视频三区| 青青草欧美| 无套av在线| 久久香蕉国产线看精品| 精品伊人久久大香线蕉网站| 久久黄色视频影| 国产欧美日韩资源在线观看| 欧美成人在线免费| 久久精品国产亚洲麻豆| 国产麻豆精品久久一二三| 国产在线视频福利资源站| 亚洲av中文无码乱人伦在线r| 精品无码日韩国产不卡av| 91精品视频播放| 91福利国产成人精品导航| 国产网站免费观看| 高清欧美性猛交XXXX黑人猛交| 欧美h在线观看| 国产99免费视频| 97久久超碰极品视觉盛宴| 四虎永久免费网站| 午夜三级在线| 九月婷婷亚洲综合在线| 婷婷亚洲视频| 亚洲va欧美va国产综合下载| 久久精品一品道久久精品| 国产青榴视频| 99999久久久久久亚洲| 亚洲aⅴ天堂| 久久不卡精品| 在线观看无码a∨| 色婷婷啪啪| 3344在线观看无码| 成人无码区免费视频网站蜜臀| 人妻精品全国免费视频| 亚洲成人手机在线| 亚洲人成成无码网WWW| 国产尹人香蕉综合在线电影| 91精品啪在线观看国产| 91亚洲精品第一| 午夜欧美理论2019理论| 久久黄色小视频| 国产原创第一页在线观看| 香蕉视频在线观看www| 九色91在线视频| 国产情侣一区|