吳琳潔,鄭鈺潔,范云飛
新零售目標產品的精準需求分析與預測
吳琳潔1,鄭鈺潔2,范云飛2
(1.暨南大學數學系,廣東 廣州 510632;2.暨南大學伯明翰大學聯合學院,廣東 廣州 510632)
在中國商品社會逐步發展,消費需求不斷升級的今天,產品多樣化、個性化需求使得相應銷售數據層級復雜,品類繁多,因此建立一個對區域層級、小類層級消費分析和需求預測模型具有重大意義。針對新零售行業精準化需求進行建模,主要分析了銷售特征、庫存信息、節假日折扣等因素對銷量的影響,通過建立主成分多元模型對未來銷售數據進行預測,同時利用平均絕對百分比誤差法獲得預測數值的精準度。通過繪制散點圖以及對平均絕對百分比誤差(MAPE公式)的分析,得到模型預測值的MAPE值在15%~35%之間,可以認為模型靈敏度較高。因此,零售行業可選擇主成分多元模型對未來銷量進行預測,從而減少缺貨、庫存成本,有利于提高經濟收益。
需求分析;需求預測;主成分分析;多元線性回歸
隨著中國消費市場新業態繼續涌現并快速發展,主流消費模式由“以物為主”逐步向“以客為主”轉變。對于零售行業,促進消費者需求的主要因素不再單是性價比等客觀商品特質,以時尚性為表現形式的個性化、審美化、多樣化的主觀因素同樣漸成消費主導需求動力。
新零售時代,零售企業將采取多品種小批量的生產形式,以適應新時代消費需求。這將導致商品小類井噴式增加,商品個性化特色強烈,零售行業商品分類管理困難,面臨消費數據層級復雜、種類繁多等一系列新的挑戰。
如何為更精細化分級至SKC(單款單色)層級的商品提供精準的數據分析和銷售預測至關重要。本文基于主觀性與客觀性兩個方面來分析影響因素,并在此基礎上建立基于主成分分析的預測模型,但單一的預測模型可能會給結果帶來較大的誤差,因此建立多元線性回歸模型形成復合預測模型,以提高模型的準確性。
數據來源為賽氪官網賽題(https://www.saikr.com/c/nd/ 6456)。根據相關問題對數據的需求和原數據的特點,首先使用R讀取附件數據表,按照相應問題所需時間篩選出對應項目后對原始數據進行相關歸類整合,接著對存在問題的數據進一步進行修正處理,過程如下。
通過R整理,銷售時間處于2018-07-01—2018-10-01內且累計銷售額排名前50的skc,稱為目標skc。再找出目標skc在對應節假日的銷售額、銷售量、標價、庫存平均值和計算出的每種節假日期間的折扣。
通過R整理出排名前50的skc(目標skc)所屬的小類在2019-07-01—10-01(即2019-10-01前后3個月)的銷量數據及銷量影響因素(折扣、庫存、銷售單價等)數據。
分析整理后的數據發現,有部分skc沒有標簽價格。對于這部分沒有標簽價格的skc,本文將根據銷售價格相似的其他skc的折扣幅度,運用插值的方法填充空白值。例如,雙十一期間,對于編號為602573870209的skc,它在附件2中沒有對應標價(tag price),因此使用與其銷售價格相似的596573650847(折扣為0.86)與208573761122(折扣為0.81)等,再根據銷量的相似程度對其進行加權插值,得出其折扣約為0.857。
缺失庫存數據:對于沒有庫存數據的skc,首先定位其所在的小類,然后利用小類中其他skc的庫存對其進行庫存估算。
在研究如何對現代愈加精細化的小類需求做出預測之前,面臨的實際問題是如何衡量各種影響因素對于銷售量的影響程度。探討銷售量受銷售特征、庫存信息、節假日折扣等因素的影響。因此,結合基于附件1和附件4整合修正好的的數據,從主觀和客觀兩個角度分析影響銷售量的因素。
客觀上,在2018年國慶節、雙十一、雙十二和元旦這四個節假日內,提取目標skc,分析庫存信息、原價與標簽價格等信息,再利用SPSS軟件,得出相關性矩陣,以此分析客觀上的相關性。
主觀上,構建主成分分析法模型,根據該模型得到各種因素對目標skc銷售量影響的貢獻程度,以此分析主觀上的相關性。
分析不同因素對目標skc銷售量的影響,這些因素包括產品銷售特征、庫存信息、節假日折扣等信息,其中,將商品屬于的小類(小類類別)與銷售時間(在哪個節假日進行銷售)作為產品銷售特征;根據節假日商品的銷售量(s)與當天實際花費(real cost)得出商品當天的銷售價格(selling price),并與標簽價格(tag price)作比,得出商品在節日當天的節假日折扣(discount);利用附錄三提取出目標skc的當天庫存信息(inv)。
所統計的skc,=50個,相關因素共有4個,分別是折扣、庫存、銷售價格與小類,將數據放入矩陣。
由于各因素的數據相差過大,為了消除不同量綱的影響,避免對結果的準確性造成較大影響, 利用以下公式進行數據歸一化:

基于歸一化后的數據,從客觀上的相關性與主觀上的相關性分別進行相關性分析。
首先進行客觀上的相關性分析,可以用皮爾遜(pearson)相關系數和斯皮爾曼(spearman)相關系數對變量間的相關程度進行測量,若被解釋與解釋變量之間相關性較高,則模型研究是有意義的;但是如果解釋變量之間的相關性過高,可能會引起變量之間產生嚴重的多重共線性,從而影響模型結果。

jk為第,列數據的方差。
=-1-1(2)
式(2)中:為觀測矩陣的Pearson相關矩陣;為樣本觀測的協方差矩陣。
利用SPSS分別得到所選節假日skc銷量影響因素相關性矩陣,如表1所示。
表1 國慶相關性矩陣
折扣平均庫存銷售價格小類類別銷售量 相關性折扣1.000-.399-.072-.183-.387 平均庫存-.3991.000-.023.116.968 銷售價格-.072-.0231.000.411-.170 小類類別-.183.116.4111.000.050 銷售量-.387.968-.170.0501.000 顯著性(單尾)折扣 .056.392.241.063 平均庫存.056 .465.329.000 銷售價格.392.465 .051.257 小類類別.241.329.051 .425 銷售量.063.000.257.425
注:絕對值越接近1,表示相關性越大。
從表1可以看出,庫存是客觀上相關性最大的因素。其次是折扣,這是可以理解的,因為國慶的假期比較長,消費者可以有一段時間關注價格的動態,因此折扣也是影響消費者消費的主要客觀因素。
雙十一期間相關性矩陣如表2所示。
表2 雙十一期間相關性矩陣
折扣庫存銷售價格小類類別銷售量 相關性折扣1.000.252-.006.533.109 庫存.2521.000-.065.346.536 銷售價格-.006-.0651.000.024.128 小類類別.533.346.0241.000.190 銷售量.109.536.128.1901.000 顯著性(單尾)折扣 .149.491.009.328 庫存.149 .395.073.009 銷售價格.491.395 .462.301 小類類別.009.073.462 .218 銷售量.328.009.301.218
根據表2結果,從客觀上來看,庫存與銷量的相關性最大,這與實際生活是符合的。因為一般銷售量較好的商品,商家會多準備一些庫存,尤其是雙十一時期,商家如果根據之前的銷售記錄可預感到銷售會大幅增多,則會大大增加庫存量,保證貨源充足。其次是與小類和出售價格相關,最不相關因素的是折扣,這是因為顧客在挑選商品時一般很難了解到商品在一段時間前的價格,因此也無法得知折扣且通過折扣影響自己的消費行為的可能性很小。
雙十二期間相關性矩陣如表3所示。
表3 雙十二期間相關性矩陣
折扣庫存銷售價格小類類別銷售量 相關性折扣1.000-.296.177-.033-.263 庫存-.2961.000-.129.069.519 銷售價格.177-.1291.000.442-.495 小類類別-.033.069.4421.000-.012 銷售量-.263.519-.495-.0121.000 顯著性(單尾)折扣 .109.234.447.139 庫存.109 .299.389.011 銷售價格.234.299 .029.016 小類類別.447.389.029 .481 銷售量.139.011.016.481
從表3可以看出,庫存依然是客觀上相關性最大的因素,總體相關性與雙十一類似,這與兩個節日的相似性也有很大關系。
從2018年元旦(2017-12-30—2018-01-01與2018-12-30—2019-01-01)的統計結果發現,在目標skc中只有5個skc在元旦期間有銷量,其中還有3個skc沒有對應的標簽價格與小類分類,而且這5個skc在這期間都沒有庫存信息,因此無法對其進行相關性分析。但是從中可以看出單價較低的skc銷量略多于單價較高的skc。
元旦期間數據如表4所示。
表4 元旦期間數據表
skc日期銷售量實際價格原價格折扣銷售價格小類 3965738706602018-01-0181 3301 5900.836 478166.2527 217 089 6025738702092018-01-013380 126.666 7 6965722249502018-01-01101 051.25 105.125 9025733202752018-01-0111723.75 65.795 45 9965738705722018-01-0147007950.880 50317527 217 089
上面三個節日中,庫存的相關性最大。但并不是說大肆增加庫存,就會增加商品的銷售量,因為庫存并不能從主觀上影響商品的銷售量,因此稱其為客觀上的相關性。反而增加庫存后賣不出去,會增加貨物囤積成本,給商家帶來不必要的損失。因此,有必要進行主觀上的相關性分析,以此判定哪些因素能從主觀上影響銷售量的變化。
通過構建主成分分析法模型進行主觀上的相關性分析,主要計算步驟如圖1所示。

圖1 主觀分析計算步驟
首先計算樣本標準差:

計算相關系數矩陣:
根據樣本的相關系數矩陣, 計算出相關系數矩陣的特征方程,并計算出相應的特征值1≥2≥…≥m。根據方差特征值計算出方差貢獻率,則有:

根據前面確立的影響因素以及已有的數據,利用SPSS軟件對其進行分析計算,具體計算過程如下。以雙十二為例,進行主成分分析,具體如表5、表6所示。
根據成分得分矩陣,得出雙十二期間銷量相關的因子的表達式如下:
1=0.325×-0.273×+0.552×-+ 0.423×-
2=-0.487×+0.532×+0.187×-+ 0.472×-
以每個因子的方差貢獻率作為系數,對每個因子乘上系數后得到最終的雙十一銷售狀況預測模型公式:
=0.150 7×1+0.128 7×2
成分得分系數矩陣和方差貢獻率同樣可以反映出不同因素對因變量的貢獻程度,由此分析主觀上的影響因素??梢钥闯鲈诘谝恢鞒煞种?,銷售價格與小類的貢獻程度最高,即從主觀上來說,商家如果在雙十二期間壓低自家商品的價格,很有可能會帶來銷售量的增加。也因此稱其為主觀上的相關性,即該因素的自身變化能帶來銷售量的變化。該公式是對雙十二期間整體銷售狀況的一個呈現,可以用于后面的銷量預測。
表5 雙十二主成分分析表一
總方差解釋 成分初始特征值提取載荷平方和 總計方差百分比累積/(%)總計方差百分比累積/(%) 11.50737.68437.6841.50737.68437.684 21.28732.18069.8641.28732.18069.864 3.70117.53587.399 4.50412.601100.000 提取方法:主成分分析法
表6 雙十二主成分分析表二
成分得分系數矩陣 成分 12 折扣.325-.487 庫存-.273.532 銷售價格.552.187 小類類別.423.472 提取方法:主成分分析法,組件得分
同理,可以得到國慶期間的銷售狀況預測模型如下:
1=-0.452×+0.361×inv+0.347×-+ 0.445×-
2=0.383×-0.498×+0.527×-+ 0.358×-
以每個因子的方差貢獻率作為系數,對每個因子乘上系數后得到最終的公式如下:
=0.159×1+0.124 8×2
雙十一期間的銷售狀況預測模型如下:
1=0.452×+0.365×-0.2×-+ 0.477×-
2=0.09×-0.199×+0.962×-+ 0.107×-
以每個因子的方差貢獻率作為系數,對每個因子乘上系數后得到最終的公式如下:
=0.176 8×1+0.101 6×2
零售商品種類的繁多,使得零售行業的庫存管理有很大的難度,而銷量的不穩定,更會增加庫存堆積、缺貨等現象,加大企業的成本。而提前進行銷售預測,可以最大限度避免庫存積壓、尾單、缺貨等現象,減少企業的缺貨成本和庫存成本,從而提高企業利潤。因此,根據目標小類的產品銷售特征、庫存信息、節假日折扣等因素,利用前面得到的模型,對10個目標小類進行預測。由于單一的預測模型可能會給結果帶來較大的誤差,因此建立多元線性回歸模型,利用模糊分析法得出兩種方法的權重,得到最終的預測值,并給出每個月預測值的。
前面模型是根據三個節假日(國慶、雙十一、雙十二)進行的分析,因此選擇與之相吻合的時期(10-01后3個月)??梢灾苯訉η懊娴墓竭M行整合,得到預測模型。統計目標小類在需要預測的時期的折扣、庫存、銷售均價(銷售額/銷售量),可以代入公式求解。對于原公式出現的小類項,因為要預測的項目即為小類項,所以將原公式的小類項舍棄,其他項不變,得到新的公式A′,B′,C′。因為雙十一與雙十二屬于較重大的購物節日,與平時一般時間的銷售狀況可能存在差距,因此給其分配較低的權重系數,為40,國慶節較為接近平時一般狀況,因此其系數為50。
可以得到加權修正后的基礎預測模型公式:

建立多元線性回歸模型,對自變量1,2,…,p與因變量進行多元線性回歸:
=(1,2,…,p)+(3)
式(3)中:為銷售量;1,2,…,p為影響因素(銷售額、銷售均價、庫存、折扣);表示誤差項。
利用公式=(T)-1T,得到回歸公式=+。
以12月為例,利用Python進行計算,得到的值為[﹣2.580 3+03,8.465 2﹣03,5.795 2+00,8.456 2+03,﹣2.974 8+01]。
將值代入得到回歸公式=﹣258 0.3+0.008 465 21+ 5.795 22+845 6.23﹣29.744。
需要預測的時期的銷售額、銷售均價、庫存、折扣,這些影響因素代入公式即可得到預測值。
通過將整合處理好的數據代入以上模型,可以得到12月份預測值的QQ圖,如圖2所示。12月份方差分析如表7所示。

圖2 12月份QQ圖
表7 12月份方差分析表
方差來源自由度平方和(SS)均方(MS)F值p值 回歸(R)42.652 8e+0866 318 937.138 2103.729 95.368 7e-05 誤差(E)53 196 711.547 1639 342.309 4 總和(T)92.684 7e+08
可以看到,點與直線有大致的擬合趨勢,但仍存在較大誤差,這是因為使用單一的預測模型會給結果帶來較大的誤差,單項預測方法會有自身的優點和限制條件。因此需要將前面的模型與多元線性回歸模型進行整合,利用模糊分析法,得到最終的模型公式為=0.9×+0.1×。
12月份實際銷售量與預測銷售量對比如圖3所示。
如圖3可見,12月份預測銷量和實際銷量幾乎重疊,說明直觀上,最終的模型預測具有一定的可信度和準確性。公式如下:

最后,對預測數據進行量化評估,運用公式計算得出,12月份預測結果的值為0.170 707,11月份的為0.355 463,10月份的值為0.289 616。

圖3 12月份實際銷售量與預測銷售量對比
本文通過平均絕對百分比誤差法證實該主成分多元模型的可靠性,并可用于零售行業銷量的預測。隨著消費市場的不斷發展,企業的零售產品越來越趨向多樣化與個性化,針對多樣化與個性化的模型將對這類行業大有用處。
[1]何汝群.珠江-西江經濟帶城市經濟活力評價研究[D].桂林:廣西師范大學,2019.
[2]梅學聃,周梅華.有限時間數據下的零售藥店藥品銷量預測研究[J].中國礦業大學學報(社會科學版),2020,22(3):133-144.
[3]楊維中.SPSS統計分析從入門到精通[M].北京:清華大學出版社,2019.
[4]江艷婷,劉玉琬.基于IOWA算子的我國社會消費品零售總額的組合預測[J].價值工程,2020,39(7):54-56.
[5]楊冰融.基于多元線性回歸與BP神經網絡的乘用車市場預測模型[D].武漢:華中科技大學,2017.
[6]張帆.基于商品品類的零售供應鏈需求預測與庫存管理模式研究[D].成都:電子科技大學,2011.
[7]葉欣.淘寶集市店鋪手機銷量影響因素分析[D].北京:中國社會科學院研究生院,2018.
[8]王正軍,劉光健,呂明,等.十堰市2000—2007年抗抑郁藥年銷量變化相關因素多元線性回歸分析[J].中國醫院藥學雜志,2009,29(1):80-83.
[9]崔田.基于網絡搜索數據的品牌汽車銷量預測研究[D].西安:西安理工大學,2019.
[10]周潔.基于時間順序預測技術的“馬鋼”銷售量與配車次數分析[J].科技經濟市場,2020(3):7-9.
[11]曹晗.基于深度學習的餐飲業菜品銷量預測研究[D].西安:西安理工大學,2019.
F224
A
10.15913/j.cnki.kjycx.2020.18.013
2095-6835(2020)18-0034-05
吳琳潔(1998—),女,廣東潮州人,本科。鄭鈺潔(2000—),女,四川成都人,本科。范云飛(2000—),男,廣東廣州人,本科。
〔編輯:嚴麗琴〕