徐 琪,張陽奎
(東華大學 旭日工商管理學院,上海 200051)
時尚服裝由于具有季節性、時尚性、易貶值等特點,在競爭激烈的市場環境中,常常會出現缺貨或積壓的情況。因而,提高控制時尚服裝庫存水平,對于時裝零售商的盈利至關重要。而庫存與銷售預測直接相關,銷售預測不僅影響庫存及公司的盈利,而且影響服務客戶質量。當面臨缺貨時,客戶可能決定在其他零售商處購物。另外,時裝行業的供應鏈較長,涉及眾多參與者,如原材料的供應商、制造商、分銷商和零售商,導致各參與方在未準確了解客戶需求的情況下,為了時尚服裝產品的生產與銷售而提前下訂單,從而產生供應鏈上的牛鞭效應。
為了準確進行銷售預測,多年來研究人員提出了很多統計分析方法,使用頻率較高的有指數平滑法、回歸分析法、自回歸積分滑動平均模型(Autoregressive Integrated Moving Average Model,ARIMA模型)等。近年來,神經網絡等深度學習方法被大量研究人員用于銷售預測,但深度學習模型是一個黑箱模型,預測結果的可解釋性不強。另外,深度學習模型在不同的場景下,預測性能并不穩定,而且神經網絡的層數、隱層節點數等參數都需要研究人員依靠豐富經驗去調整,這會耗費大量預測時間,因而基于深度學習的預測方法在應用上存在一定的局限性。
文章綜合考慮時尚服裝歷史銷售因素、節假日因素、宏觀經濟因素以及天氣因素對時尚服裝銷售量的影響,結合基于時間序列的ARIMA 模型與機器學習中的隨機森林模型,構建了一種新的時裝銷售組合預測模型。該模型能夠提升預測精度,并且預測所需的時間也比基于深度學習的模型短,可解釋性更強。文章最后用實例驗證了模型的有效性,以便得到有價值的結論。
Y
)分解為時尚流行趨勢因素影響下的銷售額(T
)、季節性因素影響下的銷售額(S
)、周期性因素影響下的銷售額(C
)和不規則變動因素影響下的銷售額(I
)4 個部分,用公式(1)表示:
T
,如時尚服裝的流行趨勢。而隨機森林模型作為機器學習中具有監督、層次結構的決策樹的集成模型,通過輸入時尚服裝銷售相關的訓練數據,不斷調參與迭代,能夠捕捉到訓練數據集中天氣、經濟環境、節假日因素與銷售額之間的非線性關系(S
+C
+I
),進而用于時尚服裝的預測,因此考慮將這兩個模型加以融合,形成一種新的時尚服裝銷售組合預測模型,以預測時尚服裝的銷售額。p
,d
,q
)時間序列如(2)所示:
y
為當前預測的銷售額;μ
為常數項;ε
為白噪聲序列;p
為自回歸階數;d
為差分次數;q
為移動平均階數;γ
為自回歸系數;θ
為白噪聲序列的權重因子。時尚服裝的原始銷售數據受到多種因素的干擾,可能是非平穩的時間序列數據,因為平穩性是時間序列分析的先決條件,所以需要對不穩定的服裝銷售歷史數據序列進行處理,將其轉化為平穩的序列,然后進行模型的識別和定階。這里主要是確定自回歸階數p
、移動平均階數q
這兩個參數。確定這兩個參數以后,需要對每一階的系數進行參數估計,得到系數的估計值以后,將其帶入模型,對模型進行適應性檢驗,檢驗通過后,對用得到的模型進行預測,將預測值與真實值進行對比,從而確定模型的有效性。1.1.1 差分次數d
的確定ARIMA 模型可看作是AR+I+MA 的組合,其中I的作用是通過對原序列進行差分運算使得差分后的序列具有平穩性,即差分后的時間序列的噪聲ε
為白噪聲,滿足ε
WN(0,σ
)。為了使得序列變得更加平穩,首先要確定差分次數。筆者用X
表示零售服裝銷售額所構成的時間序列,x
表示序列中第t
個點代表的銷售額,t
=1,2,3…N
,N
表示序列X
的長度。記符號Δ為差分算子,一階差分表示為:Δx
=x
-x
,相應的,d
階差分可用(3)表示:
d
階差分,然后對差分后的時間序列做平穩性的adf 檢驗得到最佳差分階數。1.1.2 ARIMA 模型中參數p
與q
的確定通過式(3)的差分方法對原始銷售額時間序列進行差分,使得時尚服裝銷售額的時間序列平穩以后,即可建立ARMA(p
,q
)模型,ARMA(p
,q
)模型是由AR(p
)和MA(q
)模型組合得到的,其中AR(p
)模型可以用(4)表示:
q
)模型可以用(5)表示:
p
)+MA(q
)模型的組合ARMA(p
,q
)表達式(6)如下:
c
為常數項;ε
為白噪聲,滿足E
(ε
)=0,Var(ε
)=σ
;γ
為自回歸系數;θ
為白噪聲序列的權重因子;p
為自回歸階數;q
為移動平均階數。用X
表示服裝銷售額所構成的時間序列,x
表示序列中第t
個點代表的銷售額,t
=1,2,3…N
,N
表示序列X
的長度,則該銷售額時間序列的均值和方差分別為:μ
=E
(X
),σ
=D
(X
)=E
(X
-μ
)。定義滯后k
階的銷售額時間序列自相關系數(acf
)和偏自相關系數(pacf
)分別為(7)和(8):
因為式(8)無法直接求解,需要使用Yule-Walker方程進行轉化并化簡后進行求解。Yule-Walker方程寫成矩陣形式為:


由以上建模和求解過程,結合文獻中使用的相關定階方法,得到初步定階,在初步確定階數范圍之后,再根據赤池信息準則(Akaike Information Criterion,AIC)確定最佳定階。
1.1.3 權重參數的極大似然估計
假設{X
,t
=0,±1,±2,…}是經過中心化后的ARMA(p
,q
)序列,已取得銷售額的時間序列樣本,它的概率密度函數為式(9):


根據式(9)可得對數似然函數為式(10):



根據式(11)可求出:

將其帶入(13):


1.1.4 基于ARIMA 模型的服裝銷售預測
根據前面所構建的ARIMA 模型,進一步利用該模型進行服裝銷售預測。根據式(4)AR(p
)模型對銷售額時間序列的前s
步進行預測,其預測方法公式(15)表示如下:
q
)模型做服裝銷售額時間序列的前s
步預測,其預測方法用公式(16)表示如下:
p
,q
)模型對銷售額時間序列的前s
步預測方法為(17):
n
行代表第n
個樣本,即一條銷售記錄,矩陣中的前m
-1 列代表影響銷售額的因素,第m
列為銷售額,在該數據集上進行隨機森林模型的訓練。文章是預測銷售額,銷售額是一個連續的變量,所以需要通過并行的建立多顆二叉回歸決策樹(Classification And Regression Tree,CART),最終對所有決策樹葉子節點預測值取平均得到銷售額的預測值。單顆二叉決策樹的數學原理表達式(18)如下所示:
y
是第i
個樣本(銷售記錄)的真實銷售額,c
為D
數據集的樣本輸出均值,c
為D
數據集的樣本輸出均值。為了求出每一次的最優劃分特征和最佳劃分點,需要采用基尼系數作為劃分的依據,基尼系數的表達式(19)如下:
p
代表樣本屬于第k
個類別的概率,|C
|代表第k
個類別下的樣本量,|D
|代表總的樣本量,基尼系數越接近于0,則劃分的效果越好。并行地構造多棵決策樹,就得到了隨機森林模型。G
的預測誤差定義見式(20):
y
為真實銷售額,y′
為預測的銷售額,同理,隨機森林模型RF
的預測誤差定義見式(21):
時間序列模型的預測值所占的權重定義見式(22):

因為模型1 與模型2 的權重之和為1,所以模型2預測出的銷售額所占的權重如式(23)所示:

最終得到組合預測模型如式(24)所示:

為了評估組合銷售預測模型的有效性,以機器學習競賽平臺kaggle上所給出的美國某零售商的服裝銷售數據集為分析對象,按照數據預處理,模型訓練,基于交叉驗證的參數選擇,實例分析模型評估。

為進一步探究季節性因素對3 種類型服裝銷售額的影響,需要分別對3 種類型的服裝按式(25)求出其季節指數,該指數可同時作為隨機森林模型調參的重要依據:

n
為總年數,m
為總月數,x
代表第i
年第k
月的銷售數據,xk
為周期內各期平均數,x
-為總平均數,s
-為季節指數。對于原始的天氣數據,在對缺失值填補后對類別型特征進行啞編碼。對于宏觀經濟數據,刪除缺失值數量過多且缺乏有效信息的特征。完成上述處理后,對時間序列值按月進行采樣。
根據式(24)的組合預測模型,筆者以女裝為例,以2009—2014 年的銷售數據作為訓練數據,以2015年的數據作為模型的測試數據,對訓練數據作三折交叉驗證后,選擇均方誤差最小的模型及其參數來預測2015 年的銷售額,最終求得組合銷售預測模型中隨機森林模型的權重為0.73,ARIMA 模型的權重為0.27。單一模型以及組合模型的預測效果如圖1所示。

圖1 單模型以及組合預測模型的預測效果
從圖1 中可以看出,ARIMA 與隨機森林這兩種單一模型都能反映出銷售額變化的一些趨勢。但ARIMA 僅僅考慮時間因素,所以進行長期預測時偏差很大、權重較小,而隨機森林考慮天氣、經濟等眾多因素,預測較為準確,權重更大。組合預測模型結合了這兩種模型的優勢,在預測效果上能更加接近數據的真實值,偏差相對較小。
在大數據時代,服裝零售商在進行銷售預測時,不僅要考慮歷史銷售數據,還要獲取更多的經濟、天氣、節假日,甚至消費者習慣等數據。機器學習技術可以充分挖掘和分析數據,準確預測未來消費需求,從而幫助服裝零售商做出正確的庫存決策。
此外,機器學習往往需要大量的樣本參與訓練,才能得到魯棒性強的模型和較高的預測精度,文章中訓練隨機森林的樣本量較少,只有6 年的數據。近年來,發展較快的遷移學習方法可以通過源域到目標域的模型調整,生成大量相似的樣本,進而增加數據,提高訓練模型的預測精度,這也將是文章進一步研究的方向之一。