王長瓊,曹乜蜻,王艷麗,邱 杰,劉曉宇
武漢理工大學 物流工程學院,武漢 430063
近年來,隨著中國電子商務爆發式的增長,用戶需求預測成為企業電子商務戰略的核心部分,并對市場導向與庫存控制具有積極影響。
在電商需求分析方面,李長春對阿里電商平臺的交易數據進行挖掘,并運用隨機森林方法對商品需求進行動態預測[1]。許圣佳、蔣煒通過利用點擊量和購買量的歷史信息進行需求預測,運用阿里巴巴大數據進行實證分析[2]。Qiu等人在電商環境下建立客戶購買預測模型(COREL),并運用京東數據調查客戶動機,挖掘顧客消費偏好[3]。Yang等人通過網站進行市場購物籃分析以挖掘消費者網上購物模式[4]。綜上可知,學者們已經對電商環境下的需求變化進行了探究,但是單一的預測模型本身的局限性會影響預測精度,同時網購用戶訂單需求預測的相關研究相對缺乏。
在網絡搜索應用方面,孫燁等人通過加入百度指數的VAR模型對三清山日游客量進行預測分析,發現移動端百度指數比PC端有更好的預測效果[5]。張愛華等人以余額寶資產規模為例,運用ARIMA模型構建引入互聯網搜索量的市場需求預測模型[6]。Preis通過分析谷歌中與金融相關的搜索詞的變化,發現該模式可以成為股票市場波動的“預警信號”[7]。Hand等人研究發現谷歌趨勢數據可以提高電影錄取預測模型的準確性[8]。綜上所述,網絡搜索產生的影響日益增大,但目前在網絡搜索對電商用戶訂單預測方面的研究尚未明確。
在組合預測模型方面,王寧等人在訓練過程中采用網格搜索法對支持向量機回歸模型參數進行優化[9]。丁宏飛等人通過蜂群優化算法對參數進行優化,提出了一種基于多模型融合預測算法的BP神經網絡和支持向量機相結合的組合預測方法[10]。丁閃閃等人采用Adaboost算法對BP神經網絡進行優化,構建了BP_Adaboost預測模型,以改善傳統BP神經網絡的預測性能并利用南京市典型道路數據對該方法進行了性能評價[11]。楊波、吳涵等人建立趨勢曲線預測模型、回歸預測模型及灰色預測模型的物流需求單項預測模型,以Shapley值為權重確定方法,建立了組合預測模型,并以重慶空港物流園為例進行應用[12]。Tselentis等人比較了統計與貝葉斯組合模型和經典單時間序列模型在短期交通預測中的表現,并證明了組合預測的風險比選擇單一模型的風險要低[13]。Voronin等人結合小波變換、ARIMA模型和神經網絡,建立組合預測模型,同時對電力需求和價格進行預測[14]。李翔、朱全銀針對傳統BP神經網絡容易陷入局部極小、預測精度低的問題,提出使用Adaboost算法和BP神經網絡相結合的方法,提高網絡預測精度和泛化能力[15]。綜上所述,組合預測模型在一定程度上可以有效地提高預測精度,但在電商應用方面還較少,選取的數據和指標較為單一。
本文擬建立基于BP神經網絡、基于Adaboost的BP神經網絡、支持向量機SVM(Support Vector Machine)的組合預測模型,以避免單一模型的不足。同時,本文將影響網購用戶的直接因素與相關網絡指數結合,構建一套融合百度指數和電商訂單衍生信息的指標體系,以進一步提高組合預測模型精度。
組合預測能夠整合單項預測的優勢,較大限度地利用各單項預測樣本信息,有效彌補單一預測因隨機因素的影響導致預測誤差較大的缺點,從而提高整體預測精度。針對BP神經網絡易陷入局部最優化、Adaboost算法對異常樣本的敏感、SVM對大規模訓練樣本的困難性,本文將適用于物流需求預測的BP神經網絡預測方法、基于Adaboost的BP神經網絡預測方法、支持向量機SVM預測方法三種方法的預測結果進行結合,選擇Shapley組合預測法對結果進行處理,得出更為滿意的預測方案。
步驟1根據網購訂單量影響因素構建融合百度指數的訂單量預測指標體系,區分訓練數據與預測數據,并對原始數據進行歸一化等預處理。
步驟2通過BP神經網絡模型、支持向量機SVM模型對預處理的數據進行預測分析,得出預測數據。同時,將相同結構的BP神經網絡使用Adaboost算法進行優化,構建基于Adaboost的BP神經網絡模型,得到其預測數據。
步驟3計算各模型訓練數據的平均相對偏差MRD(Mean Relative Deviation):

其中,yi為訓練原值,為訓練所得預測值,n為訓練組數。
步驟4根據各模型平均訓練MRD,計算各模型Shapley值的分配,并確定組合預測中各預測方法的權重。
步驟5根據各模型分配的權重計算預測數據的組合預測結果。
組合預測算法原理如圖1所示。

圖1 組合預測模型原理圖
目前,在物流需求預測神經網絡方法中主要是采用BP網絡,但在進行學習訓練時BP神經網絡隨機初始化權值與閾值往往會降低其收斂速度,容易陷入局部極值問題。BP神經網絡模型最重要的是輸入層、隱含層、輸出層神經元個數的選擇以及激勵函數、訓練函數的確定,這需要通過大量實驗來選擇。
Adaboost算法是Boosting算法的一種改進算法,能對弱預測器的誤差進行適應性調整,從而達到提高任意弱預測器的預測精度的目的。但Adaboost算法對異常樣本敏感,異常樣本在迭代中可能會獲得較高的權重,影響最終的強學習器的預測準確性。本文以BP神經網絡作為集成模型的弱預測器,利用Adaboost算法的思想集成BP神經網絡,使用加權后選取的訓練數據代替隨機選取的訓練樣本,將弱分類器聯合起來,得到BPAdaboost強預測器。構建的BP-Adaboost強預測器是由多個BP網絡組成,能有效克服單一BP神經網絡的缺點。計算流程及模型結構見圖2。

圖2 基于Adaboost的BP神經網絡模型結構
支持向量機SVM可用于回歸預測分析,對訂單量或快遞量進行有效預測。SVM能夠較好地解決小樣本、非線性、高維數問題,常被用于識別和預測。但SVM算法對大規模訓練樣本難以實施。其重點在于:第一,回歸函數的確定。本文采用極小化優化模型來確定回歸函數。第二,核函數的確定。核函數的選擇決定了特征空間的結構。本文采用基于徑向基RBF(Radial Basis Function)核函數,該函數能夠很好地實現非線性映射。
Shapley值法是確定各單項預測方法在組合預測方法中的權數的大小,N種單項預測方法根據各自誤差的大小來分配權重。Shapley值實現的是每個合作成員對該合作聯盟的貢獻大小,突出反映了各個成員在合作中的重要性。其最大優點就是原理和結果易于被各個合作方視為公平,結果易于被各方接受。
算法步驟如下:
(1)選取指標,并運用不同單預測模型對因變量進行預測,得到預測值。
(2)計算組合預測中各單預測方法的權重。Shapley值的分配公式為:

其中,n為預測方法數目,s為集合I={1,2,…,n}中的任意子集,Ei為該預測模型分得的誤差量(即Shapley值),E(s)為各組合的誤差,w(||s)為加權因子。根據上述計算結果確定組合預測中各預測方法的權重,公式為:

其中,E為組合預測的總誤差。
(3)計算組合預測結果。在t時刻的組合預測值可表示為:

其中,Yit表示第i種預測方法在t時刻的預測值。
如果能知道電商訂單量或快遞量的變化趨勢和變化空間,這對于企業來說是非常有幫助的。本文利用SVM對進行模糊信息粒化后的電商相關指數進行變化趨勢和變化空間的預測,并選擇W.Pedrycz模糊粒化方法模型進行數據處理。
對于給定的時間序列X(x1,x2,…,xN),考慮單窗口問題,即把整個時序X看成是一個窗口進行模糊化。本文采用三角型模糊粒子,其隸屬函數如下:

W.Pedrycz模糊粒化方法建立模糊粒子的基本思想為:(1)模糊粒子可以很好地代表原始數據;(2)模糊粒子要有一定特殊性。為了滿足上述的兩個要求,找到兩者的最佳平衡,可考慮建立如下的關于A的一個函數:

其中,MA滿足建立模糊粒子的基本思想(1);NA滿足建立模糊粒子的基本思想(2)。
W.Pedrycz將信息粒化理論用到時間序列分析中,對時間序列進行信息粒化,取得了很好的效果。故本文用W.Pedrycz模糊粒化方法對電商訂單量時間序列進行模糊粒化,利用SVM對模糊粒化后的數據進行變化趨勢和空間的回歸預測。
由于網購訂單量受多重因素的影響,涉及到的行業和企業也是五花八門,不同行業和企業在電商預測方面所采用的指標也不盡相同。因此,通過分析影響因素來構建一個適用于網購訂單量的綜合評價指標體系,就具有十分重要的理論與現實意義。針對電商整體環境和市場運營方式,本文總結了以下兩類影響因素:
(1)電商網購訂單直接影響因素
①用戶行為導向因素,即用戶的行為對電商交易額和交易量的影響因素。從當前市場環境下的需求方來說,用戶行為主要包括商品瀏覽、商品加入購物車、店鋪收藏、用戶登錄次數等方面。
②商家行為導向因素,即商家為維持、促進店鋪交易額從而獲取利潤的行為對市場的影響。從市場供應方來說,商家行為主要包括商品單價、商品折扣力度、同行業水平、用戶評價展示和預售等方面。
③交易行為導向因素,即在供需雙方交易的過程中產生的數據流對下筆交易所產生的影響。通常包括交易額、交易量、訂單筆數、下單用戶數、第三方支付方式等因素。
(2)網絡搜索間接影響因素
搜索引擎所記錄下的海量數據與電商用戶的興趣、需求、“用戶關注度”甚至未來行為必然存在著關聯。如果能夠有效挖掘“搜索數據”中的用戶需求信息并加以利用,這些影響因素對于電商交易訂單需求預測精度的提高和市場趨勢把握力度的增大會是很強助力。目前,將網絡搜索數據作為影響因素來預測電商訂單需求量的研究還較少,本文會結合百度指數關鍵詞搜索對預測精度的影響展開研究。關鍵詞的選取方法主要包括直接取詞法、相關取詞法、技術取詞法等。考慮到數據的可獲得性,本文會通過對基準關鍵詞的直接搜索來建立影響因素指標體系。此外,由于移動端百度指數比PC端使用廣泛、更具代表性,選擇移動端指數可以使得預測結果更為精確。
本文通過對用戶行為日志數據的處理,結合上述影響因素,通過SPSS軟件對影響因素指標和評價因素指標之間進行相關性分析,選取通過顯著性檢驗且相關系數大于0.85的指標作為最終指標,構建了基于融合百度指數和電商用戶訂單信息的指標體系,如表1所示。

表1 電商物流需求預測指標體系
本文選取了某一時間段內百度指數關鍵詞搜索量和某電商平臺68萬條數據,以周為單位對這些數據進行分類整合,按照上文所構建的指標體系整理出了連續32周的數據,選取前31組數據訓練,用第32組數據測試。如表2所示。在軟件運用方面,針對各影響因素和評價指標之間相關關系的問題,采用SPSS軟件進行檢驗;針對組合預測建模,采用Matlab軟件進行求解。

表2 某區域電商訂單需求預測指標統計數據
4.2.1 模型參數設置
根據指標體系,BP網絡輸入層神經元個數為7,輸出層神經元個數為1,通過實驗選取隱含層神經元個數為7。此外,根據實驗對比分析,最終選取logsig函數作為激勵函數,trainlm函數作為訓練函數,訓練次數200 000,訓練目標100E-05。
在基于Adaboost的BP神經網絡預測模型中,采用10個BP神經網絡作為弱預測器組成的強預測器對訂單量進行預測,把弱預測器預測誤差超過0.1的測試樣本作為應該加強學習的樣本。BP神經網絡的參數設置與上文相同。
在SVM預測模型中,使用matlab中libsvm工具箱進行SVM回歸,默認徑向基函數(RBF)作為SVM的核函數,通過matlab編程、采用交叉驗證方法實現對回歸最佳懲罰參數c和核函數參數g的尋找。
4.2.2 結果分析
單項預測方法的預測結果和平均相對偏差MRD如表3所示。可以看出,BP神經網絡對這組數據適應度較好,基于Adaboost的BP神經網絡和SVM的訓練擬合程度相對較差,但從后文的第32組數據看,其預測能力均高于BP神經網絡。
計算各成員Shapley值,再根據權重計算公式調整權重,故最終組合預測模型為:
Y=0.640Y1+0.185Y2+0.175Y3
利用組合模型對第32組數據進行預測,預測結果如表4所示。
(1)組合預測結果分析
結合表3、表4,可以看出,組合預測模型的預測誤差可以收斂到1.25%,達到很好的預測效果。而預測誤差最低值所使用的SVM模型,其訓練誤差卻高達5.47%;與此相反,在訓練過程中表現突出的BP神經網絡模型,預測時的誤差卻是最大值2.95%。Shapley值組合預測的預測值會比較平穩,不像其他單一模型的預測值波動較大,這也是組合預測模型的一大優勢。而且Shapley值法科學合理的分配各單一模型權重,使其誤差也會與精度最優的模型相差不大。組合預測模型還具有現實可操作性和較強的實用性。

表3 各單預測模型訓練結果和訓練相對誤差

表4 組合預測結果
(2)誤差MRD波動分析
各模型MRD波動情況如圖3所示。

圖3 平均相對偏差MRD波動圖(融合百度指數)
SVM模型和基于Adaboost的BP神經網絡模型在前31組的訓練中表現較差,但第32組的預測結果精度很高;BP神經網絡的前期訓練結果非常好,但在預測過程中誤差猛增,且由于神經網絡本身隨機性較強,使得實驗結果并不穩定,在實驗過程中甚至出現誤差非常大的個別情況。Shapley值組合預測模型的預測結果相對穩定,始終保持在5%以內,即使在SVM模型出現較大失誤的情況下也可以快速修正,且最終的預測誤差非常低。
(3)預測值與原始值的擬合程度分析
Shapley值組合預測值與原始值的擬合圖如圖4所示。可以看出組合模型的預測值與數據原始值的擬合程度非常高,可以有效地對電商訂單量的波動做出正確的判斷和預測。

圖4 擬合趨勢圖
本文用可決系數R2來衡量預測值與原始值的擬合程度。可決系數R2越大,說明模型對原始值的擬合程度越好。擬合數據結果如表5所示。

表5 擬合數據結果
從可決系數R2反映的數據來看,組合模型的預測值與原始值的擬合程度在4種模型中排名第一,高達99%,說明各樣本預測點與回歸線靠得非常近,由樣本回歸做出解釋的離差平方和與總離差平方和十分相近,也就是擬合優度非常高。這就證明了本文所提出的組合預測模型對于電商訂單量預測的適應性和準確性。同時,將每個指標中準確度排名靠前的兩組數據在表中標出,可以直觀清楚地看到,本文所提出的組合預測模型在三項指標中全部表現出色。相對于單項預測模型的單項預測評價指標,組合預測模型的預測精度有所降低,但組合預測模型仍然可以較好地刻畫電商訂單量的整體變化趨勢,預測結果可以為電商管理人員提供有價值的參考信息。
在電商訂單量不斷變化的今天,組合預測模型可以更好地適應不斷變化的數據,避免單一模型對數據不適應性而導致的預測失真。
4.2.3 百度指數比較分析
為了研究加入了百度指數作為預測指標后模型的有效性,本文另做了一組6個輸入指標(不包括百度指數)的實驗,與上述實驗對比分析,實驗結果如圖5所示。

圖5 預測誤差對比分析圖
從實驗結果可以看出,6個指標輸入的實驗誤差相對較大,融合了百度指數作為預測指標的實驗,尤其是對于基于Adaboost的BP神經網絡模型、本文所構建的組合預測模型來說,預測結果更為精確。該研究證明了網絡搜索關鍵詞對電子商務訂單量預測的起著明顯的影響作用,可以作為反映電商訂單量預測趨勢的影響因素。
趨勢結果如圖6、圖7所示。Low=2 076.77,r=2 595.56,Up=2 595.56,即,在接下來的兩周中,訂單量的變化趨勢和變化空間為[2 076.77,2 595.56]。這個結果可對物流公司或供應鏈企業車輛調配、提前調貨等方面提供有力依據。

圖6 Low趨勢擬合圖

圖7 Up趨勢擬合圖
本文對電商環境下的用戶訂單量預測進行研究。實驗證明,組合預測模型比BP神經網絡模型、基于Adaboost的BP神經網絡模型、支持向量機SVM模型更能適應動態變化的數據,訓練和預測過程中都能保持較小穩定偏差波動,準確度達到98.75%。同時,本文構建了基于融合百度指數和電商用戶訂單信息的指標體系模型,將百度指數關鍵詞“快遞”的移動端搜索數據量融入電商訂單量變化的影響因素。通過對比試驗,融合百度指數的組合預測模型準確度比未融合模型高2.67%,證明了百度指數作為網購訂單量預測影響因素的有效性,為電商企業預測用戶需求提供了一種新思路。
[1]李長春.大數據背景下的商品需求預測與分倉規劃[J].數學的實踐與認識,2017,47(7):70-79.
[2]許圣佳,蔣煒.電子商務環境下基于點擊流的需求預測模型和企業庫存優化[J].上海管理科學,2016,38(2):18-27.
[3]Qiu Jiangtao,Lin Zhangxi,Li Yinghong.Predicting customer purchase behavior in the e-commerce context[J].Electronic Commerce Research,2015,15(4):427-452.
[4]Yang Yinghui,Liu Hongyan,Cai Yuanjue.Discovery of online shopping patterns across websites[J].Informs Journal on Computing,2013,25(1):161-176.
[5]孫燁,張宏磊,劉培學,等.基于旅游者網絡關注度的旅游景區日游客量預測研究——以不同客戶端百度指數為例[J].人文地理,2017(3):152-160.
[6]張愛華,韓怡嘉.基于互聯網搜索信息的預測模型研究——以余額寶產品需求為例[J].北京郵電大學學報:社會科學版,2015,17(3):36-41.
[7]Preis T,Moat H S,Stanley H E.Quantifying trading behavior in financial markets using Google trends[J].Scientific Reports,2013,3:1684.
[8]Hand C,Judge G.Searching for the picture:Forecasting UK cinema admissions using Google trends data[J].Applied Economics Letters,2012,19(11):1051-1055.
[9]王寧,謝敏,鄧佳梁,等.基于支持向量機回歸組合模型的中長期降溫負荷預測[J].電力系統保護與控制,2016,44(3):92-97.
[10]丁宏飛,李演洪,劉博,等.基于BP神經網絡與SVM的快速路行程時間組合預測研究[J].計算機應用研究,2016,33(10):2929-2932.
[11]丁閃閃,王維鋒,季錦章,等.基于時空關聯和BP_Adaboost的短時交通參數預測[J].公路交通科技,2016,33(5):98-104.
[12]楊波,吳涵.基于組合預測模型的物流園區物流需求預測——以重慶空港物流園為例[J].數學的實踐與認識,2015,45(20):16-25.
[13]Tselentis D I,Vlahogianni E I,Karlaftis M G.Improving short-term traffic forecasts:To combine models or not to combine?[J].Intelligent Transport Systems Iet,2015,9(2):193-201.
[14]Voronin S,Partanen J.Forecasting electricity price and demand using a hybrid approach based on wavelet transform,ARIMA and neural networks[J].International Journal of Energy Research,2014,38(5):626-637.
[15]李翔,朱全銀.Adaboost算法改進BP神經網絡預測研究[J].計算機工程與科學,2013,35(8):96-102.