趙梓賀,徐慧智 (東北林業大學 交通學院,黑龍江 哈爾濱 150040)
在“互聯網+”的時代,電子商務已漸漸融入了人們的日常生活。隨著消費者在網絡購物比例的提高,網絡銷售平臺的數量也越來越多。消費者日益多樣化和個性化的需求,使企業間競爭更加激烈,電商進入精細化運營階段。為了及時地把握市場需求變化,合理地規劃有限的資源,基于網銷商品全平臺的銷量預測已成為研究的熱點。
國內外學者對此開展了相關研究,王建偉[1]提出了利用產品銷售共性提取產品聚類簇的產品重分類預測模型,王雪蓉等[2]通過分析銷量的可控關聯性進行大數據挖掘,進行動態預測,Juan R Trapero等[3]分析了促銷活動中的銷量預測,劉治、謝天保和曹永立等[4-6]利用網絡爬蟲獲取評分、搜索數據,對多種預測模型進行比較分析,Jinlou Zhao等[7]提出了在線零售商之間的市場需求信息共享可以實現供應鏈的增值,降低供應商的庫存水平。Ching-Chin Chern、孟園等[8-9]從網絡口碑的角度促進了銷售預測的研究,張鈉等[10]提出由于需求波動較大,不同的訂貨周期應采用不同的預測方法。Gro Kl?boe等[11]提出使用具有平衡狀態信息的模型進行模擬預測。
綜上所述,商品銷量屬于商家內部數據,難以從網站上直接獲得,傳統的統計方法滯后于短時預測需求。區別于傳統銷售的銷量預測,網絡數據具有實時性。電商發售平臺逐漸增多,各平臺之間數據不能充分共享,根據各平臺的實時銷售數據進行數據挖掘具有現實的應用意義,能夠對商品的全平臺銷售量有總體把握。
本文統計了電商平臺產品評價數量,為解決評價與實際銷售量存在時間遲滯的現象,設計了用戶調查問卷,獲取用戶的評價延遲期,據此推算平臺銷售數據。采用時間序列分解法進行短期預測,及時掌握商品的銷售動態。
選取五款網絡熱銷手機商品,統計網絡銷售平臺每天的評價數量(實時獲取最近1 000條評價,約為1周的銷售量數據)。
為了增加數據樣本數量,對商品評價數量進行了追蹤記錄,具體統計時段為2018年8月30日到11月1日。圖1為統計結果。
為統計顧客評價延遲期,設計了調查問卷。問卷采取網絡發放的形式,共獲得反饋問卷250份,經過篩選,有效問卷218份,有效率為87.2%。調查問卷樣式見表1。

圖1 產品評價數量統計圖
為驗證問卷調查獲取數據的可信度,對調查問卷進行信度分析,相關系數計算見公式(1)。

其中,K為問題數;為第i題得分方差;為總分的方差。
表2為信度系數的取值范圍。經計算問卷信度系數0.71(信度系數在0.7<α≤0.9),認為該問卷結果為“很可信”,測驗結果穩定可靠,詳見表3至表6。

表2 信度系數的取值范圍

表3 可靠性統計量

表4 摘要項統計量

表5 信度分析表

表6 項間相關性矩陣
根據調查問卷的問題7,獲得被調查者的評價延遲期,見表7。

表7 評價延遲期
根據調查問卷的結果對產品評價數量的數據進行處理。默認商品為次日達,配送時間為一天。則每天的產品銷量等于經過不同的評價延遲期后的評價數總和,見公式(2)。

其中,Vi為第i天的銷量,Mi為第i天的評價數。
根據公式(2) 得到商品8月29日到10月17日的銷售量(8月29日到10月10日用于構建時間序列預測模型,10月11日至10月17日用于驗證模型有效性)。圖2(a) 至圖2(e) 分別為P20 pro、nove3、nove3e、mate10、暢享8等5種商品評價數與銷量的對比圖。

圖2 產品銷售量統計結果
選用乘法模式的時間序列對圖2數據進行分解,見公式(3)。

其中,Xt為商品銷量,Tt為長期趨勢因素,Ct為循環指數,Zt為周期性指數,It為隨機性因素。
采用移動平均得到長期趨勢因素和循環變動因素,見公式(4)。

采用標準差作為指標,確定合理移動步長(比選N=3、N=4、N=5),分析結果見表8。

表8 移動平均的標準差比
根據表5確定的合理步長獲取移動平均數列,圖3(a) 至圖3(e) 為P20 pro、nove3、nove3e、mate10、暢享8等5種商品銷量與移動平均值的對比。


圖3 商品銷量與移動平均值的對比圖
將觀察值除以移動平均得到數據的周期性和隨機性,見公式(5)。

圖4(a) 至圖4(e) 為P20 pro、nove3、nove3e、mate10、暢享8等5種商品周期性和隨機性。

圖4 周期性和隨機性
以1周為周期,通過累加平均消除隨機影響,得到周期性指數,見公式(6)。

其中,ri為每周同一天的平均數,為總平均數。
表9為計算得到的各產品周期指數。

表9 各產品的周期指數
利用趨勢外推法求出長期趨勢Tt,將循環變動和長期趨勢分離開來,結果見圖5。
根據公式(7) 得到循環變動因子Ct,P20 pro、nove3、nove3e、mate10、暢享8等5種商品的循環變動因子變化圖如圖6(a) 至圖6(e) 所示。

圖5 長期趨勢圖

圖6 循環變動因子

對第7周,即10月10日到10月17日1周的銷售量進行預測。循環因子Ct變動周期較長,隨機性It無法直接進行預測,因此Ct與It忽略不計,只考慮周期與趨勢Zt×Tt的影響,趨勢計算結果見表10。

表10 長期趨勢預測值
計算長期趨勢預測值與周期指數的乘積,得到最終的預測結果,計算結果見表11。
為了驗證預測模型的可行性,將預測銷量與實際銷量進行對比。見表12和圖7(a)至圖7(e)。
采用MAPE(平均絕對百分誤差) 來衡量預測是否可行,見公式(8) 至公式(9),MAPE評價參考表見表13,計算結果見表14。

表11 預測結果

表12 預測值與實際值的對比

圖7 預測值與實際銷量的對比圖

表13 MAPE評價參考表

表14 MAPE計算結果

其中,n為預測的項數,Yi為第i項實際值,Fi為第i項預測值。
結果表明5種商品的MAPE均小于10%認為預測評價效果為“精確”,預測銷售量可以較好的擬合實際數據。
本文基于電商的網絡數據挖掘進行商品銷售量的短期預測,提出了通過記錄商品評價數量得到商品銷售量數據的方法,設計調查問卷并進行信度分析,提高了網絡數據的可信度。基于收集得到的網絡數據,運用時間序列分解法分解出長期趨勢及周期性變動因素,得到數據的分布規律,根據數據的發展趨勢預測下一個周期的銷量。
對預測結果進行評價,5種商品的MAPE(平均絕對百分誤差)均小于10%,短期預測值與實際銷量基本吻合,商品銷量的發展趨勢遵循長期趨勢與周期指數。本文中收集電商網絡數據以及用時間序列分解法進行預測的方法適用于對電商網絡全平臺商品銷售數據的獲取及統計分析,且方便快捷,具有一定的可信度,可以及時掌握商品在網絡全平臺的銷售動態。