(北京物資學院 北京 101149)
隨著網絡的不斷的普及壯大,電子商務得到了迅猛發展,網絡購物現象已經變得越來越普遍,國內外的電子商務也從平臺時代逐步邁向了數據化和個性化的時代,伴隨而來的是物流的井噴式出現,在大量的物流作業運作的背后和電商平臺買家和賣家交易的場景下,產生了海量的數據,其中蘊含著豐富的、有價值的信息。通過挖掘這座數據礦石中有價值的信息,可以預測客戶的購買行為和消費行為,這樣,便可以為電子商務公司以及與之相關的物流運作提供重要的決策支撐。
同時,伴隨著信息和科學技術的發展,大部分的物流作業環節都已經做到了高效、安全。但在配送環節還是需要投入大量的人力與物力。如何提高物流配送的效率,降低成本,也是值得電商物流企業和廣大學者研究的問題。
一些企業和學者就“提前配送”展開了探索:Elbert利用機器學習和預測模型,為Gilt網站提出了一種“預測性遞送”模式,即根據某些商品會在某些區域的預計銷售量,就在開始銷售它們之前,將其配送到指定的區域。當這些商品真的被購買時,它們在地理位置上距離客戶更近,這意味著客戶可以更快的收到商品。亞馬遜也基于大量客戶的歷史消費信息進行預測,提出了一種“預期配送”模式,提前將客戶所需商品進行預測性配送。阿里巴巴集團于2016年4月底開始,先后開展了“需求預測與分倉規劃”、“最后一公里極速配送”算法大賽,以求尋找新穎解法,降低供應鏈的總成本和客戶收貨時間。
通過以上分析,本文選擇阿里巴巴集團旗下電商平臺的公開數據集。利用機器學習方法,提出一個融合預測模型框架,以實現對電商平臺配送商品在一段時間內全國和分區域的需求量的預測。希望能夠對電商企業和物流企業的發展提供有利的幫助。所有的數據已“脫敏”處理,不涉及信息安全問題。
結合需求預測方法研究現狀,歸納整理適用于本文的一些傳統的預測方法,如表1所示。

表1 傳統預測方法分析
隨著電子商務平臺的迅猛發展,針對電商平臺配送商品的需求預測問題,傳統的預測方法適用性在逐步下降。而以梯度漸進回歸樹、支持向量回歸為代表的機器學習方法是近年來發展非常迅速的新型理論方法,具有良好的非線性優勢,在預測方面表現出良好的性能。并且模型融合方法已在個性化推薦、電力需求預測等預測領域上表現出良好的預測效果。因此,本文選擇利用機器學習方法進行相關的預測研究。
機器學習是人工智能領域中最能夠體現智能的一個分支,其可以根據經驗數據進行學習,以提高最終系統的性能。機器學習所面對的關鍵問題是:如何讓計算機程序通過不斷積累知識和經驗自主的提升信息處理能力。機器學習的出現使得人工智能在各個研究領域得到了關注和普及。機器學習方法按照學習方式不同,一般分為監督學習、無監督學習、半監督學習、強化學習四類。
(一)原始數據特征
本論文選擇在該數據集合上進行需求預測研究。原始數據105M左右,涉及到全國和5個分區域的銷售數據,時間跨度為2014年10月10日至2015年12月27日,其中包括商品數目1000,商品的銷售行為記錄共計118萬條,全國銷售行為記錄23萬條,分區域銷售記錄95萬條。
關于數據集的相關特征,如表2所示。

表2 數據集相關特征
商品的全國銷售數據和分區域的銷售數據維度是一樣的,僅有的不同是商品的分區域銷售數據,表達的是某個倉庫CODE所負責的地理區域內的用戶的相關行為。
(二)數據處理
首先我們將數據集合進行劃分,將2014年10月10日至2015年12月13日的數據用于特征提取和模型預測,2015年12月14日至2015年12月27日的數據用于模型效果驗證。
針對表1中的數據集特征,利用主成分分析法進行“降維”操作。“降維”的主要目的是(1)為了減少預測量的個數;(2)確保這些變量是相互獨立的;(3)提供一個框架來解釋最終的結果。通過分析,我們選擇瀏覽次數、收藏夾人次、淘寶客引導瀏覽次數、拍下筆數、直通車引導次數、拍下金額、成交金額和非聚劃算支付件數等8個特征作為最終的候選特征。
對任意地區的商品需求量的預測將通過以下過程來完成,其中全國區域配送商品的需求預測和分區域的配送商品的需求預測訓練過程是分開的、獨立進行的。
(一)分別在全國、分區域的商品銷售的歷史記錄上進行特征提取。因不同模型所需要的特征可能不完全相同,所以特征提取要盡量豐富。這里我們選擇提取出8個特征作為候選特征,供基礎模型和需求預測模型利用和選擇。
(二)利用特征提取的結果,訓練不同的基礎模型,例如支持向量回歸、梯度漸進回歸樹等;通過設置基礎模型不同的參數,對基礎模型進行調優,尋找預測最佳時的模型參數,輸出各個基礎模型對配送商品在未來兩周內全國和分區域的商品需求量。
(三)輸出最終預測結果。在對模型融合方法訓練完成后,利用基礎模型結果和模型融合結果,按照一定的策略,融合各個基礎模型的預測值,輸出配送商品在全國和分區域的需求量預測值。
其中,模型融合框架,如圖1所示:

圖1 模型融合框架
在融合模型框架下,最終模型的公式可以由公式1-1表示。最終模型由每個單獨的學習器的結果加權求和得到,每個基礎模型根據基礎模型的精確度被賦予一定的權值。
(1-1)
在本文中,沿用算法大賽中的評測指標。通過預測的目標庫存值與實際的需求值對比,通過差異來計算總的成本。
電子商務平臺商品需求預測基礎模型和融合模型的實驗結果,如表3所示。

表3 實驗結果
通過比較,我們得出了如下結論:
(1)在數據量較大的情況下,機器學習方法的預測效果優于傳統預測方法的預測效果;
(2)從最終預測總成本上來看,融合模型的結果明顯優于其他模型,效果較好;
(3)實驗證明,充分利用各個基礎模型的差異性,然后進行模型融合實驗,會產生比單模型更好的效果。如果能夠做好特征和樣本的選擇,則可以進一步增強機器學習方法的預測效果;
(4)每個分區域的需求量存在一定的差異,在實際的作業中,需求預測結果對于商品存儲和物流配送作業、合理分配人力、物力、財力有著一定的指導作用。
[1]TechTarget.大數據的顛覆意義:預測性配送[OL].2014/10/13 9:15:44.
[2]2016.Demand forecast and Warehouse planning prize 2016 tianchi open data project.
[3]李航.統計學習方法[M].北京,清華大學出版社,2012.
[4]周志華.機器學習[M].北京,清華大學出版社,2016.