左少燕,黃海富,張巧格,張 晨,吳章生
(1. 廣西中煙工業有限責任公司,廣西 南寧 530001;2.中科知道(北京)科技有限公司,北京 100190)
長久以來,煙草行業一直以計劃經濟運營模型為主。2002年,國家開始要求煙草行業進行市場化改革。近幾年,煙草行業市場化改革不斷深入,2014—2018年連續五年的全國煙草工作會議上,國家局黨組均對卷煙營銷市場化取向改革作出安排部署,初步構建了市場化取向運作的卷煙營銷新模式。推進“按客戶訂單組織貨源”是煙草商業公司對煙草市場化改革的主要舉措之一。“按訂單組織貨源”的前提和基礎是對市場的卷煙產品訂單進行預測。
卷煙產品訂單量預測是煙草精準營銷的重要內容之一,針對卷煙產品訂單需求預測已經開展了大量的研究工作。由于卷煙產品作為一種消費品,與其他消費品一樣,客戶需求是產品訂單量產生的決定性因素,因此很多對卷煙訂單預測的方法思路為通過預測市場需求進而間接對客戶訂單量進行預測,如張海濤建立了一種卷煙需求預測模型,在對卷煙需求預測的基礎上完成了對卷煙產品訂單量的預測。另一種訂單量預測的方法則為利用數據直接對訂單量進行預測。其具體方法大致包括兩種:一種為利用宏觀總體信息數據如地區人口、地區GDP、居民消費水平指數等以及微觀個體信息數據如卷煙終端客戶的性別、年齡、收入等,建立這些信息與訂單量直接關聯的回歸模型。另一種方法則利用歷史訂單量信息直接構建訂單量的預測模型。如王森等運用時間序列預測法,選擇帶季節指數的移動平均和最小平方法對卷煙的短、中期總體銷量進行了預測。宋作玲對卷煙配送中心的客戶訂單進行了按時期、品牌、區域的多維預測。在預測年訂單量時,采用了回歸模型、灰色模型、自適應二次指數平滑及移動平均等七種模型。研究發現,對數回歸模型預測結果的平均準確率最高。
在卷煙訂單量預測的研究中,數據來源一直是決定預測準確性的關鍵因素。隨著煙草系統數字化轉型升級,煙草系統為了提高現代終端管理水平,擴展市場信息回收采集渠道,大力推廣云POS系統,為煙草系統積累了大量直接來源于終端客戶的煙草營銷數據。煙草銷售中產生的訂單,雖然來源于卷煙零售戶,更直接來源于零售終端,即與其他消費品相同,終端客戶的訂單量是零售戶訂單量產生的直接原因和決定性因素。然而,云POS數據在以往的研究中利用率低、信息挖掘程度十分有限,以往由于難以得到零售戶的直接售賣數據,訂單量預測往往限于一定周期內市場上所有零售戶總訂單量的預測,還未有采用這部分數據,對于市場中每個零售戶這一精細粒度、每一品規卷煙訂單量進行預測的研究報道。本研究利用直接來源于終端客戶的云POS數據,結合零售周期、環境和宏觀經濟等因素數據,利用決策樹回歸、SGDRegress回歸、Adaboost回歸方法對山東省泰安市卷煙銷售市場中每個零售戶構建卷煙產品訂單量預測集成模型,以期為煙草精準營銷,實現卷煙訂單調控逐步由“經驗式分析”向“數據化分析”轉變的“一戶一策”式貨源組織模式提供理論支撐。
本研究采用山東省泰安市卷煙零售戶產生的云POS訂單歷史數據作為卷煙銷量預測的主要數據特征。數據時間范圍涵蓋2020年7月1日到2021年3月15日,共8.5個月的云POS數據,共涉及市場優質零售戶2000余戶,合計數據2229724條。
針對云POS異常數據清洗,主要思想為采用箱線圖方法對原始數據進行基本統計分析,找出離群點,即異常數據,然后去除。對云POS數據的預處理流程如圖1所示。

圖1 數據預處理流程
除卷煙歷史訂單數據這一卷煙營銷系統內部數據外,影響卷煙銷量的因素還包含外部環境因素。參考其他研究的成果及考慮到數據的易得性,確定影響煙草銷量的外部數據特征包含地區總人口、地區GDP總量、地區居民恩格爾系數、地區居民消費總額。
由于卷煙銷售的特殊性,其訂單量受卷煙投放業務的嚴格約束,同時考慮煙草公司業務需求,因此預測周期以周為統計維度,統計方法為該零售戶在一周內對應的每一天的訂單量預測數據相加。在提取這一特征時,輸入某一星期天數連續3周中的數據及對應的星期、節假日標記特征,如輸入某一零售戶某一品規卷煙2020年9月7日、14日、21日的某一零售戶訂單數據及星期一標記,和對應日期節假日標,作為一組時序數據,將所有時序數據經LSTM方法特征提取,最終輸出2個維度的特征用于后續模型訓練。為提高特征提取效果,對云POS時序數據劃分時采用滑窗法,重復利用數據信息。
對于云POS訂單數據,提取優質零售戶每一品規卷煙訂單量的統計特征,包含最大值、最小值、平均值、中間值、均方差、變異系數、均方根等;同時提取訂單量的非線性特征含一階偏度、二階偏度、曲率、KL(Kullback-Leibler)散度等。
地區總人口、地區GDP總量、地區居民恩格爾系數、地區居民消費總額、人口及經濟數據均來源于互聯網相關官方網站公開數據。
訂單量預測是典型的回歸問題,因此選用回歸模型進行訓練驗證。將特征分別輸入決策樹回歸模型、Lasso回歸模型及AdaBoost回歸模型中,三個模型結果利用線性回歸模型進行集成,最終構建了訂單量預測的集成模型。模型具體構建方法如圖2所示。

圖2 訂單量預測模型構建方法流程
對卷煙零售戶訂單云POS數據進行清洗和標準化處理后,按照卷煙品規、零售戶兩個維度對數據進行整合處理。將總數據的70%用于訓練,30%用于測試。最終生成的模型為1007個零售戶的20個主銷卷煙品規的訂單量預測模型,共計20140個。
在實驗過程中,對每一方法產生的26182個模型文件進行準確率的測試。每個模型的平均準確率結果如表1所示。由表1可以看出,集成模型準確率最高,為77.5%,平均R為0.876。因此,模型采用線性回歸的集成模型作為最終零售戶訂單量預測的模型。

表1 實驗模型預測準確率結果
對模型利用2021年8月2日到2021年8月8日及2021年8月9日到2021年8月15日兩個周內的零售戶主銷品規的訂單量進行了實驗驗證,不同品規煙的1007個零售戶的平均準確率結果如表2所示。測試結果顯示模型對泰山(紅將軍)訂單量預測的平均準確度最高,為78.6%,對南京(煊赫門)的訂單量預測的平均準確率最低,為46.4%,對所有品規訂單量預測的平均準確率為63.5%。

表2 產品訂單量預測模型平均準確率結果
本研究利用零售終端客戶的云POS訂單數據,結合日期特征、節假日特征及地區人口數據和地區經濟指標數據,利用人工智能方法結合統計學方法提取數據特征,構建了零售戶單品規訂單量預測模型。模型構建平均準確率為77.5%,平均R為0.876。模型泛化利用2021年8月2日到2021年8月8日及2021年8月9日到2021年8月15日兩個投放周內的零售戶主銷品規的訂單量數據進行驗證,平均準確率為63.5%。
本研究為有效利用云POS數據,采集直接來源于卷煙銷售終端客戶的數據以服務煙草業務“按訂單組織貨源”的市場化改革導向、促進煙草業務數字化轉型提供了方法支撐。
現階段,山東省泰安市卷煙零售戶共計約18806戶,由于云POS系統還在推廣階段,本研究數據經清洗處理后篩選出的優質云POS數據零售戶僅1007戶,占全市場零售戶不足6%。按零售戶維度對數據統計分組后,戶均云POS訂單數據量僅為71條,數據量嚴重不足。數據云POS數據涵蓋的市場零售戶戶數較少,數據量嚴重不足,嚴重制約了模型構建準確率。后續可以從數據端入手、加大云POS系統的同時,采用更多統計分析數據方法,產生更多可用數據,以改進和增強模型構建效果。