鄧 超,劉 頌,王露笛,龔 強,高 林,左少燕,顧祖毅,梁海玲
1. 廣西中煙工業有限責任公司,南寧市北湖南路28 號 530001
2. 山東青島煙草有限公司,山東省青島市市北區南京路202 號 266034
3. 中國科學院計算機網絡信息中心,北京市海淀區中關村南四街四號 100190
卷煙產品投放是我國煙草商業公司的一項重要基礎性工作,由產品投放帶來的卷煙產品銷售訂單將直接影響商業公司的經濟效益。為響應國家關于產業鏈的供給側改革號召,強化以市場為導向的產業布局,需要不斷調整和優化卷煙產品銷售和生產制造結構,以提供更加符合消費者需求的卷煙產品,同時保證稅利的持續穩定增長[1]。煙草產業鏈發展的源頭在消費端,一套科學有效的卷煙產品投放策略將有利于引導市場消費需求和減少浪費,實現供給端與消費端之間“稍緊平衡”的基本態勢。因此,如何生成面向精準營銷的卷煙產品投放策略已成為各煙草企業關注的熱點。針對市場精準營銷目前已開展了大量研究,鄧超等[2-6]針對卷煙營銷大數據分析問題,設計實現了面向煙草市場數據的可視分析系統,提出GRIDEN、Gridwave、K-DBSCAN 等時空大數據聚類算法,以及基于時空網格的煙草市場大數據可視分析方法;肖迎賓等[7]為解決營銷移動辦公應用問題,設計實現了煙草移動營銷系統;許建等[8]針對傳統數據倉庫系統存在的問題,采用傳統數據倉庫與Hadoop 技術相融合的方式,設計了煙草海量數據分析系統;邢陽等[9]建立了卷煙市場運行狀態智能評價模型;侯杰華等[10]基于O2O設計了一體化卷煙商業運營平臺,用于為供應商、零售戶和消費者提供電商運營服務;朱衛東等[11]根據零售戶基本屬性指標,采用自組織特征映射神經網絡方法對零售戶進行分類和分析。此外,在煙草行業卷煙銷售系統中建立了“訂足面、訂足率、投放面、訂單滿足率、訂購率”等多維度綜合性評價指標[1],可對投放效果歸納總結,具有較好的業務指導作用。
但是卷煙投放工作的本質是對下一階段卷煙銷售工作進行銷量預判和策略性引導。傳統的卷煙投放策略主要由業務員根據不同卷煙規格和不同檔位零售戶的具體情況制定,投放策略數量達到幾千條,工作任務繁重,由于人工在情感、記憶、計算等方面存在局限性,難以實現大規模精確計算,導致卷煙產品實際投放效果與市場需求出現偏差,直接影響煙草商業公司和卷煙零售戶的經濟效益。隨著以深度學習為代表的新一代人工智能技術的快速發展,基于歷史大數據計算的預測準確度得到大幅度提升,在自然語言處理、圖像識別、基因組學、生物醫藥、醫療診斷、信息技術產業、金融、農業、工業制造等領域得到廣泛應用[12-13]。為此,提出了一種基于深度神經網絡的卷煙智能投放模型構建方法,以期實現卷煙產品投放策略的智能化生成,提高工作效率。
產品銷量預測是制定投放策略的先決條件,制定投放策略的目的是為了更好地匹配市場訂單需求。因此,為制定下一個周期的產品投放策略,首先要對下一個周期的產品銷量進行預測分析,這是典型的周期性時序預測問題。傳統的時序預測包括支持向量機[14]、人工神經網絡[15]、隨機森林回歸[16]、貝葉斯網絡[17]、多元線性回歸[18]等方法。人工神經網絡算法主要采用BP(Back Propagation)神經網絡,包括信號的前向傳播和誤差的反向傳播兩個過程[15],有效解決了多層神經網絡隱含層連接權重學習問題[19]。
深度學習方法主要包括卷積神經網絡(CNN)、循環神經網絡(RNN)、長短期記憶神經網絡(LSTM)等[12,19]。CNN(Convolutional Neural Networks)廣泛應用于計算機視覺領域,用于識別發生位移、縮放、扭曲的特定圖形。 RNN(Recurrent Neural Network)是一種時間遞歸網絡,可以使用自身內部狀態對輸入序列進行處理,從而使神經網絡擁有“數據記憶”,常用于處理語音信號、生物信號和自然語言等領域[12],當輸入的序列過長時,RNN 可能會出現梯度消失問題。LSTM(Long Short-Term Memory)是一種特殊的RNN,在每一個單元內放置3 個門函數,分別被稱為輸入門、遺忘門和輸出門[20],通過3 個門的相互協同作用,可以判斷當前信息是否有價值,符合要求的信息被留下,不符合的信息則通過遺忘門被舍棄,見圖1[21]。
本研究中采用一種多層神經網絡構建預測模型,并以選取的數據特征作為全連接BP 神經網絡中的輸入神經元,而輸出神經元即為預測的銷量值。因此,特征提取是構建神經網絡模型的關鍵步驟,分為機器特征提取和專家特征提取兩大部分,見圖2。
主要采用LSTM 深度神經網絡提取銷售數據的時序特征,每次輸入8 周的歷史銷售數據,由LSTM 計算后輸出2 個時序特征值;然后將整個LSTM 網絡結構視為BP 神經網絡中的2 個神經元,將這2 個時序特征值輸入到BP 神經網絡進行推演計算。
主要采用傳統的數據統計分析方法,包括銷量統計特征和非線性特征,以及與卷煙銷量相關的民生數據特征和節假日信息特征。其中,銷量統計特征含最大值、最小值、平均值、中間值、均方差、變異系數、均方根等;非線性特征含一階偏度、二階偏度、曲率、KL(Kullback-Leibler)散度等;民生數據特征是指從國家統計網站上下載的地區民生指數數據;節假日信息特征是將每周中存在的節假日及其類型[自然周(1~52)、法定節假日、特殊節日、傳統節日]作為一個特征。
將每8 周設定為一個時序周期,再以1 周為時序滑動窗口,從歷史銷售數據中提取連續8 周(假設是第1~8 周)內的機器提取特征及專家提取特征的所有參數值作為一個訓練樣本子集,輸入神經網絡模型中對應的輸入神經元中進行計算,并將誤差輸入神經網絡模型中進行反向計算以修正模型中各個輸入神經元的權重,然后再將與第2~9 周對應的機器提取特征及專家提取特征的所有參數值作為一個新的訓練樣本子集,對神經網絡模型進行訓練和修正,以此類推,直到完成所有樣本的訓練。
由于卷煙產品的投放周期為每周,而卷煙產品的平均生命周期為幾年,且會經歷一個由興起到衰落的過程,產品銷量并不能始終保持恒定。因此,用于單個產品銷量預測的歷史銷售數據樣本數量有限,在神經網絡模型訓練時容易造成模型無法完全擬合,進而導致準確度偏低等問題。而本研究中所建立的模型訓練方式可以解決訓練樣本數量不充分的問題,有效提高神經網絡模型的穩定性和預測準確度。在進行預測時,只需要根據最近8 周內的歷史數據分別計算機器提取特征及專家提取特征的所有參數值,再將這些參數值輸入神經網絡模型中對應的神經元,其輸出值就是下一周的銷量預測值,整個推算過程是一個“黑盒子”;之后再將下一周的實際銷量值輸入模型進行反向學習修正,使整個神經網絡模型隨著時間的推移不斷進化,為下一次預測做好準備;最后針對每種卷煙規格分別訓練并建立產品銷量預測模型。
該模型的作用是將目標銷量值轉化為不同類別零售戶的產品投放值。行業內常規投放策略包括按“擋位”、按“擋位+星級”、按“擋位+地理位置”、按“營銷部+地理位置”投放等。例如,采用按“擋位”投放策略,假設產品A 在第1 擋中投放3條,第2 擋中投放4 條,……,那么第1 擋中零售戶的購買上限是3 條,第2 擋中零售戶的購買上限是4 條,以此類推,由此可得產品投放策略生成模型的輸入就是A 的下一周銷量預測值,輸出就是一個針對A 的所有檔位零售戶的下一周投放上限(即購買上限)的集合。在實際工作中可以對A 的計劃投放量進行適當調整,模型會根據計劃投放量生成相應投放策略。形成每個檔位投放上限的算法實際上是一個“白盒子”,其規則是根據前8周數據中不同檔位關于A 的訂購比例進行推算。
第1 步計算第N檔零售戶下一周關于A 的投放總量:
式中:SN訂購是第N檔零售戶在前8 周中關于A的訂購總量,條;S總訂購是所有檔位零售戶在前8 周中關于A 的總訂購量,條;S預測是下一周關于A 的預測總銷量,條。
第2 步計算第N檔零售戶中關于A 的重購戶數:
式中:SN總戶數是第N檔零售戶的總戶數,戶;RN訂購率是第N檔零售戶在前8周中的平均訂購率,%。
第3 步計算第N檔零售戶中關于A 的投放數值:
由于投放數值只能是整數,那么就會產生一個投放數值的上限TN上限和下限TN下限。假設TN=4.45 條,那么TN上限=5 條,TN下限=4 條。TN實際上是一個預測的市場平衡值,可以根據A 的市場狀態進一步確定是取上限值還是下限值。如果選擇上限值,那么A 在下一周的銷量會略高于S預測;反之,則略低于S預測。假如A 本周市場狀態處于“稍松”,那么下一周可以選擇采取“稍緊”的策略,即下一周關于A 的第N檔零售戶的投放數值是4 條;假如A 本周市場狀態處于“稍緊”,則可以選擇采取“稍松”的策略,投放數值是5 條。
關于A 的市場狀態,可以通過訂單滿足率、訂購率、訂足率、訂足面(簡稱“三率一面”)等銷售指標結合人工經驗進行評估。“三率一面”的計算方法分別為:
訂單滿足率=(客戶訂購量÷客戶需求量)×100%
訂購率=(訂購戶數÷總戶數)×100%
訂足率=(訂購量÷投放量)×100%
訂足面=(訂足戶數÷訂購戶數)×100%
評價一個投放模型的好壞,其重要判斷依據是產品的實際訂購量與預測量之間的差值,差值越小則模型越優。另外,也可以預先設定理想的“三率一面”目標值,再通過實際投放后的“三率一面”指標來評估和調整投放模型。
以山東青島煙草有限公司為對象,結合實際工作對智能投放模型進行測試。將青島煙草2016年1 月1 日至2020 年5 月10 日的1.18 億 條 歷史銷售訂單數據、841 萬條訪銷數據、1 592 條萬年歷數據作為訓練數據集,經訓練得到模型并進行參數調整,然后按照模型結果進行卷煙投放,以驗證模型的實際應用效果。
首先對1.18 億條歷史銷售訂單數據進行數據清洗和標準化預處理,按照品種規格(以下簡稱“品規”)、時序(周)2 個維度將1.18 億條銷售數據進行統計聚合,形成189 個品規的銷量時序數據,然后將數據集的前70%數據用于模型訓練,將剩余的30%數據用于模型的模擬驗證,并根據驗證結果進行算法調整和優化,避免神經網絡出現過度擬合和局部最優。同時,利用189 個品規的銷售數據,對提出的深度神經網絡模型與線性回歸、支持向量回歸(SVR)[22]、Lasso 回歸[23]、L2 回歸、隨機森林[16]共5 種時序預測方法進行對比,計算每種方法的銷量預測準確率并取平均值,結果見表1。可見,深度神經網絡模型效果最優,平均預測準確率為95.67%。

表1 多種方法預測準確率對比Tab.1 Comparison of prediction accuracy among various methods
采用人工選擇的幾種投放方式,根據模型生成的智能化投放策略,2020 年5 月11 日至15 日對“泰山(華貴)”等25 種卷煙主銷規格進行實際模型投放驗證,計算產品投放準確率并取平均值,結果見表2。可見,投入準確率最高達到100%,最低為77.74%,平均準確率為92.40%。

表2 投放模型實際驗證效果Tab.2 Actual verification effect of release model

表2(續)
針對卷煙產品精準投放問題,提出了一種適用于煙草商業公司的卷煙智能投放模型構建方法,分為產品銷量預測和產品投放策略生成兩個步驟。其中,產品銷量預測采用一種由LSTM 時序特征提取和專家特征提取共同構成的BP 全連接神經網絡模型;產品投放策略生成模型以產品銷量預測值為輸入,結合人工選擇的投放方式進行模型推算,生成實際產品投放策略。以青島煙草公司189 個品規的歷史銷售數據為對象對投放模型進行測試,結果顯示銷售預測準確率為95.67%;在25 種卷煙主銷規格實際模型投放驗證中,投放準確率為92.40%。
該智能投放模型的基本原理是基于卷煙消費市場的“需求守恒”規律,并依據銷售數據中的“歷史記憶”進行慣性推導,因此并不適用于新產品投放。考慮到不同地市級商業公司投放策略的差異性,以及影響卷煙消費市場的綜合性因素較多,模型的構建應該結合實際情況對輸入特征進行有針對性的選擇,采取因地制宜的模型構建策略,制定適用于企業自身的卷煙產品市場狀態評估機制,最終生成滿足“一市一策”的產品投放策略。
致謝:本研究得到山東青島煙草有限公司的幫助與支持,在此表示衷心感謝!