胡慶展 謝邵斌 溫州市煙草專賣局(公司)信息中心
隨著“互聯(lián)網(wǎng)”模式的全面落地,行業(yè)累計采集海量消費數(shù)據(jù),形成能反應(yīng)卷煙市場發(fā)展動態(tài)的“數(shù)字網(wǎng)絡(luò)”。本課題研究小組基于網(wǎng)格化的人地商圈、商業(yè)批發(fā)、終端零售、消費者及專賣監(jiān)管“五維一體”數(shù)據(jù),研究零售終端卷煙市場需求指數(shù)模型,探索建設(shè)數(shù)據(jù)驅(qū)動的卷煙市場供需匹配、品牌精準(zhǔn)投放應(yīng)用,助力卷煙營銷向“數(shù)字化”深度轉(zhuǎn)型。
當(dāng)前行業(yè)卷煙營銷在分析市場容量和需求,制定貨源投放計劃、投放策略上存在一些問題。
目前貨源投放以行業(yè)批發(fā)數(shù)據(jù)為主要參考指標(biāo),終端周邊商圈客流、人群特征等市場因素對銷量的影響,更多以“定性”方式在投放策略中體現(xiàn),缺少能度量區(qū)域市場需求影響因子的科學(xué)方法。
目前行業(yè)較為先進的單位已經(jīng)采用終端“樣本戶數(shù)據(jù)采集”推算社會庫存和需求,準(zhǔn)確度較高,但用來指導(dǎo)縣級以下區(qū)域市場需求預(yù)測時存在樣本戶不足、數(shù)據(jù)顆粒度不夠細、維度不夠豐富等問題。
貨源投放方式以類別為主導(dǎo),類別劃分主要基于歷史銷量和客情的“ 以量定量”,與真正意義上按照終端市場實施的“千人千面”“一戶一策”仍有一定差距。
基于云計算、大數(shù)據(jù)平臺,將溫州數(shù)字地圖按邊長1 公里的正方形網(wǎng)格切分為若干區(qū)域,以網(wǎng)格為單元匯聚人地商圈、商業(yè)批發(fā)、終端零售、消費者、專賣監(jiān)管“五維”特征數(shù)據(jù),搭建零售終端卷煙市場需求指數(shù)模型,挖掘特征指標(biāo)對銷量影響度和權(quán)重,并以此為基礎(chǔ)打造大數(shù)據(jù)分析系統(tǒng),通過數(shù)據(jù)驅(qū)動實現(xiàn)市場供需匹配,品牌投放場景化、可視化、精細化應(yīng)用。
系統(tǒng)基于云平臺建設(shè)推進,共分為以下四層。
基礎(chǔ)數(shù)據(jù)層:基于數(shù)據(jù)中臺大數(shù)據(jù)離線計算MaxCompute,引入第三方人地商圈數(shù)據(jù),按商圈網(wǎng)格匯聚特征指標(biāo),通過指標(biāo)歸一化處理,搭建特征指標(biāo)庫,為數(shù)據(jù)建模層提供基礎(chǔ)數(shù)據(jù)。
數(shù)據(jù)建模層:基于數(shù)據(jù)中臺規(guī)范建模Dataphin,對基礎(chǔ)數(shù)據(jù)層指標(biāo)進行二次加工,運用隨機森林、Pearson、多元線性回歸等算法搭建組合模型,輸出特征指標(biāo)對銷量影響度和權(quán)重。
應(yīng)用數(shù)據(jù)層:基于數(shù)據(jù)中臺關(guān)系型數(shù)據(jù)庫RDS,融合業(yè)務(wù)數(shù)據(jù)、前端交互數(shù)據(jù)、數(shù)字地圖對模型輸出結(jié)果進行等值線處理和熱力圖疊加,形成零售終端卷煙市場需求指數(shù)。
應(yīng)用服務(wù)層:基于ECS 云服務(wù)器搭建系統(tǒng)運行環(huán)境,開發(fā)市場供需匹配、品牌精準(zhǔn)投放場景化應(yīng)用,通過數(shù)字地圖和數(shù)據(jù)可視化實現(xiàn)與用戶、與業(yè)務(wù)流程交互。應(yīng)用輸出的周期投放量結(jié)果能夠?qū)虢?jīng)營管理平臺貨源投放模塊應(yīng)用。
針對市場供需匹配、品牌精準(zhǔn)投放兩個業(yè)務(wù)場景,開展架構(gòu)設(shè)計和系統(tǒng)功能開發(fā),將模型輸出與業(yè)務(wù)流程、技術(shù)組件信息流進行無縫銜接,形成業(yè)務(wù)場景下數(shù)據(jù)的應(yīng)用閉環(huán)。
1.市場供需匹配業(yè)務(wù)場景架構(gòu)
在需求預(yù)測流程分解到周期環(huán)節(jié),結(jié)合實際周期終端銷量,計算實際銷量指數(shù),與市場需求指數(shù)進行四象限直觀比對,判斷市場飽和程序,指導(dǎo)后續(xù)周期優(yōu)化總量投放與分類調(diào)控策略。
同時將市場供需匹配結(jié)果納入半年度、年分月、月分周需求預(yù)測中,優(yōu)化預(yù)測結(jié)果。
2.品牌精準(zhǔn)投放業(yè)務(wù)場景架構(gòu)
應(yīng)用市場需求指數(shù)開展貨源投放,包括以下兩種投放方式。
(1)在銷卷煙投放。輸入在銷品規(guī)“五維”數(shù)據(jù),代入模型生成市場需求指數(shù)。
(2)新品卷煙投放。輸入新品卷煙產(chǎn)品特征,通過產(chǎn)品特性匹配同產(chǎn)地、同價類等同特征數(shù)據(jù),代入模型生成市場需求指數(shù)。
最后以指數(shù)作為權(quán)重,按周期總投放量分解到單客戶定量,導(dǎo)出周期限量表應(yīng)用到貨源投放。投放后,通過訂足率、訂足面等指標(biāo),對效果進行評估,改進下一周期投放策略,形成優(yōu)化模型、優(yōu)化投放的良性循環(huán)。
1.人地商圈數(shù)據(jù)定義
人地商圈數(shù)據(jù)包括人地數(shù)據(jù)和商圈數(shù)據(jù)兩類。人地數(shù)據(jù)定義為網(wǎng)格內(nèi)的人群年齡、籍貫、消費水平等數(shù)據(jù)。商圈數(shù)據(jù)定義為網(wǎng)格內(nèi)的常駐人口數(shù)、流動人口數(shù)、商業(yè)機構(gòu)數(shù)量等。
2.商圈劃分方式比較
商圈區(qū)域劃分有三種方式,分別按行政區(qū)域劃分、道路水系劃分、標(biāo)準(zhǔn)網(wǎng)格劃分。
(1)行政區(qū)域
優(yōu)點:行政區(qū)域由政府部門統(tǒng)一規(guī)劃,統(tǒng)計數(shù)。
缺點:某些社區(qū)和行政村邊界不清晰,劃分顆粒度較粗。
(2)道路水系
優(yōu)點:煙草消費行為屬于便利性消費,通常被較高等級道路、河流阻隔。
缺點:較大水系和較高等級道路可能導(dǎo)致劃分區(qū)域大小均衡性差,不規(guī)則區(qū)域?qū)芾碚摺⒖蛻魜碚f較難理解和區(qū)分。
(3)標(biāo)準(zhǔn)網(wǎng)格
優(yōu)點:按照1 公里邊長劃分,區(qū)域小,精度相對較高,各地容易推廣實施。
缺點:無法體現(xiàn)道路、河流等客觀影響消費行為的因素。
3.商圈數(shù)據(jù)源比較
目前,市場調(diào)研人地商圈數(shù)據(jù)主要來源于通信運營商和大型互聯(lián)網(wǎng)企業(yè)。
(1)通信運營商
優(yōu)點:實名認(rèn)證、信息真實、位置軌跡連續(xù)。
缺點:無消費信息,缺乏區(qū)域商業(yè)信息。
(2)大型互聯(lián)網(wǎng)企業(yè)
優(yōu)點:基于電商和線下支付采集,商圈信息比較全面。
缺點:非實名認(rèn)證,人群特征真實性欠佳,市區(qū)內(nèi)位置軌跡不連續(xù)。
為模型輸入提供科學(xué)的樣本數(shù)據(jù)是關(guān)鍵一環(huán)。針對每一個卷煙規(guī)格找到批發(fā)銷量和終端銷量基本平衡、存銷比相對合理、覆蓋不同行政區(qū)劃、商圈類型、經(jīng)營業(yè)態(tài)的目標(biāo)客戶群,總樣本客戶數(shù)比例達到總客戶數(shù)的10%約4500戶。以樣本數(shù)據(jù)作為模型訓(xùn)練對象代入建模。
基于規(guī)范建模Dataphin,按網(wǎng)格匯總特征數(shù)據(jù)與批發(fā)銷量代入模型,通過搭建隨機森林模型計算特征指標(biāo)重要性,應(yīng)用Pearson 過濾特征指標(biāo),運用多元線性回歸輸出特征權(quán)重。將特征指標(biāo)值賦予權(quán)重,最終由網(wǎng)格熱力圖疊加生成零售終端卷煙市場需求指數(shù)。
隨機森林算法原理:將全量特征數(shù)據(jù)按照7:3 的比例分成訓(xùn)練集與測試集,通過訓(xùn)練集數(shù)據(jù)進行模型訓(xùn)練,每次隨機選取其中k 個指標(biāo)特征和m 個數(shù)據(jù)樣重復(fù)操作n 次,不同隨機組合得到n 棵決策樹,建立隨機森林模型,輸出各特征重要性。計算流程如下。
①決策樹回歸。在訓(xùn)練數(shù)據(jù)集中,遞歸地將每個區(qū)域劃分為兩個子區(qū)域并決定每個子區(qū)域上的輸出值,構(gòu)建二叉決策樹。
②構(gòu)建隨機森林。對每個決策樹都預(yù)測結(jié)果,存儲所有預(yù)測的結(jié)果,從n 棵決策樹中得到n 種輸出值。通過n 顆決策樹預(yù)測值的平均值計算出隨機森林模型最終預(yù)測值X:,其中f(x)是每顆決策樹的預(yù)測值,n 為隨機森林中決策樹的個數(shù);

③訓(xùn)練過程檢驗。通過訓(xùn)練集數(shù)據(jù)進行模型訓(xùn)練,將每次隨機森林模型預(yù)測值與實際值進行相關(guān)系數(shù)檢驗,以Pearson 相關(guān)系數(shù)R 為指標(biāo)用來判斷模型準(zhǔn)確率。隨著訓(xùn)練過程,R 值沒有顯著提高時,停止迭代。


⑥隨機森林模型可行性驗證。測試集中各網(wǎng)格實際批發(fā)量與模型預(yù)測銷量進行相關(guān)性檢驗,方法同③,相關(guān)系數(shù)大于0.7 代表測試集與訓(xùn)練集屬于強相關(guān)。
根據(jù)隨機森林算法選擇篩選的特征指標(biāo)將分別與卷煙銷量進行線性相關(guān)性檢驗,選取的檢驗方法為Pearson相關(guān)性檢驗,用于量度特征指標(biāo)X 與卷煙銷量Y 之間的線性關(guān)系。
經(jīng)過上述線性相關(guān)性檢驗后,我們選出常住人口、存銷比等特征指標(biāo)作為多元線性回歸的特征指標(biāo),通過這些特征指標(biāo)建立與卷煙銷量的多元線性回歸模型。

為體現(xiàn)同一個網(wǎng)格內(nèi)不同位置的零售終端各維度特征,特別是商圈特征值的差異性,利用等值線的計算方法,輸入網(wǎng)格中心點及指標(biāo)權(quán)重,按半徑擴散進一步確定單個零售終端可能受到所處的網(wǎng)格及周邊網(wǎng)格的影響。影響度從網(wǎng)格中心到邊緣逐級遞減。由此建立覆蓋溫州地區(qū)的多維度等值線圖與熱力圖。
通過浙煙數(shù)據(jù)分析平臺建設(shè)信息化系統(tǒng),應(yīng)用零售終端卷煙市場需求指數(shù),開發(fā)市場供需匹配、品牌精準(zhǔn)投放兩個業(yè)務(wù)場景化功能,并通過數(shù)字地圖、熱力圖、雷達圖等數(shù)據(jù)可視化呈現(xiàn),將模型輸出嵌入到貨源調(diào)控、貨源投放業(yè)務(wù)場景和工作流程中去,實現(xiàn)業(yè)務(wù)能力提升。
通過數(shù)據(jù)可視化實現(xiàn)系統(tǒng)功能搭建,用戶選擇品規(guī)特征指標(biāo)進行分析,系統(tǒng)將實時調(diào)用模型輸出需求熱力分布,結(jié)合歷史實際銷量,判斷市場飽和程度、市場需求滿足程度,進一步指導(dǎo)卷煙總量調(diào)控以及分類調(diào)控。

通過數(shù)據(jù)可視化實現(xiàn)系統(tǒng)功能搭建,用戶針對在銷品規(guī)輸入周期總投放量,系統(tǒng)將實時調(diào)用模型輸出,在線分析各品規(guī)零售終端卷煙市場需求指數(shù)及周期投放量。如為新品,則從品規(guī)同特征指標(biāo)角度切入,選擇卷煙商品特征指標(biāo)進行分析,計算周期投放量。計算結(jié)果以Excel 形式生成周期投放限量表,導(dǎo)入浙煙經(jīng)營管理平臺貨源投放模塊開展投放運用。
項目建設(shè)零售終端卷煙市場需求指數(shù)模型及應(yīng)用系統(tǒng),具有以下三個方面的重要意義。
一是創(chuàng)新市場需求指數(shù)。探索零售終端卷煙市場需求指數(shù)模型并形成初步研究成果,為度量區(qū)域市場、終端市場需求程度給出了一套量化評價方法。
二是強化市場供需評估。在當(dāng)前需求預(yù)測模式基礎(chǔ)上,應(yīng)用指數(shù)模型,加強了縣級以下區(qū)域市場供需匹配程度的分析和研判。
三是深化品牌精準(zhǔn)投放。在當(dāng)前貨源投放模式基礎(chǔ)上,應(yīng)用指數(shù)模型,找到了投放策略的優(yōu)化方案,實現(xiàn)真正意義上的“千人千面”“一戶一策”。