秦 琴
(廈門市煙草專賣局(公司),福建 廈門 361000)
“互聯網+”“大數據”等帶來了新一輪技術創新,在給消費者帶來方便的同時,也為批發商、零售商創造了無限商機。作為傳統銷售行業的煙草,也應順應時代潮流,勇于改革、積極創新,用數據分析來改善卷煙消費體驗。
對于煙草行業而言,“新零售”不僅意味著銷售渠道從線下轉為線上的變革,還意味著在不久的將來,煙草行業能夠借助數據拓撲關系不斷向周邊行業延伸,優化和豐富產業鏈條。當前,廈門市卷煙零售數據、消費者數據相當豐富和全面,相關數據庫也在全方位籌備中,進入大數據時代,不僅需要建立完備的數據儲存系統,更要利用好現有的數據,通過數據分析挖掘出數據價值,進而更好地推動整個市場的良性運作。
該文利用廈門市卷煙零售數據,結合數據挖掘算法構建統計分析模型,對消費者偏好、零售戶和消費者特征以及卷煙市場容量進行挖掘和分析。一方面,深入探究數據挖掘算法的有效性和科學性,積極探索卷煙新零售數據分析的科學方法;另一方面,多維度、多角度透視卷煙零售中的規律和定量關系,科學制定現代化營銷策略。
關聯分析是從大量數據中發現項集之間有趣的關聯和相關聯系的一種統計算法。關聯分析的一個典型例子是購物籃分析,該過程通過發現顧客放入其購物籃中的不同商品之間的聯系,分析顧客的購買習慣,幫助零售商制定營銷策略。
2.1.1 關聯分析重要指標
如表1所示,關聯分析通過搜尋頻繁項集,計算支持度和置信度來找出強關聯規則,而這種規則通常反映了消費者的購買習慣、偏好等潛在信息,有助于零售戶制訂營銷策略,促進銷售,提高利潤。

表1 關聯分析指標表
2.1.2 Apriori算法
Apriori算法是一種經典的關聯分析方法,其核心是逐層搜索迭代法。通過頻繁k-項集探索頻繁(k+1)-項集,以此類推搜索出所有的頻繁項集。具體實施步驟如下:
首先,找出頻繁1-項集的集合,記做L1;然后用L1找出頻繁2-項集的集合L2;再次,用L2再找出L3……,直到不能找到頻繁k-項集。計算過程中,尋找每個Lk需要掃描一次數據庫。
然后,在得到頻繁項集后,通過把頻繁項集分成前件和后件兩部分,并計算出規則{前件→后件}的支持度、置信度,如果二者大于最小支持度、置信度閾值,它就是一條強關聯規則。遍歷頻繁項集,挖掘出所有大于最小支持度、置信度閾值的關聯規則,即強關聯規則。
聚類分析是一種非監督式的分類方法。按照“物以類聚”的思想,通過對樣本的訓練將其親疏遠近的關系刻畫出來,然后將性質相近的樣本歸為一類,并盡可能顯著的區分各個類。層次聚類法(hierarchical clustering)亦稱為系統聚類法,是一種較為穩健的分類方法。核心思想是通過某種相似性測度計算節點之間的相似性,并按相似度由高到低排序,逐步重新連接各節點。
多數情況下,我們用樣本的距離遠近刻畫相似度,首先將距離相近的樣品(或變量)先聚成類,距離相遠的后聚成類,依此過程一直進行下去,最終每個樣品(或變量)總能聚到合適的類中。常用的距離有最短距離法、最長距離法、中間距離法、重心法、類平均法、可變類平均法、可變法和離差平方和法。它們的歸類步驟基本一致,主要差異是類間距離的計算方法不同。
回歸分析是研究一個變量關于另一個(些)變量的具體依賴關系的計算方法和理論。通過篩選出與被解釋變量高度相關的變量作為解釋變量,按照一定的標準擬合他們之間的曲線,從而很好地解釋和預測被解釋變量的水平。
常用的回歸分析模型是線性回歸。解釋變量向量記為x,被解釋變量向量記為y,則y=x′β+ε,表明x增加一個單位對y的邊際效應是β。線性模型的首要任務是估計系數向量β,常用的估計方法是最小二乘法OLS,通過求使得所有樣本殘差平方和最小時的最優化問題:
可得:

本次分析采用海晟直營門店、見福便利店和永輝超市的銷售數據。具體數據描述性統計表如表2所示:

表2 數據樣本說明
消費者的卷煙購買行為可以折射出其購買偏好、消費習慣及消費潛力,很多時候選擇購買商品A的消費者很大可能也會購買商品B,不同商品的購買行為存在一定的關聯性,如果能夠量化這種潛在關聯性,就可以幫助指導零售戶制定合理、精準的營銷策略。因此,本部分將對廈門市卷煙消費數據構建關聯模型,選取單筆訂單包含至少兩種不同類型商品的訂單數據共計41.4萬條(其中每筆訂單包含兩種以上商品且包含卷煙的訂單數據共計339532條,占82%,后文大多分析以此數據為基礎),從多個角度挖掘消費者需求。關聯分析建模步驟圖如圖1所示。

圖1 關聯分析建模步驟圖
4.1.1 卷煙陳列和替代分析
將上述包含兩種以上商品且包含卷煙的339532條訂單數據輸入關聯算法模型,并設置關聯分析參數為:最小支持度=0.003,最小置信度=0.05。按照支持度降序排列可得前10為關聯規則,如表3所示。

表3 按支持度篩選的全規格卷煙關聯規則
由表3可知,1~10種關聯規則支持度逐漸降低,表明消費者購買對應規則商品的購買欲望逐漸減少,中華(軟1)和中華(硬)的組合購買行為是最普遍的,也是消費者組合購買欲望最強的。具體而言,消費者在購買兩種及兩種以上商品的訂單中,平均100個訂單中,有2個訂單是中華(軟1)和中華(硬)、1個訂單是七匹狼(軟灰)和中華(硬)、1個訂單是七匹狼(藍)和七匹狼(軟灰),平均1000個訂單中,9個訂單是中華(硬)和芙蓉王(硬)。
基于此,我們可以找出消費者組合購買欲望最強的卷煙組合,以組合銷售的方式,由組合中人氣較高的卷煙帶動人氣較低的卷煙,增加人氣較低的卷煙的知名度及銷量。
同樣,我們可以篩選出支持度排名前30、置信度前10的關聯規則,如表4所示:

表4 按置信度篩選的全規格卷煙關聯規則
支持度越高的組合,說明消費者組合購買的頻次越高,消費者的組合偏好越強。置信度越高,說明購買A商品的消費者購買B商品的概率越高。置信度在一定程度上反映了卷煙的可替代性,對于規則{A}→{B}而言,置信度越大表明當A缺貨或者斷貨時,消費者有很大的可能性購買B作為A的替代品。由表4可知,消費者同時購買兩種及以上商品的訂單中,平均每100個訂單中有1個七匹狼(純雅)和七匹狼(藍)組合,且100個購買七匹狼(純雅)的消費者,有21個消費者可能購買七匹狼(藍)。
上述規律可以為我們在工業企業新品研發、商業品牌投放市場,以及店鋪商品陳列、銷售推薦時提供一定參考。
4.1.2 卷煙價類營銷分析
類似地,我們可以對各價類卷煙購買規則進行關聯分析,表5給出支持度降序排名前10的關聯規則。

表5 按支持度篩選卷煙價類關聯規則
由表5可知,在消費者購買兩個及以上商品的訂單中,平均100個訂單中,有6個訂單同時購買普一類B和高一類A卷煙,且平均100個購買普一類B卷煙的消費者中,有24個消費者可能購買高一類A卷煙。
基于此,可通過發現普遍行為中未來轉化概率大的組合,對該組合進行培育,進一步提高轉化率。以普一類B和高一類A為例,該組合支持度高、置信度高,可作為提升結構的目標培養價類。
4.1.3 卷煙指定規格分析
重新設置關聯分析參數:最小置信度=0.05,最小支持度不設下限。篩選出后件B對應為七匹狼(藍)、置信度按降序排列的關聯規則如表6所示。

表6 按置信度排序、固定后件B的關聯規則
由表6可知,購買長壽(兩岸)、白沙(硬新精品二代)、紅雙喜(花開富貴軟10mg)、雙喜(硬金五葉神)的消費者都可能順帶購買七匹狼(藍鉆)。平均100個購買長壽(兩岸)的消費者中,有10個消費者可能會購買七匹狼(藍鉆),平均100個購買白沙(硬新精品二代)的消費者中,有9個消費者可能會購買七匹狼(藍鉆),100個購買紅雙喜(花開富貴軟10mg)的消費者中,有6個消費者可能會購買七匹狼(藍鉆),100個購買雙喜(硬金五葉神)的消費者中,有6個消費者可能會購買七匹狼(藍鉆)。這表明這類消費者都是七匹狼(藍鉆)的潛在消費者,可有針對性地將該類潛在消費者培育七匹狼(藍鉆)的消費者,進而推動消費升級。
4.1.4 卷煙新品分析
為了探究新品卷煙的市場前景以及偏好群體,我們對新品卷煙消費進行關聯分析,關聯分析參數設置為最小支持度不設下限,最小置信度=0.05。
由表7可知,購買黃山(硬天都)、金圣(智圣出山)、延安(1935)、玉溪(透明)的消費者比較愿意嘗試新品嬌子(寬窄如意)。其中,平均100個購買黃山(硬天都)的消費者,有15(置信度約為15%)個消費者可能購買嬌子(寬窄如意)。購買釣魚臺(中支)、牡丹(金細支)、延安(細支圣地河谷)的消費者比較愿意嘗試新品七匹狼(乘風啟航)。其中,平均100個購買釣魚臺(中支)的消費者,有18個(置信度約為18%)消費者可能購買七匹狼(乘風啟航)。購買黃山(硬紅方印細支)、牡丹(金細支)的消費者比較愿意嘗試新品延安(細支圣地河谷)。其中,平均100個購買牡丹(金細支)的消費者,有7個(置信度約為7%)消費者可能購買延安(細支圣地河谷)。

表7 按置信度篩選的新品卷煙關聯規則
類似地,我們也可以通過關聯分析探究消費者的非煙偏好以及節假日對消費者需求的沖擊(篇幅限制,此處略去)。
運用聚類方法對不同特征的零售客戶和消費者進行分類,提取每一類群體的特征,有助于煙草零售的個性化營銷策略制訂和實施。
4.2.1 零售客戶畫像
煙草的零售客戶在地理位置、人流量、銷售額、業態和產品豐富程度等方面存在諸多差異,因此,這些零售客戶的消費群體自然也不同。我們希望通過零售客戶的一些基本信息和消費信息對零售客戶畫像,從消費者的角度更加精確地區別不同類別的零售戶,有針對性地制訂營銷策略。本文選取反映零售客戶自身特征的9個指標,如表8所示。

表8 零售客戶指標
對廈門市45家會員商店的消費數據進行層次聚類,將所有樣本分為5大類,聚類圖見圖2。

圖2 層次聚類譜系聚類圖
為了更直觀反映類與類之間的界限,采用t-SNE非線性降維方法得到層次聚類的散點圖,如圖3所示,類與類之間的界限明顯,表明層次聚類效果顯著。

圖3 t-SNE降維系統聚類分布散點圖
由表9可以總結出各個類的特點,如表10所示:這5類客戶分別對應湖里海晟客戶、思明海晟客戶、其他行政區海晟客戶、見福便利店和永輝商超。“湖里海晟客戶”(類別1)包含12家海晟連鎖店,其中,湖里區海晟連鎖店10家,思明區1家和集美區1家。因大多數海晟連鎖店隸屬湖里區,因此該類客戶被標記為“湖里海晟客戶”。同理,“思明海晟客戶”(類別2)包含18家海晟連鎖店,其中,思明區海晟連鎖店17家,湖里區1家,因此,該類客戶被標記為“思明海晟客戶”。“其他行政區海晟客戶”(類別3)包含了集美區、海滄區、翔安區和同安區四個區的海晟連鎖店,因此,該類客戶被標記如此。“見福便利店”(類別4)和“永輝商超”(類別5)各包含了2家見福便利店數據和3家永輝超市數據。

表9 零售客戶層次聚類結果

表10 零售客戶層次聚類特點
數據指標中并未有關于海晟、見福和永輝的標識,數據聚類結果卻能夠自然劃分開來,說明這三類零售客戶存在顯著的消費差異。比較類別1、類別3和類別4、類別5的差異可以看出,海晟連鎖具有月平均卷煙銷售占比最高(超過70%),人流量最低(1000~2000人/月),月平均銷售金額適中(50萬元左右),月人均消費最高(近400元),高價類卷煙消費占比最高(超過45%),非煙商品數最少(不到300種)等特點。見福月平均卷煙銷售占比適中(39%),月平均人流量適中(近2萬人),月平均銷售金額最低(30萬元左右),月人均消費最低(15元),低價煙消費金額占比適中(83%),非煙商品數適中(3171種)。永輝商超月平均卷煙銷售占比最低(僅2%),月平均人流量最高(近8萬人),月人均消費適中(近100元),月平均銷售金額最高(850萬左右),低價煙消費金額占比最高(98%),非煙商品數最高(2.3萬種),值得注意的是,其會員客戶銷量占比高達48%。綜合來看,海晟連鎖、見福和永輝超市在人流量、各價類卷煙消費占比、非煙商品數目和會員客戶銷量占比等方面存在較大差異,因此,通過聚類分析方法能夠有效將其區分開來。
另外,聚類過程還巧妙地按照“區域”將海晟客戶劃分出來。這一結果并非僅僅因為考慮了區域這一行政變量,實際上是區域之間展現的消費行為差異使然。代表海晟連鎖的類別1、類別2和類別3除了行政區域上的差別以外,還在于月平均人流量、月平均銷售金額、卷煙消費占比和會員銷量占比等方面的不同。湖里區海晟客戶的月平均人流量最少(1023人),月平均銷售金額最低(44萬元),高價類卷煙消費占比最高(48%),會員客戶銷量貢獻(17%)顯著高于其他地區海晟連鎖店。思明區海晟客戶月平均卷煙銷售占比最高(79%),月平均人流量最大(1665人),中等價類消費金額占比最高(22%),非煙商品品類數最少(248種),顯著低于其他地區海晟連鎖。其他行政區海晟客戶月平均銷售金額最高(56萬元),月平均卷煙銷售占比最低(73%),低價煙消費金額占比最高(36%)。
4.2.2 消費者畫像
我們對海晟連鎖店3689個會員數據按照12個指標(如表11所示)進行層次聚類,以期獲得有關消費者更加清晰的畫像。

表11 聚類分析消費者畫像指標及分類
通過層次聚類法,我們將3689個會員的消費記錄按照12個指標分為6類。每一個類別會員的部分指標明顯的區別于其他類別,譜系聚類圖和分布散點圖4-圖5所示。

圖4 海晟會員數據層次聚類譜系圖

圖5 t-SNE降維系統聚類分布散點圖
進一步提取各個類的特征,如表12所示。

表12 海晟連鎖會員層次聚類(6類)特點
市場容量是指在不考慮產品價格或供應商的前提下,市場在一定時期內能夠吸納某種產品或勞務的單位數目。本次模型,我們考慮利用與卷煙相關性高的非煙銷量來預測卷煙容量,具體探索函數如下:
Q=f(卷煙銷售相關因子)
4.3.1 樣本選取
海晟連鎖因其在廈門卷煙市場穩定的份額和廣泛的影響力,其數據庫系統維護全面、數據質量高,故本文選取廈門海晟連鎖2015年第35周至2018年第16周共計138周的數據為分析樣本。
4.3.2 選取影響卷煙銷量的非煙因子
通過剔除不穩定數據和非需求類數據,選取銷量占比較為穩定的5個非煙類商品作為備選因子,如下表所示:

表13 非煙因子
對卷煙總銷量和所有備選因子進行銷量相關性分析。如圖6所示,卷煙和白酒、卷煙和煙具的銷量都具有顯著的相關性。
進一步,計算出卷煙總銷量和所有備選非煙因子的相關系數,結果如表14所示。

(a)卷煙和白酒 (b)卷煙和煙具圖6 卷煙與非煙產品的相關圖

表14 相關系數
由表14可知,白酒、洋酒、葡萄酒、茗茶的銷量與卷煙總銷量具有極強的相關性,故選擇白酒、洋酒、葡萄酒、茗茶作為預測模型自變量。
4.3.3 構建預測模型
我們利用海晟卷煙總銷售量作為因變量Q,白酒x1、葡萄酒x2、茗茶x3的銷售量作為自變量擬合回歸模型,通過對不顯著變量進行剔除,得到修正后的估計結果,如表15所示。

表15 回歸估計結果
估計方程為:
Q=245461.4+19.528x1+11.17x2+6.827x3
結果表明,白酒、葡萄酒和茗茶對卷煙市場容量的邊際影響顯著為正。具體來說,在合理的預測白酒、葡萄酒及茗茶的銷量時,可以有效預測卷煙市場容量。根據對應行業的全國發展研究報告,預估了2018年廈門市年度白酒、葡萄酒及茗茶的銷量增長率,分別為10%、7%和5%。進而,根據海晟連鎖2017年的白酒、葡萄酒及茗茶的銷量,預估海晟連鎖2018年白酒、葡萄酒及茗茶的銷量,見表16。

表16 2018海晟連鎖白酒、葡萄酒、茗茶
將2018年白酒、葡萄酒和茗茶銷量預測代入估計方程,可預測2018年海晟連鎖卷煙年銷量為73.14萬條;在95%的置信水平下,年銷量區間為[66.84萬條,79.44萬條]。根據海晟連鎖的市場占有率為1.5%,可以推算2018年廈門市卷煙市場容量預測值為19.50萬箱,在95%的置信水平下,市場容量的預測區間為[17.83萬箱,21.18萬箱],如圖7所示。

圖7 廈門市卷煙市場容量預測圖
本文運用了多種數據挖掘算法對廈門市卷煙銷售數據進行了統計建模,得出以下結論:
①消費者會選擇同時購買兩種不同規格、不同價類的卷煙,并且部分消費者愿意在購買偏好性卷煙的同時嘗試新品卷煙。
②對客戶進行聚類分析,有助于對客戶進行分類,從而進行個性化營銷。
③采用非煙的銷量進行預測卷煙的容量,為卷煙容量預測提供了一種新思路。該方法推斷出廈門市2018年卷煙市場容量為19.50萬箱及其95%置信區間為[17.83萬箱,21.18萬箱]。2018年廈門市公司實際銷售卷煙19.45萬箱,處于推斷的容量區間內,得以很好的佐證,并且依此方式可以為2019年的銷售目標制定提供參考依據。