章惠民
福建省煙草公司漳州市公司信息中心,福建省漳州市薌城區元光北路19號金葉大廈 363000
現今社會,物聯網、大數據、智能應用、云計算、移動互聯等信息技術發展日新月異,深刻而廣泛地改變了人類生活方式,成為社會發展重要的變革力量。2017年國家煙草局印發煙草行業“互聯網+”行動計劃,明確要構建行業云平臺、行業大數據平臺,著力強化兩個技術平臺的支撐作用,加快推進全面感知、互聯互通、資源共享的技術支撐平臺建設。
數字煙草建設的總體技術按照執行統一標準,按照統一平臺、統一數據庫、統一網絡的要求,逐步實現系統集成、資源整合、信息共享[1]。福建煙草數據中心經過初期的建設,已經搭建了包括信息資源標準平臺、數據加工存儲平臺、數據交換服務平臺、數據分析應用平臺及信息安全保障平臺的數據中心基礎框架[2]。漳州煙草數據中心前置環境從2017年開始建設,目前縱向上構建數據上行和下行通道,橫向上滿足全市數據共享、組件復用及個性分析,已成為福建省局系統與地市系統連接的橋梁,也是漳州煙草多個業務部門的綜合基礎框架[2-3]。
數據格式多樣的、大量的歷史數據分布在多個系統,深層次關聯的是處理復雜、數據量大的各個后臺數據庫。對于這種分析應用場景,人工處理往往會心有余而力不足,應運而生的大數據技術恰好能夠充當挖掘復雜網絡及海量數據中潛在的、隱藏的信息的工具。
大數據技術較之傳統系統架構及數據庫等技術具有許多優勢,其先進性主要體現在:
(1)資源共享
構建大數據平臺,能夠實現借助一個大集群來整合所有可用的服務器資源對外提供全部的能力和服務。通過整合所有可用的服務器資源,能夠更加合理地規劃和使用整個集群的資源,并且可以實現細粒度的資源調度機制。同時,集群的存儲能力和計算能力也可以突破單機的峰值,部署和維護也只需要操作一個集群,較大程度上減輕了系統運行維護的工作量。
(2)服務共享
構建大數據平臺,能夠將一套統一的設計規范和管理體系應用到實際的服務實現上面,同時可以統一制定服務的訪問控制與數據權限等信息安全規則。此外,構建一個大集群使得服務消除了孤島,并標準化數據的定義和存儲等規范,從而充分利用大數據技術帶來的全量數據分析的優勢。
(3)安全保障
構建大數據平臺,能夠從整個平臺的層面出發,設計和實現一套整體的安全體系架構以及管理規范。在單一存儲架構的基礎上實現細粒度的數據分級授權;在單一集群架構的基礎上實現資源深度隔離;在單一服務架構的基礎上可以實現細粒度的訪問控制。借助平臺工具和服務的形式展現平臺能力,屏蔽平臺底層細節,提升安全保障。

圖1 MapReduce 架構Fig.1 MapReduce architecture
MapReduce是非常著名的分布式批處理計算引擎,它被廣泛應用于大數據處理、搜索引擎構建等場景中,具有良好的容錯性和擴展性、編程簡易以及高吞吐率等優點,是Hadoop體系中數據分析與處理的核心。MapReduce主要包含兩個部分:運行時環境與編程模型。運行時環境能夠自動完成數據切分、節點通信與失效管理等復雜工作。編程模型可以對外提供簡單易用的接口,將用戶提交的代碼與架構中的各個組件拼裝為一個分布式并行計算程序,使實現一個分布式程序像寫串行程序那樣簡單。MapReduce的具體架構如圖1所示。
在新時代創新發展的浪潮中,煙草行業面臨高質量發展以及市場化取向改革的要求,福建煙草實現大數據技術的必要性主要有:
(1)彌補傳統分析的不足
目前煙草商業系統主流的數據分析方法是依靠工作人員的專業知識和經驗,其缺點有:一是沒有精準的指標,難以對市場情況進行量化,而只能得出一個大概、模糊、近似的結果,而模糊的結果在信息傳遞中的失真會隨著傳播的范圍和個體理解的不同而不斷放大;二是面對大量的數據,人力有限,難免容易忽視一些隱藏的信息,或無法考慮到所有的關聯性數據,而只是考慮若干關聯性最大的數據。
(2)消除資源浪費的孤島
因歷史遺留問題積累等原因,福建煙草商業系統現行信息系統很多。不同的數據儲存于不同的信息系統,而這些信息系統又是由大大小小的軟件公司開發和運維的。大數據技術能夠架起各信息系統交互的橋梁,消除企業經營的“信息孤島”,達到行業數據上行、下行以及匯聚集中的目標,進而實現數據交換與共享。
(3)實現數據質量的提升
數據質量主要包括準確性、一致性、完整性、可理解性、規范性、及時性等方面[2]。大數據技術可以有效減少系統數據錄入、處理等重復作業,消除系統數據存在的“多源頭”現象,從而能夠提高數據質量,減少業務人員的工作量。通過基于數據庫實現分布式鎖,從而保證數據一致性。
隨著大數據技術的快速發展,新的理論和工具層出不窮,目前應用最為廣泛的是以Hadoop以及Spark為核心的生態系統。站在數據的生命周期上看,大數據從數據源開始,經過分析、挖掘到最終實現價值一般需要多個步驟。因此,福建煙草大數據技術架構共分為7個層級,包括數據源層、數據收集層、數據存儲層、資源管理與服務協調層、計算引擎層、數據分析層及數據可視化層,具體可參考圖3。

圖2 福建煙草大數據架構Fig.2 Fujian tobacco big data architecture
數據源層的數據源主要包括福建煙草內部數據和外部數據。其中,大數據技術的基礎是采集豐富的數據,實際上煙草商業系統的業務數據可以營造一個動態的“生態圈”。以專賣業務為例,大數據采集的源頭無非是結構化數據以及非結構化數據。專賣管理、卷煙營銷、物流配送等信息系統的關系型數據庫中存儲的數據構成了專賣業務結構化數據集合;卷煙專賣市場管理員通過日常暗訪以及巡查獲得的圖像文字材料、音頻資料等多種數據構成了專賣業務非結構化數據集合。專賣外部數據來源有省局與公安經偵聯勤由美亞柏科開發的系統數據、福建電子政務交換中心數據、郵政、卡口監控、網絡爬蟲、行為特征等數據。
數據收集層由直接對接數據源的模塊構成,負責數據清洗,實現行業內部數據和外部數據清洗、匯總、轉換、加工和統一集中。福建煙草商業系統借助Sqoop工具將關系型數據庫導入到大數據平臺,使用Kafka工具來獲取用戶感興趣的數據。數據存儲層主要負責海量結構化與非結構化數據的存儲,具有容錯性、擴展性和多樣性等特點。福建煙草商業系統借助HDFS以及其上的Hbase分布式數據庫來存儲結構化與半結構化數據,并實現行列無限擴展及數據隨機查找與刪除的目標。資源管理與服務協調層主要負責集群資源的調控,實現集群資源共享。計算引擎及資源管理層數據處理,其中計算引擎通常分為批處理引擎、實時處理引擎以及交互式處理引擎。數據分析為全省行業提供數據加工和分析服務,對業務、數據進行梳理分析,建立數據概念模型、邏輯模型和物理模型。根據需要建立數據集市,開展數據關聯和應用,挖掘數據價值,實現數據的分析和展現。數據可視化層直接與用戶應用程序對接,為用戶提供友好強大的數據處理工具,并直接面向用戶展示結果。

圖3 福建煙草大數據體系Fig.3 Fujian tobacco big data system
2.2.1 專賣業務應用場景
(1)市場監管分析
選取卷煙零售戶的基礎數據、歷史訂單、所屬片區、違規記錄、信譽指標等靜態數據以及記錄市場檢查、卷煙配送簽收以及客戶走訪情況等動態數據,通過設置參數和權值的方法,可以對監管風險等級進行評估分級,比如分為“1級”、“2級”、“3級”等警示層級,提升預警研判命中率,從而有效提高市場走訪、專賣執法的現場作業。
另外,比較分析任意時間區間內涉案的品牌規格信息、條煙32位打碼等信息,從而能夠統計查詢出亂渠道卷煙的品牌規格以及主要規格、流入流出地域分布情況以及流通渠道等數據,并將其與當前卷煙市場采集價格、訂足率、訂足面、社會庫存等動態數據交叉分析、綜合考慮,進而能夠對重點流入流出地域以及流通渠道實現嚴格監控,有力保障卷煙銷售市場秩序。針對涉煙的違法相關案件,可以按照情節嚴重程度如大要案件、普通案件分層歸類,并借助大數據分析技術將碎片數據進行關聯分析和多點碰撞,從中發現違法線索和規律。
(2)專賣內管分析
在前臺,通過數據模型分析預測,把握變化規律和趨勢,用數據驅動市場監管、打假打私,實現精準打擊。在后臺,把智能分析滲透到專賣管理各個方面各個環節,通過數據發現短板、改善流程、糾偏管理、考核績效,建立“線上分析、線下打擊”的專賣監管新模式,推動專賣管理高質量發展。

圖4 福建煙草業務預警分析流程圖Fig.4 Early warning analysis flow chart of Fujian tobacco business
以真煙案件、零售戶的實時訂單以及當前卷煙市場采集價格、訂足率、訂足面、社會庫存等動態信息為基礎,系統會自動按照設定的公式計算得到指標的結果值,通過范圍預警、同比預警、環比預警、標桿監測預警、均值監測預警或中位數監測預警等方式實現預警智能分析,針對每個零售戶、商圈、客戶群,從離散的、大量的、普通的數據集合中分析挖掘出異常集合,建立專賣預警指標體系,借助人工智能算法分析計算異常零售戶及訂單等情況,并向市場管理員、客戶經理、物流送貨員協同發送預警信息。
(3)稽查打假分析
建立“用數據說話、用數據決策、用數據管理、用數據創新”的數據管理機制,深度挖掘各類專賣信息數據在實際打假打私中的應用價值。加強制假、售假等線索的收集,并對各種等線索必然存在去偽存真、去粗取精、合眾細分、信息共享的需求,以最終達到挖掘潛在案件甚至直接鎖定案件的目的。
在制假販私的新形勢下,以往集中在某地進行違法勾當的事件已經越來越少。因此對線索進行管理和分析的前提條件就是打破行政地域限制。由于專賣管理屬于行政行為,行政行為的鮮明特點是屬地管理,優點是能理順各項行政和法律關系,劣勢則是容易造成“劃地為牢”客觀上給流竄作案形成空間。理論上,放眼于福建全省行業統一的線索管理工作模式、建立線索共享的有關制度保障和技術支持是揚長避短的有效手段。此外,大數據技術能夠支持建設涉煙信息研判中心,實現數據匯聚、系統集成以及快速響應,形成全省行業集中管控、分級負責、三級聯動的數字化監管體系。
2.2.2 營銷業務應用場景
(1)零售戶聚類分析
借助數據挖掘來聚類零售戶,針對性制定市場策略。精準營銷其實就是將合適的卷煙策略制定在個性的需求,通過合理的渠道推送給特定的客戶,是多角度精確匹配的計算,以達到資源的最優配置。例如利用大數據挖掘,向客戶推薦商品和服務,幫助工業企業快速準確地找到新品投放最佳契合點;通過對客戶的購銷行為進行透視,從而預測客戶的需求,輔助客戶經理收集更貼近客戶實際需求的數據;根據不同類型客戶的差異化需求,完成客戶360°全方位描述,并完成客戶標簽化以及聚類分析工作,“固定”營銷策略變“彈性”營銷策略,最后爭取實現“一戶一策略”,從而較大程度地提升客戶服務水平,增加客戶粘性。
(2)消費者偏好分析
挖掘消費者偏好,分析每位消費者需求,匯總目標市場需求,預測目標市場趨勢,是數據挖掘商業分析的經典應用情景。借助現代終端客戶統一的數據管理平臺,能夠為卷煙銷售提供更多、更優、更快的消費數據,從而使現代終端建設從著重硬件配置變化到著重數據營銷,通過及時采集消費者行為數據、跟蹤商品狀態,加強終端數據分析,提高終端服務的針對性和科學性。此外,大數據分析可以研究和探索場景營銷、IP地址營銷、社群營銷、傳播營銷的應用,聯合工業公司運用互聯網,收集消費者信息,給消費者“畫像”,及時高效反饋消費需求,為消費者提供線上和線下相同的服務體驗。通過劃分消費者子群,并建立消費市場模型,便可以根據各個消費群體的變化來預測該地區的卷煙銷售市場銷售容量以及結構變化趨勢,靈活地調整卷煙營銷策略,開展宣傳品吸活動,順應市場化取向改革,實現卷煙營銷高質量發展需求。
(3)數據關聯性分析

圖5 福建煙草大數據營銷架構圖Fig.5 Fujian tobacco big data marketing architecture
分析和計算數據的關聯程度,挖掘涉及卷煙市場營銷的影響因子。影響卷煙銷售的因素有很多,但是不同因素對市場的影響程度不盡相同。依托現代零售終端,以關系、內容、消費場景的數字化為核心,探索消費者服務互動平臺,做好會員分級,逐步與工業企業共享會員資源,為會員提供專享商品供貨、定制化商品組合和積分回饋等增值服務,提供全渠道、全場景的消費體驗。使用大數據分析挖掘算法能夠計算出數據集合以及數據元素間的關聯性及關聯系數,并建立關聯性模型或系數矩陣。關聯性模型的建立使得系統可以根據各因素的變化來預測市場走向,讓數據驅動個性化定制,數據推動供應鏈柔性快速反應、數據引導資源配置,進而提高整個卷煙供應鏈的流通效率和服務水平。
2.3.1 大數據應用實例
(1)物流寄遞涉煙數據分析
基于對物流寄遞行業和快遞系統的現狀分析,利用大數據技術實現物流寄遞數據需要與相關重點案件的關聯:第一步是采集物流寄遞企業的面單、配送數據。面單和配送數據是分析研判的基礎,只有采集更多、更詳細、更真實的數據,才可能找出零散的面單、配送信息之間的內在聯系,為分析提供數據支撐。為此,有必要在轄區主要物流寄遞企業部署數據采集系統,將EMS、中通、圓通、盛輝等物流寄遞企業每天收件、寄件的數據匯總到數據中心大數據分析平臺。第二步是將匯總的寄遞數據與關注的人、事、物、案件的重要屬性進行碰撞,進行一對一、一對多、多對多的分析對比。為提升數據中心涉煙分析能力,可以挖掘歷年物流寄遞涉煙案件信息,尋找案件中規律性的特點,制定指向明確的分析規則。第三步是制定分析規則。第三步是預警推送。分析和研判出的信息作為異常預警直接推送到偵察部門。最終由偵察部門采用圖偵、技偵手段對異常預警進行排查,確認是否存在違法行為。此外,可以利用數據中心平臺獲取的大量物流寄遞信息,與已發生案件中發現的線索對比,查找近似或類似物流寄遞信息,分析該信息與案件的關聯程度,確定偵辦范圍。
(2)物流配送作業預警分析

圖6 預警分析實例圖Fig.6 Instance graph of early warning analysis
如圖6所示,利用大數據技術抽取和加工的生產經營數據,建立相關指標和模型進行預警分析,挖掘數據價值,并與移動應用相結合。舉幾個例子:一是物流配送安全預警。通過采集車輛輪胎更換周期等信息,對物流送貨車輛運行情況進行預警分析,能夠及時發現問題和消除隱患,滿足物流作業安全管理的需求。二是專賣內管規范預警。通過采集送貨線路、客戶分布情況、客戶簽收時間等信息,從客戶簽收間隔時間等維度進行預警分析,防止出現未送貨到戶或者集中送大戶的情況,滿足專賣內管規范的需求。三是設備運行狀態分析與備件預警。通過采集倉儲、分揀設備的PLC、RFID卡等數據進行設備運行狀態分析與管控,從而實現設備深層次診斷與故障預判;此外,通過采集設備備品備件數據,結合日常使用情況進行統計分析,滿足備品備件預警和及時補貨需求。四是財務經營成本預警。通過采集車輛送貨線路、配送量、車輛油耗、車輛行駛里程、車輛修理費用、原因、時間等信息,從油耗等維度進行預警分析,捕捉異常數據,便于及時響應,滿足企業成本控制的需求。通過對配送車輛、分揀設備等進行財務經營成本預警分析,捕捉異常數據,便于及時響應,避免較大損失,每年可節省燃油費用、設備修理費用約17萬元。
(3)客戶畫像與精準營銷

圖7 精準營銷示意圖Fig.7 Sketch map of precision marketing
自國家局提出市場化取向改革以來,漳州煙草積極探索,勇于創新,以滿足消費需求為導向,發揮市場在資源配置中的決定性作用,圍繞“面向消費、立足品牌、服務客戶”的目標,實踐精準投放貨源、精細培育品牌和精心服務客戶。
在具體營銷實踐中,利用大數據技術對客戶進行畫像,實現用精細策略匹配貨源投放策略與客戶經營能力、用精準投放對接貨源供給與市場需求、用精益營銷實現貨源投放模式從粗放向精準轉變。針對不同品牌類型,依據不同市場狀態,在不同時間、不同區域、不同客戶類別,采取不同的貨源供應策略;利用大數據技術輔助品牌培育,統籌謀劃品牌發展規劃,開展狀態評估,加強品牌生命周期管理,豐富品牌營銷、培育策略,完善品牌培育效果評估體系;利用大數據技術進行消費研判,建立了以卷煙消費視角為主的區域市場容量和結構預測模型,實現了立足市場真實需求的精準投放,做到不斷檔、不脫銷、不積壓、不外流,提高了商業企業把握市場和調控市場的能力。

圖8 聚類分析及客戶畫像分析圖Fig.8 Cluster analysis and customer portrait analysis chart
2.3.2 大數據應用成效
漳州煙草大數據技術應用以來,通過對綜合業務數據進行關聯分析,對異常數據及時預警,并結合移動應用,有效解決了以往生產經營過程中的消息滯后,無法精準定位癥結等問題,實現數據驅動流程,進一步挖掘了數據中心的價值,提升了企業的經營管理水平,特別是為漳州營銷“五要素”分析,2017年福建煙草商業系統“漳州煙草智能物流現場會”以及物流寄遞行業涉煙數據分析等課題研究提供了有力支撐。
專賣監管方面,作為行業打假打私的重點監管區域,漳州煙草積極與公安、郵政等單位聯勤合作,利用大數據技術進行信息研判,主要成效有:(1)2018年查貨2024.32件,同比值為222%,其中非法流通真煙數量為858件,假煙數量為1127.92件,走私煙數量38.4件;(2)近2年查獲煙機152臺,同比增加了19%。以物流寄遞涉煙數據分析實踐效果為例,2017年查處物流寄遞案件較2016年增幅達200%,查獲物流寄遞違法運輸卷煙超過300件,查處物流寄遞5萬元以上真煙案件6起。
卷煙營銷方面,利用大數據技術助力“五要素”分析,深挖客戶潛力,在客戶數總量未增加的情況下較好實現了提高銷量和結構的目標,主要成效有:(1)2018年漳州卷煙銷量達242811箱,同比增加1269箱,同比增幅0.53%,增幅排名在福建省9家地市公司中排名第4位,占全省銷量比重14.64%;(2)漳州卷煙單箱銷額34271元,同比增加1265元,同比增長3.83%,單箱銷額位居全省第2位;(3)全市系統銷售收入714674萬元(不含稅),同比增長4.88%;銷售毛利212952萬元,同比增長5.57%;利潤總額82169萬元,同比增長6.76%;實現稅利216393萬元,同比增長4.87%。
物流配送方面,利用大數據技術實現的配送優化系統應用以來,在周配送戶數從25000戶增加到30000戶,卷煙銷量從19萬多箱增加到24萬多箱的情況下,達到了送貨車輛、配送人員減少、裝載量及送貨戶數增加的效果,實現了提高卷煙配送效率、降低配送成本的建設目標,主要成效有:(1)配送日常使用車輛從79部減少到62部,配送車數下降了21.5%;(2)送貨員工人數由158人減少至124人,用工人數下降了21.5%;(3)單車日均配送量由49件增加到74件,增加了51%;(4)單車日均送貨戶數由63戶增加到97戶,增長了53.9%;(5)卷煙單件配送成本由244箱/元下降為189箱/元,下降了22.5%[4]。
此外,通過對配送車輛、分揀設備等進行財務經營成本預警分析,捕捉異常數據,便于及時響應,避免較大損失,每年可節省燃油費用、設備修理費用約17萬元。
近年來,在市場化取向改革的浪潮中,隨著煙草行業各項業務地持續發展以及高質量發展需要,卷煙零售客戶特性的多樣化以及細化分類的需求日益增加,對于多種多樣的、變化的、復雜的專賣監管以及卷煙銷售等數據潛在價值挖掘提出了更高的期望與現實需要,大數據技術應運而生。
本文以拓展和深化漳州煙草數據中心應用為目的,結合漳州市煙草公司專賣管理及營銷中心等業務部門的實際需求,探索大數據技術在煙草商業系統中的應用。數據既是行業的重要資產,也是一種具有挖掘價值的資源,研究和應用大數據技術挖掘數據價值,必將成為煙草行業數據中心發展的趨勢和方向。