王文強 藍小明
(中國煙草總公司福建省公司,福建 福州 350003)
2020年4月,國家煙草專賣局印發《全國煙草生產經營管理一體化平臺建設及營銷先行建設試點工作方案》(國煙辦綜〔2020〕80號),要求以形成覆蓋全產業鏈、全治理鏈、全生態圈和全生產要素的一體化、智能化平臺為總體目標,構建行業一體化平臺,以一個云平臺、兩個中臺(業務中臺、數據中臺)、四大企業應用和兩大行業應用為主體,形成“1242”總體架構。福建煙草按照“強后臺、厚中臺、薄前臺”的架構打造服務共享式的能力開放平臺,最大化利用行業數據中臺對技術、數據、業務的支撐和共享能力,構建福建煙草行業大數據資源目錄,形成數據共享服務體系,提供數據服務的設計、開發、測試、上線到銷毀的全生命周期管理,以數據中臺的方式提供數據服務的發布及訪問,不斷沉淀共性數據服務,實現數據資源的共享和應用[1]。
福建煙草數據中臺是集數據采集、融合、治理、組織管理、智能分析為一體,以提升業務運行效率、持續促進業務創新為目標的整體平臺。數據中臺構建起了完整的數據標準規范,實現了數據統一的命名、格式、算法、粒度、口徑等規范;數據整合方面,數據中臺實現了全域數據集成,包含營銷、物流、專賣、煙葉等數據的全面采集匯聚,沉淀了企業級跨域數據資產,在OneData的數據整合管理方法下,構建統一、可共享的全域數據體系、避免數據煙囪、數據冗余;數據處理分析方面,數據中臺實現大數據量的數據存儲、支持極高的作業并發數,具有百PB級的存儲處理能力和每日 PB 級別的計算吞吐能力,并提供準實時的數據分析計算能力;數據服務方面,基于OneService的數據服務方法論,構建統一的數據服務平臺,提供穩定、高效、安全的全域數據服務,以及標準化的數據共享、數據互通的API服務,實現數據與業務的高效閉環。
福建煙草現有數據中心構建了面向主題、集成、反映歷史變化的數據集合,用于支持管理決策和全局信息共享[2]。在建設過程中形成了一定的標準規范,對全省信息系統的主數據、元數據、數據交換以及信息資源分類編碼進行標準化定義,為企業數據的標準化治理打下基礎;數據分析方面,具備一定的數據分析處理能力,能對數據進行統計,形成各業務系統的指標、報表,滿足省市兩級領導、管理人員、業務人員對指標數據的需求。目前數據中心可以提供1724張相關報表和看板數據;數據服務方面,實現ESB(企業服務總線)為核心的數據交換平臺搭建,提供省市兩級各業務系統數據應用的服務能力,能實現基本的數據交互服務功能。
大數據平臺將企業所有數據(包括結構化和非結構化數據)抽取出來放到一起,成為一個大的數據集,構成解決數據的存儲、計算、治理問題的數據基礎平臺。大數據平臺注重數據的存儲和計算能力,同時還具有一定的實時分析、數據管理能力,屬于一種技術平臺和技術實現手段。
福建煙草數據中臺、現有數據中心與大數據平臺的區別如表1所示。

表1 福建煙草數據中臺、現有數據中心與大數據
福建煙草數據中臺以IAAS、PAAS層組件工具為支撐,以數據中臺為建設主體,圍繞福建煙草全領域、全終端“一切業務數據化,一切數據業務化”的戰略目標,推進福建煙草全面數字化轉型,形成“數據集中統一、應用百花齊放”的格局,最終實現福建煙草的業務、數據應用智能化升級。
福建煙草數據中臺的總體架構如圖1所示,分為統一賦能前臺、統一數據平臺、統一計算后臺三層。

圖1 福建煙草數據中臺總體架構
其中,統一賦能前臺通過數據平臺提供的數據能力,支持經營管理平臺等業務系統,打造“智慧營銷”“智慧物流”“智慧煙葉”等福建煙草大數據應用體系,實現消費者畫像、零售客戶洞察等通用基礎服務能力,以及銷量預測,智能配貨等個性化場景的分析服務能力,以數據賦能前端業務,實現數據分析價值化與服務化。
統一數據平臺依托福建煙草沉淀的數據資產,整合行業產業鏈供應鏈各個環節數據,實行統一管理、運營,形成四個“統一”模式:數據整合、數據標準、數據服務、數據治理。
一是數據整合,包括公共數據存儲和數據開發。公共數據存儲分為三個層面。第一層,緩沖數據層,匯聚、采集福建煙草的業務數據和管理數據,包括營銷、專賣、物流、煙葉等業務系統的結構化及非結構化數據,并按照不同業務、組織進行縱向分類存儲。第二層,公共數據層,面向主題的數據組織方式,對數據進行歸類,按業務主題劃分,形成營銷域、專賣域、煙葉域、人事域等,進行統一、標準化管理。第三層,萃取數據層,對搬運的數據進行萃取加工,形成以業務對象和萃取標簽為核心的數據體系,包含基礎數據標簽、統計算法數據標簽等;數據開發包括模型設計、指標體系、數據開發、數據目錄、標簽體系等一站式數據開發框架。
二是數據標準,建立新的面向大數據管理和應用的技術標準,包括數據采集標準、數據模型標準、數據交換標準、數據質量標準、數據服務標準、數據安全標準等。
三是數據服務,統一數據服務包括各類共享數據服務的開發,按照數據服務工廠的理念,通過對數據中臺各方面能力的總結、提煉,實現數據共享能力的目錄化、服務化。
四是數據治理,數據治理要考慮建立數據治理及運營機制,針對企業數據資產開展治理和運營工作,包含權限控制、資產管理、質量管理、運維管理等。
統一計算平臺則是基于福建煙草的專有云平臺能力,借助大數據組件及分布式計算存儲框架,實現企業大數據量存儲,同時為數據中臺提供基礎計算能力。通過離線計算平臺 MaxCompute、流計算平臺StreamComputed 等提供的數據管理和計算能力,為數據整合、數據分析算法提供高效的計算支持,支撐離線計算、實時計算、在線分析等大數據能力。
福建煙草數據中臺充分發揮大數據底座能力,整合各業務系統數據,構建數據挖掘模型,用數據驅動營銷、物流、專賣、煙葉等業務的決策管理,為業務提供共享、可靠的數據服務,通過數據賦能業務,逐步實現系統集成、資源整合、信息共享[3],構建數據中臺的底座能力,推進行業的數字化轉型。
一是打造資源共享。福建煙草在信息化建設過程中,信息、應用、資源孤島化現象嚴重,信息難以交互,數據無法互通。通過構建福建煙草數據中臺,有效整合數據資源,做到數據共享和資源統籌,從全局視角實現全域管控和應用集成,賦能行業資源配置和管理效率不斷提升,推進行業生產鏈供應鏈的高效運轉。
二是促進業務協同。福建煙草數據中臺集成不同業務系統中的數據,通過數據處理分析、價值挖掘,建立結構完備、組織有序、靈活可拓展的數據資源體系,支持跨部門、跨領域的業務協同;構建營銷、物流、專賣、煙葉、財務等應用,通過數據資源共享,實現信息、數據在不同業務系統中的交互,增強橫向業務協同,助推福建煙草構建統一、集成和可擴展的信息化平臺。
三是提供開放服務。福建煙草數據中臺搭建統一的數據服務總線,提供統一的API服務和服務管理能力。支持將現有API注冊到開放服務平臺進行統一的發布和管理。同時,開放服務平臺和API網關打通,能夠將API服務一鍵發布到API網關。開放服務平臺與API網關,一同為用戶提供低成本、易上手、安全穩定的數據開放共享服務。
四是保障數據安全。福建煙草數據中臺建設堅持“歸我所有、有我所控、為我所用”的基本原則,以平臺自主可控和安全可信為底線,確保數據為自身所有、平臺為自身所控。依托云原生安全能力加強信息系統的安全防護,通過安全檢測、安全評估和應急處理能力,有力保障行業數據資產安全和渠道安全,實現信息系統和業務數據的安全使用。
1.4.1 品牌會員畫像模型
通過數據挖掘分析不同卷煙的潛在消費者特征,對比不同卷煙消費群體的標簽特點,針對各品牌卷煙的特定消費群體,制定差異化、精準化的營銷方案。
第一步,以卷煙熱力模型作為基礎,城市網格為空間對象,計算所有地市網格中某款卷煙的消費熱度占全部卷煙消費熱度的比例,作為衡量該款卷煙在該網格的消費熱度(受歡迎程度),同時標記消費熱度最高與最低的網格區域。
第二步,通過對兩類網格區域消費人群進行聚類分析,挖掘差異度高的特征作為該款卷煙消費人群的特征屬性標簽,進而勾勒出該款卷煙消費群體的基礎畫像。首先根據某款卷煙的受歡迎度,對相應網格內的消費人群數據進行逐一標注,然后分別將消費人群的每一個屬性標簽和受歡迎程度進行組合,使用均值偏移聚類算法(Mean shift)[4],進行聚類分析,對其進行分類,每一次的迭代使用偏移公式計算移動距離,直到偏移均值收斂,完成分類。

圖2 聚類分析算法示意圖
Mean shift的基礎偏移量公式:
Sh:以x為中心點,半徑為h的高維球區域;k:包含在Sh范圍內點的個數;xi:包含在Sh范圍內的點。
在均值漂移中引入核函數的概念,能夠使計算中距離中心的點具有更大的權值,反映距離越短,權值越大的特性。改進的偏移均值:
中心點移動到偏移均值位置:
xt+1=Mt+xt
通過觀察分類結果可以直觀地判斷出屬性標簽與該款卷煙受歡迎程度之間是否相關,以及不同屬性與受歡迎程度之間的關聯性。
第三步,根據上一步確定的相關屬性和偏好特征值,將占比較高的N個特征值作為篩選條件,結合相關的地理數據和人口數據,匹配出具有類似人口特征的區域,作為卷煙產品推廣的重點區域,為品牌培育、精準營銷做出有力支撐。
1.4.2 智能訂貨推薦
在零售客戶訂貨平臺融入智能訂貨推薦系統,通過計算零售客戶歷史銷售數據、掃碼數據以及商圈環境數據,形成客戶標簽、產品標簽、市場單元標簽,構建零售客戶與卷煙商品的關聯性,結合推薦算法,輔助零售客戶進行智能訂貨,為零售客戶推薦適銷對路的卷煙商品,提升卷煙經營利潤收入。智能訂貨推薦流程見圖3。

圖3 智能訂貨推薦流程
如圖3所示,采集客戶、卷煙銷售相關數據進行標簽計算,產生特征標簽,通過推薦算法形成卷煙、客戶的相似度矩陣,由協同過濾算法處理后輸出卷煙推薦結果。
1.4.3 企業大屏建設
開發建設面向省市兩級的企業大屏。通過對行業各業務領域核心KPI指標的梳理和提煉,利用DataV數據可視化工具,以直觀的圖表形式展示福建煙草總體運行態勢、卷煙非煙銷售、專賣監管、物流管理、煙葉管理等主題,實現全方位、多維度、多粒度的企業數據大屏展示,支撐福建煙草數字化轉型和高質量發展。
數據中臺建設是企業宏觀戰略規劃的一個重要部分,福建煙草數據中臺將縱向形成領導層、管理層和執行層的多級管理,橫向拉通企業數據相關方,包括中臺建設團隊、中臺運維團隊、數據資產管理團隊、數據運營團隊等,共同構建福建煙草職能明確、部門協同、責權分明的弱矩陣組織架構。如圖4所示,組織架構自頂而下分為三層。

圖4 福建煙草數據中臺組織架構
其中,決策層由領導層和數據管理委員會(CIO)管理,對公司數據管理相關的重大方針、戰略進行決策。
管理層作為日常企業數據管理的核心團隊,由一個核心的數據管理辦公室組成,對領導層和CIO負責,執行數據管理的日常工作,包括對數據管理政策和辦法的執行、監管、考核與協調。
執行層由各業務和技術線條的核心負責人組成,接受數據中臺管理組織的管理和協調,共同完成企業的數據管理工作,包括數據責任人、數據使用人員、系統責任人等。
福建煙草參考國家局數據標準建設要求建立數據標準體系,形成數據元、主數據、信息分類編碼的標準化。在福建煙草現有數據標準體系基礎上,結合大數據的建設要求,在新的數據源、采集方式和應用需求驅動下,對原有的數據標準體系進行適配性升級,建立新的面向大數據管理和數據應用的標準體系。數據標準體系建設貫穿數據完整的生命周期(如圖5所示),包括數據模型標準、數據質量標準、數據服務標準以及數據安全標準等,共同組成一套完整、規范、準確的數據標準體系。

圖5 福建煙草數據中臺數據標準體系規劃
一是建立數據采集標準。數據中臺的建設體系下,數據采集需要面向更多異構、實時數據的對接和交換需求,包括各種物聯網設備、外部數據等,數據類別也涉及半結構化與非結構化的數據。根據數據特征,針對不同的業務類型、技術架構,制定不同數據采集策略,建立標準規范的數據采集體系。
二是建立數據模型標準。對福建煙草企業級數據模型進行規范定義,包括定義數據維度、業務過程、原子指標、業務限定等。數據標準定義范圍從事實明細數據、匯總數據的寬表模型,到萃取數據的標簽模型、指標模型。通過構建數據模型的標準化體系,實現數據模型的規范化管理。
三是建立數據質量標準。基于業務數據特點,制定數據質量評估標準,并基于數據標準構建數據質量校驗規則庫;建立面向源頭的數據責任標準、面向數據發布的數據質量發布標準等。
四是建立數據服務標準。數據服務是面向應用系統提供的數據處理、算法模型、標簽分析等服務形式,以數據服務化為目標,構建數據服務工廠理念,建立數據服務目錄,對服務的申請、使用、對接、運行維護進行規范化約束,構成數據服務標準。
五是建立數據安全標準。數據安全涉及到數據存儲、傳輸、使用等過程,根據數據安全管理要求,對數據從產生、采集、傳輸、集成、存儲、處理、交換、共享和銷毀等方面進行約束和管理,同時對多組戶的數據訪問權限制定規范的安全管理標準體系。
福建煙草數據中臺面向大數據治理需求,堅持問題導向,構建數據中臺治理體系,實現福建煙草數據資產的系統性治理。福建煙草數據中臺數據治理體系規劃如圖6所示,貫穿數據的全生命周期,福建煙草數據中臺打造“四化”數據治理體系。

圖6 福建煙草數據中臺數據治理體系規劃圖
一是治理范圍“全域化”。數據治理具備企業數據資產全鏈路管理能力,以元數據、主數據、數據質量和數據生命周期管理為基礎,對企業的標簽庫、模型庫、指標庫和規則庫等核心數據進行一體化管理,同時依托數據血緣關系圖譜、資源運營視圖和端到端的運維監控實現數據全生命周期完整跟蹤及治理能力。
二是治理模塊“協同化”。數據治理體系統籌管理企業數據資產,包括數據標準管理、元數據管理、數據質量管理、數據資產管理、數據安全管理等,各模塊協同運營,確保數據中臺的數據一致、共享、有效。在福建煙草現有代碼管理中心、主數據管理系統基礎上,構建、完善福建煙草大數據相關模塊的協同化管理。
三是治理模式“規范化”。隨著時間推移,數據存量在不斷增加,治理成本、治理難度不斷加大。為了避免產生“成本中心”,數據治理需要考慮建立完備的組織、角色、制度、流程,構建企業全域的數據標準、數據架構、存儲架構等規范,實現數據中臺對數據資產的管用和挖掘數據價值的能力。
四是治理能力“可靠化”。數據資產建設完畢后,充分盤點資產分布和使用情況、計算存儲成本情況以及資源應用情況,保障資產的可用和運營;對資產的使用價值進行評估,通過機制、工具和方法保障優質資產,對質量較差的資產進行完善和優化;實現問題發現、缺陷預警和質量處理的功能,保障數據質量和數據安全。
福建煙草長期以來重視科技創新及管理創新工作,每年由省、市兩級單位組織科技創新課題、QC課題、五小課題等多種形式的創新活動,但由于缺少統一的技術平臺、技術架構和運營組織管理,創新成果無法共享、推廣,一定程度上會產生重復投入、重復建設等問題。為此,福建煙草基于數據中臺能力成立數字化轉型融合創新中心。
福建煙草數字化轉型融合創新中心,依托數據中臺的底座能力,充分發揮福建煙草和生態伙伴的自身優勢,將云計算、大數據、工業互聯網、物聯網、人工智能、區塊鏈、邊緣計算等新技術與煙草產業相融合,以業務需求為導向推進產品孵化和科技創新,同時結合福建煙草的信創、攻防演練、大數據、云平臺等應用場景的測試、培訓以及人才孵化等,構建煙草信息化的創新研究、技術孵化、系統測試、人員培訓等的展示空間和功能空間,賦能行業數字化轉型,促進行業高質量發展。融合創新中心功能架構圖如圖7所示。

圖7 福建煙草數字化轉型融合創新中心功能架構
創新中心基于數據中臺的大數據存儲和離線計算能力,建立大數據實驗室,為大數據的應用研究、數據挖掘、大數據人才培養提供實驗基地和人才孵化基地;探索通過大數據集成,打通農、工、商、零、銷一體的全產業鏈供應鏈數據;探索產業互聯網的數字化路徑,并通過全鏈路公共數據,研究構建數字化科學監管體系。
創新中心的建設聚焦要素激活,依托行業數據中臺的數據沉淀,以創新中心為載體,深挖數據價值、盤活數據資產,探索大數據、人工智能等新興技術與煙草產業鏈的深度融合,實現數據要素激活;注重改革創新,通過數據資源孵化再生、數據資產管理、數據價值挖掘,形成有效的“數據業務化、業務數據化”的生態鏈條,提供專一平臺,加快建設數字化企業,以數字化驅動生產方式、商業模式和治理方式變革,推進行業的數字化轉型和改革創新。
隨著云計算和大數據浪潮的來襲,煙草行業的數字化轉型全面開啟,企業業務數據向協同、共享的方向發展。推進數據驅動、精細化管理,打通數據與應用孤島,實現數據與應用資產的全球化管理,快速挖掘數據價值,是行業數字化轉型中需要解決的問題,數據中臺是實現數字轉型的必要創新技術和方法。數據是行業不可或缺的重要資產,也是需要深挖價值的潛在資源。構建企業數據中臺是實現數據價值、賦能業務應用的重要方式,數據中臺建設也必將成為煙草行業數字化轉型和高質量發展的趨勢和方向。本文結合福建煙草數據中心的建設背景以及數據中臺的建設情況,深入分析數據中臺與福建煙草產業鏈供應鏈的深度融合,闡述數據中臺在一體化平臺試點工作建設與數字化轉型過程中起到的關鍵作用,為福建煙草以及煙草行業數據中臺建設與高質量發展提供建議和意見。