王貴賓
(中國煙草總公司江蘇省公司,江蘇 南京 210018)
隨著卷煙工商零銷業(yè)務(wù)的快速發(fā)展,企業(yè)數(shù)據(jù)成幾何倍增長,數(shù)據(jù)量龐大、復(fù)雜、各類數(shù)據(jù)間標準不一致,往往會出現(xiàn)數(shù)據(jù)難以管理的現(xiàn)象。以新數(shù)基數(shù)據(jù)中臺能力,以大數(shù)據(jù)工具智能數(shù)據(jù)建模服務(wù),將無序、雜亂、繁瑣、龐大且難以管理的數(shù)據(jù),進行結(jié)構(gòu)化有序的管理。使存在于企業(yè)中的數(shù)據(jù)產(chǎn)生更多的價值,將數(shù)據(jù)價值最大化。以新數(shù)基底座支撐數(shù)倉規(guī)劃設(shè)計、制定并沉淀企業(yè)數(shù)據(jù)標準、維度建模、數(shù)據(jù)指標定義,通過使用Data-Works 數(shù)據(jù)建模,將建模設(shè)計產(chǎn)出的維度表、明細表和匯總表物化到計算引擎中并進一步應(yīng)用[1]。
數(shù)據(jù)倉庫是所有數(shù)據(jù)的集合,包括日志信息、數(shù)據(jù)庫數(shù)據(jù)、文本數(shù)據(jù)、外部數(shù)據(jù)等都集成在數(shù)據(jù)倉庫中。數(shù)據(jù)分層、數(shù)據(jù)域、業(yè)務(wù)過程三大要素,共同確定數(shù)據(jù)建模的邏輯數(shù)倉架構(gòu)。
以AnalyticDB 云原生數(shù)據(jù)倉庫、MaxCompute大數(shù)據(jù)計算服務(wù)、DataWorks 數(shù)據(jù)管理平臺構(gòu)成的組合方案[2],構(gòu)建企業(yè)級數(shù)倉中心。在創(chuàng)建數(shù)倉中心時,以數(shù)據(jù)分層、業(yè)務(wù)分類、數(shù)據(jù)域、業(yè)務(wù)過程和建??臻g進行數(shù)倉規(guī)劃設(shè)計。圖1 為業(yè)務(wù)數(shù)據(jù)分析應(yīng)用平臺示意圖。

圖1 業(yè)務(wù)數(shù)據(jù)分析應(yīng)用平臺示意圖
數(shù)據(jù)分層保障了數(shù)據(jù)在進入數(shù)據(jù)倉庫之前都經(jīng)過清洗和過濾,使原始數(shù)據(jù)不再雜亂無章,優(yōu)化了查詢過程,有效地提高了數(shù)據(jù)獲取、統(tǒng)計和分析的效率。同時,數(shù)據(jù)分層實現(xiàn)了各種不同維度數(shù)據(jù)的關(guān)聯(lián),使多維分析更加方便,為從多角度、多層次地數(shù)據(jù)分析和決策制定提供便捷。
結(jié)合業(yè)務(wù)場景、數(shù)據(jù)場景綜合考慮設(shè)計數(shù)倉的數(shù)據(jù)分層,以DataWorks 的數(shù)據(jù)分層功能進行創(chuàng)建[3]。創(chuàng)建數(shù)據(jù)引入層(Operational Data Store,ODS)、明細數(shù)據(jù)層(Data Warehouse Detail,DWD)、匯總數(shù)據(jù)層(Data Warehouse Summary,DWS)、聚合數(shù)據(jù)層(Data Warehouse Management,DWM) 及應(yīng)用數(shù)據(jù)層(Application Data Service,ADS) 5 層,各個分層如下。
1) ODS。ODS 用于接收并處理需要存儲至數(shù)據(jù)倉庫系統(tǒng)的原始業(yè)務(wù)數(shù)據(jù),其數(shù)據(jù)表的結(jié)構(gòu)與原始數(shù)據(jù)所在的業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中的表結(jié)構(gòu)一致,是數(shù)據(jù)倉庫的數(shù)據(jù)準備區(qū)和存儲備份區(qū)。ODS 對原始數(shù)據(jù)的操作步驟如下。一是將原始的結(jié)構(gòu)化數(shù)據(jù)增量或全量同步至數(shù)據(jù)倉庫中。二是將原始的非結(jié)構(gòu)化數(shù)據(jù)(例如,日志信息、離線數(shù)據(jù)、文本數(shù)據(jù))進行結(jié)構(gòu)化處理,并存儲至MaxCompute。三是根據(jù)實際業(yè)務(wù)需求,記錄原始數(shù)據(jù)的歷史變化或?qū)υ紨?shù)據(jù)進行簡單的清洗。四是ODS 的數(shù)據(jù)表,命名必須以ods 開頭,并且生命周期為366 d。
2) DWD。DWD 通過具體業(yè)務(wù)活動事件構(gòu)建數(shù)據(jù)模型。跟進業(yè)務(wù)操作的特點,構(gòu)建最細粒度的明細數(shù)據(jù)表。結(jié)合業(yè)務(wù)數(shù)據(jù)使用特點,將明細數(shù)據(jù)表的重要維度屬性字段適當(dāng)冗余,作為大寬表化處理。同時,也可以減少明細數(shù)據(jù)表及維度表的關(guān)聯(lián),提高明細表的易用性。
3) DWS。DWS 通過分析的主題對象構(gòu)建數(shù)據(jù)模型?;谏蠈拥膽?yīng)用和產(chǎn)品的指標需求,構(gòu)建公共粒度的匯總指標事實表。例如,從ODS 層中對用戶的行為做一個初步的歸類匯總,抽象出來一些通用的維度,假設(shè)維度為時間、客戶、組織機構(gòu)、商品,并根據(jù)這些維度統(tǒng)計出相關(guān)數(shù)據(jù),比如統(tǒng)計區(qū)縣分公司每個時間段銷售的商品數(shù)。則在DWS可以進一步添加一層輕度的匯總,創(chuàng)建組織日匯總表、組織周匯總表、組織月匯總表、組織年匯總表,可以讓計算更加的高效。例如在此基礎(chǔ)上計算日、周、月、年會節(jié)省很多時間。
4) DWM。DWM 存放根據(jù)業(yè)務(wù)需求統(tǒng)計的計算指標數(shù)據(jù)和維度數(shù)據(jù)。如訂足客戶數(shù)、退貨次數(shù)、電子結(jié)算次數(shù)、電子結(jié)算成功次數(shù)、電子結(jié)算不成功次數(shù)等。
5) ADS。ADS 用于存放數(shù)據(jù)產(chǎn)品個性化的統(tǒng)計指標數(shù)據(jù),輸出各種報表。例如,要統(tǒng)計江蘇省各公司在2023年1月1 日至當(dāng)天,需求量、銷量、銷售額、單箱銷售額(元)、庫存數(shù)量、訂單滿足率、不含稅銷售額、稅額、成本金額、財務(wù)成本金額、毛利、財務(wù)毛利、毛利率、財務(wù)毛利率、單箱毛利(元)、財務(wù)單箱毛利(元)、占總量比,同時顯示上期、環(huán)比、同期、同比的數(shù)據(jù)。
數(shù)據(jù)域是一個較高層次的數(shù)據(jù)歸類標準,是對企業(yè)業(yè)務(wù)過程進行抽象、提煉、組合的集合,是業(yè)務(wù)人員在使用數(shù)據(jù)時第一個分組入口,可以幫助業(yè)務(wù)人員快速地從海量的數(shù)據(jù)中快速定位到自己需要查詢的業(yè)務(wù)數(shù)據(jù)。
數(shù)據(jù)域面向業(yè)務(wù)分析,一個數(shù)據(jù)域?qū)?yīng)一個宏觀分析領(lǐng)域,比營銷域、專賣域、物流域、人力資源域、財務(wù)域、質(zhì)檢域等。同時也可以按照用戶中心、客戶中心、商品中心、交易中心、支付中心、消息中心、案件中心、證件中心等區(qū)劃。
業(yè)務(wù)過程是數(shù)據(jù)域中所執(zhí)行的業(yè)務(wù)活動,是數(shù)據(jù)建模所需要分析的邏輯主體。例如,交易中心域中加入購物車、下單、支付等業(yè)務(wù)過程。進行業(yè)務(wù)效果分析時,業(yè)務(wù)過程有非常典型的應(yīng)用,例如常用漏斗分析,即將零售戶購進卷煙的業(yè)務(wù)活動分解為瀏覽卷煙商品、加入購物車、下訂單、付款結(jié)算、物流銜接、訂單分揀、確認收貨等業(yè)務(wù)過程,統(tǒng)計查詢每個業(yè)務(wù)過程的“訂單銷量”,可以針對“訂單銷量”這一指標做漏斗分析。
通過規(guī)范約束字段標準、字典代碼、度量單位、命名詞典,來保障后續(xù)建模與應(yīng)用過程中數(shù)據(jù)處理的一致性,從源頭上保障數(shù)據(jù)的標準化生產(chǎn),節(jié)約后續(xù)數(shù)據(jù)應(yīng)用和處理的成本。數(shù)據(jù)標準包含字段標準、字典代碼、度量單位、命名詞典。
DataWorks 在建模前規(guī)劃制定數(shù)據(jù)標準,或在建模使用過程中根據(jù)業(yè)務(wù)情況沉淀企業(yè)業(yè)務(wù)的數(shù)據(jù)標準[4]。通過規(guī)范約束字段標準、字段代碼、度量單位、命名詞典,來保障后續(xù)建模與應(yīng)用過程中數(shù)據(jù)處理的一致性。
字段標準又稱為數(shù)據(jù)字典,是對含義相同但字段名稱不同的數(shù)據(jù)進行統(tǒng)一規(guī)范管理的數(shù)據(jù)準則,字段標準可定義字段的取值范圍、度量單位等內(nèi)容,可理解為全局字段管理??蓪⒍鄠€表中含義相同但字段名不同的字段數(shù)據(jù)類型進行定義保證數(shù)據(jù)類型長度一致,并對該字段制定相關(guān)的取值范圍、度量單位、字典代碼等內(nèi)容。后期字段標準發(fā)生變化時,可快速定位和變更關(guān)聯(lián)的表,極大程度提升構(gòu)建效率、應(yīng)用效率、準確性和后期治理效果。
字典代碼是數(shù)據(jù)標準的取值范圍,在字典代碼中可設(shè)置某一數(shù)據(jù)標準可選擇的數(shù)據(jù)的內(nèi)容以及范圍。例如性別數(shù)據(jù)標準的字典代碼內(nèi)容應(yīng)該為男性或女性。
字典代碼與枚舉維度比較相似,但是在數(shù)據(jù)治理的作用要強于枚舉維度,標準代碼可以與數(shù)據(jù)質(zhì)量打通,某個字段被設(shè)定為標準代碼以后,該字段的取之范圍必須在標準代碼以內(nèi),如取值范圍不在標準代碼以內(nèi),需要馬上治理。
遵循Kimball 維度建模理論,使用DataWorks的維度建模功能進行數(shù)據(jù)倉庫模型設(shè)計,根據(jù)業(yè)務(wù)情況設(shè)計并創(chuàng)建維度表、明細表、匯總表、應(yīng)用表,并且將模型快速發(fā)布到相應(yīng)的研發(fā)引擎[5]。同時,還可以使用逆向建模,將已有物理表逆向生成模型。
結(jié)合業(yè)務(wù)的數(shù)據(jù)域規(guī)劃,提取出各業(yè)務(wù)數(shù)據(jù)域中進行數(shù)據(jù)分析時可能存在的維度,并將維度及其屬性通過維度表的方式存儲下來。
例如,在進行批量銷售數(shù)據(jù)分析時,可用的維度及其屬性有:訂單維度(屬性包括訂單標識、銷售類型、訂單編號、訂貨日期、業(yè)務(wù)日期、銷售組織、客戶標識、客戶編碼、營銷線路標識、營銷部門標識、營銷分公司標識、客戶經(jīng)理標識、制單人、制單時間、修改人、修改時間、審核人、審核時間等)、客戶維度(客戶標識、客戶編碼、客戶名稱、客戶電話、客戶卷煙檔位等)、商品維度(包括商品標識、商品編碼、商品名稱、品質(zhì)類型、計量單位標識) 等,可以將這些維度和屬性創(chuàng)建為訂單維度表、客戶維度表、商品維度表等,將維度屬性記錄作為維度表的字段。
結(jié)合業(yè)務(wù)過程的規(guī)劃,梳理分析各業(yè)務(wù)過程中可能產(chǎn)生的實際數(shù)據(jù),將這些實際數(shù)據(jù)字段通過事實表的方式存儲下來。
例如下訂單這一業(yè)務(wù)過程中,可以創(chuàng)建下訂單這一事實表,用于記錄下單過程可能產(chǎn)生實際數(shù)據(jù)字段,例如訂單ID、品質(zhì)類型、計量單位、要貨數(shù)量、訂單數(shù)量、定量數(shù)量、含稅單價、含稅金額、稅率、稅額等。可將這些事實表部署到數(shù)倉中,通過DataWorks 將真實的數(shù)據(jù)按照明細表的定義方式進行匯總存儲。
結(jié)合業(yè)務(wù)數(shù)據(jù)分析和數(shù)倉分層,將一些明細的事實數(shù)據(jù)和維度數(shù)據(jù)先進行匯總分析,創(chuàng)建匯總表,在數(shù)據(jù)分析時直接查詢匯總表中的數(shù)據(jù),無需再取用明細表和維度表中的數(shù)據(jù)。
通過建立一個包含所有相關(guān)數(shù)據(jù)源的數(shù)倉中心,然后利用數(shù)據(jù)挖掘和探索性分析方法,找出與業(yè)務(wù)目標相關(guān)的有效路徑。同時,還需建立自動化的數(shù)據(jù)處理和分析系統(tǒng),以便及時獲取和處理所需數(shù)據(jù),并提供實時的數(shù)據(jù)分析和報告功能。應(yīng)建立一個可持續(xù)發(fā)展的數(shù)據(jù)管理和維護體系,以確保數(shù)據(jù)的質(zhì)量、完整性和安全性,并不斷推進數(shù)據(jù)分析與應(yīng)用的迭代升級。營銷業(yè)務(wù)應(yīng)用系統(tǒng),可以查詢所在地各公司需求量、銷量、銷售額、單箱銷售額(元)、庫存、訂單滿足率、不含稅銷售額、毛利、毛利率、單箱毛利(元) 等,同時可以選擇卷煙,查詢不同卷煙屬性。