李昌偉,王 凱,張立博
(中國綠發投資集團有限公司,北京 100010)
因不同開發商所開發系統的數據標準不一,導致各企業間難以進行數據共享,影響工作效率。可見,為實現新共享時代,數據標準管理的重要性非比尋常[1]。當前,多數數據標準管理方法和工具多針對單個行業、數據源或企業,即使是管理機制較成熟、管理方法和工具較多的金融行業也缺少面向各行業、跨越多種數據源的數據管理方法和工具[2-3]。從原理看,業務元數據是數據標準本體,從業務元數據出發管理數據標準可從本質上解決數據標準管理平臺難落地的問題。基于此,本文將基于元數據搭建數據標準管理平臺,以期為數據共享提供理論支撐。
現有數據標準管理問題包括[4]:(1)認知不足,站位不高,難以理解數據標準對實施信息戰略和管理水平提升的重要性,積極性不足;(2)各單位工作目的和時間等不同,導致系統間同類數據的分類、信息及定義等均不同;(3)各系統、部門中雖然有多個數據主題在流動使用,但關注度及使用頻率等不同,導致數據歸屬不一;(4)數據治理時,因數據業務處理中所遇到數據問題不同,導致業務流程運轉及業務發展情況不同,存在業務口徑多樣、系統功能缺失及信息基礎編碼不同等問題。針對現有問題,文章搭建了如圖1所示的數據標準管理體系。
圖1 數據標準管理體系
1.1.1 企業數據標準存儲
數據標準存儲是數據標準系統的核心功能,其對業務與標準的結合、技術和標準的結合等都有影響。以元數據庫作為存儲方式,并以數據標準作為元數據庫的業務元數據,有利于元數據庫技術元數據與業務元數據的有效結合。
1.1.2 企業數據標準基礎管理
企業數據標準基礎管理模塊包含數據標準的落地檢核模塊、生命周期管理模塊、瀏覽與查詢模塊,三者共同構成數據管理系統的基礎管理能力。
1.1.3 企業數據標準應用接口
應用接口的作用在于讓數據標準有效落地,并為各系統提供相應功能。
從企業數據標準體系看,數據標準管理平臺建設要求有:為企業數據標準咨詢及咨詢成果提供支撐作用和存儲能力、根據現有數據標準管理各類數據、為上層業務應用及管理提供數據標準服務。從數據標準管理平臺的對外服務及內在需求上,搭建如圖2所示數據標準管理平臺總體架構。
圖2 數據標準管理平臺總體架構
從數據標準應用、存儲及基礎管理3個模塊設計數據標準管理平臺的功能架構[5],具體如圖3所示。
在企業數據標準存儲模塊中采集技術元數據和數據標準后,即可通過各類元模型將所采集的數據存儲到元數據存儲庫中。
數據標準基礎管理模塊包括標準體系瀏覽、標準綜合查詢、標準生命周期管理和標準落地校核功能。標準體系瀏覽模塊提供瀏覽數據標準的窗口,業務人員在標準體系瀏覽窗口中找到所需數據標準表述術語、值域代碼等后,即可在標準綜合查詢窗口中找尋,可有效提高查找準確度;數據標準生命周期管理是數據標準基礎管理模塊的核心,標準的維護、審批和執行等均由其體現;數據標準落地校核的作用在于映射數據標準,以映射方式檢查數據標準執行效果[6]。
數據標準應用模塊的作用主要有:統一業務口徑(使各類日常業務工作均遵守統一的數據標準定義)、輔助數據標準落地(通過檢查數據標準落地情況確保數據標準落地)、輔助系統開發(指導設計新建系統模型,確保數據標準與業務系統模型保持一致)、貫通技術與業務(經由元數據結合業務、技術、標準,使業務人員可從數據標準出發明確業務標準)。
數據標準管理技術架構共5個層次,具體如圖4所示。其中,采用HTML5技術搭建客戶層,以確保客戶端兼容各類瀏覽器;采用JavaScript/Ajax、Flash搭建展現層技術架構,確保符合用的戶操作習慣,確保數據展現質量;借助Service接口以Json、XML等方式進行業務層間的通信,以完全分離展現層和業務層;集成層是技術架構的關鍵,共有兩方面作用:一是數據供給作用,包括供給數據標準、技術元數據等;二是數據采集作用,包括各系統間的通信數據等,為確保集成層的高效運作,通過JNDI等技術搭建其技術架構;資源層含有各類數據資源,包括數據標準咨詢結果、各系統數據庫表、數據傳輸信息,以Database數據庫搭建其技術架構。
圖4 系統技術架構
元數據管理模塊共4個結構層次,分別為數據源、元數據采集、元數據存儲、元數據服務,具體如圖5所示。
圖5 元數據管理總體結構
2.1.1 元數據來源層
元數據來源類型包括庫表結構和ETL工具。庫表結構包括數據庫(DB)、ODS數據模型和集市數據模型的數據庫信息、表結構、表信息及模型關聯關系等。ETL工具包括Mappings、Worklets、Targets和Sources等元數據和映射數據等。
2.1.2 采集適配器層
為提升系統的操作性和擴展性,便于業務人員連通各類型元數據接口,在元數據管理平臺中單獨設置采集層。元數據采集適配器可用于各類數據源數據的采集、解析、分析和存儲,具備自動化獲取和解析元數據的功能。不同類型的數據源對應不同的采集方法,針對異構數據源和較多使用的數據源,分別設計了ETL采集器和DDL采集器。ETL采集適配器設計如圖6所示。此外,數據庫采集方式共兩種:一是從數據庫管理表中采集的直連采集方式,該方式實時性較強,但需耗費連接池資源,且長期直連對數據庫影響較大;二是從數據庫定義的語言文件中采集,該方式可有效避免方式單一的問題,對數據庫影響較小,建議采用第二種采集方式。
圖6 元數據采集設計
庫表采集適配器的整體流程為:定義語言腳本,制定采集策略,開發文件以匹配數據庫所定義的語言腳本風格,形成Java類文件,在采集程序中調用該類文件以進行采集[8]。具體如圖7所示。
圖7 庫表采集器采集邏輯流程
2.1.3 存儲模型層
基于對象建模的思想,元數據存儲模型層包括元模型定義模型和元數據存儲模型。元模型定義模型通過OMF規范定義對象間關系和行為并進行分類,元數據存儲模型按元數據類型分類存儲數據對象[7]。元數據存儲模型如圖8所示。
圖8 存儲模型
基于數據標準自動化采集、統一管理及強擴展性的設計原則,為實現在數據標準出現結構變化時,只需簡單配置即可采集新數據標準而無需改變數據標準存儲結構性內容的目的,將數據標準存儲劃分成如圖9所示的4個主要過程。
圖9 數據標準存儲過程
2.2.1 數據標準模板
數據標準模板可為數據整理提供指引,可采用Excel形式作為模板,具體如表1所示。
表1 數據標準模板
2.2.2 數據標準元模型
數據標準模板需經元模型采集才可進入數據標準管理平臺。從數據標準定義看,數據標準元模型主要包括主題元模型和公共代碼元模型。主題元模型強調主題的表達,包括主題分類和信息項元模型等,公共代碼元模型則強調公共代碼和代碼值。
統一數據標準是提升大數據時代數據管理能力的必經之路。數據標準管理平臺旨在助力尚未進行數據治理的企業鞏固治理根基,實現數據標準化建設目標,這將為后續數據安全及質量提升等工作打下牢固基礎,并為擴展新業務系統提供統一規范,對提升數據共享有重要意義。