

摘要:元數據作為“描述數據的數據”,是企業數據的DNA。數據使用者或者數據系統可以通過元數據管理工具發現數據、查找數據、理解數據以及使用數據。傳統的元數據收集依靠人工收集,確保元數據的完整性和準確性一直都是難點所在,導致元數據管理工具的價值不高。而設計態和實現態不一致也是一個問題,進一步影響了元數據管理工具的效用。“主動”元數據管理通過元數據的自動采集,可以為用戶呈現實現態的最準確的元數據。然而,僅僅依靠自動采集元數據并不是“主動”元數據管理的全部。本文對“主動”元數據管理進行了一些思考和總結,希望能夠對元數據管理工具的建設起到啟發的作用。
關鍵詞:主動元數據管理;傳統元數據管理;元數據管理;主動元數據
一、引言
Gartner發布的2021年技術成熟度曲線中,主動元數據管理(Active Metadata Management)赫然在列。這一概念當前持續火爆,國內外甚至已經產生了相關產品,但其概念并不容易闡釋清楚。盡管Gartner也對主動元數據管理做了相應解釋,即“一組能夠持續訪問和處理并支持持續分析的元數據的功能……”。但當前由此派生的眾多概念都過于抽象,例如主動元數據、活動元數據、智能元數據、現代元數據平臺等。同時,各個廠家也是你方唱罷我登場,都在基于自己的產品能力詮釋著對主動元數據管理的理解,令人看得云里霧里。
根據Gartner發布的《主動元數據市場指南》,主動元數據是一個永遠在線、智能驅動、面向行動、API驅動的系統。Prukalpa Sankar認為主動元數據聽是現代數據工具箱中的一個必備工具。包括五個關鍵組成部分:元數據湖統一存儲各種元數據,構建在開放的API之上并由知識圖譜進行驅動;可編程智能機器人,用于創建機器學習或數據科學算法來驅動智能化的框架;嵌入式協作插件,將數據工具與日常工作流程無縫集成;數據流程自動化,提供構建、部署和管理工作流程自動化機器人。反向元數據,可通過編排使相關的元數據隨時隨地提供給需要的最終用戶。領英(LinkedIn)的現代元數據平臺(DataHub),可大規模集成、處理和提供豐富的元數據,以應對許多復雜的組織數據挑戰,為諸如數據來源、數據治理、數據集成、MLOps 和API開發等場景提供支持。Guido De Simoni、Alan Dayley等認為主動元數據管理是一組能夠持續訪問和處理元數據的功能,這些功能支持對不同成熟度、用例和供應商解決方案的持續分析。以上眾多概念定義及產品類別,很容易令初次接觸主動元數據管理的人陷入迷惑。費曼學習法認為,能通俗易懂地解釋清楚概念(定義),才是真正的掌握某個概念(定義)。基于個人理解,嘗試對主動元數據管理的本質作一闡述。
二、主動元數據管理的背景
主動元數據管理是數據管理市場新興的一種功能或趨向,源于持續的元數據管理創新。由于數據來自不同的IT系統,因此組織管理這些數據成為IT團隊的職責。IT團隊希望借助工具來維護和管理公司已有的數據表清單以及這些數據庫表的元數據。在這一需求背景下,元數據管理工具主要面向企業的IT團隊,并用于處理企業內部不同業務系統數據庫中的數據庫表。
企業使用多種類型的數據,越來越多的不同類型的數據開始被企業收集和利用,例如用戶行為數據、廣告投放的媒體數據等。在實踐中,對這些數據進行元數據管理非常困難。主要挑戰在于數據的不穩定性和數據庫結構的經常變化,以及如何保證元數據的信息與真實數據情況一致。因此,需要制定數據集的列表,涵蓋從數據初步采集到加工為最終數據應用產品的整個數據流程,同時包括每個階段的每個數據集的數據分布。基于這些需求,元數據管理工具應具備數據源管理、數據資源分析等功能,這就要求企業擁有強大的數據團隊。
物聯網、云計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種傳感器都是數據的來源或承載平臺。數據類型和格式的爆炸式增長間接推動元數據變得更加復雜和異構,其規模也開始暴增。隨著企業使用數據的場景越來越豐富,每個版本的表結構都被獲取和存儲,以及每一列、每個看板、數據湖中的每個數據集、每個查詢、每個作業運行、每個訪問歷史等。很快,元數據的查找和存儲將面臨與大數據曾經面臨的諸多問題,元數據管理工具也需要進入新的階段。在這個階段,元數據管理的目標用戶開始變成企業使用數據的所有人,基于云平臺、面向最終用戶、數據協同等要求,成為新的元數據管理工具應具備的特性,主動元數據管理正是出于這種原因產生的。
三、主動元數據管理的定義
主動元數據管理是一個永遠在線、智能驅動、以行動為導向的系統。永遠在線意味著持續收集元數據,通過主動元數據管理技術與各個源系統實時交互,實時獲取最新的元數據,并根據使用者的需求虛擬地調取元數據信息。主動元數據管理使得元數據可以毫不費力地在整個數據棧中快速流動,并在數據棧中的每個工具中嵌入豐富的背景和信息。智能化不僅體現在主動收集元數據,還應呈現為主動地掃描這些數據源的數據變化和數據使用習慣(頻次、頻率等),從而智能地調整底層的數據存儲位置和格式等。通過智能化的識別和知識圖譜相關的技術,幫助理解元數據和數據之間的關系,最終協助數據平臺進行自我升級。面向行動是指利用關鍵的元數據指標來啟用AI/ML算法,產生關于數據管理和整合的超前預測,生成建議或警報等。甚至在自動檢測到數據質量問題時,可以自動停止下游管道。主動元數據管理將通過API作為嵌入式協作插件與現代數據棧中的各種工具相連接,使元數據管理工具成為“隨處可見”的編排平臺。主動元數據管理這個名稱十分貼切,可以把主動元數據想象成一個病毒傳播的過程。它會在短短幾秒鐘內出現在人們生活的各個方面,可以立即與其他信息進行交叉檢查,并與其他信息相結合,將相關背景的網絡匯集成更大的趨勢或故事。它引發了對話,最終使信息。
四、主動元數據管理與傳統元數據管理的區別
遍歷元數據管理工具,可以發現一般都具備以下基礎功能:元數據采集、元數據存儲、元數據應用。要進行元數據管理,首先得有元數據,因此,元數據采集是進行管理的第一步。元數據采集是指獲取數據生命周期中的元數據,并對其進行組織,然后將元數據寫入數據庫的過程[1]。元數據的存儲需要建立元數據的模型(元模型),以便統一存儲各類元數據和導入、交換不同系統、類型的元數據。除了幫助了解數據信息外,元數據還用于血緣分析和數據問題影響分析。血緣分析可以快速了解一個數據表的上下游關系,了解數據的來龍去脈和數據邏輯。而影響分析則根據數據的血緣關系判斷某個數據出現錯誤或問題時會影響哪些數據,從而評估可能帶來的影響[2]。
具備基礎功能的傳統元數據管理工具通常在相關業務實現后,通過抽取功能加載元數據,需要在事后人工啟動加載或維護元數據,并事后補錄業務屬性。這種傳統元數據管理往往很難及時獲取元數據的變化,確保元數據與實際情況保持一致性。傳統的元數據管理工具主要是靠簡單的編目或存儲元數據,屬于靜態工具,依賴于人工整理和記錄數據。其成功與否取決于實施活動。傳統元數據管理工具無法通過元數據信號驅動任何行動,減少了元數據對數據平臺和數據消費者的影響。因此,傳統元數據管理工具往往只能成為一個昂貴的存儲平臺,最終導致失敗。究其原因,可能是傳統元數據管理工具過于“被動”。元數據需要通過手動登記采集編目,并通過簡單的搜索和查詢場景來支持使用。未對元數據自身進行深度挖掘,在這種情況下,要管理企業的數據資產,工作量是非常大的,而且也很容易導致階段性的元數據管理。因為項目驗收時進行了良好的元數據注冊,但一旦項目驗收完成,手動注冊的元數據就跟不上變化。而主動元數據管理則可以主動掃描這些數據源的數據變化,通過智能化的識別和知識圖譜相關的技術,幫助人們理解元數據和數據之間的關系。傳統元數據管理基本上是將元數據聚合并存儲到靜態數據目錄中的方式,依賴人力整理和記錄數據。而主動元數據管理則著眼于發現,識別獨立的物理設計、發掘行為模式和內容規則、突顯錯誤和異常值、鼓勵創新并進行驗證。
五、主動元數據管理的實現
要達到主動元數據管理,需要具備以下幾種能力。
(一)可以自動采集各種數據源的元數據
發現并連接所有形式的元數據,形成獨特并不斷變化的關系。支持與數據相關的所有元數據,例如表、報表、模型、指標、數據處理腳本、數據使用行為等。
可以基于本體技術實現元數據的動態集成。本體技術比較復雜,以下舉一個例子進行說明:以車管所數據為例,可以建立一種人-車-罰單的本體模型,人與車之間為擁有關系,人與罰單之間通過“闖紅燈”事件相連接,而罰單本身則以文檔的形式展現。完成本體模型后,就可以基于元數據建立知識圖譜,如圖1所示。
接下來,就需要將真實的數據映射到本體模型上。同時,要在字段級別上對多源異構數據進行歸一化[3]。仍以車管數據為例,具體過程如圖2所示,可以看出,通過本體映射將車管所3張表的數據映射到了 7個本體上(2個實體、3個關系、1個事件和1個文檔),并將車主名稱和姓名進行了統一,將日期的不同表示方式進行了歸一化。
通過以上的建模過程,在應用側就建立了一個多源數據統一的邏輯視圖。即從分析人員的角度對所有數據構建成了一個圖模型。分析人員無需關注底層數據源差異和存儲細節,只需關注如何在此圖模型上進行集成設計。任何數據要集成進來,都需要進行以上過程,在元數據層面進行拉通和融合。這個集成具有動態的特點,核心邏輯在于采用元數據與存儲分離查詢的方案,來賦予知識圖譜“動態”特性。例如,當表字段發生變更時,只需直接更改與元數據的映射關系,而無需在應用端重新導入數據。
(二)自動生成靈活的數據目錄
能夠基于ML/AI能力對數據的語義進行分析,打上數據的標簽,從而加深對數據的業務理解。例如,針對文檔進行語義分析給出分類,針對關鍵字段的數據進行分析給出枚舉的說明,通過字段的上下文智能判斷敏感級別。能夠基于元數據構建知識圖譜,將碎片化的元數據有機地組織起來(比如建立關系和對象),讓數據目錄更加容易被人和機器理解和處理,并為搜索、挖掘、分析等提供便利,為后續AI的實現提供知識庫的基礎[4]。
(三)基于知識圖譜實現設計和分析智能
知識圖譜可實現源端連接配置、源端表和字段等信息的快速檢索和自動填充,使其更直觀和易于解釋。可自動發現全域數據資產,讓企業能在統一平臺上盤點和管理所有數據資產。可以進行數據的智能推薦,例如基于數據的歷史使用情況進行推薦。簡單概括來說,就是將正確的數據,在正確的時間內,提供給正確的人。基于元數據語義知識圖譜和AI增強的敏感數據識別,能夠實現對全域數據資產的自動化分類分級,讓企業數據治理能夠精準施策。
(四)嵌入式協作
通過Open API,數據工具可無縫集成主動元數據。例如,在BI工具中集成數據口徑,在營銷平臺中集成數據質量說明等,以幫助用戶在數據旅程的各個階段及時獲得相關元數據信息。基于元數據智能應用編程框架,開發者可自主定制多樣化的元數據智能應用,如數據資產答疑助手、數據質量預警助手等,幫助企業實現數據管理的全方位智能化。
六、結束語
主動元數據管理通過AI/ML輔助生成的,是支持自動化數據集成和數據交付的基礎能力。主動元數據的形成依賴于發現并連接所有形式的元數據,形成獨特且不斷變化的關系,并以易于理解的元數據關系圖的方式來鏈接和呈現元數據間的關系。通過持續訪問和分析元數據關系圖,可以不斷發現和形成關鍵指標、統計數據等新的關系,如訪問頻次、數據血緣、數據性能、數據質量等。將元數據關系數據作為特征用于訓練和豐富AI算法,同時這些算法可以產生或迭代元數據的語義,以及改進數據集成的設計和自動化流程。對主動元數據的研究才剛剛開始,需要共同努力探索它在當前和未來的數據生態系統中可能扮演的角色。希望這篇文章能給相關工作人員帶來一些啟示,將主動元數據從抽象的概念轉化為可行的實踐。
作者單位:張艷 北京金蝶天燕云科技有限公司
參考文獻
[1]馬張迪.基于Spark的元數據管理系統的設計與實現[D].電子科技大學,2022.
[2]劉蓓,祿凱,程浩,等.基于異構數據融合的政務網絡安全監測平臺設計與實現[J].信息安全研究,2020,6(06):491-498.
[3]百分點認知智能實驗室,倪路. 基于動態知識圖譜的大規模數據集成技術[OL].https://wenku.so.com/d/1df34174224b8ec4e8c7ba382d130fed,2023-5-21
[4]秦鐸.貨運列車安全數據一體化集成模型研究與應用[D].北京交通大學,2020.
張艷(1982.05-),女,漢族,山東臨沂,碩士,資深解決方案顧問,研究方向:數據治理及大數據應用。