張新陽 張梅 馬文 程永新



摘要:從大數據中心的數據管理通常面臨的元數據獲取困難、業務元數據缺失、影響度變更管理缺乏、數據標準化處理缺失等問題出發分析,提出了基于電力行業的大數據時代下元數據管理方法,并對方法中涉及的關鍵技術點進行了詳細說明。通過元數據管理,可以達到解開大數據平臺“黑盒子”的目的,清晰知道數據的來龍去脈,為后續數據質量、數據標準、數據安全等治理活動提供能力基礎,為大數據時代下的電力企業提供一個更有效的、可控的數據管理手段及高質量的數據環境,真正指引和支撐企業的數據化運營。
關鍵詞:大數據;數據治理;數據資產;元數據
中圖分類號:TP311? ? ? 文獻標識碼:A? ? ? 文章編號:1009-3044(2018)31-0258-03
Metadata Management Method in the Era of Big Data Based on Power Industry
ZHANG Xin-yang 1,ZHANG Mei 1,MA Wen 1, CHENG Yong-xin2
(1.China Southern Power Grid , JingKai,KunMing 650000, China; 2. New Century Network Company, Shanghai 200333,China)
Abstract: Based on the analysis of the difficulties of metadata acquisition, business metadata missing, impact change management missing and data standardization processing missing in data management of large data centers, a metadata management method based on large data era of power industry is proposed, and the key technologies involved in the method are discussed. Through metadata management, the purpose of unlocking the "black box" of large data platform can be achieved, the context of data can be clearly known, and the capability foundation for subsequent data quality, data standard, data security and other governance activities can be provided. It provides a more effective and controllable data management means and high quality data environment for power enterprises in the era of large data, and supports enterprise's data operation.
Key words: Big data; Data governance; Data assets; Metadata
2018年3月,南方電網公司評審通過了《中國南方電網有限責任公司“十三五”信息化規劃》。《規劃》提出圍繞“提升客戶體驗、加強業務數據化、數據業務化、新技術與業務深入融合、信息化保障體系”五個方面,重點開展27項重點任務,堅守網絡安全底線,升級完善信息系統、深化協同應用,強化數據資產管理,實現業務應用移動化、運營監控可視化、數據資產價值化、安全防御體系化,促進客戶體驗增強,公司運營效率提高,數據資產價值深度挖掘,業務需求響應速度提升,“十三五”末初步建成“數字南網”。
顯然,數據已經成為我們企業的重要資產,如何發揮數據資產價值,是我們當下最重要的課題之一。隨著一系列的大規模信息化建設,公司信息化水平得到明顯提升的同時,數據規模、數據量也在逐年遞增,我們企業已跨入大數據時代,近年來各電力公司紛紛構建大數據平臺,以數據化運營業務。然而,在大數據中心進行數據管理的過程中,總會暴露出以下基本相似的問題:
1) 不同類型的大數據平臺存在差異,抓取元數據的方法不一,獲取完整的元數據信息困難。經過商業封裝的大數據平臺還具有一定的閉源性,導致大數據平臺成為事實上的黑盒子。元數據對象、數據模型之間的關系、數據指標的統計口徑等獲取困難,可能會導致血緣關系斷裂,不利于血緣分析、影響分析等工作開展。
2) 通過技術手段自動化獲取的元數據只描述了技術相關信息,缺乏業務類的元數據信息,在大數據中心的數據提取或數據挖掘中起不到指引的作用。
3) 源系統數據模型變更,直接影響到大數據中心的數據質量,并且通常是事后才發現和分析處理。為了滿足不斷變更的業務需求,源系統隨著應用上線不可避免的頻繁變更數據模型版本,大數據中心需要根據具體的數據模型同步做出相應調整,否則會影響到從源系統的數據采集、清洗及轉換等,直接影響到數據質量。
從這些問題之中亦反映了一個普遍存在的現實:企業在傾力建設大數據中心的過程中,忽視了數據管理的重要性,通常是在后期數據使用、數據分析和應用時才發現困難重重。數據管理與大數據平臺應該并行建設,元數據管理作為數據管理的基礎,清晰地描述數據的來龍去脈,是大數據中心建設過程中不可或缺的一部分。
1 正文
本文將從對大數據時代下元數據管理的角度出發,論述一種基于電力行業的大數據平臺元數據管理方法,并說明該種方法實施后帶來的效果。
由引言問題的分析和歸納,在數據管理這個范疇上,我們首先要解決的是企業自身對大數據中心的數據管理重要性的認識。尤其是元數據作為數據管理的基礎,應該作為大數據中心同步建設的一個必備配置。
按照傳統的定義,元數據是關于數據的數據。在數據倉庫系統中,元數據可以幫助管理員和開發人員非常方便地找到他們所關心的數據,同時元數據還描述了數據與數據之間的關系,可以清晰地知道數據的來龍去脈,幫助解決數據質量定位問題和評估數據變更的影響度,是其他諸如數據標準、數據質量、數據安全等數據管理工作的基礎條件,按用途又可分為技術元數據和業務元數據兩大類。
在以Hadoop為主流的大數據平臺建設進行企業數字化管理當下,電力企業必須建立起一個基本電力行業大數據中心的元數據管理方法。
1.1 元數據管理的實施方法
大數據中心的數據來源為關系型數據庫,關系型數據庫的元數據管理已比較成熟,本文不再次討論,本文重點討論大數據平臺元數據管理方法。考慮到各種類型的大數據平臺差異,尤其經過商業封裝的大數據平臺還具備一定的閉源性,我們將采取通用的日志方式來解決技術元數據中血緣信息的自動化獲取和整理,并通過人工完善業務元數據,達到完整的元數據管理能力。
1.1.1元數據自動化獲取
1.1.1.1 基礎信息
一般情況下,大數據平臺使用關系型數據庫(如mysql、oracle)作為元數據庫,來存儲元數據信息。
主要信息存儲情況如下:
TBLS存儲Hive表、視圖、索引表的基本信息
TABLE_PARAMS存儲表/視圖的屬性信息
TBL_PRIVS存儲表/視圖的授權信息
可以使用JDBC/ODBC連接大數據平臺存儲庫,獲取3個元數據存儲表中的信息,根據表間關聯關系進行信息整合,獲取表、字段、視圖等技術元數據信息。
獲取技術元數據信息后,使用業務表(Business Table)元模型和業務字段(Business Column)元模型來存儲大數據平臺的表元數據和字段元數據。
業務表元模型主要信息
業務字段元模型主要信息
1.1.1.2 血緣關系信息解析
血緣關系的管理和分析是元數據管理的重要功能,為實現此項功能首先需要從數據處理日志文件中提取數據流向相關信息,包括處理源、目標、處理邏輯、字段映射等。
主要分析流程如下:
1) 從數據處理日志文件中提取HIVE SQL數據處理信息
2) 利用數據處理關鍵字(INSERT、SELECT、FROM、WHERE 等 )對數據處理信息進行分塊,形成邏輯子塊
3) 從邏輯子塊中提取處理過程中的源、目標、處理邏輯、字段映射等信息
最終,整合元數據基礎信息、數據流向信息,形成血緣關系信息鏈。
在實際生產環境中,大數據平臺數據處理日志文件數是比較多的,需要采用日志切分、多線程并發處理等技術手段,提高血緣關系信息的解析效率,方可滿足實際生產的需要。
1.1.1.3 自動化執行
將元數據基礎信息提取及血緣關系信息解析封裝在任務中,通過調度平臺對其進行調度執行,實現大數據平臺元數據及血緣關系信息的周期性自動抽取及解析。
1.1.2補充業務元數據
為了讓用戶能夠更方便快捷使用元數據信息,需要為每個元數據表、字段補充業務屬性,包括業務名稱、業務定義、業務描述等。
補充業務元數據時,采用EXCEL文件進行信息收集,通過對EXCEL文件解析,獲取并更新業務元數據信息。
1.2 實施元數據管理獲得的關鍵效果
1.2.1 血緣分析
血緣分析是對數據來源的分析,根據血緣關系信息,從所分析實體開始,往回遞歸分析,直到數據流的起點。可展示數據資產之間的關系與來龍去脈。利用血緣分析能力,解決了企業中數據質量的追根溯源問題,有效提高了大數據平臺的數據質量。
1.2.2 影響分析
影響分析是對影響范圍的分析,根據血緣關系信息,從所分析實體開始,往下遞歸分析,直到數據流的終點。一般用于量化企業范圍的各種數據變化影響度、確定實體變化的影響范圍。利用影響分析能力,解決了以往數據對象變更無法準確確定影響范圍問題,確保了生產的穩定運行。
1.2.3 關聯分析
關聯分析是根據血緣關系信息,進行實體重要程度的分析。一般用于分析實體變化時的影響評估。開發、運維人員通過關聯分析能夠確定數據對象的重要程度,進行針對性優化,提升IT系統的運行效率。
1.2.4 全景視圖
數據資產全景視圖使用可視化組件、多媒體、三維動畫展示等高級可視化手段,以圖形化方式展示企業數據資產,提供從整體上描述系統間、業務線、數據域(分析主題)之間的關系,是宏觀層面的元數據視圖,可快速檢索數據資產和直觀感知數據資產的分布。
2結語
隨著電力業務精細化管理的要求越來越高,信息化支撐能力不斷提升,數據治理已成為業務應用集中建設、大數據應用、智能分析決策應用的重要基石。元數據管理作為數據治理所必須的基礎能力,可為數據質量、數據標準、數據安全等治理活動提供基礎信息,也可為大數據中心對外服務(如數據共享)提供必要的基礎信息。在各電力企業紛紛建設大數據中心的當下,堅定建設“數字電網”的目標,以數據驅動業務,元數據管理能力建設勢在必行,通過血緣分析保障數據質量、影響分析避免變更影響、全景視圖實現數據資產的層層盤點,為企業提供一個更有效的、可控的數據管理手段及高質量的數據環境,真正指引和支撐企業的數據化運營。
參考文獻:
[1] 陳彬.南網“十三五”信息化規劃修編報告通過專家評審[N]. 南方電網報,2018-03-16.
[2] 賈福清.再接再厲全面推進“三集五大”體系建設[J].國家電網, 2013(2):50–51.
[3] 巨克真,魏珍珍.電力企業級數據治理體系的研究[J].電力信息與通信技術,2014(1).
[4] 鄭悅.數據資產管理的關鍵點[J].IT經理世界,2015(1).
[5] 宿曉丹,劉太敏,毛軍. 數據資產管理體系研究及服務平臺架構設計探討[J].信息與電腦(理論版) 2018(15):157-159.
[6] 高偉.數據資產管理[M].北京:機械工業出版社,2016.
[7] 甘似禹,車品覺,楊天順,等.大數據治理體系[J].計算機應用與軟件,2018,35(6):1-8+69.