999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據倉庫元數據管理系統

2019-07-08 03:36:55羅小洪
神州·中旬刊 2019年6期
關鍵詞:大數據

羅小洪

摘要:本文首先對元數據的基本概念和作用進行了介紹,然后對元數據系統的軟件架構進行了設計,并對用到的關鍵技術進行了說明,用到的關鍵技術包括:“血緣關系”,元數據抽取、轉換、加載以及SQL數據的埋點、采集等。實現了將數據界面化展示,可完成數據字典查詢、表對象查詢等,使用戶可以很輕松的獲取想要的數據,大大地提高了開發的效率。

關鍵詞:元數據;元數據系統;數據倉庫hive;大數據

ABSTRACT:Abstract:This paper first introduces the basic concepts and functions of metadata, and then designs the software architecture of the metadata system, and introduces? key technologies such as“blood relationship”, metadata extraction, metadata conversion, metadata loading, as well as the burying and collecting of SQL data, the article also realizes the interface display of data, it can complete data dictionary query, table object query, etc., so that users can easily obtain the desired data, greatly improving the developments efficiency.

Keywords:metadata,Metadata System,data warehouse hive,big data

引言

元數據是描述數據的數據,在數據倉庫的建設中,是不可忽略的一環。其作用在于對數據的治理、提高數據使用效率和數據管理效率,到達數據利用的準確及高效[1]。由于數據的海量性,數據的管理需要借助一個可視化的界面供開發人員的使用,為此需要建立一個可視化的元數據原理系統來幫助使用者開發、維護、使用、管理元數據。

元數據打通了數據源、數據倉庫、數據應用,記錄了數據從產生到消費的完整鏈路。元數據包含:靜態的表、列、分區信息(也就是MetaStore);動態的任務、表依賴映射關系;數據倉庫的模型定義、數據生命周期;以及ETL任務調度信息、輸入輸出等

元數據是數據管理、數據內容、數據應用的基礎。例如可以利用元數據:構建任務、表、列、用戶之間的數據圖譜;構建任務DAG依賴關系,編排任務執行序列;構建任務畫像,進行任務質量治理;數據分析時,使用數據圖譜進行字典檢索;根據表名查看表詳情,以及每張表的來源、去向,每個字段的加工邏輯;提供個人或BU的資產管理、計算資源消耗概覽等。

在業務量并不是很大的時候,對應的開發者對業務較為熟悉,查看元數據信息都是通過訪問元數據庫進行查詢,但當并非專業人士,如數據分析師需要查看元數據信息時,就困難重重,尤其是當業務數據不斷擴張時,即便是專業的開發者想要隨時拿到想要的數據也并不容易,所以元數據系統應運而生。

1.軟件架構設計

·DB保存任務的sql數據、任務基礎信息、執行引擎上下文信息

·Extract循環抽取sql并解析成表、列級血緣Lineage

·DataSet包含Lineage關系數據+任務信息+引擎上下文

·將DataSet數據集保存到Neo4j,并提供關系查詢;保存ES,提供表、字段等信息檢索

2.關鍵技術

2.1血緣關系

“表”是元數據系統的后臺邏輯核心,數據倉庫是構建在Hive之上的,而Hive元數據來自于生產系統,也可能會把計算的結果導出到外部存儲。Hive表、mysql表、hbase表、BI報表都是“表”,這些“表”間關系是一個DAG,也就是血緣關系。

2.2 SQL埋點、采集

sql數據,以執行中采集為主+保存前submit為輔。因為任務的sql可能包含一些時間變量,比如dt、hour,以及任務可能是天調度、小時調度。執行中采集sql實時性更高,也更容易處理EDW是任務調度系統,類比開源的AirFlow,調度系統執行任務,并將任務相關的信息比如appId、jobId、owner、sql等信息存入DB。

計算引擎實現相關的監聽接口,比如Hive實現Execute WithHookContext接口;Spark實現SparkListener接口;Presto實現EventListener接口。將計算引擎相關的上下文Context、元數據MetaData、統計Statistics等信息存入DB。

解析sql的方案,以hive為例。先定義詞法規則和語法規則文件,然后使用Antlr實現sql的詞法和語法解析,生成AST語法樹,遍歷AST語法樹完成后續操作。

但對于SELECT*、CTAS等操作,直接遍歷AST,不去獲取Schema信息來檢查表名、列名,就無法判定sql的正確性,從而導致數據污染。

綜上所述,本系統的SQL解析方案,直接參考Hive的底層源碼實現。經過SemanticAnalyzerFactory類進行語法分析,再根據Schema生成執行計劃QueryPlan。關于表、列的血緣,可以從LineageInfo、LineageLogger類中獲得解決方案。

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 国产福利一区在线| 久久精品亚洲专区| 欧美第一页在线| 91视频99| 日韩黄色在线| 久久久受www免费人成| a级毛片免费播放| 性欧美在线| 国产成人a在线观看视频| 国产在线一二三区| 99热免费在线| 五月天福利视频| 欧美va亚洲va香蕉在线| 欧美午夜性视频| 亚洲中文字幕av无码区| 久久熟女AV| 亚洲熟女偷拍| 亚洲高清资源| 国产一二三区在线| 亚洲人成在线免费观看| 久久久久久久蜜桃| 青青操国产| 久久香蕉国产线看观看亚洲片| 在线看国产精品| 欧美 亚洲 日韩 国产| 亚洲国产精品一区二区第一页免| 欧美色丁香| 日韩精品一区二区三区免费| 女同久久精品国产99国| 国产三级成人| 国产69囗曝护士吞精在线视频| 91在线激情在线观看| 亚洲有无码中文网| 国内精品伊人久久久久7777人 | 亚洲国产天堂久久九九九| 啪啪永久免费av| 2021最新国产精品网站| 亚洲成人精品久久| 伊人激情综合| 亚洲国产精品美女| 日韩人妻无码制服丝袜视频| 无套av在线| 久精品色妇丰满人妻| a毛片在线免费观看| 久久精品人人做人人爽电影蜜月 | 国产成人啪视频一区二区三区| 精品国产自在在线在线观看| 日本精品αv中文字幕| 91青青草视频| 久久91精品牛牛| 久久免费视频6| 日本在线视频免费| 曰韩人妻一区二区三区| 色噜噜在线观看| 99激情网| 中文字幕久久亚洲一区| www.99在线观看| 亚洲第一国产综合| 欧美成人一级| 人人爱天天做夜夜爽| 91精品小视频| 久热中文字幕在线| 亚洲国产欧美中日韩成人综合视频| 国产特一级毛片| 女人18毛片久久| 国产成人精品一区二区秒拍1o| 91一级片| 国产在线观看精品| 最新国产在线| 精品无码人妻一区二区| 国产精品无码一二三视频| 色天天综合久久久久综合片| 亚洲色大成网站www国产| 中文字幕不卡免费高清视频| 在线观看91香蕉国产免费| 成人免费黄色小视频| 极品尤物av美乳在线观看| 中文字幕亚洲精品2页| 国产永久在线视频| 亚洲一区二区三区香蕉| 亚洲日韩Av中文字幕无码| 亚洲精品高清视频|