999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

元數據驅動的數據質量監控實踐

2019-05-22 10:27:32郭紹斌
電腦知識與技術 2019年6期
關鍵詞:數據質量大數據

郭紹斌

摘要:數據已經成為互聯網企業非常依賴的新型重要資產。數據質量的好壞直接關系到信息的精準度,也影響到企業的生存和競爭力。如何保證數據的準確性、完整性、合理性,成為衡量一個大數據平臺下的質量監控的重要指標[1]。針對這一問題提出了一種元數據驅動的數據質量監控解決方案,使用大數據分布式計算技術MR、Spark;Metabase報表平臺;Zabbix監控報警平臺。保證數據的完整和準確,并提供監控和報警機制,解決下層數據出現錯誤,上層數據應用產生錯誤的現象,減少企業損失。

關鍵詞:數據質量;大數據;元數據;監控

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2019)06-0003-03

進入21世紀以來,隨著物聯網、電子商務、社會化網絡的快速發展,數據體量迎來了爆炸式地増長,大數據正在成為世界上最重要的土壤和基礎。根據DC(互聯網數據中心)預測,2020年的數據増長量將是2010年的44倍,達到35ZB。世界經濟論壇報告稱,“大數據為新財富,價值堪比石油”。隨著計算機及其存儲設備、互聯網、云計算等技術的發展,大數據應用領域不斷豐富。大數據產業成為引領信息技術產業發展的核心引、推動社會進步的重要力量。

數據質量的好壞直接關系到信息的精準度,也影響到企業的生存和競爭力。Michael Hammer(《Reengineering the Corporation》[2]一書的作者)曾說過,看起來不起眼的數據質量問題,實際上是拆散業務流程的重要標志。數據質量管理是測度、提高和驗證質量,以及整合組織數據的方法等一套處理準則,而體量大、速度快和多樣性的特點,決定了大數據質量所需的處理,有別于傳統信息治理計劃的質量管理方式。

本文基于金蛋理財大數據平臺,通過對數據流轉過程中各個階段數據質量檢測結果的采集分析、規則引擎、評估反饋和再檢測的閉環管理過程出發,從需求背景、建設思路、技術方案、呈現效果及總結等方面,介紹金蛋理財數據中心數據質量監管平臺的搭建思路和建設實踐。

1 需求背景

隨著公司業務數據的增多,傳統的關系型數據庫無法解決大量數據查詢和分析的能力。

需要把這些數據同步到Hive[3]分布式結構化數據倉儲,或者HBase[4]實時的非結構化數據倉儲。

背景一:數據從Mysql業務庫通過Sqoop[5]拉取到HDFS[6]上,映射,清洗合并到ods層(業務庫層原始數據),cm層(ods層數據清洗合并之后的數據)。由于業務庫表字段進行變更、增加、上線要求計算利息表計算時間晚于正常時間,又或者是集群資源不穩定,會造成數據同步合并不完整,數據無法正常使用。需要對數據的質量進行粗、細粒度的監控并含有報警機制。讓開發人員及時知道問題,修改問題。關閉和延緩報表推送等應用,減少由于數據的不準確性帶來上層應用的損失。

背景二:Hive表中的數據是每天導入一次,滿足T+1天的查詢,但是實時性比較弱。無法滿足實時性要求高的查詢,例如:分析今天某個時間段活動的詳細數據。從而有了實時的存儲的需求HBase(HBase支持update某行數據,Hive只能一次性插入)。歷史數據一次想導入,業務庫實時的數據(Binlog) →Cannel→Kafka→SparkStreaming→HBase。

中間過程復雜,為了保證數據的完整性和準確性,必須建立數據質量監控平臺。

2 建設思路

以數據質量檢核管理PDCA方法論,基于金蛋理財大數據平臺,對數據質量需求和問題進行全質量生命周期的管理,包括質量問題的定義、檢核監控、發現分析、跟蹤反饋及知識庫沉淀。數據質量PDCA流程圖如圖1所示:

2.1質量檢核標準

完整性:主要包括實體缺失、屬性缺失、記錄缺失和字段值缺失四個方面;

準確性:一個數據值與設定為準確的值之間的一致程度,或與可接受程度之間的差異;

合理性:主要包括格式、類型、值域和業務規則的合理有效;

一致性:業務指標統一定義,數據邏輯加工結果一致性;

及時性:數據倉庫ETL、應用展現的及時和快速性,Jobs運行耗時、質量、依賴及時性。

金蛋理財數倉分為用戶、投資、轉出、計息四大主題,按數據價值量化、存儲資源優化等指標評估,劃分物理模型為熱、溫、冷、冰等四個標準,結合應用自定義其具體標準范圍,實現其靈活性配置;作業運行耗時分為:優、良、一般、關注、耗時等,每類耗時定義的標準范圍既符合大數據的特性又可滿足具體分析需要,且作業耗時與數倉主題和邏輯分層深度整合,實現多角度質量洞察評估;各項均對應具體的實施策略。整體數據質量的檢核對象包括離線數倉和實時數據。

2.2管理流程

流程化管理是推進數據問題從發現、跟蹤、解決到總結提煉的合理有效工具。質量管理流程包括:數據質量問題提報、數據質量問題分析、故障跟蹤、解決驗證、數據質量評估分析等主要環節步驟;從干系人員的角度分析包括數據質量管理人員、數據質量檢查人員、數據平臺開發人員、業務及BI商分人員等,從流程步驟到管理人員形成職責和角色的矩陣圖。如圖2所示:

3技術方案

3.1總體架構如圖3所示

3.2監控庫重要表設計

3.3程序規范

a)Hive:根據表元數據監控報警表monitor_metabase預超時時間,同步 Hive元數據表TABLE_PARAMS中的數據到歷史元數據監控表中。

b)設定定時任務執行HQL,MR,Spark任務更新數據量、數據增量、數據增長率。

c)監控指標是否超過閾值,如果超過根據 組ID 自動報警;根據紅色報警時間確定再次報警。使用zabbix工具進行監控,發郵件。

d)使用metabase報表平臺展示歷史、實時數據增量和數據增長率。

3.4技術細節

a)由于Hive元數據不準確且有延遲性,所以要元數據重建。

b)報表展示環節由于各個表數據增量差距較大,采用增長率(當天的增長數/最近七天的平均增長數)進行監控,從而折線圖的增長率在1.0附近。

c)實時數倉HBase的值和業務庫進行對比時,spark程序可仿照Pheonix調用HBase的API結合Schema配置,形成DataFrame,進而拼接SQL進行批量化處理。

4 呈現效果

5 總結

數據質量是數據治理建設的重要一環,與元數據管理、數據標準化及數據服務管理等共同構建了數據治理的體系框架。建設一個完整質量監管平臺,將從監控、標準、流程制度等方面提升信息管理能力,優先解決所面臨的數據質量和數據服務問題,其效果體現以下幾個方面:

a)監控數據資產質量狀態,為優化數據平臺和數據倉庫性能、合理配置數據存儲資源提供決策支持;

b)持續推動數據質量監控優化預警、實時監控的機制;

c)重點優先監控關鍵核心數據資產,管控優化20%核心資源,可提升80%需求應用性能;

d)規范了問題故障的跟蹤、Review、優化方案。從數據中提煉價值,從方案中形成標準化的知識體系;

e)由技術檢測到業務監督,形成閉環工作流機制,提高整體數據質量,全面提升服務業務水平。

數據質量是數據倉庫建設、數據應用建設和決策支持的關鍵因素,可通過完善組織架構和管理流程,加強部門間銜接和協調,嚴格按照標準或考核指標執行落地,確保數據質量方能將數據的商業價值最大化,進而提升企業的核心競爭力和保持企業的可持續發展。

參考文獻:

[1] 韓京宇,徐立臻.數據質量研究綜述[J].計算機科學,2018,35(2).

[2] Hammer, Michel Champy, James.Reengineering the Corporation[M]. NicholasBrealey, London, 1993:223.

[3] Y. Jia and Z. Shao. A Benchmark for Hive, PIG and Hadoop, 2009. https://issues.apache.org/jira/browse/HIVE,2009: 396.

[4] Nguyen AV, Wynden R, Sun Y: HBase, MapReduce, and Integrated Data Visualization for Processing Clinical Signal Data. In AAAI Spring Symposium: Computational Physiology: 2011.

[5] http://sqoop.apache.org/.

[6] The Hadoop Distributed File System: Architecture and Design, [online] Available: http://hadoop.apache.org/common/docs/r0.19.1/hdfs_design.html.

【通聯編輯:光文玲】

猜你喜歡
數據質量大數據
電子商務平臺數據質量控制系統及仿真模型分析
現代情報(2016年11期)2016-12-21 23:41:05
強化統計執法提高數據質量
淺析統計數據質量
中國市場(2016年40期)2016-11-28 04:58:19
金融統計數據質量管理的國際借鑒與中國實踐
時代金融(2016年27期)2016-11-25 19:02:25
淺談統計數據質量控制
提高政府統計數據質量,增強政府公信力
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 亚洲综合一区国产精品| 欧美日韩精品一区二区在线线| 国产成熟女人性满足视频| 伊大人香蕉久久网欧美| 全部毛片免费看| 伊人激情久久综合中文字幕| 久久精品国产免费观看频道| 日本午夜影院| 永久免费精品视频| 久996视频精品免费观看| 日韩人妻无码制服丝袜视频| 熟妇丰满人妻av无码区| 国产chinese男男gay视频网| 国产成人综合亚洲网址| 99精品免费在线| 97超碰精品成人国产| 国内精品手机在线观看视频| 国产视频a| 小说区 亚洲 自拍 另类| 成年人国产视频| 国产成人精品男人的天堂| 亚洲色图另类| 九色国产在线| 强乱中文字幕在线播放不卡| 国产门事件在线| 亚洲成aⅴ人片在线影院八| 午夜一级做a爰片久久毛片| 色天天综合久久久久综合片| 青草国产在线视频| 九色综合伊人久久富二代| 亚洲欧美在线看片AI| 久久天天躁狠狠躁夜夜躁| 日本一区二区不卡视频| 日韩在线观看网站| 91小视频在线观看免费版高清| 激情无码字幕综合| 亚洲综合精品第一页| 免费黄色国产视频| 日本一区中文字幕最新在线| 国产在线观看人成激情视频| 在线看AV天堂| 国内精品久久久久鸭| 欧美亚洲一二三区| 九月婷婷亚洲综合在线| 四虎成人免费毛片| 亚洲区第一页| 一级毛片不卡片免费观看| 中国国语毛片免费观看视频| 国产麻豆精品手机在线观看| 亚洲男人天堂久久| 人人看人人鲁狠狠高清| 国产精品嫩草影院av| 久久激情影院| 91区国产福利在线观看午夜| 最新国产精品第1页| 永久免费AⅤ无码网站在线观看| av在线手机播放| 精品无码国产一区二区三区AV| 成人午夜久久| 国产一级妓女av网站| 女人18一级毛片免费观看| 青青草原国产免费av观看| 91在线视频福利| 99热这里只有精品在线播放| 最近最新中文字幕在线第一页| 成人午夜天| 国产精品人人做人人爽人人添| 成人免费网站久久久| 欧美A级V片在线观看| 国产视频欧美| 在线观看网站国产| 日韩黄色在线| 成人福利在线看| 国产成人免费观看在线视频| 人妻中文字幕无码久久一区| 亚洲精品动漫| 久久香蕉国产线看精品| 亚洲成人手机在线| 丰满人妻中出白浆| 免费国产高清视频| 久久精品无码一区二区日韩免费| 国产精品吹潮在线观看中文|