999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據環境下的數據質量管理策略

2017-04-13 01:43:00劉金晶曹文潔
軟件導刊 2017年3期
關鍵詞:質量

劉金晶,曹文潔

(北京銳安科技有限公司 大數據分析部,北京 100192)

大數據環境下的數據質量管理策略

劉金晶,曹文潔

(北京銳安科技有限公司 大數據分析部,北京 100192)

信息時代,數據已經慢慢成為一種資產,數據質量成為決定資產優劣的一個重要方面。隨著大數據的發展,越來越豐富的數據給數據質量的提升帶來了新的挑戰和困難。提出一種數據質量策略,從建立數據質量評價體系、落實質量信息的采集分析與監控、建立持續改進的工作機制和完善元數據管理4個方面,多方位優化改進,最終形成一套完善的質量管理體系,為信息系統提供高質量的數據支持。

信息系統;數據質量;大數據;ETL;元數據

1 信息系統數據質量

信息由數據構成,數據是信息的基礎,數據已經成為一種重要資源。對于企業而言,進行市場情報調研、客戶關系維護、財務報表展現、戰略決策支持等,都需要信息系統進行數據的搜集、分析、知識發現,為決策者提供充足且準確的情報和資料。對于政府而言,進行社會管理和公共服務,影響面更為寬廣和深遠,政策和服務能否滿足社會需要,是否高效地使用了公共資源,都需要數據提供支持和保障,因而對數據的需求顯得更為迫切,對數據質量的要求也更為苛刻。

作為信息系統的重要構成部分,數據質量問題是影響信息系統運行的關鍵因素,直接關系到信息系統建設的成敗。根據“垃圾進,垃圾出(garbage in,garbage out)”[1]的原理,為了使信息系統建設取得預期效果,達到數據決策的目標,就要求信息系統提供的數據是可靠的,能夠準確反應客觀事實。如果數據質量得不到保證,即使數據分析工具再先進,模型再合理,算法再優良,在充滿“垃圾”的數據環境中也只能得到毫無意義的垃圾信息,系統運行的結果、作出的分析就可能是錯誤的,甚至影響到后續決策的制定和實行。高質量的數據來源于數據收集,是數據設計以及數據分析、評估、修正等環節的強力保證。因此,信息系統數據質量管理尤為重要,這就需要建立一個有效的數據質量管理體系,盡可能全面發現數據存在的問題并分析原因,以推動數據質量的持續改進。

2 大數據環境下數據質量管理面臨的挑戰

隨著三網融合、移動互聯網、云計算、物聯網的快速發展,數據的生產者、生產環節都在急速攀升,隨之快速產生的數據呈指數級增長。在信息和網絡技術飛速發展的今天,越來越多的企業業務和社會活動實現了數字化。全球最大的零售商沃爾瑪,每天通過分布在世界各地的6 000多家商店向全球客戶銷售超過2.67億件商品[2],每小時獲得2.5PB的交易數據。而物聯網下的傳感數據也慢慢發展成了大數據的主要來源之一。有研究估計,2015年全球數據量為8ZB,而到2020年則高達35.2ZB,是2015年數據量的44倍之多[3]。此外,隨著移動互聯網、Web2.0技術和電子商務技術的飛速發展,大量的多媒體內容在指數增長的數據量中發揮著重要作用。

大數據時代下的數據與傳統數據呈現出了重大差別,直接影響到數據在流轉環節中的各個方面,給數據存儲處理分析性能、數據質量保障都帶來了很大挑戰。大數據與傳統數據對比如表1所示[4]。

由于以上特性,大數據的信息系統更容易產生數據質量問題:

(1)在數據收集方面,大數據的多樣性決定了數據來源的復雜性。來源眾多、結構各異、大量不同的數據源之間存在著沖突、不一致或相互矛盾的現象。在數據獲取階段保證數據定義的完整性、數據質量的可靠性尤為必要。

表1 大數據與傳統數據特點對比

(2)由于規模大,大數據獲取、存儲、傳輸和計算過程中可能產生更多錯誤。采用傳統數據的人工錯誤檢測與修復或簡單的程序匹配處理,遠遠處理不了大數據環境下的數據問題。

(3)由于高速性,數據的大量更新會導致過時數據迅速產生,也更易產生不一致數據[5]。

(4)由于發展迅速,市場龐大,廠商眾多,直接產生的數據或者產品產生的數據標準不完善,使得數據有更大的可能產生不一致和沖突。

(5)由于數據生產源頭激增,產生的數據來源眾多,結構各異,以及系統更新升級加快和應用技術更新換代頻繁,使得不同的數據源之間、相同的數據源之間都可能存在著沖突、不一致或相互矛盾的現象,再加上數據收集與集成往往由多個團隊協作完成,期間增大了數據處理過程中產生問題數據的概率。

3 數據質量管理策略

為了改進和提高數據質量,必須從產生數據的源頭開始抓起,從管理入手,對數據運行的全過程進行監控,密切關注數據質量的發展和變化,深入研究數據質量問題所遵循的客觀規律,分析其產生的機理,探索科學有效的控制方法和改進措施;必須強化全面數據質量管理的思想觀念,把這一觀念滲透到數據生命周期的全過程[6]。

大數據下信息系統的數據處理架構如圖1所示。

圖1 數據平臺架構

傳統數據倉庫中ETL的環節在大數據應用中會根據實際業務需求在不同的環節存在,分別進行粗細粒度不等的數據抽取、轉換和加載,以適應容納處理不同規模、不同結構、不同流量的數據。

結合大數據的參考框架及數據處理實際需求情況,數據質量管理可以從以下幾個方面著手,以多方協作改進,最終實現系統數據處于持續高效可用的狀態。

3.1 建立數據質量評價體系

評估數據質量,可以從如下4個方面來考慮[7]:①完整性:數據的記錄和信息是否完整,是否存在缺失情況;②一致性:數據的記錄是否符合規范,是否與前后及其它數據集保持統一;③準確性:數據中記錄的信息和數據是否準確,是否存在異常或者錯誤信息;④及時性:數據從產生到可以查看的時間間隔,也叫數據的延時時長。

有了評估方向,還需要使用可以量化、程序化識別的指標來衡量。通過量化指標,管理者才可能了解到當前數據質量,以及采取修正措施之后數據質量的改進程度。而對于海量數據,數據量大、處理環節多,獲取質量指標的工作不可能由人工或簡單的程序來完成,而需要程序化的制度和流程來保證,因此,指標的設計、采集與計算必須是程序可識別處理的。

完整性可以通過記錄數和唯一值來衡量。比如某類的交易數據,每天的交易量應該呈現出平穩的特點,平穩增加、平穩增長或保持一定范圍內的周期波動。如果記錄數量出現激增或激減,則需要追溯是在哪個環節出現了變動,最終定位是數據問題還是服務出現了問題。對于屬性的完整性考量,則可以通過空值占比或無效值占比來進行檢查。

一致性檢驗主要是檢驗數據和數據定義是否一致,因此可以通過合規記錄的比率來衡量。比如取值范圍是枚舉集合的數據,其實際值超出范圍之外的數據占比,比如存在特定編碼規則的屬性值不符合其編碼規則的記錄占比。還有一些存在邏輯關系的屬性之間的校驗,比如屬性A取某定值時,屬性B的值應該在某個特定的數據范圍內,都可以通過合規率來衡量。

準確性可能存在于個別記錄,也可能存在于整個數據集上。準確性和一致性的差別在于一致性關注合規,表示統一,而準確性關注數據錯誤。因此,同樣的數據表現,比如數據實際值不在定義的范圍內,如果定義的范圍準確,值完全沒有意義,那么這屬于數據錯誤。但如果值是合理且有意義的,那么可能是范圍定義不夠全面,則不能認定為數據錯誤,而是應該去補充修改數據定義。

通過建立數據質量評價體系,對整個流通鏈條上的數據質量進行量化指標輸出,后續進行問題數據的預警,使得問題一出現就可以暴露出來,便于進行問題的定位和解決,最終可以實現在哪個環節出現就在哪個環節解決,避免了將問題數據帶到后端及其質量問題擴大。

3.2 落實數據質量信息的采集、分析與監控

有評價體系作為參照,還需要進行數據的采集、分析和監控,為數據質量提供全面可靠的信息。在數據流轉環節的關鍵點上設置采集點,采集數據質量監控信息,按照評價體系的指標要求,輸出分析報告。一個典型的數據流轉流程如圖2所示。

圖2 數據采集點位置

在此流程中,會有一系列的數據采集點。根據系統對數據質量的要求,配置相應的采集規則,通過在采集點處進行質量數據采集并進行統計分析,就可以得到采集點處的數據分析報告。通過對來源數據的質量分析,可以了解數據和評價接入數據的質量;通過對上下采集點的數據分析報告的對比,可以評估數據處理流程的工作質量。配合數據質量的持續改進工作機制,進行質量問題原因的定位、處理和跟蹤。

3.3 建立數據質量的持續改進工作機制

通過質量評價體系和質量數據采集系統,可以發現問題,之后還需要對發現的問題及時作出反應,追溯問題原因和形成機制,根據問題種類采取相應的改進措施,并持續跟蹤驗證改進之后的數據質量提升效果,形成正反饋,達到數據質量持續改良的效果。在源頭建立數據標準或接入標準,規范數據定義,在數據流轉過程中建立監控數據轉換質量的流程和體系,盡量做到在哪發現問題就在哪解決問題,不把問題數據帶到后端。

導致數據質量產生問題的原因很多。有研究表示,從問題的產生原因和來源,可以分為四大問題域:信息問題域、技術問題域、流程問題域和管理問題域[8]。信息類問題是由于對數據本身的描述、理解及其度量標準偏差而造成的數據質量問題。產生這類數據質量問題的主要原因包括:數據標準不完善、元數據描述及理解錯誤、數據度量得不到保證和變化頻度不恰當等。技術類問題是指由于在數據處理流程中數據流轉的各技術環節異常或缺陷而造成的數據質量問題,它產生的直接原因是技術實現上的某種缺陷。技術類數據質量問題主要產生在數據創建、數據接入、數據抽取、數據轉換、數據裝載、數據使用和數據維護等環節。流程類問題是指由于數據流轉的流程設計不合理、人工操作流程不當造成的數據質量問題。所有涉及到數據流轉流程的各個環節都可能出現問題,比如接入新數據缺乏對數據檢核、元數據變更沒有考慮到歷史數據的處理、數據轉換不充分等各種流程設計錯誤、數據處理邏輯有缺陷等問題。管理類問題是指由于人員素質及管理機制方面的原因造成的數據質量問題。比如數據接入環節由于工期壓力而減少對數據檢核流程的執行和監控、缺乏反饋渠道及處理責任人、相關人員缺乏培訓和過程資產繼承隨之帶來的一系列問題等。

了解問題產生的原因和來源后,就可以對每一類問題建立起識別、反饋、處理、驗證的流程和制度。比如數據標準不完善導致的問題,這就需要有一整套數據標準問題識別、標準修正、現場實施和驗證的流程,確保問題的準確解決,不帶來新的問題。比如缺乏反饋渠道和處理責任人的問題,則屬于管理問題,則需要建立一套數據質量的反饋和響應機制,配合問題識別、問題處理、解決方案的現場實施與驗證、過程和積累等多個環節和流程,保證每一個問題都能得到有效解決并有效積累處理的過程和經驗,形成越來越完善的一個有機運作體。

當然,很多問題是相互影響的,單一地解決某一方面的問題可能暫時解決不了所發現的問題,但是當多方面的持續改進機制協同工作起來之后,互相影響,交錯前進,一點點改進,最終就會達到一個比較好的效果。

3.4 完善元數據管理

數據質量的采集規則和檢查規則本身也是一種數據,在元數據中定義。元數據按照官方定義,是描述數據的數據。面對龐大的數據種類和結構,如果沒有元數據來描述這些數據,使用者無法準確地獲取所需信息。正是通過元數據,海量的數據才可以被理解、使用,才會產生價值。

元數據可以按照其用途分為3類:技術元數據、業務元數據和管理元數據。技術元數據:存儲關于信息倉庫系統技術細節的數據,適用于開發和管理數據而使用的數據。主要包括數據倉庫結構的描述,包括對數據結構、數據處理過程的特征描述,存儲方式和位置覆蓋整個涉及數據的生產和消費環節。業務元數據:從業務角度描述了數據倉庫中的數據,提供了業務使用者和實際系統之間的語義層。主要包括業務術語、指標定義、業務規則等信息。管理元數據:描述系統中管理領域相關概念、關系和規則的數據,主要包括人員角色、崗位職責、管理流程等信息。

由此可見,本文提出的解決思路都需要元數據管理系統的支持。良好的元數據管理系統能為數據質量的采集、分析、監控、改進提供高效、有力的強大保障。同時,良好的數據質量管理系統也能促進元數據管理系統的持續改進,互相促進完善,共同為一個高質量和高效運轉的數據平臺提供支持。

4 結語

數據質量(DataQuality)管理貫穿數據生命周期的全過程,覆蓋質量評估、數據監控、數據探查、數據清洗、數據診斷等方面。數據源在不斷增多,數據量在不斷加大,新需求推動的新技術也不斷誕生,這些都對大數據下的數據質量管理帶來了困難和挑戰。因此,數據質量管理要形成完善的體系,建立持續改進的流程和良性機制,持續監控各系統數據質量波動情況及數據質量規則分析,適時升級數據質量監控的手段和方法,確保持續掌握系統數據質量狀況,最終達到數據質量的平穩狀態,為業務系統提供良好的數據保障。

[1] 谷斌.信息系統建設中的數據質量管理體系研究[J].情報雜志,2007(5):65-65.

[2] BRYANT R E.Data-intensive supercomputing: the case for DISC[R].Technical Report, CMU-CS-0 7-128, Carnegie Mellon University,2007.

[3] GANTZ J,REINSEL D.Extracting value from chaos[R].Framingham:International Data Corporation,2011.

[4] 宗威,吳峰.大數據時代下數據質量的挑戰[J].西安交通大學學報:社會科學版,2013,33(5):39-39.

[5] 王宏志.大數據質量管理:問題與研究進展[J].科技導報,2014,32(34):78-78.

[6] 谷斌.信息系統建設中的數據質量管理體系研究[J].情報雜志,2007,5:67-67.

[7] 網站數據分析.分析的前提——數據質量[EB/OL]. http://webdataanalysis.net/data-collection-and-preprocessing/data-quality-1/.

[8] 趙翼春.淺談電信企業數據質量管理[EB/OL]. http://doc.mbalib.com/view/6fa580a1ab7faccc3903d4d0b3947bc8.html.

(責任編輯:孫 娟)

劉金晶(1984-),女,湖北松滋人,碩士,北京銳安科技有限公司大數據分析部數據科學家,研究方向為元數據管理、數據質量管理;曹文潔(1976-),女,河北石家莊人,博士,北京銳安科技有限公司大數據分析部數據科學家,研究方向為模式識別與智能系統。

10.11907/rjdk.162634

TP301

A

1672-7800(2017)003-0176-03

猜你喜歡
質量
聚焦質量守恒定律
“質量”知識鞏固
“質量”知識鞏固
質量守恒定律考什么
做夢導致睡眠質量差嗎
焊接質量的控制
關于質量的快速Q&A
初中『質量』點擊
質量投訴超六成
汽車觀察(2016年3期)2016-02-28 13:16:26
你睡得香嗎?
民生周刊(2014年7期)2014-03-28 01:30:54
主站蜘蛛池模板: 国产一线在线| 免费国产福利| 精品国产黑色丝袜高跟鞋 | 国产另类视频| 国产成人综合日韩精品无码不卡| 色成人亚洲| 欧美国产在线看| 午夜不卡视频| 久久鸭综合久久国产| 国产精品男人的天堂| 国产免费久久精品99re丫丫一| 亚洲天堂伊人| 色婷婷视频在线| 久久精品只有这里有| 亚洲乱码视频| 四虎成人在线视频| 香蕉伊思人视频| av在线手机播放| 无码免费试看| 尤物特级无码毛片免费| 欧美一级专区免费大片| 国产黑丝一区| 色AV色 综合网站| 国产一在线| 精品国产Av电影无码久久久| 少妇精品久久久一区二区三区| 国产91视频免费观看| 九九视频免费在线观看| 国产亚洲欧美在线人成aaaa| 国产黑丝视频在线观看| 亚洲欧美成人在线视频| 99在线观看精品视频| 91视频精品| 国产成人AV综合久久| 在线看片免费人成视久网下载| 日韩国产欧美精品在线| 天堂网亚洲系列亚洲系列| 欧美视频二区| 国产福利观看| 国产91在线|日本| 极品性荡少妇一区二区色欲| 日韩午夜伦| 久久久久久高潮白浆| 九九九精品成人免费视频7| 亚洲av无码人妻| 亚洲第一综合天堂另类专| 亚洲人成色77777在线观看| 伊人久久综在合线亚洲91| 超碰91免费人妻| 一级福利视频| 超碰91免费人妻| 99久久99视频| 黄色在线不卡| 亚洲无码不卡网| 999国内精品视频免费| 国产福利一区视频| 欧美a级在线| 国产亚洲精品自在线| 亚洲—日韩aV在线| 伊人久久影视| 全裸无码专区| 丰满人妻久久中文字幕| 亚洲成网站| 无码一区二区三区视频在线播放| 99999久久久久久亚洲| 国产欧美视频综合二区| 国产主播在线一区| 久久国产热| 国产毛片片精品天天看视频| 色老头综合网| 久久久久无码国产精品不卡| 亚洲一级色| 国产精品手机视频一区二区| 无码日韩精品91超碰| 中文无码影院| 91福利免费| 亚洲经典在线中文字幕| 亚洲无码精彩视频在线观看| 日韩欧美中文字幕在线韩免费| 67194在线午夜亚洲| 制服丝袜无码每日更新| 精品无码国产自产野外拍在线|