999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關于數據治理與數據質量的思考

2021-09-16 01:40:31汪廣盛
清華金融評論 2021年5期
關鍵詞:高質量質量管理

數據質量是數據治理的核心內容,提高數據質量也是數據治理的核心目標。數據作為生產要素是數字經濟的基礎,高質量的數據是數據價值的保障。對數據質量的管理是數據全生命周期的管理,需要一把手的參與和承諾,并有相應的數字化企業文化的建立和一系列工具及制度的保障。

經常有人問,數據重要還是算法重要?回答應該是肯定的:二者都重要;但如果只能選擇一個的話,那么數據更重要。因為如果數據是低質量的甚至是錯誤的,再好的算法所得出的結論也只能是不準確甚至是錯誤的。所謂的“垃圾進,垃圾出”(Garbage in,Garbage out)講的就是這個道理。按照國際數據管理協會(DAMA)的數據管理知識體系(DBMOK2),提高數據的質量是數據治理的核心內容。數據作為數字經濟的基礎,高質量的數據也是數字經濟的必然要求。

數據質量的定義

“數據質量”(Data Quality,簡稱DQ)一詞有多重意思,既指高質量數據的相關特征,也指用于衡量或提高數據質量的過程。按照DAMA的說法,“數據質量如能達到數據使用者的期望和需求,也就是說,如果數據滿足數據使用者應用需求的目的,就是高質量的;反之,如果不滿足數據使用者應用需求的目的,就是低質量的。因此,數據質量取決于上下文和數據使用者的需求”。

國際標準化組織(ISO) 8000國際數據質量標準也提出了一些關于數據質量的標準。這一標準的建立是為了使復雜數據能夠以與應用無關的形式進行交換。在標準的介紹中,ISO指出:“為了能夠以及時和經濟高效的方式創建、收集、儲存、維護、轉移、處理和呈現數據以支持業務流程,既需要了解決定其數據質量的特征,也需要具有能夠對數據質量進行測量、管理和報告的能力。”

ISO 8000的目的是幫助組織定義什么是符合質量要求的數據,什么是不符合質量要求的數據,使它們能夠使用標準去約束符合質量要求的數據,并檢核它們是否已經收到了符合同一質量標準的數據。當遵循標準時,就可以通過計算機程序確認數據是否已經滿足需求。

數據質量管理的內容

數據質量管理的內容包括很多,各個專業機構對它的定義也不一樣。DAMA認為,數據質量管理的內容至少應該包括:一是定義什么是高質量的數據,且定義應該和業務目標緊密聯系。二是定義數據質量策略,比如如何來評估和提高數據的質量。三是確定關鍵數據和業務規則,任何一個組織都會有大量的數據,數據質量的管理應該從對業務最關鍵的數據入手,并制定相應的業務規則。四是執行初始數據質量評估,在開展數據質量工作之前,應該做一次初始評估,以了解目前的狀況。五是確定數據質量管理的內容,并按照優先級別來排序各項工作。這樣可以在較短的時間內看到部分的效果。六是定義數據質量改進的目標。這些目標應該和業務一致,并需要能夠量化。七是開發和部署數據質量的具體工作,數據質量的管理不只是一個項目,更是一個貫穿整個數據生命周期的過程,同時也需要和業務保持一致。

數據質量是數據治理的核心內容

數據治理包括許多方面的內容,比如數據戰略、數據標準、數據架構、數據安全、數據建模、數據應用等。而數據質量管理是數據治理的核心內容。

同時,提高數據的質量也是數據治理的核心目標之一。因為數據治理當中的很多方面都與數據的質量問題息息相關。例如,數據戰略的建立是為了提高數據的整體可用性,并實現和增大數據的價值。數據標準的建立是為了提高數據的交互和可操作性,這本身就是數據質量高低的衡量標準之一。數據建模也是為了保證數據的標準化和可用性,從而提高數據的質量。而數據的應用更有賴于高質量的數據。

有效的數據管理涉及一系列復雜的、相互關聯的過程,它使組織能夠利用它們的數據來實現其戰略目標。數據管理能力包括為各類應用設計數據、安全存儲、訪問和共享數據、從數據中獲得知識,以及滿足業務需求的能力等。但實現數據價值的前提是,數據本身是可靠和可信的。換句話說,數據應是高質量的。因為高質量的數據可以提高數據的價值和被應用的可能,降低由于低質量數據而導致的相關風險和成本,提高組織效率和生產力,保護和提高組織的聲譽。

與此相反,使用劣質的數據則會給組織帶來各種風險和損失,比如損害組織的聲譽,因不滿足監管要求而導致的罰款、收入損失、客戶流失和媒體曝光等。例如,如果“客戶電話號碼”字段的數據不完整,我們將無法通過電話聯系這些客戶,這將失去潛在的銷售機會。所以需要建立一個流程來提高數據的完整性,直到比如至少有98%的客戶有可用的電話號碼為止。當然,高質量的數據本身并不是目的,它只是組織成功并為業務服務的一種手段。

評估數據質量的維度

數據質量的維度是數據的某個可測量的特性。術語“維度”可以類比于測量物理對象的維度,例如長度、寬度、高度等。數據質量維度提供了定義數據質量要求的一系列指數。我們可以通過這些維度來定義和評估數據的質量。

業界有很多專家對數據質量維度進行了深度研究。這里介紹三位最具影響力的人物,他們深入研究了如何擁有高質量數據,以及如何測量數據的質量。Strong-Wang框架(1996)側重于數據使用者對數據的看法,它描述了數據質量的四個大類及15個指標,包括數據的內在質量、語境質量、表達質量和訪問質量等。托馬斯·瑞德曼(Thomas Redman)在《信息時代的數據質量》(Data Quality for the Information Age,1996年)中,制定了一套基于數據結構的數據質量維度,共有20多個維度。拉里·英格利什(Larry English)在《改善數據倉庫和業務信息質量》(Improving Data Warehouse and Business Information Quality,1999年)中,提出了一套綜合指標。他把數據質量分為兩大類別:內在特征和實用特征。內在特征與數據使用無關,實用特征是動態的,與數據表示相關,其質量價值可隨數據的使用而改變。

2013年,DAMA英國分會發布了一份白皮書,描述了數據質量的6個核心維度。這些維度是:完整性——存儲數據量與潛在數據量的百分比;唯一性——在滿足對象識別的基礎上不應多次記錄實體實例(事物);及時性——數據到達的時間點;有效性——數據符合其定義的語法、格式、類型、范圍等;準確性——數據正確描述“真實世界”對象或事件的程度;一致性——比較事物多種表述與定義的差異。

DAMA英國分會的白皮書還描述了其他對質量有影響的特性,其中包括:可用性(Usability)——數據是否可理解、簡單、相關、可訪問、可維護且達到正確的精度水平;時間問題(Timing Issues)(除上述時效性外)——是否能對業務的變更請求作出及時的響應;靈活性(Flexibility)——數據是否具有可比性,是否與其他數據有很好的兼容性,是否具備可用的分組和分類,是否能被重用以及是否易于操作;置信度(Confidence)——數據治理、數據保護和數據安全等管控是否到位,數據的可信性如何,它是否是經驗證的或是可驗證的。價值(Value)——數據是否有良好的成本/收益案例,它是否得到了最佳應用,是否危及人們的安全、隱私或企業的法律責任,以及它是否支持或無助于建立企業形象、企業信息。

綜上所述,雖然不存在唯一的、一致認可的數據質量維度標準,但它們均包含了一些常規的想法,即維度基本都包括了一些可以客觀衡量(完整性、有效性、格式一致性),而且依賴于語境或主觀解釋(可用性、可靠性、聲譽)的特征。無論使用什么名稱,維度都涉及是否有足夠的數據(完整性),數據是否正確(準確度、有效性),數據是否符合要求(一致性、連貫性、唯一性),數據是否為最新(及時性)以及數據的可訪問性、可用性和安全性。

導致數據質量低下的原因分析

從數據的規劃和產生到最后的歸檔或者消除,數據質量問題可能在數據生命周期的任何時間點出現。數據輸入、數據處理、系統設計以及自動化流程中的手動干預等問題都有可能導致低質量的數據。

總體而言,導致數據質量低下的原因是多重的。其中包括:一是領導不重視、數字化的企業文化建立不到位。許多人認為大多數數據質量問題是由數據輸入錯誤引起的。但實際上,業務和技術流程中的差距或執行不當所導致的數據質量問題遠比輸入帶來的問題更多。許多數據質量問題是由于缺乏對高質量數據的組織承諾造成的,而缺乏組織承諾本身就是在治理和管理的形式上缺乏領導力。缺乏這種領導力和數字化企業文化是導致低質量數據最重要的原因。二是數據輸入過程引起的問題。機采的數據往往問題較小,但也會有問題。比如設計不當的數據輸入接口。如果該類接口沒有編輯或控件來防止不正確的數據,則數據處理人可能會采取快捷方式處理數據,例如跳過非強制字段和不更新有默認值的字段等。而由人工手工輸入的數據問題會更多,比如在疲勞、不盡責等情況下都有可能輸入不正確的或者不完整的數據。三是數據處理功能引起的問題。數據處理的過程也會導致數據的質量問題。比如,過時的業務規則:隨著時間的推移,業務規則會發生變化,如果沒能對業務規則進行審查和更新,這些過時的業務規則就有可能帶來數據錯誤。變更的數據結構:源系統可以在不通知下游消費者(包括人和系統)或沒有足夠時間讓下游消費者響應變更的情況下變更結構,這可能導致無效的值或阻止數據傳送和加載,或者導致無法立即檢測到的更細微的改變。ETL(獲取、變換、加載)的邏輯錯誤:ETL過程中,數據的映射、參數的選擇、內容的缺損等都會導致數據的質量問題。四是系統設計引起的問題。數據輸入的界面或者系統設計的缺陷會導致低質量的數據。比如缺乏數據驗證,則可能會出現數據完整性和準確性的問題;處理數據的規則不準確,就有可能出現計算錯誤、數據被鏈接或分配到不匹配的字段、鍵或者關系等;在沒有統一數據字典的情況下,多個系統可能采用不同的日期格式或時間,當不同源系統之間數據同步時,這反過來會導致數據不匹配和數據丟失;主數據和元數據管理不到位,缺乏數據標準和數據血緣關系,也會導致數據的混亂。五是解決問題而引起的問題。補丁是為了解決某些具體問題而產生的,如果沒有足夠的測試,就像未經測試的代碼一樣,這些補丁很有可能會引發新的問題,并產生更高的風險。六是相關技術還沒有完全成熟。數據質量的高低也反應在數據是否能夠被共享應用,以及非結構化數據是否被充分利用。鑒于各國對數據隱私的重視和保護,數據共享遇到了許多限制,以前相關技術并不能完全滿足“數據可用不可見,用途可控可計量”的要求。這使得數據的共享一直是個技術難題。最近隨著數據隱私計算的推出和應用,這方面應該有很大的提高。但非結構化數據的質量問題現在還沒有一個比較好的解決方法。

如何提高數據的質量

筆者認為,數據質量的管理應遵循以下原則:一是重要性(Criticality),數據質量應關注對企業及客戶最重要的數據。改進的優先順序應基于數據的重要性以及低質量數據可能帶來的風險水平來判定。二是生命周期管理(Lifecycle Management),數據質量管理應覆蓋從創建或采購直至處置的整個數據全生命周期,包括其在系統內部和系統之間流轉時的數據管理。換言之,數據鏈中的每個環節都應確保數據具有高質量的輸出。三是預防(Prevention),數據質量管理的重點應放在預防數據錯誤和降低數據可用性等情形;不應放在簡單地糾正記錄上。四是根本原因補救(Root Cause Remediation),提高數據質量不僅是糾正錯誤,由于數據質量問題通常與流程或系統設計有關,所以提高數據質量通常需要對流程和相關系統進行改進,而不僅僅是從表象來理解和解決。五是制度和企業文化(Governance),數據治理活動必須支持高質量數據的開發,數據質量規劃活動必須支持和維持接受治理的數據環境。六是標準驅動(Standards—Driven),數據生命周期中的所有利益相關者都會有數據質量的要求,在可能的情況下,對于可量化的數據質量需求應該以可測量的標準和期望的形式來定義。七是客觀測量和透明度(Objective Measurement and Transparency),數據質量需要得到客觀、一致的測量。測量和測量方法應該與利益相關者一同討論與分享,因為他們是質量的裁決者。八是嵌入業務流程(Embedded in Business Processes),業務流程所有者對通過其流程生成的數據質量負責。他們必須在其流程中實施數據質量標準。九是系統執行(Systematically Enforced),系統所有者必須系統地執行數據質量要求。十是與服務級別相關(Connected to Service Levels),即數據質量報告和問題管理應納入服務級別協議(SLA)。

高質量的數據是數字經濟的必然要求

數據是數字經濟的基礎。沒有高質量的數據不但無法為數字經濟提供服務,反而還會帶來各種風險和損失。高質量的數據是數據經濟的必然要求。按照美國智庫Experian在2019年做的一份調研,美國企業中平均有29%的數據有這樣或那樣的質量問題,而且問題數據的數量高居不下,嚴重影響了企業的數字化進程。

數字經濟的發展需要高質量的數據作為支撐。第一,高質量的數據對數字經濟現有業務的量化支持。這當中包括提高生產率、降低成本、規避可能的各種風險、提升組織的聲譽等。第二,高質量的數據對數字經濟創新業務的量化支持。這當中包括引進新的業務流程、新的產品和服務,甚至于新的商業模型。

不過,沒有一個組織擁有完美的業務流程、技術流程或數據管理實踐,因此所有組織都會遇到與數據質量相關的問題。但相比那些不開展數據質量管理的組織,實施正式數據質量管理的組織碰到的問題會更少。真正的數據質量管理類似于其他產品的持續質量管理。它包括在整個生命周期制定標準,在數據創建、轉換和存儲過程中完善質量,以及根據一定的標準來管理數據。同時數據質量還取決于所有與數據交互的人,而不僅僅是數據管理專業人員。與數據治理和整體數據管理一樣,數據質量管理不是一個一次性項目,而是一個有規劃的持續性的工作。它包括項目的維護工作,以及對溝通和培訓的承諾。最重要的是,數據質量改進計劃的長期成功取決于一個組織文化的改變及質量觀念的建立。

結語

數據質量是數據治理的核心內容,提高數據質量也是數據治理的核心目標。數據作為生產要素是數字經濟的基礎,高質量的數據是數據價值的保障。對數據質量的管理是數據全生命周期的管理,需要一把手的參與和承諾,并有相應的數字化企業文化的建立和一系列工具及制度的保障。

(汪廣盛為國際數據管理協會中國主席。本文編輯/秦婷)

猜你喜歡
高質量質量管理
棗前期管理再好,后期管不好,前功盡棄
今日農業(2022年15期)2022-09-20 06:56:20
堅持以高質量發展統攬全局
當代陜西(2022年5期)2022-04-19 12:10:12
“質量”知識鞏固
高質量項目 高質量發展
當代陜西(2021年1期)2021-02-01 07:18:02
質量守恒定律考什么
牢牢把握高質量發展這個根本要求
當代陜西(2020年20期)2020-11-27 01:43:10
做夢導致睡眠質量差嗎
“三部曲”促數學復習課高質量互動
質量投訴超六成
汽車觀察(2016年3期)2016-02-28 13:16:26
“這下管理創新了!等7則
雜文月刊(2016年1期)2016-02-11 10:35:51
主站蜘蛛池模板: 亚洲综合中文字幕国产精品欧美| 中文字幕中文字字幕码一二区| 亚洲欧美日韩中文字幕一区二区三区| 精品久久高清| 乱人伦中文视频在线观看免费| V一区无码内射国产| 欧美天天干| 99视频国产精品| 日韩毛片免费| aa级毛片毛片免费观看久| 国产乱人乱偷精品视频a人人澡| 国内精品久久九九国产精品| 国产乱人伦精品一区二区| 欧美在线综合视频| 无码精油按摩潮喷在线播放| 91色老久久精品偷偷蜜臀| 亚洲欧美精品日韩欧美| 91人妻日韩人妻无码专区精品| hezyo加勒比一区二区三区| 美女无遮挡拍拍拍免费视频| 国产成人高清精品免费| 亚洲AV无码乱码在线观看代蜜桃| 中文字幕人妻av一区二区| 亚洲综合久久成人AV| 美女无遮挡拍拍拍免费视频| 免费不卡在线观看av| 71pao成人国产永久免费视频| 亚洲成人一区二区三区| 国产精品尹人在线观看| 91在线丝袜| 成年人久久黄色网站| 亚洲视频三级| 国产成人综合久久精品下载| 亚洲高清在线天堂精品| 亚洲精品另类| 国产视频一区二区在线观看 | AV天堂资源福利在线观看| 免费无码又爽又刺激高| 精品国产自| 日本午夜在线视频| 日本手机在线视频| 国产小视频免费观看| 精品国产乱码久久久久久一区二区| 国产一级二级在线观看| 亚洲精品午夜无码电影网| 无码一区二区三区视频在线播放| 国产精品亚洲一区二区三区z| 国产成人精品日本亚洲77美色| 国产美女叼嘿视频免费看| 国产小视频网站| 亚洲无码四虎黄色网站| 福利在线一区| 久久综合五月婷婷| 黄色成年视频| 中文字幕 91| 朝桐光一区二区| 欧美在线精品怡红院| 国产成在线观看免费视频 | 最新无码专区超级碰碰碰| 亚洲国产成人自拍| www亚洲天堂| 超清无码一区二区三区| 国产新AV天堂| 精品欧美日韩国产日漫一区不卡| 天天综合网色中文字幕| 天天激情综合| 黄片一区二区三区| 国产一二视频| 国产精品第一区| 99热最新在线| 国产又爽又黄无遮挡免费观看| 999国产精品永久免费视频精品久久 | 国产成人无码播放| 老司机精品一区在线视频| yjizz视频最新网站在线| 国产精品自在自线免费观看| 久久精品电影| 夜精品a一区二区三区| 午夜精品久久久久久久无码软件| 99er这里只有精品| 久久伊伊香蕉综合精品| 成人国产精品一级毛片天堂|