程廣明


摘 要:介紹了“大數據治理”的概念,提出了人與組織、策略和能力的三維架構大數據治理模型,并在此基礎上提出了包括初始級、基本級、定義級、管理級和優化級五個評價等級的大數據治理成熟度評估模型。
關鍵詞:大數據;數據治理;成熟度評估;策略
中圖分類號:TP274 文獻標識碼:A DOI:10.15913/j.cnki.kjycx.2016.09.006
隨著云計算、物聯網、移動互聯網等新一代信息技術的快速發展,人類產生的數據量呈指數級增長。據資料顯示,2012年,全球數據量達到2.8 ZB,預計到2020年,全球數據量將達到40 ZB。大數據蘊含著巨大的價值,如今,互聯網、電信和金融等行業的眾多企業已將數據視作企業的寶貴資產。然而,數據價值密度與數據總量成反比。面對巨大的數據規模,如何管理和利用數據,使其發揮價值是企業必須考慮的重要問題。大數據的價值所在使其面臨著隱私和安全方面的威脅。大數據治理將組織的部門、流程、人等元素與數據的整個生命周期聯系在了一起,對組織數據管理和保護有著至關重要的作用。
1 大數據治理的定義
“大數據治理”不是一個橫空出世的概念,它是在傳統的數據治理基礎上提出的適應大數據時代的產物。《DGI數據治理框架》一文將數據治理定義為“數據相關事務的決策和授權的執行”,并進一步解釋為信息處理過程決策權和職責的策略,約定了由誰負責處理哪些信息,并在什么情況下采用哪種方法,以及何時來執行。也有學者將數據治理定義為“組織架構、規則、人員權利和義務、處理信息的信息系統”。
美國學者桑尼爾·索雷斯在《大數據治理》一書中這樣定義大數據治理:“大數據治理是廣泛信息治理計劃的一部分,即制訂與大數據有關的數據優化、隱私保護和數據變現的政策。
我們可以對上述大數據治理定義作進一步的分解解讀。首先,大數據治理是信息治理計劃的一部分,這是其定位。這就要求組織在制訂信息治理框架時,必須將大數據納入其中,比如在信息治理委員會中增加數據科學家,在信息治理目標中增加大數據治理目標等。其次,大數據治理主要是數據處理的一系列相關政策的制訂,這是其內涵。再次,必須優化大數據,這是大數據治理的重點。大數據體量大、種類繁多,且價值密度低,組織必須對其進行優化,比如定義元數據、凈化大數據、實施數據生命周期管理等。從次,大數據隱私保護至關重要,這是大數據治理的約束。看似沒有任何價值的單一數據集合在一起時,會發現新的價值,這是大數據價值體現的重要途徑之一。而大數據價值的體現往往會涉及數據的隱私,這就要求組織在進行大數據價值體現時,必須注重大數據的隱私處理。最后,大數據必須變現,這是大數據治理的目的所在。組織將數據視作其資產的一種,要將其轉化成組織可以使用的現金,而變現的方式可以是單純地出售數據本身,也可以是利用數據開發新業務。
2 大數據治理模型
基于以上概念分析,我們可以將大數據治理模型理解為人與組織、策略和能力的三維架構。人與組織是數據治理的主體,涉及政府、企業界、學術界、社會組織、自然人等,他們分別承擔著不同的治理職責。策略是大數據治理的工具,能力是大數據治理的手段。圖1所示為大數據治理模型三維架構。
具體來說,人與組織包含利益相關者、治理委員會、管理委員會和內部員工。利益相關者指組織內部和外部環境中受組織決策和行動影響的任何相關者,數據的產生者、管理者、使用者和監督者等;治理委員會是組織治理數據的最高機構,負責作出數據相關事務的決定,并將數據治理標準和措施匯報給數據的利益相關者;管理委員會負責具體實施治理委員會制定的各項數據治理決定,并將數據治理結果匯報給治理委員會;內部員工是數據治理架構中不可或缺的一部分,貫徹執行數據治理委員會和管理委員會制定的各項數據治理策略。
策略是組織制定的所有與大數據有關的數據優化、隱私保護和數據變現的準則和規范,包括組織數據治理的使命和愿景、治理指標、數據治理規則和定義、權利與職責、控制措施。數據治理的使命和愿景包括數據治理的整體目標,給予數據利益相關者持續與跨界的數據保護和服務,不合規準則引發的問題的解決方案等;數據治理指標定義了數據治理目標的衡量方法;數據治理規則和定義包括與數據相關的政策、標準、合規要求、業務規則和數據定義等;權利和職責規定了由誰來負責制訂數據相關的決策、何時實施、如何實施,以及組織和個人在數據治理策略中該做什么;控制措施主要針對數據未治理風險防范和數據治理過程中可能發生的各類風險,以及如何做好數據隱私保護。
能力則反映了組織進行數據治理所具備的條件和水平,包括元數據管理、數據質量管理、業務流程整合、主數據管理和信息生命周期管理。元數據是描述數據的數據,即描述數據和信息資源的信息。元數據管理就是整合大數據與企業的元數據庫。數據質量管理準則包括數據識別、采集、測量、提升和論證質量、整合組織數據的方法,比如具備應對非結構化數據占據數據總量絕大部分情況的能力。業務流程整合要求組織制定的大數據治理計劃必須與組織的核心業務流程相匹配,以便從核心業務流程中獲取大數據治理的關鍵支持政策。主數據管理描述了一組規程、技術和解決方案,用于維護業務數據的一致性、完整性、相關性和精確性。大數據治理需要制訂將大數據整合到主數據管理環境的政策。信息生命周期管理則要求組織判斷應該將何種數據保留在數據分析系統,何種數據需要存檔,何種數據需要刪除。
3 大數據治理成熟度評估
表1 大數據治理成熟度等級評價表
等級 等級描述
初始級 a.沒有定義與數據治理相關的架構和角色
b.沒有正式的數據治理策略
c.不具備數據治理能力
基本級 a.定義了數據治理角色和職責,管理者意識到數據治理的重要性,但對管理知識知之甚少
b.已有的數據治理策略已經文件化,但不具有連貫性
c.數據治理能力十分有限,只有很少一部分人掌握數據治理通用級別的知識
定義級 a.定義了數據治理角色和職責,管理者能主動推動數據治理計劃實施
b.數據策略已經文件化,并涵蓋了針對特殊數據的治理策略;策略通過公共渠道容易獲取,大多數利益相關者能夠理解
c.具備數據治理的全部要素,一部分人知道詳細的數據治理能力
管理級 a.定義了完備的數據治理角色和職責,并有專門的數據質量專家,管理者能主動推動數據治理計劃實施
b.所有的數據策略都已經文件化,并且是審計合規的,都能通過公用渠道獲取,數據治理利益相關者主動關注策略的增添、更新和刪除
c.所有定義的數據治理能力層級都有可用的方法,建立了系統化的數據治理處理流程
優化級 a.定義了完備的數據治理角色和職責,管理委員會來自各個部門,擁有元數據管理小組、數據質量技能中心、主數據管理委員會等
b.所有的數據策略都已經文件化,并且是審計合規的,所有的數據治理利益相關者都參與了策略發展過程;制訂了自動化的政策,以保證數據在整個組織內保持一致、準確和可靠
c.所有定義的數據治理能力層級所指定的部門和關鍵數據是固定的,能夠在數據處于靜態和動態時進行數據質量修復,數據不間斷地被跟蹤檢查,且任何偏離標準的問題都可以立即解決
成熟度評估是組織大數據治理狀態和能力的一種衡量方式。大數據治理模型共三個維度,具體涵蓋14個評價指標。每個指標分別以5個等級來衡量其成熟度,然后再統籌考慮評價指標權重,得到組織大數據治理的整體成熟度評價。根據綜合評價結果,組織大數據治理成熟度可以分為以下5個等級,即初始級、基本級、定義級、管理級和優化級。
4 總結
數據體量巨大、種類繁多、價值密度低和處理速度快是大數據的四大主要特征。面對爆發式增長的大數據,開展大數據治理是充分利用數據價值、保護數據隱私和安全等的重要途徑。結合前期研究,本文提出了人與組織、策略和能力的三維架構大數據治理模型,并制定了詳細的成熟度評價指標,對組織的大數據治理狀況進行評價,提出了包括初始級、基本級、定義級、管理級和優化級5個等級的大數據治理成熟度評價模型。
參考文獻
[1]Sunil Soares,著.大數據治理[M].匡斌,譯.北京:清華大學出版社,2014.
〔編輯:劉曉芳〕