鄧紅梅 DENG Hong-mei;姚衛華 YAO Wei-hua;焦揚 JIAO Yang;武璠 WU Fan
(長慶油田勘探開發研究院,西安 710018)
當前全球數據正在以前所未有的速度增長,IDC曾發布報告稱,到2025年,全球數據圈預計將增長至175ZB。機器學習、AI等依賴數據質量的人工智能技術持續火熱,全球數字化轉型浪潮也在全面推進,如何在這樣一個數據大爆發的時代奪得先機,充分把握數字紅利,成為各類企業面臨的一個重要課題。
伴隨著油田的快速發展和信息技術的進步,企業信息化建設先后經歷了專業數據庫建設、數字化油氣田建設、智能化油氣田探索三個階段,歷經20余年,產生了海量的勘探開發數據資源,如何將油氣田企業沉淀的數據資源轉變為數據資產,提升企業數據治理能力具有奠基意義。
何為數據治理?目前業界并沒有對其概念的統一標準定義,我們可以這么認為,數據治理從本質上看就是對一個機構(企業或政府部門)的數據從收集融合到分析管理和利用進行評估、指導和監督(EDM)的過程,通過數據治理實現企業數據的標準化、提高數據質量、提升業務處理的效率,為數據分析提供準確的數據支撐,賦能業務,助力企業實現數字化轉型,為企業創造價值。
現階段,國內大部分油氣田的井口已基本覆蓋物聯網系統,能夠對于開采過程中的實時數據實現自動采集。但是,由于油氣行業具有生產環節鏈條較長、涉及專業較多、各類數據分散存儲的特點,由多個獨立系統之間難以進行數據共享產生的“數據孤島”現象依舊較為多見。
縱觀油氣行業數據管理現狀,存在的問題大同小異,主要表現在以下方面:對數據治理不夠重視,缺乏系統和深入的理解,且信心不足,在資源投入方面有所顧慮;數據管理制度尚不健全,未建立專門的數據管理崗位,缺乏數據安全、數據共享等領域的標準規范;各級部門職責分工和工作邊界尚不清晰,未建立有效的工作機制;技術部門與業務部門以及不同的部門之間融合程度不夠,溝通不充分;數據冗余多、數據應用效率低、相關信息系統落標不徹底;數據獲取智能化程度低,大部分數據還是通過手工填報,數據口徑、標準不統一;大量在用數據未定義可信數據源,存在一數多源、多點采集的問題。
因此,各油氣田企業對數據資產普遍利用程度不高,海量數據價值尚未充分挖掘,不具備多樣性特征的大數據較難反映問題特征,使得后續的人工智能等技術在油氣勘探開發領域難以落地。同時,海量數據中包含大量冗余和無效的信息,這些信息的存儲反而造成了資源浪費,影響到整個系統的運營效率。
全國信息技術標準化技術委員會于2018年3月15日發布國家標準《數據管理能力成熟度評估模型GB/T 36073-2018》,將數據管理能力成熟度評估模型分為八個一級能力域(圖1)。

圖1 DCMM數據管理能力成熟度評估模型
各類企業可以根據數據管理現狀,設計符合本企業特點的數據能力評價模型。本企業也是根據數據管理藍圖框架,參考業界成熟度數據管理評估模型(DCMM),設計了覆蓋現階段數據治理關注點的數據能力評價模型,由十大能力域構成(圖2)。

圖2 企業數據能力評價模型
通過對本企業開展數據管理能力評價,掌握本企業數據管理能力成熟度階段,為數據治理解決方案提供依據。
在DAMA數據管理知識體系指南中(圖3),數據治理位于數據管理“車輪圖”的正中央,是數據架構、數據建模、數據存儲、數據安全、數據質量、元數據管理、主數據管理等10大數據管理領域的總綱,為各項數據管理活動提供總體指導策略。

圖3 DAMA-DMBOK2.0數據管理車輪圖
數據治理解決方案應適用于解決在前期數據管理能力評價中凸顯的問題,通過數據治理解決方案的實施,為企業數據質量提供持續保障,幫助企業構建數據資產體系,實現數據價值的最大化,最終完成企業數字化轉型。
通過油氣田企業在數據治理工作的開展,總結出在數據治理解決方案中四個關鍵環節,包括體系規劃、頂層設計、資源盤點、工具平臺。
數據管理各項工作龐雜,如何體系化地開展工作?實際在第一步企業數據管理能力評估的過程中,我們就可以掌握各大能力域的管理現狀,基本可以更有針對性地進行數據治理總體規劃。
無論是國際數據管理協會(DAMA)數據治理框架還是DCMM數據治理體系框架(圖4),企業都無法照搬,而應在法律法規、國家標準、行業標準的框架下,根據企業自身的特點作出調整。組織制度、數據安全、數據標準、數據治理、數據共享等都需要通過專項的方式進行深入建設,支持業務發展,實現數據價值。

圖4 企業數據治理體系規劃
數據治理要定戰略、定制度、建組織,這是頂層策略,并不是簡單的組建一個臨時團隊,也不僅僅意味著有了專業的人就能做專業的事,而是要建立一個能足夠支撐企業數據業務化的完整體系,包括組織體系、管理體系、執行體系、技術體系等方面。這每一項都牽一發而動全身,都需要高層領導的大力支持和推動,業務部門和技術部門的緊密協同。
數據治理的頂層設計必須在數據治理工作開展前做好,通常企業數據現狀有兩種:一種是“零建設”,就是數據還在各個源頭上沒有采集,或者計劃準備實施源頭采集;另外一種是在建設中采取多期次、多廠商、多技術、多方法等多元化建設方式,這樣的建設方式產生了數據“孤島”和“碎片化”的問題。
上述兩種情況需要用不同的辦法來治理,其中“零建設”的數據基本上不需要治理,但需要用數據治理的思想和機理去建設,實現數據“正?;?。第二種是必須進行數據治理的,油氣田企業數據建設也是這樣一種現狀,這就需要企業在開展數據治理工作前全面做好頂層設計。頂層設計的關鍵是將源頭數據與業務流程搞清楚,然后形成數據流,完全掌握了數據“從哪來、到哪去”和數據的“采、存、管、用”的規律,給予自頂向下的設計。在數據治理中必須逐步地執行頂層設計的措施,在規劃的過程中需要有明確的目標,因為數據治理中有其不同的階段和領域,需要對每一個小的環節都要建立好要落實的目標,最終逐一實現。
數據治理的第一步是必須掌握數據現狀,需要對自身的數據資源和應用情況進行盤點,要確保數據符合業務需求,就需要人工逐條、逐字段地定義數據標準、核實數據質量,最終完成數據治理現狀分析。
數據資產劃分:根據行業標準和特點對于數據資源進行分類,將數據資源劃分為公開、內部、敏感等不同的敏感等級。
數據關系及定義盤點:梳理主數據及定義范圍以及數據所有人,梳理指標數據及使用部門和使用人,梳理數據字典以及通用數據定義。
數據標準梳理:對于業務數據按照主體、參考、交易、統計進行分類,并梳理出數據的技術標準和業務標準。結合數據標準、關系、定義的梳理,補充和整理完整的數據字典。
數據應用評估:評估數據應用的范圍及引用數據的系統,按照領域和場景梳理數據應用范圍;根據企業所在行業和業務范圍,梳理相應的國家、國際上對應的數據法律法規要求,并制定數據合規方案;根據企業對于數據使用等級、安全級別梳理數據脫敏的要求和規范,根據數據被業務系統調用的情況,制定數據引用熱度管理方法和基于熱度來調整數據資產的方法。
數據治理平臺的搭建基本都是“因人而異”的,不同的企業對于搭建數據治理平臺的需求及各業務模塊的重視程度都不一樣,也有一定程度的輕重緩急。這里建議結合數據管理能力評價情況進行數據治理平臺功能設計,不外乎包括數據質量管理、數據標準管理、數據安全管理、數據模型工具、元數據管理、主數據管理等功能模塊。
數據治理平臺涉及面廣,體系龐大而又復雜,想要完全依靠自身力量搭建這樣一個平臺基本上是很難的。目前市面上有許多數據治理的工具平臺,但都不能直接照搬應用,可以選擇一個在業界有口皆碑的工具,借鑒已成功運用落地的行業解決方案,則會在最短的時間內完成治理目標,達到事半功倍的效果。
我們所說的數據治理項目不是為治理數據而構建,而是與大數據平臺、數據分析挖掘等項目相結合,通過提高數據質量、控制數據安全性,使數據發揮最大效益。通過數據治理工作的開展,數據變得可信且易于理解,并能有效地支撐業務人員的決策分析工作。越來越多的人員轉變為“數據專家”,工作方式也隨之改變,但是它并不是一個一蹴而就的事情。
數據治理是一個螺旋上升模型,需要不斷的迭代和優化,需要進行長效的持續運營,要將其變成企業的一種機制、一種文化、一種習慣,而油氣田企業數據治理每一次迭代優化都推動數字技術與油氣產業深度融合。