





[摘" " 要] 數字經濟時代,新的技術和理念促進傳統行業發生深刻變革。作為傳統行業,石油行業如何推進數據治理,保障數字化轉型、智能化發展,實現從規模增長到高質量發展是一個關鍵問題。本文結合國內某大型油田數據管理實際,分析數據治理趨勢和核心要素,針對油田數據治理面臨的問題設計數據治理框架,探討數據標準、質量管理等關鍵領域數據治理思路和實踐經驗。
[關鍵詞] 智能油田;數據治理;質量控制;數據管理;標準規范
doi : 10 . 3969 / j . issn . 1673 - 0194. 2023. 03. 045
[中圖分類號] TP315;F272.7" " [文獻標識碼]" A" " " [文章編號]" 1673 - 0194(2023)03- 0162- 06
0" " " 引" " 言
某油田是國內特大型油田企業,走過60年余歷程,積累了海量數據資源。“十二五”至“十三五”實現油田勘探開發數據統一匯交、統一存儲、統一服務格局,建立“主管部門+數據部門+數據源單位”的三層管理架構。結合數字化轉型需求,于2016年啟動數據治理探索,采取管理提升與技術保障相結合的方法,在標準、方法、流程、管理多方面優化,取得良好效果。
1" " " 數據治理框架設計
1.1" "國內外數據治理趨勢分析
數據治理始于2004年,是一個包含組織、制度、流程、工具的管理體系,目的是實現數據資產價值最大化,囊括數據全生命周期的業務、技術、管理活動。國際上發布了GDI、DAMA等經典治理框架。國內發布了國標DCMM(數據管理能力成熟度評估模型)和《信息技術服務 治理 第5部分:數據治理規范》。各治理框架的共同點為強調企業戰略的引領作用、組織與制度的保障作用、迭代治理的推動作用。將數據架構、數據質量、主數據、管理體系(全生命周期)、數據安全等活動作為數據治理的核心要素。
《數據治理白皮書》國際標準研究報告指出,中國數據治理實踐更適合中國企業特點,強調數據標準建設和指標管理,但跨部門協同機制不暢,中、基層缺乏可操作的治理方法,主數據、數據質量技術應用不佳[1-2]。國內,IT行業華為公司采用“數據架構+質量管理”為支柱的數據治理路徑,體系化地實現數據清潔與貫通[3],其數據治理經驗具有借鑒意義。在石油行業,油田企業開發時間長、業務范圍廣、流程復雜,大多優先在一個或多個領域開展數據治理,新疆油田開展勘探、地質和工程板塊的主數據治理工作;大港油田開展油田數據治理門戶建設工作;勝利油田開展企業數據摸底、內容治理和服務治理。
1.2" "油田數字化轉型面臨的問題
某大型油田在數字化轉型進程中,暴露出“數據找不到、不一致、不標準、不可信”等情況,主要存在以下問題。
第一,數據標準不統一。一是統建系統處于油田公司級,油田專業庫級無解決方案,各單位仍使用油田標準和自建標準。二是因歷史原因和管理模式差別,各專業庫存在結構差異,多時期代碼夾雜、填寫方式不一致。
第二,數據流程不順暢。一是統建系統、自建系統重復采集、交叉采集,多個源頭數據之間不一致。二是存在信息孤島,現有業務流程與數據流程脫節,數據共享難度大。
第三,質量管理不充分。數據檢查彼此獨立、割裂,單位間業務理解、質控技術水平有差異,缺乏系統性的數據質量描述和配套方法。
第四,歷史數據質量不高。紙上、電子文檔圖件里有未進庫的數據,存在空值、數值無小數位等問題。
1.3" "數據治理框架
結合目前面臨的問題,設計如圖1所示的數據治理框架。
在油田公司戰略指導下,以組織、制度和規范為保障,抓住“標準與架構管理”和“數據質量管理”。以標準與架構管理推動企業業務流程、數據內容和數據源點梳理,捋順數據流向并確認唯一數據源;圍繞各數據管理活動進行整體機制、流程建設和完善,構建統一的管理體系?;冢校模茫临|量管理理論并借鑒六西格瑪管理思想,構建“質控計劃—質控執行—質量分析—質量跟蹤”的閉環管理流程,驅動專項數據治理項目的策劃和啟動,并以質量管控保障治理成果的落地,促進數據質量乃至整個管理體系的迭代升級。針對油田不同數據類型,開展主數據、業務源數據和指標數據的專項數據治理。
2" " " 數據治理工程實踐
2.1" "完善油田數據架構
2.1.1" "統一油田數據標準
數據標準是對各項數據的定義和解釋,是數據管理和應用的基礎。[4]鑒于現階段各單位仍需保留專業庫的實際,基于以下三個原則開展油田數據標準修訂。
一是全面吸收集團統建系統數據管理的先進思想,引用統建標準數據表28個,優化54個表結構,增加油藏精描專業48個表。
二是加入本油田數據建設成功經驗,吸收10年來油田重點建設成果表14個,設計水平井、套損井數據表。
三是注重配套代碼、編碼的規范性,堅持向源頭推廣使用統建代碼、完善油田特有自用代碼的思路,使用統建系統代碼表80個,修訂油田自用代碼表32個,明確新階段油田使用統一代碼, 為歷史階段代碼的標準化轉譯、代碼規范性檢查提供依據。
通過標準宣貫,從數據庫結構層面規范數據采集、流轉、回遷等管理活動,加強各單位規范管理意識,由自行修改數據項、自命名代碼轉為向數據中心反饋、業務管理部門主導統一完善標準的新模式。
2.1.2" "啟動數據資源目錄建設
數據資源目錄是數據架構管理的一個重要組成部分,通過梳理業務流程中的數據實體,建立數據資源多級分類,定義和識別所屬領域的數據資源內容信息,實現各業務主題域的數據資源導圖,如圖2所示。[4]設計油田數據資源目錄建設思路如下。
一是兼顧數據管理和數據應用需要。資源目錄展示數據資源所屬領域內容、數據屬性、數據流向,同時面向應用展示數據獲取方式、支持定位查詢。
二是基于元數據構建資源目錄。使用元數據描述數據,劃分業務元數據、模型元數據和質量元數據。業務元數據描述業務域、業務活動中業務對象產生的數據;模型元數據描述數據的組織方式、使用編碼和填寫規則,補充數據流向信息;質量元數據描述數據應遵循的業務規則。
三是采用多維度編目,包括實體、模型和應用主題,基于數據表建立編目標簽。
按照思路劃分油田監測業務域下1~3級業務,識別業務活動、業務對象和屬性,以卡片形式描述業務活動的參與者、時間、對象和結果,記錄業務活動中產生的數據項名稱、類型和業務規則,建立標準模型元數據與業務關系,以數據項為單位建立質量元數據,為建設資源目錄提供基礎。
2.2" "構建資產化運維體系
2.2.1" "強化主數據管理流程
主數據是在企業價值鏈上被重復、共享應用于多個業務領域、流程或跨多個業務單元以及多個應用系統的相對靜態的數據,在跨系統、跨階段數據應用以及未來大數據分析中的重要性日益凸顯。主數據管理目標是保障主數據的唯一性、完整性、有效性、一致性、規范性。
優先圍繞核心實體“井”進行梳理,從分類標準與編碼規則、屬性數據、全生命周期管理和質量管理四個關鍵點進行強化,參見圖3。
(1)分類標準與編碼規則:編制標準、屬性代碼,增強“井”分類、命名和編碼規范性。
(2)屬性數據:關注核心數據,進行數據提質,更正后數據匯聚至統建系統,建立準確的唯一數據源。
(3)全生命周期管理:圍繞“井”從設計至報廢的全生命周期設計注冊、分發和管理流程,實現全油田“井”統一注冊、分發、共享,數據在各系統貫通。
(4)質量管理:針對關鍵環節設計質控節點,把控數據質量。
經過強化實現“井”標準的統一、數據流與業務流的統一,搭建了數據和業務在管理層級上、業務層級上的通路,為跨層級、跨階段、跨專業的業務數據互通奠定了基礎。
2.2.2" "實現源數據統一采集
油田統建系統、自建系統間 “重復采集、交叉采集、數據來源不唯一”是數據治理中的常見問題,在運維體系層面加以解決,研發源數據管理平臺實現源點數據采集和貼源數據匯交,達到 “一次完整采集、全局充分共享”,參見圖4。
目前源數據覆蓋采油部分油水井生產動態和站庫運行動態、天然氣全業務的源點采集;覆蓋38家單位貼源數據匯交,建立油氣開發全業務域數據一站式采收模式。
2.3" "建設質量管控體系
2.3.1" "定義開發數據質量度量標準
規定數據質量元素、數據質量約束、數據質量業務規則三級體系。
(1)定義5個關鍵的數據質量元素,包括完整性、一致性、準確性、及時性和關聯性。
(2)數據質量約束描述數據間應遵循的抽象制約和依存關系。按照約束對象的不同,將數據質量約束劃分為數據約束和數據集約束,細分為13種約束。
(3)數據質量業務規則是涉及到具體邏輯模型的詳細描述,是數據質量約束的具體化。
2.3.2" "研發數據質量控制系統
2.3.2.1" "質控環節分析
質控分數據源單位和數據中心兩個層次,需把握三個節點:采集中、入庫后、遷移前,采用不同質控策略。
采集中——前置控制:進行基線管理,重點控制實體屬性準確性、數據關聯性、及時性及關鍵數據項完整性,對于不滿足基線要求的數據直接過濾,經由系統提醒用戶整改。
入庫后——全庫檢查:進行全量管理,周期性進行已獲取全部數據的綜合性檢查,使用全部質控規則,重點控制關鍵數據項一致性、準確性等,校驗數據反映的業務內在邏輯,對數據進行全面評價。
遷移前——過程控制:進行邏輯管理,針對主庫、數據湖對數據嚴謹性的要求,重點控制表間邏輯一致性、準確性及候選碼準確性。登記問題數據推送源單位整改。
2.3.2.2" "質量控制系統
針對多場景質控需求,設計研發通用的質控系統,采用三層架構,參見圖5。
數據層為基礎,包括元數據、質控數據庫,以及待檢數據庫。
服務層為核心,包括基礎支撐服務、應用服務和兩個引擎?;A支撐服務包括用戶、權限、數據緩存、日志、消息等通用功能。應用服務用于支持應用層的各功能模塊應用需求,實現規則、方案管理、數據查詢、報告查詢等具體功能。
應用層為呈現、支持各項具體配置、管理、查詢功能。
2.3.3" "建立數據質量發布機制
完善質量的組織管理和制度保障,建立質量發布機制,分業務管理部門、數據中心、數據源單位三個層次,覆蓋源單位的信息主管領導、信息管理部門、數據管理三級崗位。明確責任主體,各業務管理部門負責制度制定和考核指導;數據中心負責實施質控,發布質量報告;數據源單位負責問題處理及情況反饋。實現質控技術層與管理層充分融合、同步推進。
質控體系已覆蓋油氣生產單位,經過周期性質控工作,按目前質控要求和項目設置計算,質量問題個數已下降57%。
2.4" "實施業務源數據治理
數據治理是長期的、反復迭代的工作,解決各時期數據質量影響因素[5]。對質量問題突出的專業,有必要通過具體數據治理項目加以解決。
2.4.1" "實施步驟
堅持業務導向、需求導向,遵循“PDCA”理論設計如下實施步驟:
(1)找癥狀,明確治理目標;
(2)理數據,數據管理現狀分析;
(3)定規則,數據質量檢查;
(4)查內因,質量問題根因分析;
(5)編方案,設計實施方案和計劃;
(6)抓過程,數據治理全過程把握推進;
(7)做評價,分析治理效果;
(8)強落實,將治理成果落實入日常運維、質量管理和保障制度。
重復以上步驟形成循環工作模式,促進數據質量、數據管理能力螺旋式上升。實施中,從質控結果出發分析業務流程、崗位職責等層面的問題,形成從質量評價、重塑標準、改造存量數據、構建數據流程至提升維護能力的全鏈條治理模式。
2.4.2" "實踐案例
鉆井數據治理,針對鉆井甲乙方電子數據重復錄入、歷史數據缺失及多源頭、多分布支持應用的情況,經過分析,治理目標為提升鉆井數據存儲整體性、流程穩定性、數據準確性,設計實施方案,參見圖6。
實施效果:實現采集模型統一,完善主庫數據模型;校對主數據核心鉆井參數,完整率提升至90%以上;整合庫存6萬口井井斜、套管、井身結構數據,利用空間計算技術完成7萬余口井軌跡數據計算;實施井完鉆維護、鉆井數據匯交、遷移入主庫和數據共享4個流程,實現全流程管控。治理成果支持了數據井史等應用軟件研發。
3" " " 結" " 語
(1)基于數據治理框架開展油田級數據治理取得了良好效果,經實踐驗證以數據架構、數據質量管理為切入點,開展運維體系建設、質量體系建設,對數據管理水平提升具有顯著的促進作用。
(2)開展數據治理需要技術、管理并舉,完成技術升級后,強化管理規范、考核機制的保障作用,對治理效果影響深遠。
(3)開展具體數據治理項目需全面分析根因,多角度實施治理方能實現“標本兼治”。
主要參考文獻
[1]張明英,潘蓉.《數據治理白皮書》國際標準研究報告要點解讀[J].信息技術與標準化,2015(6):54-57.
[2]李鳴,郝守勤,何震. 數據治理國際標準研究[J].信息技術與標準化,2017(z1):48-52.
[3]華為公司數據管理部.華為數據之道[M].北京:機械工業出版社,2020.
[4]劉順春.“共享中國石油”中的數據治理體系研究[J].北京石油管理干部學院學報,2019(6):21-29.
[5]張莉,從慶平,王海國.智能油田的數據治理工程及其應用分析[J].中國管理信息化,2020,23(6):75-76.
[作者簡介]王穎 ( 1982—" ") ,女,高級工程師,主要研究方向:油田開發數據管理與應用。