翁瑜卿
(中海油能源發展裝備技術有限公司 天津 300452)
目前數據作為生產要素,已經獲得官方的認可,國家在政策層面大力推動數字化產業的發展,明確要求政企加快數字化轉型、數據治理等工作。國務院頒布《關于加快推進國有企業數字化轉型工作的通知》中,要求國企加快集團數據治理體系建設,明確數據治理歸口管理部門,加強數據標準化、元數據和主數據管理工作,定期評估數據治理能力成熟度等。對于油氣能源企業而言,擁有龐大的數據體量,數據分類的復雜度高,數據的專業性強,亟須通過數據治理,建立覆蓋面廣的數據標準、數據規則,提高數據質量,實現數據對象全生命周期管理。
關于數據治理有多種定義,在中國通信標準化協會發布的《數據治理標準化白皮書》[1]中,將數據治理定義為通過法律法規、管理制度、標準規范、技術工具等一系列手段,面向個人數據、企業數據、政府數據、公共數據等不同類型數據對象全生命周期開展有效的管控,以滿足企業管理、行業監管、國家治理、國際協作等場景下數據應用的要求[2]。
《“十四五”大數據產業發展規劃》[3]要求圍繞數據全生命周期,提高數據質量,打造分類科學、分級準 確、管理有序的數據治理體系。并設置數據治理能力提升行動,引導企業貫標、鼓勵標準研究、加快重點標準研制、加速國際標準化進程。
目前油氣能源公司大部分已經開展數據治理工作,在數據治理實施過程中,普遍遇到的幾大問題:
(1)數據標準不統一
由于分屬于不同的集團公司,國內各油氣田當前階段其生產運行過程中所配套應用的各類數據管理與軟件系統也多種多樣,由于不同的數據與軟件系統其針對數據的管理遵循不同的標準,因此,數據呈現海量且雜亂的現象就成了國內各油氣田目前階段數據的一大顯著特點,在生產中也出現了不同油氣田之間開展相關業務時出現了數據標準不統一、不匹配的問題,不得不再通過相關的軟件及數據處理系統進行數據的轉移與轉換,給企業數據安全及數據利用效率都產生了諸多不利影響[4-5]。
(2)數據源頭界定不清
油氣能源行業專業性較強,涉及勘探、油藏、工程、建造、交付、運營等,在現有的環境下,每個環節都有自己的全生命周期管理系統,而各個系統極大概率會采集同源數據,該數據分布在各部門的數據系統中,這些復雜重復的數據,給數據清洗帶了非常大的難度,導致許多數據治理系統中定義的數據源頭界定不清。
(3)數據采集效率低
數據采集依賴于采集工具或采集系統,采集工具或采集系統的效率大大制約數據時效性,以及數據維護團隊人力資源的投入。由于油氣能源行業的特殊性,許多數據源頭采集現場,受到網絡硬件資源,采集工具或采集系統的限制,許多數據源頭采集仍然由線下暫存,后續補錄的方式。這樣勢必造成數據時效性低,數據出錯率高,數據采集人力資源投入量巨大的問題。
(4)數據治理人才匱乏
數據治理的實施,針對油氣能源行業而言,數據治理團隊不僅需要掌握數據采集工具、數據采集系統的了解,更加需要對涉及業務領域的專業數據擁有深入的理解。目前許多能源公司,通過委托外部數據公司的數據治理團隊,對公司各部門進行數據治理實施,但是介于能源行業的特殊性,許多數據是跨部門或者重疊產生,或者有專業關聯關系的存在,僅依靠通用數據治理人才,數據治理的實施將是事半功倍,拉長完成數據治理的周期。目前的情況而言,亟須具備通用數據治理知識及業務領域知識的復合型人才。
(1)數據的“隔離性”,數據均來自獨立物理隔離的信息系統或者是專業系統,各自都成了數據孤島。
(2)數據“多模態”,油氣系統數據來源多樣,結構復雜。除生產過程中儀表所采集的溫度、壓力、流量等時序數據之外,還包括地質數據、勘探數據、專業井控數據等。
(3)數據的“關聯性”。油氣系統復雜,內部系統多,導致系統關聯度高,生產狀態數據互相影響,或者因果關系,導致一處系統的數據采集錯誤,勢必導致關聯系統出現問題,因此,內部系統數據關聯度極強。
(4)數據的“高通量”。實時設備檢測傳感器眾多所采集的時序數據具有內部設備多、測點多、頻率高、吞吐量大、連續不間斷的特點。數據帶來巨大的存儲成本,還存在銜接不連貫、標準不統一、數據不對稱、無效數據等質量問題,無法為數據分析提供有效接口,如何提升數據價值密度、提高數據挖掘效率是現階段亟待解決的問題[6]。
(5)數據的“重復性”。油氣項目涉及多部門銜接執行項目,因此在數據移交時,對數據質量的要求非常高,必須經過審核或者第三方審核過的數據,才能夠進入下一個流程環節,然而各個部門在對數據采集方面,又存在重疊的工作,移交后的數據,無法在接收部門進行很好的管理,導致接收部門在自主系統中,仍然對重復的數據進行采集。
根據對目前某油氣能源行業公司開展數據治理實施的研究,該公司由集團設立數據治理總部,各子分公司建立數據治理分部。首先由數據治理總部建立統一的標準及規范。
2.2.1 數據治理標準及規范制定
(1)數據標準制定,數據治理總部對現有整個油氣項目業務進行頂層分析及設計,明確業務部門劃分。由各部門分別成立數據治理部門團隊,各部門分別對各部門原有的元數據,主數據,及業務數據進行第一次清洗,并匯總,匯總至數據治理總部,由總部數據治理團隊及各部門專業人員一同,對匯總數據進行第二次清洗,重復數據剔除,跨部門數據疑問澄清等。完成元數據,主數據,及業務數據標準的編制,標準成果通過總部審核。
(2)數據采集規范,首先,從業務規范角度,以數據標準為基礎,由部門對數據標準與采集數據進行映射,確定源頭采集數據與數據標準的數據邏輯含義一致,確保采集單位,采集內容,采集時間等信息的完整。其次,管理規范流程中,確定源頭采集數據對應的業務人員及劃分,落實數據采集崗位人員,審核崗人員等。再者,由于業務數據的產生存在時序關系,在采集規范中確定業務流程中各采集步驟的時效性,并且采集崗人員需使用采集工具對采集數據進行核驗后,再進行系統上傳。各自部門根據自有業務流程,制定各自部門的采集規范后,交由數據治理總部進行匯總(見圖1)。

圖1 數據采集規范結構圖
(3)數據質量標準,對采集數據實施多級數據審核,確保上線數據的規范性及準確性。在數據用于決策時,保證數據的時效性。在數據綜合分析應用時,保證數據的完整性。在數據邏輯關系中,保證數據的一致性。因此數據質量不僅要保證數據的準確性,也要保證數據的規范性、完整性、時效性、一致性,才能構成一條高質量的數據(見圖2)。

圖2 數據質量屬性圖
其次,在數據治理標準及規范的基礎上,確定數據治理工作范圍及目標。
2.2.2 數據治理工作范圍及目標
(1)管理制度的制定:明確企業中各部門崗位職責的劃分,治理制度和流程制定,由數據治理總部決策,建立數據責任制及考核機制,增加數據采集崗位人員的積極性。
(2)數據治理范圍:明確企業數據治理的對象,數據治理的范圍,數據治理的數據深度。
(3)數據治理技術路線:明確企業數據治理技術路線,優先考慮我國擁有自主知識產權的技術產品,避免西方的卡脖子問題。打通各個系統間的隔閡,實現有效高速的數據共享通道,建立數據治理主系統。
(4)數據治理成熟度評估:需定期對企業的數據治理效果進行評估,根據GB / T 34960.5—2018《信息技術服務治理第5部分:數據治理規范》[7]中,為了促進組織有效、高效、合理地利用數據,有必要在數據獲取、存儲、整合、分析、應用、呈現、歸檔和銷毀過程中,提出數據治理的相關 規范,規定了數據治理的頂層設計、數據治理環境、數據治理域及數據治理過程的要求,從而實現運營合規、風險可控和價值實現的目標。
GB / T 36073—2018《數據管理能力成熟度評估模型》[8]適用于組織和機構對內部數據管理能力成熟度 進行評估,給出了數據管理的8個能力域、能力成熟度評估模型以及成熟度等級,該標準取得了廣泛的關注 和認可,為企業的數據管理能力提升提供了重要路徑和關鍵手段。構建工業大數據管理能力評估體系,提升企業的數據管理能力,驗證數據治理效果[9]。
(5)數據治理目標:按照企業數據標準和采集規范,實現各分公司,各部門內的數據達到數據治理的效果,確保主系統中的數據擁有五大屬性(見圖2)。數據治理后的數據有效地幫助企業實現真正的大數據分析及大數據應用,實現數據的全生命周期管理,為企業帶來真正的經濟價值。
最后,在完成數據治理標準及規范制定、落實數據治理工作范圍、確定工作目標后,需對信息系統進行相應的改造,以及原有歷史數據清洗遷移。
2.2.3 信息系統改造及數據清洗遷移
(1)系統應用性改造,根據數據標準及數據采集規范,對各部門已有業務系統進行分析改造,將數據標準與現有系統數據庫數據屬性進行對應,排查疑問數據,由專業工程師或跨部門工程師與數據治理團隊進行界定,確保疑問數據通過各部門的審核,對數據庫數據屬性進行修正,完成新的數據模型搭建。業務系統改造完成后,將系統數據共享至數據治理主系統對應數據庫中,數據治理主系統實現對各業務系統的信息抽取。
(2)歷史數據清洗遷移,由于油氣行業數據產生周期較長,歷史數據跨越的年份較久,歷史數據分為非系統歷史數據,系統歷史數據。對于非系統歷史數據,需要人為進行梳理,錄入到數據治理主系統。系統歷史數據,分析歷史數據是否符合改造后系統,若符合系統要求,則僅需對數據進行核對,無需再次采集。若不符合系統要求,則需對歷史數據進行線下數據復核及采集。
本文研究了目前油氣能源行業實施數據治理的案例,案例以管理制度、數據標準、采集規范為基礎,對各業務系統進行標準化的改造,實現各業務系統數據的標準化,使得該企業提高了業務數據的質量,也為數據后續實現全生命周期管理打下了堅實的基礎。該案例對于解決數據治理目前普遍遇到的問題,也有非常大的借鑒作用。
隨著未來越來越多新的技術及解決方案的引入,油氣能源行業的數據能夠發揮更多的數據價值,產生更多的經濟效益。