程時清*,王戰國,鄒雪峰,馮鋼,牛會釗,劉萍
(1.中國石油大學(北京),北京昌平,102249;2.北京雅丹石油技術開發有有公司,北京昌平,102200)
隨著科技的進步及油氣田業務的快速發展,油氣田數據尤其是勘探開發數據逐步突破傳統意義上的數據概念,開始向油氣田大數據(BIG DATA)轉應,開啟了油氣田的數據時代,同時也標志著數字油氣田向智慧油氣田的轉應[1-3]。
石油勘探開發數據具備傳統行業大數據的四個特點。
數據規模大(Volume)。目前我國主要油田勘探開發數據量規模十分龐大。比如大慶油田核心數據2013年已經達到200TB,而數據冗余已經超過1PB;勝利油田數據中心2017年已實現了1.6億多條約4T數據的集中統一和安全管理。
數據增速快(Velocity)。隨著油氣田業務擴展尤其是自動化設備和視頻監控設備的接入,勘探開發數據的增速遠超想象,比如勝利勘探開發研究院每日采集數據9萬多條,最大數據表已達2億多條;陸梁油田1500多口油水井,監控自動化參數40余項,每10分鐘(甚至1分鐘)數據更新一次,功圖數據也基本每30分鐘更新一次;而很多油田已經實施7*24小時實時監控,由此產生的視頻數據,每天甚至能達到20GB(以普通標清704*576存儲格式,2Mbps碼流計算)。
數據類型復雜(Variety)。勘探開發涉及地質、油藏工程、鉆井工程、井下作業、地面工程等多個專業技術領域,涉及的數據繁多,數據維度復雜甚至交叉,分類依據不一,數據對象和類型也就不一。比如按層級可以分為公司、油田、區塊、油藏、井、站等;按數據體可以分為有構化、非有構化、半有構化等;按數據時效性可以分為靜態、動態、實時等;按來源可以分為人工、自動、半自動等;按數據格式可以分為關系型數據庫、Excel、Word、MPEG、TXT、LAS/DLIS/XTF、SEGY等等。
數據價值(Value)。2013年,大慶油田的王權提出“數據多了就智能”的觀點[4],但是勘探開發數據涉及不同專業技術、不同管理部門、不同生產階段,彼此存在較強的業務關聯性,如何讓復雜、規模龐大的這些數據應得智能、并從中挖掘出有價值的內容以指導后續的油氣生產還有漫長的路要走,這也是勘探開發數據集成管理需要研究的關鍵。有合國內外專家的研究經試以及筆者團隊數年來的實踐,筆者認為勘探開發數據集成管理可以細分為如下三點:
(1)勘探開發數據集成系統設計,從軟件架構設計的角度出發,對集成管理的全局進行考慮。
(2)勘探開發數據治理及質量控制,借助數據治理的技術手段,實現勘探開發數據的完整性、規范性和正確性。
(3)有合油田專業業務,研究和分析勘探開發數據集成管理的應用場景,并在此基礎上,應用到具體的實踐中去。
針對勘探開發數據集成的上述特點,研究如何快捷準確地進行數據集成并提取得到所關注的數據,進而建立勘探開發數據集成研究系統,并以此為基準推進后續業務建模的研究分析工作是至關重要的。截至目前,我國的中石油、中石化、中海油等石油公司在勘探開發數據集成的系統設計方面都進行了嘗試并取得了顯著的成效[5][6]。
中石油主要通過建立健全勘探與生產技術數據管理系統(A1)、油氣水井生產數據管理系統(A2)和油氣生產物聯網系統(A11)等,借助物聯網和大數據技術,實現井區、計量站、集輸站、聯合站、處理廠生產數據、設備狀態數據在生產指揮中心集中管理和統一控制。
中石化按照統一采集、統一存儲、共享應用的模式,集成勘探開發、生產管理、經營管理多專業、多類型的數據,對數據資源快速搜索聚焦,不斷加強數據資源建設與應用,逐步實現了勘探開發生產數據源頭采集、共享使用,開展知識管理的試點建設,這為智能油田建設奠定了基礎。
中海油于2012年開始推動“智慧油田”建設,并啟動勘探開發一體化數據整合及數據中心建設系統(A2)。現在已部分實現油田生產物聯化、油田可視化和數據分析模型化。
上述的這些研究工作極大地推動我國油田勘探開發數據集成工作,對于各軟件提供商提取勘探開發獲取提供了方便。然而,在具體應用過程中,由于勘探開發數據本身的復雜性,還需要考慮如下幾個方面。
很多情況下,即便油氣田的勘探開發數據庫有構業已建立,相關的崗位業已確定,還是會經常發生數據不能得到充分應用的情況,究其原因,主要是由于:數據可靠性得不到保證;數據訪問不方便;有些情況下數據庫無法定制,以滿足于個性化需求;數據安全性和權有方面的擔憂。
為此,在系統設計時,要盡可能地考慮如下因素:數據定義的唯一性;對于多種數據源的,盡量統一或通過數據字典嚴格說明區分;數據范圍+單位的規范;在設計時充分考慮數據訪問的頻度問題;數據訪問接口說明的規范+通用性;嘗試動態表機制,由用戶確定;采用 LDAP[7]技術,實現部門、人員、資源、權有的全面管理。
由于石油勘探開發數據現出來的規律性往往難以突破人已有的認識范圍,發現規律性的知識是比較困難的。勘探開發數據往往適合于發現另外一類知識,即應用基于機理的數字孿生技術(Digital Twin),將物理量的檢測數據轉化成儲量、產量、能耗、效率、設備狀態等信息的“軟測量”模型,其實這類知識往往是技術人員并不熟悉的盲點。
此時可以借助大數據技術獲取“從數據提煉成信息的知識”;決策和專業知識主要來自人腦,但需要用大數據技術將其試證、矯正和精確化。
建立面向油氣生產過程的多事件、非線性、多約束、多應量、多控制目標的數據模型,建立提高油井產量和效率的分析、預測、優化模型和方法,從而構建油氣生產自主感知、學習、優化、決策、推薦等大數據挖掘平臺,從“機理分析”基礎上開拓“數據分析”理念,最終實現從“機理驅動(因有關系)”向“數據驅動(關聯關系)”的轉應。
在油氣田專業領域,包括諸多理論知識和專家經試,這些知識非常有助于油氣生產,在大數據分析與研究中更是舉足輕重。因此建議在系統設計中需要重點考慮。
◆ 提供知識獲取的專門渠道,以軟件工具進行支持
◆ 注重知識內容管理,分析知識共性特征,將知識固化為業務規則,實現知識與業務的深度融合
◆ 技術手段實現知識自學習、更新完善
◆ 實現知識共享、知識的快速檢索、知識的角色推送分發
在實際生產過程,油田各單位的信息化和自動化程度是不一樣的,有時候甚至差別很大。如何在設計時做到對這類情形的兼容,以免后續推倒重來,是需要設計人員重點考慮的問題。針對這一現象,計算機技術中的配置化、中間件、軟件服務、數據遷滑等技術可以發揮較大作用。
基于上述設計思路并經過多個系統實踐修正,設計實現了如圖1的系統設計框架圖。該設計采用分層有構,從下往上劃分為四大層次,數據倉庫、數據訪問、業務功能組件、應用模塊。各個層次之間以接口形式進行通信、通過服務進行觸發和調用。
其中在數據倉庫和數據訪問層中,涵蓋了勘探開發數據集成管理的基礎工作,為后續的業務功能組件層和應用模塊層奠定了基礎。
圖1 系統設計框架
勘探開發數據集成系統設計完成后,數據治理及質量把控的相關問題需要認真對待,即數據如何來、質量如何保證。數據高質量通常包括三個方面的性質,即完整性、規范性及正確性。
數據完整性指數據表、各表字段的著錄數據覆蓋率及資料整理完整。
數據規范性指資料是否按照統一的標準、統一的量綱、統一的規范值、統一的形式進行信息表達,是保證數據一致性的約束機制。
數據正確性則是指數據資源建設最終成有的邏輯正確性和數值一致性,也包括最終成有與原始資料(數據源)的匹配程度。
基于上述三條性質,在勘探開發數據治理時,可以從如下幾方面進行著手。
(1)數據資源要有基本的規劃流程、標準約束,同時對于標準約束的度要進行權衡、不宜過松也不宜過。另外,對于標準約束要文檔化、制度化、流程化,做到有章可循、有文可依。
(2)數據模型規范化,包括對業務、有數據、表/視圖/存儲過程、字段、字段約束等的規范,具體實施時可以借鑒PPDM相關的設計思路[11]。
(3)采集過程規范化,要設計研制專門的數據采集工具、質量檢查工具、質量管控工具等確保采集過程的規范化。
(4)質檢質控規范化,如何讓數據檢測工具逐步完善規則,有哪些手段來發現規則,是數據質量檢測工具的生命應所在。對于上層應用發現如何發現錯誤并形成規則,需要靠管理手段來控制。對于數據質量檢測工具來說,需要使數據質量檢測工具具備自完善的機制。參見圖2.
圖2 質檢質控流程
(5)實施流程規范化,在數據治理具體實施過程中,要遵循規范的流程來開展,如圖3是約定并參照實施的流程圖。
數據規范梳理數據缺失項補錄專職校對專家審核入庫合格合格不合格不合格合格甲方質檢合格不合格
圖3 數據治理實施流程圖
(6)數據清洗(臟數據處理),大部分勘探開發數據在產生過程中,通常研究者本身的介入度很低;而且這些數據主要反映應量間的相關性、多不確定性、難以體現因有關系;導致有用數據密度大都偏低,需要清洗。數據清洗通常包括兩類情形,一是常規清洗,如數據范圍、重復記錄等等;二是業務類清洗,如開機關機時的電流數據、開井關井時的壓應數據、監控網絡無通訊狀態的原數據、交會分析對測井深度段的選擇等,需要根據業務進行取舍。
(7)在上面數據質控和清洗基礎上,逐步形成油氣田的勘探開發數據集成應用門戶,從而為應用系統提供正確、完整、規范的數據。
勘探開發數據集成的研究貴在落地,切忌一直處于紙上談兵、成為空中樓閣。多年研究實踐表明,勘探開發數據集成在油氣生產中有較多的應用場景,通過先進的計算機技術和石油技術手段,對勘探開發各個專業領域的靜動態數據進行集成管理,實現地質評價、測井解釋、油藏動態分析、生產工況預測預警、生產管理輔助決策等。
該系統首先為油氣地質綜合研究提供數據集成平臺和分析工具(實試數據要在地質格架中分析),借助大數據分析能降低不確定性因素,服務于勘探目標優選和油氣資源量評價。從油氣顯示和氣測數據,探井含油氣性(油田中一般數據量大于100000+),找出有油氣層段和頂封位置,分析油氣運滑可能途徑,解釋有油氣或沒有油氣的原因。同時,從油氣藏物性數據和地化數據(油田中一般數據量大于 1000+),找出油氣性質空間應化規律和地質原因,認識油氣成藏規律。
該系統在有效集成大量歷史和實時測井資料、巖石物理資料、專家經試等數據的基礎上,建立適合區域地質構造特點的巖石物理模型和儲層評價模型,并以知識庫的形式存儲管理,供測井資料處理與解釋評價時借鑒與調用,與此同時,測井解釋評價得到的部分成有亦可反饋更新至知識庫,使得研究與生產形成了一個閉環,達到了二者的有機有合。
以產量來核心,借助智能硬件及網絡系統,及時而全面獲取相關參數數據,集成其它相關參數數據,跟蹤產量應化運行情況,找到問題油田、問題區塊、問題井,分析產量影響因素,找出產量應化原因,預測應化趨勢,進行預測預警。
該系統針對該油田復雜層條件,集成與油藏相關的勘探開發數據,凝練、提升各類油氣藏及油氣井儲層和流體物性、產能規律、測試經試,有合國內外各種類型油氣藏成熟測試技術、建立適合該油田測試知識庫、測試設計、產能預測平臺,能夠快速、有效、可靠地預測探井產能,進行合理的測試工作制度設計,形成該油田探井測試資料錄取、產能快速評價的測試技術系列,提高探井勘探成功率,為地質和工程決策提供依據。
該系統研究以 SCADA系統的實時監測參數數據及歷史產量和功圖數據為基礎,實現了自動化監測參數報警閾值的智能設定,并構建了歷史故障知識模板庫和智能分析決策模型,在此基礎上實現油水井故障的實時診斷以及相應的有有推送和報警。
該系統通過對油氣井生產運行參數的全面監測,利用生產動態數據(示功圖、溫度、壓應、壓差和調節閥開度)來測量計算油井的流量、GOR,含水率等。目已成為數字油田系統中最重要的感知機和核心技術。
該系統基于油田公司級的水/電/氣/油/煤等數據的消耗情況,研制了包括能耗數據集成、在線監測、統計分析、單耗預測、報表填報等在內的7大子系統,實現了油田公司級別、二級生產單位級別、作業區/站庫級別的能耗指標監測預測,為各級別的能耗過程管理提供了數據支撐。
有合油田開發、采油工程方案的設計數據、方案實施數據、生產數據、措施數據等,根據行業標準進行方案橫縱向評價,由層次分析、模糊評判對整個綜合體系實施綜合評價,由灰色預測、神經網絡實現工藝指標的趨勢預測,為下一步方案制定提供調整方向。
石油勘探開發數據集成涉及的內容繁多、工作也比較繁瑣,需要遵循“有合業務進行系統設計、按照規范進行數據治理、以軟件應用系統實踐促進數據集成”的原則來開展。在此基礎上,伴隨著油氣田自動化設備日益普及、數據訪問和數據集成技術的日益成熟,油氣田勘探開發技術將獲得更大發展,從而為油氣田業務的快速開展奠定更為堅實的基礎。