






[摘 要]頁巖氣周報集中體現了頁巖氣產能建設工作的當前情況,包含11個表格,覆蓋頁巖氣規劃部署、地面建設、鉆井壓裂各方面的匯總報告。報告具有數據類型多、來源多、統計數據多的特點,導致現有數據源無法直接支撐數據分析和自動生成周報。文章研究圍繞周報的數據需求進行數據處理、數據挖掘,并繪制數據地圖,用于支持周報數據可視化分析和自動生成周報。并且可以從數據關系上發現數據質量問題,深入挖掘數據間隱含的關系和規律。
[關鍵詞]頁巖氣周報;數據結構設計;數據分析;商業智能
doi:10.3969/j.issn.1673-0194.2023.05.045
[中圖分類號]F272.7;TP315 [文獻標識碼]A [文章編號]1673-0194(2023)05-0168-07
0" " "引 言
頁巖氣產能建設周報是一個復合型的報表,對周報數據進行可視化分析具有類型多、來源多、統計多的特點。如果直接利用周報數據作為數據源進行分析,將需要進行很復雜的視圖設計和編輯。同時,報告具有更新頻率快、業務規則靈活的特點,對系統自動生成報告有迫切的需求。
本文以E-R圖作為工具,梳理應用環境的業務流程,以及在該業務流程中所涉及的各個客觀對象之間發生的關系,繪制可視化分析的數據表結構,并為周報自動生成奠定基礎。
1" " "需求分析
頁巖氣產能建設周報包含井位落實情況、鉆前工程實施進展情況、年度鉆井進展情況、正鉆平臺及動用鉆機情況、鉆機搬安平臺情況、年度壓裂進展情況、本周壓裂井施工進度情況、排采井情況、試油完成情況、建產井投產情況、現場試驗進展等11張表。每張表都復合了單位、年份、區塊等多個維度的信息,無法直接按照表單進行數據庫設計。例如,鉆前工程實施進展情況如表1所示。
1.1" "周報結構分析
首先對周報的統計數據進行逐一分析,找出數據和表之間明顯的統計、依賴關系。
統計數據包括:批復平臺數、批復井數、當年計劃完成平臺數、當年已完成平臺數、正鉆平臺數、新開鉆平臺數、正鉆井數、新開鉆井數、年完鉆井數、年完成進尺、動用鉆機數、搬安平臺數、完成壓裂平臺數、完成壓裂井數、完成壓裂段數、正壓裂平臺數、正壓裂井數、年試油完成井數、測試產量、新投產井數、日產氣、當年累計產氣、歷年累計產氣等。
具備依賴關系的表單有:年度鉆井進展情況和正鉆平臺及動用鉆機情況、年度壓裂進展情況和本周壓裂井施工進度情況。
1.2" "利用E-R工具進行數據設計與優化
1.2.1" "E-R圖
E-R圖也稱實體—聯系圖(Entity Relationship Diagram),ER模型由美籍華裔計算機科學家Peter Chen(陳品山)于1976年發明,是概念數據模型高層描述所使用的數據模型或模式圖,它為表述這種實體聯系模式圖形式的數據模型提供了圖形符號。這種數據模型典型用在信息系統設計的第一階段,比如它們在需求分析階段用來描述信息需求和/或要存儲在數據庫中的信息的類型。但是數據建模技術可以用來描述特定論域(即感興趣的區域)的任何本體(就是對使用的術語及其聯系的概述和分類)。基于數據庫信息系統設計的情況下,在后面的階段(通常叫作邏輯設計),概念模型要映射到邏輯模型如關系模型上;它依次要在物理設計期間映射到物理模型上。注意,有時這兩個階段被一起稱為“物理設計”。[1]
1.2.2" "繪制基礎E-R圖
根據以上語義繪制出基本的E-R圖,如圖1所示。這里獲得了16個簡單的E-R關系。可以看出因為周報本身經過業務專家的設計,它自身的邏輯和流程都非常清晰簡單。從業務的角度還可以看出很多統計值可以直接計算,而不是填報。
1.2.3" "優化E-R圖
逐一分析需求,將復合的實體進行拆分。
(1)井位落實情況表需要分別統計已經批復的平臺數和已經批復的井數,故批復實體具備批復平臺號、批復井號兩個屬性。
(2)根據年度鉆井進展情況、鉆機搬安平臺情況、年度壓裂進展情況、本周壓裂井施工進度情況、排采井情況、試油完成情況、建產井投產情況分析,需要圍繞井統計以下信息:正鉆井數、年完成進尺、年完鉆井數、動用鉆機數、鉆機搬安情況。故以井為實體,配置開鉆時間、新開、正鉆、完鉆、年份、投產井六個屬性。以鉆機為實體,配置鉆井進尺、搬安始發地、搬安目的地三個屬性。
(3)根據年度壓裂進展情況、本周壓裂井施工進度情況、排采井情況、試油完成情況,以壓裂、試油、產量為實體,配置正在壓裂、完成壓裂、壓裂段數、設計壓裂段數、試油中、試油完成、單井產量、測試產量八個屬性。
本輪分析后,形成的實體—屬性對應關系如表2所示。
(4)結合業務實際情況,將平臺與井的1對n關系,公司與井的1對n關系,鉆機與井的1對1關系,井與壓裂的1對n關系用連線標識,將它們的屬性用橢圓標識,繪制頁巖氣周報數據E-R圖(如圖2所示)。
2" "商業智能BI工具實現
2.1" "整理數據
根據頁巖氣數據模型對周報的數據進行整理和清洗,以井號為主鍵,將鉆井情況、壓裂井施工參數、投產井情況對齊,并通過管理關系將三張表聯系起來。至此數據整理和準備工作完成,參見圖3。
2.2" "通過BI工具進行分析的實現效果
(1)將壓裂持續天數與壓裂水平段長、壓裂用液量進行關聯分析(圖4)。可以看出:①長寧、昭通壓裂時間集中在30~60天,壓裂長度集中在1~5 km;威遠壓裂時間集中在20天,壓裂長度在5~10 km區間有峰值;②壓裂水平段長與壓裂液用量只有長寧的曲線較為離散,但最終曲線都回歸到1 000∶4 000的比例。結合長寧的開鉆時間早于威遠、昭通,可以認識到,長寧的壓裂施工經驗指導了威遠和昭通的壓裂施工。
(2)將壓裂持續天數與累產氣、日產氣進行關聯分析(圖5)。三個區塊產量的峰值都集中在壓裂20~40天的區間。將井口壓力與累產氣、日產氣進行關聯分析(圖6)。三個區塊的產量峰值都在水平段長1400~1600區間。將水平段長與累產氣、日產氣進行關聯分析(圖7)。改造段數在20左右的時候,出現產量峰值(圖8)。以上可以認識到,在頁巖氣領域,影響產量的因素更多在于壓裂改造的效果(水平段長、改造段數);而壓裂時間、井口壓力,對產量的提升并不明顯。
3" " "從周圍系統中找尋數據源并進行匹配映射
公司在建的系統中,X5系統具備場站信息,X2系統具備產量信息,工程技術監督系統具備井工程動態相關信息。
(1)根據業務實際,將產能建設周報涉及的場站均定義為氣井。X5系統中氣井的數據見表3。故可以從X5系統獲取井號、井場分類、氣井分類、所屬增壓站名稱、所屬集氣站名稱、所屬井場名稱、投產日期、井所屬區塊等信息。
(2)X2系統中的數據情況見表4。可以從X2系統獲取到單井日產量、周產量等數據。在實際應用中,可以考慮累加日產量來獲取周、年產量,或者直接引用X2系統數據。
(3)工程技術監督系統數據情況見表5。可以獲取開鉆時間、鉆機進尺、鉆機編號、壓裂段數、壓裂狀態、試油狀態等數據。
(4)地面建設平臺可以提供工程周報,其中能夠提取到平臺開工時間等鉆前地面建設信息。實體“試油”與實體“井”是1對1關系,故合并優化。
(5)繪制數據地圖。根據以上數據來源分析,在圖中將X5系統數據源標識為橢圓形、X2系統標識為三角形、工程技術監督系統標識為矩形、需要補充分析的標識為六邊形(圖9)。
4" " "結 論
通過E-R工具對業務需求進行分析優化,能夠很好地體現應用環境下的業務流程,以及在該業務流程中所涉及的各個客觀對象之間發生的關系,能夠更好地支持后續的數據分析工作,是很好的數據整理方法。
通過可視化應用商業智能(Business Intelligence, BI),能夠將存在于數據間的隱含關系直觀地反映出來。目前初步分析得到的結論與實際頁巖氣工程實踐基本吻合。
通過對數據源進行鏈接,擴展數據源后,能夠從時間維度更有效地輔助決策。
主要參考文獻
[1]陶宏才.數據庫原理及設計[M].3版.北京:清華大學出版社,2014.