孟雅蕾 賀姍 關曉琳
摘要:氣井產量評價預測對氣田高效開發具有重要意義。由于不同氣井儲層物性及生產特征存在較大差異,因此開發策略急需改善。針對這一問題,文章提出了一種基于機器學習的氣井產量預測方法。首先,通過對特征參數進行皮爾遜相關分析,篩選出用于氣井產量預測的12種儲層特征。然后,采用改進的ID3算法建立基學習器,并采用隨機森林算法對基學習器進行優化組合。其次,利用訓練集數據完成模型訓練并調整參數。最后,對相關區塊的儲層進行氣井產量預測。研究結果表明,文章提出的氣井產量預測方法預測結果良好,準確率為95.3%。該預測方法提高了氣井產量預測的實效性,降低了人為判斷的主觀性,對氣田產量預測和開發策略的制訂具有一定的指導意義。
關鍵詞:氣井產量;儲層特征;隨機森林;決策樹;ID3
中圖分類號:TP391? ? 文獻標識碼:A
文章編號:1009-3044(2024)09-0119-03
開放科學(資源服務)標識碼(OSID)
全球非常規油氣資源量占油氣總儲量的 80%,非常規天然氣資源的勘探、開發、投產在我國能源安全中發揮著重要作用[1-2]。中國非常規天然氣資源儲量大,但儲層物性差、單井產量低,且天然氣儲層非均質性強,同一區域內氣井生產特征和生產效果參差不齊[3-4]。因此,對氣井進行合理、精準、高效的分類預測,有利于制訂合理開發措施,降低勘探開發成本,提高氣田收益。
本文通過特征參數的皮爾遜相關分析,篩選出用于氣井產量預測的12種儲層特征;然后,采用改進的ID3算法建立基學習器,并采用隨機森林算法對基學習器進行組合;其次,采用訓練集數據完成模型訓練并調整參數;最后,對相關區塊進行氣井產量預測。
研究結果表明,本文提出的氣井產量預測方法預測結果良好,準確率為95.3%。該研究提高了氣井產量預測的實效性,降低了人為判斷的主觀性,對氣田產量預測和開發策略的制訂具有一定的指導意義。
1 儲層相關因素分析
1.1 儲層特征
儲層的特征包括了儲層的物性、巖性、含油性、含氣性等方面的特征,這也是儲層預測的主要方向。儲層巖性是描述儲層礦物質組成成分的主要特征,反映了巖層的儲藏性能和儲層特征,常用參數包括儲層巖石物理結構、分布范圍、儲層厚度等。儲層物性是描述儲層的物理性質,廣義上包括了儲集層巖石的骨架性質、孔隙性、滲透性、含流體性、熱學性質、導電性、聲學性質、放射性及各種敏感性等;狹義的一般指儲層巖石的孔隙率和滲透率,既物性參數性質、物性空間展布等。
儲層含油氣性主要指儲層內的流體性質、流體類型等特性。對儲層含油氣性評價,可以利用測井等資料對地找出滲透層,然后對含油性進行評價預測,識別儲層的油層、氣層、水層、干層等不同層位,就可以對油氣富集區域即進行預測,為油氣鉆探指明位置,為開采方案的制定提供參考依據[5-7]。
1.2 影響因素
本文將氣井產量影響因素分為地質、工程、排液因素幾個方面[8-9]:
1) 地質因素是儲層的固有特征,包含有效厚度、電阻率、密度、泥質含量、泊松比、孔隙度、含氣飽和度、基質滲透率、射孔厚度等。
2) 工程因素指與氣井開采過程相關的各項參數,包含稠化酸、降阻酸、頂替液、含砂濃度、破裂壓力、停泵壓力、垂向壓力、砂比等。
3) 排液因素可以提升返排效能,達到穩定高效地排液。與排液相關的參數有關井油壓、關井套壓、累計排液量等。
1.3 數據處理
原始數據的數據量大且復雜程度高、數據缺失多,存在一定的異常值。可以進行儲層評價的數據類型為連續型,且評價因素要進行相關性分析。因此,在評價之前,需要對大量的儲層原始數據進行預處理。
1) 缺失值處理。對原始數據進行分析,數據缺失高達23.4%,因此采用多重插補法對缺失值進行插補:基于除缺失值外的變量建立線性模型,以此預測要填補的數據[10]。對插補后的數據進行分析,未出現明顯異常值,因此多重插補結果可信度較高,不影響后續氣井產量預測。
2) 異常值處理及相關性分析。對于簡單的異常數據(如數量級差距較大)易于分辨,而對于不明顯的異常,人工篩選效果較差。本文選用箱型法,可迅速判斷單個因素中的異常值,但對于多個因素相關性較強的情況而言,箱型法得出結論較片面[11]。在進行異常值判斷時,需找到不同因素彼此之間的關聯。對在異常值處理后,采用皮爾遜相關系數法對連續數據進行分析[12-13]。
1.4 特征篩選
本文用皮爾遜相關系數篩選出用于產量預測的12種儲層特征。皮爾遜相關系數r檢驗兩個變量之間的相關程度,其中r的取值[-1,1]。假設兩個儲層特征含氣飽和度和泥質含量分別用X和Y表示,Xi、Yi是隨機的樣本值,[X]和[Y]隨機樣本的平均值,則隨機變量X和Y的皮爾遜相關系數r的計算公式如式(1) 所示[14-15]:
[r=i=1n(Xi-X)(Yi-Y)i=1n(Xi-X)2i=1n(Yi-Y)2]? ? (1)
優質儲層是一個相對的概念,并沒有絕對評價指標,在不同的氣田和不同的儲層中,評價指標也是完全不同的。本文通過研究鄂爾多斯某區塊目的層12口井、58個顯示層的試氣數據,根據皮爾遜相關系數,篩選出的12個儲層特征因素相關性較小,但對該儲層具有較大影響的特征指標,這些儲層特征指標的皮爾遜相關系數如表1所示。
2 氣井產量預測算法
我國天然氣資源豐富,市場需求發展旺盛,創新勘探開發技術,實現氣井產量的智能化預測對增加氣田產能、降低開發成本和促進氣井管理精細化發展具有重要意義。近年來,國內外專家學者產出了大量氣井產能預測的方法。但是由于儲層因素復雜,每個氣田產量的主控因素都有較大差別,且很多參數是無法量化的,無法直接加入機器學習的預測模型中。氣井產量作為一個預測目標是一個有監督學習問題。在氣井產量預測中,本文選擇使用ID3決策樹和隨機森林這兩種機器學習器來進行訓練和預測。
2.1 ID3決策樹
傳統的ID3算法存在傾向選擇取值較多的屬性,因此本文使用改進的ID3算法。首先,基于均衡系數對ID3算法得到的信息增益進行優化;當某個條件屬性的取值個數非常接近總數時會導致增益率修正補償過度,引入屬性偏向閾Q避免屬性偏向問題;引入均衡系數的概念,平衡多值偏向對信息增益的影響和信息增益修正補償過度;每一次搜索都使用全部數據訓練樣本,在一定程度上降低了個別噪聲數據對構建決策樹的影響,改進的ID3算法如下:
[I=-i=1znpjlog2(pj)]? ? ? ? ? ?(2)
[EBj=j=1mpBjIBj=-j=1mZ1j+…+ZmjZi=1npijlog2(pij)]? ? (3)
[GBj=I-E(Bj)]? ? ? ? (4)
其中,[E(Bj)是條件熵]、[GBj]是信息增益[,I]為信息熵,[pij]是指訓練集[Zi]中第j類樣本的概率,[ pj]是指訓練集[Z]中的任意樣本數據元組屬于第j類的概率,[pj=ZjZ]。
[ G'Bj=fm1GBj]? ? ? ? ? (5)
其中,[G'Bj]是對屬性[Bj]的信息增益[GBj]進行修正得到修正信息增益,f(m1)為修正參數,其中m1表示各決策屬性的取值個數,[f(m1)=1m1]。
[Q=1m1j=1mE(Bj)]? ? ? ? ?(6)
屬性偏向閾Q通常取值為所有條件熵[E(Bj)]的平均值,m1表示條件屬性的個數。
[TBj=1m1GBj×1m1E(Bj)1m1GBj+1m1E(Bj)]? ? ? (7)
[GBjnew=GBj×TBj]? ?(8)
均衡系數[TBj]由修正信息增益[G'Bj]和屬性偏向閾Q得到;優化信息增益[GBjnew]利用均衡系數[TBj]對信息增益[GBj]進行優化。
重復公式(2) -公式(8) ,使用改進的ID3算法,利用優選好的儲層特征因素建立基學習器。
2.2 隨機森林算法
集成學習屬于機器學習中的一種思想,通過結合多個弱學習器進行聯合預測形成精度更高的模型。隨機森林是一種集成學習算法,隨機森林以決策樹為基本單元,通過集成大量的決策樹構成了隨機森林。由多個決策樹共同組成的隨機森林模型可以提高最終預測值的準確率和健壯性[16-17]。
隨機森林算法中的決策樹能夠對模型進行可視化展示,對結果的控制因素級數由決策樹的最上層往下層依次減弱[18]。當隨機森林模型用于預測問題時,輸出為所有決策樹輸出值的平均值:
[Q(X)=1Mi=1Mwihij(x)]? ? ?(9)
其中[hi(x)]為每一個子決策樹的輸出,[wi]為子決策樹的權重,[hij(x)]為[hi(x)]在基學習器上的輸出。在使用隨機森林進行基學習器組合時,首先在每個訓練集上采用隨機森林分類算法獨立地訓練出M個預測結果,最終采用投票的方式,投票多的決策樹最終進行決策。
[Q(X)=argmaxi=1Mwihi(x)]? ? (10)
3 實驗與分析
本文選取鄂爾多斯某區塊的12口單井的相關數據作為訓練集Y,將數據集按照8:2的比例分為訓練集和測試集,訓練集用于構建機器學習模型,測試集用于模型預測和參數調整[19-20]。實驗中對隨機森林模型進行調參,調參結果如表2所示:
實驗的運行環境為Intel Core-i7,內存16GB的PC機,操作系統是Windows10,編程語言是Python, 每個實驗獨立運行10次,使用訓練后的模型對20%的預測集進行預測,預測值與實際值的對比如圖1所示。
從預測值和實際值的對比可知,用隨機森林算法構建的機器學習模型在對測試數據做預測時,預測值與實際值出現偏差情況較少,預測值曲線變化趨勢與實際值曲線幾近重合,擬合效果良好,預測準確率分別達到了95.3%,本文提出的基于機器學習的氣井預測方法的準確率和穩定性較高。
4 總結
隨著鄂爾多斯盆地勘探的不斷深入,多變的地質條件、日趨復雜的儲層物性及油水關系,使得勘探開發工作變得更富有挑戰和難度。本文提出的基于機器學習的氣井產量預測方法預測結果良好,準確率高、穩定性高。該項研究可以提高氣井產量預測的實效性,降低人為判斷的主觀性,本研究具有良好的推廣應用前景,對氣田產量預測和開發策略的制訂具有一定的指導意義。
參考文獻:
[1] 劉豪.二氧化碳壓裂地面射流混砂裝置設計及其性能研究[D].西安:西安石油大學,2021.
[2] 付金華,牛小兵,李明瑞,等.鄂爾多斯盆地延長組7段3亞段頁巖油風險勘探突破與意義[J].石油學報,2022,43(6):760-769,787.
[3] 劉長春,楊永興,方鐵園,等.鄂爾多斯盆地頁巖油優質儲層評價方法[J].錄井工程,2023,34(3):49-54,62.
[4] 柳潔,田冷,劉士鑫,等.基于復合機器算法的致密氣井產能預測模型:以鄂爾多斯盆地SM區塊為例[J].大慶石油地質與開發. 2023(8):10-18.
[5] WANG H Y.What factors control shale-gas production and production-decline trend in fractured systems:a comprehensive analysis and investigation[J].SPE Journal,2017,22(2):562-581.
[6] JOSHI K G,AWOLEKE O O,MOHABBAT A.Uncertainty quantification of gas production in the barnett shale using time series analysis[C]//Day 5 Thu,April 26,2018.April 22-26,2018.Garden Grove,California,USA.SPE,2018.
[7] LOLON E,HAMIDIEH K,WEIJERS L,et al.SPE Hydraulic Fracturing Technology Conference - Evaluating the Relationship Between Well Parameters and Production Using Multivariate[C].Spe Hydraulic Fracturing Technology Conference,2016.
[8] 聶云麗,高國忠.基于隨機森林的頁巖氣 “甜點” 分類方法[J].油氣藏評價與開發,2023,13(3):358-367.
[9] 劉佳慧.基于數據驅動的多聯機系統用能評估與診斷[D].武漢:華中科技大學,2019.
[10] 張文浩,苗苗青,姜鯤鵬,等.中國油氣資源勘探開發特點、趨勢及生態管理[J].地質與資源,2019,28(5):454-459.
[11] 張凱兵,馬東佟,孟雅蕾.基于雙源自適應知識蒸餾的輕量化圖像分類方法[J].西安工程大學學報,2023,37(4):82-91.
[12] 路兆陽.基于大數據分析的致密氣藏氣井產量預測方法研究[D].成都:西南石油大學,2019.
[13] VIKARA D,REMSON D,KHANNA V.Machine learning-informed ensemble framework for evaluating shale gas production potential:case study in the Marcellus Shale[J].Journal of Natural Gas Science and Engineering,2020,84:103679.
[14] 祝元寵,咸玉席,李清宇,等.基于大數據的頁巖氣產能預測[J].油氣井測試,2019,28(1):1-6.
[15] 紀磊,李菊花,肖佳林.隨機森林算法在頁巖氣田多段壓裂改造中的應用[J].大慶石油地質與開發,2020,39(6):168-174.
[16] 黃家宸,張金川.機器學習預測油氣產量現狀[J].油氣藏評價與開發期刊, 2021,11(4):613-620.
[17] 王建波,馮明剛,嚴偉,等.焦石壩地區頁巖儲層可壓裂性影響因素及計算方法[J].斷塊油氣田,2016,23(2):216-220,225.
[18] 陳桂華,肖鋼,徐強,等.頁巖油氣地質評價方法和流程[J].天然氣工業,2012,32(12):1-5,123.
[19] 陳桂華,肖鋼,徐強,等.頁巖油氣地質評價方法和流程[J].天然氣工業,2012,32(12):1-5,123.
[20] 馬永生,蔡勛育,趙培榮.中國頁巖氣勘探開發理論認識與實踐[J].石油勘探與開發,2018,45(4):561-574.
【通聯編輯:梁書】