陳 浩 張 超,2 徐程浩 王智林 李芳芳 尚云志 張蘇杰 李 旋
(1. 中國石油大學(北京)安全與海洋工程學院 北京 102249; 2. 中國石油遼河油田分公司勘探開發研究院 遼寧盤錦 124011;3. 中國石化江蘇油田分公司勘探開發研究院 江蘇揚州 225009; 4. 中海油能源發展股份有限公司工程技術分公司 天津 300452;5. 大慶油田有限責任公司勘探開發研究院 黑龍江大慶 163712; 6. 渤海鉆探工程有限公司井下技術服務公司 天津 300283)
致密油藏儲層物性差,孔喉結構復雜,常規直井開發經濟效益較差,多采用水平井多級壓裂技術提高產量。由于體積壓裂后,縫網結構復雜、壓裂參數與產量之間呈復雜映射關系,常規經驗公式法和數值解析法在產能預測方面效果欠佳,且對于新數據適應性弱,推廣難度大[1-5]。
隨著人工智能的迅猛發展,神經網絡、支持向量機、貝葉斯網絡、隨機森林等機器學習方法理論基礎完善、泛化性強、實際應用過程中方便快捷,相比較于傳統方法優勢明顯,逐漸在油氣產能預測領域得到廣泛應用[6-13]。2009年,葉雙江 等基于灰色關聯與神經網絡技術,對多因素非線性影響下的水平井初始產量進行了預測,相對誤差在10%以內[14];2010年,劉科 等采用最小二乘支持向量機,結合產能公式,建立了水平井產量預測的支持向量機模型[15];2012年,莊華 等采用BP神經網絡模型,結合測井數據和壓力施工參數,對朝長地區扶楊油層壓裂產量進行了預測[16];2018年,殷榮網 等利用改進的粒子群優化支持向量機算法,通過構建地質因素與產量之間的非線性映射關系,建立了油井單井產能預測模型,其預測效果要比基因遺傳神經網絡算法更優[17]。
實際應用中發現,機器學習方法的預測效果對數據本身的依賴性很強,不同機器學習方法的適應條件不同。例如,莊華 等的BP神經網絡模型對地區的依賴性較強,不完善的數據樣本會大大影響預測結果的可信度[16]。相比之下,支持向量機方法在數據量需求的方面具有獨特優勢,由于支持向量機方法自身完善的理論,可以有效處理油田實際應用中最常見的小樣本問題[18]。但是,目前在大多數的低滲透油藏水平井開發領域的應用中,主控因素通常以測井參數、地質參數和水平井參數為主,普遍缺少體積壓裂的工程參數。
大慶油田M2區塊為中淺層特低產特低豐度致密油藏,地質條件復雜、水平井體積壓裂開發單井產量差異大。針對目標油藏儲層物性普遍較差、井數偏少、影響參數復雜的開發現狀,本文首先采用皮爾森系數、斯皮爾曼系數和肯德爾系數3種方法,進行主控因素篩選和排序,在此基礎上,基于支持向量機方法,建立了具有較高精度和泛化能力的致密油藏水平井體積壓裂初期產能預測模型,以期為國內外致密油藏有效開發提出指導性建議。
參數的選取對產能預測至關重要,參數過多可能導致冗余參數的存在,影響模型預測能力,參數過少可能無法構建完善的預測模型,導致誤差增大。實際應用中,一般都需要結合多種參數篩選方法進行選擇。理想的模型應盡可能全面地涵蓋所有影響產量的因素,同時去掉冗余特征。在實際應用中選擇主控因素時,還會受到數據收集困難、模型復雜性,和計算量過大等多種條件的制約。因此,在模型構建的過程中,主控因素的篩選工作是非常必要的。
一般來說,影響致密油藏水平井體積壓裂的主要因素包括:①目的層油藏條件和物性參數,如地層壓力、孔隙度、滲透率、含油飽和度等;②壓裂改造參數,如鉆遇油層長度、鉆遇油層厚度、壓裂段數、壓裂簇數、總砂量、總液量等。結合大慶油田M2區塊實際情況可知,儲層普遍發育差、不連續、不壓裂無產量,體積壓裂后產量提升明顯。如表1所示,5個主力含油層位的地層壓力、孔隙度、滲透率、平均孔喉半徑和含油飽和度等數據均比較接近,因此,水平井體積壓裂產量主要取決于壓裂改造程度。

表1 大慶油田M2區塊地質數據
為了合理地選擇輸入特征,本文采用了皮爾森系數、斯皮爾曼系數和肯德爾系數,對輸入參數與產量之間的相關性進行了計算。3種方法的相關系數判別角度不同,其中,皮爾森系數可以很好地表現變量之間的線性相關性,但是需要數據滿足正態分布,而且數據中的異常值的存在會對關聯結果產生很大影響[19],斯皮爾曼系數和肯德爾系數是等級相關系數,這2種方法只關注變量間單調關系,不需要數據滿足正態分布,而且還可以減弱異常值對結果的影響[20]。3種相關系數計算公式如下所示:
(1)
(2)
(3)

表2為目標油藏水平井體積壓裂初期產量數據統計情況,包括壓裂后3個月內的平均日產油量數據和壓裂參數數據。盡管在儲層條件方面非常接近,但由于壓裂施工參數的差異,各井的初期產量明顯不同,在5.4~48.7 t/d。

表2 M2區塊水平井體積壓裂初期產量數據
基于皮爾森、斯皮爾曼和肯德爾3種相關系數計算方法,獲得了各參數的相關系數r(-1 表3 |r|的取值范圍與意義 對輸入特征采用3種相關系數進行計算,獲得的特征與油井產量相關排序結果匯總在表4。可以看出,在正負相關性方面3種方法的結論是一致的,均認為縫間距和產量呈負相關關系,其余因素均為正相關關系。在相關程度大小方面,肯德爾系數和斯皮爾曼系數方法的結論基本一致,而皮爾森系數的結果認為總砂量的相關程度要略小于壓裂簇數,油層厚度的相關程度要小于壓裂段數,縫間距的相關程度要大于總液量。3種方法的側重點不同,因此,為了更全面地評價輸入特征,本文綜合考慮3種相關系數的結果作為特征優選的依據。綜合分析認為,7個參數中,鉆遇油層對M2區塊致密油藏水平井體積壓裂產量的影響最大,總砂量和壓裂簇數次之,其次為油層厚度和壓裂段數,總液量和縫間距與產量的關聯度最小。 表4 不同方法的相關系數對比 大數據時代背景下,機器學習方法泛化能力強,實際問題中應用效果好,在定量預測評價領域廣受關注[21]。目前應用較廣的方法有:隨機森林、神經網絡和支持向量機等。支持向量機方法的優勢在于其計算的復雜度取決于支持向量的個數而不是樣本空間維度,所以能有效地處理高維問題,而且對于小樣本數據應用效果更好。該方法的缺點是對超參數的選取非常敏感,不同的超參數會對模型學習效果產生很大影響[22]。 圖1 支持向量機回歸原理示意圖 對于非線性問題還需要引入核函數,把樣本數據從低維空間映射到高維空間,將其轉變成線性問題進行最優求解。徑向基核函數學習能力強,計算精度高,應用最廣泛,因此本研究選用徑向基核函數[25-26]。徑向基核函數公式如下: (4) 式(4)中:K為核函數;xi與xj為輸入參數;g為核函數基寬。 不同參數之間量綱不同,數量級差異過大會導致模型構建難度增大,準確性降低。所以通常會對數據進行預處理,以此來避免不同參數之間的數值問題和量綱問題。本文分別使用未處理的原始數據和采用Z-Score標準化方法處理過的數據進行對比,發現采用標準化后的數據建立的模型運行速度更快、預測效果更好。標準化公式如下: (5) 式(5)中:X′為標準化后的數據;X為原始數據;σ為數據標準差;μ為數據均值。 主成分分析法能夠在保留數據最大信息的前提下,對數據有效降維。采用降維后的新數據作為輸入參數,可減少冗余信息干擾,提高模型計算速度[27]。本文采用PCA降維方法,基于篩選的水平井體積壓裂7個主控因素,把數據維度降低了2個維度,信息保留百分比為97.81%。因此,本文采用PCA降維方法后,可以在最大程度上保留原始數據信息的同時,有效減少了模型計算量,提高了建模速度。 模型建立的關鍵是對數據的充分學習和對超參數的尋優。主要的建模過程包括:①設定超參數區間;②劃分訓練集與測試集的數據;③選取超參數結合交叉驗證法構建模型;④評價建模效果;⑤對比選取最優超參數。 模型建立的常用方法主要有兩種。第一種方法比較簡便,首先把數據分為訓練集和測試集,訓練集數據用于學習后的模型構建,測試集數據用于模型驗證。在此基礎上,基于訓練集數據的學習效果和測試集數據的預測效果進行評價。分類模型使用分類準確率評價,回歸模型使用相對誤差來評價。這種方法雖然可以快速地搭建模型。但在訓練集和測試集劃分的時候可能出現數據劃分不合理導致的誤差;此外,由于訓練集數據僅用于學習,測試集數據僅用于檢驗,沒能充分地利用數據信息,這種方法對于數據的利用率較低。 超參數尋優方法主要有啟發式算法和最優化算法兩大類。啟發式算法主要包括基因遺傳算法和粒子群算法等,分別通過模擬生物進化的自然選擇原理和鳥群覓食行為中的群集智能原理進行篩選。啟發式算法的優點是尋優速度更快,但可能會陷入局部極值的問題。最優化算法主要是網格搜索法,它能獲得更好的尋優效果,缺點是尋優速度較慢。 本文分別對常規式和嵌入式兩種網格搜索方法進行尋優效果的對比。對比發現,常規方法尋優參數間的步長變化較大,多次尋優過程可能會錯過最優參數,因此需要多次改變參數范圍進行尋優,效率較低。相比之下,嵌入式方法通過等步長逐步尋優來獲取最優參數,尋優效率更高(表5)。 表5 核函數參數優選范圍 建模過程中,首先將原始數據集分為訓練集與測試集兩部分,其中隨機選擇4口水平井作為測試集,剩余16口水平井用來構建模型。采用網格搜索法獲得最優參數,訓練集的預測效果如圖2所示。從圖2可以看出,支持向量機方法對于訓練集數據擬合效果較好,基于支持向量機的10折法和留P法的訓練集數據誤差僅為0.79%和0.82%。 圖2 訓練集產量預測效果對比 4口驗證井的預測結果如圖3所示,支持向量機10折法預測效果較好,平均誤差為8.4%;支持向量機留P法最優,平均誤差僅為5.4%。 圖3 測試集產量預測效果對比 分析認為,目前M2區塊致密油藏仍處于開發初期,水平井體積壓裂數量有限,適合小樣本高維度的支持向量機方法預測效果較好。其中,支持向量機留P法在該階段能更加充分地利用樣本信息,非常適合初期壓裂水平井的產量預測。不足之處是隨著開發的繼續進行,井數增加,留P法會產生巨大的計算量,運算速度開始下降。因此,隨著開發井數的增加可選擇運算速度更快的支持向量機10折法,數據量的增加可以提高模型的預測能力。 為了更好驗證模型預測效果,基于本文的數據庫并結合長慶油田X井區長7致密油水平井體積壓裂的8組數據,構建產能預測模型,數據來自于文獻[28]。預測效果如圖4所示,其中,長慶油田X井區長7的6口訓練集水平井的預測產量平均相對誤差為2%,測試集兩口水平井的預測產量平均相對誤差為11%;說明構建的模型可以有效地應用于其他區塊的產能預測工作中。 圖4 長慶油田油井產量預測效果 1) 基于大慶油田M2區塊20口典型致密油體積壓裂水平井的油藏條件、儲層性質和壓裂參數,綜合采用皮爾森系數、斯皮爾曼系數和肯德爾系數進行主控因素篩選和評價。鉆遇油層和產量相關性最強,總砂量和壓裂簇數次之,之后是油層厚度和壓裂段數,總液量和縫間距與產量的關聯度最小。 2) 在數據標準化和主成分分析的預處理工作基礎上,采用支持向量機方法建立了目標油藏水平井體積壓裂產能預測模型。對比發現,支持向量機10折交叉驗證的精度較好,平均誤差為8.4%,支持向量機留P交叉驗證預測效果更好,平均相對誤差僅為5.4%。 3) 由于不同方法各有優勢,在致密油產能預測等相關領域的應用中,應該結合實際情況,進行不同開發階段的機器學習方法優選。其中,支持向量機方法適合小樣本高維度情況下的精準預測。建議在開發初期,井數較少時選用留P法;隨著開發的推進,井數增加,建議優選精度較好、運算速度更快的10折法;當數據量更為充足時,可以考慮神經網絡方法。

2 支持向量機方法的原理


3 數據預處理
3.1 數據的標準化
3.2 主成分分析(PCA)數據降維
4 模型建立
4.1 模型訓練及測試

4.2 超參數尋優

5 模型驗證與應用
5.1 模型驗證


5.2 模型應用

6 結論