張 嚴,鄭亞峰,孫四維,于 琛,王越支
(1.長江大學,湖北 武漢 430100;2.中海石油(中國)有限公司 天津分公司,天津 300000; 3.渤海鉆探工程技術研究院,天津 300000)
致密油約占我國可采石油資源的2/5,是中國未來重要石油接替資源之一。長慶油田致密油資源儲量豐富,其中隴東地區長7段儲集層是典型的致密油油藏,具有巖性致密、孔喉微小、滲流阻力大等特點[1]。為了提高壓裂后產量,需要得到明確的儲層物性參數和壓裂施工參數與產量時間的關系,建立準確的預測模型,根據預測情況進一步優化施工參數。常規油田的壓裂施工設計,主要依靠建立裂縫延伸模型并求解驗證,但影響壓裂效果因素眾多,直接建立明確的預測模型相對困難,需要許多假設簡化問題,因此這種模型很難達到理想效果[2-9]。
近年來,隨著機器學習算法的興起,支持向量機算法、人工神經網絡等多種數據挖掘方法已被油田工作者們使用在壓后產量預測中。數據挖掘方法可以從歷史井的壓裂數據中發現規律,建立更加準確的預測模型,為水平井體積壓裂方案優化設計提供有效的依據[10-14]。本文主要探討了3種數據驅動模型(彈性網絡、決策數、支持向量機),建立了長慶油田隴東地區致密油地質因素參數和施工因素與壓后產量之間的關系,評估了各模型的效果,研究各參數對產量的影響及權重。篩選了對壓后產量影響較為明顯的幾類參數,為該區域的致密油開發提供指導。
數據挖掘(Data Mining,簡稱DM),就是利用機器學習方法對生產中的數據樣本進行采集、清洗、分析、建模等,歸納、總結數據中蘊含的規律性,進而建立定性或定量的數學模型預測未知樣本的性質。從勘探井的壓裂數據特點來分析,前期可獲取的數據資料有限,能夠提取的有用的數據少,樣本數據集小。在這樣的數據基礎下,采用基于大規模數據集的數據驅動方法得不到理想的效果,故本文選用對數據體量需求較小的支持向量機回歸、彈性網絡回歸和決策樹回歸,對壓后產量進行預測。
1.1.1 彈性網絡
彈性網絡回歸(ElasticNet,簡稱EN)是對Lasso回歸和嶺回歸的融合,嶺回歸是在標準線性回歸的基礎上加入了一個正則項(平方偏差因子),使得優化函數變成min‖xω-y‖2+z‖ω‖2。而Lasso回歸與嶺回歸非常相似,也是在優化函數中增加了一個偏置項以減少共線性的影響。不同的是,Lasso回歸中使用了絕對值偏差作為正則化項,其優化函數為min‖xω-y‖2+z‖ω‖2,這同樣使得模型的泛化能力變強,可以幫助解決模型“過擬合”的問題。
1.1.2 決策樹
決策樹(Decision Tree Regression,簡稱DTR)模型的基本算法是貪心算法(自頂向下遞歸分治法),算法一般分為2個階段:樹的生成和剪枝,后者是去掉樹中不必要的分支,解決“過學習”問題。實際應用中的決策樹可能非常復雜,但是即使復雜,每一條從根結點到葉子結點路徑的含義仍然可以理解,精度較高。決策樹的這種易理解性,對數據挖掘的使用者來說是一個顯著的優點。因此,決策樹在知識發現系統中應用較廣。
1.1.3 支持向量回歸
支持向量回歸(Support Vector Regression,簡稱SVR)的基本算法就是尋找一堆數據的內在關系,通過在高緯度擬合數據,算法可以得到1個公式,當給個新的輸入值時,能夠求得1個新的輸出值。SVR回歸與傳統回歸方法的最大差異為:傳統回歸方法要求當且僅當回歸的f(x)完全等于y時才認為是預測正確,而支持向量回歸則認為只要是f(x)與y偏離程度在一定范圍內,即認為預測正確。具體的就是設置一個閾值α,計算|f(x)-y|>α的數據點的損失。
對于SVR而言,最重要的參數是內核類型,一般包括線性內核(Linear)、多項式內核(Poly)、雙曲正切核(Sigmoid)和高斯徑向基(Gaussian Radial Basis Function,簡稱RBF)等。由于油藏數據存在非線性問題,因此選擇RBF作為核函數,主要影響RBF的參數有懲罰系數C和核參數γ。
1.2.1 模型對比
為了評價3種模型對壓裂優化問題回歸效果的優劣,利用交叉驗證的方法。選擇了95口油井,其中85口油井作為訓練集數據,剩余10口油井作為測試集數據。分別對支持向量機模型、彈性網絡模型和決策樹模型進行訓練,并將10口油井數據作為輸入,預測其壓后產量,模型回歸誤差見表1。同時,為了能夠直接觀察出模型回歸效果的優劣,將訓練集數據與測試集數據對比,3種模型評價如圖1所示。

表1 3種模型的回歸效果對比Tab.1 Comparison of the regression effects of the three models
對回歸模型的方差、平均絕對誤差、均方差和判定系數四項評價指標檢驗機器學習模型的效果。模型效果評價得分見表2,對比可以發現,支持向量回歸與決策樹回歸效果優于彈性網絡回歸。

表2 模型效果評價得分Tab.2 Evaluation scores of model effect indicators
根據上述評價效果,支持向量機算法的整體性能最好,可以發現它對小樣本、非線性的復雜數據更具有其獨特的優勢,所以選擇支持向量機算法對致密油儲層的壓裂效果進行探索性分析,以得到與現場結果相符的定性分析和定量預測模型,為壓裂施工提供參考依據。
1.2.2 參數選擇
參數優化結果如圖2所示,采用網格搜索(Grid Search)中的方法來確定支持向量機算法的最佳懲罰因子C和核參數γ,也就是在C和γ組成的二維參數矩陣中,依次實驗每對參數的效果。首先給定最佳懲罰因子C和核參數γ的范圍為(2-10,210.2)和(2-10,28.2),步長均為0.2。然后通過繪制x軸是C值、y軸是γ值、z軸是模型回歸方差得分的3D圖,尋找z軸最大值對應的參數值,最終確定C=0.5,γ=0.09。

圖2 參數優化結果Fig.2 Parameter optimization results
為了較為全面地分析出影響該地區壓后產量的典型因素,對隴東地區3個區塊、分布在6個層位、最長投產7 a的136口井進行了數據分析,以確定產量預測模型輸入參數數量,首先通過對收集的參數與產量之間關系進行定性分析,找到影響壓裂效果的因素中的主因。
理論上,水平段長度是影響產能的重要因素,隨著水平段長度的增加,水平井的產能迅速增加。在致密油開采過程中,水平段長度對第1年累計產量、整體累計產量的影響如圖3所示。從圖3可以看出,新井水平段長度一般大于1 500 m,老井水平段長度一般小于1 000 m;水平段長度對累積產量有明顯的1∶1關系,即水平段長度平均增加1倍,累積產量平均增加1倍。因此,目前使用的水平段長度仍有增加空間,未達到會因井下流量過大而限制最終產量的長度。后續分析需采用單位水平段長度的累積產油量才能去除水平段長度影響,從而獲得其他參數對產量的影響。接著分析了單位水平段長度的累積產油量與支撐劑、壓裂液、段間距、簇間距等參數之間的關系。

圖3 水平段長度對第1年累計產量、整體累計產量的影響Fig.3 Effect of length of horizontal section on cumulative output of the first year and overall cumulative production
通過研究區塊中的136口油井,發現主要使用5種支撐劑,包括20/40目石英砂(A)、20/40,40/70目石英砂(B)、20/40目石英砂、40/70目低密度陶粒(C)、20/40目石英砂40/70目石英砂20/40目固結砂(D)和石英砂20/40目低密度陶粒(E)。5種支撐劑單位水平段長度的平均累產油與生產天數的關系如圖4所示。

圖4 5種支撐劑單位水平段長度平均累計產油量Fig.4 Average cumulative oil production per unit horizontal section length under five types of proppant conditions
由圖4可以發現,針對近3年的新井,前3種(A、B)支撐劑效果差別不大,第3種(C)支撐劑效果明顯比前2種較差。
針對壓裂液與產量的分析,選取了多數油井使用的4種壓裂液和對應井的累計產油量進行分析。4種壓裂液條件下每單位水平段長度的平均累計產油量如圖5所示。4種壓裂液體系包括EM30S(A)、EM30(B)、EM30滑溜水+胍膠(C)和胍膠(D)。從趨勢來看,C、D類壓裂液效果普遍較最差,胍膠效果差異較大,A類壓裂液效果相對較好。

圖5 4種壓裂液條件下每單位水平段長度的平均累計產油量Fig.5 Average cumulative oil production per unit horizontal section length under four fracturing fluid conditions
段間距對第1年產量、整體累計產量的影響如圖6所示。段間距與第1年單位水平段長度累積產量呈負相關,40~140 m,隨著段間距減小,平均累積產量明顯增加;低于40 m后,進一步減小段間距對產量無明顯影響。

圖6 段間距對第1年產量、整體累計產量的影響Fig.6 Effect of segment spacing on the cumulative output of the first year and overall cumulative production
簇間距對第1年產量、整體累計產量的影響如圖7所示。第1年簇間距與累積產量呈負相關,3~50 m,隨著簇間距減小,平均累積產量明顯增加;低于10 m后,進一步減小簇間距對產量無明顯影響。

圖7 簇間距對第1年產量、整體累計產量的影響Fig.7 Effect of cluster spacing on the cumulative output of the first year and overall cumulative production
孔隙度對第1年產量、整體累計產量的影響如圖8所示。滲透率對第1年產量、整體累計產量的影響如圖9所示。含油飽和度對第1年產量、整體累計產量的影響如圖10所示。從圖8可以發現,孔隙度與總體平均累計產量有較明顯的正相關關系。從圖9可以發現,累計生產1年的油井滲透率低于0.4×10-3μm。滲透率與第1年平均累計產量有微弱的相關關系,但滲透率與總體平均累計產量有較明顯的正相關關系。從圖10可以發現,累計生產1年的油井含油飽和度低于60%。含油飽和度與第1年平均累計產量有微弱的相關關系,但含油飽和度與總體平均累計產量有較明顯的正相關關系。

圖8 孔隙度對第1年產量、整體累計產量的影響Fig.8 Effect of porosity on the cumulative output of the first year and overall cumulative production

圖9 滲透率對第1年產量、整體累計產量的影響Fig.9 Effect of permeability on the cumulative output of the first year and overall cumulative production

圖10 含油飽和度對第1年產量、整體累計產量的影響Fig.10 Effect of oil saturation on the cumulative output of the first year and overall cumulative production
理論上,壓裂裂縫的幾何尺寸和導流能力會直接影響到壓后產量,在壓裂設計和優化施工參數時,需要考慮的主要問題就是如何形成更優的裂縫幾何尺寸。通過調整人為可控的壓裂施工參數優化裂縫幾何尺寸,以期得到更優的壓后產量。壓裂施工的規模是一個重要因素,但是從施工的情況來看,大規模的壓裂施工并不一定適合致密油儲層,而且施工規模也沒有表現出與壓后產量有很強的相關性。需要確定不同影響因素的權重,減少數據特征的類別,降低模型復雜度,用于篩選對壓后產量影響較為明顯的施工參數。
熵值法的基本思路是根據指標變異性的大小來確定客觀權重,利用該方法[15],通過計算排量、水平段長度、支撐劑類型及規格、壓裂液體系、段間距、簇間距、設計水力半縫長和累計生產月份,共8個影響因素與累計產油量的關聯系數,得到各個因素的影響程度排序,預測模型的特征優先排序如圖11所示。

圖11 預測模型的特征優先排序Fig.11 Feature prioritization of prediction model
(1)本文針對長慶油田隴東地區致密砂巖區塊提出了一種數據挖掘的壓后產量預測方法,對比了評估彈性網絡回歸、決策樹回歸和支持向量回歸3種建模方法,對于小樣本、非線性的復雜數據,數據挖掘更具其獨特的優勢,極大地拓展了壓裂評價的方法,具有工程應用前景。
(2)利用數據挖掘的產量預測方法分析了各參數對壓后產量的影響,并計算了各參數的影響權重,可為壓裂參數設計提供指導。
(3)缺乏足量且優質的數據是壓后產量預測方法面臨的最大問題,雖然通過數據篩選、特征拾取可以提高模型的預測精度,但如果需要進一步提高預測性能,還需要對數據進行擴容和完善。